phpbar.de logo

Mailinglisten-Archive

[php] bad-word-list

[php] bad-word-list

Dr. Volker Göbbels php_(at)_phpcenter.de
Fri, 10 May 2002 11:15:48 +0200


Ahoi Ritze ;)

> Haengt sicher auch von der Menge "bad-words" ab. Wenn das Teil nicht
> wirklich gross wird, scheint mir ein Array statt einem Vergleich durch
> die BD sinnvoller (auch beispielsweise wegen Wortkombinationen). Wie Du
> dieses Array ablegst, erscheint mir erstmal zweitrangig, weil sich das
> hinterher ja fix aendern laesst. Filesystem wuerde ich nicht von
> vornherein ablehnen. Ich hatte mal einen Kunden, der wollte seine Liste
> unbedingt mit nem Texteditor "ansehen" koennen.

Unser SOAP-basierter Fast Indexer hat eine Stopwords-Liste als
Plaintextfile auf der Platte liegen. 1 Wort pro Zeile. Das haut er sich
während der Initialisierung einmal mit file() in ein Array und
schmeißt dann alle Stopwords aus den Suchworten mit einem array_filter()
raus. Das geht _sehr_ fix.

>> regex scheint mir am sinnvollsten, versuch garnicht erst, eine
>
> Case-insensitiver Stringvergleich duerfte dann schneller sein.

Allerdings. Regexe nur, wenn wenig Suchvolumen aber viel Flexibilität
oder extrem komplexe Suchkriterien erwünscht sind. Einfache Wortvergleiche
sind da falsch aufgehoben ;)

Viele Grüße,
Volker Göbbels
---
Arachnion GmbH & Co. KG                  Dr. Volker Göbbels
Business Communication                     vmg_(at)_arachnion.de
Gouleystr. 59                     Tel. +49 (0) 2405 42477-0
52146 Würselen                     Fax +49 (0) 2405 42477-2
 Web Application Development, Consulting, Linux HA Cluster
        Kompetenz in Unix: http://www.arachnion.de


php::bar PHP Wiki   -   Listenarchive