phpbar.de logo

Mailinglisten-Archive

[php] bad-word-list

[php] bad-word-list

Joerg Behrens php_(at)_phpcenter.de
Fri, 10 May 2002 11:52:14 +0200


----- Original Message -----
From: "Dr. Volker Göbbels" <vmg_(at)_arachnion.de>
To: <php_(at)_phpcenter.de>
Sent: Friday, May 10, 2002 11:15 AM
Subject: Re: [php] bad-word-list


> Ahoi Ritze ;)
>
> > Haengt sicher auch von der Menge "bad-words" ab. Wenn das Teil nicht
> > wirklich gross wird, scheint mir ein Array statt einem Vergleich durch
> > die BD sinnvoller (auch beispielsweise wegen Wortkombinationen). Wie Du
> > dieses Array ablegst, erscheint mir erstmal zweitrangig, weil sich das
> > hinterher ja fix aendern laesst. Filesystem wuerde ich nicht von
> > vornherein ablehnen. Ich hatte mal einen Kunden, der wollte seine Liste
> > unbedingt mit nem Texteditor "ansehen" koennen.
>
> Unser SOAP-basierter Fast Indexer hat eine Stopwords-Liste als
> Plaintextfile auf der Platte liegen. 1 Wort pro Zeile. Das haut er sich
> während der Initialisierung einmal mit file() in ein Array und
> schmeißt dann alle Stopwords aus den Suchworten mit einem array_filter()
> raus. Das geht _sehr_ fix.

Diese vorgehensweise wird auch bei Mnogosearch empfohlen. Hintergrund ist
wohl aber der, das beim Indizieren der Texte, die DB entlastet werden soll.
Spaeter zur Suche dann kann man ohne Probleme in der DB nachschlagen um
Stopwoerter abzufangen bevor man damit die Query auf die Gesamtmenge
loslaesst.

Gruss
Joerg Behrens


php::bar PHP Wiki   -   Listenarchive