phpbar.de logo

Mailinglisten-Archive

[php] bad-word-list

[php] bad-word-list

Dr. Volker Göbbels php_(at)_phpcenter.de
Fri, 10 May 2002 11:59:32 +0200


Hallo,

>> Unser SOAP-basierter Fast Indexer hat eine Stopwords-Liste als
>> Plaintextfile auf der Platte liegen. 1 Wort pro Zeile. Das haut er sich
>> während der Initialisierung einmal mit file() in ein Array und
>> schmeißt dann alle Stopwords aus den Suchworten mit einem array_filter()
>> raus. Das geht _sehr_ fix.
>
> Diese vorgehensweise wird auch bei Mnogosearch empfohlen. Hintergrund ist
> wohl aber der, das beim Indizieren der Texte, die DB entlastet werden
> soll. Spaeter zur Suche dann kann man ohne Probleme in der DB
> nachschlagen um Stopwoerter abzufangen bevor man damit die Query auf die
> Gesamtmenge loslaesst.

Hm, keine schlechte Idee. Man muß die Stopwords ja wirklich 2x abfangen.
Einmal beim Indizieren der Datei-Inhalte und einmal beim Suchvorgang des
Users. Ich war jetzt von halbwegs intelligenten Usern ausgegangen.
Jaja, ich weiß, der intelligente User ....

Viele Grüße,
Volker Göbbels
---
Arachnion GmbH & Co. KG                  Dr. Volker Göbbels
Business Communication                     vmg_(at)_arachnion.de
Gouleystr. 59                     Tel. +49 (0) 2405 42477-0
52146 Würselen                     Fax +49 (0) 2405 42477-2
 Web Application Development, Consulting, Linux HA Cluster
        Kompetenz in Unix: http://www.arachnion.de


php::bar PHP Wiki   -   Listenarchive