Mailinglisten-Archive |
Hallo,
>> Unser SOAP-basierter Fast Indexer hat eine Stopwords-Liste als
>> Plaintextfile auf der Platte liegen. 1 Wort pro Zeile. Das haut er sich
>> während der Initialisierung einmal mit file() in ein Array und
>> schmeißt dann alle Stopwords aus den Suchworten mit einem array_filter()
>> raus. Das geht _sehr_ fix.
>
> Diese vorgehensweise wird auch bei Mnogosearch empfohlen. Hintergrund ist
> wohl aber der, das beim Indizieren der Texte, die DB entlastet werden
> soll. Spaeter zur Suche dann kann man ohne Probleme in der DB
> nachschlagen um Stopwoerter abzufangen bevor man damit die Query auf die
> Gesamtmenge loslaesst.
Hm, keine schlechte Idee. Man muß die Stopwords ja wirklich 2x abfangen.
Einmal beim Indizieren der Datei-Inhalte und einmal beim Suchvorgang des
Users. Ich war jetzt von halbwegs intelligenten Usern ausgegangen.
Jaja, ich weiß, der intelligente User ....
Viele Grüße,
Volker Göbbels
---
Arachnion GmbH & Co. KG Dr. Volker Göbbels
Business Communication vmg_(at)_arachnion.de
Gouleystr. 59 Tel. +49 (0) 2405 42477-0
52146 Würselen Fax +49 (0) 2405 42477-2
Web Application Development, Consulting, Linux HA Cluster
Kompetenz in Unix: http://www.arachnion.de
php::bar PHP Wiki - Listenarchive