Mailinglisten-Archive |
Hallo, >> Unser SOAP-basierter Fast Indexer hat eine Stopwords-Liste als >> Plaintextfile auf der Platte liegen. 1 Wort pro Zeile. Das haut er sich >> während der Initialisierung einmal mit file() in ein Array und >> schmeißt dann alle Stopwords aus den Suchworten mit einem array_filter() >> raus. Das geht _sehr_ fix. > > Diese vorgehensweise wird auch bei Mnogosearch empfohlen. Hintergrund ist > wohl aber der, das beim Indizieren der Texte, die DB entlastet werden > soll. Spaeter zur Suche dann kann man ohne Probleme in der DB > nachschlagen um Stopwoerter abzufangen bevor man damit die Query auf die > Gesamtmenge loslaesst. Hm, keine schlechte Idee. Man muß die Stopwords ja wirklich 2x abfangen. Einmal beim Indizieren der Datei-Inhalte und einmal beim Suchvorgang des Users. Ich war jetzt von halbwegs intelligenten Usern ausgegangen. Jaja, ich weiß, der intelligente User .... Viele Grüße, Volker Göbbels --- Arachnion GmbH & Co. KG Dr. Volker Göbbels Business Communication vmg_(at)_arachnion.de Gouleystr. 59 Tel. +49 (0) 2405 42477-0 52146 Würselen Fax +49 (0) 2405 42477-2 Web Application Development, Consulting, Linux HA Cluster Kompetenz in Unix: http://www.arachnion.de
php::bar PHP Wiki - Listenarchive