Mailinglisten-Archive |
Ahoi Ritze ;)
> Haengt sicher auch von der Menge "bad-words" ab. Wenn das Teil nicht
> wirklich gross wird, scheint mir ein Array statt einem Vergleich durch
> die BD sinnvoller (auch beispielsweise wegen Wortkombinationen). Wie Du
> dieses Array ablegst, erscheint mir erstmal zweitrangig, weil sich das
> hinterher ja fix aendern laesst. Filesystem wuerde ich nicht von
> vornherein ablehnen. Ich hatte mal einen Kunden, der wollte seine Liste
> unbedingt mit nem Texteditor "ansehen" koennen.
Unser SOAP-basierter Fast Indexer hat eine Stopwords-Liste als
Plaintextfile auf der Platte liegen. 1 Wort pro Zeile. Das haut er sich
während der Initialisierung einmal mit file() in ein Array und
schmeißt dann alle Stopwords aus den Suchworten mit einem array_filter()
raus. Das geht _sehr_ fix.
>> regex scheint mir am sinnvollsten, versuch garnicht erst, eine
>
> Case-insensitiver Stringvergleich duerfte dann schneller sein.
Allerdings. Regexe nur, wenn wenig Suchvolumen aber viel Flexibilität
oder extrem komplexe Suchkriterien erwünscht sind. Einfache Wortvergleiche
sind da falsch aufgehoben ;)
Viele Grüße,
Volker Göbbels
---
Arachnion GmbH & Co. KG Dr. Volker Göbbels
Business Communication vmg_(at)_arachnion.de
Gouleystr. 59 Tel. +49 (0) 2405 42477-0
52146 Würselen Fax +49 (0) 2405 42477-2
Web Application Development, Consulting, Linux HA Cluster
Kompetenz in Unix: http://www.arachnion.de
php::bar PHP Wiki - Listenarchive