phpbar.de logo

Mailinglisten-Archive

[php] searchengine

[php] searchengine

Oliver Kummerow naklar_(at)_altavista.net
Sat, 04 Dec 1999 14:35:48 +0100


This is a multi-part message in MIME format.
--------------A073988F2FC65298D1913E2F
Content-Type: text/plain; charset=iso-8859-1
Content-Transfer-Encoding: 8bit

Hallo Norbert,


> het jemand die http://www.devshed.com/.../noisewords.txt
> vielleicht schon mal in die deutsche Sprache umgesetzt ?
> IMHO muessen es ja wesentlich mehr 'noisewords' werden.

Das ist nicht so schwierig. Allerdings sollte man dran denken, dass die
Ausfiltrierung vieler Stoppworte die Suche nach Phrasen nahezu
unmöglich macht (falls man sowas vorsehen will/kann). Es ist also immer
ein Jonglieren zwischen Grenzbereichen von Möglichkeiten und
Limitationen, anders gesagt: aus einem Feature kann schnell auch ein Bug
werden und umgekehrt. :)
 
Unten dran ist eine kleine Liste möglicher Stoppworte. So was ist weder
schwer zu machen noch schwierig zu erweitern. Besser wäre es,
man hätte Thesauri, Wortstammreduktionen etc. Dafür wird man
professionelle Librarys benötigen. Leider sind mir solche nicht bekannt,
weder für den PD/OS-Bereich, noch käufliche, die man ohne weiteres
einbinden kann. 
Alles andere kriegt man schon hin, Frage ist bloss, ob besonders
effizient.


Mit freundlichen Grüßen,
Oliver Kummerow
email: naklar_(at)_altavista.net
--------------A073988F2FC65298D1913E2F
Content-Type: text/plain; charset=us-ascii;
 name="stoppworte.txt"
Content-Transfer-Encoding: 7bit
Content-Disposition: inline;
 filename="stoppworte.txt"

ein
eine
einer
einem
der
dem
die
das
den
wo
wer
wie
was
warum
wieso
in
im
zu
zum
zur
um
an
am
mit
von
auf
ist
sind
bist
sein
seid
werden
würde
würden
würdet
wird
wurde
wurden
wurdet
war
hat
hast
haben
hatte
hatten
hattet
hätte
hättet
hätten
gehabt
hier
dort
wir
ihr
du
er
sie
es
ja
nein
nicht
doch
und
oder
aber
jedoch
noch
immer
auch
dies
diese
dieser
diesem
dieses
diesen

--------------A073988F2FC65298D1913E2F--



php::bar PHP Wiki   -   Listenarchive