Mailinglisten-Archive |
This is a multi-part message in MIME format. --------------A073988F2FC65298D1913E2F Content-Type: text/plain; charset=iso-8859-1 Content-Transfer-Encoding: 8bit Hallo Norbert, > het jemand die http://www.devshed.com/.../noisewords.txt > vielleicht schon mal in die deutsche Sprache umgesetzt ? > IMHO muessen es ja wesentlich mehr 'noisewords' werden. Das ist nicht so schwierig. Allerdings sollte man dran denken, dass die Ausfiltrierung vieler Stoppworte die Suche nach Phrasen nahezu unmöglich macht (falls man sowas vorsehen will/kann). Es ist also immer ein Jonglieren zwischen Grenzbereichen von Möglichkeiten und Limitationen, anders gesagt: aus einem Feature kann schnell auch ein Bug werden und umgekehrt. :) Unten dran ist eine kleine Liste möglicher Stoppworte. So was ist weder schwer zu machen noch schwierig zu erweitern. Besser wäre es, man hätte Thesauri, Wortstammreduktionen etc. Dafür wird man professionelle Librarys benötigen. Leider sind mir solche nicht bekannt, weder für den PD/OS-Bereich, noch käufliche, die man ohne weiteres einbinden kann. Alles andere kriegt man schon hin, Frage ist bloss, ob besonders effizient. Mit freundlichen Grüßen, Oliver Kummerow email: naklar_(at)_altavista.net --------------A073988F2FC65298D1913E2F Content-Type: text/plain; charset=us-ascii; name="stoppworte.txt" Content-Transfer-Encoding: 7bit Content-Disposition: inline; filename="stoppworte.txt" ein eine einer einem der dem die das den wo wer wie was warum wieso in im zu zum zur um an am mit von auf ist sind bist sein seid werden würde würden würdet wird wurde wurden wurdet war hat hast haben hatte hatten hattet hätte hättet hätten gehabt hier dort wir ihr du er sie es ja nein nicht doch und oder aber jedoch noch immer auch dies diese dieser diesem dieses diesen --------------A073988F2FC65298D1913E2F--
php::bar PHP Wiki - Listenarchive