Mailinglisten-Archive |
Hendrik Bauer schrieb: > Ich versuche gerade, eine Suche um zu setzen. An sich ganz einfach, > wenn es nicht moeglich sein muesste, Umlaute auch (wie ich mit > US-Tastatur) als 'ue', 'ae', 'oe' ein zu geben. Das Problem ist, dass > nicht allgemeingueltig mit dem entsprechend &xuml; ausgetauscht werden > kann, da Worte wie 'Frauen', 'klauen' ... dadurch unbrauchbar werden. Ich würde die Sonderzeichen sicher nicht zu Entities umwandeln. Entities haben hinter Auszeichnungssprachen nichts verloren und stören nur. > Hatte vielleicht hier bereits jemand die gleiche Aufgabe und eine > umfangreiche List/Dictionary gefunden, welches diese Worte enthaelt. > Gleiches gilt fuer den Fall 'ss' im Wort, wo ein ß hin muss in > verschiedenen Faellen. Nein, aber mir fallen spontan pspell und agrep ein, andere Vergleichsfunktionen wurden ja bereits vorgeschlagen. Ohne hier in Details gehen zu wollen, könnte man eine Wortliste von pspell nehmen, alle Wörter mit Umlauten und Ligaturen filtern, diese in die Grundform (oe, ae, ue, sz) konvertieren und einen Filter für diese einbauen. Vielleicht leistet pspell_suggest auch schon genügend, um deine Anforderungen zu erfüllen. Das müsstest Du mal testen. Ansonsten lass dir gesagt sein, dass so ziemlich alles, was mit Sprache zu tun hat, ziemlich komplex, langsam und erstaunlich wenig entwickelt ist. Lucene wäre ein weiteres Stichwort. Wir[0] benutzen diese und sind damit sehr zufrieden. Inzwischen gibt es auch eine Anbindung an PHP für diese. Ein kleiner Test mit einer der Applikationen und den Worten "stör" und "stoer" brachte identische Resultate. [0] $firma.
php::bar PHP Wiki - Listenarchive