phpbar.de logo

Mailinglisten-Archive

[php] [OT] Vereinfachte Sucheingabe

[php] [OT] Vereinfachte Sucheingabe

Christoph Jeschke christoph.jeschke at gmail.com
Fre Mar 24 19:01:27 CET 2006


Hendrik Bauer schrieb:

> Ich versuche gerade, eine Suche um zu setzen. An sich ganz einfach,
> wenn es nicht moeglich sein muesste, Umlaute auch (wie ich mit
> US-Tastatur) als 'ue', 'ae', 'oe' ein zu geben. Das Problem ist, dass
> nicht allgemeingueltig mit dem entsprechend &xuml; ausgetauscht werden
> kann, da Worte wie 'Frauen', 'klauen' ... dadurch unbrauchbar werden.

Ich würde die Sonderzeichen sicher nicht zu Entities umwandeln. Entities
haben hinter Auszeichnungssprachen nichts verloren und stören nur.

> Hatte vielleicht hier bereits jemand die gleiche Aufgabe und eine
> umfangreiche List/Dictionary gefunden, welches diese Worte enthaelt.
> Gleiches gilt fuer den Fall 'ss' im Wort, wo ein ß hin muss in
> verschiedenen Faellen.

Nein, aber mir fallen spontan pspell und agrep ein, andere
Vergleichsfunktionen wurden ja bereits vorgeschlagen.

Ohne hier in Details gehen zu wollen, könnte man eine Wortliste von
pspell nehmen, alle Wörter mit Umlauten und Ligaturen filtern, diese in
die Grundform (oe, ae, ue, sz) konvertieren und einen Filter für diese
einbauen.

Vielleicht leistet pspell_suggest auch schon genügend, um deine
Anforderungen zu erfüllen. Das müsstest Du mal testen.

Ansonsten lass dir gesagt sein, dass so ziemlich alles, was mit Sprache
zu tun hat, ziemlich komplex, langsam und erstaunlich wenig entwickelt ist.

Lucene wäre ein weiteres Stichwort. Wir[0] benutzen diese und sind damit
sehr zufrieden. Inzwischen gibt es auch eine Anbindung an PHP für diese.
Ein kleiner Test mit einer der Applikationen und den Worten "stör" und
"stoer" brachte identische Resultate.

[0] $firma.


php::bar PHP Wiki   -   Listenarchive