Mailinglisten-Archive |
Sebastian Mendel wrote: > ja, aber wo ist das Problem mit deiner Aufgabenstellung? > Splitten, Filtern, Fertig. schade, habe ich wohl nicht extra dazu gesagt, dass sich daraus später ein sinnvoller Suchindex daraus ergeben soll? Wofür filtert man sonst Stoppwörter aus. > Suchst du noch eine Stoppwort-Liste? Nein, die habe ich bereits, danke. > Satzzeichen und Operatoren gelten nicht als '\w' Sie geben aber unter Umständen wertvolle Informationen. >> Man muss ja auch noch die Satzzeichen ausfiltern und sich überlegen, >> wie man mit Bindestrichen etc. umgeht. Und manche Satzzeichen sollte man gar nicht ausfiltern, oder nur unter bestimmten Bedingungen: "Gastredner waren Dr. Müller und Dr. Meyer" Da bietet sich doch förmlich an, "Dr. Müller" als Einheit zu speichern. Sonst bliebe von dem Dr. nichts übrig. Natürlich kann ich mir das alles selbst programmieren. An anderer Stelle hast Du mir aber erklärt, dass man was Fertiges zu nehmen hat. Nach einer fertigen Lösung, die mehr kann als Wörter trennen, habe ich gefragt. > \w schon mal probiert in einem regex? Ich mach das nicht erst seit gestern. Black&Decker, 1&1, "Dresdner Bank" Wie weit komme ich da mit Deinem Vorschlag? Ich habe in der letzen Mail klar gemacht, dass ich etwas Intelligenteres suche. [...] > ach eben waren wir ncoh bei einem Deutschen String, jetzt haben wir > schon HTML-Entities ... Ich danke Dir sehr für Deine bisherigen Hilfestellungsversuche. Bemüh Dich bitte nicht weiter. VG Peter
php::bar PHP Wiki - Listenarchive