Mailinglisten-Archive |
Moin, unter http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Longest_common_substring gibt es Beispiele dazu, das zu erkennen. Bei den Algorithmen bin ich mir mit der Zuordnung nicht sicher, aber letztendlich basiert das auf dem Aufbau von Suffix-Trees. Unter http://www.allisons.org/ll/AlgDS/Tree/Suffix/ wird formal erklärt, wie's dabei zugeht. Offen bleibt aber die Definition des längsten Mehrfachwerts. Die Standardalgorithmen arbeiten buchstabenweise, würden also statistisch ein e, n, i, - also zunächst mal einen Buchstaben liefern. Es sollte aber simpel möglich sein, die Methoden wortweise arbeiten zu lassen, also den Suffix-Tree nicht Zeichen für Zeichen, sondern eben Wort für Wort zu füttern. Grüße Nico Alex Hoffer schrieb: > Hi, > > ich müßte einen String auf doppelte Wörter prüfen und die > Wahrscheinlichkeit, dass es sich um doppelte Inhalte handelt mit einem > prozentualen Wert angeben. Leider weiss ich nicht so ganz wie ich das am > geschicktesten realisieren könnte. Evtl. kann mir jemand mit einem > Denkanstoß behilflich sein? > > Folgendes Bsp. Ich habe einen String wie z.B. > --- > $text = "Hier steht ein Satz der in Ordnung ist."; > --- > > Nun möchte ich prüfen, ob in diesem String häufig oder immer das Gleiche > geschrieben steht. Folgende Beispiele sollten z.B. als doppelt erknnt > werden. > --- > $text = "Hier steht ein Satz der in Ordnung ist.Hier steht ein Satz der > in Ordnung ist.Hier steht ein Satz der in Ordnung ist. Hier steht ein > Satz der in Ordnung ist. Hier steht ein Satz der in Ordnung ist."; > --- > oder > --- > Hier steht ein Satz der in Ordnung ist.Hier steht ein Satz der in > Ordnung ist.Hier steht ein Satz der in Ordnung ist. Hier steht ein Satz > der in Ordnung ist. Hier steht ein Satz der in Ordnung ist."; > --- > > Gut wäre noch eine prozentuale Angabe wie wahrscheinlich es ist, dass > der String doppelte Wörter/Inhalte enthält. > > Grüße > Alex Hoffer
php::bar PHP Wiki - Listenarchive