phpbar.de logo

Mailinglisten-Archive

[php] String auf doppelte Werte prüfen

[php] String auf doppelte Werte prüfen

Nico Haase nico.haase at gmx.de
Sam Sep 5 18:04:11 CEST 2009


Moin,
unter
http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Longest_common_substring
gibt es Beispiele dazu, das zu erkennen. Bei den Algorithmen bin ich mir mit
der Zuordnung nicht sicher, aber letztendlich basiert das auf dem Aufbau von
Suffix-Trees. Unter http://www.allisons.org/ll/AlgDS/Tree/Suffix/ wird
formal erklärt, wie's dabei zugeht.
Offen bleibt aber die Definition des längsten Mehrfachwerts. Die
Standardalgorithmen arbeiten buchstabenweise, würden also statistisch ein e,
n, i, - also zunächst mal einen Buchstaben liefern. Es sollte aber simpel
möglich sein, die Methoden wortweise arbeiten zu lassen, also den
Suffix-Tree nicht Zeichen für Zeichen, sondern eben Wort für Wort zu füttern.
Grüße
Nico

Alex Hoffer schrieb:
> Hi,
> 
> ich müßte einen String auf doppelte Wörter prüfen und die 
> Wahrscheinlichkeit, dass es sich um doppelte Inhalte handelt mit einem 
> prozentualen Wert angeben. Leider weiss ich nicht so ganz wie ich das am 
> geschicktesten realisieren könnte. Evtl. kann mir jemand mit einem 
> Denkanstoß behilflich sein?
> 
> Folgendes Bsp. Ich habe einen String wie z.B.
> ---
> $text = "Hier steht ein Satz der in Ordnung ist.";
> ---
> 
> Nun möchte ich prüfen, ob in diesem String häufig oder immer das Gleiche 
> geschrieben steht. Folgende Beispiele sollten z.B. als doppelt erknnt 
> werden.
> ---
> $text = "Hier steht ein Satz der in Ordnung ist.Hier steht ein Satz der 
> in Ordnung ist.Hier steht ein Satz der in Ordnung ist. Hier steht ein 
> Satz der in Ordnung ist. Hier steht ein Satz der in Ordnung ist.";
> ---
> oder
> ---
> Hier steht ein Satz der in Ordnung ist.Hier steht ein Satz der in 
> Ordnung ist.Hier steht ein Satz der in Ordnung ist. Hier steht ein Satz 
> der in Ordnung ist. Hier steht ein Satz der in Ordnung ist.";
> ---
> 
> Gut wäre noch eine prozentuale Angabe wie wahrscheinlich es ist, dass 
> der String doppelte Wörter/Inhalte enthält.
> 
> Grüße
> Alex Hoffer

php::bar PHP Wiki   -   Listenarchive