phpbar.de logo

Mailinglisten-Archive

[php] Doppelte ähnliche Texte abfangen?

[php] Doppelte ähnliche Texte abfangen?

Ringo Großer swek at gmx.net
Mit Nov 29 14:40:16 CET 2006


Hallo,

Philipp Groszmann wrote:
> Moin Andreas,
>
> mit keinem habe ich Erfahrung, aber es gibt da
> http://www.php.net/manual/de/function.similar-text.php
> und
> http://www.php.net/manual/de/function.levenshtein.php

Wobei man das Levenshtein auch als UDF direkt in MySQL
einkompilieren kann, vorausgesetzt man hat entsprechenden
Zugriff auf den Webserver.
Damit würde man den Aufwand auf die Datenbank übertragen
und muss nicht sämtliche Nachrichten eines User erst holen
und in PHP verarbeiten.

Wie die Performance von Levenshtein auf lange Texte reagiert,
hab ich leider auch keine Erfahrung. Mit einzelnen Wörtern
liefert es zumindest einen Abstand und man könnte gegen eine
festgelegte Toleranzgrenze prüfen.

Mit similar_text leider auch noch keine Erfahrung, klingt aber
genau danach, was hier untersucht werden soll. Allerdings
sehe ich auch hier ein Performance oder Speicherproblem,
wenn es um viele und lange Texte geht, die mit PHP verarbeitet
werden sollen. Vielleicht kennt MySQL etwas Gleiches oder
Ähnliches?

regards, Ringo 


php::bar PHP Wiki   -   Listenarchive