phpbar.de logo

Mailinglisten-Archive

[php] levenshtein

[php] levenshtein

Ringo Großer swek at gmx.net
Fre Feb 3 15:04:09 CET 2006


hallo liste,

ich bin derzeit auf der suche nach einer möglichkeit, mehrere
adressdatensätze miteinander zu vergleichen, um mögliche
duplikate zu erkennen. durch mehrdeutige schreibweisen,
abkürzungen, tippfehler, verständnisfehler, formatierungsunterschiede
(trennzeichen bei straßennamen) steht man vor einer ziemlich
wilden datenlandschaft, in der sich auch nach direktem stringvergleich
und fehlerkorrektur noch so einige duplikate verstecken.

mittels der php internen funktion levenshtein lässt sich ja der
abstand zwischen 2 strings ermitteln. nun soll das ganze aber
möglichst performant und über eine sehr große anzahl datensätze
laufen.
bedeutet: ich habe eine adresse und möchte aus der db vorschläge
für mögliche bereits vorhandene duplikate haben (die endgültige
entscheidung muss dann eh ein mensch oder ein schwellenwert
treffen).

hat jemand einen vorschlag, ob man eine derartige funktion nach
mysql verlagern kann oder wie man das performant mit php angeht?

regards, Ringo


php::bar PHP Wiki   -   Listenarchive