Mailinglisten-Archive |
hallo liste, ich bin derzeit auf der suche nach einer möglichkeit, mehrere adressdatensätze miteinander zu vergleichen, um mögliche duplikate zu erkennen. durch mehrdeutige schreibweisen, abkürzungen, tippfehler, verständnisfehler, formatierungsunterschiede (trennzeichen bei straßennamen) steht man vor einer ziemlich wilden datenlandschaft, in der sich auch nach direktem stringvergleich und fehlerkorrektur noch so einige duplikate verstecken. mittels der php internen funktion levenshtein lässt sich ja der abstand zwischen 2 strings ermitteln. nun soll das ganze aber möglichst performant und über eine sehr große anzahl datensätze laufen. bedeutet: ich habe eine adresse und möchte aus der db vorschläge für mögliche bereits vorhandene duplikate haben (die endgültige entscheidung muss dann eh ein mensch oder ein schwellenwert treffen). hat jemand einen vorschlag, ob man eine derartige funktion nach mysql verlagern kann oder wie man das performant mit php angeht? regards, Ringo
php::bar PHP Wiki - Listenarchive