phpbar.de logo

Mailinglisten-Archive

[php] Doppelte �hnliche Texte abfangen?

[php] Doppelte �hnliche Texte abfangen?

Lutz Zetzsche Lutz.Zetzsche at sea-rescue.de
Don Nov 30 08:31:30 CET 2006


Hi Yannik,

Yannik Hampe schrieb:
> Perfekt ist der Ansatz nat�rlich nicht. Aber es geht doch um Leute, die
> gleich hunderten anderen Benutzern PNs schicken. Wenn die sich echt f�r
> jede einzelne PN hinsetzen und mindestens 50% der W�rter ab�ndern... Und
> das bei jeder von den hunderten von PNs,... dann haben die viel Arbeit.
> Wenn sich jemand so viel M�he gibt und man will dem noch kontern, dann
> w�re vielleicht eine richtige antispam-Software wie es bei mailserver
> �blich ist angebracht.
> Aber in dem Fall halte ich das f�r overkill.

gut, da kannst Du nat�rlich Recht haben. Ich kenne die PNs inhaltlich
nicht, die da bei Andreas zu Hunderten im System auftauchen. Ich bin jetzt
einfach nur von den Spam-Mails ausgegangen, die ich bekomme. Die sind
jedes Mal anders, weil da automatisiert in bestimmte Worte einfach
irgendwelche Buchstaben eingef�gt werden.

Mir ist auch noch eine weitere Idee gekommen. Was ich bisher in einer
Mailingliste und einem Forum mitbekommen habe, kommen Spam-Eintr�ge von
Mitgliedern, die sich gerade frisch angemeldet haben. Das w�re also auch
noch ein Ansatzpunkt, welcher in die Bewertung bzw. Gewichtung mit
einflie�en k�nnte: Wenn sich jemand vor wenigen Minuten angemeldet hat und
dann direkt zig PNs verschickt, stimmt etwas nicht.

Ich denke, man m��te generell mal die Daten untersuchen und die
Spamming-Muster erkennen. Der Ansatz ist sicherlich effizienter,
performanter und wesentlich treffsicherer als ein Textvergleich.


>>> Man kann mit IN BOOLEAN MODE auch noch ganz viel mehr tolle Sachen
>>> mit dem Fulltext machen. Aber das macht das statement langsamer und
>>> ist hier auch unn�tig.
>>
>> Nach meiner Beobachtung ist MATCH ... AGAINST ... IN BOOLEAN MODE bei
>> langen und nie gleichen Texten mit Volltextindex langsamer als ohne.
>
> Sag ich doch.

Wir reden wieder aneinander vorbei. :-) Ich meinte das "ohne" bezogen auf
den Volltextindex, nicht bezogen auf IN BOOLEAN MODE. Dir ging es darum,
da� IN BOOLEAN MODE langsamer ist. Das stimmt. Hinzukommt aber, da� ich
beobachtet habe, da� - unter gewissen Umst�nden zumindest - die
Kombination IN BOOLEAN MODE mit Volltextindex noch langsamer ist, als IN
BOOLEAN MODE ohne Volltextindex.


>> Eine L�sung datenbankseitig w�re sicherlich theoretisch schneller, wobei
>> ich aber nicht wei�, ob das dann auch in der Praxis bei vielen
>> gleichzeitigen Benutzern auf einer Community-Website so w�re
>> (Flaschenhals Datenbankverbindung).
>
> Da php und mysql wahrscheinlich auf einer und der selben Hardware laufen
> bringt es auch nichts die Last auf php zu verlegen...

Ich bin ehrlich - das kann ich nicht direkt beurteilen. Da ich aber ein
"ungl�ubiger" Mensch bin, w�rde ich das hinterfragen. :-) Ist das eine
Annahme von Dir, oder wei�t Du das aus praktischer Erfahrung?

Meine �berlegung ist, da� etwas, nur weil auf derselben Hardware l�uft,
nicht auch gleichzeitig gleich schnell sein mu�. PHP arbeitet doch anders
als MySQL. Gleichzeitig kommt hinzu, da� die Datenbankabfrage l�nger
dauert, wenn die Aufgabe datenbankseitig erledigt wird. Wie diese Faktoren
bei einer gro�en Community-Website zusammenwirken, kann ich so nicht
beurteilen.

Vielleicht kann gibt es hier ja jemanden, der dieses Thema aus Erfahrung
ein Bi�chen beleuchten kann. Das w�re sehr interessant. :-)


Viele Gr��e
Lutz


php::bar PHP Wiki   -   Listenarchive