phpbar.de logo

Mailinglisten-Archive

[php] Doppelte ähnliche Texte abfangen?

[php] Doppelte ähnliche Texte abfangen?

Lutz Zetzsche Lutz.Zetzsche at sea-rescue.de
Don Nov 30 08:31:30 CET 2006


Hi Yannik,

Yannik Hampe schrieb:
> Perfekt ist der Ansatz natürlich nicht. Aber es geht doch um Leute, die
> gleich hunderten anderen Benutzern PNs schicken. Wenn die sich echt für
> jede einzelne PN hinsetzen und mindestens 50% der Wörter abändern... Und
> das bei jeder von den hunderten von PNs,... dann haben die viel Arbeit.
> Wenn sich jemand so viel Mühe gibt und man will dem noch kontern, dann
> wäre vielleicht eine richtige antispam-Software wie es bei mailserver
> üblich ist angebracht.
> Aber in dem Fall halte ich das für overkill.

gut, da kannst Du natürlich Recht haben. Ich kenne die PNs inhaltlich
nicht, die da bei Andreas zu Hunderten im System auftauchen. Ich bin jetzt
einfach nur von den Spam-Mails ausgegangen, die ich bekomme. Die sind
jedes Mal anders, weil da automatisiert in bestimmte Worte einfach
irgendwelche Buchstaben eingefügt werden.

Mir ist auch noch eine weitere Idee gekommen. Was ich bisher in einer
Mailingliste und einem Forum mitbekommen habe, kommen Spam-Einträge von
Mitgliedern, die sich gerade frisch angemeldet haben. Das wäre also auch
noch ein Ansatzpunkt, welcher in die Bewertung bzw. Gewichtung mit
einfließen könnte: Wenn sich jemand vor wenigen Minuten angemeldet hat und
dann direkt zig PNs verschickt, stimmt etwas nicht.

Ich denke, man müßte generell mal die Daten untersuchen und die
Spamming-Muster erkennen. Der Ansatz ist sicherlich effizienter,
performanter und wesentlich treffsicherer als ein Textvergleich.


>>> Man kann mit IN BOOLEAN MODE auch noch ganz viel mehr tolle Sachen
>>> mit dem Fulltext machen. Aber das macht das statement langsamer und
>>> ist hier auch unnötig.
>>
>> Nach meiner Beobachtung ist MATCH ... AGAINST ... IN BOOLEAN MODE bei
>> langen und nie gleichen Texten mit Volltextindex langsamer als ohne.
>
> Sag ich doch.

Wir reden wieder aneinander vorbei. :-) Ich meinte das "ohne" bezogen auf
den Volltextindex, nicht bezogen auf IN BOOLEAN MODE. Dir ging es darum,
daß IN BOOLEAN MODE langsamer ist. Das stimmt. Hinzukommt aber, daß ich
beobachtet habe, daß - unter gewissen Umständen zumindest - die
Kombination IN BOOLEAN MODE mit Volltextindex noch langsamer ist, als IN
BOOLEAN MODE ohne Volltextindex.


>> Eine Lösung datenbankseitig wäre sicherlich theoretisch schneller, wobei
>> ich aber nicht weiß, ob das dann auch in der Praxis bei vielen
>> gleichzeitigen Benutzern auf einer Community-Website so wäre
>> (Flaschenhals Datenbankverbindung).
>
> Da php und mysql wahrscheinlich auf einer und der selben Hardware laufen
> bringt es auch nichts die Last auf php zu verlegen...

Ich bin ehrlich - das kann ich nicht direkt beurteilen. Da ich aber ein
"ungläubiger" Mensch bin, würde ich das hinterfragen. :-) Ist das eine
Annahme von Dir, oder weißt Du das aus praktischer Erfahrung?

Meine Überlegung ist, daß etwas, nur weil auf derselben Hardware läuft,
nicht auch gleichzeitig gleich schnell sein muß. PHP arbeitet doch anders
als MySQL. Gleichzeitig kommt hinzu, daß die Datenbankabfrage länger
dauert, wenn die Aufgabe datenbankseitig erledigt wird. Wie diese Faktoren
bei einer großen Community-Website zusammenwirken, kann ich so nicht
beurteilen.

Vielleicht kann gibt es hier ja jemanden, der dieses Thema aus Erfahrung
ein Bißchen beleuchten kann. Das wäre sehr interessant. :-)


Viele Grüße
Lutz


php::bar PHP Wiki   -   Listenarchive