Mailinglisten-Archive |
Boris Nicolai wrote: >>Wenn diese Annahmen stimmen, kann man damit einen Filter >>bauen, der Robots erkennt und deren IP speichert. >>Tritt eine solche IP auf, weiss man, dass ein Robot ist, >>und kann ihm etwas besonderes vorwerfen oder zum Teufel >>schicken. Letzteres waere fuer mich interessant ... ;-) > > >nun ja, der grundansatz ist richtig, wirst de nur das problem haben, >dass die SuMas haeufig ihre IPs aendern. du muestest also jemanden bei >google einschleusen (und den anderen sumas auch), der dir dann die neue >IP der verschiedenen Rechenzentren verraet, BEVOR der robot kommt. >kostet natuerlich was, ausserdem muss jemand soweit ich weiss den >doktor-titel haben, um bei google ueberhaupt schaffen zu duerfen. >ne, ich glaub das lass mal lieber :) Könnte man ja mit einer Zentralen Datenbank analog zu den eMail-Relay-Datenbanken machen. Da kommt mir übrigens die Idee, das man sowas mal für die ganzen eMail-Crawler einführen sollte. Also: Ein Software die folgendes tut - Fake-eMail-Adressen (unique) generieren. - Sollte eine eMail bei einer dieser Adressen ankommen nachschauen, welche IP das war, diese IP an eine zentrale Datenbank reporten. Jetzt fängt das Problem an: - Abfragen der IP bei jedem Request dürfte zu zeitaufwändig sein (auch wenn es nur ein paar ms Zeitverzögerung sein dürften, den meisten ist das zuviel, besonders bei High-Traffic-Sites), also - Regelmässige Abgleiche mit der Datenbank, alle 24 h z.B. wer drinsteht bekommt sein Socket direkt wieder geschlossen. Alternativ wird es auch bis zum Timeout offen gehalten ohne Daten zu liefern. Dabei muss jedoch eine IP spätestens nach 24h wieder aus dem Index verschwinden, es es denn natürlich, die selbe IP wird wieder reportet. Sobald eine IP eingetragen wird MUSS jedoch auch der Verantwortliche für das Subnetz über den Abuse informiert werden (allein schon um Probleme zu vermeiden, falls der Crawler z.B. einen Proxy verwendet). MfG, Sebastian -- Sebastian Nohn - Wismarer Str. 22 - D-53757 Sankt Augustin - Germany mobile: +49 170 471 8105 email: sebastian at nohn.net web: http://nohn.net did i help you? consider a gift: http://wishlist.nohn.net/
php::bar PHP Wiki - Listenarchive