phpbar.de logo

Mailinglisten-Archive

[php] CLOAKING

[php] CLOAKING

Sebastian Nohn Sebastian.Nohn at t-online.de
Die Sep 23 12:15:04 CEST 2003


Boris Nicolai wrote:

 >>Wenn diese Annahmen stimmen, kann man damit einen Filter
 >>bauen, der Robots erkennt und deren IP speichert.
 >>Tritt eine solche IP auf, weiss man, dass ein Robot ist,
 >>und kann ihm etwas besonderes vorwerfen oder zum Teufel
 >>schicken. Letzteres waere fuer mich interessant ... ;-)
 >
 >
 >nun ja, der grundansatz ist richtig, wirst de nur das problem haben, 
 >dass die SuMas haeufig ihre IPs aendern. du muestest also jemanden bei 
 >google einschleusen (und den anderen sumas auch), der dir dann die 
neue >IP der verschiedenen Rechenzentren verraet, BEVOR der robot kommt.
 >kostet natuerlich was, ausserdem muss jemand soweit ich weiss den
 >doktor-titel haben, um bei google ueberhaupt schaffen zu duerfen.
 >ne, ich glaub das lass mal lieber :)

Könnte man ja mit einer Zentralen Datenbank analog zu den 
eMail-Relay-Datenbanken machen. Da kommt mir übrigens die Idee, das man 
sowas mal für die ganzen eMail-Crawler einführen sollte.

Also: Ein Software die folgendes tut

- Fake-eMail-Adressen (unique) generieren.
- Sollte eine eMail bei einer dieser Adressen ankommen nachschauen, 
welche IP das war, diese IP an eine zentrale Datenbank reporten.
Jetzt fängt das Problem an:
- Abfragen der IP bei jedem Request dürfte zu zeitaufwändig sein (auch 
wenn es nur ein paar ms Zeitverzögerung sein dürften, den meisten ist 
das zuviel, besonders bei High-Traffic-Sites), also
- Regelmässige Abgleiche mit der Datenbank, alle 24 h z.B. wer drinsteht 
bekommt sein Socket direkt wieder geschlossen. Alternativ wird es auch 
bis zum Timeout offen gehalten ohne Daten zu liefern.
Dabei muss jedoch eine IP spätestens nach 24h wieder aus dem Index 
verschwinden, es es denn natürlich, die selbe IP wird wieder reportet.

Sobald eine IP eingetragen wird MUSS jedoch auch der Verantwortliche für 
das Subnetz über den Abuse informiert werden (allein schon um Probleme 
zu vermeiden, falls der Crawler z.B. einen Proxy verwendet).

MfG, Sebastian
-- 
Sebastian Nohn - Wismarer Str. 22 - D-53757 Sankt Augustin - Germany
mobile: +49 170 471 8105 email: sebastian at nohn.net web: http://nohn.net
did i help you? consider a gift: http://wishlist.nohn.net/




php::bar PHP Wiki   -   Listenarchive