phpbar.de logo

Mailinglisten-Archive

[php] AW: [php] Get ? Suchmaschinen

[php] AW: [php] Get ? Suchmaschinen

Guido Haeger GH-lists_(at)_ecora.de
Sun, 17 Sep 2000 17:05:56 +0200


Sascha Schumann schrieb

>     Habt ihr ähnliche Erfahrungen gemacht?

Chemindustry.com ist eine spezielle Suchmaschine für die Chemiebranche.
Zum Spidern wird die Altavista-Software eingesetzt. Das Teil ist
anscheinend so konfiguriert, das es jedem Link innerhalb einer Domain
folgt. Im Gegensatz zu den meisten anderen Spidern folgt der Spider
dabei auch Links mit beliebigen GET-Paramteren.

Das Ergebnis:
In einer kleinen Restpostenbörse (PHP/MySQL-basiert) auf einem
virtuellen Server gab es ca. 120 Restposten. Über diverse Links für
unterschiedliche Sortierungen, Warenkorbfunktionen, verschiedene
Ansichten usw. hat der beknackte Spider innerhalb kurzer Zeit mehr als
5.000 Seiten angefordert und indiziert. Das Ganze hat sich dann
potenziert, weil der Spider bei jedem Besuch alle bekannten URLs mit der
alten Session-Id überprüfen wollte und zusätzlich jedes mal neue URLs
mit neuer Session-Id bekommen hat. Da in der Börse die Restposten auch
per reverser Auction verkauft werden können, werden immer Header
mitgesendet, die das Cachen verhindern sollen, damit jeder User immer
den aktuellen Preis sieht. Das animierte den Spider dann anscheinend zu
besonders häufigen Besuchen..

Innerhalb weniger Stunden hat der Spider dann mehr als 80.000 Seiten
angefordert und fast 1GB Traffic verursacht. Da jeweils eine ganze Reihe
von Seiten parallel angefordert wurden, ging der MySQL-Server
(Session-Handling) total in die Knie.

> Wie seid ihr damit umgegangen?

Wir haben die Leute von chemindustry.com mal angemailt. Die machten aber
keinen allzu kompetenten Eindruck.... Im Moment schmeißen wir diesen
Spider einfach raus.

In Kürze werden wir das abändern: Bekannte aggressive Spider (über
UserAgent/IP's) bekommen dann nur noch _eine_ speziell aufbereitete
Startseite mit allen aktuellen Restposten ohne weitere Links und
Session-IDs zu sehen. Der Zugriff auf alle anderen Seiten wird verwehrt.

Guido Haeger



php::bar PHP Wiki   -   Listenarchive