Mailinglisten-Archive |
Sascha Schumann schrieb > Habt ihr ähnliche Erfahrungen gemacht? Chemindustry.com ist eine spezielle Suchmaschine für die Chemiebranche. Zum Spidern wird die Altavista-Software eingesetzt. Das Teil ist anscheinend so konfiguriert, das es jedem Link innerhalb einer Domain folgt. Im Gegensatz zu den meisten anderen Spidern folgt der Spider dabei auch Links mit beliebigen GET-Paramteren. Das Ergebnis: In einer kleinen Restpostenbörse (PHP/MySQL-basiert) auf einem virtuellen Server gab es ca. 120 Restposten. Über diverse Links für unterschiedliche Sortierungen, Warenkorbfunktionen, verschiedene Ansichten usw. hat der beknackte Spider innerhalb kurzer Zeit mehr als 5.000 Seiten angefordert und indiziert. Das Ganze hat sich dann potenziert, weil der Spider bei jedem Besuch alle bekannten URLs mit der alten Session-Id überprüfen wollte und zusätzlich jedes mal neue URLs mit neuer Session-Id bekommen hat. Da in der Börse die Restposten auch per reverser Auction verkauft werden können, werden immer Header mitgesendet, die das Cachen verhindern sollen, damit jeder User immer den aktuellen Preis sieht. Das animierte den Spider dann anscheinend zu besonders häufigen Besuchen.. Innerhalb weniger Stunden hat der Spider dann mehr als 80.000 Seiten angefordert und fast 1GB Traffic verursacht. Da jeweils eine ganze Reihe von Seiten parallel angefordert wurden, ging der MySQL-Server (Session-Handling) total in die Knie. > Wie seid ihr damit umgegangen? Wir haben die Leute von chemindustry.com mal angemailt. Die machten aber keinen allzu kompetenten Eindruck.... Im Moment schmeißen wir diesen Spider einfach raus. In Kürze werden wir das abändern: Bekannte aggressive Spider (über UserAgent/IP's) bekommen dann nur noch _eine_ speziell aufbereitete Startseite mit allen aktuellen Restposten ohne weitere Links und Session-IDs zu sehen. Der Zugriff auf alle anderen Seiten wird verwehrt. Guido Haeger
php::bar PHP Wiki - Listenarchive