phpbar.de logo

Mailinglisten-Archive

crawler/spider/robot mit phpmySQL - Erfahrungen

crawler/spider/robot mit phpmySQL - Erfahrungen

Ralf Geschke ralf at kuerbis.org
Don Apr 10 18:07:26 CEST 2003


Hallo !

> Mich würde mal interessieren, wer von euch hier mit dem Gebiet eigener
> kleiner spider/crawler/robot beschäftigt ist und vielleicht mal irgendetwas
> dazu gecoded hat.

Eigene nicht direkt, aber...

> Ich habe auch schon diverse Tools - z.B. das empfehlenswert phpdig siehe
> http://phpdig.toiletoine.net/documentation.php#toc3

... einige getestet, darunter phpdig und festgestellt, dass dies
absolut gruselig programmiert ist, sowie nur bei aelteren PHP-Varianten
und unsicheren (register_globals...) Einstellungen funktioniert. 
Ist ein paar Wochen her, evtl. hat sich daran inzwischen etwas geaendert,
aber der schlechte Eindruck bleibt. 

Fuer nicht allzu grosse Datenmengen laeuft bei mir mnogosearch
recht gut (http://www.mnogosearch.org), laesst sich als Modul
in PHP einbinden, so dass die Funktionen direkt
zur Verfuegung stehen. 

ht://Dig (http://www.htdig.org) wird auch oft genannt - mir haben 
die sehr grossen Index-Dateien bei groesseren Datenmengen
eher nicht gefallen, aber evtl. hat sich auch
daran inzwischen etwas geaendert. 

Falls es nicht PHP sein muss, sieht auch Perlfect Search
nicht uebel aus - URL habe ich momentan nicht zur Hand, 
Google hilft. 

> Hat jemand von euch so etwas schon einmal probiert?
> Bin für jeden kleinen Hinweis dankbar.

Mein aktueller Favorit ist swish-e (http://swish-e.org),
sehr schnell auch bei groesseren Datenmengen, dazu kleine 
Index-Dateien, einfach in der Anwendung, problemlos
zu kompilieren usw.. Leider kein PHP-Modul bzw. war dies
noch sehr in Entwicklung, aber per Kommandozeile
gut bedienbar, Beispiel Volltextsuche ueber die
Archive dieser sowie der PHP-Liste unter
http://lists.mushaake.org/archive/swish.php

Um das ganze einfach von PHP aus anwenden zu koennen,
ist eine kleine Wrapper-Klasse entstanden, die auch
auf der genannten Seite eingesetzt wird. Jene
ist zwar noch wenig bis gar nicht dokumentiert,
aber nichtsdestotrotz: Bei Interesse -> Mail. 

Beste Gruesse,
   Ralf

-- 
Infos zur Mailingliste, zur Teilnahme und zum An- und Abmelden unter
-->>  http://www.4t2.com/mysql 


php::bar PHP Wiki   -   Listenarchive