phpbar.de logo

Mailinglisten-Archive

AW: crawler/spider/robot mit phpmySQL - Erfahrungen

AW: crawler/spider/robot mit phpmySQL - Erfahrungen

Jens Plasger (Redaktion Medi-Learn.net) plasger at medi-learn.net
Fre Apr 11 20:07:29 CEST 2003


Hi Ralf,
ich habe gestern die phpdig in der "stabilen" 1.0er version installiert und
das klappt eigentlich recht gut (da ich ja nur ausgewählte Seiten zu gerade
aktuellen Themen durchforsten möchte).

Mit dem php-wrapper file für swish hat das leider nicht ganz so hingehauen,
da er auf file-pfade zugreifen möchte (und bereits vorher erstellte index
*.idx dateien, dich ich nirgends entdecken und einbauen kann.

Mit htdig mngosearch glimpse usw. - ja das sind ja richtig professionelle
Tools, wenn auch mir der Umfang

phpmysite fand ich auch recht ansprechend was die Thematik Suchmaschine,
crawler robot angeht, wenn die Ansprüche nicht allzuhoch sind.

Erst mal danke für die Tipps - ich schaue mir derzeit bei den einzelnen
Skripten ein wenig genauer an, wie sie den robot über die entsprechende
Seite "jagen" ohne sie zu verlassen und möchte dabei wie gesagt eher ein
"full-text-grabbing" des html-bodys - orgendwie dürfte das hinzubekommen
sein, nur augenblicklich habe ich den Kopf ein wenig mit zu viel neuem input
voll, wenn sich das gesetzt hat, werde ich sicher nochmals hier genauer
nachfragen.

Cool auch der Tipp zu http://lists.mushaake.org/archive/swish.php - die
suchergebnisse zu "crawler/robot/suchmaschine" sind ja Stoff für längere
Abende.

Also, besten Dank und schönes Wochende
Jens

-----Ursprüngliche Nachricht-----
Von: Ralf Geschke [mailto:ralf at kuerbis.org]
Gesendet: Donnerstag, 10. April 2003 17:07
An: mysql-de at lists.4t2.com
Betreff: Re: crawler/spider/robot mit phpmySQL - Erfahrungen


Hallo !

> Mich würde mal interessieren, wer von euch hier mit dem Gebiet eigener
> kleiner spider/crawler/robot beschäftigt ist und vielleicht mal
irgendetwas
> dazu gecoded hat.

Eigene nicht direkt, aber...

> Ich habe auch schon diverse Tools - z.B. das empfehlenswert phpdig siehe
> http://phpdig.toiletoine.net/documentation.php#toc3

... einige getestet, darunter phpdig und festgestellt, dass dies
absolut gruselig programmiert ist, sowie nur bei aelteren PHP-Varianten
und unsicheren (register_globals...) Einstellungen funktioniert.
Ist ein paar Wochen her, evtl. hat sich daran inzwischen etwas geaendert,
aber der schlechte Eindruck bleibt.

Fuer nicht allzu grosse Datenmengen laeuft bei mir mnogosearch
recht gut (http://www.mnogosearch.org), laesst sich als Modul
in PHP einbinden, so dass die Funktionen direkt
zur Verfuegung stehen.

ht://Dig (http://www.htdig.org) wird auch oft genannt - mir haben
die sehr grossen Index-Dateien bei groesseren Datenmengen
eher nicht gefallen, aber evtl. hat sich auch
daran inzwischen etwas geaendert.

Falls es nicht PHP sein muss, sieht auch Perlfect Search
nicht uebel aus - URL habe ich momentan nicht zur Hand,
Google hilft.

> Hat jemand von euch so etwas schon einmal probiert?
> Bin für jeden kleinen Hinweis dankbar.

Mein aktueller Favorit ist swish-e (http://swish-e.org),
sehr schnell auch bei groesseren Datenmengen, dazu kleine
Index-Dateien, einfach in der Anwendung, problemlos
zu kompilieren usw.. Leider kein PHP-Modul bzw. war dies
noch sehr in Entwicklung, aber per Kommandozeile
gut bedienbar, Beispiel Volltextsuche ueber die
Archive dieser sowie der PHP-Liste unter
http://lists.mushaake.org/archive/swish.php

Um das ganze einfach von PHP aus anwenden zu koennen,
ist eine kleine Wrapper-Klasse entstanden, die auch
auf der genannten Seite eingesetzt wird. Jene
ist zwar noch wenig bis gar nicht dokumentiert,
aber nichtsdestotrotz: Bei Interesse -> Mail.

Beste Gruesse,
   Ralf

--
Infos zur Mailingliste, zur Teilnahme und zum An- und Abmelden unter
-->>  http://www.4t2.com/mysql



-- 
Infos zur Mailingliste, zur Teilnahme und zum An- und Abmelden unter
-->>  http://www.4t2.com/mysql 


php::bar PHP Wiki   -   Listenarchive