phpbar.de logo

Mailinglisten-Archive

crawler/spider/robot mit phpmySQL - Erfahrungen

crawler/spider/robot mit phpmySQL - Erfahrungen

Jens Plasger plasger at medi-learn.net
Don Apr 10 16:48:39 CEST 2003


Hallo Leute,

ich bin von Haus aus viel mit WWW-Recherchen und Erstellen von Texten
beschäftigt, nebenher adaptiere ich gerade meine MS Access und
Datenbankkenntnisse auf php/mySQL - spannendes Gebiet (und schlafraubend
dazu...)

Mich würde mal interessieren, wer von euch hier mit dem Gebiet eigener
kleiner spider/crawler/robot beschäftigt ist und vielleicht mal irgendetwas
dazu gecoded hat.

Ich habe auch schon diverse Tools - z.B. das empfehlenswert phpdig siehe
http://phpdig.toiletoine.net/documentation.php#toc3
installiert, denke aber manchmal das es auch einfacher gehen könnte.

Wenn ich zu einem Themengebiet für die Texterstellung recherchiere, geht man
meist zunächst z.B. die ersten 20 Seiten bei google gelieferten Seiten zum
Stichwort durch.

Diese Links würde ich gerne samt Inhalt der Webseiten erfassen - sprich
folgendes manuelles Vorgehen, das sich sicherlich auch irgendwie
"halb-automatisieren" lässt

(1) Google-Suche mit Stichwort (aktuell bei mir: "Bioresonanz" - ist ein
extern erwünsychter Text)
(2) Abgrasen der ersten 10 bis 20 gelieferten Links
(3) Cut and Paste des textalischen Inhalts der Seiten
(4) Ausdrucken - Lesen - Arbeiten

In der db würde halt hinterher in einer Tabelle das Suchwort samt
Google-Treffer 1 bis 10 als Link sowie in einer anderen Tabelle der
Textauszug der Seite stehen.

Mir reicht es schon, wenn er vom html-body der Zielseiten den unwesentlich
Quelltext (bis auf <b> und <br>) entfernt (gibt da irgendwie so einen
Befehl), und den inhalt in ein db-feld (oder eine Datei einliest) -
eigentlich gar nnicht so schwer.

Hat jemand von euch so etwas schon einmal probiert?
Bin für jeden kleinen Hinweis dankbar.

Cu
Jens




-- 
Infos zur Mailingliste, zur Teilnahme und zum An- und Abmelden unter
-->>  http://www.4t2.com/mysql 


php::bar PHP Wiki   -   Listenarchive