Mailinglisten-Archive |
Hallo Leute, ich bin von Haus aus viel mit WWW-Recherchen und Erstellen von Texten beschäftigt, nebenher adaptiere ich gerade meine MS Access und Datenbankkenntnisse auf php/mySQL - spannendes Gebiet (und schlafraubend dazu...) Mich würde mal interessieren, wer von euch hier mit dem Gebiet eigener kleiner spider/crawler/robot beschäftigt ist und vielleicht mal irgendetwas dazu gecoded hat. Ich habe auch schon diverse Tools - z.B. das empfehlenswert phpdig siehe http://phpdig.toiletoine.net/documentation.php#toc3 installiert, denke aber manchmal das es auch einfacher gehen könnte. Wenn ich zu einem Themengebiet für die Texterstellung recherchiere, geht man meist zunächst z.B. die ersten 20 Seiten bei google gelieferten Seiten zum Stichwort durch. Diese Links würde ich gerne samt Inhalt der Webseiten erfassen - sprich folgendes manuelles Vorgehen, das sich sicherlich auch irgendwie "halb-automatisieren" lässt (1) Google-Suche mit Stichwort (aktuell bei mir: "Bioresonanz" - ist ein extern erwünsychter Text) (2) Abgrasen der ersten 10 bis 20 gelieferten Links (3) Cut and Paste des textalischen Inhalts der Seiten (4) Ausdrucken - Lesen - Arbeiten In der db würde halt hinterher in einer Tabelle das Suchwort samt Google-Treffer 1 bis 10 als Link sowie in einer anderen Tabelle der Textauszug der Seite stehen. Mir reicht es schon, wenn er vom html-body der Zielseiten den unwesentlich Quelltext (bis auf <b> und <br>) entfernt (gibt da irgendwie so einen Befehl), und den inhalt in ein db-feld (oder eine Datei einliest) - eigentlich gar nnicht so schwer. Hat jemand von euch so etwas schon einmal probiert? Bin für jeden kleinen Hinweis dankbar. Cu Jens -- Infos zur Mailingliste, zur Teilnahme und zum An- und Abmelden unter -->> http://www.4t2.com/mysql
php::bar PHP Wiki - Listenarchive