Mailinglisten-Archive |
Hi Ralf, ich habe gestern die phpdig in der "stabilen" 1.0er version installiert und das klappt eigentlich recht gut (da ich ja nur ausgewählte Seiten zu gerade aktuellen Themen durchforsten möchte). Mit dem php-wrapper file für swish hat das leider nicht ganz so hingehauen, da er auf file-pfade zugreifen möchte (und bereits vorher erstellte index *.idx dateien, dich ich nirgends entdecken und einbauen kann. Mit htdig mngosearch glimpse usw. - ja das sind ja richtig professionelle Tools, wenn auch mir der Umfang phpmysite fand ich auch recht ansprechend was die Thematik Suchmaschine, crawler robot angeht, wenn die Ansprüche nicht allzuhoch sind. Erst mal danke für die Tipps - ich schaue mir derzeit bei den einzelnen Skripten ein wenig genauer an, wie sie den robot über die entsprechende Seite "jagen" ohne sie zu verlassen und möchte dabei wie gesagt eher ein "full-text-grabbing" des html-bodys - orgendwie dürfte das hinzubekommen sein, nur augenblicklich habe ich den Kopf ein wenig mit zu viel neuem input voll, wenn sich das gesetzt hat, werde ich sicher nochmals hier genauer nachfragen. Cool auch der Tipp zu http://lists.mushaake.org/archive/swish.php - die suchergebnisse zu "crawler/robot/suchmaschine" sind ja Stoff für längere Abende. Also, besten Dank und schönes Wochende Jens -----Ursprüngliche Nachricht----- Von: Ralf Geschke [mailto:ralf at kuerbis.org] Gesendet: Donnerstag, 10. April 2003 17:07 An: mysql-de at lists.4t2.com Betreff: Re: crawler/spider/robot mit phpmySQL - Erfahrungen Hallo ! > Mich würde mal interessieren, wer von euch hier mit dem Gebiet eigener > kleiner spider/crawler/robot beschäftigt ist und vielleicht mal irgendetwas > dazu gecoded hat. Eigene nicht direkt, aber... > Ich habe auch schon diverse Tools - z.B. das empfehlenswert phpdig siehe > http://phpdig.toiletoine.net/documentation.php#toc3 ... einige getestet, darunter phpdig und festgestellt, dass dies absolut gruselig programmiert ist, sowie nur bei aelteren PHP-Varianten und unsicheren (register_globals...) Einstellungen funktioniert. Ist ein paar Wochen her, evtl. hat sich daran inzwischen etwas geaendert, aber der schlechte Eindruck bleibt. Fuer nicht allzu grosse Datenmengen laeuft bei mir mnogosearch recht gut (http://www.mnogosearch.org), laesst sich als Modul in PHP einbinden, so dass die Funktionen direkt zur Verfuegung stehen. ht://Dig (http://www.htdig.org) wird auch oft genannt - mir haben die sehr grossen Index-Dateien bei groesseren Datenmengen eher nicht gefallen, aber evtl. hat sich auch daran inzwischen etwas geaendert. Falls es nicht PHP sein muss, sieht auch Perlfect Search nicht uebel aus - URL habe ich momentan nicht zur Hand, Google hilft. > Hat jemand von euch so etwas schon einmal probiert? > Bin für jeden kleinen Hinweis dankbar. Mein aktueller Favorit ist swish-e (http://swish-e.org), sehr schnell auch bei groesseren Datenmengen, dazu kleine Index-Dateien, einfach in der Anwendung, problemlos zu kompilieren usw.. Leider kein PHP-Modul bzw. war dies noch sehr in Entwicklung, aber per Kommandozeile gut bedienbar, Beispiel Volltextsuche ueber die Archive dieser sowie der PHP-Liste unter http://lists.mushaake.org/archive/swish.php Um das ganze einfach von PHP aus anwenden zu koennen, ist eine kleine Wrapper-Klasse entstanden, die auch auf der genannten Seite eingesetzt wird. Jene ist zwar noch wenig bis gar nicht dokumentiert, aber nichtsdestotrotz: Bei Interesse -> Mail. Beste Gruesse, Ralf -- Infos zur Mailingliste, zur Teilnahme und zum An- und Abmelden unter -->> http://www.4t2.com/mysql -- Infos zur Mailingliste, zur Teilnahme und zum An- und Abmelden unter -->> http://www.4t2.com/mysql
php::bar PHP Wiki - Listenarchive