Mailinglisten-Archive |
René Thiel schrieb: > Guten Morgen, > > kennt jemand ein Script, mit dem man (ähnlich einer Suchmaschine) > alle verlinkten internen Seiten einer Domain finden kann? > > Ich brauche wirklich nur ein einfaches Script für die Links, der Rest ist > bereits fertig programmiert - also keine phpMyDomain oder so. > Und wirklich nur die verlinkten Seiten - nicht alle Files. na z.b. so: $link_regex = '°\s+href\s*=\s*(\"|\'|)?(.*)(\1)°/isU'; $domain = 'start.here'; $urls = array(); $urls['http://start.here/'] = false; while ( $search_url = array_search( false, $urls ) ) { $r = preg_match_all( $link_regex, file_get_contents( $search_url ), $found_urls ); if ( false !== $r ) { $urls[$search_url] = true; foreach ( $found_urls as $found_url ) { // hier url noch überprüfen // z.b. auf relative pfadangaben, javascript, // ob innerhalb der domain etc ... if ( ! isset( $urls[$found_url] ) ) { $urls[$found_url] = false; } } } } print_r( $urls ); ... ungetestet ... -- Sebastian Mendel www.sebastianmendel.de www.warzonez.de www.tekkno4u.de www.nofetish.com www.sf.net/projects/phpdatetime www.sf.net/projects/phptimesheet
php::bar PHP Wiki - Listenarchive