Mailinglisten-Archive |
René Thiel schrieb:
> Guten Morgen,
>
> kennt jemand ein Script, mit dem man (ähnlich einer Suchmaschine)
> alle verlinkten internen Seiten einer Domain finden kann?
>
> Ich brauche wirklich nur ein einfaches Script für die Links, der Rest ist
> bereits fertig programmiert - also keine phpMyDomain oder so.
> Und wirklich nur die verlinkten Seiten - nicht alle Files.
na z.b. so:
$link_regex = '°\s+href\s*=\s*(\"|\'|)?(.*)(\1)°/isU';
$domain = 'start.here';
$urls = array();
$urls['http://start.here/'] = false;
while ( $search_url = array_search( false, $urls ) )
{
$r = preg_match_all( $link_regex,
file_get_contents( $search_url ),
$found_urls );
if ( false !== $r )
{
$urls[$search_url] = true;
foreach ( $found_urls as $found_url )
{
// hier url noch überprüfen
// z.b. auf relative pfadangaben, javascript,
// ob innerhalb der domain etc ...
if ( ! isset( $urls[$found_url] ) )
{
$urls[$found_url] = false;
}
}
}
}
print_r( $urls );
... ungetestet ...
--
Sebastian Mendel
www.sebastianmendel.de www.warzonez.de www.tekkno4u.de www.nofetish.com
www.sf.net/projects/phpdatetime www.sf.net/projects/phptimesheet
php::bar PHP Wiki - Listenarchive