phpbar.de logo

Mailinglisten-Archive

[php] alle Links einer Domain finden

[php] alle Links einer Domain finden

Sebastian Mendel lists at sebastianmendel.de
Fre Jul 23 13:26:21 CEST 2004


René Thiel schrieb:

> Guten Morgen,
> 
> kennt jemand ein Script, mit dem man (ähnlich einer Suchmaschine)
> alle verlinkten internen Seiten einer Domain finden kann?
> 
> Ich brauche wirklich nur ein einfaches Script für die Links, der Rest ist
> bereits fertig programmiert - also keine phpMyDomain oder so.
> Und wirklich nur die verlinkten Seiten - nicht alle Files.

na z.b. so:

$link_regex = '°\s+href\s*=\s*(\"|\'|)?(.*)(\1)°/isU';
$domain = 'start.here';
$urls = array();
$urls['http://start.here/'] = false;

while ( $search_url = array_search( false, $urls ) )
{
   $r = preg_match_all( $link_regex,
                        file_get_contents( $search_url ),
                        $found_urls );
   if ( false !== $r )
   {
     $urls[$search_url] = true;
     foreach ( $found_urls as $found_url )
     {
       // hier url noch überprüfen
       // z.b. auf relative pfadangaben, javascript,
       // ob innerhalb der domain etc ...
       if ( ! isset( $urls[$found_url] ) )
       {
         $urls[$found_url] = false;
       }
     }
   }
}

print_r( $urls );

... ungetestet ...

-- 
Sebastian Mendel

www.sebastianmendel.de www.warzonez.de www.tekkno4u.de www.nofetish.com
www.sf.net/projects/phpdatetime        www.sf.net/projects/phptimesheet

php::bar PHP Wiki   -   Listenarchive