Mailinglisten-Archive |
> Hi! > > Wie kann ich aus einer HTML-Datei, die ich eingelesen habe, alle Links (also > <a href="**DAS WILL ICH HABEN**">) extrahieren? > > Hat jemand von Euch irgendeine Funktion dafür auf Lager?? Hab ich gerade fertig - mach das nicht auf zu vielen ebenen - hab mal xxx.nl auf drei ebenen verfolgt - 50000 urls - und der ist immernoch dabei :)) function gethrefs($source){ $file = _(at)_file($source); if($file){ $q1 = join('',$file); $i = 1; $hrefs = array(); $q2 = explode('href="',$q1); while($i < count($q2)){ $q3 = explode('"',$q2[$i]); $h1 = explode("/",$source); $h2 = $h1[count($h1) - 1]; $h3 = (strlen($source) - strlen($h2)); $host = substr($source,0,$h3); if(substr($q3[0],0,7) != "http://"){ $q3[0] = $host.$q3[0]; } $hrefs[$i] = $q3[0]; $i++; } return $hrefs; } } kannst die ausgegebenen wieder dadurchschicken - ich machs mit mysql im background - der such natürlich auch urls zu bildern - aber nicht <img... nur href=" > Gruß > > Christopher Stefan
php::bar PHP Wiki - Listenarchive