Mailinglisten-Archive |
> Hi!
>
> Wie kann ich aus einer HTML-Datei, die ich eingelesen habe, alle Links
(also
> <a href="**DAS WILL ICH HABEN**">) extrahieren?
>
> Hat jemand von Euch irgendeine Funktion dafür auf Lager??
Hab ich gerade fertig - mach das nicht auf zu vielen ebenen - hab mal
xxx.nl auf drei ebenen verfolgt - 50000 urls - und der ist immernoch
dabei :))
function gethrefs($source){
$file = _(at)_file($source);
if($file){
$q1 = join('',$file);
$i = 1;
$hrefs = array();
$q2 = explode('href="',$q1);
while($i < count($q2)){
$q3 = explode('"',$q2[$i]);
$h1 = explode("/",$source);
$h2 = $h1[count($h1) - 1];
$h3 = (strlen($source) - strlen($h2));
$host = substr($source,0,$h3);
if(substr($q3[0],0,7) != "http://"){
$q3[0] = $host.$q3[0];
}
$hrefs[$i] = $q3[0];
$i++;
}
return $hrefs;
}
}
kannst die ausgegebenen wieder dadurchschicken - ich machs mit mysql im
background - der such natürlich auch urls zu bildern - aber nicht
<img... nur href="
> Gruß
>
> Christopher
Stefan
php::bar PHP Wiki - Listenarchive