Mailinglisten-Archive |
Hallo Alexander, > hat jemand einen Ansatz wie ich möglichst einfach und effektiv alle > Hyperlinks aus einem > Html Document extrahieren kann um Sie weiterzuverwenden. > Also alles in folgenden Formaten: > <a href="dir/file.zip"> > <a href="http://www.url.de/file.zip"> > <a href="www.url.de/file.zip"> > usw. zwei generelle wege : a) mittels regex-funktion aus PHP und alles zwischen "<A HREF=" und ">" zurückgeben lassen oder b) HTML nach "<A HREF=" scannen und dann auswerten. > Natürlich muss man beachten das bei manchen der " oder ' feht und sich das > Format ändern kann. daher unter a) alles bis ">" zurückgeben lassen. ab "=" solltest du scannen bis zum nächsten ", ', " " oder ">" ja nach dem ob " oder ' vorhanden ist dann diese noch wegfiltern > Das gleich würde ich auch mit allen Bildern machen, heißt ich möchte aus > allen Bildern die im Dokument sind > eine url erzeugen ( http://www.domain.de/dir/bild.jpg ). bei bildern einfach mit "<IMG SRC=" verfahren wie oben für links beschrieben. achte ! : die attribute HREF und SRC müssen nicht unbedingt direkt nach dem tag A bzw IMG stehen ! das macht die suche u.u. etwas komplizierter und der einstieg wäre dann mit "<A" bzw. "<IMG" zu tun. gruß holger -- *************************************** * Holger Boskugel (IT-Freelancer) * * e-mail : vbwebprofi at gmx.de * * www : http://www.vbwebprofi.de * *************************************** +++ GMX - die erste Adresse für Mail, Message, More +++ Neu: Preissenkung für MMS und FreeMMS! http://www.gmx.net
php::bar PHP Wiki - Listenarchive