Mailinglisten-Archive |
Hallo Alexander,
> hat jemand einen Ansatz wie ich möglichst einfach und effektiv alle
> Hyperlinks aus einem
> Html Document extrahieren kann um Sie weiterzuverwenden.
> Also alles in folgenden Formaten:
> <a href="dir/file.zip">
> <a href="http://www.url.de/file.zip">
> <a href="www.url.de/file.zip">
> usw.
zwei generelle wege :
a) mittels regex-funktion aus PHP und alles zwischen "<A HREF=" und
">" zurückgeben lassen oder
b) HTML nach "<A HREF=" scannen und dann auswerten.
> Natürlich muss man beachten das bei manchen der " oder ' feht und sich das
> Format ändern kann.
daher unter a) alles bis ">" zurückgeben lassen. ab "=" solltest du scannen
bis
zum nächsten ", ', " " oder ">" ja nach dem ob " oder ' vorhanden ist dann
diese
noch wegfiltern
> Das gleich würde ich auch mit allen Bildern machen, heißt ich möchte aus
> allen Bildern die im Dokument sind
> eine url erzeugen ( http://www.domain.de/dir/bild.jpg ).
bei bildern einfach mit "<IMG SRC=" verfahren wie oben für links
beschrieben.
achte ! : die attribute HREF und SRC müssen nicht unbedingt direkt nach dem
tag A bzw IMG stehen ! das macht die suche u.u. etwas komplizierter und der
einstieg wäre dann mit "<A" bzw. "<IMG" zu tun.
gruß
holger
--
***************************************
* Holger Boskugel (IT-Freelancer) *
* e-mail : vbwebprofi at gmx.de *
* www : http://www.vbwebprofi.de *
***************************************
+++ GMX - die erste Adresse für Mail, Message, More +++
Neu: Preissenkung für MMS und FreeMMS! http://www.gmx.net
php::bar PHP Wiki - Listenarchive