phpbar.de logo

Mailinglisten-Archive

[php] Links,Urls extrahieren

[php] Links,Urls extrahieren

Holger Boskugel vbwebprofi at kaffeeschluerfer.com
Don Jan 8 16:44:21 CET 2004


Hallo Alexander,

> hat jemand einen Ansatz wie ich möglichst einfach und effektiv alle
> Hyperlinks aus einem
> Html Document extrahieren kann um Sie weiterzuverwenden.
> Also alles in folgenden Formaten:
> <a href="dir/file.zip">
> <a href="http://www.url.de/file.zip">
> <a href="www.url.de/file.zip">
> usw.

zwei generelle wege :

a) mittels regex-funktion aus PHP und alles zwischen "<A HREF=" und
    ">" zurückgeben lassen oder

b) HTML nach "<A HREF=" scannen und dann auswerten.

> Natürlich muss man beachten das bei manchen der " oder ' feht und sich das
> Format ändern kann.

daher unter a) alles bis ">" zurückgeben lassen. ab "=" solltest du scannen
bis
zum nächsten ", ', " " oder ">" ja nach dem ob " oder ' vorhanden ist dann
diese
noch wegfiltern

> Das gleich würde ich auch mit allen Bildern machen, heißt ich möchte aus
> allen Bildern die im Dokument sind
> eine url erzeugen ( http://www.domain.de/dir/bild.jpg ).

bei bildern einfach mit "<IMG SRC=" verfahren wie oben für links
beschrieben.

achte ! : die attribute HREF und SRC müssen nicht unbedingt direkt nach dem
tag A bzw IMG stehen ! das macht die suche u.u. etwas komplizierter und der
einstieg wäre dann mit "<A" bzw. "<IMG" zu tun.


gruß

holger

-- 
***************************************
*  Holger Boskugel (IT-Freelancer)    *
*  e-mail : vbwebprofi at gmx.de         *
*  www    : http://www.vbwebprofi.de  *
***************************************

+++ GMX - die erste Adresse für Mail, Message, More +++
Neu: Preissenkung für MMS und FreeMMS! http://www.gmx.net



php::bar PHP Wiki   -   Listenarchive