Mailinglisten-Archive |
> Hallo Leute,
>
> ich suche gerade eine Möglichkeit, aus einer HTML-Datei beliebige
> Tags und deren Inhalt auszulesen (zum Beispiel <title>). Mit RegExps
> (z.B. eregi ("\<$tag([^>]*)$attrib([^>]*)>([^\<]*)\</$tag>",
> $document, $regs);) funktioniert das zwar für das erste Tag, bei
> mehreren Vorkommnissen (z.B.<b>) ist aber schon das Ende der
> Fahnenstange erreicht.
>
> Hat jemand von Euch eine Idee, wie ich das am besten realisieren
> könnte?
Ja, mit Perl!
Es gibt für Perl einige Module, die HTML parsen können.
HTML::TreeBuilder ist der Kern hiervon.
Zu Perl und den Modulen schlag unter
http://www.cpan.org/SITES.html#Europe bei deinem Favourite Mirror
nach.
Ein Buch mit Beispielen hierzu ist
M. Schilli, GoTo Perl5 bei Addison/Wesley (liegt nur zufällig hier,
habe keine Verbindung zu Autor oder Verlag).
Möchtest Du in PHP Perl einbauen, so hilft evtl. der system-Befehl
oder so was unter PHP.
Gruß
Elmar
>
> Grüße,
> Tobias Ratschiller
>
>
---
Dr. Elmar Schalueck
Ruhr-Universitaet Bochum
Dez. 2 - BIF
Projekt ELFI
D-44780 Bochum
Tel.: 0234/700-6182
Fax : 0234/7094-684
EMail: Elmar.Schalueck_(at)_ruhr-uni-bochum.de
WWW: http://www.elfi.ruhr-uni-bochum.de
php::bar PHP Wiki - Listenarchive