Mailinglisten-Archive |
> Hallo Leute, > > ich suche gerade eine Möglichkeit, aus einer HTML-Datei beliebige > Tags und deren Inhalt auszulesen (zum Beispiel <title>). Mit RegExps > (z.B. eregi ("\<$tag([^>]*)$attrib([^>]*)>([^\<]*)\</$tag>", > $document, $regs);) funktioniert das zwar für das erste Tag, bei > mehreren Vorkommnissen (z.B.<b>) ist aber schon das Ende der > Fahnenstange erreicht. > > Hat jemand von Euch eine Idee, wie ich das am besten realisieren > könnte? Ja, mit Perl! Es gibt für Perl einige Module, die HTML parsen können. HTML::TreeBuilder ist der Kern hiervon. Zu Perl und den Modulen schlag unter http://www.cpan.org/SITES.html#Europe bei deinem Favourite Mirror nach. Ein Buch mit Beispielen hierzu ist M. Schilli, GoTo Perl5 bei Addison/Wesley (liegt nur zufällig hier, habe keine Verbindung zu Autor oder Verlag). Möchtest Du in PHP Perl einbauen, so hilft evtl. der system-Befehl oder so was unter PHP. Gruß Elmar > > Grüße, > Tobias Ratschiller > > --- Dr. Elmar Schalueck Ruhr-Universitaet Bochum Dez. 2 - BIF Projekt ELFI D-44780 Bochum Tel.: 0234/700-6182 Fax : 0234/7094-684 EMail: Elmar.Schalueck_(at)_ruhr-uni-bochum.de WWW: http://www.elfi.ruhr-uni-bochum.de
php::bar PHP Wiki - Listenarchive