Mailinglisten-Archive |
From: "Joerg Behrens" <behrens_(at)_takenet.de> > > From: "Sönke Matz" <soenkematz_(at)_schleswiger-husaren.de> > > > > > Gibt es irgendeine Möglichkeit mit PHP den Inhalt von PDF-Files zu > > > durchsuchen? > > > > Ja, z.B. mit ht://Dig. Ist zwar nicht ganz PHP, aber damit klappt es > > ganz gut. > > Jein, weder htdig, mnogosearch und Konsorten koennen das selber. Dort wird > nur mimetype mit externen Parsern(Konverter) verknuepft was also nichts > weiter ist als ein externes Programm dafuer zubemuehen. > > Also kann du das auch gleich direkt mit exec() machen. Je nach Dokumenttyp > muss man schauen wie das mit den Konvertern so ist.. gerade bei PDF ist das > alles mittelpraechtig. Erkennung des Titels ist schon eine Sache fuer sich > und Umlaute koennen auch ein Problem darstellen. > > Schau halt was freshmeat/google so ausspukt bei pdf2html | text . Ich hab ja auch nicht das Gegenteil behauptet. Die externen Parser für ht://Dig funktionieren jedenfalls sehr gut. Es sollte auch keine Probleme mit den Umlauten geben. -Egon
php::bar PHP Wiki - Listenarchive