phpbar.de logo

Mailinglisten-Archive

[php] Durchsuchen von PDF-Files

[php] Durchsuchen von PDF-Files

Egon Schmid php_(at)_phpcenter.de
Mon, 11 Feb 2002 17:04:34 +0100


From: "Joerg Behrens" <behrens_(at)_takenet.de>

> > From: "Sönke Matz" <soenkematz_(at)_schleswiger-husaren.de>
> >
> > > Gibt es irgendeine Möglichkeit mit PHP den Inhalt von
PDF-Files zu
> > > durchsuchen?
> >
> > Ja, z.B. mit ht://Dig. Ist zwar nicht ganz PHP, aber damit
klappt es
> > ganz gut.
>
> Jein, weder htdig, mnogosearch und Konsorten koennen das selber.
Dort wird
> nur mimetype mit externen Parsern(Konverter) verknuepft was also
nichts
> weiter ist als ein externes Programm dafuer zubemuehen.
>
> Also kann du das auch gleich direkt mit exec() machen. Je nach
Dokumenttyp
> muss man schauen wie das mit den Konvertern so ist.. gerade bei
PDF ist das
> alles mittelpraechtig. Erkennung des Titels ist schon eine Sache
fuer sich
> und Umlaute koennen auch ein Problem darstellen.
>
> Schau halt was freshmeat/google so ausspukt bei pdf2html | text .

Ich hab ja auch nicht das Gegenteil behauptet. Die externen Parser
für ht://Dig funktionieren jedenfalls sehr gut. Es sollte auch keine
Probleme mit den Umlauten geben.

-Egon


php::bar PHP Wiki   -   Listenarchive