phpbar.de logo

Mailinglisten-Archive

[php] 1/2 OT: PDF-Dateien indizieren

[php] 1/2 OT: PDF-Dateien indizieren

Bastian Haustein bh at plan-i.de
Mit Okt 15 13:06:34 CEST 2003


Hallo zusammen!

Problem: Ich muss einen Haufen PDF-Dateien so Zerlegen, dass ich alle
vorkommenden Wörter oder ggf. auch komplette Texte daraus extrahieren kann,
so dass man eine Stichwortsuche darauf anwenden kann. Das Ergebnis kommt
dann in eine Datenbank, so dass mans schnell durchsuchen und alle passenden
Dokumente auflisten kann. Jetzt das eigentliche Problem: Ich kenn' das
PDF-Format nicht gut genug, und meines Wissens sind die entsprechenden
PHP-Lib's auch nur zum erzeugen neuer PDF's gedacht.

Frage: Hat jemand einen Ansatz für mich, wie ich aus den PDF-Dateien alle
Texte raus bekomme (am besten als ASCII-Plain-Text)?

Freue mich über jeden Hinweis! Vorab schon mal vielen Dank für Eure Mühe!

Bastian


php::bar PHP Wiki   -   Listenarchive