phpbar.de logo

Mailinglisten-Archive

[php] 1/2 OT: PDF-Dateien indizieren

[php] 1/2 OT: PDF-Dateien indizieren

Beck, Mike mike.beck at ibmiller.de
Mit Okt 15 18:15:56 CEST 2003


Bastian Haustein wrote:
> Hallo zusammen!
> 
> Problem: Ich muss einen Haufen PDF-Dateien so Zerlegen, dass ich alle
> vorkommenden Wörter oder ggf. auch komplette Texte daraus
> extrahieren kann,
> so dass man eine Stichwortsuche darauf anwenden kann. Das
> Ergebnis kommt
> dann in eine Datenbank, so dass mans schnell durchsuchen und
> alle passenden
> Dokumente auflisten kann. Jetzt das eigentliche Problem: Ich kenn' das
> PDF-Format nicht gut genug, und meines Wissens sind die entsprechenden
> PHP-Lib's auch nur zum erzeugen neuer PDF's gedacht.
> 
> Frage: Hat jemand einen Ansatz für mich, wie ich aus den
> PDF-Dateien alle
> Texte raus bekomme (am besten als ASCII-Plain-Text)?

Was hast Du denn für einen Server? Linux? da gäbs ein pdftohtml und
anschliessend tidy um die html-tags rauszukriegen. 

-- 
Mike Beck
mikebeck at users.sourceforge.net 

php::bar PHP Wiki   -   Listenarchive