phpbar.de logo

Mailinglisten-Archive

[php] 1/2 OT: PDF-Dateien indizieren

[php] 1/2 OT: PDF-Dateien indizieren

Johannes Schlueter schlueter at phpbar.de
Mit Okt 15 19:40:38 CEST 2003


Hi,

> Frage: Hat jemand einen Ansatz für mich, wie ich aus den PDF-Dateien
> alle Texte raus bekomme (am besten als ASCII-Plain-Text)?
> 
> Freue mich über jeden Hinweis! Vorab schon mal vielen Dank für Eure
> Mühe!

Wenn Du pdftohtml[1] auf dem Server 
installieren kannst oder es schon installiert 
ist und Du Zugriff drauf hast hast Du eine 
Möglichkeit es in HTML/XML zu wandeln.
Ich meine es gäbe noch pdf2txt oder odftotext 
oder so, finde ich aber gerade nicht.

johannes

[1] http://pdftohtml.sourceforge.net/

php::bar PHP Wiki   -   Listenarchive