Mailinglisten-Archive |
Bastian Haustein wrote: > Hallo zusammen! > > Problem: Ich muss einen Haufen PDF-Dateien so Zerlegen, dass ich alle > vorkommenden Wörter oder ggf. auch komplette Texte daraus > extrahieren kann, > so dass man eine Stichwortsuche darauf anwenden kann. Das > Ergebnis kommt > dann in eine Datenbank, so dass mans schnell durchsuchen und > alle passenden > Dokumente auflisten kann. Jetzt das eigentliche Problem: Ich kenn' das > PDF-Format nicht gut genug, und meines Wissens sind die entsprechenden > PHP-Lib's auch nur zum erzeugen neuer PDF's gedacht. > > Frage: Hat jemand einen Ansatz für mich, wie ich aus den > PDF-Dateien alle > Texte raus bekomme (am besten als ASCII-Plain-Text)? Was hast Du denn für einen Server? Linux? da gäbs ein pdftohtml und anschliessend tidy um die html-tags rauszukriegen. -- Mike Beck mikebeck at users.sourceforge.net
php::bar PHP Wiki - Listenarchive