Mailinglisten-Archive |
Hallo zusammen! Problem: Ich muss einen Haufen PDF-Dateien so Zerlegen, dass ich alle vorkommenden Wörter oder ggf. auch komplette Texte daraus extrahieren kann, so dass man eine Stichwortsuche darauf anwenden kann. Das Ergebnis kommt dann in eine Datenbank, so dass mans schnell durchsuchen und alle passenden Dokumente auflisten kann. Jetzt das eigentliche Problem: Ich kenn' das PDF-Format nicht gut genug, und meines Wissens sind die entsprechenden PHP-Lib's auch nur zum erzeugen neuer PDF's gedacht. Frage: Hat jemand einen Ansatz für mich, wie ich aus den PDF-Dateien alle Texte raus bekomme (am besten als ASCII-Plain-Text)? Freue mich über jeden Hinweis! Vorab schon mal vielen Dank für Eure Mühe! Bastian
php::bar PHP Wiki - Listenarchive