Mailinglisten-Archive |
Am 08.02.2006 um 16:12 schrieb gw: > Ingo Busch schrieb: [...] > "Konvertieren" war genaugenommen einen Schritt zu weit gedacht. > Eigentlicher Zweck waere das Parsen der PDF-Inhalte zur > Weiterverwertung > mit HTML oder Ablegen in einer Datenbank. > Ausserdem ggf. zur Anwendung einer Suchfunktion auf den Text. > Du willst also das, was du auf dem Bildschirm angezeigt bekommst, wenn du ein PDF öffnest, in einer Datenbank ablegen (vereinfacht gesagt). Das wird schwierig, da PDF nicht so 'einfach' aufgebaut ist wie z.B. HTML. Es gibt verschiedene Programme, die z.B. PDF nach HTML konvertieren (pdf2html[1] z.B.) Diese Programme kannst du per exec() aufrufen und das Ergebnis dann weiterverarbeiten. Für das extrahieren von Text wäre ein solches Programm z.B pdf2text aus dem Fundus von xpdf[2] Damit kannst du dann den Text des PDF extrahieren. Um dann eventuell sogar noch Syntax-Highlighting in deinen PDF-Dokumenten zu aktivieren, schau dir mal [3] an. Allerdings stimmen die Zählweisen von [2] und [3] nicht überein. Das einzige Werkzeug, das Syntax- Highlighting wirklich funktionierend umgesetzt hat, das ich kenne ist dtSearch [4]. Damit hättest du also den Text und eventuell eine HTML-Version des PDF. Einen Suchalgorithmus müsstest du dir da dann selbst drumrum stricken oder teuer einkaufen (dtSearch). Alternativ gibt es noch die Möglichkeit über spezielle GET-Parameter eine Suche in einem online angezeigten PDF-Dokument anzustoßen. Allerdings ist dies nach meiner Erfahrung Fehlerbehaftet, da (unter MacOS) das übergebene Suchwort NUR in der angegebenen Form gesucht wird. (GET-Parameter = "test" findet NUR "test" aber nicht "Test", "Tester" oder "tester"). Weitere Informationen gibt es unter [5] Ich hoffe, das hat jetzt wenigstens ein klein wenig weitergeholfen Grüße Andreas [1] http://www.sourceforge.net/projects/pdftohtml/ [2] http://www.foolabs.com/xpdf/ [3] http://partners.adobe.com/public/developer/en/pdf/ HighlightFileFormat.pdf [4] http://www.dtsearch.com [5] http://partners.adobe.com/public/developer/en/acrobat/ PDFOpenParameters.pdf -- Andreas Heigl Tel: +49 6172 670 185 Fax: +49 6172 670 181
php::bar PHP Wiki - Listenarchive