phpbar.de logo

Mailinglisten-Archive

[php] PDF-Konvertierer ?

[php] PDF-Konvertierer ?

Andreas Heigl a.heigl at wdv.de
Mit Feb 8 16:29:47 CET 2006


Am 08.02.2006 um 16:12 schrieb gw:

> Ingo Busch schrieb:
  [...]
> "Konvertieren" war genaugenommen einen Schritt zu weit gedacht.
> Eigentlicher Zweck waere das Parsen der PDF-Inhalte zur  
> Weiterverwertung
> mit HTML oder Ablegen in einer Datenbank.
> Ausserdem ggf. zur Anwendung einer Suchfunktion auf den Text.
>
Du willst also das, was du auf dem Bildschirm angezeigt bekommst,  
wenn du ein PDF öffnest, in einer Datenbank ablegen (vereinfacht  
gesagt).

Das wird schwierig, da PDF nicht so 'einfach' aufgebaut ist wie z.B.  
HTML.

Es gibt  verschiedene Programme, die z.B. PDF nach HTML konvertieren  
(pdf2html[1] z.B.)

Diese Programme kannst du per exec() aufrufen und das Ergebnis dann  
weiterverarbeiten.

Für das extrahieren von Text wäre ein solches Programm z.B pdf2text  
aus dem Fundus von xpdf[2]

Damit kannst du dann den Text des PDF extrahieren. Um dann eventuell  
sogar noch Syntax-Highlighting in deinen PDF-Dokumenten zu  
aktivieren, schau dir mal [3] an. Allerdings stimmen die Zählweisen  
von [2] und [3] nicht überein. Das einzige Werkzeug, das Syntax- 
Highlighting wirklich funktionierend umgesetzt hat, das ich kenne ist  
dtSearch [4].

Damit hättest du also den Text und eventuell eine HTML-Version des  
PDF. Einen Suchalgorithmus müsstest du dir da dann selbst drumrum  
stricken oder teuer einkaufen (dtSearch).

Alternativ gibt es noch die Möglichkeit über spezielle GET-Parameter  
eine Suche in einem online angezeigten PDF-Dokument anzustoßen.  
Allerdings ist dies nach meiner Erfahrung Fehlerbehaftet, da (unter  
MacOS) das übergebene Suchwort NUR in der angegebenen Form gesucht  
wird. (GET-Parameter = "test" findet NUR "test" aber nicht "Test",  
"Tester" oder "tester").
Weitere Informationen gibt es unter [5]

Ich hoffe, das hat jetzt wenigstens ein klein wenig weitergeholfen

Grüße

Andreas

[1] http://www.sourceforge.net/projects/pdftohtml/
[2] http://www.foolabs.com/xpdf/
[3] http://partners.adobe.com/public/developer/en/pdf/ 
HighlightFileFormat.pdf
[4] http://www.dtsearch.com
[5] http://partners.adobe.com/public/developer/en/acrobat/ 
PDFOpenParameters.pdf
-- 
Andreas Heigl
Tel: +49 6172 670 185
Fax: +49 6172 670 181



php::bar PHP Wiki   -   Listenarchive