phpbar.de logo

Mailinglisten-Archive

[php] Zugriff auf Office Dokumente und PDF

[php] Zugriff auf Office Dokumente und PDF

Joerg Behrens php_(at)_phpcenter.de
Wed, 14 Aug 2002 08:56:41 +0200


----- Original Message -----
From: <Jens.Dinstuehler_(at)_is-ag.com>
To: <php_(at)_phpcenter.de>
Sent: Wednesday, August 14, 2002 7:48 AM
Subject: [php] Zugriff auf Office Dokumente und PDF


> Gooood Morning....
>
> ich habe eine Suchmaschine gebastelt, die nachts auf unserem Server einen
> Index anlegt auf Grund dessen die Suchergebnisse gebildet werden.

Da waren wir zufaul zu und benutzen www.mnogosearch.com oder auch mal
www.htdig.org.

>Nun will
> ich die in Word, Powerpoint, Excel etc. enthaltenen Meta-Informationen wie
> Autor, Keywords, etc auch mit indizieren. Wir haben ziemlich viele
> Downloads von Fachblättern etc, und die sind zu meist in PDF oder Doc...
>
> Gibts da irgendeine Möglichkeit dran zu kommen ??? In PDF muss das auch
> irgendwie gehen... nur die Office Dateien bereiten mit Kopfzerbrechen ...

Jede der obengenannten Suchmaschinen greift auf externe Parser zurueck. Mit
anderen worden mittels pdf2text|html, xhtml, vwword werden die
Officedokumente konvertiert und der extraierte Text in den Index
aufgenommen. Die Erfolgsquote ist anehmbar und gemessen am Einsatz immerhin
besser als nix :)

Probleme bereiten unterumstaenden Umlaute, verschiedene Zeichensaetze und
halt die geaendern Dokumentformate der versch. Officeformate.

MfG
Joerg Behrens

--
TakeNet GmbH                        Mobil: 0171/60 57 963
D-97080 Wuerzburg                 Tel: +49 931 903-2243
Alfred-Nobel-Straße 20            Fax: +49 931 903-3025


php::bar PHP Wiki   -   Listenarchive