Mailinglisten-Archive |
----- Original Message ----- From: <Jens.Dinstuehler_(at)_is-ag.com> To: <php_(at)_phpcenter.de> Sent: Wednesday, August 14, 2002 7:48 AM Subject: [php] Zugriff auf Office Dokumente und PDF > Gooood Morning.... > > ich habe eine Suchmaschine gebastelt, die nachts auf unserem Server einen > Index anlegt auf Grund dessen die Suchergebnisse gebildet werden. Da waren wir zufaul zu und benutzen www.mnogosearch.com oder auch mal www.htdig.org. >Nun will > ich die in Word, Powerpoint, Excel etc. enthaltenen Meta-Informationen wie > Autor, Keywords, etc auch mit indizieren. Wir haben ziemlich viele > Downloads von Fachblättern etc, und die sind zu meist in PDF oder Doc... > > Gibts da irgendeine Möglichkeit dran zu kommen ??? In PDF muss das auch > irgendwie gehen... nur die Office Dateien bereiten mit Kopfzerbrechen ... Jede der obengenannten Suchmaschinen greift auf externe Parser zurueck. Mit anderen worden mittels pdf2text|html, xhtml, vwword werden die Officedokumente konvertiert und der extraierte Text in den Index aufgenommen. Die Erfolgsquote ist anehmbar und gemessen am Einsatz immerhin besser als nix :) Probleme bereiten unterumstaenden Umlaute, verschiedene Zeichensaetze und halt die geaendern Dokumentformate der versch. Officeformate. MfG Joerg Behrens -- TakeNet GmbH Mobil: 0171/60 57 963 D-97080 Wuerzburg Tel: +49 931 903-2243 Alfred-Nobel-Straße 20 Fax: +49 931 903-3025
php::bar PHP Wiki - Listenarchive