phpbar.de logo

Mailinglisten-Archive

[php] Zugriff auf Office Dokumente und PDF

[php] Zugriff auf Office Dokumente und PDF

php_(at)_phpcenter.de php_(at)_phpcenter.de
Wed, 14 Aug 2002 09:44:27 +0200


Hallo Joerg,

> Jede der obengenannten Suchmaschinen greift auf externe Parser zurueck.
Mit
> anderen worden mittels pdf2text|html, xhtml, vwword werden die
> Officedokumente konvertiert und der extraierte Text in den Index
> aufgenommen. Die Erfolgsquote ist anehmbar und gemessen am Einsatz
immerhin
> besser als nix :)

Na gut soweit... mit externen parsern hätte ich auch kein Problem. Ich habe
grade
allerdings mal nach den oben genannten gesucht und nur was für die Win$ -
Welt gefunden... Wo bekommt man sowas ?


> Probleme bereiten unterumstaenden Umlaute, verschiedene Zeichensaetze und
> halt die geaendern Dokumentformate der versch. Officeformate.

Na das liesse sich sicherlich mit filtern oder dergleichen umgehen, oder ?



Gruss


Jenson


php::bar PHP Wiki   -   Listenarchive