Mailinglisten-Archive |
----- Original Message ----- From: <Jens.Dinstuehler_(at)_is-ag.com> To: <php_(at)_phpcenter.de> Sent: Wednesday, August 14, 2002 9:44 AM Subject: Re: Re: [php] Zugriff auf Office Dokumente und PDF > Hallo Joerg, > > > Jede der obengenannten Suchmaschinen greift auf externe Parser zurueck. > Mit > > anderen worden mittels pdf2text|html, xhtml, vwword werden die > > Officedokumente konvertiert und der extraierte Text in den Index > > aufgenommen. Die Erfolgsquote ist anehmbar und gemessen am Einsatz > immerhin > > besser als nix :) > > Na gut soweit... mit externen parsern hätte ich auch kein Problem. Ich habe > grade > allerdings mal nach den oben genannten gesucht und nur was für die Win$ - > Welt gefunden... Wo bekommt man sowas ? Google kennst du ja? http://www.xlhtml.org/ bzw. http://chicago.sourceforge.net/xlhtml (die sind umgezogen) http://www.wvware.com/ Frueher konnte man auch mit dem acroreader pdf nach postscript und dann weiter nach text konvertieren. Die Tools sind auch auf jeder Linuxdistri mit drauf. > > > Probleme bereiten unterumstaenden Umlaute, verschiedene Zeichensaetze und > > halt die geaendern Dokumentformate der versch. Officeformate. > > Na das liesse sich sicherlich mit filtern oder dergleichen umgehen, oder ? Jein. Wenn der Parser mit dem Word von Office XXL nicht klarkommt nicht. Mit Umlauten koennte man evt. was machen. Gruss Joerg Behrens -- TakeNet GmbH Mobil: 0171/60 57 963 D-97080 Wuerzburg Tel: +49 931 903-2243 Alfred-Nobel-Straße 20 Fax: +49 931 903-3025
php::bar PHP Wiki - Listenarchive