phpbar.de logo

Mailinglisten-Archive

[php] Zugriff auf Office Dokumente und PDF

[php] Zugriff auf Office Dokumente und PDF

Joerg Behrens php_(at)_phpcenter.de
Wed, 14 Aug 2002 10:31:47 +0200


----- Original Message -----
From: <Jens.Dinstuehler_(at)_is-ag.com>
To: <php_(at)_phpcenter.de>
Sent: Wednesday, August 14, 2002 9:44 AM
Subject: Re: Re: [php] Zugriff auf Office Dokumente und PDF


> Hallo Joerg,
>
> > Jede der obengenannten Suchmaschinen greift auf externe Parser zurueck.
> Mit
> > anderen worden mittels pdf2text|html, xhtml, vwword werden die
> > Officedokumente konvertiert und der extraierte Text in den Index
> > aufgenommen. Die Erfolgsquote ist anehmbar und gemessen am Einsatz
> immerhin
> > besser als nix :)
>
> Na gut soweit... mit externen parsern hätte ich auch kein Problem. Ich
habe
> grade
> allerdings mal nach den oben genannten gesucht und nur was für die Win$ -
> Welt gefunden... Wo bekommt man sowas ?

Google kennst du ja?
http://www.xlhtml.org/ bzw. http://chicago.sourceforge.net/xlhtml (die sind
umgezogen)
http://www.wvware.com/

Frueher konnte man auch mit dem acroreader pdf nach postscript und dann
weiter nach text konvertieren.

Die Tools sind auch auf jeder Linuxdistri mit drauf.

>
> > Probleme bereiten unterumstaenden Umlaute, verschiedene Zeichensaetze
und
> > halt die geaendern Dokumentformate der versch. Officeformate.
>
> Na das liesse sich sicherlich mit filtern oder dergleichen umgehen, oder ?
Jein. Wenn der Parser mit dem Word von Office XXL nicht klarkommt nicht. Mit
Umlauten koennte man evt. was machen.

Gruss
Joerg Behrens

--
TakeNet GmbH                        Mobil: 0171/60 57 963
D-97080 Wuerzburg                 Tel: +49 931 903-2243
Alfred-Nobel-Straße 20            Fax: +49 931 903-3025


php::bar PHP Wiki   -   Listenarchive