Mailinglisten-Archive |
Hallo Joerg, > Jede der obengenannten Suchmaschinen greift auf externe Parser zurueck. Mit > anderen worden mittels pdf2text|html, xhtml, vwword werden die > Officedokumente konvertiert und der extraierte Text in den Index > aufgenommen. Die Erfolgsquote ist anehmbar und gemessen am Einsatz immerhin > besser als nix :) Na gut soweit... mit externen parsern hätte ich auch kein Problem. Ich habe grade allerdings mal nach den oben genannten gesucht und nur was für die Win$ - Welt gefunden... Wo bekommt man sowas ? > Probleme bereiten unterumstaenden Umlaute, verschiedene Zeichensaetze und > halt die geaendern Dokumentformate der versch. Officeformate. Na das liesse sich sicherlich mit filtern oder dergleichen umgehen, oder ? Gruss Jenson
php::bar PHP Wiki - Listenarchive