phpbar.de logo

Mailinglisten-Archive

[php] Volltextsuche auch in PDF-Dokumenten

[php] Volltextsuche auch in PDF-Dokumenten

Ralf Geschke ralf at kuerbis.org
Fre Okt 13 12:13:22 CEST 2006


Hallo!

> kann ich da über die Geschwindigkeit nichts sagen. :-) Bei ht://Dig ist 
> es allerdings so, daß es auch sehr langsam werden kann, wenn man 
> mehrere Tausend Dateien indiziert. Gut, ein Bißchen Feintuning ist hier 
> noch möglich, wenn man die Konfiguration etwas entschärft. Es gibt 
> einige Einstellungen, die können gewaltig auf die Geschwindigkeit 
> gehen... ;-)

Also mehrere Tausend Dateien - aehm... ;-) Gerade mal wieder
eine Komplett-Indizierung ueber die Mailinglisten-Archive
laufen lassen:

122,730 files indexed.  373,462,815 total bytes.  21,459,063 total words.

Klar - optimieren laesst sich ueberall, das Problem bei htdig damals
im PHP-Center (muesste noch auf dem alten infosoc-Rechner gewesen
sein), dass der naechtliche Lauf viel zu lange dauerte und zudem
fast den gesamten Plattenplatz in Anspruch nahm. Das mag sich
gebessert haben, nur sieht die Website auch nicht sonderlich aktuell
aus, das letzte Release vor mehr als zwei Jahren?

Lucene hatte ich bislang noch nicht getestet, ebenfalls scheint
Xapian (http://www.xapian.org/) nicht uninteressant, aber
ein wenig aufwendig bei der Installation / Einbindung.

Beste Gruesse,
    Ralf


php::bar PHP Wiki   -   Listenarchive