phpbar.de logo

Mailinglisten-Archive

[php] Indexer - Klasse oder Funktion gesucht

[php] Indexer - Klasse oder Funktion gesucht

Jens Giessmann jg at handcode.de
Mit Dez 8 21:35:44 CET 2004


Hi,

On Wed, Dec 08, 2004 at 08:21:37PM +0100, Peter Bieling wrote:
> Ich werde wohl nicht drum herumkommen mal ein paar Tests zu machen. 
> Vielleicht wäre es ein Weg, nicht für jedes Stichwort die Fundstellen zu 
> speichern, sondern tatsächlich die Texte in die DB zu legen, eventuell 
> aber indem man vorher die Stoppwörter und doppelte Vorkommen entfernt.
> (Möglichkeit: Hund Hund Herrchen Hund., daraus wird "Hund[3] Herrchen")
> Damit hätte man schon eine Menge ausgefiltert und den Datenbestand 
> erheblich reduziert. Unterschiedliche Suchmöglichkeiten nach Datum, 
> Autor, Überschriften, Kurztext, Langtext, eventuell noch 
> Bildunterschriften und eigener Stichwortliste wären dann ebenfalls 
> gegeben... Mal sehen.

In dem von mir angesprochenen Projekt geht es wie gesagt um
Presseclipping, d.h. mein Kunde beobachtet fuer seine Kunden nach
dessen Vorgaben Medien. Wenn ein Artikel der passt gefunden wurde,
wird dieser in einer lokalen Access erfasst (nein da kann ich nichts
dafuer, das wollten die so :-)

Dabei wird dann eine "kurze" Zusammenfassung des Artikels geschrieben
und die Zuordnung zu den weiteren Kriterien wie Datum, Medium, Rubrik,
usw. vorgenommen.

Diese lokalen Daten werden dann mit Makros ueber ODBC auf den
Web-Server in die MySQL importiert und dort greife ich dann mit PHP
auf die Daten zu.

Die "Volltext-suche" ueber die gesamten Texte wird sehr selten
verwendet, da ueber die anderen moeglichen Einschraenkungen schon der
Gross-Teil der relevanten Ergebnisse gefunden werden kann. Das dann in
manchen Faellen (wie Norbert in seiner Mail andeutet) nicht der
Fulltextindex der MySQL verwendet wird wirkt sich bei mir nicht so
negativ auf die Performance aus.

Fuer diese versch. Such/Einschraenkungsmoeglichkeiten war/ist der
Trick eigentlich immer, je nach User-Eingabe/Auswahl die dyn. SELECTs
zusammenzubauen. (Datumseinschraenkung ja/nein, boolsche Suchmethoden,
Rubriken,...). 

Wir hatten frueher in diesem Projekt auch eine Websuche (htdig) auf
den Seiten, aber die DB Variante ist um Laengen maechtiger und nicht
stoerend langsamer.

Ich habe mit dem Kunden zusammen auch in der Zeit seit das Projekt
online ist (inzwischen ~2 Jahre) immer weiter dran optimiert und
erweitert. Auch wenn neue Endkunden dazu kamen hatten diese meist noch
Spezial-Anforderungen die eingebaut wurden. Aber immer mit dem
Hauptaugenmerk auf einem gut durchdachten Datenmodell das sowohl fuer
mich auf dem Web-Server als auch fuer deren internen Workflow passt.

-- 

Gruss Jens

php::bar PHP Wiki   -   Listenarchive