Mailinglisten-Archive |
Hi, On Wed, Dec 08, 2004 at 08:21:37PM +0100, Peter Bieling wrote: > Ich werde wohl nicht drum herumkommen mal ein paar Tests zu machen. > Vielleicht wäre es ein Weg, nicht für jedes Stichwort die Fundstellen zu > speichern, sondern tatsächlich die Texte in die DB zu legen, eventuell > aber indem man vorher die Stoppwörter und doppelte Vorkommen entfernt. > (Möglichkeit: Hund Hund Herrchen Hund., daraus wird "Hund[3] Herrchen") > Damit hätte man schon eine Menge ausgefiltert und den Datenbestand > erheblich reduziert. Unterschiedliche Suchmöglichkeiten nach Datum, > Autor, Überschriften, Kurztext, Langtext, eventuell noch > Bildunterschriften und eigener Stichwortliste wären dann ebenfalls > gegeben... Mal sehen. In dem von mir angesprochenen Projekt geht es wie gesagt um Presseclipping, d.h. mein Kunde beobachtet fuer seine Kunden nach dessen Vorgaben Medien. Wenn ein Artikel der passt gefunden wurde, wird dieser in einer lokalen Access erfasst (nein da kann ich nichts dafuer, das wollten die so :-) Dabei wird dann eine "kurze" Zusammenfassung des Artikels geschrieben und die Zuordnung zu den weiteren Kriterien wie Datum, Medium, Rubrik, usw. vorgenommen. Diese lokalen Daten werden dann mit Makros ueber ODBC auf den Web-Server in die MySQL importiert und dort greife ich dann mit PHP auf die Daten zu. Die "Volltext-suche" ueber die gesamten Texte wird sehr selten verwendet, da ueber die anderen moeglichen Einschraenkungen schon der Gross-Teil der relevanten Ergebnisse gefunden werden kann. Das dann in manchen Faellen (wie Norbert in seiner Mail andeutet) nicht der Fulltextindex der MySQL verwendet wird wirkt sich bei mir nicht so negativ auf die Performance aus. Fuer diese versch. Such/Einschraenkungsmoeglichkeiten war/ist der Trick eigentlich immer, je nach User-Eingabe/Auswahl die dyn. SELECTs zusammenzubauen. (Datumseinschraenkung ja/nein, boolsche Suchmethoden, Rubriken,...). Wir hatten frueher in diesem Projekt auch eine Websuche (htdig) auf den Seiten, aber die DB Variante ist um Laengen maechtiger und nicht stoerend langsamer. Ich habe mit dem Kunden zusammen auch in der Zeit seit das Projekt online ist (inzwischen ~2 Jahre) immer weiter dran optimiert und erweitert. Auch wenn neue Endkunden dazu kamen hatten diese meist noch Spezial-Anforderungen die eingebaut wurden. Aber immer mit dem Hauptaugenmerk auf einem gut durchdachten Datenmodell das sowohl fuer mich auf dem Web-Server als auch fuer deren internen Workflow passt. -- Gruss Jens
php::bar PHP Wiki - Listenarchive