phpbar.de logo

Mailinglisten-Archive

Re: Indizierung einer Site - SQL-Techniken
Archiv Mailingliste mysql-de

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Indizierung einer Site - SQL-Techniken



On 08.05.00 at 14:42 Ralf Beutler wrote:

>Hat jemand Erfahrung mit einer Indizierung einer Site?
>Das heißt, der user soll die Möglichkeit haben, alle HTML-Seiten unter einer
>bestimmten Domain nach Stichworten zu  durchsuchen. Das läuft intern natürlich
>über eine Datenbank (MySQL).
>Nur da muss ich das ja erstmal da reinkriegen.
>
>Mich interessiert die ungefähre Vorgehensweise.
>
>Ich hatte mir das etwa so vorgestellt:
>mein Script durchsucht den Text der HTML-Dateien,
>schmeißt HTML-Code weg,
>schmeißt unwesentliche Wörter weg,
>schreibt die restlichen mit zugehöriger url in eine Tabelle,
>entfernt doppelte Einträge.
>Geht das so, oder vielmehr: ist das sinnvoll?
>
>Kann man dann diese Index-Tabelle so einfach mit den eigentlichen
>Inhalts-tabellen verbinden?
>
>Man könnte sicher auch mit einer Positivliste arbeiten.
>Kann man die automatisch erstellen lassen?
>Gibt es da evtl. ein tool dafür?
>Hat jemand einen link?

Such auf http://freshmeat.net nach glimpse bzw. dem Frontend webglimpse,
das sollte das tun was Du willst, ausser das mit der Datenbank - IMHO legt 
Glimpse seine Daten in Textdateien ab.

Andy

---
*** Abmelden von dieser Mailingliste funktioniert per E-Mail
*** an mysql-de-request_(at)_lists.4t2.com mit Betreff/Subject: unsubscribe


Home | Main Index | Thread Index

php::bar PHP Wiki   -   Listenarchive