phpbar.de logo

Mailinglisten-Archive

Indizierung einer Site - SQL-Techniken
Archiv Mailingliste mysql-de

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Indizierung einer Site - SQL-Techniken



Hi,

Hat jemand Erfahrung mit einer Indizierung einer Site?
Das heißt, der user soll die Möglichkeit haben, alle HTML-Seiten unter einer
bestimmten Domain nach Stichworten zu  durchsuchen. Das läuft intern natürlich
über eine Datenbank (MySQL).
Nur da muss ich das ja erstmal da reinkriegen.

Mich interessiert die ungefähre Vorgehensweise.

Ich hatte mir das etwa so vorgestellt:
mein Script durchsucht den Text der HTML-Dateien,
schmeißt HTML-Code weg,
schmeißt unwesentliche Wörter weg,
schreibt die restlichen mit zugehöriger url in eine Tabelle,
entfernt doppelte Einträge.
Geht das so, oder vielmehr: ist das sinnvoll?

Kann man dann diese Index-Tabelle so einfach mit den eigentlichen
Inhalts-tabellen verbinden?

Man könnte sicher auch mit einer Positivliste arbeiten.
Kann man die automatisch erstellen lassen?
Gibt es da evtl. ein tool dafür?
Hat jemand einen link?

Vielen Dank für Antworten.

br | rb


---
*** Abmelden von dieser Mailingliste funktioniert per E-Mail
*** an mysql-de-request_(at)_lists.4t2.com mit Betreff/Subject: unsubscribe


Home | Main Index | Thread Index

php::bar PHP Wiki   -   Listenarchive