phpbar.de logo

Mailinglisten-Archive

[php] tag cloud/key word density Ansätze

[php] tag cloud/key word density Ansätze

Lutz Zetzsche Lutz.Zetzsche at sea-rescue.de
Mit Aug 2 09:21:41 CEST 2006


Hallo Henning,

Am Mittwoch, 2. August 2006 01:50 schrieb Henning Heil:
> ich habe gerade eine ganze Weile gegoogelt, aber irgendwie kein
> vernünftiges tag cloud / keyword density Skriptgefunden. Hier das sah
> mir ganz vernünftig aus
>
> http://jowra.com/journal/2006/02/tag-clouds-hmmm-delicious/
> http://jowra.com/journal/2006/02/wordpress-plugin-delicious-tag-cloud
>-ii/
>
> Ich würde das Teil aber gerne manuell befüllen, also mit einer
> einfach Tabelle a la <keyword/tag> und <Priorität> oder
> <Wichtigkeit>. Kennt da jemand was bzw. hat einen Ansatz?
>
> Danke & VG,

es beantwortet zwar nicht Deine Frage, aber ich möchte Dir kurz meine 
Gedanken zu diesem Thema zusammenfassen. Vielleicht bringt Dich das 
noch auf neue Ideen.

Hinter den Wortwolken, die im Prinzip ja nur eine Darstellungsform sind, 
steht nichts anderes als eine Verschlagwortung in Form eines Indexes. 
Jedes gute Buch hat sowas schon seit Jahrzehnten, ich würde fast schon 
sagen, seit Jahrhunderten. Also ein ganz altes Prinzip. (Nur als 
Anmerkung: Auch die Wortdichte kann man in Buchindexen ersehen, nämlich 
an der Zahl der Seitenzahlen hinter einem Schlagwort. :-D)

Der oben von Dir genannte Artikel stellt Kategorien und Wortwolken 
gegenüber. Kategorien seien schlecht, Wortwolken seien gut... 
Kategorien und Index sind aber aus meiner Sicht keine Gegensätze, 
sondern einfach nur zwei verschiedene Zugänge zu Daten. Kategorien 
würde ich also analog als Verschlagwortung in Form einer Hierarchie 
definieren.

Der im Artikel genannte Grund, warum Wortwolken gut, Kategorien aber 
schlecht sein sollen, trifft aber - das ist der entscheidende 
Denkfehler in dem Artikel und der entscheidende Mangel der derzeitigen 
Wortwolkensysteme - auch auf Wortwolken zu. Denn: Auch wenn man es 
Schlagwort oder Tag nennt, es ist logisch mit einer Kategorie 
gleichzusetzen. Irgendwann wir ein einzelnes Tag als Verschlagwortung 
genauso unspezifisch wie die Zuordnung zu einer einzigen Kategorie.

Der grundsätzliche Unterschied zwischen der konventionellen 
Kategorisierung und den Wortwolken ist, daß Du bei der konventionellen 
Kategorisierung die Hierarchie vorab definieren mußt. Sie ist damit 
statisch. Bei Mehrfachrelationen mußt Du die Kategorien an 
verschiendenen Stellen in den Hierarchiebaum einhängen und Daten 
entsprechend auch mehrfach zuordnen. Da steckt sehr viel Redundanz und 
Arbeit drin. Dieses Problem hast Du bei Wortwolken nicht. Sie sind 
absolut dynamisch.

Die Wortwolkensysteme haben derzeit den Fehler, daß sie nicht 
mehrfachverschlagwortend wie eine Hierarchie von Kategorien sind. Im 
Augenblick ist es so, daß Du Dich von Wortwolke zu Wortwolke bewegst 
und dabei zwischen Wortwolke und Tag eine 1:1-Beziehung besteht. Um 
sich in großen Datenmengen sinnvoll zu bewegen, bräuchte es eine 
1:n-Beziehung, d.h. Du kannst x Tags angeben bzw. x Wortwolken 
durchlaufen und bekommst (am Ende) die resultierende Wortwolke.

Soweit ich mich erinnere, ist das Problem aber mittlerweile erkannt und 
eine Lösung in Arbeit. :-) Eigentlich hätte man von Anfang an darauf 
kommen können, aber vielleicht ist man auf seinen eigenen unsäglichen 
Marketing-Schlagworten ausgerutscht. Wer von Tags, Tagging und Word 
Clouds redet, wo es im Kern eigentlich um Schlagworte, Verschlagwortung 
und Kategorisierung bzw. Wortbeziehungen geht, der kann schon mal 
verloren gehen... :-D


Viele Grüße

Lutz

php::bar PHP Wiki   -   Listenarchive