Mailinglisten-Archive |
hi, hm, spontan fällt mir dazu ein: * direkt DB [1] & mediawiki-wiki-parser (mediawiki ist php, die DB gibts (-> lizenz aber trotzdem beachten :) ) * die bereits geparste HTML in xhtml umwandeln (tidy, xmlproc, whatever... ) und daraus dann dinge ableiten. ( alle <p> sind ein absatz, alle <img> ein bild, ... ) Die frage ist, was soll das dann können? Da das immernoch (auch wenn in bisschen engeren grenzen) frei-text ist, wird automatisches "verstehen" schwierig. Theortisch gäbe es noch die semantic-mediawiki erweiterung, damit liessen sich hübsche sachen bauen. (ist aber glaub nicht das was du suchst, noch ist das "grosse" wikipedia damit bestückt) .ka 1] http://meta.wikimedia.org/wiki/Data_dumps 2] http://de.wikipedia.org/wiki/Semantic_MediaWiki Am Donnerstag, den 07.05.2009, 14:14 +0200 schrieb Stefan Sturm: > Hallo zusammen, > > ich bin derzeit auf der Suche nach einem Parser für Wikipedia Artikel. > Dieser soll mir einen Wikipedia Artikel als Object zurückliefern, so > das ich z.B. auf einzelne Abschnitte oder Images des Artikels > zugreifen kann. > > Gibt es da schon was fertiges oder zumindest einen Lösungsansatz? > > Danke für eure Hilfe, > Stefan Sturm
php::bar PHP Wiki - Listenarchive