phpbar.de logo

Mailinglisten-Archive

[php] Wikipedia parser

[php] Wikipedia parser

klemens zwiskle at cable.vol.at
Don Mai 7 22:34:50 CEST 2009


hi,

hm, spontan fällt mir dazu ein:
* direkt DB [1] & mediawiki-wiki-parser (mediawiki ist php, die DB gibts
(-> lizenz aber trotzdem beachten :) )
* die bereits geparste HTML in xhtml umwandeln (tidy, xmlproc,
whatever... ) und daraus dann dinge ableiten. ( alle <p> sind ein
absatz, alle <img> ein bild, ... )

Die frage ist, was soll das dann können?
Da das immernoch (auch wenn in bisschen engeren grenzen) frei-text ist,
wird automatisches "verstehen" schwierig.

Theortisch gäbe es noch die semantic-mediawiki erweiterung, damit
liessen sich hübsche sachen bauen. (ist aber glaub nicht das was du
suchst, noch ist das "grosse" wikipedia damit bestückt)

.ka

1] http://meta.wikimedia.org/wiki/Data_dumps
2] http://de.wikipedia.org/wiki/Semantic_MediaWiki 

Am Donnerstag, den 07.05.2009, 14:14 +0200 schrieb Stefan Sturm:
> Hallo zusammen,
> 
> ich bin derzeit auf der Suche nach einem Parser für Wikipedia Artikel.
> Dieser soll mir einen Wikipedia Artikel als Object zurückliefern, so
> das ich z.B. auf einzelne Abschnitte oder Images des Artikels
> zugreifen kann.
> 
> Gibt es da schon was fertiges oder zumindest einen Lösungsansatz?
> 
> Danke für eure Hilfe,
> Stefan Sturm


php::bar PHP Wiki   -   Listenarchive