Mailinglisten-Archive |
Hallo miteinander
Leider ist es an unserer Uni nicht möglich, Daten aus dem
elektronischen Vorlesungsverzeichnis strukturiert (bspw. XML) wieder
rauszuholen. Die Daten sind zwar in einer Datenbank gespeichert, mir
wurde aber empfohlen, doch einfach die entsprechenden WWW-Seiten zu
parsen ... einen Kommentar unterlasse ich jetzt.
Gesagt, widerwillig getan - doch nun habe ich ein Problem! Anscheinend
filtern die Jungs die von den Sekretariaten der Institutionen
eingegebenen Daten nicht, weshalb sich auch Zeichen in den HTML-Output
verirren, die nicht zum angegebenen Charset (Latin-1) passen.
Als Beispiel sei folgende Seite
http://evub.unibe.ch/pievub/?page=lectures&id=188782
genannt. Die Veranstaltung S6435 enthält in ihrem Titel komische
Zeichen (man betrachte den Quellcode bspw. in vim).
Ich habe es nun mit uft8_decode() versucht, was aber nichts gebracht
hat, die Zeichen bleiben erhalten. iconv("UTF-8","ISO-8895-1") meldet
Notice: iconv(): Detected illegal character in input string
und auch hier verschwinden die Zeichen nicht.
Leider bin ich eine Charset-Banause und habe keine Ahnung, wie ich
a) feststellen kann, was die Zeichen bedeuten und aus welchem Charset
sie stammen
b) wie ich die Zeichen mit PHP wieder wegkriege
Ich wäre froh, wenn einer der Profis hier Tipps geben könnte. Danke im
Voraus!
Tschüss
Mario
--
Mario Aeby
Stritenstrasse 47
CH-3176 Neuenegg
Mobile 078 690 50 11
Fax 031 741 28 93
http://www.eMeidi.com/
php::bar PHP Wiki - Listenarchive