Mailinglisten-Archive |
Hallo miteinander Leider ist es an unserer Uni nicht möglich, Daten aus dem elektronischen Vorlesungsverzeichnis strukturiert (bspw. XML) wieder rauszuholen. Die Daten sind zwar in einer Datenbank gespeichert, mir wurde aber empfohlen, doch einfach die entsprechenden WWW-Seiten zu parsen ... einen Kommentar unterlasse ich jetzt. Gesagt, widerwillig getan - doch nun habe ich ein Problem! Anscheinend filtern die Jungs die von den Sekretariaten der Institutionen eingegebenen Daten nicht, weshalb sich auch Zeichen in den HTML-Output verirren, die nicht zum angegebenen Charset (Latin-1) passen. Als Beispiel sei folgende Seite http://evub.unibe.ch/pievub/?page=lectures&id=188782 genannt. Die Veranstaltung S6435 enthält in ihrem Titel komische Zeichen (man betrachte den Quellcode bspw. in vim). Ich habe es nun mit uft8_decode() versucht, was aber nichts gebracht hat, die Zeichen bleiben erhalten. iconv("UTF-8","ISO-8895-1") meldet Notice: iconv(): Detected illegal character in input string und auch hier verschwinden die Zeichen nicht. Leider bin ich eine Charset-Banause und habe keine Ahnung, wie ich a) feststellen kann, was die Zeichen bedeuten und aus welchem Charset sie stammen b) wie ich die Zeichen mit PHP wieder wegkriege Ich wäre froh, wenn einer der Profis hier Tipps geben könnte. Danke im Voraus! Tschüss Mario -- Mario Aeby Stritenstrasse 47 CH-3176 Neuenegg Mobile 078 690 50 11 Fax 031 741 28 93 http://www.eMeidi.com/
php::bar PHP Wiki - Listenarchive