![]() Mailinglisten-Archive |
Hallo miteinander Leider ist es an unserer Uni nicht m�glich, Daten aus dem elektronischen Vorlesungsverzeichnis strukturiert (bspw. XML) wieder rauszuholen. Die Daten sind zwar in einer Datenbank gespeichert, mir wurde aber empfohlen, doch einfach die entsprechenden WWW-Seiten zu parsen ... einen Kommentar unterlasse ich jetzt. Gesagt, widerwillig getan - doch nun habe ich ein Problem! Anscheinend filtern die Jungs die von den Sekretariaten der Institutionen eingegebenen Daten nicht, weshalb sich auch Zeichen in den HTML-Output verirren, die nicht zum angegebenen Charset (Latin-1) passen. Als Beispiel sei folgende Seite http://evub.unibe.ch/pievub/?page=lectures&id=188782 genannt. Die Veranstaltung S6435 enth�lt in ihrem Titel komische Zeichen (man betrachte den Quellcode bspw. in vim). Ich habe es nun mit uft8_decode() versucht, was aber nichts gebracht hat, die Zeichen bleiben erhalten. iconv("UTF-8","ISO-8895-1") meldet Notice: iconv(): Detected illegal character in input string und auch hier verschwinden die Zeichen nicht. Leider bin ich eine Charset-Banause und habe keine Ahnung, wie ich a) feststellen kann, was die Zeichen bedeuten und aus welchem Charset sie stammen b) wie ich die Zeichen mit PHP wieder wegkriege Ich w�re froh, wenn einer der Profis hier Tipps geben k�nnte. Danke im Voraus! Tsch�ss Mario -- Mario Aeby Stritenstrasse 47 CH-3176 Neuenegg Mobile 078 690 50 11 Fax 031 741 28 93 http://www.eMeidi.com/
php::bar PHP Wiki - Listenarchive