Mailinglisten-Archive |
Lutz Zetzsche wrote: >> Das funktioniert oft, aber eben nicht immer. Sehr oft erkennt er UTF-8 >> Seiten nicht. > Hast Du mal geguckt, warum die UTF-8-Seiten nicht so gut erkannt werden? > Vielleicht liegt es ja daran, daß in diesen Seiten verschiedene > Zeichensätze vermischt sind. :-) Kann natürlich sein. Habe es jetzt auf dem Browser-Weg realisiert. Erst wird in den HTTP-Headers geprüft, ob einen Codierung angeben ist, dann innerhalb des HTML-Quelltextes nach dem Meta Tag für das Encoding gesucht. Wenn beides nicht gesetzt ist, wird angenommen, das es ISO-8859-1 ist, das kann zwar zu Fehlern führen (bei der Erkennung des Titels), liegt dann aber in der Verantwortung des Seitererstellers. Schön wäre der Erkennungsalgorithmus von Mozilla gewesen, der ja recht zuverlässigt arbeitet. http://www.mozilla.org/projects/intl/UniversalCharsetDetection.html Scheint aber recht rechenaufwendig zu sein ;-) Gruss Andreas
php::bar PHP Wiki - Listenarchive