phpbar.de logo

Mailinglisten-Archive

[php] Erkennen eines Character-Encodings

[php] Erkennen eines Character-Encodings

Andreas Lange andreas.lange at haas-media.de
Die Dez 14 15:27:04 CET 2004


Lutz Zetzsche wrote:
>> Das funktioniert oft, aber eben nicht immer. Sehr oft erkennt er UTF-8
>> Seiten nicht.

> Hast Du mal geguckt, warum die UTF-8-Seiten nicht so gut erkannt werden?
> Vielleicht liegt es ja daran, daß in diesen Seiten verschiedene
> Zeichensätze vermischt sind. :-)

Kann natürlich sein. Habe es jetzt auf dem Browser-Weg realisiert.
Erst wird in den HTTP-Headers geprüft, ob einen Codierung angeben ist,
dann innerhalb des HTML-Quelltextes nach dem Meta Tag für das Encoding
gesucht. Wenn beides nicht gesetzt ist, wird angenommen, das es
ISO-8859-1 ist, das kann zwar zu Fehlern führen (bei der Erkennung des
Titels), liegt dann aber in der Verantwortung des Seitererstellers.

Schön wäre der Erkennungsalgorithmus von Mozilla gewesen, der ja recht
zuverlässigt arbeitet.

http://www.mozilla.org/projects/intl/UniversalCharsetDetection.html

Scheint aber recht rechenaufwendig zu sein ;-)

Gruss

Andreas


php::bar PHP Wiki   -   Listenarchive