phpbar.de logo

Mailinglisten-Archive

[php] noch mal Unicode

[php] noch mal Unicode

Thomas Richter php at wwedit.org
Mon Mar 29 20:19:50 CEST 2004


> > zu checken, ob es sich wirklich um eine utf-8 codierte
> > (NICHT UNICODE) datei handelt.
> oops,
> ohne einen Komentar wuerde ich das fuer 'aequivalent'
> halten, aber dann haettest Du das nicht geschrieben ... ;-)

unicode ist ein zeichensatz. der stimmt wohl zum groessten
teil mit latin-1 ueberein. dieser zeichensatz bestimmt nur
hinter welchem zahlenwert welches zeichen steht.

utf-8 ist eine codierung mit dynamischer bytelaenge
dieses zeichensatzes. andere sind z.bsp. utf-16.
ucs-2/ ucs-4.

ucs-2, bzw. ucs-4 sind wohl die einfachsten codierungen
von unicode. ein zeichen wird dementsprechend als 2, bzw.
4 byte abgelegt. die einschraenkung ist natuerlich sofort
ersichtlich: wenn die zeichentabelle unicode mehr als
2^(16)/(32) zeichen enthaelt, kann man mit ucs-2/4 nicht
mehr vollstaendig darstellen.


gruss

thomas




php::bar PHP Wiki   -   Listenarchive