Mailinglisten-Archive |
> > zu checken, ob es sich wirklich um eine utf-8 codierte > > (NICHT UNICODE) datei handelt. > oops, > ohne einen Komentar wuerde ich das fuer 'aequivalent' > halten, aber dann haettest Du das nicht geschrieben ... ;-) unicode ist ein zeichensatz. der stimmt wohl zum groessten teil mit latin-1 ueberein. dieser zeichensatz bestimmt nur hinter welchem zahlenwert welches zeichen steht. utf-8 ist eine codierung mit dynamischer bytelaenge dieses zeichensatzes. andere sind z.bsp. utf-16. ucs-2/ ucs-4. ucs-2, bzw. ucs-4 sind wohl die einfachsten codierungen von unicode. ein zeichen wird dementsprechend als 2, bzw. 4 byte abgelegt. die einschraenkung ist natuerlich sofort ersichtlich: wenn die zeichentabelle unicode mehr als 2^(16)/(32) zeichen enthaelt, kann man mit ucs-2/4 nicht mehr vollstaendig darstellen. gruss thomas
php::bar PHP Wiki - Listenarchive