UTF-8:
UTF-8是Unicode的8-bit编码格式。是一个可变长的编码,并且是7-bit ASCII码的严格超集。严格超集的意思是7-bit ASCII码的每一个字符在UTF-8中均以相同的值表示。例如:在UTF-8和ASCII中,“A”的编码都是0x41。这种编码方式中,一个Unicode字符可以是1Bytes,2Bytes,3Bytes或者4Bytes。欧系语言字符用1Bytes或2Bytes表示,大部分亚系语言字符用3Bytes表示,一些补充字符用4Bytes表示。
UTF-8做为一种Unicode编码,应用于UNIX平台,HTML和大多数的Internet浏览器。UTF-8主要的优点有:
Ø 对于欧系语言能够更好的压缩存储。由于UTF-8是7-bit ASCII码的严格超
集,普遍欧系数据会占用更少的存储空间。
Ø 便于移植。UTF-8中对于7-bit ASCII码的存储值是相同的,所以在基于ASCII
码和UTF-8字符集的数据转换效率明显提高。
l UCS-2:
UCS-2编码是Unicode的16-bit混合编码,每一个字符占用2Bytes,与语系语言无关。UCS-2应用与Java和Windows NT 4.0。UCS-2仅支持Unicode字符集的3.0标准,不支持补充的字符。
UCS-2主要的优点有:
Ø 对于亚系语言能够更好的压缩存储,因为每一个字符都用2Bytes表示。
Ø 由于所有的字符都是等长表示,所以对字符串的处理更快。
Ø 更适合于Java和Microsoft的客户端。
l UTF-16:
UTF-16是16-bit编码的Unicode。UTF-16是基于UCS-2的一个扩展,提供对Unicode3.1标准中对补充字符的定义。一个Unicode字符可以用2Bytes或4Bytes表示。欧系语言的字符(包括ASCII码)和大部分的亚系语言是用2Bytes表示的。补充字符使用4Bytes表示的。UTF-16是微软公司Windows 2000,XP和2003操作系统的主要Unicode编码方式。
UTF-16主要的优点有:
Ø 存储亚系语言占用更少的空间。由于主要的亚系字符在UTF-16中用2Bytes表示,而同样的字符在UTF-8中要用3Bytes表示,所以UTF-16会节省硬盘和内存空间。
Ø 更加适合于Java和Microsoft客户端。
本文来自CSDN博客,转载请标明出处:
http://blog.csdn.net/zkhappyfol/archive/2006/11/04/1366045.aspx