Unicode与编码方式

如题所述

推荐答案 2022-06-23

Unicode可以表示世界上的每一个字符，每一个字符都有相应并且唯一的二进制编码。Unicode是一种字符集，让几乎所有语言中的每个字符都和一个 唯一数字 对应起来。

https://unicode-table.com/cn/4F60/

Unicode 是为了解决传统的字符编码方案的局限而产生的， 它为每种语言中的每个字符设定了统一并且唯一的二进制编码 ，以满足跨语言、跨平台进行文本转换、处理的要求。也就是说世界上的任意一个字符，无论何种语言，都能在Unicode字符集中找到其对应的二进制编码。

Unicode的表现方式是U+XXXXXX，X代表一位十六进制数，可以有4-6位，不足 4 位前补 0 补足 4 位，超过则按是几位就是几位。

字符A的ASCII码是65，将65转换成16进制就是41（16×4+（16^0)×1 = 65）,按照规则前面补0，那么字符A的Unicode表示就是U+0041，依次类推B的Unicode表示就是U+0042...等等，汉字"爱"的字符表示是“U+7231”

常见的编码方式有 UTF-8 , UTF-16 , GB2312 , GBK，它们都只是一种编码方式，每种编码有自己的规则。

UTF-8是一种非常通用的 可变长 字符编码方式，范围由1-4个字节不等。

UTF-16通常由2字节或者4字节表示一个字符，U+000~U+FFFF的范围内用2个字节表示。
U+10000~U+10FFFF的范围内用4个字节表示。

GB2312，每个汉字及符号以两个字节来表示，兼容ASCII码，GB 2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时，GB 2312也收录了许多其他语音的文字及符号。它所收录的汉字已经覆盖中国大陆99.75%的使用频率，对于人名、古汉语等方面出现的罕用字，GB 2312不能处理，这导致了后来 GBK 及GB 18030汉字字符集的出现。

GBK 向下与 GB 2312 编码兼容，向上支持 ISO 10646.1 国际标准，是前者向后者过渡过程中的一个承上启下的产物。GBK编码，是在 GB2312-80 标准基础上的内码扩展规范，使用了双字节编码方案，其编码范围从8140至FEFE（剔除xx7F），共23940个码位，共收录了21003个汉字，完全兼容 GB2312-80 标准

在JavaScript中，所有的string类型都是使用UTF-16编码的，形如 '\u00A9' 或者 '\uD87E\uDC04' ，详情参考MDN文档 Lexical_grammar 。

所以JS中，将字符转换成Unicode如下：

用通信理论的思路可以理解为:
unicode是信源编码，对字符集数字化。
utf-8是信道编码，为更好的存储和传输。

一个很简单的例子：
一个用GBK编码的文件，我如果以UTF-8来解码的话，打开就会是一片乱码。
再比如：

当然mata也可能会失效，如图

参考
Unicode中UTF-8与UTF-16编码详解
UTF-8与Unicode的区别
GB2312编码表
gb2312中的英文字母占几个字节？
漫画：什么是字符集和编码？ASCII、UTF-8、UTF-16、UTF-32 又是什么？
解决GB2312、GBK、UTF-8转换问题
Unicode和UTF编码转换

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/W7XXXWttXBXzzjtBOvX.html

相似回答

Windows 记事本的 ANSI、Unicode、UTF-8 这三种编码模式有什么区别...答：UTF-8原本是因兼容性出色而广受欢迎的编码，但由于Windows的特殊处理，它在实践中常与预期不符。当文本中的所有字符都属于ASCII范围时，记事本保存的ANSI文件与ASCII或无BOM的UTF-8是等效的。然而，对于Unicode字符集，同一个文本可以用UTF-8、UTF-16或UTF-32等多种编码形式存储和传输，这就强调了字...

unicode编码是什么?答：Unicode是一种字符编码方案，它为每种语言中的每个字符都设定了统一唯一的二进制编码，以实现跨语言、跨平台进行文本转换、处理的要求。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排，0x0000至0x10FFFF，每组称为平面（Plane），而每平面拥有65536个码...

unicode编码是什么?答：Unicode编码是一种计算机中用于表示文本的标准字符编码系统。Unicode的核心思想是为世界上所有的字符提供一种统一的编码方式，从而解决不同语言和符号在计算机中的表示问题。传统的字符编码，如ASCII码或各种国家和地区的编码系统，只能表示有限的字符集，并且不兼容其他编码系统，导致在不同系统间交换文本信息时...

6. 常见的文件编码方式及查看网页源码的编码方式答：编码是数据存储、全球传输、视觉呈现、计算和跨文化沟通的基石，它确保信息无误地穿越语言和文化的边界。让我们深入探讨几种常见的编码方式：ASCII码: 7位的奇迹，美国信息交换标准，每个字符占用1字节，如'@'对应1000001。Unicode: 一个庞大的字符集合，16/32位编码，虽然初期推广并不广泛，但它是字符...

什么是unicode编码?答：它们造成的直接结果是：出现了unicode 的多种存储方式，也就是说有许多种不同的二进制格式，可以用来表示 unicode 。另外 unicode 在很长一段时间内无法推广，直到互联网的出现。网络上流行的utf-8就是unicode编码的一类应用.如何查询 Unicode 编码在 Windows 系统下，你可以在运行栏输入 "eudcedit.exe...

Unicode是什么???答：Unicode 是为了解决传统的字符编码方案的局限而产生的，例如ISO 8859所定义的字符虽然在不同的国家中广泛地使用，可是在不同国家间却经常出现不兼容的情况。很多传统的编码方式都有一个共同的问题，即容许电脑处理双语环境（通常使用拉丁字母以及其本地语言），但却无法同时支持多语言环境（指可同时处理多种...

unicode编码是什么意思答：在ASCII中：英文字符占一个编码位置（单字节），而中文就要占两个位置（双字节）了在Unicode中：英文中文都是占两个编码位置（双字节），现在的操作系统用的都是Unicode编码，所以这时中文就不用进行转换为单字节进行运行了，效率就提高了；最重要的一点是Unicode几乎支持所有的语言编码，所以。。。

文本文档的ANSI编码与Unicode有什么区别?答：(Unicode字符集有多种编码形式) \x0d\x0a例如“连通”两个字的Unicode标准编码UTF-16 (big endian）为：DE 8F 1A 90 \x0d\x0a而其UTF-8编码为：E8 BF 9E E9 80 9A\x0d\x0a\x0d\x0an当一个软件打开一个文本时，它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码...

字符编码的Unicode答：每个符号的编码都不一样，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，“汉”这个字的Unicode编码是U+6C49。Unicode固然统一了编码方式，但是它的效率不高，比如UCS-4(Unicode的标准之一)规定用4个字节存储一个符号，那么每个英文字母前都必然有三个字节是0，这对存储和传输来说都很...

大家正在搜

python中unicode编码汉字内码的编码方式 Unicode码大全编码方式四种编码方式多重编码方式常用的编码方式有哪几种字段直接编码方式 java编码方式