python中unicode编码有多少位(2023年最新分享)

如题所述

举报该问题

其他回答

第1个回答 2024-09-05

导读：本篇文章首席CTO笔记来给大家介绍有关python中unicode编码有多少位的相关内容，希望对大家有所帮助，一起来看看吧。

unicode字符集是多少位的字符编码

unicode编码用2个字节存储字符。

2个字节=16个bit，即16位二进制编码。

注意：一个bit=一位二进制。

最初的unicode编码是固定长度的，16位，也就是2两个字节代表一个字符，这样一共可以表示65536个字符。显然，这样要表示各种语言中所有的字符是远远不够的。

Unicode4.0规范考虑到了这种情况，定义了一组附加字符编码，附加字符编码采用2个16位来表示，这样最多可以定义1048576个附加字符，目前unicode4.0只定义了45960个附加字符。

扩展资料：

字母和数字的ASCII码的记忆是非常简单的。我们只要记住了一个字母或数字的ASCII码（例如记住A为65，0的ASCII码为48），知道相应的大小写字母之间差32，就可以推算出其余字母、数字的ASCII码。

虽然标准ASCII码是7位编码，但由于计算机基本处理单位为字节（1byte=8bit），所以一般仍以一个字节来存放一个ASCII字符。每一个字节中多余出来的一位（最高位）在计算机内部通常保持为0（在数据传输时可用作奇偶校验位）。

参考资料来源：百度百科-字符编码

python程序采用unicode编码,一个中文字符对应几个

python程序采用unicode编码，一个中文字符对应两个字节。Unicode编码中，一个英文等于两个字节，一个中文（含繁体）等于两个字节。

python3字符串都是什么编码

编码

字符串是一种数据类型，但是，字符串比较特殊的是还有一个编码问题。

因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是65535，4个字节可以表示的最大整数是4294967295。

由于计算机是美国人发明的，因此，最早只有127个字母被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母z的编码是122。

Unicode

Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。

Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。

现在，捋一捋ASCII编码和Unicode编码的区别：ASCII编码是1个字节，而Unicode编码通常是2个字节。

字母A用ASCII编码是十进制的65，二进制的01000001；

字符0用ASCII编码是十进制的48，二进制的00110000，注意字符'0'和整数0是不同的；

汉字已经超出了ASCII编码的范围，用Unicode编码是十进制的20013，二进制的0100111000101101。

如果把ASCII编码的A用Unicode编码，只需要在前面补0就可以，因此，A的Unicode编码是0000000001000001。

新的问题又出现了：如果统一成Unicode编码，乱码问题从此消失了。但是，如果你写的文本基本上全部是英文的话，用Unicode编码比ASCII编码需要多一倍的存储空间，在存储和传输上就十分不划算。

所以，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：

字符

ASCII

Unicode

UTF-8

A??01000001??0000000001000001??01000001?

中??x??0100111000101101??111001001011100010101101?

从上面的表格还可以发现，UTF-8编码有一个额外的好处，就是ASCII编码实际上可以被看成是UTF-8编码的一部分，所以，大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

搞清楚了ASCII、Unicode和UTF-8的关系，我们就可以总结一下现在计算机系统通用的字符编码工作方式：

在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。

用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件：

浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器：

所以你看到很多网页的源码上会有类似metacharset="UTF-8"/的信息，表示该网页正是用的UTF-8编码。

Python的字符串

在最新的Python3版本中，字符串是以Unicode编码的，也就是说，Python的字符串支持多语言，例如：

print('包含中文的str')

包含中文的str

对于单个字符的编码，Python提供了ord()函数获取字符的整数表示，chr()函数把编码转换为对应的字符：

ord('A')65

ord('中')20013

chr(66)'B'chr(25991)'文'

如果知道字符的整数编码，还可以用十六进制这么写str

'\u4e2d\u6587'//中文

byte

由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes。

Python对bytes类型的数据用带b前缀的单引号或双引号表示：

x=b'ABC'

要注意区分'ABC'和b'ABC'，前者是str，后者虽然内容显示得和前者一样，但bytes的每个字符都只占用一个字节。

以Unicode表示的str通过encode()方法可以编码为指定的bytes，例如：

'ABC'.encode('ascii')

b'ABC''中文'.encode('utf-8')

b'\xe4\xb8\xad\xe6\x96\x87''中文'.encode('ascii')

Traceback(mostrecentcalllast):

File"stdin",line1,inmoduleUnicodeEncodeError:'ascii'codeccan'tencodecharactersinposition0-1:ordinalnotinrange(128)

纯英文的str可以用ASCII编码为bytes，内容是一样的，含有中文的str可以用UTF-8编码为bytes。含有中文的str无法用ASCII编码，因为中文编码的范围超过了ASCII编码的范围，Python会报错。

在bytes中，无法显示为ASCII字符的字节，用\x##显示。

反过来，如果我们从网络或磁盘上读取了字节流，那么读到的数据就是bytes。要把bytes变为str，就需要用decode()方法：

b'ABC'.decode('ascii')'ABC'b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')'中文'

要计算str包含多少个字符，可以用len()函数

len('ABC')3

len('中文')2

len()函数计算的是str的字符数，如果换成bytes，len()函数就计算字节数

len(b'ABC')3

len(b'\xe4\xb8\xad\xe6\x96\x87')6

len('中文'.encode('utf-8'))6

1个中文字符经过UTF-8编码后通常会占用3个字节，而1个英文字符只占用1个字节。

在操作字符串时，我们经常遇到str和bytes的互相转换。为了避免乱码问题，应当始终坚持使用UTF-8编码对str和bytes进行转换。

Python源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时，为了让它按UTF-8编码读取，我们通常在文件开头写上这两行

#!/usr/bin/envpython3#-*-coding:utf-8-*-

第二行注释是为了告诉Python解释器，按照UTF-8编码读取源代码，否则，你在源代码中写的中文输出可能会有乱码。

格式化：

在Python中，采用的格式化方式和C语言是一致的，用%实现，举例如下：

format%(...params)

'Hello,%s'%'world''Hello,world''Hi,%s,youhave$%d.'%('Michael',1000000)'Hi,Michael,youhave$1000000.'

%运算符就是用来格式化字符串的。在字符串内部，%s表示用字符串替换，%d表示用整数替换，%x表示16进制整数，有几个%?占位符，后面就跟几个变量或者值，顺序要对应好。如果只有一个%?，括号可以省略。

格式化整数和浮点数还可以指定是否补0和整数与小数的位数：

'%2d-%02d'%(3,1)'3-01''%.2f'%3.1415926'3.14'

有些时候，字符串里面的%是一个普通字符怎么办？这个时候就需要转义，用%%来表示一个%：

'growthrate:%d%%'%7'growthrate:7%'

python3.4编码有哪些

Python3中的编码问题前，第一个段落对字节、ASCII与Unicode与UTF-8等进行基本介绍，如果不对这几种编码犯头晕，可直接跳过。

ASCII与Unicode与UTF-8与GBK

首先从老大哥说起。跟很多人一样，大学读了这么久，久仰ASCII编码的大名。要说这个老大哥，我们再先从字节说起。一个字节包括八个比特位，每个比特位表示0或1，一个字节即可表示从00000000到11111111共2^8=256个数字。一个ASCII编码使用一个字节（除去字节的最高位作为作奇偶校验位），ASCII编码实际使用一个字节中的7个比特位来表示字符，共可表示2^7=128个字符。比如那时写C语言的程序，就经常要背下ASCII编码中的01000001（即十进制的65）表示字符‘A’，01000001加上32之后的01100001（即十进制的97）表示字符‘a’。现在打开Python，调用chr和ord函数，我们可以看到Python为我们对ASCII编码进行了转换。

第一个00000000表示空字符，因此ASCII编码实际上只包括了

字母、标点符号、特殊符号等共127个字符。因为ASCII是在美国出生的，对于由字母组成单词进而用单词表达的英文来说也是够了。但是中国人、日本人、

韩国人等其他语言的人不服了。中文是一个字一个字，ASCII编码用上了浑身解数256个字符都不够用。

因此后来出现了Unicode编码。Unicode编码通常由两个字节组成，共表示256*256个字符，即所谓的UCS-2。某些偏僻字还会用到四个字节，即所谓的UCS-4。也就是说Unicode标准也还在发展。但UCS-4出现的比较少，我们先记住：最原始的ASCII编码使用一个字节编码，但由于语言差异字符众多，人们用上了两个字节，出现了统一的、囊括多国语言的Unicode编码。

在Unicode中，原本ASCII中的127个字符只需在前面补一个全零的字节即可，比如前文谈到的字符‘a’：01100001，在Unicode中变成了0000000001100001。不久，美国人不开心了，吃上了世界民族之林的大锅饭，原本只需一个字节就能传输的英文现在变成两个字节，非常浪费存储空间和传输速度。

人们再发挥聪明才智，于是出现了UTF-8编码。因为针对的是空间浪费问题，因此这种UTF-8编码是可变长短的，从英文字母的一个字节，到中文的通常的三个字节，再到某些生僻字的六个字节。解决了空间问题，UTF-8编码还有一个神奇的附加功能，那就是兼容了老大哥的ASCII编码。一些老古董软件现在在UTF-8编码中可以继续工作。

注意除了英文字母相同，汉字在Unicode编码和UTF-8编码中通常是不同的。比如汉字的‘中’字在Unicode中是01001110

00101101，而在UTF-8编码中是1110010010111000

10101101。

我们祖国母亲自然也有自己的一套标准。那就是GB2312和GBK。当然现在挺少看到。通常都是直接使用UTF-8。记得我唯一一次看到GB编码的网页，是一个成人网站。

Python3中的默认编码

Python3中默认是UTF-8，我们通过以下代码：

importsys

sys.getdefaultencoding()

可查看Python3的默认编码。

Python3中的encode和decode

Python3中字符编码经常会使用到decode和encode函数。特别是在抓取网页中，这两个函数用的熟练非常有好处。我的理解，encode的作用，使我们看到的直观的字符转换成计算机内的字节形式。decode刚好相反，把字节形式的字符转换成我们看的懂的、直观的、“人模人样”的形式。如下图。

\x表示后面是十六进制，\xe4\xb8\xad即是二进制的1110010010111000

10101101。也就是说汉字‘中’encode成字节形式，是1110010010111000

10101101。同理，我们拿11100100

1011100010101101也就是\xe4\xb8\xad来decode回来，就是汉字‘中’。完整的应该是b'\xe4\xb8\xad'，在Python3中，以字节形式表示的字符串则必须加上前缀b，也就是写成上文的b'xxxx'形式。

前文说的Python3的默认编码是UTF-8，所以我们可以看到，Python处理这些字符的时候是以UTF-8来处理的。因此从上图可以看到，就算我们通过encode('utf-8')特意把字符encode为UTF-8编码，出来的结果还是相同：b'\xe4\xb8\xad'。

明白了这一点，同时我们知道UTF-8兼容ASCII，我们可以猜想大学时经常背诵的‘A’对应ASCII中的65，在这里是不是也能正确的decode出来呢。十进制的65转换成十六进制是41，我们尝试下：

b'\x41'.decode()

结果如下。果然是字符‘A’

Python3中的编码转换

据说字符在计算机的内存中统一是以Unicode编码的。只有在字符要被写进文件、存进硬盘或者从服务器发送至客户端（例如网页前端的代码）时会变成utf-8。但其实我比较关心怎么把这些字符以Unicode的字节形式表现出来，露出它在内存中的庐山正面目的。这里有个照妖镜：

xxxx.encode/decode('unicode-escape')

输出如下

b'\\u4e2d'还是b'\u4e2d，一个斜杠貌似没影响。同时可以发现在shell窗口中，直接输'\u4e2d'和输入b'\u4e2d'.decode('unicode-escape')是相同的，都会打印出汉字‘中’，反而是'\u4e2d'.decode('unicode-escape')会报错。说明说明Python3不仅支持Unicode，而且一个‘\uxxxx’格式的Unicode字符可被辨识且被等价于str类型。

如果我们知道一个Unicode字节码，怎么变成UTF-8的字节码呢。懂了以上这些，现在我们就有思路了，先decode，再encode。代码如下：

xxx.decode('unicode-escape').encode()

测试如下：

可以看到最后输出的UTF-8字节与上面的相同。尝试成功。所以其他的编码之间的转换，大概也是如此。

最后的扩展

还记得刚刚那个ord吗。时代变迁，老大哥ASCII被人合并，但ord还是有用武之地。试试ord('中')，输出结果是20013。20013是什么呢，我们再试试hex(ord('中'))，输出结果是'0x4e2d'，也就是20013是我们在上文见面了无数次的x4e2d的十进制值。这里说下hex，是用来转换成十六进制的函数，学过单片机的人对hex肯定不会陌生。

最后的扩展，在网上看到的他人的问题。我们写下类似于'\u4e2d'的字符，Python3知道我们想表达什么。但是让Python读取某个文件的时候出现了'\u4e2d'，是不是计算机就不认识它了呢？后来下文有人给出了答案。如下：

importcodecs

file=codecs.open("a.txt","r","unicode-escape")

u=file.read()

print(u)

python中string和Unicode的区别

首先要弄清楚的是，在python里，stringobject和unicodeobject是两种不同的类型。

stringobject是由characters组成的sequence，而unicodeobject是Unicodecodeunits组成的sequence。

string里的character是有多种编码方式的，比如单字节的ASCII，双字节的GB2312等等，再比如UTF-8。很明显要想解读string，必需知道string里的character是用哪种编码方式，然后才能进行。

Unicodecodeunit又是什么东西呢？一个Unicodecodeunit是一个16-bit或者32-bit的数值，每个数值代表一个unicode符号。在python里，16-bit的unicode，对应的是ucs2编码。32-bit对应的是ucs4编码。是不是感觉string里character的编码没什么区别？反正我现在脑子里就是这样一个印象：在Python里，ucs2或者ucs4编码的，我们叫做unicodeobject，其他编码的我们就叫做string。

至于python里的unicode到底是ucs2还是ucs4的，可以在编译时指定。例如Linux下，要用ucs2做unicode的编码，可以这样

#./configure--enable-unicode=ucs2

#make

#makeinstall

下载的Windows预编译版本，一般都是ucs2的。要想知道某个python运行环境是ucs2还是ucs4，可以查看sys.maxunicde，65535就是ucs2的，另一个很大的数值就是ucs4。

下面我们看看string和unicode在python里的不同

我们先看看在简体中文Windows2003系统下，系统编码是GBK

a='你好'

'/xc4/xe3/xba/xc3'

b=u'你好'

u'/u4f60/u597d'

printa

你好

printb

你好

a.__class__

type'str'

b.__class__

type'unicode'

len(a)

len(b)

在一个系统编码为UTF-8的Linux环境下

a='你好'

'/xe4/xbd/xa0/xe5/xa5/xbd'

b=u'你好'

u'/u4f60/u597d'

printa

你好

printb

你好

a.__class__

type'str'

b.__class__

type'unicode'

len(a)

len(b)

如何？简单总结一下：

1、string直接用引号来表示，unicode在引号前加一个u

2、直接输入的string常量会用系统缺省编码方式来编码，例如在GBK环境下，'你好'会编码成'/xc4/xe3/xba/xc3'，而在UTF-8环境下就成了'/xe4/xbd/xa0/xe5/xa5/xbd'。

3、len(string)返回string的字节数，len(unicode)返回的是字符数

4、很重要的一点，printunicode不会乱码。现在我们常用的Linux、Windows系统，都是支持unicode的，版本太老的不算。比如Windows2003支持ucs2，所以在中文Windows2003下，除了可以正常显示缺省的GBK编码外，还可以正常显示ucs2编码。举个例子，还是在中文Windows2003的GBK环境下：

a='/xe4/xbd/xa0/xe5/xa5/xbd'#UTF-8的'你好'

printa

浣犲ソ

b=unicode(a,"UTF-8")

u'/u4f60/u597d'

printb

你好

应该明白了吧？

下面再说说string和unicode的相互转换，什么unicode()、decode()、encode()、codecs之类的。

结语：以上就是首席CTO笔记为大家介绍的关于python中unicode编码有多少位的全部内容了，希望对大家有所帮助，如果你还想了解更多这方面的信息，记得收藏关注本站。

logo设计

创造品牌价值

¥500元起

APP开发

量身定制，源码交付

¥2000元起

商标注册

一个好品牌从商标开始

¥1480元起

公司注册

注册公司全程代办

¥0元起

查

看

更

多

官方电话

官方服务

官方网站八戒财税知识产权八戒服务商企业需求数字市场

相似回答

大家正在搜