Python中文乱码问题的原因及解决方法

最近在爬虫过程中爬下来的HTML文件中出现了不认识的字符,也就是“乱码”(之前也遇到了系统之间文件显示“乱码”的问题),花了点时间学习Python编码相关的问题,主要参考了以下几位的文章:Unicode编码底层描述Python二进制数据Python编码问题。故取多家之长,对“乱码”问题进行了梳理,写成比较简单易懂的总结博客。
思路是先掌握常见编码格式原理,然后弄清楚各个“系统”中编码格式和要求,最后通过代码实际演示转码结果。其中涉及到显示规则(编码软件)、存储规则、显示(打印输出规则)多方规则的不同,还涉及到不同编码之间的转化,如果没有搞懂,确实很不容易“捉虫”。

一、常见的编码规范

  • 二进制数据,bit(一个子位),二进制数据在python中以字节(bytes)类型,用b’为前缀。
  • ASCII编码,1bytes=8bits(一个字节),不严谨的可以认为ASCII码就是bytes,能表示的最大的整数就是255(2^8-1=255),而ASCII编码,占用0 – 127用来表示大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122。 还对一些如’\n’,‘\t’,‘#’,'@'等字符进行了编码。
  • GB2312编码,16bit(2个字节),适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。该标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
  • GBK编码,16bit(2个字节),兼容GB2312,收录了 21003 个汉字,共有 23940 个码位。而且它与 Unicode 组织的Unicode编码完全兼容。
  • Unicode 编码,通常16bit(2个字节),为了统一所有文字的编码,Unicode应运而生,这是一种满足世界所有所有文字符号的编码。从0x000000 – 0x10FFFF, 对应全世界所有的语言、公式、符号。由于Unicode采用定长编码的方式,相较于ASCII编码方式存储文件时候太占据存储空间,比如字符’A’,ASCII编码只需要一个字节(8位),用Unicode就翻了一倍。同时,随着互联网的诞生,需要传输和存储的数据越来越多,如果都是用Unicode编码传输会造成很大的浪费,于是形成多种节约空间和兼容性的编码规范,例如UTF-8,UTF-16,UTF-32,其中应用最广泛的是UTF-8。
    unicode码在python里有两种表示方式:它们是等价的,而且都是str对象1.‘\u四位十六进制数’2.u’字符串’。
  • # unicode码再python里有两种表示方式,它们是等价的,而且都是str对象
    #1.'\u四位十六进制数'
    print('\u0065')
    print("***"*8)
    # 2.u'字符串'
    print(u'e')
    ---------------------------------------------------------
    输出:
    e
    ************************
    e
    
  • UTF-8,Unicode Transformation Format,可变长度编码,通常使用1~4字节为每个字符编码,兼容ASCII编码,这是Unicode的其中一种转换格式。
  • ISO-8859-1 ,如果网页中没有通过chartset字段设置为"utf-8",则默认为ISO-8859-1编码模式,则无法解析中文,这是乱码的原因。通过reqs.encoding = reqs.apparent_encoding ,把apparent_encoding的编码格式赋值给encoding。apparent_encoding会从网页的内容中分析网页编码的方式,所以apparent_encoding比encoding更加准确。
  • 二、不同“系统”编码格式要求

    在码代码的过程中,会在不同的“系统”中对文件格式进行转换,所有有必要先梳理各个“系统”中要求。主要有:

    1. 系统默认编码
  • windows简体中文系统默认编码是gbk,最新的win11系统默认为utf-8。如果将超出gbk范围的unicode码,写入系统的txt文件和在cmd中print就会报错,解决办法可以将unicode码encode为bytes再写入或print。
  • macOS 系统和Linux系统默认支持的是 UTF-8 编码,在处理文件和码编码的过程中简单很多。
    1. 编辑界面编码
      编辑界面编码,即编辑器界面输入、显示文本的编码,如cmd(小黑窗)、Python默认的IDE、VScode、pycharm软件。
  • 在windows编辑界面编码默认是ascii码,也就是写的程序语句默认是ascii编码,但一旦涉及到ascii码不能表示的,就隐形转换为系统默认的gbk编码表示。
  • 在macOS系统,编辑界面默认为UTF-8编码。
    1. 显示界面编码
      显示界面编码,即打印结果显示界面(print结果显示界面)
  • Windows系统中,cmd中运行程序,默认显示文本的编码是ascii编码,超出ascii编码就会转化显示或报错,具体见下文。
  • 在macOS系统,编辑界面默认为UTF-8编码。
    不同的类型数据显示结果不同,主要分两类:
    3.1 输出为str类型即为unicode类型:输出不存在乱码问题。
    3.2 输出为byte类型:
    原理如下:
    ASCII(0-127)内情况:每读一个字节就和ascii码比对一下,如果符合ascii码的可显示字符(共有95个可显示字符),那这个字节就按照ascii码来表示,否则就按十六进制\x某某来表示(0~31及127(共33个)是控制字符或通信专用字符—显示十六进制\x某某)
    情况一:显示字符,特殊字符,字母和数字,共有95个—-显示为正常字符,如‘A’。
  • print(b'\x40\x41')#ASCII中可显示的字符串
    输出为:b'@A'
    

    情况二:按十六进制\x某某来表示:0~31及127是控制字符或通信专用字符,共33个,显示为十六进制的数\x某某,如\x00\x01。

    print(b'\x00\x01')
    输出为:b'\x00\x01'
    

    情况三: ASCIII字符外,程序报错

     print(b'中')
     
    报错:
    SyntaxError: bytes can only contain ASCII literal characters.
    

    有时候在不同的编辑界面显示’乱码‘,是因为不能直接转码输出(系统之间默认的码表格式与输出界面之间码表格式不匹配),需要经过unicode为中介,才能正确输出。

    4.代码文件编码
    代码文件(py文件)本身也是一个文本,它也需要在硬盘或者其他载体上保存的文件。
    Windows默认编码是系统gbk编码,macos/linux默认为UTF-8,所以py文件copy到不同平台,问题就会发生,出现“乱码”。

    三、编码之间转换原理

    1. 几个基本概念
  • 在python3中也有两种字符类型: bytes和str(unicode) 系统默认 str(unicode)。
  • Unicode形式的字符串的type是str,utf-8等其他形式的字符串的type是bytes
  • UTF-8 和 GBK(显示的字符) 在内存中为的 bytes 对象,它们存储结构不同(用不同组合(即不同的位长和每个bit的0/1取值不同)表示同一个字符)。他们通过print()(即显示打印结果)出来,此处显示结果超过ASCII码表值,所以显示为十六进制格式(原理见情况二
  • 中文二字的显示结果

    '\u4e2d\u6587'就是中文二字对应的Unicode编码
    b'\xe4\xb8\xad\xe6\x96\x87'就是中文二字对应的utf-8编码
    b'\xd6\xd0\xce\xc4'就是中文二字对应的gbk编码
    

    中文二字的存储结果

    print('中文'.encode('utf-8'))
    结果为:b'\xe4\xb8\xad\xe6\x96\x87'
    
    for i in b'\xe4\xb8\xad\xe6\x96\x87':
        print(i,'的二进制为:',bin(i))
    结果为:
    228 的二进制为: 0b11100100
    184 的二进制为: 0b10111000
    173 的二进制为: 0b10101101
    230 的二进制为: 0b11100110
    150 的二进制为: 0b10010110
    135 的二进制为: 0b10000111
    发现字符“中文”的utf-8编码方式为:11100100 10111000 10101101 11100110 10010110 10000111,这是它在计算机中存储的方式。
    
    

    2.编码解码过程:

    涉及编码问题时,需要编码与解码,第一步一定是检查变量类型,看它是str还是btyes,再决定使用encode还是decode方法

    Encode()方法:将str字符(unicode对象)串按照UTF8(或GBK等)的编码规则进行编码,得到的是bytes对象。bytes对象显示规则又有不同(具体见上文)

    Decode()方法:bytes(对象)按照UTF8(或GBK等)的编码规则进行解码,得到str字符(解码规则不同,得到相应的str字符也不同)。
    图中说明:utf-8与gbk之间转换需要使用unicode过渡,因为utf-8与gbk之间没有直接对应的转码规则。而unicode与utf-8等有直接的转码规则。
    另外,浏览网页的时候,服务器会把动态生成的 Unicode 内容(有时候为gbk编码,需要自己手动转码,不然会报错),转化为 UTF-8 编码形式,再传输到浏览器,那么用户就可以看到自己能理解的语言组成的网页,比如中文、日文、韩文等等。很多网页的源代码上会有类似的信息,表示该网页是 UTF-8 编码。

    四、常见报错原因及解决办法

    常见报错,有位知乎大佬常见报错总结的比较好,稍加整理后如下:

    1. 没分清str和bytes:
      我们有时会看到这样两种报错
    AttributeError: 'str' object has no attribute 'decode'
    AttributeError: 'bytes' object has no attribute 'encode'
    

    上面的报错可以又下面的代码导致

    a = '中文'
    b = a.encode('GBK')
    a.decode()
    b.encode()
    

    原因在于:
    a是str类型,对应Unicode编码,只能encode不能decode
    b是bytes类型,对应UTF-8编码,只能decode不能encode。

    所以码表解码的时候要分清是对象类型。另外,考虑到输出(print打印)的结果意义(需要人能正常解读),我们从来不需要输出UTF-8等编码后的内容即bytes,我们要输出的永远都是str,所以不要把encode后的结果输出出来,没有任何意义。

    2.字符集没有包含当前字符造成编码错误。
    之前提到的UTF-8/GBK等编码,都对应字符集,即这种编码方式支持对哪些字符编码,UTF-8就支持所有字符,GBK对韩文就不支持,ASCII就不支持中文。

    我们在python中输入各国文字都可以,因为Unicode是支持任意字符的。当把字符转化为一些不支持它的编码时,就会报错,示例如下:
    ASCII中文:

    >>>a = '中文'
    >>> a.encode('ascii')
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
    UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
    

    GBK韩文

    >>> a = '오빠-o bba'
    >>> a.encode('GBK')
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
    UnicodeEncodeError: 'gbk' codec can't encode character '\uc624' in position 0: illegal multibyte sequence
    

    3.二进制数据编码方式和解码方式不统一造成报错

    对于一个字符集来说,每一个字符都对应着二进制数据,但是不能说这么多位的二进制数每个都对应一个字符。所以一个字符通过A编码变成的二进制数,可能在B编码中并不对应一个字符,此时用B来解码就会报错,因为找不到这样的字符

    >>> a = '中文'
    >>> b = a.encode('utf-8')
    >>> b.decode('gbk')
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
    UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 2: illegal multibyte sequence
    

    4.二进制数据编码方式和解码方式不统一造成乱码

    和上一点相似,A编码变成的二进制数,可能在B编码中正好对应着字符,但是这个字符肯定和A中对应的字符不一样了,很有可能是一些我们平时没见到过的,被我们称之为乱码,例子如下:

    >>> a = '方法'
    >>> b = a.encode('utf-8')
    >>> b.decode('gbk')
    '鏂规硶'
    

    5.windows命令行中产生的额外错误
    (这个地方我没有完全懂,有大佬懂得话帮忙解释下,特别是模式二的情况)
    有时候会用windows下使用交互模式的python,有时会编写py文件在命令行中调用。这两种情况下代码运行结果都会直接打印在命令行窗口中。输出(打印)在命令行窗口的结果可能会和在jupyter中结果不同。

    在网上copy了一些奇怪的文字(这是奥里亚语),在几种不同的模式下出现的结果:
    在jupyter notebook中使用是可以正常返回结果的,在IDLE交互模式下也是可以返回正常结果的。

    a = 'ଆପଣ କିପରି ଅଛନ୍ତି'
    print(a)
    # ଆପଣ କିପରି ଅଛନ୍ତି
    

    模式一: py文件在命令行中调用 ,如果在python文件,如file1.py文件中输入上面两行代码,在cmd中输入python file1.py,会得到如下结果

    Traceback (most recent call last):
      File "1.py", line 2, in <module>
        print(a)
    UnicodeEncodeError: 'gbk' codec can't encode character '\u0b06' in position 0: illegal multibyte sequence
    

    模式二:交互模式 如果是在cmd的python交互模式下使用是这样的(其中那个赋值的文字还显示的是方框)

    >>> a = 'ଆପଣ କିପରି ଅଛନ୍ତି'
    >>> print(a)
    ??? ????? ??????
    

    分析模式一的情况:
    从报错内容上来看,和模式二一样,可以看出这里相当于执行了a.encode(‘GBK’)windows内部自动转换),但是实际上我们的程序只是打印了,根本没涉及到编码解码的问题。这是因为默认情况下,cmd显示字符是通过GBK来显示的,也就是会自动把字符先转化为GBK的二进制数,再用这些二进制数对应字符显示在屏幕上,所以这个屏幕只支持GBK字符集收录的字符,有不属于这个字符集的字符想显示就会报这个错误。

    解决方法:先在cmd中输入chcp 65001,这样会clear之前所有命令,好像一个新的界面一样,然后再python 1.py,理论上就可以正常输出了,不过还是没完全正常。

    出的是一堆方框,但是将这些方框复制下来,粘贴到jupyter里显示的是正确的字符。说明其实打印出来的是正确的,只是在cmd中无法显示而已,这和cmd的字体有关。点击左上角图标-属性,修改字体,不过这个语言实在太偏,没有一个字体可以将其正常显示。

    类似地,拿希伯来文עברית做实验,在consolas字体下也显示不出来,复制到jupyter时也是正常的,这个情况就和刚才完全一样了,字体换成courier new就发现可以正常显示了,说明显示方框确实是字体问题

    回过头来,讲一下chcp命令。chcp指代码页,具体其实不用懂,默认是chcp936,对应编码方式是中文简体GBK,而chcp65001对应的是UTF-8,更多代码页见这个链接Windows下的chcp命令(更改该控制台的活动控制台代码页)

    分析模式二的情况

    上面(离这里最近的那个代码块)展示的代码是直接从cmd中复制过来的,从复制结果来看,原来显示方框的在这里是正常显示的,在cmd中无法显示是因为字体无法显示;而下面?是真的没编码正确。其实问题和第一种情况是一样的。

    在默认的chcp936下,字符需要先编码为GBK才能print在屏幕上,而这一步编码是失败的,所以显示的是问号,这里没有报错是和第一种的一种点差别,但是本质上是一样的。

    对于方框显示问题,因为没有合适的字体,可以再拿希伯来文עברית做实验来加深理解。我们是不是直接将字体换了就可以正常显示了呢,其实也不是。因为在chcp936的情况下,是没有刚才的字体的,只有切换到chcp65001下才有可以显示的字体。

    问题5的总结:
    其实在windows中出现的问题就两种:

    一种是由于chcp代码页的显示,会有隐藏着的编码过程,这个过程可能引起编码错误。
    一种是cmd中支持的字体限制,有些字体无法正常显示一些字符,让人看起来像乱码。

    五、常用转码工具代码

    1. GBK与utf-8转换代码:
    # gbk转utf8
    def gbkfileToUtf8(inFilePath, outFilePath):
        with open(inFilePath, 'rb') as f1:
            a = f1.read()
            b = a.decode('gbk', 'ignore')#将GBK转化成Unicode
            with open(outFilePath, 'w', encoding='utf8') as f2:
                f2.write(b)#将Unicode转化成UTF8
            print("转化完成")
    
    
    # utf8转gbk
    def utf8fileToGbk(inFilePath, outFilePath):
        with open(inFilePath, 'rb') as f1:
            a = f1.read()
            b = a.decode('utf8', 'ignore')#将utf8转化成Unicode
            with open(outFilePath, 'w', encoding='gbk') as f2:
                f2.write(b)#将Unicode转化成gbk
            print("转化完成")
    

    2.爬虫网页过程中的编码:URL编码

    由于URL 只能使用 ASCII 字符集 通过因特网进行发送,同时非ASCII格式的字符都有一个unicode的编码(毕竟它是包含世界上所有字符的编码)。通过encoding='utf-8’等,转化成服务器(默认utf8)可以接受的编码结果,这个结果也是ASCII字符集内的,所以编码后就可以通过因特网传输了。不得不再一次感叹:chatGPT太香了,比炸鸡烤串都香~

    通过代码进行验证chatGPT的过程:

    a= "你"
    s = a.encode("utf8")
    type(s),s
    
    输出为:(bytes, b'\xe4\xbd\xa0')---跟chatGPT里面的分析过程一样。
    

    urlib中字符的编码解码过程:使用unquote/quote函数编解码。如下:

    from urllib.parse import unquote
    kw = '%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88'
    kw = unquote(kw,encoding ='utf-8',errors ='replace'))  # 将URL编码的字符串转换为汉字
    print(kw)  # 输出:数据分析师
    
    

    六、总结

    花了不少时间总结这个Python编码问题(不管是文件传输还是爬虫解析),也算基本搞懂了编码解码的问题(win平台下没有完全搞懂)。
    总结来看,

    1. 首先,搞清楚各个编码规范的原理。
    2. 其次,知道各个“系统”(是存储还是显示(打印))默认的编码规范要求。
    3. 再次,根据使用场景中要把对应的转码编码需要的字符集梳理清楚(到底是str还是btyes),然后将对应的字符集进行转码编码,其中最最重要的是要牢记unicode作为中间码的作用。encode()和deconde()方法其中的可选参数也要注意。
      其中,一特殊场景:爬虫。爬虫过程这一应用较多且特殊的场景字符转换分析。不管是爬虫爬下来的html.text的文本编码规范,还是url中传输的非ASCII字符的编码。
    4. 最最重要的掌握基础知识概念后用代码运行起来!

    最后,感谢我参考过的各位大佬!

    物联沃分享整理
    物联沃-IOTWORD物联网 » Python中文乱码问题的原因及解决方法

    发表评论