激情久久久_欧美视频区_成人av免费_不卡视频一二三区_欧美精品在欧美一区二区少妇_欧美一区二区三区的

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

香港云服务器
服務器之家 - 腳本之家 - Python - python 中文亂碼問題深入分析

python 中文亂碼問題深入分析

2020-06-27 12:01Python教程網 Python

一直以來,python中的中文編碼就是一個極為頭大的問題,經常拋出編碼轉換的異常,python中的str和unicode到底是一個什么東西呢?

在本文中,以'哈'來解釋作示例解釋所有的問題,“哈”的各種編碼如下:
1. UNICODE (UTF8-16),C854;
2. UTF-8,E59388;
3. GBK,B9FE。
一、python中的str和unicode
一直以來,python中的中文編碼就是一個極為頭大的問題,經常拋出編碼轉換的異常,python中的str和unicode到底是一個什么東西呢?
在python中提到unicode,一般指的是unicode對象,例如'哈哈'的unicode對象為
u'\u54c8\u54c8'
而str,是一個字節數組,這個字節數組表示的是對unicode對象編碼(可以是utf-8、gbk、cp936、GB2312)后的存儲的格式。這里它僅僅是一個字節流,沒有其它的含義,如果你想使這個字節流顯示的內容有意義,就必須用正確的編碼格式,解碼顯示。
例如:
python 中文亂碼問題深入分析

對于unicode對象哈哈進行編碼,編碼成一個utf-8編碼的str-s_utf8,s_utf8就是是一個字節數組,存放的就是'\xe5\x93\x88\xe5\x93\x88',但是這僅僅是一個字節數組,如果你想將它通過print語句輸出成哈哈,那你就失望了,為什么呢?

因為print語句它的實現是將要輸出的內容傳送了操作系統,操作系統會根據系統的編碼對輸入的字節流進行編碼,這就解釋了為什么utf-8格式的字符串“哈哈”,輸出的是“鍝堝搱”,因為 '\xe5\x93\x88\xe5\x93\x88'用GB2312去解釋,其顯示的出來就是“鍝堝搱”。這里再強調一下,str記錄的是字節數組,只是某種編碼的存儲格式,至于輸出到文件或是打印出來是什么格式,完全取決于其解碼的編碼將它解碼成什么樣子。

這里再對print進行一點補充說明:當將一個unicode對象傳給print時,在內部會將該unicode對象進行一次轉換,轉換成本地的默認編碼(這僅是個人猜測)

二、str和unicode對象的轉換

str和unicode對象的轉換,通過encode和decode實現,具體使用如下:

python 中文亂碼問題深入分析

將GBK'哈哈'轉換成unicode,然后再轉換成UTF8

三、Setdefaultencoding

python 中文亂碼問題深入分析

如上圖的演示代碼所示:

當把s(gbk字符串)直接編碼成utf-8的時候,將拋出異常,但是通過調用如下代碼:

import sys

reload(sys)

sys.setdefaultencoding('gbk')

后就可以轉換成功,為什么呢?在python中str和unicode在編碼和解碼過程中,如果將一個str直接編碼成另一種編碼,會先把str解碼成unicode,采用的編碼為默認編碼,一般默認編碼是anscii,所以在上面示例代碼中第一次轉換的時候會出錯,當設定當前默認編碼為'gbk'后,就不會出錯了。

至于reload(sys)是因為Python2.5 初始化后會刪除 sys.setdefaultencoding 這個方法,我們需要重新載入

四、操作不同文件的編碼格式的文件

建立一個文件test.txt,文件格式用ANSI,內容為:

abc中文

用python來讀取

# coding=gbk

print open("Test.txt").read()

結果:abc中文

把文件格式改成UTF-8:

結果:abc涓枃

顯然,這里需要解碼:

# coding=gbk

import codecs

print open("Test.txt").read().decode("utf-8")

結果:abc中文

上面的test.txt我是用Editplus來編輯的,但當我用Windows自帶的記事本編輯并存成UTF-8格式時,

運行時報錯:

Traceback (most recent call last):

File "ChineseTest.py", line 3, in 

print open("Test.txt").read().decode("utf-8")

UnicodeEncodeError: 'gbk' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence

原來,某些軟件,如notepad,在保存一個以UTF-8編碼的文件時,會在文件開始的地方插入三個不可見的字符(0xEF 0xBB 0xBF,即BOM)。

因此我們在讀取時需要自己去掉這些字符,python中的codecs module定義了這個常量:

# coding=gbk

import codecs

data = open("Test.txt").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

結果:abc中文

五、文件的編碼格式和編碼聲明的作用

源文件的編碼格式對字符串的聲明有什么作用呢?這個問題困擾一直困擾了我好久,現在終于有點眉目了,文件的編碼格式決定了在該源文件中聲明的字符串的編碼格式,例如:

str = '哈哈'

print repr(str)

a.如果文件格式為utf-8,則str的值為:'\xe5\x93\x88\xe5\x93\x88'(哈哈的utf-8編碼)

b.如果文件格式為gbk,則str的值為:'\xb9\xfe\xb9\xfe'(哈哈的gbk編碼)

在第一節已經說過,python中的字符串,只是一個字節數組,所以當把a情況的str輸出到gbk編碼的控制臺時,就將顯示為亂碼:鍝堝搱;而當把b情況下的str輸出utf-8編碼的控制臺時,也將顯示亂碼的問題,是什么也沒有,也許'\xb9\xfe\xb9\xfe'用utf-8解碼顯示,就是空白吧。>_<

說完文件格式,現在來談談編碼聲明的作用吧,每個文件在最上面的地方,都會用# coding=gbk 類似的語句聲明一下編碼,但是這個聲明到底有什么用呢?到止前為止,我覺得它的作用也就是三個:

 

  1. 聲明源文件中將出現非ascii編碼,通常也就是中文;

  2. 在高級的IDE中,IDE會將你的文件格式保存成你指定編碼格式。

  3. 決定源碼中類似于u'哈'這類聲明的將‘哈'解碼成unicode所用的編碼格式,也是一個比較容易讓人迷惑的地方,看示例:

#coding:gbk

 

ss = u'哈哈'

print repr(ss)

print 'ss:%s' % ss

將這個些代碼保存成一個utf-8文本,運行,你認為會輸出什么呢?大家第一感覺肯定輸出的肯定是:

u'\u54c8\u54c8'

ss:哈哈

但是實際上輸出是:

u'\u935d\u581d\u6431'

ss:鍝堝搱

為什么會這樣,這時候,就是編碼聲明在作怪了,在運行ss = u'哈哈'的時候,整個過程可以分為以下幾步:

1) 獲取'哈哈'的編碼:由文件編碼格式確定,為'\xe5\x93\x88\xe5\x93\x88'(哈哈的utf-8編碼形式)

2) 轉成 unicode編碼的時候,在這個轉換的過程中,對于'\xe5\x93\x88\xe5\x93\x88'的解碼,不是用utf-8解碼,而是用聲明編碼處指定的編碼GBK,將'\xe5\x93\x88\xe5\x93\x88'按GBK解碼,得到就是''鍝堝搱'',這三個字的unicode編碼就是u'\u935d\u581d\u6431',至止可以解釋為什么print repr(ss)輸出的是u'\u935d\u581d\u6431' 了。

好了,這里有點繞,我們來分析下一個示例:

#-*- coding:utf-8 -*-

ss = u'哈哈'

print repr(ss)

print 'ss:%s' % ss

將這個示例這次保存成GBK編碼形式,運行結果,竟然是:

UnicodeDecodeError: 'utf8' codec can't decode byte 0xb9 in position 0: unexpected code byte

這里為什么會有utf8解碼錯誤呢?想想上個示例也明白了,轉換第一步,因為文件編碼是GBK,得到的是'哈哈'編碼是GBK的編碼'\xb9\xfe\xb9\xfe',當進行第二步,轉換成 unicode的時候,會用UTF8對'\xb9\xfe\xb9\xfe'進行解碼,而大家查utf-8的編碼表會發現,utf8編碼表(關于UTF- 8解釋可參見字符編碼筆記:ASCII、UTF-8、UNICODE)中根本不存在,所以會報上述錯誤。

延伸 · 閱讀

精彩推薦
684
Weibo Article 1 Weibo Article 2 Weibo Article 3 Weibo Article 4 Weibo Article 5 Weibo Article 6 Weibo Article 7 Weibo Article 8 Weibo Article 9 Weibo Article 10 Weibo Article 11 Weibo Article 12 Weibo Article 13 Weibo Article 14 Weibo Article 15 Weibo Article 16 Weibo Article 17 Weibo Article 18 Weibo Article 19 Weibo Article 20 Weibo Article 21 Weibo Article 22 Weibo Article 23 Weibo Article 24 Weibo Article 25
主站蜘蛛池模板: 亚洲乱操 | 2021av视频 | 国产无限资源在线观看 | 中文字幕电影免费播放 | 亚洲性生活免费视频 | av在线免费不卡 | 中日韩乱码一二新区 | 视频一区二区在线观看 | 九草视频| 高潮激情aaaaa免费看 | 国产免费永久在线观看 | 黄色免费网站在线观看 | 亚洲啊v在线观看 | 久久精品免费国产 | 99久久久国产精品免费观看 | 国产精品久久久久免费视频 | 性aaa| 欧美一级免费视频 | 91精品国产91| 免费观看黄色影片 | av在线一区二区三区四区 | 成人国产综合 | 午夜精品久久久久久中宇 | 精品国产一区二区三区四区在线 | 91久久99热青草国产 | 69性欧美高清影院 | 亚洲人成电影在线 | 日本成年免费网站 | 国产亚洲黑人性受xxxx精品 | 激情夜色 | 一级做a爱片久久毛片a高清 | 在线看成人av | 久久毛片免费观看 | 色精品国产 | 欧美18一19sex性护士农村 | 91高清视频在线观看 | 亚洲国产资源 | 97人人草 | 日本成人在线免费 | 视频一区二区三区在线播放 | 国产免费视频一区二区裸体 |