在用BeautifulSoup進行抓取頁面的時候,會各種各樣的編碼錯誤。
可以通過在beautifulsoup中指定字符編碼,解決問題。
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen('http://www.163.com');
soup = BeautifulSoup(page,from_encoding="gb2312")
print soup.originalEncoding
print soup.prettify()
紅色部分表示需要注意的地方。在BeautifulSoup構造器中傳入fromEncoding參數即可解決亂碼問題,當然具體參數值是什么就要看你獲取頁面的編碼是什么