本文要介紹的爬蟲是抓取暴走漫畫上的GIF趣圖,方便離線觀看。爬蟲用的是python3.3開發的,主要用到了urllib、request和BeautifulSoup模塊。
urllib模塊提供了從萬維網中獲取數據的高層接口,當我們用urlopen()打開一個URL時,就相當于我們用Python內建的open()打開一個文件。但不同的是,前者接收一個URL作為參數,并且沒有辦法對打開的文件流進行seek操作(從底層的角度看,因為實際上操作的是socket,所以理所當然地沒辦法進行seek操作),而后者接收的是一個本地文件名。
Python的BeautifulSoup模塊,可以幫助你實現HTML和XML的解析
先說一下,一般寫網頁爬蟲,即抓取網頁的html源碼等內容,然后分析,提取相應的內容。
這種分析html內容的工作,如果只是用普通的正則表達式re模塊去一點點匹配的話,對于內容簡單點的網頁分析,還是基本夠用。
但是對于工作量很大,要解析內容很繁雜的html,那么用re模塊,就會發現無法實現,或很難實現。
而使用beautifulsoup模塊去幫你實現分析html源碼的工作的話,你就會發現,事情變得如此簡單,極大地提高了分析html源碼的效率。
注:BeautifulSoup是第三方庫,我使用的是bs4。urllib2在python3中被分配到了urllib.request中,文檔中的原文如下。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
爬蟲源代碼如下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
|
# -*- coding: utf-8 -*- import urllib.request import bs4,os page_sum = 1 #設置下載頁數 path = os.getcwd() path = os.path.join(path, '暴走GIF' ) if not os.path.exists(path): os.mkdir(path) #創建文件夾 url = "http://baozoumanhua.com/gif/year" #url地址 headers = { #偽裝瀏覽器 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)' ' Chrome/32.0.1700.76 Safari/537.36' } for count in range (page_sum): req = urllib.request.Request( url = url + str (count + 1 ), headers = headers ) print (req.full_url) content = urllib.request.urlopen(req).read() soup = bs4.BeautifulSoup(content) # BeautifulSoup img_content = soup.findAll( 'img' ,attrs = { 'style' : 'width:460px' }) url_list = [img[ 'src' ] for img in img_content] #列表推導 url title_list = [img[ 'alt' ] for img in img_content] #圖片名稱 for i in range (url_list.__len__()) : imgurl = url_list[i] filename = path + os.sep + title_list[i] + ".gif" print (filename + ":" + imgurl) #打印下載信息 urllib.request.urlretrieve(imgurl,filename) #下載圖片 |
在第15行可以修改下載頁數,將此文件保存為baozougif.py,使用命令python baozougif.py運行后在同目錄下會生成「暴走GIF」的文件夾,所有的圖片會自動下載到該目錄中。