国产精品久久久久久99999,久久99精品国产,精品人成

本文要介紹的爬蟲是抓取暴走漫畫上的GIF趣圖，方便離線觀看。爬蟲用的是python3.3開發的，主要用到了urllib、request和BeautifulSoup模塊。

urllib模塊提供了從萬維網中獲取數據的高層接口，當我們用urlopen()打開一個URL時，就相當于我們用Python內建的open()打開一個文件。但不同的是，前者接收一個URL作為參數，并且沒有辦法對打開的文件流進行seek操作（從底層的角度看，因為實際上操作的是socket，所以理所當然地沒辦法進行seek操作），而后者接收的是一個本地文件名。

Python的BeautifulSoup模塊，可以幫助你實現HTML和XML的解析
先說一下，一般寫網頁爬蟲，即抓取網頁的html源碼等內容，然后分析，提取相應的內容。
這種分析html內容的工作，如果只是用普通的正則表達式re模塊去一點點匹配的話，對于內容簡單點的網頁分析，還是基本夠用。
但是對于工作量很大，要解析內容很繁雜的html，那么用re模塊，就會發現無法實現，或很難實現。
而使用beautifulsoup模塊去幫你實現分析html源碼的工作的話，你就會發現，事情變得如此簡單，極大地提高了分析html源碼的效率。
注：BeautifulSoup是第三方庫，我使用的是bs4。urllib2在python3中被分配到了urllib.request中，文檔中的原文如下。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
爬蟲源代碼如下

				?

									# -*- coding: utf-8 -*-

									import urllib.request

									import bs4,os

									page_sum = 1 #設置下載頁數

									path = os.getcwd()

									path = os.path.join(path,'暴走GIF')

									if not os.path.exists(path):

									  os.mkdir(path)                 #創建文件夾

									url = "http://baozoumanhua.com/gif/year"   #url地址

									headers = {                     #偽裝瀏覽器

									  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'

									         ' Chrome/32.0.1700.76 Safari/537.36'

									}

									for count in range(page_sum):

									  req = urllib.request.Request(

									    url = url+str(count+1),

									    headers = headers

									  )

									  print(req.full_url)

									  content = urllib.request.urlopen(req).read()

									  soup = bs4.BeautifulSoup(content)          # BeautifulSoup

									  img_content = soup.findAll('img',attrs={'style':'width:460px'})

									  url_list = [img['src'] for img in img_content]   #列表推導 url

									  title_list = [img['alt'] for img in img_content]  #圖片名稱

									  for i in range(url_list.__len__()) :

									    imgurl = url_list[i]

									    filename = path + os.sep +title_list[i] + ".gif"

									    print(filename+":"+imgurl)             #打印下載信息

									    urllib.request.urlretrieve(imgurl,filename)    #下載圖片