激情久久久_欧美视频区_成人av免费_不卡视频一二三区_欧美精品在欧美一区二区少妇_欧美一区二区三区的

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - 編寫Python爬蟲抓取暴走漫畫上gif圖片的實例分享

編寫Python爬蟲抓取暴走漫畫上gif圖片的實例分享

2020-08-20 10:02腳本之家 Python

這篇文章主要介紹了編寫Python爬蟲抓取暴走漫畫上gif圖片的實例分享,示例代碼為Python3,利用到了urllib模塊、request模塊和BeautifulSoup模塊,需要的朋友可以參考下

本文要介紹的爬蟲是抓取暴走漫畫上的GIF趣圖,方便離線觀看。爬蟲用的是python3.3開發的,主要用到了urllib、request和BeautifulSoup模塊。

urllib模塊提供了從萬維網中獲取數據的高層接口,當我們用urlopen()打開一個URL時,就相當于我們用Python內建的open()打開一個文件。但不同的是,前者接收一個URL作為參數,并且沒有辦法對打開的文件流進行seek操作(從底層的角度看,因為實際上操作的是socket,所以理所當然地沒辦法進行seek操作),而后者接收的是一個本地文件名。

Python的BeautifulSoup模塊,可以幫助你實現HTML和XML的解析
先說一下,一般寫網頁爬蟲,即抓取網頁的html源碼等內容,然后分析,提取相應的內容。
這種分析html內容的工作,如果只是用普通的正則表達式re模塊去一點點匹配的話,對于內容簡單點的網頁分析,還是基本夠用。
但是對于工作量很大,要解析內容很繁雜的html,那么用re模塊,就會發現無法實現,或很難實現。
而使用beautifulsoup模塊去幫你實現分析html源碼的工作的話,你就會發現,事情變得如此簡單,極大地提高了分析html源碼的效率。
注:BeautifulSoup是第三方庫,我使用的是bs4。urllib2在python3中被分配到了urllib.request中,文檔中的原文如下。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
爬蟲源代碼如下

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
# -*- coding: utf-8 -*-
 
import urllib.request
import bs4,os
 
page_sum = 1 #設置下載頁數
 
path = os.getcwd()
path = os.path.join(path,'暴走GIF')
if not os.path.exists(path):
  os.mkdir(path)                 #創建文件夾
 
url = "http://baozoumanhua.com/gif/year"   #url地址
headers = {                     #偽裝瀏覽器
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
         ' Chrome/32.0.1700.76 Safari/537.36'
}
 
for count in range(page_sum):
  req = urllib.request.Request(
    url = url+str(count+1),
    headers = headers
  )
  print(req.full_url)
  content = urllib.request.urlopen(req).read()
 
  soup = bs4.BeautifulSoup(content)          # BeautifulSoup
  img_content = soup.findAll('img',attrs={'style':'width:460px'})
 
  url_list = [img['src'] for img in img_content]   #列表推導 url
  title_list = [img['alt'] for img in img_content]  #圖片名稱
 
  for i in range(url_list.__len__()) :
    imgurl = url_list[i]
    filename = path + os.sep +title_list[i] + ".gif"
    print(filename+":"+imgurl)             #打印下載信息
    urllib.request.urlretrieve(imgurl,filename)    #下載圖片

在第15行可以修改下載頁數,將此文件保存為baozougif.py,使用命令python baozougif.py運行后在同目錄下會生成「暴走GIF」的文件夾,所有的圖片會自動下載到該目錄中。

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 欧美一级淫片免费播放口 | 在线播放h | 91精品国产91久久久 | 91一级毛片 | 成人一级黄色大片 | 91短视频在线视频 | 午夜视频在线观 | 在线免费小视频 | 亚洲精品午夜国产va久久成人 | a黄色网 | 精品国产视频一区二区三区 | 亚洲一区二区网址 | 毛片天天看| 欧美日韩网站在线观看 | 成年免费看 | 天堂二区 | 日日摸夜夜骑 | 一本色道久久综合亚洲精品图片 | 中文字幕22页 | 欧美黑大粗硬毛片视频 | 免费在线观看毛片视频 | 久久久久久久免费看 | 在线免费观看毛片视频 | 亚洲午夜不卡 | 国产精品久久久久永久免费观看 | 欧美成年人视频 | 逼片| 欧美一级精品 | 亚洲欧美天堂 | 欧美日韩专区国产精品 | 黄色网址在线免费 | 国产精品久久久久久久成人午夜 | 日本免费一区二区三区四区 | 天天夜干| 免费欧美 | 欧美色视频免费 | 国产成人高潮免费观看精品 | 精品一区二区久久久久久按摩 | 久久综合九色综合久久久精品综合 | 2019天天干夜夜操 | 国产日韩一区二区三区在线观看 |