激情久久久_欧美视频区_成人av免费_不卡视频一二三区_欧美精品在欧美一区二区少妇_欧美一区二区三区的

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - Python爬蟲——爬取豆瓣電影Top250代碼實例

Python爬蟲——爬取豆瓣電影Top250代碼實例

2021-06-18 00:30Fighting_No1 Python

這篇文章主要介紹了Python爬取豆瓣電影Top250實例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧

利用python爬取豆瓣電影top250的相關信息,包括電影詳情鏈接,圖片鏈接,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容,然后將爬取的信息寫入excel表中?;旧吓廊〗Y果還是挺好的。具體代碼如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import beautifulsoup
import re
import urllib2
import xlwt
 
#得到頁面全部內容
def askurl(url):
  request = urllib2.request(url)#發送請求
  try:
    response = urllib2.urlopen(request)#取得響應
    html= response.read()#獲取網頁內容
    #print html
  except urllib2.urlerror, e:
    if hasattr(e,"code"):
      print e.code
    if hasattr(e,"reason"):
      print e.reason
  return html
 
#獲取相關內容
def getdata(baseurl):
  findlink=re.compile(r'<a href="(.*?)" rel="external nofollow" >')#找到影片詳情鏈接
  findimgsrc=re.compile(r'<img.*src="(.*jpg)"',re.s)#找到影片圖片
  findtitle=re.compile(r'<span class="title">(.*)</span>')#找到片名
  #找到評分
  findrating=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
  #找到評價人數
  findjudge=re.compile(r'<span>(\d*)人評價</span>')
  #找到概況
  findinq=re.compile(r'<span class="inq">(.*)</span>')
  #找到影片相關內容:導演,主演,年份,地區,類別
  findbd=re.compile(r'<p class="">(.*?)</p>',re.s)
  #去掉無關內容
  remove=re.compile(r'              |\n|</br>|\.*')
  datalist=[]
  for i in range(0,10):
    url=baseurl+str(i*25)
    html=askurl(url)
    soup = beautifulsoup(html, "html.parser")
    for item in soup.find_all('div',class_='item'):#找到每一個影片項
      data=[]
      item=str(item)#轉換成字符串
      #print item
      link=re.findall(findlink,item)[0]
      data.append(link)#添加詳情鏈接
      imgsrc=re.findall(findimgsrc,item)[0]
      data.append(imgsrc)#添加圖片鏈接
      titles=re.findall(findtitle,item)
      #片名可能只有一個中文名,沒有外國名
      if(len(titles)==2):
        ctitle=titles[0]
        data.append(ctitle)#添加中文片名
        otitle=titles[1].replace(" / ","")#去掉無關符號
        data.append(otitle)#添加外國片名
      else:
        data.append(titles[0])#添加中文片名
        data.append(' ')#留空
      rating=re.findall(findrating,item)[0]
      data.append(rating)#添加評分
      judgenum=re.findall(findjudge,item)[0]
      data.append(judgenum)#添加評論人數
      inq=re.findall(findinq,item)
      #可能沒有概況
      if len(inq)!=0:
        inq=inq[0].replace("。","")#去掉句號
        data.append(inq)#添加概況
      else:
        data.append(' ')#留空
      bd=re.findall(findbd,item)[0]
      bd=re.sub(remove,"",bd)
      bd=re.sub('<br>'," ",bd)#去掉<br>
      bd=re.sub('/'," ",bd)#替換/
      #data.append(bd)
      words=bd.split(" ")
      for s in words:
        if len(s)!=0 and s!=' ':#去掉空白內容
           data.append(s)
      #主演有可能因為導演內容太長而沒有
      if(len(data)!=12):
        data.insert(8,' ')#留空
      datalist.append(data)
  return datalist
 
#將相關數據寫入excel中
def savedata(datalist,savepath):
  book=xlwt.workbook(encoding='utf-8',style_compression=0)
  sheet=book.add_sheet('豆瓣電影top250',cell_overwrite_ok=true)
  col=('電影詳情鏈接','圖片鏈接','影片中文名','影片外國名',
        '評分','評價數','概況','導演','主演','年份','地區','類別')
  for i in range(0,12):
    sheet.write(0,i,col[i])#列名
  for i in range(0,250):
    data=datalist[i]
    for j in range(0,12):
      sheet.write(i+1,j,data[j])#數據
  book.save(savepath)#保存
 
def main():
  baseurl='https://movie.douban.com/top250?start='
  datalist=getdata(baseurl)
  savapath=u'豆瓣電影top250.xlsx'
  savedata(datalist,savapath)
 
main()

excel表部分內容如下:

Python爬蟲——爬取豆瓣電影Top250代碼實例

以上所述是小編給大家介紹的python爬取豆瓣電影top250實例詳解整合,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對服務器之家網站的支持!

原文鏈接:https://blog.csdn.net/Fighting_No1/article/details/50926008

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 欧美高清另类自拍视频在线看 | 亚洲一区二区三区高清视频 | 666sao| 国产成人在线综合 | 毛片免费观看视频 | 欧美性生活久久久 | 爱高潮www亚洲精品 国产一区二区三区视频免费 | 美女91视频 | 精品久久久久久久久久久久包黑料 | 91av亚洲| 国产精品久久久久久久久久 | 成人在线视频一区 | 国产免费让你躁在线视频 | 欧美精品免费一区二区三区 | 成人偷拍片视频在线观看 | 亚洲国产精品一 | 亚洲午夜天堂吃瓜在线 | 一级片久久免费 | 婷婷久久综合九色综合色多多蜜臀 | 午夜精品久久久久久久爽 | 国产91在线播放九色 | 视频一区二区三区在线播放 | 日本在线视频一区二区三区 | 欧美一区二区三区四区电影 | 欧美在线 | 亚洲 | www.射| 日本成人一区二区三区 | 99riav国产在线观看 | 国产伦精品一区二区三区在线 | 视频一区二区三区免费观看 | 免费黄色大片在线观看 | 欧美成人视 | 古装三级在线观看 | 国产在线观看免费视频软件 | 久久久久九九九女人毛片 | 欧美精品激情在线 | 久久艹精品| 精品亚洲成a人在线观看 | 天堂精品在线 | 国产免费一级 | 97久久日一线二线三线 |