背景
由于課題需要爬取朋友圈的內(nèi)容作為研究數(shù)據(jù),稍微研究了一下。
目前爬取有四種方法,我們一一來分析一下。
法1,不適用
加某個(gè)微信號(hào)為好友,給這個(gè)微信號(hào)查看自己朋友圈的權(quán)限,然后那個(gè)微信號(hào)會(huì)把你自己朋友圈生成一個(gè)鏈接給你。一來這個(gè)和我需求不同,我是要爬取我好友的朋友圈,不是我自己的朋友圈,二來這個(gè)套路明顯是公眾號(hào)吸粉的套路,這個(gè)方法舍棄。。。
法2,已不能用
原理是在pc上操作,然后打開網(wǎng)頁版的微信,掃碼后進(jìn)行操作。
但是試了一下,現(xiàn)在微信已經(jīng)關(guān)閉網(wǎng)頁版了,因此該方法也不能用,一小段代碼放上來:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
|
import itchat import os import math from pil import image # 獲取數(shù)據(jù) def download_image(): # 掃描二維碼登陸微信,即通過網(wǎng)頁版微信登陸 itchat.auto_login() # 返回一個(gè)包含用戶信息字典的列表 friends = itchat.get_friends(update = true) # 在當(dāng)前位置創(chuàng)建一個(gè)用于存儲(chǔ)頭像的目錄wechatimages base_path = 'wechatimages' if not os.path.exists(base_path): os.mkdir(base_path) # 獲取所有好友頭像 for friend in friends: # 獲取頭像數(shù)據(jù) img_data = itchat.get_head_img(username = friend[ 'username' ]) #判斷備注名是否為空 if friend[ 'remarkname' ] ! = '': img_name = friend[ 'remarkname' ] else : img_name = friend[ 'nickname' ] # 在實(shí)際操作中如果文件名中含有*標(biāo)志,會(huì)報(bào)錯(cuò)。則直接可以將其替換掉 if img_name is "*" : img_name = "" #通過os.path.join()函數(shù)來拼接文件名 img_file = os.path.join(base_path, img_name + '.jpg' ) print (img_file) with open (img_file, 'wb' ) as file : file .write(img_data) # 拼接頭像 def join_image(): base_path = 'headimages' files = os.listdir(base_path) #返回指定的文件或文件夾的名字列表 print ( len (files)) each_size = int (math.sqrt( float ( 6400 * 6400 ) / len (files))) #計(jì)算每個(gè)粘貼圖片的邊長(zhǎng) lines = int ( 6400 / each_size) #計(jì)算總共有多少行 print (lines) image = image.new( 'rgb' , ( 6400 , 6400 )) # new(mode, size, color=0) 定義一張大小為640*640大小的圖片,不給出第三個(gè)參數(shù)默認(rèn)為黑色 x = 0 #定義橫坐標(biāo) y = 0 #定義縱坐標(biāo) for file_name in files: img = image. open (os.path.join(base_path, file_name)) #找到/打開圖片 img = img.resize((each_size, each_size), image.antialias) #實(shí)現(xiàn)圖片同比例縮放,image.antialias添加濾鏡效果 image.paste(img, (x * each_size, y * each_size)) #將縮放后的照片放到對(duì)應(yīng)的坐標(biāo)下 x + = 1 if x = = lines: #如果每行的粘貼內(nèi)容夠了,則換行 x = 0 y + = 1 image.save( 'jointpic.jpg' ) #最后將全部的照片保存下來 if __name__ = = '__main__' : download_image() join_image() |
如果你微信還能玩網(wǎng)頁版可以試試,上面代碼只是把你朋友聯(lián)系人讀取出來,拼成一個(gè)大的圖片。操作朋友圈代碼我沒試,自己百度可以找到。
法3:appnium
沒試,但是理論上可以的,是在pc上裝手機(jī)的模擬器,然后裝微信,然后用工具appnium模擬操作,讀取朋友圈數(shù)據(jù)。但是appnium不是一個(gè)庫(kù),是一套軟件,安裝需要java環(huán)境等,還有配置,非常麻煩,因此沒有上手試,可以百度,有例子。
法4:模擬操作
這個(gè)簡(jiǎn)單,但是不是完整例子,后續(xù)還要自己寫,先記錄一下吧。
思路很簡(jiǎn)單,就是利用pc上的微信,然后讀取窗口信息,模擬手工操作,打開朋友圈窗口,然后讀取顯示朋友圈內(nèi)容的控件,就可以看到內(nèi)容。
先在電腦上打開并登錄微信,沒有運(yùn)行就沒法找到微信進(jìn)程號(hào)。
1
2
3
|
import psutil # 用于獲取微信電腦版的進(jìn)程信息; import pywinauto # 用于自動(dòng)化控制微信電腦版 from pywinauto.application import application |
沒裝用pip install安裝一下,很快。
然后在main函數(shù)里面寫代碼
1
2
3
4
5
6
7
8
9
10
|
pid = 0 #用來保存微信的進(jìn)程號(hào) for proc in psutil.process_iter(): #循環(huán)電腦上的進(jìn)程,獲取進(jìn)程號(hào)和名稱 try : pinfo = proc.as_dict(attrs = [ 'pid' , 'name' ]) except psutil.nosuchprocess: #沒有運(yùn)行微信程序 pass else : if 'wechat.exe' = = pinfo[ 'name' ]: #當(dāng)進(jìn)程名為wechat.exe的時(shí)候,把進(jìn)程號(hào)記下來 pid = pinfo[ 'pid' ] |
1
2
3
4
|
#進(jìn)程id用來提供給 pywinauto.application 以連接微信電腦版,connect是要已經(jīng)運(yùn)行微信才行 app = application(backend = 'uia' ).connect(process = pid) #獲得微信窗口實(shí)例 win_wechat = app[ '微信' ] |
接下來是關(guān)鍵一步,由于微信新版窗口的布局有更改,因此下一步是關(guān)鍵,如果不會(huì)變通,就會(huì)失敗,先調(diào)用下面語句,以樹形方式打印窗口上所有控件
1
|
win_wechat.print_control_identifiers() #以樹形方式打印窗口上所有控件 |
然后觀察,【title=“朋友圈”, control_type=“button”】這句話在哪個(gè)控件下面,目前這個(gè)版本是在【pane6】下面,因此用下面代碼獲取朋友圈按鈕
1
2
|
#獲取微信窗口上朋友圈按鈕實(shí)例 button_pyq = win_wechat[ 'pane6' ].child_window(title = "朋友圈" , control_type = "button" ) |
然后打開朋友圈窗口
1
2
3
4
|
#獲取按鈕坐標(biāo) cords = button_pyq.rectangle() # 接著控制微信電腦版,模擬鼠標(biāo)點(diǎn)擊,把朋友圈窗口打開 pywinauto.mouse.click(button = 'left' , coords = (cords.left + 10 , cords.top + 10 )) |
運(yùn)行到這里,朋友圈窗口就打開了,接下來獲取朋友圈窗口實(shí)例,然后把當(dāng)前窗口內(nèi)容以樹形顯示出來
1
2
3
4
|
win_pyq = app[ '朋友圈' ] #獲取朋友圈窗口實(shí)例 win_pyq.draw_outline(colour = 'red' ,thickness = 2 ) # 在當(dāng)前定位到的窗口圍畫出一條邊界線,方便我們看出定位到了哪個(gè)控件 win_pyq.dump_tree() |
整體代碼
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
|
import psutil # 用于獲取微信電腦版的進(jìn)程信息; import pywinauto # 用于自動(dòng)化控制微信電腦版 from pywinauto.application import application if __name__ = = '__main__' : pid = 0 #用來保存微信的進(jìn)程號(hào) for proc in psutil.process_iter(): #循環(huán)電腦上的進(jìn)程,獲取進(jìn)程號(hào)和名稱 try : pinfo = proc.as_dict(attrs = [ 'pid' , 'name' ]) except psutil.nosuchprocess: #沒有運(yùn)行微信程序 pass else : if 'wechat.exe' = = pinfo[ 'name' ]: #當(dāng)進(jìn)程名為wechat.exe的時(shí)候,把進(jìn)程號(hào)記下來 pid = pinfo[ 'pid' ] #進(jìn)程id用來提供給 pywinauto.application 以連接微信電腦版,connect是要已經(jīng)運(yùn)行微信才行 app = application(backend = 'uia' ).connect(process = pid) #獲得微信窗口實(shí)例 win_wechat = app[ '微信' ] #win.print_control_identifiers()#以樹形方式打印窗口上所有控件 #獲取微信窗口上朋友圈按鈕實(shí)例 button_pyq = win_wechat[ 'pane6' ].child_window(title = "朋友圈" , control_type = "button" ) #獲取按鈕坐標(biāo) cords = button_pyq.rectangle() # 接著控制微信電腦版,把朋友圈窗口打開 pywinauto.mouse.click(button = 'left' , coords = (cords.left + 10 , cords.top + 10 )) win_pyq = app[ '朋友圈' ] #獲取朋友圈窗口實(shí)例 win_pyq.draw_outline(colour = 'red' ,thickness = 2 ) # 在當(dāng)前定位到的窗口圍畫出一條邊界線,方便我們看出定位到了哪個(gè)控件 win_pyq.dump_tree() #樹形打印 |
后續(xù)工作及擴(kuò)展
1.可以看到,目前只打印當(dāng)前窗口的內(nèi)容,后續(xù)要將窗口滑動(dòng),然后再次讀取,另外還需要對(duì)數(shù)據(jù)進(jìn)行處理,因?yàn)閿?shù)據(jù)比較亂:
2.可以借鑒模擬鼠標(biāo)點(diǎn)擊的操作,自動(dòng)操作微信進(jìn)行消息的發(fā)送和回復(fù),自動(dòng)聊天機(jī)器人可以了解一下。
總結(jié)
到此這篇關(guān)于利用python讀取微信朋友圈的文章就介紹到這了,更多相關(guān)python讀取微信朋友圈內(nèi)容請(qǐng)搜索服務(wù)器之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持服務(wù)器之家!
原文鏈接:https://blog.csdn.net/oldmao_2001/article/details/119787392