激情久久久_欧美视频区_成人av免费_不卡视频一二三区_欧美精品在欧美一区二区少妇_欧美一区二区三区的

腳本之家,腳本語言編程技術(shù)及教程分享平臺!
分類導(dǎo)航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務(wù)器之家 - 腳本之家 - Python - Python3爬蟲里關(guān)于Splash負(fù)載均衡配置詳解

Python3爬蟲里關(guān)于Splash負(fù)載均衡配置詳解

2020-07-10 17:22愛喝馬黛茶的安東尼 Python

在本篇文章里小編給大家分享了關(guān)于Python3爬蟲里關(guān)于Splash負(fù)載均衡配置的相關(guān)內(nèi)容,需要的朋友們可以學(xué)習(xí)參考下。

用Splash做頁面抓取時,如果爬取的量非常大,任務(wù)非常多,用一個Splash服務(wù)來處理的話,未免壓力太大了,此時可以考慮搭建一個負(fù)載均衡器來把壓力分散到各個服務(wù)器上。這相當(dāng)于多臺機(jī)器多個服務(wù)共同參與任務(wù)的處理,可以減小單個Splash服務(wù)的壓力。

1. 配置Splash服務(wù)

要搭建Splash負(fù)載均衡,首先要有多個Splash服務(wù)。假如這里在4臺遠(yuǎn)程主機(jī)的8050端口上都開啟了Splash服務(wù),它們的服務(wù)地址分別為41.159.27.223:8050、41.159.27.221:8050、41.159.27.9:8050和41.159.117.119:8050,這4個服務(wù)完全一致,都是通過Docker的Splash鏡像開啟的。訪問其中任何一個服務(wù)時,都可以使用Splash服務(wù)。

2. 配置負(fù)載均衡

接下來,可以選用任意一臺帶有公網(wǎng)IP的主機(jī)來配置負(fù)載均衡。首先,在這臺主機(jī)上裝好Nginx,然后修改Nginx的配置文件nginx.conf,添加如下內(nèi)容:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
http {
    upstream splash {
        least_conn;
        server 41.159.27.223:8050;
        server 41.159.27.221:8050;
        server 41.159.27.9:8050;
        server 41.159.117.119:8050;
    }
    server {
        listen 8050;
        location / {
            proxy_pass http://splash;
        }
    }
}

這樣我們通過upstream字段定義了一個名字叫作splash的服務(wù)集群配置。其中l(wèi)east_conn代表最少鏈接負(fù)載均衡,它適合處理請求處理時間長短不一造成服務(wù)器過載的情況。

當(dāng)然,我們也可以不指定配置,具體如下:

?
1
2
3
4
5
6
upstream splash {
    server 41.159.27.223:8050;
    server 41.159.27.221:8050;
    server 41.159.27.9:8050;
    server 41.159.117.119:8050;
}

這樣默認(rèn)以輪詢策略實現(xiàn)負(fù)載均衡,每個服務(wù)器的壓力相同。此策略適合服務(wù)器配置相當(dāng)、無狀態(tài)且短平快的服務(wù)使用。

另外,我們還可以指定權(quán)重,配置如下:

?
1
2
3
4
5
6
upstream splash {
    server 41.159.27.223:8050 weight=4;
    server 41.159.27.221:8050 weight=2;
    server 41.159.27.9:8050 weight=2;
    server 41.159.117.119:8050 weight=1;
}

這里weight參數(shù)指定各個服務(wù)的權(quán)重,權(quán)重越高,分配到處理的請求越多。假如不同的服務(wù)器配置差別比較大的話,可以使用此種配置。

最后,還有一種IP散列負(fù)載均衡,配置如下:

?
1
2
3
4
5
6
7
upstream splash {
    ip_hash;
    server 41.159.27.223:8050;
    server 41.159.27.221:8050;
    server 41.159.27.9:8050;
    server 41.159.117.119:8050;
}

服務(wù)器根據(jù)請求客戶端的IP地址進(jìn)行散列計算,確保使用同一個服務(wù)器響應(yīng)請求,這種策略適合有狀態(tài)的服務(wù),比如用戶登錄后訪問某個頁面的情形。對于Splash來說,不需要應(yīng)用此設(shè)置。

我們可以根據(jù)不同的情形選用不同的配置,配置完成后重啟一下Nginx服務(wù):

?
1
sudo nginx -reload

這樣直接訪問Nginx所在服務(wù)器的8050端口,即可實現(xiàn)負(fù)載均衡了。

3. 配置認(rèn)證

現(xiàn)在Splash是可以公開訪問的,如果不想讓其公開訪問,還可以配置認(rèn)證,這仍然借助于Nginx。可以在server的location字段中添加auth_basic和auth_basic_user_file字段,具體配置如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
http {
    upstream splash {
        least_conn;
        server 41.159.27.223:8050;
        server 41.159.27.221:8050;
        server 41.159.27.9:8050;
        server 41.159.117.119:8050;
    }
    server {
        listen 8050;
        location / {
            proxy_pass http://splash;
            auth_basic "Restricted";
            auth_basic_user_file /etc/nginx/conf.d/.htpasswd;
        }
    }
}

這里使用的用戶名和密碼配置放置在/etc/nginx/conf.d目錄下,我們需要使用htpasswd命令創(chuàng)建。例如,創(chuàng)建一個用戶名為admin的文件,相關(guān)命令如下:

?
1
htpasswd -c .htpasswd admin

接下來就會提示我們輸入密碼,輸入兩次之后,就會生成密碼文件,其內(nèi)容如下:

?
1
2
cat .htpasswd 
admin:5ZBxQr0rCqwbc

配置完成后,重啟一下Nginx服務(wù):

?
1
sudo nginx -reload

這樣訪問認(rèn)證就成功配置好了。

4. 測試

最后,我們可以用代碼來測試一下負(fù)載均衡的配置,看看到底是不是每次請求會切換IP。利用http://httpbin.org/get測試即可,實現(xiàn)代碼如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
import requests
from urllib.parse import quote
import re
lua = '''
function main(splash, args)
  local treat = require("treat")
  local response = splash:http_get("http://httpbin.org/get")
  return treat.as_string(response.body)
end
'''
url = 'http://splash:8050/execute?lua_source=' + quote(lua)
response = requests.get(url, auth=('admin''admin'))
ip = re.search('(\d+\.\d+\.\d+\.\d+)', response.text).group(1)
print(ip)

這里URL中的splash字符串請自行替換成自己的Nginx服務(wù)器IP。這里我修改了Hosts,設(shè)置了splash為Nginx服務(wù)器IP。

多次運行代碼之后,可以發(fā)現(xiàn)每次請求的IP都會變化,比如第一次的結(jié)果:

?
1
41.159.27.223

第二次的結(jié)果:

?
1
41.159.27.9

這就說明負(fù)載均衡已經(jīng)成功實現(xiàn)了。

本節(jié)中,我們成功實現(xiàn)了負(fù)載均衡的配置。配置負(fù)載均衡后,可以多個Splash服務(wù)共同合作,減輕單個服務(wù)的負(fù)載,這還是比較有用的。

到此這篇關(guān)于Python3爬蟲里關(guān)于Splash負(fù)載均衡配置詳解的文章就介紹到這了,更多相關(guān)Python3 Splash負(fù)載均衡配置內(nèi)容請搜索服務(wù)器之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持服務(wù)器之家!

原文鏈接:https://www.py.cn/spider/advanced/14481.html

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 亚洲午夜一区二区三区 | 成人毛片一区二区三区 | 九九热在线精品视频 | 久草干| 精品国产99久久久久久宅男i | 精品国产一区在线观看 | 羞羞网站在线观看入口免费 | 黄色影院网站 | 国产一级做a爱片在线看免 日日草夜夜 | 欧美中文在线 | 毛片av网| 国产精品视频一区二区三区四 | 成人免费自拍视频 | 黄色片免费在线 | 亚洲生活片 | 一日本道久久久精品国产 | 一级黄色在线免费观看 | 最近中文字幕一区二区 | 羞羞视频免费网站 | 国产乱淫av片免费 | 狠狠操天天射 | 欧美一区二区三区四区电影 | 精品一区二区三区日本 | 国产亚洲福利 | 黄色免费网站在线观看 | 看a级毛片| 日韩中文字幕一区二区三区 | 一色一情 | 国产一国产一级毛片视频在线 | 精品一区二区三区在线观看国产 | 午夜激情视频网站 | 久久夜夜视频 | 中文字幕欧美在线 | 亚洲av一级毛片特黄大片 | 护士hd老师fre0性xxx | 一本视频在线观看 | 欧美一级aa免费毛片 | 久久国产精品小视频 | www成人在线观看 | 日本成人一区二区三区 | 国产一区二区二 |