0x00 前言
大家對HTTP代理應該都非常熟悉,它在很多方面都有著極為廣泛的應用。HTTP代理分為正向代理和反向代理兩種,后者一般用于將防火墻后面的服務提供給用戶訪問或者進行負載均衡,典型的有Nginx、HAProxy等。本文所討論的是正向代理。
HTTP代理最常見的用途是用于網絡共享、網絡加速和網絡限制突破等。此外,HTTP代理也常用于Web應用調試、Android/IOS APP 中所調用的Web API監控和分析,目前的知名軟件有Fiddler、Charles、Burp Suite和mitmproxy等。HTTP代理還可用于請求/響應內容修改,在不改變服務端的情況下為Web應用增加額外的功能或者改變應用行為等。
0x01 HTTP代理是什么
HTTP代理本質上是一個Web應用,它和其他普通Web應用沒有根本區別。HTTP代理收到請求后,根據Header中Host字段的主機名和Get/POST請求地址綜合判斷目標主機,建立新的HTTP請求并轉發請求數據,并將收到的響應數據轉發給客戶端。
如果請求地址是絕對地址,HTTP代理采用該地址中的Host,否則使用Header中的HOST字段。做一個簡單測試,假設網絡環境如下:
1
2
|
192.168.1.2 Web服務器 192.168.1.3 HTTP代理服務器 |
使用telnet進行測試
1
2
3
|
$ telnet 192.168.1.3 GET / HTTP /1 .0 HOST: 192.168.1.2 |
注意最后需要連續兩個回車,這是HTTP協議要求。完成后,可以收到 http://192.168.1.2/ 的頁面內容。下面做一下調整,GET請求時帶上絕對地址
1
2
3
|
$ telnet 192.168.1.3 GET http: //httpbin .org /ip HTTP /1 .0 HOST: 192.168.1.2 |
注意這里同樣設置了HOST為192.168.1.2,但運行結果卻返回了 http://httpbin.org/ip 頁面的內容,也就是公網IP地址信息。
從上面的測試過程可以看出,HTTP代理并不是什么很復雜的東西,只要將原始請求發送到代理服務器即可。在無法設置HTTP代理的情況下,對于少量Host需要走HTTP代理的場景來說,最簡單的方式就是將目標Host域名的IP指向代理服務器,可以采取修改hosts文件的方式來實現。
0x02 Python程序中設置HTTP代理
urllib2/urllib 代理設置
urllib2
是Python標準庫,功能很強大,只是使用起來稍微麻煩一點。在Python 3中,urllib2不再保留,遷移到了urllib模塊中。urllib2中通過ProxyHandler來設置使用代理服務器。
1
2
3
4
|
proxy_handler = urllib2.ProxyHandler({ 'http' : '121.193.143.249:80' }) opener = urllib2.build_opener(proxy_handler) r = opener. open ( 'http://httpbin.org/ip' ) print (r.read()) |
也可以用install_opener將配置好的opener安裝到全局環境中,這樣所有的urllib2.urlopen都會自動使用代理。
1
2
3
|
urllib2.install_opener(opener) r = urllib2.urlopen( 'http://httpbin.org/ip' ) print (r.read()) |
在Python 3中,使用urllib。
1
2
3
4
|
proxy_handler = urllib.request.ProxyHandler({ 'http' : 'http://121.193.143.249:80/' }) opener = urllib.request.build_opener(proxy_handler) r = opener. open ( 'http://httpbin.org/ip' ) print (r.read()) |
requests 代理設置
requests是目前最優秀的HTTP庫之一,也是我平時構造http請求時使用最多的庫。它的API設計非常人性化,使用起來很容易上手。給requests設置代理很簡單,只需要給proxies設置一個形如 {'http': 'x.x.x.x:8080', 'https': 'x.x.x.x:8080'} 的參數即可。其中http和https相互獨立。
1
2
|
In [ 5 ]: requests.get( 'http://httpbin.org/ip' , proxies = { 'http' : '121.193.143.249:80' }).json() Out[ 5 ]: { 'origin' : '121.193.143.249' } |
可以直接設置session的proxies屬性,省去每次請求都要帶上proxies參數的麻煩。
1
2
3
|
s = requests.session() s.proxies = { 'http' : '121.193.143.249:80' } print (s.get( 'http://httpbin.org/ip' ).json()) |
0x03 HTTP_PROXY / HTTPS_PROXY 環境變量
urllib2 和 Requests 庫都能識別 HTTP_PROXY 和 HTTPS_PROXY 環境變量,一旦檢測到這些環境變量就會自動設置使用代理。這在用HTTP代理進行調試的時候非常有用,因為不用修改代碼,可以隨意根據環境變量來調整代理服務器的ip地址和端口。*nix中的大部分軟件也都支持HTTP_PROXY環境變量識別,比如curl、wget、axel、aria2c等。
1
2
3
4
5
6
7
|
$ http_proxy = 121.193 . 143.249 : 80 python - c 'import requests; print(requests.get("http://httpbin.org/ip").json())' {u 'origin' : u '121.193.143.249' } $ http_proxy = 121.193 . 143.249 : 80 curl httpbin.org / ip { "origin" : "121.193.143.249" } |
在IPython交互環境中,可能經常需要臨時性地調試HTTP請求,可以簡單通過設置 os.environ['http_proxy'] 增加/取消HTTP代理來實現。
1
2
3
4
5
6
|
In [ 245 ]: os.environ[ 'http_proxy' ] = '121.193.143.249:80' In [ 246 ]: requests.get( "http://httpbin.org/ip" ).json() Out[ 246 ]: {u 'origin' : u '121.193.143.249' } In [ 249 ]: os.environ[ 'http_proxy' ] = '' In [ 250 ]: requests.get( "http://httpbin.org/ip" ).json() Out[ 250 ]: {u 'origin' : u 'x.x.x.x' } |
0x04 MITM-Proxy
MITM 源于 Man-in-the-Middle Attack,指中間人攻擊,一般在客戶端和服務器之間的網絡中攔截、監聽和篡改數據。
mitmproxy 是一款Python語言開發的開源中間人代理神器,支持SSL,支持透明代理、反向代理,支持流量錄制回放,支持自定義腳本等。功能上同Windows中的 Fiddler 有些類似,但mitmproxy是一款console程序,沒有GUI界面,不過用起來還算方便。使用mitmproxy可以很方便的過濾、攔截、修改任意經過代理的HTTP請求/響應數據包,甚至可以利用它的scripting API,編寫腳本達到自動攔截修改HTTP數據的目的。
1
2
3
|
# test.py def response(flow): flow.response.headers[ "BOOM" ] = "boom!boom!boom!" |
上面的腳本會在所有經過代理的Http響應包頭里面加上一個名為BOOM的header。用 mitmproxy -s 'test.py' 命令啟動mitmproxy,curl驗證結果發現的確多了一個BOOM頭。
1
2
3
4
5
6
7
8
9
10
11
|
$ http_proxy = localhost: 8080 curl - I 'httpbin.org/get' HTTP / 1.1 200 OK Server: nginx Date: Thu, 03 Nov 2016 09 : 02 : 04 GMT Content - Type : application / json Content - Length: 186 Connection: keep - alive Access - Control - Allow - Origin: * Access - Control - Allow - Credentials: true BOOM: boom!boom!boom! ... |
顯然mitmproxy腳本能做的事情遠不止這些,結合Python強大的功能,可以衍生出很多應用途徑。除此之外,mitmproxy還提供了強大的API,在這些API的基礎上,完全可以自己定制一個實現了特殊功能的專屬代理服務器。
經過性能測試,發現mitmproxy的效率并不是特別高。如果只是用于調試目的那還好,但如果要用到生產環境,有大量并發請求通過代理的時候,性能還是稍微差點。我用twisted實現了一個簡單的proxy,用于給公司內部網站增加功能、改善用戶體驗,以后有機會再和大家分享。