百度蜘蛛是什么?
百度蜘蛛,是百度搜索引擎的一個自動程序。它的作用是訪問收集整理互聯網上的網頁、圖片、視頻等內容,然后分門別類建立索引數據庫,使用戶能在百度搜索引擎中搜索到您網站的網頁、圖片、視頻等內容。我們可以理解為百度蜘蛛就是用來抓取網站鏈接的IP,小編經常會聽到百度蜘蛛來的太頻繁,服務器要被抓爆了,如果你無法識別百度蜘蛛,你怎么知道是百度蜘蛛抓爆的呢?也有出現百度蜘蛛都不來了的情況,還有很多站點想得到百度蜘蛛的IP段,想把IP加入白名單,但無法識別百度IP。
怎么才能識別正確的百度蜘蛛呢?
一、查看UA
如果UA都不對,可以直接判斷非百度搜索的蜘蛛,目前對外公布過的UA是:
移動UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
新增渲染UA:
移動UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
PC UA:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
二、反查IP
站長可以通過DNS反查IP的方式判斷某只spider是否來自百度搜索引擎。根據平臺不同驗證方法不同,如linux/windows/os三種平臺下的驗證方法分別如下:
正確識別百度蜘蛛
(1)、在linux平臺下,您可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
(2)、在windows平臺或者IBM OS/2平臺下,您可以使用nslookup ip命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
在運行中大概CMD命令行窗口,然后輸入 nslookup IP地址(例如211.112.11.41),如果得到有baiduspider等結果,就意味著此IP時百度蜘蛛的專用IP。
(3)、 在mac os平臺下,您可以使用dig 命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
以下是PHP的IP反查代碼:
- $dnsadd=gethostbyaddr($_SERVER["REMOTE_ADDR"]); if((substr($dnsadd, -strlen("baidu.com")) ==="baidu.com")||(substr($dnsadd, -strlen("baidu.jp")) ==="baidu.jp")) //是真的百度蜘蛛 else //是模擬的百度蜘蛛,假蜘蛛
下面列舉了百度不同IP段常見蜘蛛的一些詳情情況,及所謂的降權蜘蛛,沙盒蜘蛛,高權重蜘蛛等等。
百度蜘蛛
159.226.50.*
180.76.5.*
220.181.158.107
百度競價蜘蛛
125.39.78.185
61.135.165.134
117.34.74.66
118.122.188.194
119.63.196.9
每天這個IP段只增不減很有可能進沙盒或K站
218.30.118.*
220.181.68.*
123.125.68.*
抓取內頁收錄的,權重較低,爬過此段的內頁文章暫時被收錄但不放出來(意思也就是說待定),因不是原創或采集文章。(百度網頁爬蟲(百度圖片爬蟲)
123.125.71.*
123.181.108.77
這個ip段出現在新站及站點有不正?,F象后
203.208.60.*
183.91.40.144
代表百度蜘蛛IP來訪準備抓取你東西
220.181.7.*
123.125.66.*
【61.135.186.*】百度聯盟爬蟲,說白了就是百度統計
【121.14.89.*】這個ip段作為度過新站考察期
【123.15.**.**】百度圖片爬蟲
【123.125.68.*】這個蜘蛛經常來,別的來的少,表示網站可能要進入沙盒了,或被者降權
【124.248.34.52】搜外站長工具蜘蛛
【125.90.88.*】也屬于百度蜘蛛IP主要造成成分,是新上線站較多,還有使用過站長工具,或SEO綜合檢測造成的,沒有多大用
【180.149.130.*】偽裝百度蜘蛛IP
【210.72.225.*】這個ip段不間斷巡邏各站,就是路過一下
【220.181.108.*】專用抓取首頁ip權重段,一般返回代碼30400代表未更新,如果是200064別擔心這不是K站,可能是網站是動態的,所以返回就是這個代碼。
【220.181.108.91】屬于綜合的。主要抓取首頁和內頁或者其它頁面。屬于權重IP段,抓過的文章或首頁基本24小時放出來
【220.181.108.75】重點抓取更新文章的內頁達到90%,8%的抓取首頁,2%其他權重ip段,抓過的文章或首頁基本24小時放出來
【220.181.108.92】98%抓取首頁可能還會抓取其他「不是指內頁)屬于權重IP段此段爬過的文章或首頁基本24小時放出來
【220.181.108.95】這個是百度抓取首頁的專用IP,基本來說網站會天天隔夜快照,絕對錯不了的
114站長工具箱(這個是你的網站不穩定時常來的)
121.10.141.*
119.147.114.213
站長工具模仿的百度蜘蛛
61.147.98.146
61.188.39.16
113.98.254.245
117.21.220.245
117.28.255.42