在分析日志的時候需要用到的工具:光年日志分析工具、web log explorer、MSSQL。還有一點,做好數(shù)據(jù)的分析excel是必備的,最近在看阿莫推薦的一本書,寫的挺好的《你早該這么玩excel》,推薦大家看看,基礎的應用還是要會的。
我們應該從哪幾個維度來進行數(shù)據(jù)的整理分析呢?我們從基礎信息、目錄抓取、時間段抓取、IP抓取、狀態(tài)碼幾點分布給大家講解。
第一、基礎信息
我們從日志中能夠獲取哪里基礎信息呢?總抓取量、停留時間(h)及訪問次數(shù)這三個基礎信息,可以從光年日志分析工具中統(tǒng)計出來。然后,通過這三個基礎信息算出:平均每次抓取頁數(shù)、單頁抓取停留時間。然后用我們的MSSQL提取蜘蛛唯一抓取量,根據(jù)以上的數(shù)據(jù)算出爬蟲重復抓取率。
平均每次抓取頁數(shù)=總抓取量/訪問次數(shù) 單頁抓取停留時間=停留時間*3600/總抓取量 爬蟲重復抓取率=100%—唯一抓取量/總抓取量
而以上這些數(shù)據(jù),我們需要統(tǒng)計出一段時間的數(shù)據(jù),看這個時間的整體趨勢是怎么樣的,這樣才能夠發(fā)現(xiàn)問題,才能夠調(diào)整網(wǎng)站的整體策略。下面就以一站點上個月的日志基礎信息為例。
這個基礎表是上個月的日志的基本信息,我們需要看它的整體趨勢來調(diào)整,哪些地方需要加強。
從這個整體走勢來看出,爬蟲的抓取總量整體是在下降的,這個就需要我們進行一些相應的調(diào)整。
整體來看,網(wǎng)站重復抓取率是有點上升的,這個就需要一些細節(jié),多一些為抓取的入口和使用一些robots及nofollow技巧。
爬蟲單頁的停留的時間,國平老師曾經(jīng)寫過那篇網(wǎng)頁加載速度是怎么影響seo流量的文章,大家應該看過吧。提高網(wǎng)頁加載速度,減少爬蟲單頁停留時間,可以為爬蟲的總抓取做出貢獻,進而增加網(wǎng)站收錄,從而提高網(wǎng)站整體流量。在16號至20號左右服務器出現(xiàn)一些問題,之后進行調(diào)整后,速度明顯變快,單頁停留時間也相應的下來了。
而對此進行相應調(diào)整如下:
從本月整理來看,爬蟲的抓取量是下降的,重復抓取率是上升的。綜合分析,需要從站內(nèi)鏈接和站外的鏈接進行調(diào)整。站內(nèi)的鏈接盡量的帶錨文本,如果不能帶的話,可以推薦其他頁面的超鏈接,讓蜘蛛盡可能的深層次的抓取。站外鏈接的話,需要多方面的發(fā)布。目前平臺太少了,如果深圳新聞網(wǎng)、商國互聯(lián)等站點出現(xiàn)一絲差錯的話,我們站點將受到嚴重影響。站外平臺要廣,發(fā)布的鏈接要多樣話,不能直發(fā)首頁的,欄目及文章頁面需要加大力度。目前,來講站外平臺太少,將近10w的外部鏈接,集中在幾個平臺上。
第二、目錄抓取
用MSSQL提取出爬蟲抓取的目錄,分析每日目錄抓取量。可以很清晰的看到每個目錄的抓取情況,另外可以對比之前的優(yōu)化策略,優(yōu)化是否合理,重點的欄目優(yōu)化是不是預期的效果。如圖,
綠色:主做欄目 黃色:抓取較差 粉色:抓取很差 深藍色:需要禁止欄目
可以看到整體的趨勢并沒有太大變化,只有兩個欄目的抓取是有較大變動的。
通過上面兩個圖,進行相應調(diào)整如下:
通過圖表中科院產(chǎn)出,整體抓取較少。主做欄目中,抓取較少的為:xxx、xxx、xxx。對于總體來說,需要加大整個網(wǎng)站的導入口,需要外鏈配合,站內(nèi)需要加強內(nèi)部鏈接的構(gòu)建。對于,爬取較弱欄目進行加強處理。同時,深藍色的欄目寫入robots中,將其屏蔽,并將網(wǎng)站中導入到這些欄目是URL進行 nofollow避免權(quán)重只進不出。
第三、時間段抓取
通過excel中的數(shù)組函數(shù),提取每日的時間段的爬蟲抓取量,重在分析每日的抓取情況,找到相應的抓取量較為密集的時間段,可以針對性的進行更新內(nèi)容。同時,還可以看出,抓取不正常情況。
圖中一些表粉色的,是抓取不正常的時間點,可以看出服務器并不是特別的穩(wěn)定。而且,如果想知道特殊情況的話,可以從下圖中一眼看出,某日哪個時間點出問題了,而且同樣是總抓取是下降的趨勢。
通過時間段抓取,我們進行相應的調(diào)整:
通過圖中的表色,可以看出服務器并不是特別的穩(wěn)定,我們需要加強服務器的穩(wěn)定性。另外,17、18、19三天,連續(xù)被人攻擊、掛鏈等,但是爬蟲抓取正常,這說明這些對網(wǎng)站已經(jīng)造成了一定影響!
第四,IP段的抓取
通過MSSQL提取日志中的爬蟲的IP,通過excel進行統(tǒng)計,每日每個IP的抓取量,同樣我們需要看整體,如果IP段沒有明顯的變化的話,網(wǎng)站升降權(quán)是沒有多大問題的。因為在網(wǎng)站升權(quán)或者降權(quán)的時候,爬蟲的IP段會更換的。
第五,狀態(tài)碼的統(tǒng)計
在這個之前你需要了解下,HTTP狀態(tài)碼返回值代表是什么。
圖中,可以看出304狀態(tài)碼比較多。如果一個網(wǎng)站被搜索引擎抓取的次數(shù)以及頻率越多那么他是越有利于排名的,但是如果你的網(wǎng)站出現(xiàn)太多的304,那么一定會降低搜索引擎的抓取頻率以及次數(shù),從而讓自己的網(wǎng)站排名比別人落一步。調(diào)整:服務器可以清除下緩存。
還有最后一張圖,百度爬蟲的數(shù)據(jù)圖,密密麻麻的數(shù)據(jù),以上所有的數(shù)據(jù)都是從這里調(diào)用出來的。
以上是后知對于上月某網(wǎng)站的日志分析,,希望各位高手能夠多多拍磚,指出小弟的不足,讓后知能夠繼續(xù)進步。謝謝!