作為一名SEO愛好者,分析網站蜘蛛日志是必不可少的,通過網站日志中的數據記錄,站長們就可以很好的診斷我們的網站是否處在健康狀態。比如博主的網站最近就受到不少掛黑鏈的攻擊,無論是網站權重還是流量都帶來很大損失,所以網站蜘蛛日志分析勢在必行,通過網站調整正確引導搜索引擎蜘蛛的抓取。
什么是網站日志
通過百科我們也可以了解到,所謂的網站日志指的就是記錄web服務器接收處理請求以及運行時錯誤等各種原始信息的以log結尾的文件。這里站長們要注意的是文件以log為后綴,只需將其下載下來使用工具分析即可。
網站日志怎么獲取
不同的服務器和虛擬主機存放的log文件位置還是有一定差別的,但一般獲取方法還是比較簡單的,如博主服務器安裝的是寶塔面板,網站日志文件存放在文件-wwwlogs文件夾中,找到對應網站的log文件然后下載下來。
網站日志分析工具
網站日志分析工具是有很多的,比如在線的網站日志工具拉格好(http://www.loghao.com/),另外博主常用的是光年網站日志分析工具。這些工具大同小異,文件和工具都有了,下面我們就深入探究下如何分析這些網站數據。
常見網站蜘蛛有哪些
BaiDu Spider:即是代表百度搜索引擎蜘蛛,從上圖可以看到尹華峰SEO博客的搜索引擎爬蟲來自百度,占比52%
Sogou Spide:代表搜狗搜索引擎蜘蛛,訪問次數雖少,但是抓取總量卻很大,這讓博主發現了其中的貓膩,原因就是本站某個欄目被人攻擊,掛了大量給搜狗搜索引擎蜘蛛抓取的黑鏈。
谷歌蜘蛛:表示Google搜索引擎蜘蛛,做谷歌SEO的站長需要多加注意。
Alexa Spider:代表網站全球排名搜索引擎蜘蛛,該爬蟲主要分析網站的訪問流量,并統計網站全球排名,當前本站在全球排名610481位。
除此之外,其實還是有其他搜索引擎爬蟲的,如Yahoo蜘蛛、360Spider等,以上只是本站的搜索引擎蜘蛛概要分析,因為剛換服務器的原因,目前蜘蛛抓爬的數據體量是比較小的,僅供參考。通過日志工具主動與搜索引擎蜘蛛溝通,我們還可以進一步分析網站抓取情況和狀態碼分析。
網站蜘蛛日志分析解讀
目錄抓取:可以分析網站目錄的抓取量,了解搜索引擎蜘蛛的愛好。通過上圖可以看到Sogou Spide主要抓取了我的/kjzx/目錄,同其他目錄對比抓取量比較大,出現異常。于是我進入網站根目錄進行查看,發現了掛黑鏈的腳本文件,這也印證了博主前面的判斷。
頁面抓。喉撁孀ト×渴潜容^穩定的,沒有哪個頁面抓取量大而出現異常,這里博主就不再截圖,但博主發現抓取量最大的頁面就是robots.txt文件,所以站長們設置好robots規則也是很重要的。
狀態碼返回分析解讀
200代表搜索引擎蜘蛛訪問成功;
404代表頁面無法訪問;
301代表頁面跳轉;
304代表客戶端已經執行了GET,但文件未變化;
500狀態碼表示服務器遇到錯誤,無法完成請求;
403狀態碼表示服務器拒絕請求。
以上是本站遇到的一些蜘蛛狀態碼(更多狀態碼請參考:網站日志常見HTTP狀態碼分析),站長尤其是查看非200值的狀態碼,分析這些異常的URL路徑,很容易就找到網站癥結之所在。
網站日志的作用
網站日志分析對SEO站長來說應該是必備技能,無論是新站還是老站,網站日志分析都有很大的作用。通過日志分析了解網站蜘蛛抓取頻次、是否被關進沙盒、網站是否被K、查找異常抓取等。
結語:通過網站蜘蛛日志分析,SEO站長可以很好自查診斷網站是否出現問題,不僅可以了解網站的健康狀況,通過抓取量還可以進一步了解搜索引擎蜘蛛的愛好,清楚網站內容運營的重心之所在,也可以起到很好的指導作用。