新手SEO站長可能很少了解robots.txt文件,因為這個文件通常寫好之后基本是不會再修改了的。當然,除非某天你不想蜘蛛抓取你的網站了,或者網站有私密文件禁止公開,這個時候就可以通過修改robots.txt文件的語法了,具體的語法這里就不闡述了。
雖然robots.txt在日常SEO工作中很少觸碰,但它存在的意義卻是非常大的。Robots的作用已經不在局限于網頁的隱私了,還在于頁面某些路徑的清理,如刪除死鏈非常管用。下面隨尹華峰SEO技術博客來全面認清真正的robots.txt文件。
一、什么是robots.txt文件?
robots.txt它是一個文本的文件,是一種存放于網站根目錄下的文本文件,它通常會告訴搜索引擎的抓取程序(又稱網絡爬蟲或蜘蛛),這個網站中有哪些內容不應該被搜索引擎的抓取程序獲取的,又有哪些是可以被抓取程序獲取的。
robots.txt這個robots必須是要小寫的,這是跟網絡蜘蛛建立的一個協議,網絡蜘蛛來你的網站的時候第一會去看的就是你網站根目錄的robots.txt協議文件,它會根據你的規定來進行抓取,但是有些傲嬌的網絡蜘蛛它不遵循規則,一般網絡蜘蛛都會會遵循的,要是你網站根目錄沒有這個文件的話網絡蜘蛛就會沿著我們網站上面的鏈接一個一個進行抓取。
二、robots.txt的作用有哪些?
(1)它可以引導搜索引擎的蜘蛛抓取指定的欄目或者是內容。相當于你去一個陌生的城市,有人給你帶路一樣。
(2)當我們網站改版或者是URL重寫優化時屏蔽不好的鏈接。不到萬不得已千萬不要進行網站改版,這個對網站傷害很大的,會引起降權或者是排名收錄全掉。
(3)可以屏蔽死鏈接和404錯誤頁面。隨著網站壯大,死鏈接和404錯誤頁面是在所難免的。
(4)屏蔽那些無內容和無價值的頁面。
(5)屏蔽重復頁面,比如說評論頁、搜索結果頁。
(6)屏蔽任何不想被收錄的頁面。
(7)引導蜘蛛來抓取網站地圖。讓蜘蛛更快速來爬取我們網站的鏈接。
總結:因為robots.txt文件是網站跟蜘蛛的一個協議,蜘蛛來抓取網站時必然先(理論上)遵守協議。所以很多網站robots.txt文件就出現了一種情況,那就是把網站地圖sitemap放進去,如峰峰的博客也不例外哦,這樣自然是為了吸引蜘蛛快速抓取網站鏈接,便于收錄。還有就是查詢別的網站robots.txt文件時,可直接在域名后面加一個robots.txt即可一覽無遺。