robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。下面為大家列出在網(wǎng)站優(yōu)化時robots.txt文件所起到的一些作用:
首先,在線建站提供方便之路。當我們將域名解析到服務器,可以訪問站點了,可是這個時候站點還沒有布局好,meta標簽還一塌糊涂。如果此時的站點被搜索引擎蜘蛛抓取收錄了,到時再更改就很不利于推廣優(yōu)化。這時就可以利用robots.txt文件來設置所有搜索引擎蜘蛛不允許查詢站點的所有內容。
其次,定制搜索引擎蜘蛛抓取指定內容,能讓你根據(jù)站點情況來選擇怎樣和搜索引擎打交道。這里主要有兩層意思。
(1)定制搜索引擎。網(wǎng)站優(yōu)化,首先最先應該做的便是定制搜索引擎,這里不再多講。
(2)定制站點內容。也就是說你可以指定某個目錄允許spider爬行,某個目錄禁止spide
爬行。如所有搜索引擎蜘蛛,允許抓取目錄abc下的內容,禁止抓取目錄def下的內容。
再次,引導搜索引擎抓取網(wǎng)站內容。這里最典型的做法有:
(1)引導蜘蛛抓取你的網(wǎng)站地圖。
(2)防止蜘蛛抓取你的網(wǎng)站重復內容。
最后,404錯誤頁面問題。如果你的服務器自定應了404錯誤頁面而在你站點根目錄沒有配置robots.txt文件,那么搜索引擎蜘蛛會將其視為robots.txt文件,這將影響搜索引擎對你網(wǎng)站頁面的收錄。