當(dāng)前位置: 首頁 > 今日要聞

今日要聞

網(wǎng)站建設(shè)優(yōu)化學(xué)習(xí)—理解搜索引擎蜘蛛的爬行原理

來源: 上海網(wǎng)站建設(shè)    發(fā)布日期: 2014-02-27 11:55    點擊量: 5769

 

    搜索引擎的計算過程可以說是最復(fù)雜的程序之一,之前曾經(jīng)講過其大致的工作原理.不過還是不夠通俗,很多SEO新手朋友感覺有些不容易理解.今天筆者再用另外的一種形式為廣大網(wǎng)站建設(shè)與優(yōu)化的新手朋友們再說說了.可能對于真正的搜索引擎技術(shù)人員或者優(yōu)化人員是皮毛.不過對于很多不從事網(wǎng)站建設(shè)不接觸程序,負責(zé)外圍的SEO推廣人員來說比較有用.

 

    搜索引擎的大致工作過程

 

    搜索引擎的工作大致上可以分成下面的3個階段:1,爬行和抓取.,這個階段,搜索引擎的蜘蛛會通過鏈接來訪問網(wǎng)頁,獲取頁面的HTML代碼,將這些代碼存在自己的數(shù)據(jù)庫;2,頁面代碼的預(yù)處理,這個過程是對所存的頁面的一些數(shù)據(jù)進行文字提取,分詞,建立索引等操作,這樣以備后面的排名程序的調(diào)用.3,接下來就是排名了,用戶在輸入關(guān)鍵詞,排名的程序會根據(jù)數(shù)據(jù)庫里面的索引,相關(guān)性的計算等處理,然后按照重要性生成搜索操作結(jié)果呈現(xiàn)給用戶.

 

    蜘蛛的爬行和抓取

 

    搜索引擎的爬行和訪問頁面程序被通俗的稱為蜘蛛.搜索引擎蜘蛛訪問會模擬用戶使用的瀏覽,蜘蛛程序發(fā)出頁面訪問請求后,網(wǎng)頁服務(wù)器會返回HTML代碼,搜索引擎就會把代碼存到自己的原始數(shù)據(jù)庫里面.蜘蛛訪問每個網(wǎng)站的時候,都會先訪問網(wǎng)站的ROBOTS.TXT文件.如果有的ROBOTS.TXT文件不想被搜索引擎抓取,比如一些保密的信息,那么搜索引擎就不會抓取這些頁面.

 

    鏈接的跟蹤

 

    理解了鏈接的跟蹤,就會明白為什么大家在進行網(wǎng)站制作的時候,要遵守一些優(yōu)化的原則.搜索引擎的蜘蛛從一個網(wǎng)頁到另一個網(wǎng)頁,很象蜘蛛網(wǎng)的爬行,互聯(lián)網(wǎng)的鏈接就象蜘蛛網(wǎng)一樣.雖然計算機的速度很快,但再快也是有時間的,理論上雖然說不管是鏈接有多深,只要時間足夠,蜘蛛都能夠爬完所有的頁面,但實際上,網(wǎng)上資源實在太多,加上帶寬的限制,不可能爬完所有的頁面.

 

    所以大家在布局鏈接的時候,要讓蜘蛛程序很清晰的判斷出你的網(wǎng)站架構(gòu),避免一些死鏈接,使用扁平的價格,這樣蜘蛛就會比較容易比較快速的對你網(wǎng)站所有的頁面進行訪問抓取,并能夠通過自己的程序,很快的分析出你的網(wǎng)站內(nèi)容,這樣就能起到很好的優(yōu)化的效果.

 

    了解了以上上海網(wǎng)站制作的小編所述,相信大家也從原理上了解了搜索引擎的爬行訪問收錄原理,就能明白自己的網(wǎng)站該如何在優(yōu)化的角度來展開.

 

    本文由上海藝覺網(wǎng)絡(luò)科技有限公司(http://www.dcbbl.cn)原創(chuàng)編輯轉(zhuǎn)載請注明。  

相關(guān)新聞

CONTACT USCAREERSFOODSERVICEPRESSPRIVACY POLICY
? 2014 yijueweb. All rights reserved.
?