當(dāng)前位置: 首頁 > 今日要聞

今日要聞

淺談搜索引擎如何判斷冗余內(nèi)容并進(jìn)行消重

來源: 上海網(wǎng)站建設(shè)    發(fā)布日期: 2015-05-15 10:30    點擊量: 5588

  我們要進(jìn)行網(wǎng)站優(yōu)化排名,就要了解搜索引擎,當(dāng)然搜索引擎牽涉的內(nèi)容很多,一些算法我們很多時候不一定要知道詳細(xì)的具體的算法,只需要知道原理就可以了,我們做網(wǎng)站的時候特別是在進(jìn)行內(nèi)容建設(shè)的時候,才能知道哪些是搜索喜歡的做法,今天主要簡單的說說搜索引擎消重方面的東西。

 

  網(wǎng)絡(luò)冗余內(nèi)容的產(chǎn)生

 

  這里所謂的冗余數(shù)據(jù)是指網(wǎng)頁內(nèi)容完全相同的數(shù)據(jù)或者在大文本字段非常相似的數(shù)據(jù)。出現(xiàn)這種情況往往是網(wǎng)站之間進(jìn)行文章的相互轉(zhuǎn)載、發(fā)布者多次發(fā)布相同或者相似的內(nèi)容造成的。特別是一些新聞,大家知道這類頁面來源于各個新聞網(wǎng)站,它們之間的相互轉(zhuǎn)載會導(dǎo)致大量的重復(fù)信息。或者文章的發(fā)布者在多個網(wǎng)站上發(fā)布同樣的信息,這樣也會出現(xiàn)重復(fù)內(nèi)容。相信很多網(wǎng)站建設(shè)的新手朋友應(yīng)該都有這樣的經(jīng)歷,在自己網(wǎng)站剛建好的時候,為了讓內(nèi)容豐富起來,會大量的采集別的網(wǎng)站的內(nèi)容。

 

  MD5數(shù)字指紋進(jìn)行冗余數(shù)據(jù)的消重

 

  針對這種情況搜索引擎會采取單MD5數(shù)字指紋技術(shù)進(jìn)行數(shù)據(jù)清洗。往往很多時候,一些內(nèi)容的發(fā)布者或者轉(zhuǎn)載者對文字內(nèi)容進(jìn)行再次的編輯改動,或者網(wǎng)站之間的格式不同等原因,造成這些內(nèi)容在字面上很多時候也不一定完全一樣,由于MD5數(shù)字指紋技術(shù)的敏感性,只要原始字符串字符不完全一致,就會得到完全不同的MD5數(shù)字指紋,這時就需要考慮新的處理機(jī)制。這類信息都有明顯的特征,例如,對于重復(fù)的信息,雖然字面上并非完全一樣,但是內(nèi)容大致相同;毫無意義的信息不是文字特別短、就是特別長等等,對這類信息的清理主要是通過將原始文本進(jìn)行分詞,統(tǒng)計詞頻,重新按照詞頻高低排序,計算多重MD5數(shù)字指紋數(shù)組,比較多重MD5數(shù)字指紋數(shù)組前三位是否相同,如果相同則表示可能是相似數(shù)據(jù),再計算多重MD5數(shù)字指紋數(shù)組相似度是否高于設(shè)定的閥值來決定是否是相似數(shù)據(jù),將相似度過高的數(shù)據(jù)看作冗余數(shù)據(jù),刪除這些冗余的信息就可以了。

 

  相信大家了解了以上的內(nèi)容,就知道自己做網(wǎng)站優(yōu)化原創(chuàng)內(nèi)容編輯的時候改如何處理了。如果我們的網(wǎng)站的內(nèi)容做到讓搜索引擎認(rèn)為是原創(chuàng)的不重復(fù)的,那么我們的排名就很有希望了。

  本文由上海藝覺網(wǎng)絡(luò)科技有限公司(http://www.dcbbl.cn)原創(chuàng)編輯轉(zhuǎn)載請注明。

相關(guān)新聞

CONTACT USCAREERSFOODSERVICEPRESSPRIVACY POLICY
? 2014 yijueweb. All rights reserved.
?