首先,我們應(yīng)該知道什么情況會(huì)產(chǎn)生重復(fù)內(nèi)容?
1、 重復(fù)更新內(nèi)容:這是網(wǎng)站編輯在上傳文章的過程中多次上傳同一篇文章所致,歸根到底是沒有寫重復(fù)標(biāo)題驗(yàn)證功能。
2、網(wǎng)站內(nèi)容多為采集,這種網(wǎng)站內(nèi)容重復(fù)會(huì)被當(dāng)做采集站直接被百度處理掉,百度新的綠蘿算法就是專門打擊采集站點(diǎn)的。
3、列表翻頁和內(nèi)容分頁:列表翻頁和內(nèi)容分頁標(biāo)題相同,也會(huì)被判定為相同內(nèi)容。
4、 多處調(diào)用同一篇內(nèi)容:動(dòng)態(tài)地址偽靜態(tài)會(huì)產(chǎn)生兩個(gè)不同URL但內(nèi)容相同的情況,同一級(jí)欄目互相調(diào)用文章也會(huì)產(chǎn)生這樣的情況。
5、網(wǎng)站的固定版塊出現(xiàn)次數(shù)太多,很多網(wǎng)站的右側(cè)總是固定放一些版塊或欄目,這些欄目的內(nèi)容從來不進(jìn)行更新,或者各個(gè)頁面的右側(cè)都是前篇一律的內(nèi)容,就會(huì)造成頁面重復(fù)度高。
6、未設(shè)置404錯(cuò)誤頁面,當(dāng)我們刪除某一個(gè)頁面的時(shí)候,一定要用404狀態(tài)碼給予用戶和蜘蛛一定的提示,如果代碼設(shè)置錯(cuò)誤,那么刪除的頁面在蜘蛛那里是假想存在的,由此一來就會(huì)多次收錄。
7、生成的RSS訂閱。關(guān)于RSS訂閱大家都很熟悉,對(duì)于一些大型新聞網(wǎng)站或是個(gè)人博客之類的網(wǎng)站都會(huì)利用RSS訂閱來生成個(gè)人站點(diǎn)的內(nèi)容,然而這些個(gè)人站點(diǎn)的內(nèi)容必然會(huì)被他人轉(zhuǎn)載,這就會(huì)造成原始源信息和其他網(wǎng)站內(nèi)容造成重合,蜘蛛重復(fù)收錄也就成了可能。
其次,知道了網(wǎng)站重復(fù)內(nèi)容的產(chǎn)生,那么我們應(yīng)該如何正確處理重復(fù)內(nèi)容呢?
1、減少采集內(nèi)容的頻率,增加原創(chuàng)內(nèi)容。
這點(diǎn)很容易理解,世上沒有不勞而獲的東西,如果網(wǎng)站的發(fā)展要依靠采集的話,那么這個(gè)網(wǎng)站也就沒有了繼續(xù)生存下去的希望。對(duì)于網(wǎng)站內(nèi)容多為采集或簡(jiǎn)單偽原創(chuàng)的網(wǎng)站,建議增加原創(chuàng)文章的內(nèi)容,寧可百度收錄少一些,也不要讓百度把之前收錄的文章吐出來。
2、網(wǎng)站固定欄目?jī)?nèi)容隨機(jī)展示
可以根據(jù)正文的關(guān)鍵詞,隨機(jī)調(diào)用右側(cè)欄目的文章內(nèi)容,讓每一個(gè)頁面都有不一樣的內(nèi)容,避免大量頁面相似度高的情況出現(xiàn)。
3、減少無效或是重復(fù)的URL。
在我們從網(wǎng)站開始的建設(shè)過程當(dāng)中就盡可能的使URL統(tǒng)一,切勿使用動(dòng)態(tài)頁面進(jìn)行連接,因?yàn)榫椭┲氲慕嵌认雴栴},它是不喜歡動(dòng)態(tài)頁面的。
4、頁面設(shè)置獨(dú)立的Meta標(biāo)簽
關(guān)鍵詞、標(biāo)簽、描述,每一個(gè)頁面都需要不同,可以采用手動(dòng)修改,或者根據(jù)一定的規(guī)則設(shè)置。
5、減少無效內(nèi)容之間的鏈接。
很多時(shí)候我們會(huì)對(duì)之前的網(wǎng)站結(jié)構(gòu)或是內(nèi)容頁進(jìn)行修改,無形中就會(huì)遺留下一部分被刪除的內(nèi)容,對(duì)于這些東西大家要及時(shí)的清理,利用管理員工具去掉這些無效的鏈接,以免蜘蛛重復(fù)抓取,從而形成類似于狀態(tài)碼200的情況。
6、設(shè)置404頁面
告知用戶和搜索引擎某些頁面不存在了,防止搜索引擎收錄大量死鏈。