背景資料:
策先生——策恩“世界名鞋淘寶客”推廣大賽特約評委
曾于第一季推廣大賽期間對參賽選手表現(xiàn)進(jìn)行每周精簡點(diǎn)評,專治疑難雜癥,為一眾參賽選手所知曉。為人低調(diào)且神秘,專注網(wǎng)站推廣數(shù)年。現(xiàn)任第二季策恩“世界名鞋淘寶客”推廣大賽評委,行蹤不甚明朗。
說到中文分詞,我覺得只要從事SEO工作有關(guān)的朋友都應(yīng)該深刻理解這一知識,理解搜索引擎是如何識別詞與詞之間的關(guān)系,如何判別語句的含義的。因?yàn)槟挥谐浞值牧私、貫穿?yīng)用中文分詞才可以在關(guān)鍵詞收集、分析、布局,包括標(biāo)題的攢寫做得更加得心應(yīng)手,才會寫出更加出色的軟文。中文分詞已經(jīng)是SEO知識中的核心知識。
SEOER必須要理解搜索引擎是如何工作的這一點(diǎn)尤其重要,也是最基礎(chǔ)的。
我們先來了解中文分詞的概念,什么是中文分詞?
中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解?其處理過程就是分詞算法。
目前搜索引擎對于中文分詞可以分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。
1、基于字符串匹配的分詞方法
搜索引擎在接受用戶搜索的時候第一個會判斷用戶搜索的“詞”跟數(shù)據(jù)庫里面的“詞”是否匹配,匹配度如何來進(jìn)行掃描;
按照輸入的“關(guān)鍵詞”或是“句子”不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;
如下:
1)正向最大匹配法(由左到右的方向);
例子:策恩“世界名鞋淘寶客”推廣大賽。
正向最大切分出的關(guān)鍵詞是:策恩、世界名鞋淘寶客、推廣大賽(不上圖了,大家百度一下,然后查看快照即可)
2)逆向最大匹配法(由右到左的方向);這個跟第一點(diǎn)是一樣的分詞方式,只是關(guān)鍵詞的前后順序換過來,在搜索引擎數(shù)據(jù)庫查詢得到的結(jié)果是一樣的。
3)最少切分(使每一句中切出的詞數(shù)最小);
例子:策恩“世界名鞋淘寶客”推廣大賽
最少切分出來的詞是:策恩、世界、名鞋、淘寶客、推廣、大賽;
4)雙向最大匹配法(進(jìn)行由左到右、由右到左兩次掃描)||
2、基于理解的分詞方法
這種分詞方法是通過讓計(jì)算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。其基本思想就是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。這種方法一直對抗著長期偽原創(chuàng)的做法,在09年一般的換換同義詞,近義詞的偽原創(chuàng)百度會收錄,到了2010年偽原創(chuàng)的幅度需要做到更大才可以有效,在今年的六月底,百度的一次大更新過后,很多同學(xué)發(fā)現(xiàn)原來的采集的站,或是偽原創(chuàng)力度不大的網(wǎng)頁內(nèi)容被百度大量的放出來,不在收錄,說明百度這一分詞技術(shù)方法越來越成熟,越來越完善了。偽原創(chuàng)也是越來越難了。
3、基于統(tǒng)計(jì)的分詞方法
從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。搜索引擎通過這一方法在“下拉框”或是“相關(guān)搜索”中可以充分提現(xiàn)出來。最近幾年大家發(fā)現(xiàn)很多網(wǎng)絡(luò)公司有一項(xiàng)業(yè)務(wù)是【刷百度相關(guān)關(guān)鍵詞】,當(dāng)用戶輸入某個關(guān)鍵詞的時候,我們可以做到指定在百度下拉框出現(xiàn)自己想要的關(guān)鍵詞,利用的就是這個基于統(tǒng)計(jì)的分詞原理。
最后說下關(guān)鍵詞在標(biāo)題的應(yīng)用,理解中文分詞與網(wǎng)站標(biāo)題的關(guān)系。
1、搜索詞與網(wǎng)站標(biāo)題完全匹配
當(dāng)用戶在百度搜索的時候,搜索詞如果和您的網(wǎng)站標(biāo)題完全匹配,而且你的網(wǎng)站也達(dá)到了一定的權(quán)重的時候就會有好的排名,這個也解釋了標(biāo)題一定要出現(xiàn)關(guān)鍵詞,就是原因,反之,如果搜索的詞不和您的網(wǎng)站標(biāo)題完全匹配的時候搜索引擎就進(jìn)行分詞,分詞的方式參與了中文分詞原理的綜合方式。
2、搜索詞不匹配才進(jìn)行分詞
當(dāng)詞語與您的網(wǎng)站標(biāo)題不匹配的時候就會進(jìn)行分詞,分詞的方式會參與,正向、逆向、統(tǒng)計(jì)、理解、同義詞、以及新詞和歧義詞。這個時候搜索引擎理解起來會比較難,從而影響到網(wǎng)頁的排名;
說到這里我提下之前在一個策恩淘寶客大賽交流QQ群189321234發(fā)過一些淘寶上熱搜的關(guān)鍵詞出來,在上次夢江跟我的一次訪談中一位策恩的淘寶客說到這些詞在淘寶上搜索次數(shù)很大,但是在百度的話幾乎是零,當(dāng)時我建議優(yōu)化“行業(yè)詞+策恩、行業(yè)詞+策恩皮鞋”這類型的關(guān)鍵詞,還說我會在往后寫文專門說清楚,我再舉一個例子,希望可以更加清楚點(diǎn)。
標(biāo)題:休閑皮鞋策恩波文、時尚男人韓版風(fēng)
按照最大匹配法來分:休閑皮鞋、策恩波文、時尚男人、韓版風(fēng)。里面至少包含了“休閑皮鞋、休閑皮鞋策恩、策恩波文,策恩皮鞋波文”這4個詞,這樣既優(yōu)化了在百度的熱門詞“休閑皮鞋”,精準(zhǔn)詞:休閑皮鞋策恩,同時也優(yōu)化了在淘寶的熱門詞精準(zhǔn)詞“策恩波文、策恩皮鞋波文”,盡可能的做到跟用戶搜索的詞匹配度較高,我當(dāng)時說的就是這個意思。