說到百度中文分詞算法,我們廣大SEO站長一般是很少去研究,但只要我們網民還在使用百度搜索,就離不開百度分詞算法,而百度之所以能夠超越其他搜索引擎,就是百度對中文分詞的領悟有超強功底。比如像我們做百度SEO的站長,即使我們文章寫的比較好,但是標題寫的一般,也會導致關鍵詞排名靠后,因為百度會把我們輸入的標題文字拆分成一個個單獨的詞匯。同樣這也就是為什么標題堆積關鍵詞是毫無意義的。雖然百度分詞技術算法是非常復雜的,但我們仍可以探究下百度搜索引擎實現的原理,管中窺豹,可見一斑,對我們做百度SEO的站長而言還是非常有意義。
什么是百度中文分詞算法
百科的解釋是這樣的:百度針對用戶提交查詢的關鍵詞串進行的查詢處理后根據用戶的關鍵詞串用各種匹配方法進行的一種技術。而百度中文分詞算法就是把漢語句子分成若干個相互獨立、完整、正確的單詞。詞是最小的、能獨立活動的、有意義的語言成分。計算機的所有語言知識都來自機器詞典(給出詞的各項信息) 、句法規則(以詞類的各種組合方式來描述詞的聚合現象) 以及有關詞和句子的語義、語境、語用知識庫。說得很專業,從這里我們SEO站長大致可以了解到百度的中文分詞算法主要依賴于機器詞典,因此百度搜索引擎在進行分詞時是有一個專有詞典的,里面大概包含了眾多的歷史人名、地名以及各行各業的專有名詞,從而來判斷我們搜索的句子所表達的是什么意思,并展示一個我們想要的結果頁,我們用簡單的例子來看一下。
比如
在百度搜索“尹華峰SEO博客關注互聯網和搜索引擎”,百度搜索引擎就會將標題拆分為“尹華峰/SEO/博客/關注/互聯網/和/搜索引擎”。那百度是不是一定會這樣進行分詞呢?這也不一定,因為“尹華峰”這個詞可能并未進入百度的專有詞典,但“尹”這個詞是在百度專有詞典中的,所以百度也有可能將標題分詞為“尹/華峰/SEO/博客/關注/互聯網/和/搜索引擎”。
當然,隨著百度的專有詞典詞匯大量增加,這個分詞判斷也會不斷改變,來適應人們的搜索行為。有時候我們網民也會發現,本來表達的是同樣的意思,但是用不同的詞來搜索,展現的信息也是不盡相同,這也許是分詞技術還不太完善的關系造成的。不妨我們再來看看百度分詞算法的分類,以下選自百科。
百度分詞算法分類
1.正向最大匹配法(由左到右的方向)
首先粗分,按照句子把文本切成一個一個句子。然后把每個句子切成單字。字典按照樹形結構存儲,比如這句話“春天還會遠嗎”首先查找“春”字開頭的詞,然后按照字典樹形結構往下走一個節點,查找“春”后面一個字是“天”的詞,然后又下沉一個節點,找“還”下面是“會”的詞,如果找不到,查找就結束。
2.逆向最大匹配法(由右到左的方向)
就是朝相反的方向發掘可以匹配的文字,比如網上商城這個文字串,那么會向左延伸在網上的前面會出現的結果是區域性的文字,比如上;蛘弑本┑,在商城的前面會出現更精準的定義文字符,比如愛家,女人等專屬性強的文字符。
3.最少切分(使每一句中切出的詞數最小)
正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。就是向左右縱深挖掘比較匹配的結果值。
上面這三種便是百度常見的分詞處理手段了,下面我們再來探究下百度搜索引擎通過分詞算法是如何給關鍵詞進行排名的,我們SEO站長在寫原創文章的時候又有哪些需要注意的呢?
百度分詞排名注意事項:
a.當我們在百度搜索框輸入短語,里面包含分詞時,百度就會進行切詞來展現結果頁。百度根據切分出來的詞在網頁內容中出現的密度和相關性進行判斷,當內容質量比較高就會優先展示。
b.如果完全匹配,就是網民搜索的短語完全出現在網頁內容中,并且網頁內容質量比較高,那么網頁就回得到搜索引擎優先排列。
c.如果是不完全匹配,即便內容質量比較高,但關鍵詞在網頁中出現得不完整,那么不完全匹配的網頁會比完全匹配的網頁有劣勢,排名靠后。所以,在做百度SEO時,我們也要注意分詞,確保網頁出現的關鍵詞是符合大多數網民的搜索需求的。
總結:通過這些小細節,我們SEO站長就可以利用百度這種中文分詞手段來展現我們的關鍵詞排名。百度分詞算法的目的不是為了展示所有結果,全部展示也沒有意義可言,只需把優質和相關性高的內容排在前面即可。所以我們站長首先要做的還是生產優質內容,同時,讓我們的網站標題和內容最大化去完全匹配關鍵詞,這樣,我們的網頁就會在百度關鍵詞搜索中得到優先排列。