在網站的鏈接架構及關鍵詞的布局都與分詞有很大的關系。平時跟百度接觸的比較多,所以就以百度中文分詞為例介紹下搜索引擎分詞的方法。
中文分詞是什么
在了解百度的中文分詞之前大家壹
先要了解什么是中文分詞?我們中文與英文不同,是由一個個漢字連接成的,因此分起來相對比較復雜。百度的中文分詞是將一個漢語句子切分成一個個的單獨的詞,然后按照一定的規(guī)則重新組合成一個序列的過程,簡稱“中文切詞”。分詞對搜索引擎的幫助很大,可以幫助搜索引擎程序自動識別語句的含義,從而使搜索結果的匹配度達到更高
,因此分詞的質量也就直接影響了搜索結果的準確
度。當前百度搜索引擎分詞主要采用字典匹配和統(tǒng)計學這兩種方法。
字典匹配分詞
這種方法的就出事有一個詞庫量超大的詞典,即分詞索引庫,在按照一定的規(guī)則將待分的詞的字符串與詞庫中的詞進行匹配,找到某個詞語就表示匹配成功,這主要通過以下幾種方式:更
少切分(使每一句中切出的詞數更
小);正向更大
匹配法(由左到右的方向);雙向更大
匹配法(進行由左到右、由右到左兩次掃描);逆向更大
匹配法(由右到左的方向)。
一般情況下,搜索引擎會使用多種方式結合使用,這就為搜索引擎帶來很大的困難,如歧義的處理,為了提高關鍵詞匹配的準確
率,搜索引擎會模擬人類對句子的理解,從而達到識別詞語的效果。也就是在粉刺的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。這主要包括以下幾個部分:總控部分、分詞子系統(tǒng)、句法語義子系統(tǒng)。在總控部分的協調下,分詞子系統(tǒng)可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。
統(tǒng)計學分詞
雖然字典索引庫解決了很多難題,但是著寫還是遠遠不夠的,搜索引擎還需要具有不斷發(fā)現新詞的能力,在通過計算詞語相鄰的概率在確定是不是一個單獨的詞語,因此了解的上下文越多,對句子的理解也就越準確,當然分詞也就越準確
。舉個例子來講就是“搜索引擎優(yōu)化的過程是什么”在上下文中出現的次數較多,那么統(tǒng)計學分詞就會將這個詞假如分詞索引庫。
對于seo的工作者,需要
要掌握搜索引擎的粉刺原理和方法,這樣才能是網站更容易確定主題的相關性。就“seo”和“培訓”,我發(fā)現每個詞語分詞后有一個主詞和副詞,通常是優(yōu)先匹配主詞,然后再匹配副詞,比如這里顯然SEO是主詞,所以優(yōu)先去匹配這個詞語,然后是培訓這個副詞??赐瓯疚暮螅覀兊木W站該怎樣去布局和架構,可以好好的考慮一下了。
百度優(yōu)化是通過對搜索關鍵詞的研究和更好的利用搜索引擎的相關規(guī)定,對網站內容和網站結構進行優(yōu)化,使百度搜索引擎能順利索引到您的網站內容,從而提升網站本身的質量度,取得較好的百度排名。
版權聲明:本站部分文章,由 鄭州路普科技整理發(fā)表(信息來自互聯網,不代表本站觀點),如有冒犯請聯系我們
網頁標簽:塞奇威克算法 百度云