金塔胡楊林

建立索引


1、  百度分詞

百度因為是中文搜索引擎從在中國的用戶是Z多的,它擁有強大的分析技術。一個字段可以拆分出許多的關鍵詞,如同英文單詞一樣,拆分出來的詞我們叫做單詞。


2、  為什么要進行分詞

中國的文字語言歷史悠久,漢字多達9萬左右,而常用的漢字也有4000左右,這些常用的漢字不用數(shù)量及規(guī)則進行隨意組合,其結果已經達到天文數(shù)字,對于搜索引擎來說是不能很好的處理這些文字的。如果我們按相鄰的詞出現(xiàn)的頻率來統(tǒng)計,就可以把這4000個常用漢字組合成8萬左右個單字,雖然比單個漢字多了很多,但是易于搜索引擎的匹配。用戶搜索詞如果拆分為單詞要明顯比拆分為單字的數(shù)量少,如果是文檔的話,拆分成單詞也比單字數(shù)量要少的多。這樣搜索引擎只要擁有一個詞庫就可以完全處理用戶的搜索。


3、  分詞方法

搜索引擎是沒有眼睛的,百度分詞的具體實現(xiàn)辦法是比較復雜的,但是原理還是比較簡單的,有以下這三種分詞的方法:

例如 【童欣的博客專門提供免費的SEO新手入門實戰(zhàn)教程】

1)  正向Z大化匹配-從左向右拆分

童欣 的 博客 專門 提供 免費的 SEO 新手 入門 實戰(zhàn)教程

2)反向Z大化匹配-從右向左反向分詞

童欣 的 博客 專門 提供 免費 的 SEO 新手 入門 實戰(zhàn) 教程

3)雙向Z大化匹配-左右同時進行分詞

童欣的 博客 專門提供 免費 的 SEO  新手 入門 實戰(zhàn) 教程


4、  案例的分析

這里我們簡單的講到了百度分詞方法,是讓同學們了解百度會對文檔和字段進行切分,避免大家在優(yōu)化中出現(xiàn)關鍵詞的堆積和重復;例如:

留學_美國留學_留學費用_美國哈弗留學-品牌詞

_這個表示詞段切分。以上我們明顯可以看到留學和美國留學這兩個詞,可以通過美國哈弗留學這個詞進行拆分就能得到,所以注意這些關鍵詞的堆砌。


輸出結果

用戶在輸入需要搜索的詞后,百度會進行一系列復雜的分析,根據(jù)Z終的結論在索引庫中尋找與之Z為匹配的網頁,按照用戶輸入關鍵詞所體現(xiàn)的需求及網頁的優(yōu)劣進行打分評估,并按照Z終的分數(shù)進行排列,展現(xiàn)出結果。

百度的查詢系統(tǒng)是直接面向客戶的系統(tǒng),響應用戶的搜索,返回搜索結果。這是一個相似度計算過程的例子:

并不是所有包含搜索詞的已經被收錄的頁面都要進行一次相似度計算,特別的對于一些熱門的搜索詞,這個是非常費勁的;同時,搜索引擎是可以按照頁面的鏈接權重來進行篩選,忽略掉鏈接權重值比較低的頁面,優(yōu)先鏈接權重值比較高的頁面。


總結:從蜘蛛的爬取到輸出搜索結果,期中經歷一系列復雜的算法,SEO必須遵守百度分詞的方法,合理控制我們網站的關鍵詞布局,從而讓搜索引擎更快、更好的來抓取我們的網頁。



下面一篇文章我們講新人必讀之【索引擎的展示結果】這也是很重要的一個優(yōu)化步驟,歡迎大家繼續(xù)關注。

本技術文章來自:童欣SEO博客_上海SEO歡迎提問


     系列文章優(yōu)化核心【新人必知的搜索引擎工作原理(一)】
                   優(yōu)化核心【新人必知的搜索引擎工作原理(二)】