百度搜索引擎搜索分析

2014/1/21 15:00:52

眾所周知，搜索引擎的主要工作過程包括：抓取、存儲(chǔ)、頁面分析、索引、檢索等幾個(gè)主要過程。過去幾周給大家介紹了抓取相關(guān)的簡(jiǎn)要過程。今天簡(jiǎn)要介紹一下索引系統(tǒng)，以億為單位的網(wǎng)頁庫中查找特定的某些關(guān)鍵詞猶如大海里面撈針，也許一定的時(shí)間內(nèi)可以完成查找，但是用戶等不起，從用戶體驗(yàn)角度我們必須在毫秒級(jí)別給予用戶滿意的結(jié)果，否則用戶只能流失。怎樣才能達(dá)到這種要求呢？

如果能知道用戶查找的關(guān)鍵詞（query切詞后）都出現(xiàn)在哪些頁面中，那么用戶檢索的處理過程即可以想象為包含了query中切詞后不同部分的頁面集合求交的過程，而檢索即變成了頁面名稱之間的比較、求交。這樣，在毫秒內(nèi)以億為單位的檢索成為了可能。這就是通常所說的倒排索引及求交檢索的過程。如下為建立倒排索引的基本過程：

（1）頁面分析的過程實(shí)際上是將原始頁面的不同部分進(jìn)行識(shí)別并標(biāo)記，例如：title、keywords、content、link、anchor、評(píng)論、其他非重要區(qū)域等等；

（2）分詞的過程實(shí)際上包括了切詞分詞同義詞轉(zhuǎn)換同義詞替換等等，以對(duì)某頁面title分詞為例，得到的將是這樣的數(shù)據(jù)：term文本、termid、詞類、詞性等等；

（3）之前的準(zhǔn)備工作完成后，接下來即是建立倒排索引，形成{termàdoc}，可以粗略的理解為如下，為什么是【term->doc】,而不是直接應(yīng)用【doc->term】呢？

上述即是索引系統(tǒng)中的倒排索引過程，是搜索引擎實(shí)現(xiàn)毫秒級(jí)檢索非常重要的一個(gè)環(huán)節(jié)。

大家對(duì)索引系統(tǒng)有什么樣的問題也歡迎向lee進(jìn)行提問，lee將會(huì)向大家一一進(jìn)行解答。

推薦文章

網(wǎng)站SEO優(yōu)化

SEO操作			SEO類型

網(wǎng)站定位
明確網(wǎng)站定位、用戶定位,根據(jù)產(chǎn)品屬性結(jié)合用戶搜索習(xí)慣進(jìn)行關(guān)鍵詞研究和建立。
站內(nèi)優(yōu)化
網(wǎng)站結(jié)構(gòu)及HTML代碼優(yōu)化、標(biāo)題、描述、關(guān)鍵詞定義；
圖片ALT優(yōu)化、快照縮略圖優(yōu)化、H\STRONG\FONT\P\DIV\LI標(biāo)簽優(yōu)化
鏈接A標(biāo)簽設(shè)置、URL優(yōu)化、死鏈、空鏈、#號(hào)鏈等處理
文本匹配與關(guān)鍵字設(shè)置、導(dǎo)航優(yōu)化、目錄優(yōu)化、詳情頁優(yōu)化
站外優(yōu)化
百度收錄主動(dòng)請(qǐng)求代碼、網(wǎng)站Sitemap.xml索引設(shè)置
高質(zhì)量外鏈和友情鏈接建設(shè)、URL引導(dǎo)收錄提交
搜索體驗(yàn)及縮略圖優(yōu)化、網(wǎng)頁快照優(yōu)化、權(quán)重評(píng)級(jí)提升
文章發(fā)布技巧
標(biāo)題醒目、準(zhǔn)確傳遞文章思想，標(biāo)題具備高度的總結(jié)性和概括性
關(guān)鍵字設(shè)置從文章標(biāo)題里提煉，必修按詞組提煉有指數(shù)的關(guān)鍵詞
文章摘匹配關(guān)鍵字并統(tǒng)攬全局，摘要必須準(zhǔn)確表達(dá)文章的觀點(diǎn)
文章配圖必須121x75的倍數(shù)，文章發(fā)布后必做URL收錄提交
SEO策略與技巧
確保鏈接被收錄形成快照，確保網(wǎng)頁快照參與權(quán)重評(píng)級(jí)
標(biāo)題用部分匹配原則，描述用完整匹配原則
排名靠前的內(nèi)鏈引導(dǎo)靠后的，提高搜索展現(xiàn)率和有效點(diǎn)擊
內(nèi)容用完整匹配、關(guān)鍵字加粗，內(nèi)鏈錨文本與導(dǎo)出鏈接相關(guān)
鏈接層級(jí)扁平化、目錄簡(jiǎn)短，合理使用網(wǎng)站導(dǎo)航和分類
重要鏈接放到第一屏，文案內(nèi)容匹配長(zhǎng)尾詞而非主詞
快速排名
單個(gè)鍵詞是否進(jìn)入搜索首頁或前三
關(guān)鍵字必須在搜索引擎結(jié)果有排名
網(wǎng)站不需要過多調(diào)整、局部?jī)?yōu)化
排名速度快、一般2周左右
按約定驗(yàn)收客戶指定的關(guān)鍵詞
整站優(yōu)化
整個(gè)網(wǎng)站從搜索引擎過來的流量
只要網(wǎng)站收錄大于100條即可
網(wǎng)站每級(jí)都要做站內(nèi)調(diào)整優(yōu)化
整站優(yōu)化初期相對(duì)較慢
根據(jù)主詞持續(xù)擴(kuò)展長(zhǎng)尾詞

SEO問題（FAQs）

網(wǎng)站TDK怎么定義?

明確網(wǎng)站定位、用戶定位,根據(jù)產(chǎn)品屬性結(jié)合用戶搜索習(xí)慣進(jìn)行關(guān)鍵詞研究和建立。
站內(nèi)優(yōu)化包含什么內(nèi)容？
站內(nèi)優(yōu)化主要包含網(wǎng)站代碼優(yōu)化和網(wǎng)站內(nèi)容調(diào)整，如下：
1. 網(wǎng)站結(jié)構(gòu)及HTML代碼優(yōu)化、標(biāo)題、描述、關(guān)鍵詞定義；
2. 圖片ALT優(yōu)化、快照縮略圖優(yōu)化、H\STRONG\FONT\P\DIV\LI標(biāo)簽優(yōu)化
3. 鏈接A標(biāo)簽設(shè)置、URL優(yōu)化、死鏈、空鏈、#號(hào)鏈等處理
4. 文本匹配與關(guān)鍵字設(shè)置、導(dǎo)航優(yōu)化、目錄優(yōu)化、詳情頁優(yōu)化

深度傳播，精準(zhǔn)獲客

網(wǎng)站優(yōu)化邀請(qǐng)您一起推進(jìn)營(yíng)銷精準(zhǔn)化、簡(jiǎn)單化！

国产www亚洲а∨天堂一区_中国国产精品一区二区三区_www99热精品视频_丰满少妇被猛烈进入av久久

百度搜索引擎搜索分析