搜索引擎是怎么處理內(nèi)容的?

  內(nèi)容處理一直是一個比較神秘的工作,很多SEO人員都好奇搜索引擎是怎么處理內(nèi)容的,處理內(nèi)容的算法是怎樣的,具體的搜索算法及公式,這里無從談起,只能從內(nèi)容處理邏輯方面給大家一塊了解下。

  1、 判斷目標(biāo)頁面的類型

  抓取到的內(nèi)容,首先要對內(nèi)容所屬的類型進(jìn)行歸類,是普通的網(wǎng)頁文件,還是pdf、word等特殊文件文檔。如果是普通網(wǎng)頁還要判斷網(wǎng)頁的類型是普通文本內(nèi)容,還是視頻內(nèi)容等類型。甚至還會對網(wǎng)頁是普通文章頁還是論壇帖子頁進(jìn)行判斷,然后有針對性的進(jìn)行內(nèi)容處理。這里李現(xiàn)龍(微信號:李現(xiàn)龍)提示一點(diǎn),論壇性的帖子權(quán)重不及普通文章頁。

  2、 提取網(wǎng)頁中的文本信息

  當(dāng)下主流的搜索引擎雖然都聲稱可以讀取JS等非普通網(wǎng)頁文件中的內(nèi)容 ,但是索引的還是以文本為主。還是會重點(diǎn)提取title、keywords和description標(biāo)簽中的內(nèi)容。雖然有傳言說是description和keywords中的內(nèi)容已經(jīng)被搜索引擎拋棄了,對排名沒有什么作用了,但是,有很多人經(jīng)過自己的測試,至少百度還是會參考下keywords中的關(guān)鍵詞的。所以,這一塊布局關(guān)鍵詞的地方還是不要放棄的為好。

  3、 去除頁面噪聲

  如果當(dāng)前頁面是普通網(wǎng)頁,搜索引擎會把與當(dāng)前網(wǎng)頁無關(guān)的廣告,導(dǎo)航,鏈接,圖片,登入窗口,網(wǎng)站版權(quán)等信息內(nèi)容全部剔除掉,只是提取網(wǎng)頁中的主體內(nèi)容。

  在剔除過程中,百度并不會把主體之外的其他東西全部拋掉,比如相關(guān)推薦,關(guān)聯(lián)閱讀的內(nèi)容在一定程度也會被算作是本頁的內(nèi)容,或者是對本頁內(nèi)容的補(bǔ)充,也會對搜索排名有一定的影響。

  4、 去除停止詞

  所謂的停止詞,其實(shí)就是文章中出現(xiàn)的“的、地、得、哎、呀、卻、但”等之類的詞。這些詞在文章中出現(xiàn)的頻率極高,而且沒有什么實(shí)際的意義,除掉這些詞不影響搜索引擎內(nèi)容進(jìn)行分詞和理解,還可以減少搜索引擎的計算量。

  需要指出的是,搜索引擎并不是嚴(yán)格遵守去除規(guī)則的,畢竟中國的文字博大精深,同一個詞出現(xiàn)在不同的位置意思可能就大不一樣,所以適當(dāng)?shù)姆潘梢?guī)則也是可以理解的。

  經(jīng)過上述4點(diǎn)對內(nèi)容的處理,spider抓進(jìn)來的內(nèi)容幾乎就可以認(rèn)為是洗干凈了,再經(jīng)過后續(xù)的分詞及去重處理后,內(nèi)容就可以進(jìn)行正向所以和倒排索引處理了。