Spider抓取過的頁(yè)面還會(huì)二次抓取嗎?
Spider抓取過的頁(yè)面還會(huì)二次抓取嗎?肯定會(huì)的!spider把網(wǎng)頁(yè)抓取到本地,該網(wǎng)頁(yè)被分析索引并參與了排名,并不意味著spider對(duì)該網(wǎng)頁(yè)的工作就已結(jié)束�,F(xiàn)在的互聯(lián)網(wǎng)信息瞬息萬變,頁(yè)面的更新改動(dòng)或者刪除都會(huì)使已經(jīng)抓取的頁(yè)面失效,所以spider對(duì)網(wǎng)頁(yè)進(jìn)行再抓取也是必須的,不過,要使spider對(duì)你的網(wǎng)頁(yè)進(jìn)行二次抓取應(yīng)該具備以下四點(diǎn):用戶體驗(yàn)(UE)、歷史更新頻率、網(wǎng)頁(yè)類型和網(wǎng)頁(yè)權(quán)重。
1、 用戶體驗(yàn)
整個(gè)互聯(lián)網(wǎng)的網(wǎng)頁(yè)數(shù)量是巨大的,已被百度抓取并索引的中文網(wǎng)頁(yè)應(yīng)該是千億級(jí)別的,但是對(duì)用戶有用的信息卻是鳳毛麟角。當(dāng)用戶進(jìn)行搜索時(shí),返回的結(jié)果能否滿足用戶的搜索需求直接關(guān)系到用戶體驗(yàn)度的好壞。試想,用戶看到的頁(yè)面信息顯示的是過時(shí)的信息,用戶對(duì)搜索引擎的印象又會(huì)是如何呢?為了能夠給用戶提供及時(shí)的信息,搜索引擎爬蟲需要對(duì)網(wǎng)頁(yè)進(jìn)行再抓取和更新。理論上,這些網(wǎng)頁(yè)被搜索到的次數(shù)越多,再次抓取該頁(yè)面的頻率就會(huì)越高。
2、 歷史更新頻率
搜索引擎有自己的套發(fā)現(xiàn)某網(wǎng)頁(yè)更新頻率的策略。Spider的再次抓取是為了發(fā)現(xiàn)頁(yè)面上的新變化。如果頁(yè)面上沒有新的內(nèi)容出現(xiàn),搜索引擎則會(huì)降低對(duì)該頁(yè)面的抓取頻率,如果接連無新內(nèi)容出現(xiàn),搜索引擎甚至?xí)V箤?duì)該頁(yè)面的索引。
還有一點(diǎn)需要指出的是,所謂的頁(yè)面變化是指頁(yè)面的主體內(nèi)容的變化,非主體內(nèi)容的變化,不在搜索引擎爬蟲再次抓取之列。
3、 網(wǎng)頁(yè)類型
不同的網(wǎng)頁(yè)類型有不同的更新頻率。在同一個(gè)站點(diǎn)內(nèi)網(wǎng)站首頁(yè),目錄頁(yè),專題頁(yè)和問作業(yè)的更新頻率肯定是不同的。所以對(duì)于同一站點(diǎn)內(nèi)的網(wǎng)頁(yè),是spider也會(huì)采用不同的抓取頻率。一般情況下首頁(yè)和目錄頁(yè)是spider經(jīng)常光顧的頁(yè)面,根據(jù)專題頁(yè)面的實(shí)效性或者其他特征,spider可能會(huì)在某一時(shí)間段內(nèi)進(jìn)行頻繁抓取, 實(shí)效性過后就會(huì)降低對(duì)其的抓取頻率;對(duì)于文章頁(yè)spider很可能第一次來過之后就不會(huì)再來了。
網(wǎng)頁(yè)很多,但是網(wǎng)頁(yè)的類型卻并不是所想象的那么多,每個(gè)類型的網(wǎng)頁(yè)都會(huì)有自己的布局和更新規(guī)律,搜索引擎有足夠的能力發(fā)現(xiàn)網(wǎng)頁(yè)的類型并設(shè)置合理的再次抓取頻率。網(wǎng)頁(yè)類型歸類和網(wǎng)頁(yè)歷史更新頻率是被綜合使用Z多的,一般在同一站點(diǎn)內(nèi)同類網(wǎng)頁(yè)會(huì)有相同的更新頻率,者也會(huì)方便spider對(duì)網(wǎng)頁(yè)更新頻率的判斷。
4、 網(wǎng)頁(yè)權(quán)重
網(wǎng)頁(yè)權(quán)重也是決定抓取頻率的重要因素。權(quán)重高的網(wǎng)頁(yè)抓取的頻率高,反之,抓取的頻率就低。用戶體驗(yàn)度也是決定網(wǎng)頁(yè)權(quán)重的因素。在其他條件對(duì)等的情況下,權(quán)重高的網(wǎng)頁(yè)抓取頻率要比權(quán)重低的網(wǎng)頁(yè)抓取頻率高。