這些spider知識,是你應(yīng)該知道的

  spider也就是大家常說的搜索引擎爬蟲、蜘蛛或者搜索引擎機(jī)器人。它是處于整個(gè)搜索引擎Z上游的一個(gè)模塊,只有spider抓回來的頁面才會被索引和參與排名。

  這里有一點(diǎn)需要注意,只要是spider抓到的URL都可能會參與排名,但參與排名的網(wǎng)頁并不一定就被spider抓取到了內(nèi)容。

  spider離不開入口,所謂的入口就是頁面的鏈接。沒有鏈接的頁面,spider是無法進(jìn)行抓取的。

  spider根據(jù)作用和特征可分為3類,分別是批量型spider、增量型spider和垂直型spider。

  1、批量型spider

  是一種限制性spider,限制性表現(xiàn)在爬取得范圍受到限制,抓取的時(shí)間和數(shù)量受到限制。達(dá)到預(yù)先設(shè)置的抓取目標(biāo)就會停止。站長常用的采集程序就是批量型的spider。

  2、增量型spider

  也叫做通用爬蟲。這是一種無限制的spider,可無休止的抓取下去,直到抓取完畢為止。當(dāng)頁面發(fā)生變化時(shí),也可進(jìn)行二次抓取。目前主流的搜索引擎百度

  谷歌等全文搜索引擎的spider所派出的爬蟲都屬于增量型spider。

  3、垂直型spider

  也叫聚焦爬蟲, 有特定的抓取范圍。

  現(xiàn)在我們常見的圖片搜索、視頻搜索、新聞搜索等都屬于垂直搜索范疇。抓取這些內(nèi)容的spider叫做垂直型spider。需要特別指出的一點(diǎn)是,其實(shí)垂直型spider完全可以看做是有一定限制性的增量型的spider。

  在這3類spider中,增量型spider是Z為常見的一種spider。