這些spider知識,是你應(yīng)該知道的
spider也就是大家常說的搜索引擎爬蟲、蜘蛛或者搜索引擎機(jī)器人。它是處于整個(gè)搜索引擎Z上游的一個(gè)模塊,只有spider抓回來的頁面才會被索引和參與排名。
這里有一點(diǎn)需要注意,只要是spider抓到的URL都可能會參與排名,但參與排名的網(wǎng)頁并不一定就被spider抓取到了內(nèi)容。
spider離不開入口,所謂的入口就是頁面的鏈接。沒有鏈接的頁面,spider是無法進(jìn)行抓取的。
spider根據(jù)作用和特征可分為3類,分別是批量型spider、增量型spider和垂直型spider。
1、批量型spider
是一種限制性spider,限制性表現(xiàn)在爬取得范圍受到限制,抓取的時(shí)間和數(shù)量受到限制。達(dá)到預(yù)先設(shè)置的抓取目標(biāo)就會停止。站長常用的采集程序就是批量型的spider。
2、增量型spider
也叫做通用爬蟲。這是一種無限制的spider,可無休止的抓取下去,直到抓取完畢為止。當(dāng)頁面發(fā)生變化時(shí),也可進(jìn)行二次抓取。目前主流的搜索引擎百度
谷歌等全文搜索引擎的spider所派出的爬蟲都屬于增量型spider。
3、垂直型spider
也叫聚焦爬蟲, 有特定的抓取范圍。
現(xiàn)在我們常見的圖片搜索、視頻搜索、新聞搜索等都屬于垂直搜索范疇。抓取這些內(nèi)容的spider叫做垂直型spider。需要特別指出的一點(diǎn)是,其實(shí)垂直型spider完全可以看做是有一定限制性的增量型的spider。
在這3類spider中,增量型spider是Z為常見的一種spider。