作為SEOer,我們使用的各種各樣的工具,以收集各式各樣的技術(shù)問(wèn)題,網(wǎng)站分析,抓取診斷,百度站長(zhǎng)工具等。所有這些工具是有用的,但都無(wú)法比擬在網(wǎng)站日志數(shù)據(jù)分析搜索引擎蜘蛛抓取,就像Googlebot到爬取您的網(wǎng)站并您的網(wǎng)站上留下了一個(gè)真實(shí)的記錄。這是網(wǎng)絡(luò)服務(wù)器日志。日志是一個(gè)強(qiáng)大的源數(shù)據(jù)經(jīng)常沒(méi)有得到充分利用,但有助于保持您的網(wǎng)站的搜索引擎抓取檢查的完整性。

  服務(wù)器日志是由一個(gè)特定的服務(wù)器進(jìn)行詳細(xì)記錄了每一個(gè)動(dòng)作。在一個(gè)Web服務(wù)器的情況下,你可以得到很多有用的信息。如何檢索和分析日志文件,并根據(jù)您的服務(wù)器的響應(yīng)代碼(404,302,500等)的識(shí)別問(wèn)題。我將它分解成2個(gè)部分,每個(gè)部分突出不同的問(wèn)題,可以發(fā)現(xiàn)在您的Web服務(wù)器日志。

  一、獲取日志文件

  搜索引擎抓取網(wǎng)站信息必會(huì)在服務(wù)器上留下信息,這個(gè)信息就在網(wǎng)站日志文件里。我們通過(guò)日志可以了解搜索引擎的訪問(wèn)情況,一般通過(guò)主機(jī)服務(wù)商開(kāi)通日志功能,再通過(guò)FTP訪問(wèn)網(wǎng)站的根目錄,在根目錄下可以看到一個(gè)log或者weblog文件夾,這里面就是日志文件,我們把這個(gè)日志文件下載下來(lái),用記事本(或?yàn)g覽器)打開(kāi)就可以看到網(wǎng)站日志的內(nèi)容。那么到底這個(gè)日志里面隱藏了什么玄機(jī)呢?其實(shí)日志文件就像飛機(jī)上的黑匣子。我們可以通過(guò)這個(gè)日志了解很多信息,那么到底這個(gè)日志給我們傳遞了什么內(nèi)容呢?下面先做一個(gè)簡(jiǎn)單的說(shuō)明。

  日期:這將讓你一天搜索引擎抓取速度的發(fā)展趨勢(shì)進(jìn)行分析。

  被爬取文件:這將告訴你哪些被抓取的目錄和文件,并在某些路段或類型的內(nèi)容可以幫助查明問(wèn)題。

  狀態(tài)碼:(只列出常見(jiàn)到并能直接反正網(wǎng)站問(wèn)題的狀態(tài)碼)

  200狀態(tài)碼:請(qǐng)求已成功,請(qǐng)求所希望的響應(yīng)頭或數(shù)據(jù)體將隨此響應(yīng)返回。

  302狀態(tài)碼:請(qǐng)求的資源現(xiàn)在臨時(shí)從不同的URI響應(yīng)請(qǐng)求。

  404狀態(tài)碼:請(qǐng)求失敗,請(qǐng)求所希望得到的資源未被在服務(wù)器上發(fā)現(xiàn)。

  500狀態(tài)碼:服務(wù)器遇到了一個(gè)未曾預(yù)料的狀況,導(dǎo)致了它無(wú)法完成對(duì)請(qǐng)求的處理。

  - - 提供了哪些網(wǎng)頁(yè)被爬蟲(chóng)運(yùn)行到并反應(yīng)出什么樣的問(wèn)題。

  從哪里來(lái):雖然這不一定是有用的分析搜索機(jī)器人,它是非常有價(jià)值的,其他的流量分析。

  哪種爬蟲(chóng):這個(gè)會(huì)告訴你哪個(gè)搜索引擎爬蟲(chóng)在你的網(wǎng)頁(yè)上運(yùn)行的。

  二、解析網(wǎng)站日志文件

  現(xiàn)在你需要一個(gè)日志分析工具,因?yàn)槿绻愕木W(wǎng)站有幾M或幾十M甚至百M(fèi)以上的日志數(shù)據(jù)時(shí),你不可能一條條去看。再說(shuō),就算日志數(shù)據(jù)不多,一條條看也是不科學(xué)的。這里用光年seo日志分析工具為大家做個(gè)例子。

  1.導(dǎo)入文件到您解析軟件。

  2.分析網(wǎng)站日志及時(shí)發(fā)現(xiàn)出現(xiàn)的問(wèn)題

  搜索引擎抓取您的網(wǎng)站有Z快的方式是看在正在服務(wù)的服務(wù)器響應(yīng)代碼。404(找不到頁(yè)面)可能意味著抓取那珍貴的資源被浪費(fèi)了;302重定向請(qǐng)求的資源現(xiàn)在臨時(shí)從不同的URI響應(yīng)請(qǐng)求;500是服務(wù)器遇到了一個(gè)未曾預(yù)料的狀況,導(dǎo)致了它無(wú)法完成對(duì)請(qǐng)求的處理,可以分析出服務(wù)器出現(xiàn)的問(wèn)題。雖然網(wǎng)站管理工具提供了一些信息,這樣的錯(cuò)誤,會(huì)給你的網(wǎng)站造成一個(gè)非常大的影響。

  分析的第一步是從您的日志數(shù)據(jù),通過(guò)光年seo日志分析工具以產(chǎn)生一個(gè)數(shù)據(jù)表。在Z基本的層面上,讓我們看看哪些搜索引擎的爬蟲(chóng)在爬行這個(gè)網(wǎng)站:

  通過(guò)報(bào)表我們想幾個(gè)問(wèn)題:

  a.雅虎蜘蛛總抓取量占了全部的47.12%;那么我從流量統(tǒng)計(jì)器看到。沒(méi)有一個(gè)流量是從雅虎搜索引擎過(guò)來(lái)的。那么這個(gè)蜘蛛可不可以禁止他再來(lái)訪問(wèn)呢?

  b.百度蜘蛛(BaiDu Spider )的訪問(wèn)次數(shù)、停留的時(shí)間、總抓取量反應(yīng)了什么呢?

  c.其它搜索引擎的蜘蛛的訪問(wèn)次數(shù)、停留的時(shí)間、總抓取量那么少的原因是什么呢?有沒(méi)有改善的方法呢?

  接下來(lái),讓我們來(lái)看看在蜘蛛狀態(tài)碼分析,我們Z關(guān)心的問(wèn)題。

  這是只顯示這個(gè)日志有問(wèn)題的蜘蛛狀態(tài)碼,而已正常200將不被分析。我們將要細(xì)看這個(gè)表格�?傮w而言,好到壞的比例看起來(lái)很健康,但有一些個(gè)別的問(wèn)題讓我們嘗試弄清楚這是怎么回事。

  302出現(xiàn)的問(wèn)題數(shù)量是可以接受的,但是不代表可以放著不去處理,我們應(yīng)該有更好的方法來(lái)處理這些問(wèn)題,也許用一個(gè)robots.txt指令應(yīng)排除這些頁(yè)面被抓取。

  404的出現(xiàn)達(dá)到109個(gè)。在幾萬(wàn)的抓取量來(lái)說(shuō)。網(wǎng)站的這個(gè)數(shù)據(jù)也算是可以的。但是也需要解決,找出潛在的問(wèn)題是隔離404目錄或者使用rel =”nofollow”注釋這些404鏈接。當(dāng)然404的頁(yè)面也必須要有。

  結(jié)語(yǔ)

  百度網(wǎng)站管理為您提供抓取錯(cuò)誤的信息,但在許多情況下,它們限制了數(shù)據(jù)。作為SEO的,我們應(yīng)該利用一切可用的數(shù)據(jù),畢竟只有一個(gè)數(shù)據(jù)源,你可以真正依靠自己的源。日志不撒謊!