很多企業(yè)網(wǎng)站維護人員堅持每天對自己網(wǎng)站更新,以為這樣就可以做好網(wǎng)站維護,這樣就可以在搜索引擎長長久久地存留下來。很多人經(jīng)常不會去做網(wǎng)站分析,不會去分析網(wǎng)站每天被訪問情況。

  為什么每天要對網(wǎng)站進行分析呢?這樣的分析有什么好處?每天對網(wǎng)站進行分析,可以讓網(wǎng)站維護人員很好知道網(wǎng)站的健康狀況,搜索引擎蜘蛛每天來網(wǎng)站的爬取情況,爬取了哪些頁面,爬取了哪些欄目,爬取了哪些內(nèi)容,什么時間過來爬,還有爬取頁面的時候返回了什么樣的狀態(tài)碼,這些東西都是可以顯示網(wǎng)站情況的健康與否。網(wǎng)站維護人員可以針對這些信息,采取相應的措施來對網(wǎng)站進行維護更新。

  做網(wǎng)站分析有這么多的好處,作為網(wǎng)站維護人員,通過什么對網(wǎng)站進行分析呢?那些分析數(shù)據(jù)如何才能獲取到?這些網(wǎng)站數(shù)據(jù)是可以通過服務器的IIS日志可以獲得。IIS日志上有記錄網(wǎng)站在一個月內(nèi)被訪問的數(shù)據(jù)情況,無論是搜索引擎還是客戶,只要訪問了網(wǎng)站,就會被IIS日志記錄下來。IIS日志上記錄著用戶與搜索引擎的訪問路徑,訪問時間,訪問的內(nèi)容,以及訪問時返回的反饋碼。

  作為一個合格的網(wǎng)站優(yōu)化或者網(wǎng)站維護人員,通過IIS日志分析網(wǎng)站健康狀況是必須會的技能。

網(wǎng)絡服務器如IIS、Apache,會把每一個訪問信息、服務器動作、文件調(diào)用自動記錄下來,存放在原始日志文件里。日志文件是相對準確且全面的。

一般的流量信息工具上,一些重要的關于SEO的信息可能沒有顯示出來,只能通過查看日志,如蜘蛛爬行記錄、服務器返回狀態(tài)等。

今天,小小課堂網(wǎng)來給大家介紹如何進行IIS網(wǎng)站日志分析詳解。希望本次的SEO教程對大家所有幫助。

網(wǎng)站日志分析

從小小課堂網(wǎng)的2018年3月9日的日志中選取一段,我們來進行分析。

2018-03-09 01:06:49 172.19.90.134 GET

/1189 – 80 – 175.146.106.193 Mozilla/5.0+

(Linux;+U;+Android+6.0.1;+zh-cn;+OPPO

+A57+Build/MMB29M)+AppleWebKit/537.36+

(KHTML,+like+Gecko)+Version/4.0+

Chrome/53.0.2785.134+Mobile+Safari/537.36+

OppoBrowser/4.5.2 https://yz.m.sm.cn/s?q=

%E9%87%91%E5%B1%B1ocr%E8%AF%

86%E5%88%AB%E5%B7%A5%E5%

85%B7%E7%9B%AE%E5%89%8D%

E6%94%AF%E6%8C%81%E4%BB%

8E%E5%93%AA%E9%87%8C%E8%

AF%86%E5%88%AB%E6%96%87%E4%

BB%B6&from=

wy836274&by=submit&snum=0 200 0 0 1390

1、訪問時間

2018-03-09 01:06:49

2、本地獲取頁面

172.19.90.134是服務器本地IP地址,如下圖所示。

服務器本地IP地址

3、get獲取網(wǎng)頁地址

GET/1189獲取域名下 /1189 這個地址,也就是www.xxkt.org/1189

GET,為服務器的通常的動作,也就是從服務器上獲取某個文件,可以是HTML、圖片、CSS等。

另外一種形式為POST,一般用于CGI腳本。

PS:CGI 意思為 Common Gateway Interface, 一種基于瀏覽器的輸入、在Web服務器上運行的程序方法。

get獲取網(wǎng)頁地址

4、80端口

-80 指服務器的80端口。

5、訪客IP地址

175.146.106.193  百度搜索IP顯示:遼寧省鞍山市 聯(lián)通

訪客IP地址

6、訪客瀏覽器和設備信息

Mozilla/5.0+(Linux;+U;+Android+6.0.1;

+zh-cn;+OPPO+A57+Build/MMB29M)+

AppleWebKit/537.36+KHTML,+like+Gecko)+

Version/4.0+Chrome/53.0.2785.134+Mobile+

Safari/537.36+OppoBrowser/4.5.2

這段英文顯示的是瀏覽器和訪客設備信息。如OPPO A57手機、安卓系統(tǒng)、oppo瀏覽器等信息。

另外可能還會遇到:

360SE:360瀏覽器;

Firefox:火狐瀏覽器;

Chrome:Google瀏覽器。

Windows NT 5.1、Windows NT 6.1等指Windows NT操作系統(tǒng),平時Windows XP、7、10均屬于NT系列。

7、搜索引擎類別和搜索詞

https://yz.m.sm.cn/   s?q=%E9%87%91%E5%B1%B1ocr%E8%AF%

86%E5%88%AB%E5%B7%A5%E5%85%B7%E7%9B

%AE%E5%89%8D%E6%94%AF%E6%8C%81%E4

%BB%8E%E5%93%AA%E9%87%8C%E8%AF%86%E5%

88%AB%E6%96%87%E4%BB%B6&from=wy836274

&by=submit&snum=0

這段話復制到瀏覽器中,則會顯示如下圖結(jié)果。

用戶的搜索引擎:神馬搜索。

用戶的搜索詞:金山ocr識別目前支持從哪里識別文件。

搜索引擎類別和搜索詞

8、HTTP狀態(tài)碼正常

返回的HTTP狀態(tài)為200,之前講過200的含義為成功獲取了文件,一切正常。其他常見HTTP狀態(tài)碼及其含義如下:

301:永久轉(zhuǎn)向。

302:暫時轉(zhuǎn)向。

304:文件未改變,客戶端緩沖版本還可以繼續(xù)使用。

400:非法請求。

401:訪問被拒絕,需要用戶名、密碼。

403:禁止訪問。

404:文件不存在或未找到。

500:服務器內(nèi)部錯誤,通常是程序問題。

503:服務器沒有應答,如負載過大等情況。

9、是否正常訪問或抓取

HTTP200后面的0 0,表示文件被訪客或者蜘蛛正常訪問或抓取。

還有一種情況是 200 0 64 ,有的說是K站(這種說法被人罵的特別多,應該是錯的),還有人說是64位系統(tǒng)(感覺不太靠譜),還有人說是開始GZIP壓縮功能(那就先關了試試看),還有人說網(wǎng)站快照更新不及時(那就多發(fā)外鏈、多做友鏈、規(guī)律更新文章)。

10、花費時間

1390代表花費時間為1390毫秒。

上面那個字段就分析完了。

再來一個新的字段如下:

2018-03-09 00:40:51 172.19.90.134 GET

/1482 – 80 – 123.125.71.113 Mozilla/5.0+

(Linux;u;Android+4.2.2;zh-cn;)+

AppleWebKit/534.46+(KHTML,like+Gecko)+

Version/5.1+Mobile+Safari/10600.6.3+

(compatible;+Baiduspider/2.0;

++http://www.baidu.com/search/spider.html)

– 200 0 0 1312
2018-03-09 00:44:52 172.19.90.134

GET /about – 80 – 66.249.64.10 Mozilla/5.0+

(Linux;+Android+6.0.1;+Nexus+5X+

Build/MMB29P)+AppleWebKit/537.36+

(KHTML,+like+Gecko)+Chrome/41.0.2272.96

+Mobile+Safari/537.36+(compatible;

+Googlebot/2.1;++http://www.google.com/bot.html)

– 200 0 0 1671

11、搜索引擎蜘蛛

+Baiduspider/2.0;++http://www.baidu.com/search/spider.html表明自己身份是,百度搜索引擎蜘蛛。

+Googlebot/2.1;++http://www.google.com/bot.html表明自己身份是,Google機器人(Googlebot)。

類似的還有360spider(360搜索)、bingbot(必應搜索)、Sogou web spider(搜狗)。

還有一個比較有意思的蜘蛛叫做YisouSpider,屬于神馬搜索。網(wǎng)上有個觀點是屏蔽神馬蜘蛛,很多站長說,神馬蜘蛛一個小時訪問次數(shù)高達一萬次,故網(wǎng)上出現(xiàn)了很多教程屏蔽神馬蜘蛛。

灬無言剛檢查了小小課堂網(wǎng)的一個日志,神馬蜘蛛的訪問也是非常正常的,可見并非所有的網(wǎng)站都需要屏蔽神馬蜘蛛,百度詞條上說,如果網(wǎng)站更新頻率高,內(nèi)容質(zhì)量高,YisouSpider可能會非正常抓取,會導致服務器問題,需要盡快向神馬反饋。

不建議屏蔽YisouSpider,因為神馬移動端的流量也是非�?捎^的。

12、日志參數(shù)如何自定義

其實,這些日志中,有些未被記錄,需要我們調(diào)整出來,或者將不想看到的日志參數(shù)取消記錄,從哪里尋找呢?

1)打開IIS服務器,點擊左側(cè)網(wǎng)站后,在右側(cè)點擊“日志”。

IIS日志參數(shù)調(diào)整

2)點擊選擇字段。

選擇字段

3)可選字段,如發(fā)送的字節(jié)數(shù)、接收的字節(jié)數(shù)、協(xié)議版本、主機等。

選擇字段

13、如何查看這些雜亂無章的日志

小小課堂網(wǎng)其中一個日志用文本文檔打開如下圖所示。估計誰看了都頭疼吧。

IIS日志

方法1:用Excel表打開日志的txt文件。

a)新建并打開Excel文件。

b)用Excel文件打開.log的日志文件,打開時,又下角選擇“全部文件(*.*)”,不然是看不到.log文件的。

Excel分析日志文件

c)打開后,選擇“分隔符號”,然后下一步。

分隔符號

d)選擇分隔符號為“空格”。然后下一步。

選擇分隔符號為空格

e)格式按需選擇,一般默認也可以。

格式按需選擇

f)最后簡單將上述標簽單元格換個“背景色”,將標簽單元格“自動換行”外加“篩選”,就可以做數(shù)據(jù)的簡單統(tǒng)計了,或者插入數(shù)據(jù)透視表。是不是比單純的txt文檔看起來舒服多啦。

日志分析Excel表

14、日志分析軟件

如果上述日志分析方法不能滿足您的日常需求,那么專業(yè)的日志分析軟件就是您最后的選擇啦。關注本站,后期會推薦幾款日志分析軟件。

本文章轉(zhuǎn)自小小課堂SEO自學網(wǎng)https://www.xxkt.org/2639/