為什么每天要對網(wǎng)站進行分析呢?這樣的分析有什么好處?每天對網(wǎng)站進行分析,可以讓網(wǎng)站維護人員很好知道網(wǎng)站的健康狀況,搜索引擎蜘蛛每天來網(wǎng)站的爬取情況,爬取了哪些頁面,爬取了哪些欄目,爬取了哪些內(nèi)容,什么時間過來爬,還有爬取頁面的時候返回了什么樣的狀態(tài)碼,這些東西都是可以顯示網(wǎng)站情況的健康與否。網(wǎng)站維護人員可以針對這些信息,采取相應的措施來對網(wǎng)站進行維護更新。
做網(wǎng)站分析有這么多的好處,作為網(wǎng)站維護人員,通過什么對網(wǎng)站進行分析呢?那些分析數(shù)據(jù)如何才能獲取到?這些網(wǎng)站數(shù)據(jù)是可以通過服務器的IIS日志可以獲得。IIS日志上有記錄網(wǎng)站在一個月內(nèi)被訪問的數(shù)據(jù)情況,無論是搜索引擎還是客戶,只要訪問了網(wǎng)站,就會被IIS日志記錄下來。IIS日志上記錄著用戶與搜索引擎的訪問路徑,訪問時間,訪問的內(nèi)容,以及訪問時返回的反饋碼。
作為一個合格的網(wǎng)站優(yōu)化或者網(wǎng)站維護人員,通過IIS日志分析網(wǎng)站健康狀況是必須會的技能。
網(wǎng)絡服務器如IIS、Apache,會把每一個訪問信息、服務器動作、文件調(diào)用自動記錄下來,存放在原始日志文件里。日志文件是相對準確且全面的。
一般的流量信息工具上,一些重要的關于SEO的信息可能沒有顯示出來,只能通過查看日志,如蜘蛛爬行記錄、服務器返回狀態(tài)等。
今天,小小課堂網(wǎng)來給大家介紹如何進行IIS網(wǎng)站日志分析詳解。希望本次的SEO教程對大家所有幫助。
從小小課堂網(wǎng)的2018年3月9日的日志中選取一段,我們來進行分析。
2018-03-09 01:06:49 172.19.90.134 GET
/1189 – 80 – 175.146.106.193 Mozilla/5.0+
(Linux;+U;+Android+6.0.1;+zh-cn;+OPPO
+A57+Build/MMB29M)+AppleWebKit/537.36+
(KHTML,+like+Gecko)+Version/4.0+
Chrome/53.0.2785.134+Mobile+Safari/537.36+
OppoBrowser/4.5.2 https://yz.m.sm.cn/s?q=
%E9%87%91%E5%B1%B1ocr%E8%AF%
86%E5%88%AB%E5%B7%A5%E5%
85%B7%E7%9B%AE%E5%89%8D%
E6%94%AF%E6%8C%81%E4%BB%
8E%E5%93%AA%E9%87%8C%E8%
AF%86%E5%88%AB%E6%96%87%E4%
BB%B6&from=
wy836274&by=submit&snum=0 200 0 0 1390
1、訪問時間
2018-03-09 01:06:49
2、本地獲取頁面
172.19.90.134是服務器本地IP地址,如下圖所示。
3、get獲取網(wǎng)頁地址
GET/1189獲取域名下 /1189 這個地址,也就是www.xxkt.org/1189
GET,為服務器的通常的動作,也就是從服務器上獲取某個文件,可以是HTML、圖片、CSS等。
另外一種形式為POST,一般用于CGI腳本。
PS:CGI 意思為 Common Gateway Interface, 一種基于瀏覽器的輸入、在Web服務器上運行的程序方法。
4、80端口
-80 指服務器的80端口。
5、訪客IP地址
175.146.106.193 百度搜索IP顯示:遼寧省鞍山市 聯(lián)通
6、訪客瀏覽器和設備信息
Mozilla/5.0+(Linux;+U;+Android+6.0.1;
+zh-cn;+OPPO+A57+Build/MMB29M)+
AppleWebKit/537.36+KHTML,+like+Gecko)+
Version/4.0+Chrome/53.0.2785.134+Mobile+
Safari/537.36+OppoBrowser/4.5.2
這段英文顯示的是瀏覽器和訪客設備信息。如OPPO A57手機、安卓系統(tǒng)、oppo瀏覽器等信息。
另外可能還會遇到:
360SE:360瀏覽器;
Firefox:火狐瀏覽器;
Chrome:Google瀏覽器。
Windows NT 5.1、Windows NT 6.1等指Windows NT操作系統(tǒng),平時Windows XP、7、10均屬于NT系列。
7、搜索引擎類別和搜索詞
https://yz.m.sm.cn/ s?q=%E9%87%91%E5%B1%B1ocr%E8%AF%
86%E5%88%AB%E5%B7%A5%E5%85%B7%E7%9B
%AE%E5%89%8D%E6%94%AF%E6%8C%81%E4
%BB%8E%E5%93%AA%E9%87%8C%E8%AF%86%E5%
88%AB%E6%96%87%E4%BB%B6&from=wy836274
&by=submit&snum=0
這段話復制到瀏覽器中,則會顯示如下圖結(jié)果。
用戶的搜索引擎:神馬搜索。
用戶的搜索詞:金山ocr識別目前支持從哪里識別文件。
8、HTTP狀態(tài)碼正常
返回的HTTP狀態(tài)為200,之前講過200的含義為成功獲取了文件,一切正常。其他常見HTTP狀態(tài)碼及其含義如下:
301:永久轉(zhuǎn)向。
302:暫時轉(zhuǎn)向。
304:文件未改變,客戶端緩沖版本還可以繼續(xù)使用。
400:非法請求。
401:訪問被拒絕,需要用戶名、密碼。
403:禁止訪問。
404:文件不存在或未找到。
500:服務器內(nèi)部錯誤,通常是程序問題。
503:服務器沒有應答,如負載過大等情況。
9、是否正常訪問或抓取
HTTP200后面的0 0,表示文件被訪客或者蜘蛛正常訪問或抓取。
還有一種情況是 200 0 64 ,有的說是K站(這種說法被人罵的特別多,應該是錯的),還有人說是64位系統(tǒng)(感覺不太靠譜),還有人說是開始GZIP壓縮功能(那就先關了試試看),還有人說網(wǎng)站快照更新不及時(那就多發(fā)外鏈、多做友鏈、規(guī)律更新文章)。
10、花費時間
1390代表花費時間為1390毫秒。
上面那個字段就分析完了。
再來一個新的字段如下:
2018-03-09 00:40:51 172.19.90.134 GET
/1482 – 80 – 123.125.71.113 Mozilla/5.0+
(Linux;u;Android+4.2.2;zh-cn;)+
AppleWebKit/534.46+(KHTML,like+Gecko)+
Version/5.1+Mobile+Safari/10600.6.3+
(compatible;+Baiduspider/2.0;
++http://www.baidu.com/search/spider.html)
– 200 0 0 1312
2018-03-09 00:44:52 172.19.90.134
GET /about – 80 – 66.249.64.10 Mozilla/5.0+
(Linux;+Android+6.0.1;+Nexus+5X+
Build/MMB29P)+AppleWebKit/537.36+
(KHTML,+like+Gecko)+Chrome/41.0.2272.96
+Mobile+Safari/537.36+(compatible;
+Googlebot/2.1;++http://www.google.com/bot.html)
– 200 0 0 1671
11、搜索引擎蜘蛛
+Baiduspider/2.0;++http://www.baidu.com/search/spider.html表明自己身份是,百度搜索引擎蜘蛛。
+Googlebot/2.1;++http://www.google.com/bot.html表明自己身份是,Google機器人(Googlebot)。
類似的還有360spider(360搜索)、bingbot(必應搜索)、Sogou web spider(搜狗)。
還有一個比較有意思的蜘蛛叫做YisouSpider,屬于神馬搜索。網(wǎng)上有個觀點是屏蔽神馬蜘蛛,很多站長說,神馬蜘蛛一個小時訪問次數(shù)高達一萬次,故網(wǎng)上出現(xiàn)了很多教程屏蔽神馬蜘蛛。
灬無言剛檢查了小小課堂網(wǎng)的一個日志,神馬蜘蛛的訪問也是非常正常的,可見并非所有的網(wǎng)站都需要屏蔽神馬蜘蛛,百度詞條上說,如果網(wǎng)站更新頻率高,內(nèi)容質(zhì)量高,YisouSpider可能會非正常抓取,會導致服務器問題,需要盡快向神馬反饋。
不建議屏蔽YisouSpider,因為神馬移動端的流量也是非�?捎^的。
12、日志參數(shù)如何自定義
其實,這些日志中,有些未被記錄,需要我們調(diào)整出來,或者將不想看到的日志參數(shù)取消記錄,從哪里尋找呢?
1)打開IIS服務器,點擊左側(cè)網(wǎng)站后,在右側(cè)點擊“日志”。
2)點擊選擇字段。
3)可選字段,如發(fā)送的字節(jié)數(shù)、接收的字節(jié)數(shù)、協(xié)議版本、主機等。
13、如何查看這些雜亂無章的日志
小小課堂網(wǎng)其中一個日志用文本文檔打開如下圖所示。估計誰看了都頭疼吧。
方法1:用Excel表打開日志的txt文件。
a)新建并打開Excel文件。
b)用Excel文件打開.log的日志文件,打開時,又下角選擇“全部文件(*.*)”,不然是看不到.log文件的。
c)打開后,選擇“分隔符號”,然后下一步。
d)選擇分隔符號為“空格”。然后下一步。
e)格式按需選擇,一般默認也可以。
f)最后簡單將上述標簽單元格換個“背景色”,將標簽單元格“自動換行”外加“篩選”,就可以做數(shù)據(jù)的簡單統(tǒng)計了,或者插入數(shù)據(jù)透視表。是不是比單純的txt文檔看起來舒服多啦。
14、日志分析軟件
如果上述日志分析方法不能滿足您的日常需求,那么專業(yè)的日志分析軟件就是您最后的選擇啦。關注本站,后期會推薦幾款日志分析軟件。
本文章轉(zhuǎn)自小小課堂SEO自學網(wǎng)https://www.xxkt.org/2639/