大家都知道所謂的網(wǎng)站日志,就是網(wǎng)站所在服務(wù)器接受用戶的各種請(qǐng)求的時(shí)候進(jìn)行的處理狀況的記錄,無(wú)論是正常處理或者是出了各種錯(cuò)誤,都會(huì)在網(wǎng)站日志中記錄下來(lái),其文件結(jié)尾以.log為擴(kuò)展名。通過(guò)對(duì)網(wǎng)站日志的分析,我們可以很好的判斷我們的網(wǎng)站的健康程度,并且還可以看到蜘蛛抓取的記錄以及用戶的一些行為記錄,這樣數(shù)據(jù)對(duì)于我們來(lái)講無(wú)疑是提升網(wǎng)站的一個(gè)關(guān)鍵,可以時(shí)刻的讓我們看到網(wǎng)站的不足之處,從而進(jìn)行改正。
(一)查看蜘蛛訪問(wèn)的次數(shù)、停留時(shí)間以及抓取的數(shù)量。
從小標(biāo)題中的三個(gè)小編提到的數(shù)據(jù)我們可以了解到下面幾點(diǎn)信息:
1、平均每次抓取頁(yè)面數(shù)=總抓取量/訪問(wèn)次數(shù)
2、單頁(yè)抓取停留=每次停留/每次抓取
3、平均每次停留時(shí)間=總停留時(shí)間/訪問(wèn)次數(shù)
以上三點(diǎn)載自百度百科。
從這些數(shù)據(jù)中我們可以很好的看出百度蜘蛛在我們網(wǎng)站上的活躍度、是否親和,以及我們網(wǎng)站內(nèi)容抓取的深度等等有效的數(shù)據(jù)。當(dāng)我們網(wǎng)站中總的訪問(wèn)頻次、蜘蛛停留的時(shí)間,以及網(wǎng)站抓取程度的是否高,從這些都是可以看出我們網(wǎng)站是否受到蜘蛛的喜愛(ài)。并且在我們單頁(yè)面的蜘蛛停留時(shí)間的長(zhǎng)短也可以看出我們的文章頁(yè)面是否受蜘蛛的喜愛(ài)。
(二)了解蜘蛛是否訪問(wèn)我們的頁(yè)面以及訪問(wèn)頁(yè)面的狀態(tài)代碼。
很多朋友的網(wǎng)站主頁(yè)快照經(jīng)常不正常,網(wǎng)站發(fā)布的文章也經(jīng)常不收錄,面對(duì)這樣的情況我們都會(huì)想蜘蛛有沒(méi)有到我們的網(wǎng)站抓取。這時(shí)候我們也可以通過(guò)網(wǎng)站日志來(lái)看是否有蜘蛛IP的記錄就可以了解蜘蛛是否來(lái)爬行我們的網(wǎng)站,從而判斷是否是我們網(wǎng)站質(zhì)量的原因?qū)е虏皇珍洝2⑶乙部梢钥闯鲋┲朐L問(wèn)我們網(wǎng)站頁(yè)面的狀態(tài)代碼,例如說(shuō)301、503、403等,當(dāng)出現(xiàn)這樣情況的時(shí)候,我們盡早做處理,以免成為網(wǎng)站降權(quán)的隱患。長(zhǎng)沙做網(wǎng)站
(三)網(wǎng)站日志文件應(yīng)該按訪問(wèn)量多少,來(lái)確定是否需要按小時(shí)生成。
我的一個(gè)站長(zhǎng)朋友,網(wǎng)站是每天生成一個(gè)日志文件,前段時(shí)間他參加了電商圈比賽,網(wǎng)站排名保持在首頁(yè),每天的流量有上千IP,每天的網(wǎng)站日志文件大小大約50M左右,有點(diǎn)杯具的是他的電腦舊了點(diǎn),一打開(kāi)網(wǎng)站日志文件不是沒(méi)反應(yīng)就是死機(jī)。他只好通過(guò)網(wǎng)絡(luò)把日志傳給我,讓我?guī)椭治鲆幌拢?0M的文件雖然不大,問(wèn)題是他用電信網(wǎng)絡(luò),我用網(wǎng)通網(wǎng)絡(luò),在傳日志的時(shí)候經(jīng)常杯具。50M的日志文件,我用的日志分析程序也經(jīng)常數(shù)據(jù)溢出、崩潰,無(wú)奈只好用文本編輯打開(kāi)查看,面對(duì)密密麻麻的日志文本,統(tǒng)計(jì)分析這些數(shù)據(jù)實(shí)在非常非常困難。所以,建議網(wǎng)站訪問(wèn)量比較大的站長(zhǎng)朋友,最好按小時(shí)生成網(wǎng)站日志,雖然生成文件多了點(diǎn),但更有利于網(wǎng)站日志的分析。
(四)了解蜘蛛抓取的時(shí)間段。
通過(guò)日常日志分析總結(jié)中,你會(huì)很奇妙的發(fā)現(xiàn)一件事,那就是蜘蛛會(huì)在每天的一個(gè)特定時(shí)間內(nèi)在網(wǎng)站爬行抓取的很活躍,當(dāng)我們了解到這樣的情況,我們就可以再特定的時(shí)間去更新網(wǎng)站內(nèi)容,這個(gè)可以更加有效的讓蜘蛛抓取我們網(wǎng)站內(nèi)容,從而達(dá)到一個(gè)秒收的效果。
(五)我們應(yīng)該知道網(wǎng)站日志記錄的信息實(shí)際并不完整。
不知道各位站長(zhǎng)朋友,有沒(méi)有注意到,網(wǎng)站日志里很少出5xx的返回代碼。例如,500返回代碼表示服務(wù)器內(nèi)部錯(cuò)誤,503返回代碼表示服務(wù)不可用。各位站長(zhǎng)朋友都知道,5xx返回代碼一般意味著網(wǎng)站服務(wù)器出了故障,一般情況下,服務(wù)器出了故障是無(wú)法生成網(wǎng)站日志的。換個(gè)說(shuō)法,當(dāng)網(wǎng)站服務(wù)器宕機(jī)了,或者dns解析不了,所有人都無(wú)法訪問(wèn),蜘蛛也無(wú)法訪問(wèn),在這段時(shí)間里,網(wǎng)站日志肯定是無(wú)法記錄任何信息的。為了更好的監(jiān)控網(wǎng)站情況,我個(gè)人建議大家去注冊(cè)并使用谷歌站長(zhǎng)管理工具,可以有效的記錄服務(wù)器訪問(wèn)錯(cuò)誤信息。長(zhǎng)沙做網(wǎng)站