網站的排名、收錄都要經常關注搜索引擎,大家經常會談到蜘蛛抓取,那么怎么確定蜘蛛有沒有來過你的網站呢?
通常網站的日志會告訴我們這些信息,這里以王大君網絡營銷博客為例。筆者使用的是虛擬空間,在筆者網站根目錄下的log文件夾里面有一些ex日 期.log文本文件。在這里王大君提醒大家,如果在你的log文件夾里沒有文件,可能需要你到虛擬空間后臺先下載日志文件到FTP空間,也就是下載到你的 網站根目錄的log文件夾時里。我們選擇ex101116.log下載到本地,這個文件就是王大君網絡營銷博客網站2010年11月16日的日志,用記事 本打開,在日志文件中搜索“spider”這個詞,也就是蜘蛛的意思。有可能會發現以下的代碼:
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
soso蜘蛛:sosospider
msn蜘蛛:msnbot
有道蜘蛛:YodaoBot和OutfoxBot
搜狗蜘蛛:sougouspider
當然,前提是這些蜘蛛來過你的網站,否則是沒有這些代碼的。
我們選擇一條百度蜘蛛代碼“baiduspider”的記錄,看下里面的代碼:
2010-11-15 18:18:10 174.192.105.6 GET /post/5.html - 80 - 220.181.108.166 Baiduspider+ (+http://www.baidu.com/search/spider.htm) - 200 ....
下面我來解釋下這段代碼:
1、2010-11-15 18:18:10 是百度蜘蛛來的日期和時間。
2、 GET /post/5.html是百度蜘蛛訪問的頁面 get表示獲取的意思。
3、80是端口
4、220.181.108.166是百度蜘蛛的ip地址
5、Baiduspider+(+http://www.baidu.com/search/spider.htm)就是指百度蜘蛛了
6、200表示抓取成功,這是百度蜘蛛爬行后返回的代碼。
另外還有一些其他的代碼:
2xx 成功
200 正常;請求已完成。
201 正常;緊接 POST 命令。
202 正常;已接受用于處理,但處理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;無響應 — 已接收請求,但不存在要回送的信息。
3xx 重定向
301 已移動 — 請求的數據具有新的位置且更改是永久的。
302 已找到 — 請求的數據臨時具有不同 URI。
303 請參閱其它 — 可在另一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。
304 未修改 — 未按預期修改文檔。
305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。
306 未使用 — 不再使用;保留此代碼以便將來使用。
4xx 客戶機中出現的錯誤
400 錯誤請求 — 請求中有語法問題,或不能滿足請求。
401 未授權 — 未授權客戶機訪問數據。
402 需要付款 — 表示計費系統已有效。
403 禁止 — 即使有授權也不需要訪問。
404 找不到 — 服務器找不到給定的資源;文檔不存在。
407 代理認證請求 — 客戶機首先必須使用代理認證自身。
410 請求的網頁不存在(永久);
415 介質類型不受支持 — 服務器拒絕服務請求,因為不支持請求實體的格式。
5xx 服務器中出現的錯誤
500 內部錯誤 — 因為意外情況,服務器不能完成請求。
501 未執行 — 服務器不支持請求的工具。
502 錯誤網關 — 服務器接收到來自上游服務器的無效響應。
503 無法獲得服務 — 由于臨時過載或維護,服務器無法處理請求。
關于日志的分析今天我們就說到這里,如果大家有其他的見解,歡迎交流討論。