主頁 > 知識庫 > 百度蜘蛛日志抓取解讀 提高百度收錄

百度蜘蛛日志抓取解讀 提高百度收錄

熱門標簽:地圖標注不在現(xiàn)場怎么上傳門頭標 辦理400電話軟件公司 ai電話機器人 收費 湖南語音外呼線路 鎮(zhèn)江人工外呼系統(tǒng) 遼寧房產智能外呼系統(tǒng)哪家好 美團洗浴中心地圖標注 尤溪縣地圖標注app 杭州外呼系統(tǒng)線路

很多網(wǎng)站目前使用的都是虛擬空間,都能夠提供日志。日志是指在網(wǎng)站根目錄下的logfiles文件夾里面日期.txt文本文件有很多介紹通過http查看返回命令的那種辦法來查看蜘蛛?,F(xiàn)在更多的網(wǎng)站是沒有提供可以通過軟件來查看的日志格式。
  更多的是類似下面的日志格式,如下:
  03:28:34 GET /goods.php 202.108.7.205 200 34696 390
  第一 03:28:34 訪問時間
  第二 GET /goods.php 訪問的頁面 get表示獲取
  第三 202.108.7.205 訪問網(wǎng)站的源IP
  第四 200 成功訪問
  第五 34696 390 表示記錄的內容大小
  接下來要介紹幾個HTTP狀態(tài)碼擴展基本知識:
  成功2×× 成功處理了請求的狀態(tài)碼。
  200 服務器已成功處理了請求并提供了請求的網(wǎng)頁。
  204 服務器成功處理了請求,但沒有返回任何內容。
  重定向3××每次請求中使用重定向不要超過 5 次。
  301 請求的網(wǎng)頁已永久移動到新位置。當URLs發(fā)生變化時,使用301代碼。搜索引擎索引中保存新的URL。
  302 請求的網(wǎng)頁臨時移動到新位置。搜索引擎索引中保存原來的URL。
  304 如果網(wǎng)頁自請求者上次請求后沒有更新,則用304代碼告訴搜索引擎機器人,可節(jié)省帶寬和開銷。
  客戶端錯誤4×× 表示請求可能出錯,妨礙了服務器的處理。
  400 服務器不理解請求的語法。
  403 服務器拒絕請求。
  404 服務器找不到請求的網(wǎng)頁。服務器上不存在的網(wǎng)頁經常會返回此代碼。
  服務器錯誤5××表示服務器在處理請求時發(fā)生內部錯誤。這些錯誤可能是服務器本身的錯誤,而不是請求出錯。
  500 服務器遇到錯誤,無法完成請求。
  503 服務器目前無法使用(由于超載或停機維護)。通常,這只是暫時狀態(tài)。
  以上日志提取于:http://www..027zhan.com 如果你不會提取日志的話
  查看服務器日志辦法:日志默認存放在System32\LogFiles目錄下,使用W3C擴展格式
  虛擬主機查看日志辦法:根目錄下logfiles文件(一般需虛擬主機面板中開啟日志記錄)
  2010-05-06 17:48:16 W3SVC945321 222.73.167.138 GET /FUKE/CARNATION.html - 80 - 123.125.66.42 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0 7341
  1、2010-05-06 17:48:16 蜘蛛光臨的時間
  2、W3SVC945321 日志文件名
  3、222.73.167.138 網(wǎng)站服務器IP地址
  4、GET 是從服務器上獲取數(shù)據(jù)
  5、/FUKE/CARNATION.html 抓取的文件
  6、- 80 - 80端口
  7、123.125.66.42 蜘蛛的來路地址
  8、Baiduspider+ 百度蜘蛛的名字
  9、+http://www.baidu.com/search/spider.htm 百度蜘蛛機器人的介紹
  10、200 0 0 7341 200服務器成功返回網(wǎng)頁

標簽:果洛 漯河 迪慶 臨滄 烏魯木齊 廈門 建造師培訓 南平

巨人網(wǎng)絡通訊聲明:本文標題《百度蜘蛛日志抓取解讀 提高百度收錄》,本文關鍵詞  百度,蜘蛛,日志,抓取,解讀,;如發(fā)現(xiàn)本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《百度蜘蛛日志抓取解讀 提高百度收錄》相關的同類信息!
  • 本頁收集關于百度蜘蛛日志抓取解讀 提高百度收錄的相關信息資訊供網(wǎng)民參考!
  • 推薦文章