您現在的位置: 网站首頁 / seo優化 / 正文

百度站長平台-抓取診斷工具常見錯誤類型解析

作者: admin 发布: 2015-7-2 18:3:4 分类: seo優化 閱讀: 次 查看評論

  什麽是抓取診斷

  抓取診斷工具,可以讓站長從百度蜘蛛的視角查看抓取內容,自助診斷百度蜘蛛看到的內容,和預期是否一致。每個站點每周可使用70次,抓取結果只展現百度蜘蛛可見的前200KB內容。

  抓取診斷工具能做什麽

  目前抓取診斷工具有如下作用:

  1、診斷抓取內容是否符合預期,譬如很多商品詳情頁面,價格信息是通過JavaScript輸出的,對百度蜘蛛不友好,價格信息較難在搜索中應用。問題修正後,可用診斷工具再次抓取檢驗。

  

  2、診斷網頁是否被加了黒鏈、隱藏文本。網站如果被黑,可能被加上隱藏的鏈接,這些鏈可能只在百度抓取時才出現,需要用此抓取工具診斷。

  3、檢查網站與百度的連接是否暢通,若是IP信息不一致,可以報錯通知百度更新IP。

  

  抓取診斷工具常見錯誤類型解析

  【url規範】

  百度支持抓取的url長度不超過1024,如果您的鏈接長度過長,請在保證正常訪問的情況下,適當精簡,保證鏈接能被百度正常抓取和收錄。

  【重定向錯誤】

  重定向是指百度spider訪問鏈接時發生了跳轉,如果跳轉後的鏈接超長或者連續跳轉的次數超過5次,就會發生重定向錯誤而導致抓取失敗。

  【服務器連接錯誤】

  這種情況是指,由于服務器響應過慢或您的網站屏蔽了百度spider,而導致百度無法訪問您的網站。從而會導致百度無法正常收錄或者更新您網站的內容。您可能看到以下具體錯誤:連接超時、連接失敗、連接被拒、無響應、響應遭到截斷、連接重置、標頭遭到截斷、超時。

  *如何處理服務器連接錯誤?

  減少動態網頁請求的過多網頁加載。如果網站爲多個網址提供相同內容,則會被視爲動態提供內容(例如,www.example.com/shoes.php?color=red&size=7與www.example.com/shoes.php?size=7&color=red提供的內容相同)。動態網頁的響應時間可能會很長,並會因此導致超時問題。或者,服務器可能會返回超載狀態,要求百度spider放慢抓取該網站的速度。一般來說,建議您盡量使用簡短的參數並謹慎使用。

  確保您網站的托管服務器沒有停止運行、超載或配置不當。如果連接問題、超時問題或響應問題仍然存在,請與您的網站托管服務提供商聯系,並考慮增強您的網站處理流量的能力。

  檢查網站是否不小心屏蔽了百度spider的IP。您可能會由于系統級問題而阻止了百度訪問,例如DNS配置問題、配置不當的防火牆或DoS防護系統、內容管理系統配置問題。防禦系統是保證托管服務正常運行的關鍵因素之一,並且這些系統通常會配置爲自動阻止超量的服務器請求。由于百度spider發出的請求通常要比普通用戶多,因此可能會觸發這些防禦系統,導致它們阻止百度spider訪問並抓取您的網站。要解決此類問題,您需要確定網站基礎架構中的哪個部分在阻止百度spider,然後取消該阻止。如果您沒有控制防火牆的權限,就需要與您的托管服務提供商聯系解決此問題。

  【robots封禁問題】

  在抓取診斷工具中如果返回的抓取失敗結論是robots封禁,請確認您是否對該網址設置了robots,阻止百度spider抓取網站的某些內容,如果您未使用robots文件屏蔽百度,請點擊旁邊的報錯鏈接,百度會立即更新您站點的robots信息;如果是您的誤操作導致了封禁,請及時修改robots文件,避免造成您的網站在百度收錄量和流量的下降。

  【DNS問題】

  DNS錯誤是指由于服務器停止運行或DNS到您網域的路由存在問題,導致百度spider無法與DNS服務器通信。

  *如何處理DNS錯誤?

  确保百度能够抓取您的网站。对重要网页(例如您的首頁)采用抓取诊断工具,如果它能顺利返回您的首頁内容,那么您就可以认为百度能够正常访问您的网站。

  對于持續的或反複出現的DNS錯誤,請與您的DNS提供商聯系。通常情況下,您的DNS提供商即爲網站托管服務提供商。

  配置您的服務器,使其能夠以404或500等HTTP錯誤代碼對不存在的主機名作出響應。

  【404錯誤】

  一般情况下,当百度spider访问到不存在的网页(因为您删除或重命名了网页且没有将旧网址重定向到新网页,或者链接中存在拼写错误)时,就会出现“未找到”状态错误(通常是404 HTTP状态代码)。

  【訪問遭拒絕】

  一般情況下,百度會通過跟蹤網頁間的鏈接來查找內容。百度spider必須能夠訪問某個網頁才能抓取該網頁。如果您意外地看到了“訪問遭拒”錯誤,可能是由于以下幾種原因導致的:

  (1)百度spider無法訪問您網站上的網址,因爲您網站上的所有或部分內容要求用戶登錄後才能查看。

  (2)您的服務器要求用戶使用代理進行身份驗證,或者您的托管服務提供商阻止百度spider訪問您的網站。

  【參數錯誤】

  由于請求的語法格式有誤,不符合服務器對請求的某些限制,或者請求本身存在一定的錯誤,服務器無法理解此請求,導致抓取失敗。

  【socket讀寫錯誤】

  當百度spider訪問服務器,進行tcp通信的時候,socket讀寫發生異常,導致數據不能正常返回。請檢查服務器連接狀況和防火牆設置是否符合預期。

  【讀取http頭或者頁面內容時失敗】

  您的服務器收到了我們的完整請求,但是返回信息時不完整,http頭或者響應正文發生了截斷,導致網頁內容不能正常讀取。

  來源:SEO搜尋引擎優化 - SEO自學網 轉載注明出處!

? 上一篇下一篇 ?   本文關鍵詞: 百度  

評論列表:

站長SEO學院
第一節:百度搜索引擎工作原理
第二節:建設對搜索引擎友好的站點
第三節:如何進行網站內容建設
第四節:整體優化、結構優化、網頁優化
第五節:移動搜索-明確移動搜索優化標准
百度SEO資料文檔
百度搜索引擎優化指南2.0
百度移動搜索優化指南2.0
網站分析白皮書(站長版)
移動站點該如何優化
建設對百度友好的站點
百度搜索引擎網頁質量白皮書
石榴算法-綠蘿算法-冰桶算法
新搜索時代下的優化策略
更多百度SEO資料文檔
站長推薦
DIV+CSS布局實例教程-Web標准
网站SEO優化常见问题汇总
SEO優化推广方案该如何写
SEO優化方案步骤
影響網站關鍵詞排名因素總結
影響谷歌搜索引擎排名的因素調查
手機移動端站點適配優化
最近發表