您現在的位置: 网站首頁 / seo優化 / 正文

利用百度蜘蛛referer找到報錯頁面入口

作者: admin 发布: 2015-7-22 23:1:45 分类: seo優化 閱讀: 次 查看評論

  大家應該都知道百度已經全站https並取消referer關鍵詞顯示了,那麽“百度蜘蛛referer”又是什麽?有什麽妙用嗎?藝龍SEO負責人劉明發現通過百度蜘蛛referer可以快速定位部分站內url的報錯(4xx或者5xx)原因。隨後社區版主飛鷹正義也對文章做了補充修正,現推薦給各位同學們。

  什麽是百度蜘蛛的referer

  百度蜘蛛的referer,是指当百度蜘蛛抓取某一个URL的时候,在HTTP头中带的Referer字段。请注意,这个定义和百度最近声明去除Referer中关键词数据没有任何关系。这次讲的是spider发起的HTTP请求,百度而去除的是用户发起的。如果百度蜘蛛抓取百度首頁的logo,会发起这样的请求:

  

  上面Referer字段很明確的表示了他是從www.baidu.com這個頁面上發現並抓取了www.baidu.com/img/bd_logo1.png。而大家在服務器訪問日志中也應該能看到相應的記錄。目前發現只有當百度抓取一個網頁的同時,又抓取了網頁中的:img、js和css才會帶上referer字段。這部分額外的抓取量,應該不會占用百度分配的抓取配額,屬于“買1送1”。

  對于站長的意義

  如果你發現有一批URL(僅限于img,js,css)報錯(4xx或者5xx),但是一直找不到入口在哪,也就是說你不明白百度蜘蛛是從哪裏發現這些錯誤URL的。這個字段可以幫助你迅速定位。

  舉個例子

  比如我们的SEO日志分析系统中可以看到,符合下面这种URL Pattern的路径每天有6万到10万的抓取而且全部报404。

  

  

  從發現問題至今過了1個月,查遍整個網站我也沒找到入口。今天偶然仔細查了一下日志,想起了百度蜘蛛的referer,馬上就能定位問題了。這些404的URL來自于一套沒人維護也沒人關注的頁面(往往是這樣)。收錄流量都不錯。由于最近公司圖片系統更新,圖片的URL全部更改了,但這套頁面並沒有跟著更新。

  如果站點沒有記錄referer怎麽辦

  iis請在這裏勾選“cs(Referer)”:

  

  

  apache請參考:

  apache log配置“Combined Log Format”章节

  apache log配置的官方链接

  

  Nginx請參考:

  nginx log配置

  nginx log配置的官方链接

  

  結束語

  · 很多SEO问题并不是立即致命的,所以没有及时解决。流量就像蚂蚁啃大象一样一点一点啃掉了。

  · 系统性的知识积累还是会在关键时刻发挥作用的。

  · 感谢飞鹰对本文的修正。

  來源:SEO搜尋引擎優化 - SEO自學網 轉載注明出處!

? 上一篇下一篇 ?   本文關鍵詞: seo  百度蜘蛛referer  

評論列表:

站長SEO學院
第一節:百度搜索引擎工作原理
第二節:建設對搜索引擎友好的站點
第三節:如何進行網站內容建設
第四節:整體優化、結構優化、網頁優化
第五節:移動搜索-明確移動搜索優化標准
百度SEO資料文檔
百度搜索引擎優化指南2.0
百度移動搜索優化指南2.0
網站分析白皮書(站長版)
移動站點該如何優化
建設對百度友好的站點
百度搜索引擎網頁質量白皮書
石榴算法-綠蘿算法-冰桶算法
新搜索時代下的優化策略
更多百度SEO資料文檔
站長推薦
DIV+CSS布局實例教程-Web標准
网站SEO優化常见问题汇总
SEO優化推广方案该如何写
SEO優化方案步骤
影響網站關鍵詞排名因素總結
影響谷歌搜索引擎排名的因素調查
手機移動端站點適配優化
最近發表