您現在的位置: 网站首頁 / seo優化 / 正文

使用Robots.txt引導百度爬蟲合理分配抓取資源

作者: admin 发布: 2013-8-31 10:37:28 分类: seo優化 閱讀: 次 查看評論

我所在的网站算是一个大型网站,百度收录3000万,每天百度爬虫抓取总次数在500w次左右,单页的百度收录率 80%,看起来已经是一个相当不错的数据,但分析一下详细的日志文件,还是可以发现一些问题,

  1.大型网站的列表页为了方便用户查找所需信息,通常会设置多重的筛选条件(Facet Navigation),但爬虫并没有智能到可以自主判断哪些条件可以组合,哪些条件组合起来没有意义,只要在代码里面有链接就会去抓取,导致百度爬虫耗费了大量资源在列表筛选页上。分析了一个月的数据,发现百度的抓取量有30%消耗在列表页,但是列表页带来的百度自然流量仅占所有百度自然流量的2%,所以对网站的列表页来说,爬虫的投入产出非常低。

  2.重复抓取现象严重。 我个人觉得,对网站来说,只被爬虫抓取过1次的页面(Distinct Crawl)最有价值,因为对一张本身内容质量还可以的页面来说,只要被抓取过一次,收录的几率就超过80%。如果页面本身质量不行,即使被抓取过几十次,也依然不会被收录。 继续分析我们网站的数据,发现在百度爬虫一天500w的抓取中,有超过一半的抓取是对相同页面的多次抓取,如果能把这些重复的抓取转移到那些一次都没被抓过的页面上,对网站的价值无疑更大。

  如何解決這兩個問題?

  先說第一個,針對篩選頁消耗爬蟲資源問題,很多人都建議使用nofollow標簽告訴爬蟲,不要繼續給這些頁面分配權重,我們也這麽做過。但事實證明百度爬蟲對nofollow並不敏感,使用之後爬蟲依舊瘋狂抓取,同時也沒有把權重從篩選頁面上轉移到規範頁面上。

  無奈之下,我們只好考慮起用SEO的大殺器:Robots文件,把所有的篩選頁面全部disallow掉,之前沒有使用robots禁止抓取的原因是擔心萬一爬蟲被禁止抓取列表後,會不會其他的頁面也不抓了?畢竟列表篩選頁還是會給單頁貢獻大量入口,但基于我們網站單頁收錄還不錯的現狀,還是決定嘗試一下。

  事實證明,效果非常明顯,新版的robots上線三天後,列表頁的爬蟲抓取量下降到15%;同時之前擔心的問題也沒有發生,爬蟲的抓取總量不但沒有下降,反而增長了10%左右,單頁的抓取量也上升了20%,可以算是達到了我們的預期目標:把列表頁浪費的爬蟲資源轉移到其他需要被抓取的頁面上。

  但是如何证明抓取资源是被转移到需要被抓取的页面上呢,这正好也是之前提到的第二个问题,我们看了唯一抓取率( 只抓一次的页面数/总抓取数)的变化,从50%增长到74%,可以说明爬虫在阅读robots文件后,对爬虫资源做了更合理的分配,更多的单页被抓取。

  总结:Robots文件相比其他手段,可以在较短时间内优化百度爬虫的抓取资源分配,但这得建立在网站本身结构良好,内容过关的基础之上,同时最重要的还是得反复测试,通过日志分析实际情况来调整以取得最佳效果 转自百度站长社区

  來源:SEO搜尋引擎優化 - SEO自學網 轉載注明出處!

? 上一篇下一篇 ?   本文關鍵詞: robots  

評論列表:

站長SEO學院
第一節:百度搜索引擎工作原理
第二節:建設對搜索引擎友好的站點
第三節:如何進行網站內容建設
第四節:整體優化、結構優化、網頁優化
第五節:移動搜索-明確移動搜索優化標准
百度SEO資料文檔
百度搜索引擎優化指南2.0
百度移動搜索優化指南2.0
網站分析白皮書(站長版)
移動站點該如何優化
建設對百度友好的站點
百度搜索引擎網頁質量白皮書
石榴算法-綠蘿算法-冰桶算法
新搜索時代下的優化策略
更多百度SEO資料文檔
站長推薦
DIV+CSS布局實例教程-Web標准
网站SEO優化常见问题汇总
SEO優化推广方案该如何写
SEO優化方案步骤
影響網站關鍵詞排名因素總結
影響谷歌搜索引擎排名的因素調查
手機移動端站點適配優化
最近發表