您現在的位置: 网站首頁 / 問答中心 / 正文

Baiduspider抓取建庫篇——VIP大講堂(上海站)QA集錦

作者: admin 发布: 2014-12-5 16:8:35 分类: 問答中心 閱讀: 次 查看評論

  首先,小編要對各位站長朋友說聲抱歉,VIP大講堂上海站已經過去N久,QA內容今天才發布出來。各位站長參加VIP大講堂,除了聆聽官方聲音外,更重要的是可以與百度專家進行面對面的溝通。VIP大講堂上海站請出了百度spider專家孫權,這是他第一次走出來與站長進行培訓交流,課程中抖出幹貨無數,各位無法參與現場培訓的站長除了申請觀看培訓現場視頻外,還可以通過QA記錄看看自己心中的疑問是否已被解答。

  由于現場QA環節火爆熱烈內容超多,故本次僅放出spider抓取建庫部分,其它內容請靜待下期。

  問:爲什麽收錄量像坐過山車一樣的,還有爲什麽有些網頁今天在明天就沒了?

  答:百度會周期建庫,且每個庫的收錄量是恒定的,你老是有新增,肯定會再從庫裏淘汰一些,反正總是保持那個庫是滿的。在建庫的過程中,你會感覺有波動。具體的怎麽篩,哪個頁面會留下哪個頁面會淘汰,這個策略是有很多的,他隨著時間的變化,收錄的標准策略也是在發生微調。

  問:我們站點使用CDN加速會不會比較容易造成蜘蛛無法抓取?因爲有時候修改掉他綁定的什麽東西。

  答:如果要修改掉一定要通知到上一級,現在不存在這個問題,現在你如果修改掉也可以解析掉,之前可能會存在這個問題。

  問:你們百度自己也有一個CDN加速,對抓錄排名有沒有影響?

  答:在使用CDN加速這個問題上,我們對所有站點一視同仁。但我建議你使用技術能力強的CDN服務商,保證站點的穩定和速度,百度會更喜歡。

  問:剛才您說IP上的站點數不能太多,那CDN這種情況怎麽辦?

  答:CDN的情況另說,如果我們識別出來是CDN的話不會受站點數量的影響,如果你是提供獨立IP的話會有這樣一些問題。

  問:還是IP上站點數量的問題,如果是主域跟二級域名呢?也受數量限制?

  答:我說的是獨立域名。當然質量比較好的二級域名也可以認爲是獨立域名

  問:多個域名,他有相同的一些內容,怎麽建庫?

  答:如果是多域名在同一個主域下面有相同內容的話,不可能所有都建庫,而且被建庫的那個可能不是你希望的那個,所以盡量不要有相同的內容。

  問:剛才講的IP如果是多域名的話,好幾百個IP域名,現在我們也用了CDN,按照剛才的說法,單個IP最多抓多少?1000萬是說對站點還是對IP?

  答:對IP,但1000萬是我舉例,不是實際的數據,這個數據不會分享出來的

  問:現在我的網站被很多蜘蛛爬,我想只讓百度蜘蛛爬,百度蜘蛛IP多少?能設白名單麽?

  答:百度蜘蛛IP是不斷變的,現在網上的確有一些白名單的說法,暫時是有效的,但不保證今後不會變,所以建議站點還是通過ua進行判斷,我們百度站長平台上有相關的文章,你可以找一下。

  問:如果我寫robots只想禁掉動態鏈接的話,會不會影響動態參數前面正常鏈接的抓取?

  答:不會的,你原來的頁面還在,肯定會抓。

  问:比如我们一个域名www.abcde.com,我们想把带?号的url全部禁掉,首頁我们不要禁掉,怎么弄?

  答:?前面有個*,後面再有個*就可以了。

  問:我想了解,如果我現在收錄有5萬,大概多長時間才能把我原來收錄5萬重新抓取一遍?

  答:不同站點不好說,一個是你站點做的很好,知名度很響更新很快質量很好就會快;如果你的站點默默無聞,貢獻很少,可能就會很慢。

  (接上個問題)

  問:就是差不多的情況,大概。

  答:這個沒有人能估出來。

  問:百度站長平台上有數據提交的工具,我們實時提交,你們也會實時抓取嗎?

  答:不會,他會有一層判斷。現在只是通知你提交成功,後面什麽時候抓,什麽時候建庫沒有,我們正在研究要不要把這個分享出來。

  問:我網站有一些列表頁,都沒有鏈接,擔心百度抓不到

  答:現在百度站長平台的站內搜索工具有一個綠色收錄通道,在那裏提交種子頁,我們就知道的。

  (接上個問題)

  問:提交種子頁面必須要用站搜?

  答:是的。

  問:如果說頁面裏url特別多的話,蜘蛛會不會有選擇性的進行抓取?

  答:不會,他都會一個不漏給你提出來,但會把JS、CSS這樣的鏈接給過濾掉。但請注意,全部抓取過來之後會進行篩選,並不是所有都會建庫。

  問:現在很多網站都有自己的站內搜索,都會産生站內搜索結果頁,百度不喜歡搜索結果頁的話,我們用這個會不會對我們有影響?只是不喜歡還是對我們網站會有懲罰

  答:蜘蛛會去抓,抓完之後重要是提取裏面的鏈接。如果只有一兩條這樣的頁面質量不好問題不大,如果整體質量較差,有可能受到懲罰。

  問:新出的時效性文章當時沒有被收錄,後期是否還會被收錄?

  答:會

  問:站點每天最高爬蟲多少次?

  答:這個其實說不好,有的站點我們一天會抓一兩千萬,有的站點只抓幾個、幾十個,看你的規模和質量,而且這個抓取量也是會根據網站的情況進行調整的。

  作者:百度站長平台

  來源:SEO搜尋引擎優化 - SEO自學網 轉載注明出處!

? 上一篇下一篇 ?   本文關鍵詞: 百度VIP大講堂  百度官方資料  Baiduspider  

評論列表:

站長SEO學院
第一節:百度搜索引擎工作原理
第二節:建設對搜索引擎友好的站點
第三節:如何進行網站內容建設
第四節:整體優化、結構優化、網頁優化
第五節:移動搜索-明確移動搜索優化標准
百度SEO資料文檔
百度搜索引擎優化指南2.0
百度移動搜索優化指南2.0
網站分析白皮書(站長版)
移動站點該如何優化
建設對百度友好的站點
百度搜索引擎網頁質量白皮書
石榴算法-綠蘿算法-冰桶算法
新搜索時代下的優化策略
更多百度SEO資料文檔
站長推薦
DIV+CSS布局實例教程-Web標准
网站SEO優化常见问题汇总
SEO優化推广方案该如何写
SEO優化方案步骤
影響網站關鍵詞排名因素總結
影響谷歌搜索引擎排名的因素調查
手機移動端站點適配優化
最近發表