您現在的位置: 网站首頁 / seo優化 / 正文

如何避免大量重複URL被百度收錄

作者: admin 发布: 2015-7-1 22:36:6 分类: seo優化 閱讀: 次 查看評論

  很多同學會有這樣的疑惑,索引量工具顯示索引量數值很高但流量總也上不去,也沒有發現我們站內有低質內容,百度這是要鬧哪樣?6月中旬,藝龍SEO負責人劉明給我推薦了他寫的文章《如何避免大量URL重複收錄》,找到了索引量高流量低的一個原因並給出的解決方案。另外,如果各位同學還有工作經驗等內容想分享、或者對已有內容持相反意見者,歡迎給站長學院投稿。

  首先聲明,我們只談論有檢索意義的URL,也就是用戶會從搜索引擎查找的頁面。其他頁面按照常用的方法做屏蔽就好了。鑒于很多站長都愛討論整體的收錄量,我必須潑一下冷水,也許你的有效收錄是1/10。

  URL參數

  也叫URL query,是一个最复杂,最容易被忽视,最容易被妥协的问题。他是网站运营中必不可少的元素,如果简单的去除,其他部门就无法工作了。 静态化是的话题,URL參數经常被用于以下几方面:

  同一個實體的不同狀態展示,比如同一個酒店,在不同時間點會有不同的房間庫存:http://www.travel.com/hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10

  爲了統計不同渠道的流量:http://www.a.com/?tracking=website_a

  爲了統計不同渠道,具體模塊的點擊量:http://www.a.com/?tracking=website_a&click_spot=zone_abc

  調試:http://www.a.com/product/item123/?debug=true

  全世界最奇葩的是亞馬遜,居然把統計參數放到了路徑中http://www.amazon.cn/abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1

  出現這種問題的壞處有幾點:

  1. 浪费搜索引擎对你网站的各项配额,从而影响其他正常的页面。

  2. 丢失很多本应拿到的链接加分,站外渠道的链接往往是最优质的。同一个URL的分值可能分散成几十份。

  3. SEO的流量被统计到别的渠道(因为tracking字段写的是别的渠道,而且被收录被点击)

  4. 往往形成一种局面,产品用一套URL,SEO用另一套URL, 甚至不同渠道用不同的URL,后期开发和维护的成本极高。

  为了解决这个问题,首先要弄清URL的定义。以我的理解,每一个URL是一个静态的、独立不重复的、有意义的实体,一般也有检索意义(就是有人会搜)。比如一个人、一辆车、一条道路、一个零件。而不能混入各种"状态",比如这个人生病的时候,难道就不是他自己了么? 一件商品在促销的状态难道是另一件商品了么?

  理论上canonical标签就可以解决这个问题了, 但是从实际测试结果看,百度对这个标签的支持优先级非常低, 几乎可以忽略不计。那么我的解决方案是这样的:

  1. 建立好网站的思维导图和元信息。 (可参考:SEO健康度 )

  2. 所有和SEO元信息相关的参数都放到路径中去

  3. 所有和SEO元信息不相干的参数都放到#后边,因为#后边不影响web服务器返回的内容。简单的说就是用"#"替代"?"。

  4. 每个页面中都利用js获取#后边的参数对,通过二次请求发回给统计服务器

  5. 如果#后边的参数影响页面内容,比如酒店的入住日期。那么这部分内容用ajax加载就行,他是不稳定的,不属于页面内容的一部分。(当然还有变通的办法,暂不赘述。)

  6. 原始的#锚点定义肯定会冲突,定义一个#后边的变量,并用js控制屏幕滚动,来保证原始锚点的作用。

  有人可能会想到,根据ua判断,如果是搜索引擎爬虫,就用跳转的方式去掉URL參數。但效率最高的方法必然是从一开始就不展示错误URL。那么前面的例子优化后就变成了:

  http://www.travel.com/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10

  http://www.a.com/#tracking=website_a

  http://www.a.com/#tracking=website_a&click_spot=zone_abc

  http://www.a.com/product/item123/#debug=true

  其實很多網站早就使用這種方式了,但是還有很多網站由于開發效率無法及時實現。所以對于一般的小網站,一定要考慮開發成本,不要輕易冒進。只要能避免問題的發生,變通的方法是很多的。

  路徑中使用非必要元素

  很多網站仿照亞馬遜的做法,把商品名體現在URL中,然後再通過id來決定頁面展示的內容:http://www.amazon.cn/博集典藏館043?基督山伯爵-亞曆山大?仲馬/dp/B005TZHJEQ/

  這樣雖然可以提高一些相關性,但是很危險。在長期甚至短期的時間內,大量商品的名稱是非常可能有變化的,那麽URL也就跟著變化。成本也是非常高的,因爲加大了技術實現難度,不管從站內還是站外,每次增加鏈接都是一個很麻煩的事情。

  在我接手藝龍SEO之前,URL被全部改成了這樣,對我早期的工作造成了非常巨大的負擔:http://www.a.com/Shangrila_International_Hotel-12345678-hotel/

  通過日志分析發現基本所有的百度蜘蛛發起的請求都被301跳轉了一次(日志分析方法可參考SEO健康度 )。細致調查後發現,從SEO拼接規則到後台的漢字和翻譯數據被一直修改。也就是說,這個URL相關的元素有:

  1. 中文 (非必要元素)

  2. 由中文翻译的英文 (非必要元素)

  3. id (必要元素)

  而當時負責SEO的同事把英文和id拼接在了URL中,那麽這樣一個URL先後變成過:

  http://www.a.com/Shangrila_International_Hotel-12345678-hotel/

  http://www.a.com/Xianggelila_International_Hotel-12345678-hotel/

  http://www.a.com/XiangGeLiLa_International_Hotel-12345678-hotel/

  http://www.a.com/Shangrila_guoji_Hotel-12345678-hotel/

  跟"相關性"比,URL的唯一性和穩定性更重要。所以針對這個問題,URL的最佳策略應該是:http://www.a.com/hotel/12345678/

  如果這個id是隸屬于一個分類下的,比如城市,那麽就可以是:http://www.a.com/hotel/beijing/123/

  从技术角度说, id一般是数据库的primary key,可以是数字也可以是字符串,那么这个时候URL是一维的; id也可以是联合的唯一索引,那么URL就是二维的,就像上面的(bejing,123)缺一不可。电商类网站列表页经常用到三维以上。

  大小寫

  如果網站的技術架構用的是開源系統,一般是不會有這個問題的。如果使用了微軟的技術架構,這個問題非常常見:

  http://www.a.com/newyork/

  http://www.a.com/Newyork/

  http://www.a.com/NewYork/

  我的建議是統一使用小寫,大寫自動跳轉爲小寫(小心301死循環!)。

  目錄的規範

  很多網站同時存在這樣的URL,無形中把收錄量擴大了一倍:

  http://www.a.com/product/123

  http://www.a.com/product/123/

  上邊第一個路徑的意思是在product目錄下有一個123文件。第二個路徑的意思是在product目錄下有一個123目錄,這個目錄下可能有很多文件,但是他代表衆多文件中的index.html或index.php或default.aspx等優先級最高的那個文件。爲了避免歧義,我定義文件都是用".html"結尾的。

  爲了減少重複收錄,那麽按我的習慣是:

  http://www.a.com/product/123 => http://www.a.com/product/123/

  http://www.a.com/product/123 => http://www.a.com/product/123.html

  總結

  1. 所有部门统一使用SEO定义的URL,屏蔽非SEO URL的入口。

  2. 用"#"替代"?"

  3. 统一使用小写

  4. 保证目錄的規範

  5. 把不规范的URL跳转到规范的URL

  來源:SEO搜尋引擎優化 - SEO自學網 轉載注明出處!

? 上一篇下一篇 ?   本文關鍵詞: seo  

評論列表:

站長SEO學院
第一節:百度搜索引擎工作原理
第二節:建設對搜索引擎友好的站點
第三節:如何進行網站內容建設
第四節:整體優化、結構優化、網頁優化
第五節:移動搜索-明確移動搜索優化標准
百度SEO資料文檔
百度搜索引擎優化指南2.0
百度移動搜索優化指南2.0
網站分析白皮書(站長版)
移動站點該如何優化
建設對百度友好的站點
百度搜索引擎網頁質量白皮書
石榴算法-綠蘿算法-冰桶算法
新搜索時代下的優化策略
更多百度SEO資料文檔
站長推薦
DIV+CSS布局實例教程-Web標准
网站SEO優化常见问题汇总
SEO優化推广方案该如何写
SEO優化方案步骤
影响网站关键词排名因素總結
影響谷歌搜索引擎排名的因素調查
手機移動端站點適配優化
最近發表