您現在的位置: 网站首頁 / seo優化 / 正文

網站建設-怎样建設對搜索引擎友好的站點

作者: admin 发布: 2014-12-18 17:42:1 分类: seo優化 閱讀: 次 查看評論

  我們可以借用郭小四的名言來形容現今的搜索引擎時代——這是一個最好的時代,也是最壞的時代。搜索引擎技術飛速發展,對網站的解析越來越充分,而各家網站也面臨著強勁的對手競品,如何讓自己的網站對搜索引擎對百度更加友好,是站長要充分考慮的問題。

  本篇的主旨就告訴站長:怎樣建設對搜索引擎友好的站點。

目前分爲五個章節:友好抓取鏈接建設網站安全網站變更其他

  第一節-友好抓取

  如何正確識別Baiduspider移動ua

  新版移動ua:

  Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  PC ua:

  Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  之前通過“+http://www.baidu.com/search/spider.html”進行識別的網站請注意!您需要修改識別方式,新的正確的識別Baiduspider移動ua的方法如下:

  1. 通过关键词“Android”或者“Mobile”来进行识别,判断为移动访问或者抓取。

  2. 通过关键词“Baiduspider/2.0”,判断为百度爬虫。

  另外需要强调的是,对于robots封禁,如果封禁的agent是Baiduspider,会对PC和移动同时生效。即,无论是PC还是移动Baiduspider,都不会对封禁对象进行抓取。之所以要强调这一点,是发现有些代码适配站点(同一个url,PC ua打开的时候是PC页,移动ua打开的时候是移动页),想通过设置robots的agent封禁达到只让移动Baiduspider抓取的目的,但由于PC和移动Baiduspider的agent都是Baiduspider,这种方法是非常不可取的。

  如何識別百度蜘蛛

  百度蜘蛛對于站長來說可謂上賓,可是我們曾經遇到站長這樣提問:我們如何判斷瘋狂抓我們網站內容的蜘蛛是不是百度的?其實站長可以通過DNS反查IP的方式判斷某只spider是否來自百度搜索引擎。根據平台不同驗證方法不同,如linux/windows/os三種平台下的驗證方法分別如下:

  1、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

  

  2、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

  3、 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

  Baiduspider IP是多少

  即便很多站長知道了如何判斷百度蜘蛛,仍然會不斷地問“百度蜘蛛IP是多少”。我們理解站長的意思,是想將百度蜘蛛所在IP加入白名單,只准白名單下IP對網站進行抓取,避免被采集等行爲。

  但我們不建議站長這樣做。雖然百度蜘蛛的確有一個IP池,真實IP在這個IP池內切換,但是我們無法保證這個IP池整體不會發生變化。所以,我們建議站長勤看日志,發現惡意蜘蛛後放入黑名單,以保證百度的正常抓取。

  同時,我們再次強調,通過IP來分辨百度蜘蛛的屬性是非常可笑的事情,所謂的“沙盒蜘蛛”“降權蜘蛛”等等是從來都不存在的。

  robots寫法

  robots是站點與spider溝通的重要渠道,站點通過robots文件聲明該網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。

  robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

  "<field>:<optional space><value><optionalspace>"

  在該文件中可以使用#進行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,後面加上若幹Disallow和Allow行,詳細情況如下:

  User-agent:该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

  Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

  Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

  使用"*"and"$":Baiduspider支持使用通配符"*"和"$"來模糊匹配url。

  "*" 匹配0或多个任意字符

  "$" 匹配行结束符。

  最後需要說明的是:百度會嚴格遵守robots的相關協議,請注意區分您不想被抓取或收錄的目錄的大小寫,百度會對robots中所寫的文件和您不想被抓取和收錄的目錄做精確匹配,否則robots協議無法生效。

  robots需求用法對應表

  上面說了那麽多理論,有沒有簡單對照表格告訴我,怎樣的需求場景下應該怎樣撰寫robots文件?有的:

  

  除robots外其它禁止百度收錄的方法
  Meta robots标签是页面head部分标签的一种,也是一种用于禁止搜索引擎索引页面内容的指令。目前百度仅支持nofollow和noarchive

  nofollow:禁止搜索引擎跟蹤本頁面上的鏈接

  如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的<HEAD> 部分:<meta name="robots" content="nofollow">

  如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:<a href="signin.php" rel="nofollow">signin</a>

  要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的<HEAD> 部分:<meta name="Baiduspider" content="nofollow">

  noarchive:禁止搜索引擎在搜索結果中顯示網頁快照

  要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的<HEAD>部分:<meta name="robots" content="noarchive">

  要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:<meta name="Baiduspider" content="noarchive">

  注:此標記只是禁止百度顯示該網頁的快照,百度會繼續爲網頁建索引,並在搜索結果中顯示網頁摘要。

  使用robots巧妙避免蜘蛛黑洞

  对于百度搜索引擎来说,蜘蛛黑洞特指网站通过极低的成本制造出大量参数过多、内容类同但url不同的动态URL ,就像一个无限循环的“黑洞“,将spider困住。spider浪费了大量资源抓取的却是无效网页。

  如很多網站都有篩選功能,通過篩選功能産生的網頁經常會被搜索引擎大量抓取,而這其中很大一部分是檢索價值低質的頁面。如“500-1000之間價格的租房”,首先網站(包括現實中)上基本沒有相關資源,其次站內用戶和搜索引擎用戶都沒有這種檢索習慣。這種網頁被搜索引擎大量抓取,只能是占用網站寶貴的抓取配額,那麽該如何避免這種情況呢?

  1. 我们以北京美团网为例,看看美团网是如何利用robots巧妙避免这种蜘蛛黑洞的:

  2. 对于普通的筛选结果页,使用了静态链接,如:

  3. http://bj.meituan.com/category/zizhucan/weigongcun

  4. 同样是条件筛选结果页,当用户选择不同排序条件后,会生成带有不同参数的动态链接,而且即使是同一种排序条件(如:都是按销量降序排列),生成的参数也都是不同的。如:http://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhekhttp://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

  对于美团网来说,只让搜索引擎抓取筛选结果页就可以了,而各种带参数的结果排序页面则通过robots规则拒绝提供给搜索引擎。在robots.txt的文件用法中有这样一条规则:Disallow: /*?* ,即禁止搜索引擎访问网站中所有的动态页面。美团网恰是通过这种方式,对spider优先展示高质量页面、屏蔽了低质量页面,为spider提供了更友好的网站结构,避免了黑洞的形成。

  禁止百度圖片搜索收錄某些圖片的方法
  
目前百度圖片搜索也使用了與百度網頁搜索相同的spider,如果想禁止Baiduspider抓取網站上所有圖片、禁止或允許Baiduspider抓取網站上的某種特定格式的圖片文件可以通過設置robots實現:

  

  503狀態碼的使用場景及與404的區別

  Html狀態碼也是網站與spider進行交流的渠道之一,會告訴spider網頁目前的狀態,spider再來決定下一步該怎麽做——抓or不抓or下次再來看看。對于200狀態碼大家已經很熟了,那麽我們來介紹幾種常見的失效網頁使用的狀態碼:

  【404】404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取。

  【503】503返回码的含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度spider不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。

  【301】301返回码的含义是“Moved Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但我们还是推荐大家这么做。

  一些網站把未建好的頁面放到線上,並且這些頁面在被百度抓取的時候返回碼是404,于是頁面被百度抓取後會被當成死鏈直接刪除。但是這個頁面在第二天或者過幾天就會建好,並上線到網站內展現出來,但是由于之前已經被百度當做死鏈刪除,所以要再次等這些鏈接被發現,然後抓取才能展現,這樣的操作最終會導致一些頁面在一段時間內不會在百度出現。比如某個大型門戶網站爆出大量新聞時效性很強的專題未被百度及時收錄的問題,經檢查驗證後發現就是因爲頁面未建成就放置在線上,並返回404狀態碼,被百度當成死鏈刪除,造成收錄和流量損失。

  對于這樣的問題,建議網站使用503返回碼,這樣百度的抓取器接到503返回碼後,會在隔一段時間再去訪問這個地址,在您的頁面建好上線後,就又能被重新抓取,保證頁面及時被抓取和索引,避免未建好的內容設爲404後帶來不必要的收錄和流量損失。

  其它建議和總結:

  1、如果百度spider對您的站點抓取壓力過大,請盡量不要使用404,同樣建議返回503。這樣百度spider會過段時間再來嘗試抓取這個鏈接,如果那個時間站點空閑,那它就會被成功抓取了

  2、如果站點臨時關閉或者頁面暫未建好上線,當網頁不能打開時以及沒有建好時,不要立即返回404,建議使用503狀態。503可以告知百度spider該頁面臨時不可訪問,請過段時間再重試。

  連通率爲0的前因後果及預防補救措施

  https站點如何做才能對百度友好

  2015年5月25日,百度站長平台發布公告,宣布全面放開對https站點的收錄,https站點不再需要做任何額外工作即可被百度抓收。采用了本文之前建議的https站點可以關閉http版,或者將http頁面跳轉到對應的https頁面。  ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

  百度搜索引擎目前不主動抓取https網頁,導致大部分https網頁無法收錄。但是如果網站一定要使用https加密協議的話該如何做到對百度搜索引擎友好呢。其實很簡單:

  1,爲需要被百度搜索引擎收錄的https頁面制作http可訪問版。

  2,通過user-agent判斷來訪者,將Baiduspider定向到http頁面,普通用戶通過百度搜索引擎訪問該頁面時,通過301重定向至相應的https頁面。如圖所示,上圖爲百度收錄的http版本,下圖爲用戶點擊後會自動跳入https版本。

  

  

  3,http版本不是只为首頁制作,其它重要页面也需要制作http版本,且互相链接,切不要出现这种情况:首頁http页面上的链接依然链向https页面,导致Baiduspider无法继续抓取——我们曾经遇到这种情况,导致整个网点我们只能收录一个首頁。如下面这个做法就是错误的:http://www.abc.com/ 链向https://www.adc.com/bbs/

  4,可以將部分不需要加密的內容,如資訊等使用二級域名承載。比如支付寶站點,核心加密內容放在https上,可以讓Baiduspider直接抓取的內容都放置在二級域名上。

  

  第二節:鏈接建設

  買賣鏈接對站點的危害

  衆所周知,搜索引擎會對站點獲得鏈接的數量和質量進行分析,從而做出對網站的評價,最終影響站點在搜索結果中的表現。在搜索引擎看來,站點的鏈接質量比數量更爲重要,然而愈演愈烈的鏈接買賣風潮,已經開始威脅到搜索引擎的公正性。爲此百度質量團隊推出了綠蘿算法對買賣鏈接行爲進行打擊。

  搜索引擎認爲站點每發出一個鏈接指向另一個站點,都是一次投票行爲,請您珍惜每一次投票的權力,而不是將這個權力出售,更不應該打包賣給鏈接中介公司。如果搜索引索發現站點有出售鏈接的行爲,則會影響到站點在搜索引擎系統中的整體表現。對于廣告類的鏈接,請您使用nofollow屬性進行設置。除不出售鏈接外,您還應該關注建站程序的安全更新,及時安裝補丁程序;經常對網站發出的鏈接進行檢查,看是否有多余的、非主觀意願存在的鏈接,以免站點在不知情的情況下被黑帽SEO添加鏈接。

  建議您不要企圖求助于黑帽SEO和鏈接中介公司,他們很有可能使用極不正當的手段令站點在短時間內獲得一定效果,但是搜索引擎有專門的程序去識別各種手段和行爲,一旦被發現,站點會無法得到預期的效果,甚至被搜索引擎懲罰處理。最後,希望各位站長放眼于長遠的未來,不要爲眼前的蠅頭小利所迷惑。將精力放在在自身內容和品牌建設上,拓展更多良性發展的盈利模式。

  內鏈建設的大忌

  在《百度搜索引擎工作原理》課程中我們提到過,Baiduspider需要知道站點裏哪個頁面更重要,其中一個渠道就是內鏈。那麽內鏈建設有哪些大忌呢:

  死循環鏈接:死循環鏈接是搜索引擎蜘蛛最郁悶的事情了,往往會把搜索引擎蜘蛛卡在一個角落中,無限的循環而走不出來,不僅白白浪費蜘蛛體力,也會占用網站大量爬取頻率,造成有價值的網頁抓取不全。比如萬年曆等非常實用的工具網站,很多時候這些工具你都可以無限的點擊,每次點擊都産生一個新的url,如果你沒有屏蔽蜘蛛爬取這些內容,那麽蜘蛛有可能會被帶入到一個無限循環的境地,這樣的做法對任何一個搜索引擎都是不友好的。

  還有一種就是動態、帶“?”號的url。這是由于動態網站的一個動態文件(如.php)可以産生上萬個或者無數個鏈接,如果部分php文件內部又再次鏈向自己。蜘蛛進去就很難再爬出來。

  鏈接404後不消除內鏈入口:頁面404後,除了需要向百度站長平台提交外,應該盡量關閉其在網站內部的入口,一來死鏈對用戶的傷害是極大的,二來避免令蜘蛛産生錯覺,認爲你網站死鏈嚴重。

  只有入鏈沒有出鏈:有些人認爲網頁上的出鏈太多會分散頁面本身的得分,所以在重要頁面上不設計出鏈,實際這與百度的認知是相悖的,百度認爲一個優質的網站結構應該像一張網,所有頁面都會與其他頁面産生鏈接,蜘蛛會順著一個頁面遍曆所以頁面。只有入鏈而沒有出鏈的結構對蜘蛛來說是不友好的。當然,整個網站僅一兩個網頁只有入鏈沒有出鏈是無所謂的,但數量千萬不要多。

  无返回上级目录的链接:我们提倡尽量在每个页面上使用面包屑导航,以告诉搜索引擎页面内容与首頁的关系及距离;同时对于用户来说,面包屑导航也是延长用户平均访问时长的重要工具。只有内容而没有返回上级目录的页面就像一本永远无法访问目录的书,听起来是不是怪怪的?

  錯誤的錨文本:內鏈的作用並不僅僅是頁面權值傳遞和內部投票,百度還會通過錨文本輔助判斷網頁的內容,錯誤的錨文本很可能會誤導百度對于相關性的計算,對搜索排序産生負面影響。同時對于只能通過錨文本來判斷是否要點擊打開新網頁的用戶來說,無疑也是一種傷害。

  網站應該拒絕哪些外鏈

  百度搜索引擎雖然降低了對超鏈的依賴,但依然沒有放棄對不同質量鏈接的識別,制定了一套針對優質外鏈、普通外鏈、垃圾外鏈、作弊外鏈的識別原則和方法。在繼續信任優質外鏈的同時,加大對作弊外鏈的打擊,同時對部分作弊外鏈的受益站點進行打擊。爲了避免被百度搜索引擎懷疑爲超鏈作弊,建議站長定期檢查站點的外鏈情況,發現異常及時通過百度站長平台的拒絕外鏈工具進行自我保護。同時如果你之前有過購買鏈接、群發外鏈的行爲,可以通過拒絕外鏈工具進行修正。

  那麽除了要拒絕被黑網頁發出的鏈接、買來的鏈接外,還有哪些鏈接應該被拒絕呢。

  1, 来自垃圾站群的链接:有些黑帽会通过非法手段在你的站点产生大量页面,再组织站群发送外链至这批页面上。这样的链接必须及时处理。

  2, 来自不相关低质站点群的链接:百度认为相同主题网站之间的链接更友好,所以,如果你的网站被一批其它主题网站链接了,一定要及时查看这批网站的质量,如果质量不高,尽量拒绝。

  使用拒絕外鏈工具還有一些注意事項:

  1,您通過工具拒絕外鏈的需求將無法撤銷或刪除,所以需要謹慎使用

  2,我們不能保證短時間內就能去掉垃圾作弊外鏈對網站的負面影響,清理過程可能長達數周,請站長耐心等待

  第三節:網站安全

  UGC站點如何進行防護工作

  由于大多數UGC建站系統存在漏洞,攻克技術成本較低,且群發軟件價格低廉,容易被作弊者利用,近期我們發現大量UGC站點被群發的垃圾信息困擾。這些垃圾群發內容無孔不入,除論壇、博客等傳統的UGC站點受到困擾外,現已蔓延到微博、SNS、B2B商情頁、公司黃頁、分類信息、視頻站、網盤等更多領域內,甚至連新興的分享社區也受到了影響。從以前的論壇帖子、博客日志,擴展到供求信息頁、視頻頁、用戶資料頁,這些任何由用戶填寫和生成內容的地方,都會被作弊者發掘利用,形成大量的UGC性質的垃圾頁面。

  搜索引擎在發現UGC性質的垃圾頁面後必將做出相應應對,但對真正操作群發的作弊者很難有效的打擊,所以作弊者容易利用UGC站點極低成本且自身安全這些特點,做出更多危害網站、危害用戶、危害搜索引擎的行爲。若網站自身管理不嚴控制不力,很容易成爲垃圾內容的溫床;有些網站爲了短期流量而對垃圾內容置之不理,這無異于飲鸩止渴。網站不應僅僅是平台的提供者,更應該是內容的管理者,積極維護網站自身質量非常重要。若網站任由垃圾內容滋長,不僅會影響網站的用戶體驗,同時也會破壞網站口碑和自身品牌建設,造成正常用戶流失,嚴重時,還會使搜索引擎降低對網站的評價。

  對于作弊者來說,在UGC站點上發布垃圾內容的目的就是被搜索引擎收錄,如果不能讓垃圾頁面在網站和搜索引擎上消失,他們依然會持續不斷地産生更多垃圾內容。百度站長平台希望和站長一起打擊垃圾頁面,幫助網站良性發展,共同維護互聯網生態環境。

  一,UGC垃圾典型case

  1、與網站或論壇版塊主題不符的內容

  2、欺騙搜索引擎用戶的內容

  1)使用誇大誘人的標題,或在內容中穿插堆積熱門關鍵詞

  2)有些文章看標題以爲在說A事,而主要內容卻在講B,且與A毫無關系

  3)視頻或音頻文件標題所述不符

  4)欺騙網站詐取分帳式廣告收益的內容

  5)專門利用UGC網站爲自己做推廣、謀福利

  6)詐騙中獎、虛假聯系電話、不良信息

  二,UGC管理員該怎麽做

  1,刪除垃圾內容,並將這些頁面設置爲404頁面後,及時通過百度站長平台的死鏈工具提交死鏈列表

  2,提高注冊用戶門檻,限制機器注冊

  ? 群发软件通常使用自动的程序探测论坛默认的注册文件名、发帖文件名。管理员可以不定期的修改注册用户文件名、发帖文件名;注册、发帖按钮使用图片;与程序默认的不同,可以防止被自动程序搜索到。

  ? 发帖机通常是机器注册,行为模式单一。管理员可添加一些需要人工操作的步骤,有助于限制机器注册。如使用验证码;限制同一邮箱注册ID的数量,同时启用邮箱验证;使用更为复杂的验证机制;经常更换注册问答。

  ? 除了在注册处设置门槛外,还可以控制新用户权限。如要求完成上传头像、完善用户信息等人工操作步骤后才开放发帖功能;在一定时间内限制新用户发帖;限制新用户发布带链接的帖子,待达到一定级别后再放开。

  3,嚴控機器發帖行爲,如使用驗證碼、限制短時間內連續發帖等

  4,建立黑名單機制,將群發常用詞、廣告電話和網址等加入黑名單,對含有黑名單內容的帖子進行限制或清除。黑名單應該不斷維護

  5,對站內異常內容進行監控,發現爆增數據後及時查找原因

  6,對站點內用戶的行爲進行監控

  ? 部分异常用户的ID结构有别于普通用户,如使用无意义的字母数字、或几个单个汉字的无序组合

  如:gtu4gn6dy1、蝶淑琴;使用商業詞作爲ID,如:軸承天地7、hangkongfuwu123

  ? 发布内容间隔过短

  ? 发布的内容绝大部分非常类似

  ? 发布的大部分内容里含有类似的特征,如某个网址、电话、QQ号码等联系方式

  7,不允許發布帶有可執行代碼的內容,避免彈窗、跳轉等嚴重影響用戶體驗的情況發生。

  8,對部分UGC位置提及的鏈接,使用“nofollow”進行標記,如:bbs簽名內的鏈接、BLOG回複ID自置的鏈接

  9,論壇中的廣告、灌水版塊,建議加上權限限制,或者禁止搜索引擎收錄。

  10,關注建站程序的安全更新,及時安裝補丁程序。保障用戶賬號安全,避免發生盜用正常用戶賬號或曆史沈寂用戶賬號發布垃圾內容的情況發生。

  網站安全之防止被黑

  這裏所說的被黑,指黑客通過網站漏洞篡改網頁內容、爲網站惡意添加許多垃圾頁面,內容往往與博彩、遊戲等熱門關鍵詞有關,然後利于網站在搜索引擎中的天然優勢騙取更多流量。互聯網上所有網站其實都存在被黑的可能,尤其是已在搜索引擎中獲得較好表現的站點更要注意,千萬不要讓被黑令自己的心血付之東流。

  一,如何判斷網站被黑

  先通過外界對網站進行觀察,如果有如下現象,那您的網站可能被黑了

  1、通過百度站長平台的索引量工具,發現站點收錄量大增;再通過搜索關鍵詞工具發現,站點獲得流量的關鍵詞中有很多與本站點無關。

  2、通過Site語法查詢站點,顯示搜索引擎收錄了大量非本站應有的頁面。

  注:site查询结合一些常见的色情、游戏、境外博彩类关键字,可帮助站长更快的找到异常页面,例如“site:www.abcxyz.com 博彩”

  3、從百度搜索結果中點擊站點頁面,跳轉到了其他站點。

  4、站點內容在搜索結果中被提示存在風險。

  5、從搜索引擎帶來的流量短時間內異常暴增。

  二,進一步難證網站是否被黑

  通過上述方法站長懷疑自己的網站被黑了,那麽該如何對黑出來的內容進行排查呢?

  1、分析系統和服務器日志,檢查自己站點的頁面數量、用戶訪問流量等是否有異常波動,是否存在異常訪問或操作日志;

  2、检查网站文件是否有不正常的修改,尤其是首頁等重点页面;

  3、網站頁面是否引用了未知站點的資源(圖片、JS等),是否被放置了異常鏈接;

  4、檢查網站是否有不正常增加的文件或目錄;

  5、檢查網站目錄中是否有非管理員打包的網站源碼、未知txt文件等;

  6、使用百度站長平台抓取診斷工具,診斷網頁是否被加了黒鏈、隱藏文本

  *每個站點每月可使用300次,抓取結果只展現百度蜘蛛可見的前200KB內容

  【重要提示】若直接訪問網站時一切正常,但在百度的搜索結果展現了異常的快照內容,這可能是黑客做了特殊處理,只讓百度蜘蛛抓取到異常的頁面,以此來增加隱蔽性,讓站長難以發現;同理,若直接訪問網站正常,但從百度搜索結果頁進行訪問時,出現了異常頁面,這是黑客針對百度來源(refer)做了特殊處理

  三,網站被黑怎麽辦

  1、立即停止網站服務,避免用戶繼續受影響,防止繼續影響其他站點(建議使用503返回碼)。

  2、如果同一主機提供商同期內有多個站點被黑,您可以聯系主機提供商,敦促對方做出應對。

  3、清理已發現的異常,排查出可能的被黑時間,和服務器上的文件修改時間相比對,處理掉黑客上傳、修改過的文件;檢查服務器中的用戶管理設置,確認是否存在異常的變化;更改服務器的用戶訪問密碼。

  注:可以從訪問日志中,確定可能的被黑時間。不過黑客可能也修改服務器的訪問日志。

  4、做好安全工作,排查網站存在的漏洞,防止再次被黑。

  網站安全之域名被劫持

  2014年5月14日,前瞻網官方微博發布公告,宣布域名被盜損失過億。在黑客遍行的今天,域名被盜被劫持幾乎每天都在發生。百度搜索引擎希望站長在關注收錄、流量、變現的同時,多多關注域名安全,畢竟域名安全是生存之本。在之前與站長接觸中,發現站長都有如下心理:域名控制權完全在服務商,我們處于被動的一方。那麽站長就真的什麽都不用做、什麽都無法做了麽?

  一,域名被劫持的嚴重後果

  1,域名被解析到其它地址,用戶無法正常訪問,網站流量受損

  2,通過泛解析生成大量子域名,共同指向其它地址(往往是惡意垃圾網站)

  3,域名被解析到惡意釣魚網站,導致用戶財産損失

  4,當域名被劫持後的內容幹擾搜索結果時,爲保障用戶的使用體驗和安全,百度搜索引擎會暫時關閉對域名的收錄和展示,待嚴格審核確認後才會再度放開

  二,如何降低域名被劫持風險,減少損失

  1, 为域名注册商和注册用邮箱设置复杂密码,且经常更换。使用单独的DNS服务,也需要对密码进行上述设置。同时注意不要在多个重要注册地使用相同的用户名和密码。

  2, 将域名更新设置为锁定状态,不允许通过DNS服务商网站修改记录

  *使用此方法後,需要做域名解析都要通過服務商來完成,時效性較差

  3, 定期检查域名帐户信息、域名whois信息,每天site网站检查是否有预期外网页,或使用百度云观测进行监控——当域名被解析到恶意站点时可以第一时间收到报警(百度云观测关于域名安全的介绍)

  4, 网站运营和优化人员经常详细检查网站索引和外链信息,有异常一定要检查清楚

  三,域名被劫持後該怎麽做

  1,立即修改域名服務商和郵箱密碼,使用複雜度高的密碼且經常更換

  2,刪除不屬于你的DNS解析,恢複DNS設置

  3,如果使用的是第三方DNS服務,應立即修改第三方DNS服務端帳戶密碼,鎖定帳戶信息,開啓帳戶短信郵箱類提醒

  4, 收集全部被非法添加的页面并设置404,使用百度站长平台工具提交死链

  5,如果該服務商下域名經常出現被劫持事件,可考慮更換更安全穩定的服務商。有能力的網站可自建DNS服務,自主運維自負風險

  第四節:網站變更

  網站改版該如何通知百度

  爲了改變站點運營效果,部分站長會選擇對網站進行改版。百度站長平台站在搜索引擎的角度給站長朋友一些建議:首先站長們應該明確,網站只要發生大大的變化(如換域名、子目錄改版爲二級域名等),流量就會受到損失;其次,百度站長平台會幫助站長盡量將損失降到最低。請站長依次走完以下步驟以減少損失。

  第一步:設置301跳轉

  使用301跳轉進行重定向,跳轉最好有規律可循,百度搜索引擎會自動進行處理

  提醒:301跳轉要保持一段時間,直至新網頁的抓取、收錄、排序達到預期。

  第二步:使用改版工具

  使用百度站長平台工具,可加速百度搜索引擎對301跳轉的處理,盡快完成新舊內容的銜接。目前改版工具除了支持換域名外,還可以支持站點級改版和目錄級改版,都是通過工具的“目錄改版”功能實現的。

  工具地址:http://zhanzhang.baidu.com/rewrite/index

  1,当站点级改版时,需要在“目录改版 改版范围”处提交站点级首頁URL

  如www.example.com/,百度將會對該站點下的所有頁面進行改版處理。

  2,当站点要进行目录级改版时,依然在“目录改版 改版范围”处进行提交,但提交的应该是需要改版的目录,而非站点级首頁URL。

  如提交“www.example.com/a/”,百度會對www.example.com/a/,包括www.example.com/a/b/進行改版處理。

  具體使用方法可參考百度站長平台已有的文章《網站改版工具幫助》

  網站換域名該如何通知百度

  部分站長會選擇通過換域名來提高站點運營效果,但站長們應該明確一點:網站只要發生大大的變化(如換域名、子目錄改版爲二級域名等),流量就會受到損失;其次,百度站長平台會幫助站長盡量將損失降到最低。請站長依次走完以下步驟以減少損失。

  第一步:通過301完成新舊內容跳轉

  使用301跳转对页面进行重定向,不仅首頁需要设置,旧域名所有页面都应该301指向新域名的相应页面。百度搜索引擎会自动进行处理

  提醒:原網頁301跳轉要保持一段時間,直至新網頁的抓取、收錄、排序達到預期。

  第二步:使用改版工具

  使用改版工具,可加速百度搜索引擎對301跳轉的處理,盡快完成新舊內容的銜接。

  工具地址:http://zhanzhang.baidu.com/rewrite/index

  要求站長在百度站長平台驗證舊網站和新網站,驗證生效後在改版工具中選擇“域名改版”,填入舊網站域名後進行確認提交。

  *改版工具還提供站點級改版、目錄級改版。具體使用方法可參考百度站長平台已有的文章《網站改版工具幫助》

  第三步:使用抓取異常工具

  已在改版工具中提交改版規則後,隨時關注新內容的抓取情況。如果不符合預期,可使用抓取異常工具查找部分原因,排除由服務器、運營商、DNS、IP、UA等導致的抓取不及時。

  工具地址: http://zhanzhang.baidu.com/crawl/index

  具體可參考百度站長平台已有文章《抓取異常工具幫助》,裏面對每項因素都有詳細說明和解決辦法。

  第四步:使用抓取頻次工具

  抓取頻次工具提供站點在百度近一個月的天級抓取量曲線圖,如果新內容抓取量不符合預期可在工具中進行反饋,spider會根據站長的申請和實際情況對抓取頻次進行調整。

  工具地址:http://zhanzhang.baidu.com/pressure/index

  具體使用方法可參考百度站長平台已有文章《抓取頻次工具幫助》

  第五步:使用百度索引量工具

  一個站點的被抓取量多與少並不是重點,重點是索引量,只有被建爲索引的頁面才有可能展現在用戶面前。站長可以通過百度索引量工具來對比新舊內容被建索引的數量,來確認改版後站點在百度搜索引擎的收錄是否已恢複正常。

  工具地址:http://zhanzhang.baidu.com/indexs/index

  該工具使用起來非常簡單,可參考百度站長平台之前的文章《百度索引量工具幫助》

  網站換空間(IP)該如何通知百度
  在與站長朋友私下交流中,站長表示:最怕改版,最怕換空間換IP,每次都是萬不得已身不由己。改版還好些,有改版工具可以使用。換了空間和IP都不知道怎麽通知百度。其實,登錄百度站長平台,使用抓取診斷工具,換空間和IP真的不是愁事。

  抓取診斷工具會檢查站點與百度的連接是否暢通,若站長發現IP信息還是老舊的,可以通過“報錯”通知百度搜索引擎更新IP,如下圖所示:

  

  重要提示:由于spider精力有限,如遇報錯後網站IP依舊沒有變化,站長可進行多次嘗試,直至達到預期。

  第五節:其他

  关于網站建設,其实还有很多零碎的问题要注意,所以在这里单启一篇,日后再根据反馈不断补充完善。

  二級域名和子目錄,哪個更有利于SEO

  一,二級域名的特點

  搜索引擎往往將二級域名當作一個獨立的網站看待,同時會視情況將主域名的評價傳遞一部分給二級域名。使用二級域名會使同domain下站點變多,但是每個站點的體量變小。二級域名的SEO特點是:

  1, 二级域名对用户来说也是一个完整的域名,显得更有权威性

  2, 二级域名网页之间相关性更强,对于搜索引擎来说主题更集中

  3,相較子目錄更易形成品牌

  二,子目錄的特點

  將不同內容通過子目錄的情況放在同一個網站下,會使網站體量變得越來越大,可以使網站積累更多的投票:

  1, 相较二级域名,可以更好地继承主域名的评价数据

  2, 与站点关系更密切,同时不失灵活,搜索引擎对站点内容的识别早以细化到目录级别

  三,二級域名與子目錄的選擇

  選擇使用二級域名還是子目錄來分配網站內容,對網站在搜索引擎中的表現會有較大的影響,爲此百度站長平台建議:

  1, 在某个频道的内容没有丰富到可以当作一个独立站点存在之前,使用目录形式;等频道下积累了足够的内容,再通过改版成二级域名的形式。

  一個網頁能否排到搜索引擎結果的前面,“出身”很重要,如果出自一個站點評價較高的網站,那排到前面的可能性就較大,反之則越小。通常情況下,二級域名會從主站點繼承一部分權重,繼承多少視二級域名質量而定。

  在內容沒有豐富到可以作爲一個獨立站點之前,使用子目錄更能在搜索引擎中獲得較好表現。

  2, 内容差异较大、关联度不高的内容,建立使用二级域名的形式。

  搜索引擎會識別網站的主題,如果網站中各子目錄的內容關聯度不高,可能導致搜索引擎錯誤地判斷網站的主題。所以,關聯度不高的內容放在不同的二級域名中,可以幫助搜索引擎更好的理解網站的主題。

  3, 二级域名间的服务器权限应该严格控制,a.domain.com下的内容,最好不能域名替换通过b.domain.com访问。如:a.domain.com/abc.html 不应该通过b.domain.com/abc.html访问到。

  二級域名的內容能夠互相訪問,可能會被搜索引擎當作重複內容進行去重處理,保留的URL不一定能符合站長預期。

  4, 不要滥用二级域名

  沒有豐富的內容就大量啓用二級域名,極容易被搜索引擎當作作弊行爲懲罰。

  多域名同內容的常見問題

  網站在生存發展中會遇到很多問題,會因爲各種原因産生不同的域名,而這些域名的內容卻都是相同的。百度一直在說拒絕重複內容,那麽,多域名同內容是否會對SEO産生負影響呢?我們收集了衆多站長對多域名同內容的問題後,請百度spider專家做了統一解答,現公布出來供各站長參考。

  問:多個域名指向同一個域名算是作弊麽?

  答:如果某公司從品牌保護或長遠發展角度出發,注冊了多個域名,且多域名301重定向指向一個常用域名,那此行爲本身不屬于作弊。但是如果進行301重定向的多域名本身有作弊行爲,那麽被指向的域名有可能受到牽連。

  問:多個域名同內容是否有利于提高排名?

  答:此舉非常不利于提高排名,因爲多個域名會分散原本應該屬于單獨域名的外鏈進而影響權重,不利于單獨域名獲得更好的排名。

  問:我們先推個測試域名,走上正軌後再啓用正式域名,會有什麽影響嗎?

  答:如果兩個域名的內容完全一樣,對正式域名的收錄可能會有影響。搜索引擎會認爲這兩個網站重複,在已經收錄了前者的前提下,會對後者限制收錄。的確曾經有某理財網站先搞一個臨時域名在搜索引擎試水,結果等正牌域名上線後卻遲遲得不到收錄的事情發生。

  問:如果公司已經有多個域名是相同內容該怎麽處理?

  答:先確認一個好記易懂的域名作爲“唯一域名”,進行重點宣傳推介,其余的域名也千萬不能放任自流,尤其是當測試域名已經有了較好的收錄和排位時,可以設置301重定向,指向唯一域名。同時登錄百度站長平台對新舊網站進行驗證,然後在網站改版工具中進行相應的操作,可以讓“唯一域名”繼承原域名已獲得的權重。

  網站改版工具地址&幫助說明

  來源:SEO搜尋引擎優化 - SEO自學網 轉載注明出處!

? 上一篇下一篇 ?   本文關鍵詞: 網站建設  百度官方資料  

評論列表:

站長SEO學院
第一節:百度搜索引擎工作原理
第二節:建設對搜索引擎友好的站點
第三節:如何進行網站內容建設
第四節:整體優化、結構優化、網頁優化
第五節:移動搜索-明確移動搜索優化標准
百度SEO資料文檔
百度搜索引擎優化指南2.0
百度移動搜索優化指南2.0
網站分析白皮書(站長版)
移動站點該如何優化
建設對百度友好的站點
百度搜索引擎網頁質量白皮書
石榴算法-綠蘿算法-冰桶算法
新搜索時代下的優化策略
更多百度SEO資料文檔
站長推薦
DIV+CSS布局實例教程-Web標准
网站SEO優化常见问题汇总
SEO優化推广方案该如何写
SEO優化方案步骤
影響網站關鍵詞排名因素總結
影響谷歌搜索引擎排名的因素調查
手機移動端站點適配優化
最近發表