您現在的位置: 网站首頁 / seo優化 / 正文

百度搜索引擎工作原理

作者: admin 发布: 2014-12-18 17:20:58 分类: seo優化 閱讀: 次 查看評論

  關于百度以及其它搜索引擎的工作原理,其實大家已經討論過很多,但隨著科技的進步、互聯網業的發展,各家搜索引擎都發生著巨大的變化,並且這些變化都是飛快的。我們設計這個章節的目的,除了從官方的角度發出一些聲音、糾正一些之前的誤讀外,還希望通過不斷更新內容,與百度搜索引擎發展保持同步,給各位站長帶來最新的、與百度高相關的信息。

  本章主要內容分爲四個章節,分別爲:抓取建庫檢索排序外部投票結果展現

  第一節-抓取建庫

  Spider抓取系統的基本框架

  互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。

  Spider抓取系统是搜索引擎数据来源的重要保证,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。

  下圖爲spider抓取系統的基本框架圖,其中包括鏈接存儲系統、鏈接選取系統、dns解析服務系統、抓取調度系統、網頁分析系統、鏈接提取系統、鏈接分析系統、網頁存儲系統。Baiduspider即是通過這種系統的通力合作完成對互聯網頁面的抓取工作。

  Baiduspider 主要抓取策略类型

  上圖看似簡單,但其實Baiduspider在抓取過程中面對的是一個超級複雜的網絡環境,爲了使系統可以抓取到盡可能多的有價值資源並保持系統及實際環境中頁面的一致性同時不給網站體驗造成壓力,會設計多種複雜的抓取策略。以下做簡單介紹:

  1、抓取友好性

  互聯網資源龐大的數量級,這就要求抓取系統盡可能的高效利用帶寬,在有限的硬件和帶寬資源下盡可能多的抓取到有價值資源。這就造成了另一個問題,耗費被抓網站的帶寬造成訪問壓力,如果程度過大將直接影響被抓網站的正常用戶訪問行爲。因此,在抓取過程中就要進行一定的抓取壓力控制,達到既不影響網站的正常用戶訪問又能盡量多的抓取到有價值資源的目的。

  通常情況下,最基本的是基于ip的壓力控制。這是因爲如果基于域名,可能存在一個域名對多個ip(很多大網站)或多個域名對應同一個ip(小網站共享ip)的問題。實際中,往往根據ip及域名的多種條件進行壓力調配控制。同時,站長平台也推出了壓力反饋工具,站長可以人工調配對自己網站的抓取壓力,這時百度spider將優先按照站長的要求進行抓取壓力控制。

  對同一個站點的抓取速度控制一般分爲兩類:其一,一段時間內的抓取頻率;其二,一段時間內的抓取流量。同一站點不同的時間抓取速度也會不同,例如夜深人靜月黑風高時候抓取的可能就會快一些,也視具體站點類型而定,主要思想是錯開正常用戶訪問高峰,不斷的調整。對于不同站點,也需要不同的抓取速度。

  2、常用抓取返回碼示意

  簡單介紹幾種百度支持的返回碼:

  1)最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;

  2)503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。

  3)403代表“Forbidden”,認爲網頁目前禁止訪問。如果是新url,spider暫時不抓取,短期內同樣會反複訪問幾次;如果是已收錄url,不會直接刪除,短期內同樣反複訪問幾次。如果網頁正常訪問,則正常抓取;如果仍然禁止訪問,那麽這條url也會被認爲是失效鏈接,從庫中刪除。

  4)301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

  3、多種url重定向的識別

  互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spider对url重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。

  4、抓取優先級調配

  由于互聯網資源規模的巨大以及迅速的變化,對于搜索引擎來說全部抓取到並合理的更新保持一致性幾乎是不可能的事情,因此這就要求抓取系統設計一套合理的抓取優先級調配策略。主要包括:深度優先遍曆策略、寬度優先遍曆策略、pr優先策略、反鏈策略、社會化分享指導策略等等。每個策略各有優劣,在實際情況中往往是多種策略結合使用以達到最優的抓取效果。

  5、重複url的過濾

  spider在抓取過程中需要判斷一個頁面是否已經抓取過了,如果還沒有抓取再進行抓取網頁的行爲並放在已抓取網址集合中。判斷是否已經抓取其中涉及到最核心的是快速查找並對比,同時涉及到url歸一化識別,例如一個url中包含大量無效參數而實際是同一個頁面,這將視爲同一個url來對待。

  6、暗網數據的獲取

  互聯網中存在著大量的搜索引擎暫時無法抓取到的數據,被稱爲暗網數據。一方面,很多網站的大量數據是存在于網絡數據庫中,spider難以采用抓取網頁的方式獲得完整內容;另一方面,由于網絡環境、網站本身不符合規範、孤島等等問題,也會造成搜索引擎無法抓取。目前來說,對于暗網數據的獲取主要思路仍然是通過開放平台采用數據提交的方式來解決,例如“百度站長平台”“百度開放平台”等等。

  7、抓取反作弊

  spider在抓取過程中往往會遇到所謂抓取黑洞或者面臨大量低質量頁面的困擾,這就要求抓取系統中同樣需要設計一套完善的抓取反作弊系統。例如分析url特征、分析頁面大小及內容、分析站點規模對應抓取規模等等。

  Baiduspider抓取過程中涉及的網絡協議

  刚才提到百度搜索引擎会设计复杂的抓取策略,其实搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。spider抓取系统直接涉及互联网资源提供者的利益,为了使搜素引擎与站长能够达到双赢,在抓取过程中双方必须遵守一定的 规范,以便于双方的数据处理及对接。这种过程中遵守的规范也就是日常中我们所说的一些网络协议。

  以下簡單列舉:

  http协议:超文本传输协议,是互联网上应用最为广泛的一种网络协议,客户端和服务器端请求和应答的标准。客户端一般情况是指终端用户,服务器端即指网 站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送http请求。发送http请求会返回对应的httpheader信息,可以看到包括是否成功、服务 器类型、网页最近更新时间等内容。

  https協議:實際是加密版http,一種更加安全的數據傳輸協議。

  UA屬性:UA即user-agent,是http協議中的一個屬性,代表了終端的身份,向服務器端表明我是誰來幹嘛,進而服務器端可以根據不同的身份來做出不同的反饋結果。

  robots协议:robots.txt是搜索引擎访问一个网站时要访问的第一个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的。 robots.txt必须放在网站根目录下,且文件名要小写。详细的robots.txt写法可参考 http://www.robotstxt.org 。百度严格按照robots协议执行,另外,同样支持网页内容中添加的名为robots的meta标 签,index、follow、nofollow等指令。

  Baiduspider抓取頻次原則及調整方法

  Baiduspider根據上述網站設置的協議對站點頁面進行抓取,但是不可能做到對所有站點一視同仁,會綜合考慮站點實際情況確定一個抓取配額,每天定量抓取站點內容,即我們常說的抓取頻次。那麽百度搜索引擎是根據什麽指標來確定對一個網站的抓取頻次的呢,主要指標有四個:

  1,網站更新頻率:更新快多來,更新慢少來,直接影響Baiduspider的來訪頻率

  2,網站更新質量:更新頻率提高了,僅僅是吸引了Baiduspier的注意,Baiduspider對質量是有嚴格要求的,如果網站每天更新出的大量內容都被Baiduspider判定爲低質頁面,依然沒有意義。

  3,連通度:網站應該安全穩定、對Baiduspider保持暢通,經常給Baiduspider吃閉門羹可不是好事情

  4,站點評價:百度搜索引擎對每個站點都會有一個評價,且這個評價會根據站點情況不斷變化,是百度搜索引擎對站點的一個基礎打分(絕非外界所說的百度權重),是百度內部一個非常機密的數據。站點評級從不獨立使用,會配合其它因子和阈值一起共同影響對網站的抓取和排序。

  抓取頻次間接決定著網站有多少頁面有可能被建庫收錄,如此重要的數值如果不符合站長預期該如何調整呢?百度站長平台提供了抓取頻次工具(http://zhanzhang.baidu.com/pressure/index),並已完成多次升級。該工具除了提供抓取統計數據外,還提供“頻次調整”功能,站長根據實際情況向百度站長平台提出希望Baiduspider增加來訪或減少來訪的請求,工具會根據站長的意願和實際情況進行調整。

  造成Baiduspider抓取異常的原因

  有一些網頁,內容優質,用戶也可以正常訪問,但是Baiduspider卻無法正常訪問並抓取,造成搜索結果覆蓋率缺失,對百度搜索引擎對站點都是一種損失,百度把這種情況叫“抓取異常”。對于大量內容無法正常抓取的網站,百度搜索引擎會認爲網站存在用戶體驗上的缺陷,並降低對網站的評價,在抓取、索引、排序上都會受到一定程度的負面影響,最終影響到網站從百度獲取的流量。

  下面向站長介紹一些常見的抓取異常原因:

  1,服務器連接異常

  服務器連接異常會有兩種情況:一種是站點不穩定,Baiduspider嘗試連接您網站的服務器時出現暫時無法連接的情況;一種是Baiduspider一直無法連接上您網站的服務器。

  造成服務器連接異常的原因通常是您的網站服務器過大,超負荷運轉。也有可能是您的網站運行不正常,請檢查網站的web服務器(如apache、iis)是否安裝且正常運行,並使用浏覽器檢查主要頁面能否正常訪問。您的網站和主機還可能阻止了Baiduspider的訪問,您需要檢查網站和主機的防火牆。

  2,網絡運營商異常:網絡運營商分電信和聯通兩種,Baiduspider通過電信或網通無法訪問您的網站。如果出現這種情況,您需要與網絡服務運營商進行聯系,或者購買擁有雙線服務的空間或者購買cdn服務。

  3,DNS異常:當Baiduspider無法解析您網站的IP時,會出現DNS異常。可能是您的網站IP地址錯誤,或者域名服務商把Baiduspider封禁。請使用WHOIS或者host查詢自己網站IP地址是否正確且可解析,如果不正確或無法解析,請與域名注冊商聯系,更新您的IP地址。

  4,IP封禁:IP封禁爲:限制網絡的出口IP地址,禁止該IP段的使用者進行內容訪問,在這裏特指封禁了BaiduspiderIP。當您的網站不希望Baiduspider訪問時,才需要該設置,如果您希望Baiduspider訪問您的網站,請檢查相關設置中是否誤添加了BaiduspiderIP。也有可能是您網站所在的空間服務商把百度IP進行了封禁,這時您需要聯系服務商更改設置。

  5,UA封禁:UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份。当网站针对指定UA的访问,返回异常页面(如403,500)或跳转到其他页面的情况,即为UA封禁。当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,useragent相关的设置中是否有Baiduspider UA,并及时修改。

  6,死鏈:頁面已經無效,無法對用戶提供任何有價值信息的頁面就是死鏈接,包括協議死鏈和內容死鏈兩種形式:

  協議死鏈:頁面的TCP協議狀態/HTTP協議狀態明確表示的死鏈,常見的如404、403、503狀態等。

  內容死鏈:服務器返回狀態是正常的,但內容已經變更爲不存在、已刪除或需要權限等與原內容無關的信息頁面。

  對于死鏈,我們建議站點使用協議死鏈,並通過百度站長平台--死鏈工具向百度提交,以便百度更快地發現死鏈,減少死鏈對用戶以及搜索引擎造成的負面影響。

  7,異常跳轉:將網絡請求重新指向其他位置即爲跳轉。異常跳轉指的是以下幾種情況:

  1)当前该页面为无效页面(内容已删除、死链等),直接跳转到前一目录或者首頁,百度建议站长将该无效页面的入口超链接删除掉

  2)跳轉到出錯或者無效頁面

  注意:對于長時間跳轉到其他域名的情況,如網站更換域名,百度建議使用301跳轉協議進行設置。

  8,其他異常:

  1)針對百度refer的異常:網頁針對來自百度的refer返回不同于正常內容的行爲。

  2)針對百度ua的異常:網頁對百度UA返回不同于頁面原內容的行爲。

  3)JS跳轉異常:網頁加載了百度無法識別的JS跳轉代碼,使得用戶通過搜索結果進入頁面後發生了跳轉的情況。

  4)压力过大引起的偶然封禁:百度会根据站点的规模、访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁。这种情况下,请在返回码中返回503(其含义是“Service Unavailable”),这样Baiduspider会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。

  新鏈接重要程度判斷

  好啦,上面我們說了影響Baiduspider正常抓取的原因,下面就要說說Baiduspider的一些判斷原則了。在建庫環節前,Baiduspide會對頁面進行初步內容分析和鏈接分析,通過內容分析決定該網頁是否需要建索引庫,通過鏈接分析發現更多網頁,再對更多網頁進行抓取——分析——是否建庫&發現新鏈接的流程。理論上,Baiduspider會將新頁面上所有能“看到”的鏈接都抓取回來,那麽面對衆多新鏈接,Baiduspider根據什麽判斷哪個更重要呢?兩方面:

  第一,對用戶的價值:

  1,內容獨特,百度搜索引擎喜歡unique的內容

  2,主體突出,切不要出現網頁主體內容不突出而被搜索引擎誤判爲空短頁面不抓取

  3,內容豐富

  4,廣告適當

  第二,鏈接重要程度:

  1,目錄層級——淺層優先

  2,鏈接在站內的受歡迎程度

  百度優先建重要庫的原則

  Baiduspider抓了多少頁面並不是最重要的,重要的是有多少頁面被建索引庫,即我們常說的“建庫”。衆所周知,搜索引擎的索引庫是分層級的,優質的網頁會被分配到重要索引庫,普通網頁會待在普通庫,再差一些的網頁會被分配到低級庫去當補充材料。目前60%的檢索需求只調用重要索引庫即可滿足,這也就解釋了爲什麽有些網站的收錄量超高流量卻一直不理想。

  那麽,哪些網頁可以進入優質索引庫呢。其實總的原則就是一個:對用戶的價值。包括卻不僅于:

  1,有時效性且有價值的頁面:在這裏,時效性和價值是並列關系,缺一不可。有些站點爲了産生時效性內容頁面做了大量采集工作,産生了一堆無價值面頁,也是百度不願看到的.

  2,內容優質的專題頁面:專題頁面的內容不一定完全是原創的,即可以很好地把各方內容整合在一起,或者增加一些新鮮的內容,比如觀點和評論,給用戶更豐富全面的內容。

  3,高價值原創內容頁面:百度把原創定義爲花費一定成本、大量經驗積累提取後形成的文章。千萬不要再問我們僞原創是不是原創。

  4,重要個人頁面:這裏僅舉一個例子,科比在新浪微博開戶了,需要他不經常更新,但對于百度來說,它仍然是一個極重要的頁面。

  哪些網頁無法建入索引庫

  上述優質網頁進了索引庫,那其實互聯網上大部分網站根本沒有被百度收錄。並非是百度沒有發現他們,而是在建庫前的篩選環節被過濾掉了。那怎樣的網頁在最初環節就被過濾掉了呢:

  1, 重复内容的网页:互联网上已有的内容,百度必然没有必要再收录。

  2, 主体内容空短的网页

  1)有些內容使用了百度spider無法解析的技術,如JS、AJAX等,雖然用戶訪問能看到豐富的內容,依然會被搜索引擎抛棄

  2)加載速度過慢的網頁,也有可能被當作空短頁面處理,注意廣告加載時間算在網頁整體加載時間內。

  3)很多主體不突出的網頁即使被抓取回來也會在這個環節被抛棄。

  3, 部分作弊网页

  第二節-檢索排序

  搜索引擎索引系統概述

  衆所周知,搜索引擎的主要工作過程包括:抓取、存儲、頁面分析、索引、檢索等幾個主要過程。上一章我們主要介紹了部分抓取存儲環節中的內容,此章簡要介紹一下索引系統。

  在以億爲單位的網頁庫中查找特定的某些關鍵詞猶如大海裏面撈針,也許一定的時間內可以完成查找,但是用戶等不起,從用戶體驗角度我們必須在毫秒級別給予用戶滿意的結果,否則用戶只能流失。怎樣才能達到這種要求呢?

  如果能知道用戶查找的關鍵詞(query切詞後)都出現在哪些頁面中,那麽用戶檢索的處理過程即可以想象爲包含了query中切詞後不同部分的頁面集合求交的過程,而檢索即變成了頁面名稱之間的比較、求交。這樣,在毫秒內以億爲單位的檢索成爲了可能。這就是通常所說的倒排索引及求交檢索的過程。如下爲建立倒排索引的基本過程:

  

  1,頁面分析的過程實際上是將原始頁面的不同部分進行識別並標記,例如:title、keywords、content、link、anchor、評論、其他非重要區域等等;

  2,分詞的過程實際上包括了切詞分詞同義詞轉換同義詞替換等等,以對某頁面title分詞爲例,得到的將是這樣的數據:term文本、termid、詞類、詞性等等;

  3,之前的准備工作完成後,接下來即是建立倒排索引,形成{termàdoc},下圖即是索引系統中的倒排索引過程。

  

  倒排索引是搜索引擎實現毫秒級檢索非常重要的一個環節,下面我們要重要介紹一下索引系統建立倒排索引的重要過程——入庫寫庫。

  倒排索引的重要過程——入庫寫庫

  索引系統在建立倒排索引的最後還需要有一個入庫寫庫的過程,而爲了提高效率這個過程還需要將全部term以及偏移量保存在文件頭部,並且對數據進行壓縮,這涉及到的過于技術化在此就不多提了。在此簡要給大家介紹一下索引之後的檢索系統。

  檢索系統主要包含了五個部分,如下圖所示:

  

  (1)Query串切詞分詞即將用戶的查詢詞進行分詞,對之後的查詢做准備,以“10號線地鐵故障”爲例,可能的分詞如下(同義詞問題暫時略過):

  10 0x123abc

  号 0x13445d

  线 0x234d

  地铁 0x145cf

  故障 0x354df

  (2)查出含每個term的文檔集合,即找出待選集合,如下:

  0x123abc 1 2 3 4 7 9…..

  0x13445d 2 5 8 9 10 11……

  ……

  ……

  (3)求交,上述求交,文檔2和文檔9可能是我們需要找的,整個求交過程實際上關系著整個系統的性能,這裏面包含了使用緩存等等手段進行性能優化;

  (4)各種過濾,舉例可能包含過濾掉死鏈、重複數據、色情、垃圾結果以及你懂的;

  (5)最終排序,將最能滿足用戶需求的結果排序在最前,可能包括的有用信息如:網站的整體評價、網頁質量、內容質量、資源質量、匹配程度、分散度、時效性等等

  影響搜索結果排序的因素

  上面的內容好象有些深奧,因爲涉及大量技術細節,我們只能說到這兒了。那下面我們說說大家最感興趣的排序問題吧。用戶輸入關鍵詞進行檢索,百度搜索引擎在排序環節要做兩方面的事情,第一是把相關的網頁從索引庫中提取出來,第二是把提取出來的網頁按照不同維度的得分進行綜合排序。“不同維度”包括:

  1,相關性:網頁內容與用戶檢索需求的匹配程度,比如網頁包含的用戶檢查關鍵詞的個數,以及這些關鍵詞出現的位置;外部網頁指向該頁面所用的錨文本等

  2,權威性:用戶喜歡有一定權威性網站提供的內容,相應的,百度搜索引擎也更相信優質權威站點提供的內容。

  3,時效性:時效性結果指的是新出現的網頁,且網頁內承載了新鮮的內容。目前時效性結果在搜索引擎中日趨重要。

  4,重要性:網頁內容與用戶檢查需求匹配的重要程度或受歡迎程度

  5,豐富度:豐富度看似簡單卻是一個覆蓋範圍非常廣的命題。可以理解爲網頁內容豐富,可以完全滿足用戶需求;不僅可以滿足用戶單一需求,還可以滿足用戶的延展需求。

  6,受歡迎程度:指該網頁是不是受歡迎。

  以上便是百度搜索引擎決定搜索結果排序時考慮的六大原則,那麽六大原則的側重點是怎樣的呢?哪個原則在實際應用時占比最大呢?其實在這裏沒有一個確切的答案。在百度搜索引擎早期,這些阈值的確是相對固定的,比如“相關性”在整體排序中的重量可以占到七成。但隨著互聯網的不斷發展,檢索技術的進步,網頁數量的爆發式增長,相關性已經不是難題。于是百度搜索引擎引入了機器學習機制,讓程序自動産出計算公式,推進排序策略更加合理。

  低質網頁狙擊策略——石榴算法

  我們理解網站生存發展需要資金支持,從來不反對網站添加各種合法廣告,不要再問我們“我們網站加了XX聯盟的廣告會不會被處罰”這類問題。有些站點好不容易在百度有了比較好的排位,卻在頁面上放置大量有損訪問用戶體驗的廣告,已經嚴重影響到百度搜索引擎用戶的使用感受。爲此,百度質量團隊2013年5月17日發布公告:針對低質量網頁推出了石榴算法,旨在打擊含有大量妨礙用戶正常浏覽的惡劣廣告的頁面,尤其是彈出大量低質廣告、存在混淆頁面主體內容的垃圾廣告的頁面。

  如以下網頁截圖,用戶要花很長時間去尋找真正的下載地址,是百度無法接受容忍的。

  

  百度質量團隊希望站長能夠多從用戶角度出發,朝著長遠發展考慮,在不影響用戶體驗的前提下合理地放置廣告,贏得用戶的長期青睐才是一個網站發展壯大的基礎。

  第三節-外部投票

  外鏈的作用(2014版)

  曾經,“內容爲王超鏈爲皇”的說法流行了很多年,通過超鏈計算得分來體現網頁的相關性和重要性,的確曾經是搜索引擎用來評估網頁的重要參考因素之一,會直接參與搜索結果排序計算。但隨著該技術被越來越多的SEO人員了解,超鏈已經逐漸失去作爲投票的重要意義,無論是谷歌還是百度,對超鏈數據的依賴程度都越來越低。那麽,在現在,超鏈在發揮著怎樣的作用?

  1, 吸引蜘蛛抓取:虽然百度在挖掘新好站点方面下了很大工夫,开放了多个数据提交入口,开避了社会化发现渠道,但超链依然是发现收录链接的最重要入口。

  2, 向搜索引擎传递相关性信息:百度除了通过TITLE、页面关键词、H标签等对网页内容进行判断外,还会通过锚文本进行铺助判断。使用图片作为点击入口的超链,也可以通过alt属性和title标签向百度传情达意。

  3, 提升排名:百度搜索引擎虽然降低了对超链的依赖,但对超链的识别力度从未下降,制定出更加严格的优质链接、正常链接、垃圾链接和作弊链接标准。对于作弊链接,除了对链接进行过滤清理外,也对链接的受益站进行一定程度的惩罚。相应的,对优质链接,百度依然持欢迎的态度。

  4, 内容分享,获取口碑:优质内容被广泛传播,网站借此获得的流量可能并不多,但如果内容做得足够,也可以树立自己的品牌效应。

  *嚴格來講,這並不屬于超鏈的作用。在百度眼裏,網站的品牌比超鏈要重要得多。

  切斷買賣超鏈的利刃——綠蘿算法1.0&2.0

  百度質量團隊2013年2月19日發布公告推出綠蘿算法,針對買賣鏈接行爲再次強調:買賣鏈接行爲一方面影響用戶體驗,幹擾搜索引擎算法;另一方面讓投機建站者得利、超鏈中介者得利,真正勤勤懇懇做好站的站長在這種惡劣的互聯網超鏈環境中無法獲得應有的回報。因此針對買賣鏈接行爲在清除外鏈計算的基礎上,以下三個類型的網站將會受到不同程度的影響:

  1、超鏈中介:超鏈本應是互聯網上相對優質的推薦,是普通用戶及網站之間對頁面內容、網站價值的肯定,但是現在種種超鏈作弊行爲使得真實的肯定變成了一些人謀取利益的墊腳石,用戶無法根據鏈接的推薦找到需要的優質資源,並且嚴重幹擾搜索引擎對網站的評價。超鏈中介便是這畸形的超鏈市場下形成的惡之花,我們有義務維護超鏈的純淨維護用戶利益,也有責任引導站長朋友們不再支出無謂的花銷,所以超鏈中介將在我們的目標範圍內。

  2、出賣鏈接的網站:一個站點有許多種盈利方式,利用優質的原創內容吸引固定用戶,引進優質廣告資源,甚至舉辦線下活動,這些盈利方式都是我們樂于見到的,是一個網站的真正價值所在。但是一些網站內容基本采集自網絡,以出賣超鏈位置爲生;一些機構類網站或被鏈接中介所租用進行鏈接位置出售,使得超鏈市場泡沫越吹越多。此次的調整對這類站點同樣將有所影響。

  3、購買鏈接的網站:一直以來,百度對優質站點都會加以保護和扶植,這是從用戶需求以及創業站長的角度出發的必然結果。而部分站長不將精力用在提升網站質量上,而選擇鑽營取巧,以金錢換取超鏈,欺騙搜索引擎進而欺騙用戶。對于沒有太多資源和金錢用于此類開銷的創業站長來說,也是一種無形的傷害,如果不進行遏制,劣幣驅逐良幣,勢必導致互聯網環境愈加惡劣。此次調整這類站點本身也將受到影響。

  以上即百度質量團隊首次推出綠蘿算法時的具體情況,後來被稱爲綠蘿算法1.0。事隔5個月之後,百度質量團隊再次推出綠蘿算法2.0,針對明顯的推廣性軟文進行更大範圍更加嚴格的處理。

  懲罰的對象重點是發布軟文的新聞站點,同時包括軟文交易平台、軟文收益站點。懲罰方式包括:

  1、針對軟文交易平台,將被直接屏蔽;

  2、針對軟文發布站,將視不同程度而進行處理。例如一個新聞網站,存在發布軟文的現象但情節不嚴重,該網站在搜索系統中將被降低評價;利用子域大量發布軟文的,該子域將被直接屏蔽,並且清理出百度新聞源;更有甚者創建大量子域用于發布軟文,此種情況整個主域將被屏蔽。

  3、針對軟文受益站,一個網站的外鏈中存在少量的軟文外鏈,那麽此時該外鏈將被過濾清除出權重計算體系,該受益站點將被觀察一段時間後視情況而進一步處理;一個網站的外鏈中存在大量的軟文外鏈,那麽此時該受益站點將被降低評價或直接屏蔽。

  第四節-結果展現

  結構化數據——助力站點獲得更多點擊

  网页经历了抓取建庫,参与了排序计算,最终展现在搜索引擎用户面前。目前在百度搜索左侧結果展現形式很多,如:凤巢、品牌专区、自然结果等,一条自然结果怎样才能获得更多的点击,是站长要考虑的重要一环。

  目前自然結果裏又分爲兩類,見下圖,第一個,即結構化展現,形式比較多樣。目前覆蓋80%的搜索需求,即80%的關鍵詞下會出現這種複雜展現樣式;第二個即一段摘要式展現,最原始的展現方式,只有一個標題、兩行摘要、部分鏈接。

  

  很明顯,結構化展現能夠向用戶明確傳遞信息,直擊用戶需求痛點,獲得更好的點擊自然不在話下。目前結構化展現有幾個樣式:

  1, 通用问答:提取答案,方便搜索用户参考,有些结构化数据还提取出了问题

  

  

  

  2, 下载:

  

  3,時間戳:對于時效性較強的資訊,將時間提取出來,吸引用戶點擊,還有回複的條目,能夠表現這個鏈接的有效性和熱度

  

  4, 在线文档:出现文档格式示意图

  

  5,原创标记: 原创标记的使用是最严格的,只有通过人工审核的站点才能拥有原创标志,在抓取和排序上有一定优待,所以审核非常严格,严控质量。

  

  6,配圖:擴大面積,方便用戶了解網頁內容,吸引點擊

  

  那麽站長可以通過什麽途徑獲得結果化展現呢:

  1,參與原創星火計劃:百度站長平台VIP俱樂部提供申請入口,需要經過人工審核後進行數據提交

  2,結構化數據提交工具:zhanzhang.baidu.com/wiki/197

  3,結構化數據標注工具:zhanzhang.baidu.com/itemannotator/index

  4,搜索結果配圖:具體要求爲,在文章主體位置;圖片與內容相關;圖片上沒有文字;圖片比例接近121*91

  來源:SEO搜尋引擎優化 - SEO自學網 轉載注明出處!

? 上一篇下一篇 ?   本文關鍵詞: 搜索引擎原理  百度官方資料  

評論列表:

站長SEO學院
第一節:百度搜索引擎工作原理
第二節:建設對搜索引擎友好的站點
第三節:如何進行網站內容建設
第四節:整體優化、結構優化、網頁優化
第五節:移動搜索-明確移動搜索優化標准
百度SEO資料文檔
百度搜索引擎優化指南2.0
百度移動搜索優化指南2.0
網站分析白皮書(站長版)
移動站點該如何優化
建設對百度友好的站點
百度搜索引擎網頁質量白皮書
石榴算法-綠蘿算法-冰桶算法
新搜索時代下的優化策略
更多百度SEO資料文檔
站長推薦
DIV+CSS布局實例教程-Web標准
网站SEO優化常见问题汇总
SEO優化推广方案该如何写
SEO優化方案步骤
影響網站關鍵詞排名因素總結
影響谷歌搜索引擎排名的因素調查
手機移動端站點適配優化
最近發表