您現在的位置: 网站首頁 / 業界資訊 / 正文

谷歌學術搜索的風雨十年

作者: admin 发布: 2015-1-4 22:37:25 分类: 業界資訊 閱讀: 次 查看評論

  QQ截图20150104142320

  在今年《自然》杂志开展的一项调查中,60% 的科学家表示自己经常使用该项服务。日前,《自然》杂志对话谷歌学术共同创始人 Anurag Acharya,聊了聊谷歌学术的过去和未来。

  QQ截图20150104142240

  問:你如何知道哪些文獻需要檢索?

  答:“學術”是學術領域的其他人都認爲是學術的東西,這聽起來像是一個遞歸的定義,但確實是這樣的。我們通過爬蟲抓取所有網頁。以一篇新發表的博客爲例,我們會判斷它和其他學術文章存在何種聯系。如果很多人引用它,或者它引用了很多人的文章,那麽它可能具有學術價值。這裏面並沒有神奇的公式可以套用,只能從很多特性中尋找證據。

  問:創建谷歌學術的想法從何而來?

  答:我在 2000 年来到谷歌,之前则在加州大学圣芭芭拉分校从事学术工作。很明显,假如继续从事学术研究,我不可能产生比待在谷歌更大的影响 -- 使世界各地的人们都可以找到信息。因此,我放弃了学术道路,花了 4 年时间管理谷歌网页检索团队。那是一段异常忙碌的日子,整个人可以说是心力交瘁。

  Alex Verstak(注:Acharya 在网页检索团队的同事) 和我决定休假半年,并试图利用这段时间让学术文章的搜索变得更加方便快捷。当时的想法并不是创建谷歌学术,而是想提高谷歌在用户利用网页搜索学术文章时的排名。不过,随之而来的问题是如何判定搜索用户的意图:他们需要学术性的结果或者只是个门外汉? 我们据此建立了一个内部原型,谷歌学术变成了一种非常有用和重要的服务。

  問:這個想法很快就取得了成功嗎?

  答:很快就廣受歡迎。谷歌學術啓用後,使用量呈指數級增長。一個重要的差別在于我們按照與用戶請求的相關性排列搜索結果,這是此前的學術性搜索服務無法做到的。它們采用的是倒序方式,即首先提供最新的結果。我們還通過爬蟲抓取到研究論文的全部文本,盡管在一開始並未將所有出版商的全部文本包括進來。

  問:花了很多年才說服文獻出版社允許你們抓去全文,當時是不是感覺很困難?

  答:这得考虑到十年前的情况,那时候网络搜索还很轻量 -- 人们更愿意搜索 Britney Spears 的图片而不是学术文献。但我们知道有纯粹的学术搜索请求,我们不得不说服出版商,我们的服务会为他们带来更多的流量。当然在谷歌学术搜索推出前我们就与他们有合作。

  問:2012年,谷歌學術從谷歌主頁搜索選項的下拉式菜單中消失。你是否擔心谷歌學術的地位可能下降或者被砍掉?

  答:不担心。我们的团队在不断成长中,从成立之初的两个人发展到现在的 9 人。很多人或许会将谷歌学术从首頁菜单中的撤销看成是一种降级,但事实并非如此。这些菜单链接是为了帮助用户从主页转到其他服务,因此会突出那些使用最多的转换链接。如果用户已经知道如何启动谷歌学术,他们就不需要那种转换链接。就是这样而已。

  問:谷歌學術如何盈利?

  答:谷歌學術到目前還未盈利。其實,谷歌提供的很多服務都不賺錢。谷歌學術的首要定位是回饋學術界。我們之所以成功堅持到現在,就是因爲在谷歌看來,這項服務的花費並不高。就訪問量來說,谷歌學術同很多谷歌服務相比很小,因此利用廣告盈利的機會相對較少。不過,到目前爲止我們還沒有盈利上的壓力。

  問:谷歌學術每天的訪問量是多少?這項服務能追蹤多少文獻?

  答:我无法回答你,这是一个非常非常大的数字。对于追踪文献的数量也是这样,除了 -- 自从我们推出谷歌学术后,这个数字增长了一个数量级。很多人关心这些数字,但这真没多大必要。我们关注的是用户能否找到他们想要的文献。若果文献本身很少的话,这些数字的确很重要,但我们显然拥有足够多的文献。

  問:谷歌學術已經推出了額外的服務:例如作者的資料頁和一個推薦引擎。這意味著谷歌學術准備從一個搜索引擎轉向成爲類似文獻計量學的工具嗎?

  答:既是,也不是。推出資料頁的目的還是在于幫助用戶找到他們需要的文獻。有時候你可能忘了文獻的標題,但你可能記得它的作者,這樣你就能找到相關文獻。你還能追蹤某個作者的文獻和工作,著同樣是查找文獻的線索。當然資料頁還有別的用途,通過閱讀一個人的資料頁,我們可以了解他的學術的演化曆程、他的學術夥伴們都有誰,甚至可以向他推薦一些他的領域中別的研究人員關注的主題。

  问:你担心这种把戏吗 -- 造假的文献通过被谷歌学术检索增加引用量?

  答:不担心。是的,你可以添加你想要的任何文件。但是,一切都是可见的 -- 你的资料页上列出的文献,引用你文献的文献等等。如果发现你造假,世界上的任何人都能打电话给你,基本上是你的学术生涯就结束了。我们没有看到垃圾邮件正是由于这个原因。我有很多的经验处理垃圾邮件,因为我曾经为搜索部门工作。当人们都是匿名的,垃圾邮件会变得更容易。但如果我要建立的是我的公开出版物的历史,我会比较谨慎。

  問:未來谷歌學術會有什麽樣的改變?

  答:我们非常擅长帮助用户找到他们要搜索的文章。不过,下一步我们打算做的一件大事是帮助用户找到他们需要但又不知如何搜索的文章。我们能否让意外发现变得更加容易? 如何帮助每个人在无须翻阅上百篇论文导致一整天任何其他事都干不了的情况下,轻松掌握学术前沿?

  我不知道我們將如何實現這個目標。盡管在這方面我們已經做了一些初步努力如推出建議搜索引擎,但離想要的東西還相去甚遠。在向用戶推送不是其主動搜索的信息時,存在一個本質性問題:內容必須具有相關性,確保我們沒有浪費用戶時間,但又不能太相關,因爲用戶已經知道這些文章。

  問:怎麽幫助用戶直接找到數據而不是文獻呢?

  答:這是一個有趣的想法。在收費文獻裏搜索數據是完全可行的。但當我們給用戶的搜索結果指向一個收費文獻時,用戶只能看到摘要。對全文檢索而言,我們也是依靠提供摘要信息讓用戶評估某篇文獻對他們是否有用。我們還沒有針對數據搜索建立類似文本搜索的模型。

  問:許多人希望能通過谷歌學術開放API,這樣他們可以自己寫搜索的腳本或自動獲取別人的資料頁,在此之上提供更多的服務。這可行嗎?

  答:我不能這麽做。我們自己和出版商合作夥伴都不會喜歡這個想法。我們被允許掃描所有的文獻,而不是講這個信息分發出去。和出版商的合作非常重要,我們因此得以可以繼續構建一個對所有人免費的全面搜索服務。這是我們的初心,其他任何東西都是次要的。

  問:下一個十年你還會爲谷歌學術工作嗎?

  答:首先我从来没想到我竟然为谷歌学术忙活了十年!我妻子在我(为谷歌学术)工作了 5 年、7 年的时候提醒过我(工作了这么久),而我现在还没离开。谷歌学术是我能想到我能做的最重要的事情,我们的工作使这个星球上最聪明的人更有效率。离开谷歌学术是一个非常有吸引力的命题,而我无法预见它会很快很轻松地实现。

  問:當你還是印度理工學院的學生時,你是否想過要是有這麽一個免費、有效的搜索引擎該多好?

  答:(谷歌学术) 影响了我曾经关注的问题。举例来说,当时没有任何工具可以对只提供摘要的收费文献进行全文检索。我认为这是需要被解决的问题,因为对读者来说,需要知道信息在哪儿。如果你知道一个关键的信息在一篇收费文献里,你可以写信给作者。但在这一点上,谷歌学术有它自己的生命。

  問:使用谷歌學術的用戶是否有必要擔心數據隱私問題?

  答:我們采用標准的谷歌數據收集政策,谷歌學術也不例外。我在谷歌的角色主要是負責谷歌學術,所以不會談太多更寬泛的問題。

  來源:SEO搜尋引擎優化 - SEO自學網 轉載注明出處!

? 上一篇下一篇 ?   本文關鍵詞: 谷歌  

評論列表:

站長SEO學院
第一節:百度搜索引擎工作原理
第二節:建設對搜索引擎友好的站點
第三節:如何進行網站內容建設
第四節:整體優化、結構優化、網頁優化
第五節:移動搜索-明確移動搜索優化標准
百度SEO資料文檔
百度搜索引擎優化指南2.0
百度移動搜索優化指南2.0
網站分析白皮書(站長版)
移動站點該如何優化
建設對百度友好的站點
百度搜索引擎網頁質量白皮書
石榴算法-綠蘿算法-冰桶算法
新搜索時代下的優化策略
更多百度SEO資料文檔
站長推薦
DIV+CSS布局實例教程-Web標准
网站SEO優化常见问题汇总
SEO優化推广方案该如何写
SEO優化方案步骤
影響網站關鍵詞排名因素總結
影響谷歌搜索引擎排名的因素調查
手機移動端站點適配優化
最近發表