搜索的未來(lái):沖破數(shù)字圍城_第1頁(yè)
搜索的未來(lái):沖破數(shù)字圍城_第2頁(yè)
搜索的未來(lái):沖破數(shù)字圍城_第3頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余4頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

搜索的未來(lái):沖破數(shù)字圍城

多年以后,已經(jīng)是谷歌搜索算法首席科學(xué)家兼谷歌高級(jí)副總裁的辛格哈爾從語(yǔ)言學(xué)研究生畢業(yè)之后才發(fā)現(xiàn):一直以來(lái)《星際迷航》在他的腦海中完全等同于那伴隨著雜音的黑白電視畫(huà)面,這種印象根深蒂固,而實(shí)際上,在更多美國(guó)人心中,《星際迷航》其實(shí)是一本科幻小說(shuō)。“對(duì)于擁有智慧的人來(lái)說(shuō),窮盡一個(gè)詞語(yǔ)背后所代表的豐富而不同的語(yǔ)義都是一件不容易的事情,可見(jiàn),要教會(huì)計(jì)算機(jī)理解人類的語(yǔ)言,這真的是一個(gè)難題?!卑⒚滋亍ば粮窆柛锌馈5菍?duì)于辛格哈爾的團(tuán)隊(duì)和千千萬(wàn)萬(wàn)的搜索工程師們來(lái)說(shuō),讓計(jì)算機(jī)更加智能地進(jìn)行識(shí)別是一件迫在眉睫的事情,因?yàn)闊o(wú)時(shí)無(wú)刻不在產(chǎn)生的海量數(shù)據(jù)正在形成一座數(shù)字圍城,它讓搜索變得困難,讓有價(jià)值的信息越來(lái)越難以被尋找。今天,谷歌獨(dú)立URL索引數(shù)量超過(guò)了驚人的1萬(wàn)億,而用戶獲得一次滿意搜索的時(shí)間卻不能超過(guò)1秒;淘寶商品數(shù)高達(dá)8億,每天有6000萬(wàn)用戶登錄淘寶尋找商品,最終每天要促成800萬(wàn)包裹量的交易;美國(guó)最大的招聘網(wǎng)站Monster的招聘網(wǎng)絡(luò)遍及55個(gè)國(guó)家和地區(qū),每天新增簡(jiǎn)歷高達(dá)2-3萬(wàn)、同時(shí)卻要實(shí)現(xiàn)數(shù)量龐大的職位和求職者精準(zhǔn)匹配……如果說(shuō),在5年之前這些企業(yè)完全有理由僅僅為這些漂亮的數(shù)據(jù)而盡情歡呼的話,那么在今天,他們就需要多一份憂慮——多年前,他們走進(jìn)數(shù)據(jù)構(gòu)建的圍城,靠著先進(jìn)的算法在這些數(shù)據(jù)面前游刃有余;如今每時(shí)每刻不斷增加的海量數(shù)據(jù)卻開(kāi)始讓他們感到窒息,越來(lái)越高的數(shù)據(jù)之墻讓他們開(kāi)始感到了低效和無(wú)奈,他們必須想辦法尋求突圍。傳統(tǒng)搜索的瓶頸對(duì)于Monster軟件工程經(jīng)理駱?shù)]來(lái)說(shuō),每天置身于數(shù)據(jù)圍城讓它深有感觸。曾幾何時(shí),關(guān)鍵字搜索是Monster在網(wǎng)絡(luò)招聘領(lǐng)域所向披靡的利器,但是近些年來(lái),當(dāng)初的技術(shù)帶來(lái)的高效和便捷仿佛變了味道?!皞鹘y(tǒng)的搜索一般是關(guān)鍵詞搜索,對(duì)于語(yǔ)義的了解不足,他不能對(duì)每個(gè)關(guān)鍵詞的權(quán)重做出區(qū)別處理;在搜索結(jié)果上,也無(wú)法區(qū)分過(guò)去的經(jīng)驗(yàn)和最近的經(jīng)驗(yàn),這將直接影響搜索結(jié)果排序的準(zhǔn)確性。比如說(shuō),一個(gè)人在兩年之前曾經(jīng)做過(guò)銷(xiāo)售,互聯(lián)網(wǎng)上留下了他曾經(jīng)的痕跡,現(xiàn)在也許早已轉(zhuǎn)行不干了,但傳統(tǒng)的關(guān)鍵詞搜索很容易認(rèn)為他現(xiàn)在仍在做著銷(xiāo)售?!瘪?shù)]說(shuō)。另一方面,駱?shù)]認(rèn)為,網(wǎng)絡(luò)招聘的一個(gè)基礎(chǔ)就是要能夠理解用戶的核心意圖,但是由于應(yīng)聘者文化和知識(shí)背景的不同,同樣的職位他們可能會(huì)用不同的詞語(yǔ)來(lái)表達(dá)。比如說(shuō),同樣是指“軟件工程師”,有的人把它叫做程序員,而在港臺(tái)甚至?xí)Q呼他為“軟體工程師”,這樣的話,如果還是按照字面的關(guān)鍵詞搜索,招聘方和應(yīng)聘者的需求就很難契合。同樣對(duì)現(xiàn)有搜索技術(shù)感到不滿足的還有淘寶。據(jù)淘寶搜索高級(jí)技術(shù)專家,一淘推薦算法負(fù)責(zé)人孫健介紹,淘寶平臺(tái)上大概有8億商品,5億注冊(cè)用戶,包裹交易量達(dá)800萬(wàn),相當(dāng)于全中國(guó)每日快遞包裹數(shù)量的一半。“如果把淘寶平臺(tái)設(shè)想成為一個(gè)巨大的搜索引擎,面對(duì)這么海量的實(shí)時(shí)變化的商品交易信息,也是會(huì)傻眼的?!睂O健說(shuō)?!澳敲疵鎸?duì)這么海量的信息處理問(wèn)題,我們就需要著力去做兩件事情,一個(gè)是構(gòu)建一個(gè)大規(guī)模的電子商務(wù)產(chǎn)品庫(kù),另一個(gè)則是構(gòu)建一個(gè)大規(guī)模的語(yǔ)義知識(shí)庫(kù),在傳統(tǒng)的關(guān)鍵詞之外,我們需要重新為每一個(gè)詞語(yǔ)構(gòu)建屬于他們的關(guān)系。比如,圓明園和海淀在物理上是從屬關(guān)系,本田和寶馬同時(shí)屬于汽車(chē)品牌下的子集,在淘寶的平臺(tái)上,我們挖掘了800多萬(wàn)的語(yǔ)義關(guān)系,這種知識(shí)庫(kù)的構(gòu)建是我們打造智能搜索技術(shù)的基礎(chǔ),否則單單是靠原來(lái)的那種關(guān)鍵字搜索,是無(wú)法勝任淘寶平臺(tái)上每天產(chǎn)生的海量商品和交易信息的?!睂O健說(shuō)道。即便是現(xiàn)在被人認(rèn)為有可能會(huì)取代關(guān)鍵字搜索的智能推薦,在技術(shù)上仍然存在不完善的地方。目前在電子商務(wù)領(lǐng)域做推薦的通用做法是先去構(gòu)建商品庫(kù),對(duì)各類信息歸類整理,但是其中有一個(gè)解決的并不好的問(wèn)題就是信息的實(shí)時(shí)性?!笆紫戎悄芡扑]的前提是必須有實(shí)時(shí)的最新的數(shù)據(jù),如果是拿3年前的數(shù)據(jù)來(lái)給用戶做推薦可能就會(huì)出問(wèn)題。最近微博上有人抱怨亞馬遜的推薦不準(zhǔn),明明幾個(gè)月前剛剛買(mǎi)了手機(jī),當(dāng)他再去購(gòu)物的時(shí)候還會(huì)被推薦手機(jī),這就會(huì)破壞用戶體驗(yàn)。”專注于為電子商務(wù)企業(yè)提供第三方興趣推薦服務(wù)的百分點(diǎn)科技副總裁張韶峰說(shuō)。正如FacebookCOO雪莉·桑德伯格早在2010年就曾預(yù)言道,未來(lái)所有的網(wǎng)站必將實(shí)現(xiàn)個(gè)性化,否則就會(huì)在5年之內(nèi)被淘汰,而其中的關(guān)鍵就是網(wǎng)站要能夠智能地匹配用戶的偏好信息。傳統(tǒng)的關(guān)鍵字搜索顯然無(wú)法做到這一點(diǎn)。搜索的智能進(jìn)化幾個(gè)世紀(jì)前,人類社會(huì)還是數(shù)據(jù)為王的時(shí)代,一個(gè)人如果識(shí)字,會(huì)閱讀,知道比別人更多的事實(shí),那么他在他的時(shí)代中就擁有巨大的優(yōu)勢(shì),然而現(xiàn)在,這些門(mén)檻正在被技術(shù)逐漸抹平:一個(gè)人,只要輕敲幾下鍵盤(pán),就能夠得到他想要了解的一切數(shù)據(jù)?!斑@是偉大的進(jìn)步,但是這并不夠,如何將片段化的數(shù)據(jù)集中起來(lái)轉(zhuǎn)化成有用的信息,如何將有用的信息轉(zhuǎn)化成知識(shí),這些知識(shí)如何在最終轉(zhuǎn)化成智慧,這些才是搜索應(yīng)該做的事情。”谷歌高級(jí)副總裁辛格哈爾說(shuō)。在谷歌看來(lái),從數(shù)據(jù)到信息到知識(shí)再到最終的智慧是一個(gè)漫長(zhǎng)而偉大的愿景,如今的搜索技術(shù)所能達(dá)到的只是將片段化的數(shù)據(jù)轉(zhuǎn)化成有用的信息這一階段,若想讓信息能夠直接通向知識(shí),搜索技術(shù)必須繼續(xù)進(jìn)化?!氨热纾绻阍儐?wèn)谷歌類似‘帝國(guó)大廈有多高?’的問(wèn)題,谷歌將提供搜索結(jié)果頁(yè)面上的最佳猜想答案,將您鏈接到該知識(shí)點(diǎn)。在未來(lái),你問(wèn)谷歌一個(gè)問(wèn)題,我們會(huì)直接提供答案,而不只是僅僅給你相關(guān)的鏈接?!毙粮窆柦忉尩?。對(duì)于谷歌的搜索團(tuán)隊(duì)來(lái)說(shuō),這就是他們目前正在嘗試的方向,將搜索引擎變成一個(gè)知識(shí)引擎——未來(lái)的某一天實(shí)現(xiàn)智慧引擎。讓搜索更加聰明,這也意味這搜索引擎除了能夠?qū)ξ谋具M(jìn)行語(yǔ)義分析之外,還要能夠處理音頻,圖片甚至視頻這些更加復(fù)雜的信息載體。比如,當(dāng)你在旅游中見(jiàn)到一種不知名的花,你很難用語(yǔ)言去描述它,但你似乎又在哪里見(jiàn)過(guò),這個(gè)時(shí)候你無(wú)法通過(guò)輸入文字的方式去搜尋你想要的結(jié)果;當(dāng)你看到一輛路邊疾馳而過(guò)令你心儀的汽車(chē),你被它的外觀深深吸引卻無(wú)法想起有關(guān)它從品牌到型號(hào)的任何線索,傳統(tǒng)的搜索看起來(lái)就有點(diǎn)捉襟見(jiàn)肘了。不過(guò)在今天,這些情況并非沒(méi)有解決的可能。谷歌就曾推出過(guò)按圖搜索的功能,當(dāng)用戶看到似曾相識(shí)的圖片時(shí)不需要絞盡腦汁去想如何描述它,而是可以直接用圖片進(jìn)行搜索。在搜狗跨媒體搜索研發(fā)部高級(jí)經(jīng)理佟子健看來(lái),搜索技術(shù)的出現(xiàn),讓用戶可以通過(guò)主動(dòng)描述自己的需求獲取信息,但是這并不符合用戶“懶”的天性,最好的搜索應(yīng)該是能夠理解用戶潛在的需求,讓它在搜索時(shí)做的動(dòng)作越少越好,最理想的狀態(tài)就是推薦。比如,當(dāng)瀏覽到一篇感興趣的新聞時(shí),用戶無(wú)需考慮如何提煉新聞事件的搜索詞,而是由推薦引擎向用戶推薦這篇新聞事件的來(lái)龍去脈、最新進(jìn)展和新聞圖片,直接滿足用戶潛在的延伸閱讀需求。除此之外,語(yǔ)音識(shí)別技術(shù)的成熟在與語(yǔ)義分析技術(shù)更好地融合之后,未來(lái)對(duì)音頻的搜索也會(huì)變得更加高效,不僅是音頻,即便是信息量無(wú)比龐大的視頻依然可以通過(guò)技術(shù)實(shí)現(xiàn)更加精準(zhǔn)的搜索。例如,YouTube就已經(jīng)開(kāi)始嘗試對(duì)視頻中的信息進(jìn)行更加精準(zhǔn)的搜索和甄別。比如一個(gè)用戶上傳的視頻中如果包含一首歌,這個(gè)歌如果是唱片公司的產(chǎn)權(quán),系統(tǒng)就會(huì)識(shí)別出來(lái),禁止視頻的上傳,防止盜版現(xiàn)象的發(fā)生。盡管這些嘗試只是一個(gè)開(kāi)始,但我們已經(jīng)可以看見(jiàn)能夠解決當(dāng)前海量信息搜索的人工智能萌芽了?!斑@意味著搜索需要超越網(wǎng)頁(yè)上的文字,真正地了解人們的搜索意圖,地點(diǎn)和事物——以及它們之間的相互聯(lián)系。人類的大腦天生就能處理這些,但對(duì)于電腦,這就涉及到人工智能的問(wèn)題?!惫雀韪呒?jí)副總裁辛格哈爾說(shuō)。沖破圍城之后當(dāng)技術(shù)的進(jìn)步?jīng)_破了海量數(shù)據(jù)構(gòu)建的圍城之后,搜索與人的關(guān)系將會(huì)是怎樣呢?如果按照谷歌定義的搜索從數(shù)據(jù)到信息到知識(shí)再到智慧的四個(gè)階段的話,如今在將數(shù)據(jù)轉(zhuǎn)化成信息的過(guò)程中,我們已經(jīng)取得了重大的進(jìn)步,語(yǔ)義技術(shù)的進(jìn)一步發(fā)展將會(huì)讓當(dāng)今搜索技術(shù)面對(duì)海量信息的窘境得到改善,當(dāng)搜索技術(shù)與信息量的天平發(fā)生傾斜之后,理想中的知識(shí)引擎甚至智慧引擎將會(huì)逐漸到來(lái)。舉例來(lái)說(shuō),今天如果你想搜索“世界上最深的10個(gè)湖”,如果不是恰好有人已經(jīng)整理出了這個(gè)排名,你需要做非常大量的搜索工作才能把它們搜全。目前的搜索引擎智能程度還沒(méi)有達(dá)到那么高的程度,理解不了你關(guān)于湖的問(wèn)題,比如明白湖是什么意思,湖是有深度的水域,然后把這些細(xì)節(jié)信息綜合成你需要的信息列表。但在未來(lái),如果一款搜索引擎,它能夠理解有湖的含義,理解湖的其中一個(gè)屬性是深度,當(dāng)有人想知道“10個(gè)最深的湖”時(shí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論