生物工程和大數(shù)據(jù)_第1頁
生物工程和大數(shù)據(jù)_第2頁
生物工程和大數(shù)據(jù)_第3頁
生物工程和大數(shù)據(jù)_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

什么是大數(shù)據(jù) 大數(shù)據(jù)技術(shù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。(在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的大數(shù)據(jù)時代中2 大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、value(價值)。 大數(shù)據(jù)的4個“V”,或者說特點有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,處理速度快,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第四,只要合理利用數(shù)據(jù)并對其進(jìn)行正確、準(zhǔn)確的分析,將會帶來很高的價值回報。業(yè)界將其歸納為4個“V”Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。生物大數(shù)據(jù)“大數(shù)據(jù)”一詞最初起源于互聯(lián)網(wǎng)和IT行業(yè),然而隨著“人類基因組計劃”的完成,帶動了生物行業(yè)的一次革命,高通量測序技術(shù)得到快速發(fā)展,使得生命科學(xué)研究獲得了強(qiáng)大的數(shù)據(jù)產(chǎn)出能力,包括基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等生物學(xué)數(shù)據(jù),這些數(shù)據(jù)具有數(shù)據(jù)量大(Volume)、數(shù)據(jù)多樣化(Variety)、有價值(Value)、高速(Velocity)等特點。生物大數(shù)據(jù)不僅帶有“大數(shù)據(jù)”的特點,而且具有生物數(shù)據(jù)自身的特性,下面將結(jié)合大數(shù)據(jù)的“4V”特點一一具體闡釋:1、數(shù)據(jù)量大:上個世紀(jì)末進(jìn)行的“人類基因組計劃”是由6個國家花費30億美元10幾年的時間才得以完成,如今,只需花費幾千美元幾個小時即可完成一個人基因組的解析。如此低廉高效的研究方式得到生物科學(xué)家們的青睞,大量的物種得以測序解析,使得生物研究家們進(jìn)入的生物數(shù)據(jù)的海洋。據(jù)不完全統(tǒng)計,截止到2013年6月,深圳華大基因研究院僅原始的測序相關(guān)的數(shù)據(jù)量就達(dá)到12PB,并且以每月60TB的速度增長,預(yù)計未來幾年內(nèi)每月的原始數(shù)據(jù)增量會超過2PB。2、數(shù)據(jù)多樣化:由于測序儀器種類繁多(比如常見的高通量測序儀器CG測序儀、illumina hiseq、Roche 454、Ion Torrent等),產(chǎn)生的數(shù)據(jù)格式也各不相同。同時,利用不同的生物信息分析軟件或分析流程處理得到的結(jié)果也是千差萬別。3、價值高:隨著生物信息學(xué)的發(fā)展,越來越多有價值的信息從生物數(shù)據(jù)中挖掘出來,這些價值不僅體現(xiàn)在其在生物科研領(lǐng)域,而且已應(yīng)用于農(nóng)業(yè)、健康和醫(yī)學(xué)等領(lǐng)域。4、高速:這主要體現(xiàn)在數(shù)據(jù)的急劇增長速度,不僅體現(xiàn)在數(shù)據(jù)的量上,而且在數(shù)據(jù)的多樣化和價值上。應(yīng)用編輯“十一五”以來,國務(wù)院批準(zhǔn)發(fā)布促進(jìn)生物產(chǎn)業(yè)加快發(fā)展的若干政策和生物產(chǎn)業(yè)發(fā)展“十一五”規(guī)劃,大力推進(jìn)生物技術(shù)研發(fā)和創(chuàng)新成果轉(zhuǎn)化。生物大數(shù)據(jù)本身好比一塊有待開發(fā)的土地資源,我們基于大數(shù)據(jù)的“4V”特點,推進(jìn)其在醫(yī)療健康、農(nóng)業(yè)和食品等領(lǐng)域的快速應(yīng)用1 ,比如基因檢測、優(yōu)良農(nóng)作物品種培育等。中國生物技術(shù)發(fā)展中心調(diào)研生物大數(shù)據(jù)發(fā)展情況 為應(yīng)對大數(shù)據(jù)時代帶來的挑戰(zhàn),了解大數(shù)據(jù)技術(shù)發(fā)展態(tài)勢以及對未來我國生物技術(shù)領(lǐng)域的科研能力、公共管理和產(chǎn)業(yè)競爭力方面的影響,探討應(yīng)對措施,生物中心肖詩鷹副主任于2014年5月6-7日帶隊到復(fù)旦大學(xué)、浙江大學(xué)進(jìn)行了調(diào)研。 在復(fù)旦大學(xué)、浙江大學(xué)科研管理部門的支持配合下,召開了題為“大數(shù)據(jù)對我國生物技術(shù)發(fā)展的挑戰(zhàn)”的研討會,來自復(fù)旦大學(xué)、浙江大學(xué)、同濟(jì)大學(xué)、中科院上海生命科學(xué)研究院、中科院計算生物學(xué)研究所、浙江大學(xué)第一附屬醫(yī)院以及上海張江轉(zhuǎn)化醫(yī)學(xué)研發(fā)中心等單位的有關(guān)專家,圍繞大數(shù)據(jù)對我國生物技術(shù)發(fā)展的挑戰(zhàn),進(jìn)行了交流討論。 浙江大學(xué)李蘭娟院士認(rèn)為,當(dāng)前生物領(lǐng)域存在“課題越多,數(shù)據(jù)孤島越多,資源浪費越大”的問題,迫切需要國家在生物大數(shù)據(jù)領(lǐng)域開展頂層設(shè)計。復(fù)旦大學(xué)金力院士認(rèn)為,生物大數(shù)據(jù)在國際和國內(nèi)都是一個新興學(xué)科,未來如何發(fā)展尚不十分明朗,我們應(yīng)從國家今后發(fā)展需求上,做好態(tài)勢分析,特別針對我國生物資源的優(yōu)勢、資源安全以及交叉學(xué)科發(fā)展方面思考,如何推動這個領(lǐng)域的發(fā)展,使之滿足國家需求并力爭國際領(lǐng)先。 與會有關(guān)專家分別從生命科學(xué)、醫(yī)學(xué)、信息學(xué)、數(shù)學(xué)、藥學(xué)等不同研究領(lǐng)域介紹了國際大數(shù)據(jù)技術(shù)的發(fā)展?fàn)顩r及相關(guān)研究進(jìn)展,并對未來我國發(fā)展生物大數(shù)據(jù)的研究重點、研究方向以及存在問題進(jìn)行了深入研討。 此次調(diào)研為生物中心做好生物大數(shù)據(jù)領(lǐng)域的戰(zhàn)略研究提供了很好的基礎(chǔ),并為“十三五”生物領(lǐng)域開展大數(shù)據(jù)研究提出了很多有建設(shè)性的意見建議。把大數(shù)據(jù)與基因測試結(jié)合起來,雖然還是存在爭議,但是已經(jīng)有一家生物技術(shù)公司 Recombine 做到了,而且極大地降低了基因測試的成本。我們可以預(yù)想,互聯(lián)網(wǎng)與生物技術(shù)的結(jié)合會產(chǎn)生越來越多的初創(chuàng)企業(yè)應(yīng)用關(guān)于“秤砣爸爸”說的兩個公司,我都不熟悉。僅就自己對生物大數(shù)據(jù)產(chǎn)業(yè)的理解,看看這個問題的走向,對這個問題說說我的看法:個人覺得,生物大數(shù)據(jù)的產(chǎn)業(yè)鏈條起碼分三個層次,其核心是大數(shù)據(jù)的收集、組織和存貯,這部分需要大量的資源,創(chuàng)新公司沒有能力在初期有這個實力,也就是只有華大這樣的“巨無霸”才行;外層應(yīng)該是大量的應(yīng)用層開發(fā)公司,現(xiàn)在這樣的小型公司越來越多,主要依賴自己熟悉的生物技術(shù)對市場提供服務(wù),對象可以是科研單位、企業(yè)(如藥廠)或個人;中間層是生物信息云的生存空間,它需要提供上到數(shù)據(jù)中心,下到應(yīng)用層的接口,實現(xiàn)數(shù)據(jù)層和應(yīng)用層的控制分離(有點象MVC但不相同),實現(xiàn)數(shù)據(jù)分布計算和存貯的自動化,提供數(shù)據(jù)可視化接口。為什么產(chǎn)業(yè)的將來會是這個結(jié)構(gòu)呢?1, 大數(shù)據(jù)的共享是趨勢。數(shù)據(jù)擁有量越大的公司其數(shù)據(jù)量增長會越快,(這是類比富人越富的無標(biāo)度網(wǎng)絡(luò)的特性決定的,是自由市場條件下的公理),數(shù)據(jù)會被壟斷;而新生的數(shù)據(jù)公司除非有足夠多的資源來占有數(shù)據(jù),在自有的數(shù)據(jù)資源上建立起大數(shù)據(jù)應(yīng)用是不可能的。但是,由于數(shù)據(jù)中的價值一旦被解讀大數(shù)據(jù)的這部分價值就失效,所以大數(shù)據(jù)的擁有者(大企業(yè)或政府),為了實現(xiàn)在競爭中早日兌現(xiàn)價值,必然會盡快數(shù)據(jù)共享,提供給新的創(chuàng)新小公司。數(shù)據(jù)孤島會因為競爭而逐漸消失。2, 單一公司的包含所有全部數(shù)據(jù)流水線的生產(chǎn)方式落后于時代?,F(xiàn)在無論是華大還是到小的服務(wù)公司,應(yīng)該都是把IT應(yīng)用從HPC或共有云上虛擬機(jī)上從頭開發(fā),分布和平行與業(yè)務(wù)邏輯沒有完全實現(xiàn)隔離,由于大數(shù)據(jù)分布并行和生物信息的學(xué)科特點差異較大,在各方面方法日新月異的今天,人員培訓(xùn)和維護(hù)開發(fā)成本會越來越高。由上面兩點看,產(chǎn)業(yè)鏈會逐漸層次化。生物信息云是在夾縫中生存的,其是否能成功的關(guān)鍵是對外API的設(shè)計,符合生物數(shù)據(jù)的特點,不是簡單的鍵值對結(jié)構(gòu)能描述以序列為代表的生物數(shù)據(jù),這樣的技術(shù)背景,應(yīng)該只有以大數(shù)據(jù)背景

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論