淺談醫(yī)學(xué)大數(shù)據(jù)25.docx_第1頁(yè)
淺談醫(yī)學(xué)大數(shù)據(jù)25.docx_第2頁(yè)
淺談醫(yī)學(xué)大數(shù)據(jù)25.docx_第3頁(yè)
淺談醫(yī)學(xué)大數(shù)據(jù)25.docx_第4頁(yè)
淺談醫(yī)學(xué)大數(shù)據(jù)25.docx_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

淺談醫(yī)學(xué)大數(shù)據(jù)陳遵秋和陳漪伊夫婦是美籍華人,現(xiàn)在美國(guó)定居。其二人是目前研究醫(yī)療大數(shù)據(jù)及生物樣本大數(shù)據(jù)真正的專家?,F(xiàn)將兩位的文章進(jìn)行公開(kāi)發(fā)表,與大家一起探討?,F(xiàn)在無(wú)論國(guó)內(nèi)外均出現(xiàn)了移動(dòng)醫(yī)療熱,所有的創(chuàng)業(yè)團(tuán)隊(duì)和投資公司均把商業(yè)模式指向了最后的醫(yī)療大數(shù)據(jù)分析。但是可以很負(fù)責(zé)任的說(shuō),90% 以上的人都不知道醫(yī)療大數(shù)據(jù)分析是什么東西,因此這是一篇掃盲貼,但是僅供專業(yè)人士。文中分析了醫(yī)療大數(shù)據(jù)、它的維度、方法和成本,以及需要的專業(yè)人才。本文無(wú)論是對(duì)創(chuàng)業(yè)團(tuán)隊(duì)還是投資機(jī)構(gòu)都是非常有指導(dǎo)意義的。大數(shù)據(jù)定義及其特征大數(shù)據(jù)顧名思義就是數(shù)量極其龐大的數(shù)據(jù)資料。從上世紀(jì) 80 年代開(kāi)始,每隔 40 個(gè)月世界上儲(chǔ)存的人均科技信息量就會(huì)翻倍 (Hibert & Lopez, 2011)。2012 年,每天會(huì)有 2.5EB 量的數(shù)據(jù)產(chǎn)生 (Andrew & Erik, 2012)?,F(xiàn)在,2014 年,每天會(huì)有 2.3ZB 量的數(shù)據(jù)產(chǎn)生 (IBM, 2015)。這是一個(gè)什么概念? 現(xiàn)在一般我們電腦的硬盤大小都以 GB,或者 TB 為單位了。1GB 的容量可以儲(chǔ)存約 5.4 億的漢字,或者 170 張普通數(shù)碼相機(jī)拍攝的高精度照片,或者 300-350 首長(zhǎng)度為 5-6 分鐘的 MP3 歌曲。 那 GB 和 TB, EB,ZB 的關(guān)系又是怎樣?1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一臺(tái) 1TB 硬盤容量的電腦,那 1ZB 就是大致等于 10 億臺(tái)電腦的容量, 遠(yuǎn)遠(yuǎn)超出了我們一般的想象。早期,IBM 定義了大數(shù)據(jù)的特性有 3 個(gè):大量性( Volume), 多樣性(Variety), 快速性(Velocity) (Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后來(lái)又有學(xué)者把價(jià)值(Value)加到大數(shù)據(jù)的特性里。隨著時(shí)間的推移和人們思考的進(jìn)一步完善,又有三個(gè)大數(shù)據(jù)的特性被提出: 易變性(Variability),準(zhǔn)確性 (Veracity) 和復(fù)雜性 (Complexity)。作者認(rèn)為價(jià)值本質(zhì)上是數(shù)據(jù)被分析后體現(xiàn)出來(lái)的有用信息知識(shí)的程度,和其他幾個(gè)特性有根本區(qū)別。其他幾個(gè)特性可以說(shuō)是數(shù)據(jù)工作者具體實(shí)踐中面臨的挑戰(zhàn),而價(jià)值則是征服這些挑戰(zhàn)后獲得的回報(bào)。大數(shù)據(jù)的6個(gè)特性描述如下:大量性:一般在大數(shù)據(jù)里,單個(gè)文件大量性的級(jí)別至少為幾十,幾百 GB 以上,一調(diào)查 (Russom, 2013) 顯示相當(dāng)多的機(jī)構(gòu)擁有的數(shù)據(jù)總量在 10 到 99TB 之間。用我們傳統(tǒng)的數(shù)據(jù)庫(kù)軟件,1GB 已經(jīng)可以儲(chǔ)存千萬(wàn)條有著幾百個(gè)變量的數(shù)據(jù)記錄了。多樣性:泛指數(shù)據(jù)類型及其來(lái)源的多樣化 (Troester, 2012),進(jìn)一步可以把數(shù)據(jù)結(jié)構(gòu)歸納為結(jié)構(gòu)化 (structured),半結(jié)構(gòu)化 (semi-structured),和非結(jié)構(gòu)化 (unstructured) (SAS, 2014) ??焖傩裕悍从吃跀?shù)據(jù)的快速產(chǎn)生及數(shù)據(jù)變更的頻率上。比如一份哈佛商學(xué)院的研究報(bào)告稱在 2012 年時(shí),谷歌每天就需要要處理 20PB 的數(shù)據(jù) (Harvard Business Review, 2012)。易變性:伴隨數(shù)據(jù)快速性的特征,數(shù)據(jù)流還呈現(xiàn)一種波動(dòng)的特征。不穩(wěn)定的數(shù)據(jù)流會(huì)隨著日,季節(jié),特定事件的觸發(fā)出現(xiàn)周期性峰值 (Troester, 2012)。準(zhǔn)確性:又稱為數(shù)據(jù)保證 (data assurance)。不同方式,渠道收集到的數(shù)據(jù)在質(zhì)量上會(huì)有很大差異。數(shù)據(jù)分析和輸出結(jié)果的錯(cuò)誤程度和可信度在很大程度上取決于收集到的數(shù)據(jù)質(zhì)量的高低 (W.Raghupathi & Raghupathi, 2014)。所謂“垃圾進(jìn),垃圾出”。沒(méi)有數(shù)據(jù)保證,大數(shù)據(jù)分析就毫無(wú)意義。復(fù)雜性:復(fù)雜性體現(xiàn)在數(shù)據(jù)的管理和操作上。IT 時(shí)代,隨著數(shù)據(jù)來(lái)源及數(shù)據(jù)量的爆發(fā),各種不同渠道數(shù)據(jù)的大量涌現(xiàn),數(shù)據(jù)的管理和操作已經(jīng)變得原來(lái)越復(fù)雜。如何抽取,轉(zhuǎn)換,加載,連接,關(guān)聯(lián)以把握數(shù)據(jù)內(nèi)蘊(yùn)的有用信息已經(jīng)變得越來(lái)越有挑戰(zhàn)性。醫(yī)療大數(shù)據(jù)的爆發(fā)早期,大部分醫(yī)療相關(guān)數(shù)據(jù)是紙張化的形式存在,而非電子數(shù)據(jù)化存儲(chǔ), 比如官方的醫(yī)藥記錄,收費(fèi)記錄,護(hù)士醫(yī)生手寫的病例記錄,處方藥記錄,X 光片記錄,磁共振成像(MRI)記錄,CT 影像記錄等等。隨著強(qiáng)大的數(shù)據(jù)存儲(chǔ),計(jì)算平臺(tái),及移動(dòng)互聯(lián)網(wǎng)的發(fā)展,現(xiàn)在的趨勢(shì)是醫(yī)療數(shù)據(jù)的大量爆發(fā)及快速的電子數(shù)字化。以上提到的醫(yī)療數(shù)據(jù)都在不同程度上向數(shù)字化轉(zhuǎn)化。有報(bào)告顯示,2011 年,單單美國(guó)的醫(yī)療健康系統(tǒng)數(shù)據(jù)量就達(dá)到了 150EB。照目前的增長(zhǎng)速度, ZB(約 1021GB)和 YB(約 1021GB) 的級(jí)別也會(huì)很快達(dá)到 (IHTT, 2013)。Kaiser Permanente,一個(gè)在加州發(fā)展起來(lái)的醫(yī)療健康網(wǎng)絡(luò)系統(tǒng), 就有 9 百萬(wàn)的會(huì)員,被認(rèn)為擁有 26.5 到 44PB 的電子健康記錄 (IHTT, 2013)。IT 時(shí)代涌現(xiàn)的還有各種網(wǎng)絡(luò)社交媒體數(shù)據(jù),比如曾經(jīng) Google 用來(lái)預(yù)測(cè)流感的數(shù)據(jù)?;驍?shù)據(jù)也是非常龐大的存在,一次全面的基因測(cè)序,產(chǎn)生的個(gè)人數(shù)據(jù)則達(dá)到 300GB (Leah, 2014)。公開(kāi)發(fā)布的基因 DNA 微陣列達(dá)到 50 萬(wàn)之多,每一陣列包含數(shù)萬(wàn)的分子表達(dá)值。在生物醫(yī)藥方面,功能性磁共振影像的數(shù)據(jù)量也達(dá)到了數(shù)萬(wàn) TB 級(jí)別,每一幅影像包含有 5 萬(wàn)像素值 (Fan, Han, & Liu, 2014)。此外,各種健身,健康可穿戴設(shè)備的出現(xiàn),使得血壓、心率、體重,血糖,心電圖(EKG)等的監(jiān)測(cè)都變?yōu)楝F(xiàn)實(shí)和可能,信息的獲取和分析的速度已經(jīng)從原來(lái)的按“天”計(jì)算,發(fā)展到了按“小時(shí)”,按“秒”計(jì)算。比如,一家名為 Blue Spark 的科技公司已經(jīng)生產(chǎn)出能 24 小時(shí)實(shí)時(shí)監(jiān)測(cè)體溫的新型溫度計(jì)貼片 temptraq。這種數(shù)據(jù)的擴(kuò)展速度和覆蓋范圍是前所未有的,數(shù)據(jù)的格式也五花八門,可能是無(wú)格式文件(flat file),CSV,關(guān)系表,ASCII/ 純文本文件等等。同時(shí),數(shù)據(jù)的來(lái)源也紛繁復(fù)雜,可能來(lái)自不同的地區(qū),不同的醫(yī)療機(jī)構(gòu),不同的軟件應(yīng)用。不可否認(rèn),一旦理順了多格式,多源頭,呈爆炸性成長(zhǎng)的大數(shù)據(jù)的整合和分析,醫(yī)療大數(shù)據(jù)將對(duì)提高醫(yī)療質(zhì)量,強(qiáng)化患者安全,降低風(fēng)險(xiǎn),降低醫(yī)療成本等方面發(fā)揮無(wú)與倫比的巨大作用。醫(yī)療大數(shù)據(jù)的優(yōu)勢(shì)和應(yīng)用場(chǎng)景有效的整合和利用數(shù)字化的醫(yī)療大數(shù)據(jù)對(duì)個(gè)體醫(yī)生,康寶中心,大型醫(yī)院,和醫(yī)療研究機(jī)構(gòu)都有著顯著的好處。潛在的利益包括 (W.Raghupathi & Raghupathi, 2014):1)更多更準(zhǔn)確的數(shù)據(jù)使得疾病能在早期被監(jiān)測(cè)到,從而使治療更容易和有效。2)通過(guò)對(duì)特定個(gè)體或人群的健康管理,快速有效地監(jiān)測(cè)保健詐騙。3)基于大量的歷史數(shù)據(jù),預(yù)測(cè)和估計(jì)特定疾病或人群的某些未來(lái)趨勢(shì),比如:預(yù)測(cè)特定病人的住院時(shí)間,哪些病人會(huì)選擇非急需性手術(shù), 哪些病人不會(huì)從手術(shù)治療中受益,哪些病人會(huì)更容易出現(xiàn)并發(fā)癥,等等。麥肯錫估計(jì),單單就美國(guó)而言,醫(yī)療大數(shù)據(jù)的利用可以為醫(yī)療開(kāi)支節(jié)省出 3 千億美元一年。醫(yī)療大數(shù)據(jù)的利用可以從以下幾方面減少浪費(fèi)和提高效率 (Manyika, 以及其他人, 2011):臨床操作: 相對(duì)更有效的醫(yī)學(xué)研究,發(fā)展出臨床相關(guān)性更強(qiáng)和成本效益更高的方法用來(lái)診斷和治療病人。研究和發(fā)展:在藥品和醫(yī)療器械方面,建立更低磨損度,更精簡(jiǎn),更快速,更有針對(duì)性的研發(fā)產(chǎn)品線。統(tǒng)計(jì)工具和算法方面,提高臨床試驗(yàn)設(shè)計(jì)和患者的招募,使得治療方法可以更好地匹配個(gè)體患者的病癥,從而降低臨床試驗(yàn)失敗的可能和加快新的治療方法推向市場(chǎng)。分析臨床試驗(yàn)和病人的病歷,以確定后續(xù)的跡象,并在產(chǎn)品進(jìn)入市場(chǎng)前發(fā)現(xiàn)病人對(duì)藥物醫(yī)療方法的不良反應(yīng)。公共衛(wèi)生:分析疾病模式和追蹤疾病暴發(fā)及傳播方式途徑,提高公共衛(wèi)生監(jiān)測(cè)和反應(yīng)速度。更快更準(zhǔn)確地研制靶向疫苗,例如:開(kāi)發(fā)每年的流感疫苗。此外,醫(yī)療大數(shù)據(jù)的分析還有利于以下幾方面的發(fā)展 (W.Raghupathi & Raghupathi, 2014):循證醫(yī)學(xué):結(jié)合和分析各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),電子病歷,財(cái)務(wù)和運(yùn)營(yíng)數(shù)據(jù),臨床資料和基因組數(shù)據(jù)用以尋找與病癥信息相匹配的治療,預(yù)測(cè)疾病的高?;颊呋蛱峁└喔咝У尼t(yī)療服務(wù)?;蚪M分析:更有效和低成本的執(zhí)行基因測(cè)序,使基因組分析成為正規(guī)醫(yī)療保健決策的必要信息并納入病人病歷記錄。提前裁定欺詐分析:快速分析大量的索賠請(qǐng)求,降低欺詐成功率,減少浪費(fèi)和濫用。設(shè)備/遠(yuǎn)程監(jiān)控:從住院和家庭醫(yī)療裝置采集和分析實(shí)時(shí)大容量的快速移動(dòng)數(shù)據(jù),用于安全監(jiān)控和不良反應(yīng)的預(yù)測(cè)。病人的個(gè)人資料分析:全面分析病人個(gè)人信息(例如,分割和預(yù)測(cè)模型)從中找到能從特定健保措施中獲益的個(gè)人。例如,某些疾病的高?;颊撸ㄈ缣悄虿。┛梢詮念A(yù)防措施中受益。這些人如果擁有足夠的時(shí)間提前有針對(duì)性的預(yù)防病情,那么大多數(shù)的危害可以降到最低程度,甚至可以完全消除。然而,根據(jù)一份針對(duì)美國(guó)和加拿大 333 家醫(yī)療機(jī)構(gòu)及 10 家其他機(jī)構(gòu)的調(diào)查 (IHTT, 2013),2013 年,醫(yī)療機(jī)構(gòu)累積的數(shù)據(jù)量比 2011 年多出了 85%, 但 77% 的醫(yī)療健康行政人員對(duì)自己機(jī)構(gòu)在數(shù)據(jù)管理方面的能力評(píng)價(jià)為“C”。此外,僅有 34% 報(bào)告他們能從電子健康記錄(EHR)中獲取數(shù)據(jù)用來(lái)幫助病人,而有 43% 報(bào)告他們不能收集到足夠多的數(shù)據(jù)來(lái)幫助病人。由此可見(jiàn),在北美的醫(yī)療系統(tǒng)中,醫(yī)療大數(shù)據(jù)的管理使用準(zhǔn)備工作還有一大段路要走。中國(guó)也是處在起步階段。數(shù)據(jù)分析框架(傳統(tǒng)數(shù)據(jù)分析框架,大數(shù)據(jù)分析框架)醫(yī)療大數(shù)據(jù)有著前面第一節(jié)提到的所有特征。在醫(yī)療大數(shù)據(jù)帶來(lái)各種優(yōu)勢(shì)的同時(shí),大數(shù)據(jù)隨之帶來(lái)的各種特性使得傳統(tǒng)的數(shù)據(jù)處理和數(shù)據(jù)分析方法及軟件捉襟見(jiàn)肘,問(wèn)題多多。在大數(shù)據(jù)時(shí)代出現(xiàn)之前,受限于數(shù)據(jù)量的可獲得性和計(jì)算能力的有限性,傳統(tǒng)的數(shù)據(jù)管理和分析采用著不同的思路和流程。傳統(tǒng)上,對(duì)于問(wèn)題的研究建立在假設(shè)的基礎(chǔ)上進(jìn)行驗(yàn)證,進(jìn)而研究事物的相關(guān)因果性,希望能回答“為什么”。而在大數(shù)據(jù)時(shí)代,海量數(shù)據(jù)的涌現(xiàn)提供了從不同角度更細(xì)致更全面觀察研究數(shù)據(jù)的可能,從而打開(kāi)了人們的好奇心,探索欲望,人們想知道到數(shù)據(jù)告訴了我什么,而不僅僅是我的猜想是否被數(shù)據(jù)驗(yàn)證了。人們?cè)絹?lái)越多地用大數(shù)據(jù)挖掘各種感興趣的關(guān)聯(lián),非關(guān)聯(lián)等相關(guān)性,然后再進(jìn)一步比較,分析,歸納,研究(“為什么”變成一個(gè)選項(xiàng)而不是唯一終極目標(biāo))。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)思路上的不同導(dǎo)致了分析流程的不同,如圖一所示:圖一面對(duì)海量的數(shù)據(jù)和不同的分析思路,大數(shù)據(jù)的管理和分析與傳統(tǒng)數(shù)據(jù)分析的差異日益加大。回答特定問(wèn)題的單一預(yù)設(shè)結(jié)構(gòu)化數(shù)據(jù)庫(kù)明顯不能完全勝任處理大數(shù)據(jù)的海量及混雜等問(wèn)題。數(shù)據(jù)的混雜多樣性具體可以從一些調(diào)查數(shù)據(jù)中表現(xiàn)出來(lái)。SAS 的一份調(diào)查報(bào)告顯示機(jī)構(gòu)內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)最多可以占到總數(shù)據(jù)量的 85%,而這些非數(shù)字,非結(jié)構(gòu)化的數(shù)據(jù)卻必須被量化分析和用到?jīng)Q策分析中 (Troester, 2012)。另一份 2013 年進(jìn)行的 SAS 調(diào)查報(bào)告顯示在 461 個(gè)提供完整反饋信息的機(jī)構(gòu)中只有 26% 的機(jī)構(gòu)表示他們所擁有的大數(shù)據(jù)是結(jié)構(gòu)化的 (Russom, 2013)。 此外,在機(jī)構(gòu)中,分析的數(shù)據(jù)一般不會(huì)只有一個(gè)單一的來(lái)源。Alteryx 的調(diào)查報(bào)告顯示在 200 家被調(diào)查的機(jī)構(gòu)中只有 6% 的機(jī)構(gòu)表示他們的數(shù)據(jù)是只有一個(gè)來(lái)源,最為普遍的情況是 5-10 個(gè)來(lái)源, 具體分布如圖二 (Alteryx, 2014)。調(diào)查中還顯示 90% 的被調(diào)查樣本表示有數(shù)據(jù)整合問(wèn)題,37% 表示需要等其他小組提供數(shù)據(jù),30% 表示不能得到他們想要的數(shù)據(jù),一般估計(jì)是一個(gè)數(shù)據(jù)分析師的 60% 到 80% 的時(shí)間是花在數(shù)據(jù)處理準(zhǔn)備階段上的 (Alteryx, 2014)。圖二由此可見(jiàn)有效的數(shù)據(jù)管理,數(shù)據(jù)庫(kù)建立及數(shù)據(jù)分析流程的重要性。傳統(tǒng)的數(shù)據(jù)管理的過(guò)程包括抽?。‥xtraction),轉(zhuǎn)換(Transformation)和載入(load)。通過(guò) ETL,可以賦予數(shù)據(jù)一種合適恰當(dāng)?shù)慕Y(jié)構(gòu)用于特定的分析發(fā)現(xiàn)。具體數(shù)據(jù)準(zhǔn)備分析流程如圖三所示:1)抽取單個(gè)或多個(gè)來(lái)源的數(shù)據(jù) 。2)凈化,格式化,標(biāo)準(zhǔn)化,聚合,添加,或遵循其他特定的數(shù)據(jù)處理規(guī)則。3)載入處理完的數(shù)據(jù)到特定的數(shù)據(jù)庫(kù)或儲(chǔ)存為特定的文件格式。4)采用各種方法進(jìn)行數(shù)據(jù)分析。圖三ETL 的中心內(nèi)容仍舊適用于大數(shù)據(jù),但由于大數(shù)據(jù)的大量性和多樣性對(duì)數(shù)據(jù)庫(kù)和數(shù)據(jù)管理及處理方法的要求越來(lái)越高,也越來(lái)越復(fù)雜,這樣線性處理整個(gè)數(shù)據(jù)變得相當(dāng)耗費(fèi)人力,物力,和時(shí)間。此外,大數(shù)據(jù)的快速性,易變性也使得把數(shù)據(jù)儲(chǔ)存在單一的中央數(shù)據(jù)庫(kù)變的不太可行。 在這種情況下,最流行的思路是把數(shù)據(jù)分割處理,也就是把數(shù)據(jù)儲(chǔ)存到多個(gè)儲(chǔ)存節(jié)點(diǎn)(比如網(wǎng)絡(luò)數(shù)據(jù)庫(kù)),在每個(gè)節(jié)點(diǎn)單獨(dú)處理數(shù)據(jù)(甚至處理完就接著進(jìn)行初步分析, 但處理的程度依客戶具體問(wèn)題而調(diào)整),然后再匯總整合到一起,提供給單個(gè)或多個(gè)數(shù)據(jù)庫(kù),接著根據(jù)需要選擇合適的分析方法獲取有用結(jié)果。ETL 貫穿于整個(gè)大數(shù)據(jù)管理分析的流程中。圖四演示了大致的大數(shù)據(jù)管理分析流程及一些大數(shù)據(jù)處理分析平臺(tái)工具的名字。圖四SAS的數(shù)據(jù)倉(cāng)庫(kù)研究院(TDWI)針對(duì)現(xiàn)今存在的大數(shù)據(jù)處理分析平臺(tái)工具進(jìn)行了一項(xiàng)調(diào)查以幫助人們?cè)谶x擇軟硬件進(jìn)行大數(shù)據(jù)分析時(shí)能做出更好的決策。針對(duì)大數(shù)據(jù)技術(shù),特點(diǎn),和使用者操作,調(diào)查提供了三個(gè)選擇:1)現(xiàn)在使用中,并且會(huì)繼續(xù)使用。2)會(huì)在三年中開(kāi)始使用。3)沒(méi)有計(jì)劃使用。圖五左側(cè)顯示了對(duì)于各種大數(shù)據(jù)分析平臺(tái)工具,被調(diào)查人員的回復(fù)比例。圖五的右側(cè)顯示了平臺(tái)工具可能的潛在成長(zhǎng)和對(duì)采用此工具做出承諾的被調(diào)查人員比例。圖五根據(jù)潛在成長(zhǎng)和承諾的綜合考量,此調(diào)查還進(jìn)一步把大數(shù)據(jù)分析平臺(tái), 工具分成 4 組:第一組為適度的承諾,中度到強(qiáng)的成長(zhǎng)潛力;第二組為中度至強(qiáng)有力的承諾,適度增長(zhǎng)潛力;第三組為弱到中度的承諾,適度增長(zhǎng)潛力;第四組為中度至強(qiáng)有力的承諾,弱增長(zhǎng)潛力。圖六顯示了這些組別的內(nèi)容分布。限于篇幅,本文不詳細(xì)介紹所列的每一平臺(tái)工具的具體內(nèi)容,感興趣的讀者可以參考文獻(xiàn)獲取更詳細(xì)的介紹。圖六圖五和圖六都顯示了最流行的平臺(tái)和數(shù)據(jù)處理方式為開(kāi)源免費(fèi)的 Hadoop 和 MapReduce。伴隨著他們的潛在成長(zhǎng)和承諾程度,可以預(yù)見(jiàn),Hadoop 和 MapReduce 正在并會(huì)繼續(xù)推動(dòng)和促進(jìn)大數(shù)據(jù)的處理和應(yīng)用。在此,我們簡(jiǎn)單介紹一下 Hadoop 和 MapReduce 的概念。Hadoop 是一種基于 Java 的分散式數(shù)據(jù)處理框架。它可以提供對(duì)儲(chǔ)存在多個(gè)硬件設(shè)備上的數(shù)據(jù)進(jìn)行高吞吐率的讀寫。更重要的是,它對(duì)大數(shù)據(jù)具有高容錯(cuò)性 和對(duì)并行應(yīng)用程序的高可用性。Hadoop 框架結(jié)構(gòu)由若干名字節(jié)點(diǎn)(NameNode)和數(shù)據(jù)節(jié)點(diǎn)(DataNode)組成。一份數(shù)以萬(wàn)計(jì),百萬(wàn)計(jì)的大數(shù)據(jù)文件會(huì)被分割成更小的文件信息塊儲(chǔ)存在多個(gè)數(shù)據(jù)節(jié)點(diǎn)里,可以是任何計(jì)算機(jī)硬件設(shè)備。有關(guān)這些文件的數(shù)據(jù)屬性資料信息稱作 metadata 則被存儲(chǔ)在名字節(jié)點(diǎn)里(NameNode). NameNode 主要管理文件系統(tǒng)的命名空間和客戶端對(duì)文件的訪問(wèn)操作記錄。Hadoop 的框架結(jié)構(gòu)如圖七:圖七當(dāng)訪問(wèn)和操作數(shù)據(jù)文件時(shí),客戶端會(huì)聯(lián)系名字節(jié)點(diǎn)提取文件信息塊的屬性信息比如位置,文件名等。然后根據(jù)這些屬性信息,客戶端直接從相應(yīng)的數(shù)據(jù)節(jié)點(diǎn)同時(shí)讀取數(shù)據(jù)塊。Hadoop 本身具有冗余和復(fù)制功能,保證在單個(gè)硬件儲(chǔ)存設(shè)備出現(xiàn)故障時(shí)數(shù)據(jù)仍舊能被恢復(fù)而沒(méi)有任何損失,比如每個(gè)數(shù)據(jù)節(jié)點(diǎn)默認(rèn)擁有 3 個(gè)備份之類。此外,在有新數(shù)據(jù)節(jié)點(diǎn)添加到框架中時(shí),Hadoop 還可以自動(dòng)平衡每個(gè)數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù)載有量。同樣,名字節(jié)點(diǎn)也可以擁有冗余和復(fù)制功能,用于在單個(gè)儲(chǔ)存數(shù)據(jù)屬性信息的名字節(jié)點(diǎn)出現(xiàn)故障時(shí)可以恢復(fù)相應(yīng)的數(shù)據(jù)屬性信息。MapReduce 則是一種可以用來(lái)并行處理大數(shù)據(jù)的編程模型。同一程序在 Hadoop 的框架下可以用各種不同的語(yǔ)言(Java,Ruby,Python 等)按 MapReduce 的編程模型進(jìn)行編寫和運(yùn)行。其關(guān)鍵就在于三個(gè)詞: map,reduce, 和并行處理。我們通過(guò)一個(gè)例子來(lái)理解 MapReduce 的大致工作原理。比如我們有一 30 個(gè)字的字符串“開(kāi)落花纏落花繞纏開(kāi)繞笑瓜夜村村舍舍瓜夜藤繞下下藤繞嬉嬉笑娃娃”,任務(wù)是計(jì)算每個(gè)字出現(xiàn)的次數(shù)。最簡(jiǎn)單的方法是按序讀取每一個(gè)字建立標(biāo)識(shí)索引并計(jì)算出現(xiàn)的次數(shù)值存入內(nèi)存,如果是新字,值為 1,如果是出現(xiàn)過(guò)的字則次數(shù)值累加上去。此種方式是按串行的方式進(jìn)行的,所花的時(shí)間會(huì)隨著字符串的長(zhǎng)度和復(fù)雜度程線性增長(zhǎng)。當(dāng)字符串是以萬(wàn)計(jì)百萬(wàn)計(jì)時(shí),比如基因組數(shù)據(jù),所花的時(shí)間將是相當(dāng)驚人的。 并行處理則能節(jié)約相當(dāng)多的時(shí)間。我們先把原文件分割到幾個(gè)小文件塊,然后對(duì)每個(gè)小文件塊進(jìn)行字的標(biāo)識(shí)索引和附加數(shù)值(這兒不進(jìn)行累計(jì),只是簡(jiǎn)單的單次點(diǎn)數(shù)),然后再排序重組把相同字放在一起,然后我們?cè)儆每s減法計(jì)算出字及其相應(yīng)的出現(xiàn)次數(shù)值。圖八顯示了具體的例子步驟:圖八大數(shù)據(jù)特性對(duì)統(tǒng)計(jì)應(yīng)用上的際遇和沖擊大數(shù)據(jù)的獨(dú)特性對(duì)傳統(tǒng)的統(tǒng)計(jì)方法發(fā)出了挑戰(zhàn),刺激著新的,適用于大數(shù)據(jù)分析的統(tǒng)計(jì)方法的發(fā)展。本文提到的一些際遇和問(wèn)題,一部分是作者自己的觀點(diǎn),一部分摘自其他文章( (Fan, Han, & Liu, 2014) (Wang & Wang, 2014)。相較于統(tǒng)計(jì)文章的專業(yè)寫作手法,作者試圖用更淺顯易懂的說(shuō)法來(lái)介紹這些問(wèn)題,讓一般的讀者對(duì)此也能有一定的了解并對(duì)此產(chǎn)生興趣。傳統(tǒng)數(shù)據(jù)一般來(lái)說(shuō)是樣本量遠(yuǎn)遠(yuǎn)大于感興趣的因素,比如一數(shù)據(jù)有200條記錄關(guān)于個(gè)人是否有心血管病,可能相關(guān)因素為性別,年齡,血壓。這兒只有4個(gè)因素,但樣本量為200(2004)。而大數(shù)據(jù)則擁有海量的樣本及相當(dāng)多的因素。還是用心血管的例子,現(xiàn)在比如我們有了幾萬(wàn)條記錄的樣本量,但同時(shí)也擁有了上百個(gè)的因素,各種以前沒(méi)法收集的因素都收集了,像運(yùn)動(dòng)與否,運(yùn)動(dòng)量如何,運(yùn)動(dòng)類型,飲食習(xí)慣,飲食內(nèi)容,喝酒與否,喝什么酒,喝酒習(xí)慣次數(shù)等等。這使統(tǒng)計(jì)中對(duì)數(shù)據(jù)的研究應(yīng)用得到了新的際遇同時(shí)也面臨了新的挑戰(zhàn)。數(shù)據(jù)異質(zhì)性(heterogeneity)數(shù)據(jù)異質(zhì)性,可以簡(jiǎn)單理解成一個(gè)大樣本數(shù)據(jù)里有很多小樣本,每個(gè)小樣本有著不同的數(shù)據(jù)特征,比如小樣本的平均值有高有低,離散程度有密有疏,就好象海洋中有著不同溫度,不同密度的各種洋流一樣。我們不能簡(jiǎn)單的只在大樣本的層面進(jìn)行統(tǒng)計(jì)分析,這樣得出的結(jié)果如果被用于對(duì)小樣本或樣本中的個(gè)體的估計(jì)或預(yù)測(cè)時(shí)就會(huì)出現(xiàn)偏差,因?yàn)槊總€(gè)小樣本可能有著一些它自己獨(dú)特的特征。在數(shù)據(jù)樣本小的時(shí)候,里面的小樣本相應(yīng)的就更小。 這種情況下小樣本里的數(shù)據(jù)記錄可能只有一,兩個(gè),它們只能被當(dāng)作異常值處理,無(wú)法分析。而在大數(shù)據(jù)里,這種具有獨(dú)特特征的數(shù)據(jù)記錄收集出現(xiàn)多了,就擁有了被統(tǒng)計(jì)分析的條件,從而使我們更好地探究特定因素的關(guān)聯(lián)性,理解這些數(shù)據(jù)異質(zhì)性。比如有些只在特定人群里發(fā)生的極其罕見(jiàn)的疾病,大數(shù)據(jù)使我們得以研究發(fā)病原因,發(fā)病風(fēng)險(xiǎn)因素;理解為什么有些治療方法對(duì)某些人群有利,而同樣的方法對(duì)另一人群卻有害,等等。同樣,由于海量樣本和巨多的因素存在于大數(shù)據(jù)里,信息的復(fù)雜度也會(huì)增加不少,受復(fù)雜度的影響,可能導(dǎo)致統(tǒng)計(jì)上的過(guò)度擬合(overfitting)。過(guò)度擬合就是指我們建立了一個(gè)復(fù)雜的統(tǒng)計(jì)模型,它能很好的描述現(xiàn)有數(shù)據(jù)的情況,但當(dāng)我們想把這模型應(yīng)用到預(yù)測(cè)新數(shù)據(jù)時(shí),它的表現(xiàn)卻相當(dāng)差。比如圖九所示:圖九圖九左邊上的曲線是我們針對(duì)藍(lán)點(diǎn)(當(dāng)作現(xiàn)有數(shù)據(jù))做出的模型,基本上能很好的描述藍(lán)點(diǎn)的分布及曲線和藍(lán)點(diǎn)的吻合度較高。用這曲線去描述黃點(diǎn)(當(dāng)作新數(shù)據(jù)),吻合度也還不錯(cuò)。圖九右邊的曲線則完全通過(guò)了每一藍(lán)點(diǎn),吻合度極高,完全描述了藍(lán)點(diǎn)的復(fù)雜特性。然而,它在描述黃點(diǎn)時(shí),吻合度就差多了,偏差就比左邊的曲線大不少。簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)越復(fù)雜,需要考慮的因素越多,建立普遍有效的統(tǒng)計(jì)模型的難度就越大。偏差識(shí)別(Bias accumulation)分析數(shù)據(jù)時(shí),我們需要估計(jì)或測(cè)試很多參數(shù)用以建立可靠的統(tǒng)計(jì)數(shù)據(jù)模型。期間不可避免會(huì)產(chǎn)生偏差,這些估計(jì)中產(chǎn)生的偏差積累,很大程度上受著數(shù)據(jù)量大小及參數(shù)多寡的影響。 在一般小數(shù)據(jù)時(shí),這問(wèn)題可以并不顯著。但在大數(shù)據(jù)的情況下,這問(wèn)題就變的相當(dāng)值得注意。 我們用一簡(jiǎn)化的例子來(lái)說(shuō)明這個(gè)問(wèn)題。假設(shè)我們有兩組數(shù)據(jù)A和B,A組數(shù)據(jù)收集估算時(shí)沒(méi)有偏差,所有樣本數(shù)值都為1000。B組數(shù)據(jù),實(shí)際所有樣本數(shù)值也是1000,但存在偏差,而且偏差隨收集樣本量的增加呈指數(shù)式成長(zhǎng)(為了說(shuō)明情況,偏差指數(shù)式成長(zhǎng)是一個(gè)很極端的例子)。每增加一個(gè)記錄,偏差增長(zhǎng)公式為:這樣B組第一個(gè)記錄包含偏差為1.001=1.0011. B組第一個(gè)值為1000 1.001=1001. B組第二個(gè)記錄包含偏差為1.002001=1.0012. B組第一個(gè)值為1000 1.002001=1002.001. B組第十個(gè)值為1000 1.01004512=1010.045.這樣如果是小數(shù)據(jù)n=10, A組數(shù)據(jù)其實(shí)和B組數(shù)據(jù)比起來(lái)相差是不大的。B組內(nèi)的每一個(gè)數(shù)字增加的偏差不足以引起注意,如果2%以內(nèi)的偏差都可以接受的話。然而當(dāng)我們收集了1萬(wàn)個(gè)數(shù)據(jù)記錄后,情況就發(fā)生了很大的變化。我們來(lái)看最后10個(gè)數(shù)據(jù)相差情況已經(jīng)相當(dāng)相當(dāng)大了。A組數(shù)據(jù)和B組數(shù)據(jù),在擁有海量的數(shù)據(jù)樣本的情況下,相差已是十萬(wàn)八千里了。圖十顯示了偏差隨樣本量增加的變化情況。在樣本數(shù)量為4236左右,偏差的增加還不明顯。一過(guò)4236,偏差則出現(xiàn)了驚人的增長(zhǎng)。圖十所以依此為判斷的話,我們可以說(shuō)在數(shù)據(jù)樣本量4000左右,A組和B組比較,差別可能不大。但數(shù)據(jù)樣本量大于4000以后,A組和B組比較,可能就會(huì)相當(dāng)不一樣了。這個(gè)例子充分說(shuō)明了大數(shù)據(jù)相比較小數(shù)據(jù)而言對(duì)數(shù)據(jù)偏差更容易進(jìn)行識(shí)別,從而發(fā)現(xiàn)數(shù)據(jù)收集過(guò)程中的問(wèn)題并加以改善。虛假相關(guān)(spurious correlation)虛假相關(guān),我們用一個(gè)例子來(lái)加以解釋說(shuō)明。這兒還是以前面提到過(guò)的心血管數(shù)據(jù)為例?,F(xiàn)在只收集了200個(gè)記錄,但每條記錄都有100個(gè)各方各面因素的信息。這樣,我們想看是否這100個(gè)因素和“是否有心血管病”相關(guān)。如此,我們進(jìn)行兩兩檢驗(yàn)測(cè)試: 是否有心血管病和因素一進(jìn)行檢驗(yàn),是否有心血管病和因素二進(jìn)行檢驗(yàn)是否有心血管病和因素一百進(jìn)行檢驗(yàn)。每一個(gè)檢驗(yàn)測(cè)試結(jié)果只會(huì)出現(xiàn)兩種情況:統(tǒng)計(jì)學(xué)上有意義和統(tǒng)計(jì)學(xué)上無(wú)意義。統(tǒng)計(jì)學(xué)上有意義,簡(jiǎn)單來(lái)說(shuō)就是認(rèn)為心血管病和該因素有關(guān)。統(tǒng)計(jì)學(xué)上無(wú)意義就是認(rèn)為心血管病和該因素?zé)o關(guān)。 在此過(guò)程中,你可能發(fā)現(xiàn),大約會(huì)有5次在統(tǒng)計(jì)學(xué)上被認(rèn)為與心血管病相關(guān)的因素,實(shí)際上從常識(shí)和現(xiàn)實(shí)來(lái)判斷是沒(méi)有任何關(guān)聯(lián)的,也就是說(shuō)統(tǒng)計(jì)學(xué)上有意義是錯(cuò)誤的。這就是虛假相關(guān)。為了讓我們能知其然也知其所以然,這兒要解釋一下“統(tǒng)計(jì)學(xué)上有意義”究竟是怎么界定的 。一般做檢驗(yàn)測(cè)試時(shí),我們會(huì)界定一個(gè)值,叫做第一類統(tǒng)計(jì)錯(cuò)誤率。這個(gè)錯(cuò)誤率通常被設(shè)定為5%,也就是說(shuō)每100次檢驗(yàn)測(cè)試,我們?cè)试S有5次在統(tǒng)計(jì)學(xué)上實(shí)際無(wú)意義的被錯(cuò)誤判斷為統(tǒng)計(jì)學(xué)上有意義(如果不允許統(tǒng)計(jì)錯(cuò)誤率的存在,那就是100%的正確率,也就是說(shuō)沒(méi)有不確定性的存在。如果有這樣的數(shù)據(jù),就不需要做任何統(tǒng)計(jì)上的假設(shè)檢驗(yàn)了)。也就是說(shuō),如果實(shí)際不存在相關(guān)性,我們?cè)试S100次假設(shè)檢驗(yàn)中出現(xiàn)5次錯(cuò)誤相關(guān)。這就是以上例子中出現(xiàn)虛假相關(guān)的原因。 在面對(duì)龐大的海量數(shù)據(jù)和超多維度的因素時(shí),當(dāng)同時(shí)對(duì)一個(gè)數(shù)據(jù)進(jìn)行許多檢驗(yàn)測(cè)試時(shí),不可避免會(huì)出現(xiàn)虛假相關(guān)。如何處理這個(gè)問(wèn)題,統(tǒng)計(jì)學(xué)上還在做著進(jìn)一步的研究。無(wú)意義顯著性(meaningless significance)還有一種情況我們稱為無(wú)意義的顯著性 (Lin, Lucas, & Shmueli, 2013)。當(dāng)我們做兩組數(shù)據(jù)的分析比較時(shí),如果A組,B組各只有1000個(gè)數(shù)據(jù)記錄,我們測(cè)試兩組數(shù)據(jù)的平均值是否一樣,結(jié)果告訴我們統(tǒng)計(jì)學(xué)上無(wú)意義。也就是說(shuō),這兩組數(shù)據(jù)的平均值無(wú)統(tǒng)計(jì)學(xué)上的差異。但當(dāng)數(shù)據(jù)記錄達(dá)到上萬(wàn)上百萬(wàn)時(shí),測(cè)試的結(jié)果告訴我們統(tǒng)計(jì)學(xué)上是有意義的了。這又是怎么回事?我們回到源頭上去看,為什么要做兩組數(shù)據(jù)的統(tǒng)計(jì)分析比較?不可以就算出兩組的平均值,比一比他們是否相同嗎?當(dāng)然不可以,因?yàn)槲覀冋嬲M治霰容^的結(jié)果是能夠反映100%總體數(shù)量數(shù)據(jù)的客觀現(xiàn)象。單純孤立的比較兩組各1000個(gè)記錄的平均值,就是比大小,比出來(lái)的結(jié)論不能推廣到100%總體數(shù)量數(shù)據(jù)的客觀現(xiàn)象上。但這兩組數(shù)據(jù)等同于100%總體數(shù)量數(shù)據(jù)嗎? 當(dāng)然不是,就算是海量的大數(shù)據(jù)也并不能100%等同于總體數(shù)量數(shù)據(jù)。這樣我們分析總結(jié)出的這兩組數(shù)據(jù)的一些統(tǒng)計(jì)指標(biāo)就會(huì)和總體數(shù)量數(shù)據(jù)的統(tǒng)計(jì)指標(biāo)有一定的偏差。這個(gè)偏差一般有一個(gè)下限和上限,我們稱為置信區(qū)間。真實(shí)的總體數(shù)量數(shù)據(jù)的統(tǒng)計(jì)指標(biāo)就落在樣本數(shù)據(jù)統(tǒng)計(jì)指標(biāo)的左邊或右邊的一定范圍內(nèi)(置信區(qū)間)。好了,我們實(shí)際要看的是A組總體數(shù)量數(shù)據(jù)和B組總體數(shù)量數(shù)據(jù)在平均值上是否一樣,換種說(shuō)法就是A組總體數(shù)量數(shù)據(jù)平均值減B組總體數(shù)量數(shù)據(jù)平均值是否等于零: ?,F(xiàn)在我們只有A組樣本數(shù)量數(shù)據(jù)平均值和B組樣本數(shù)量數(shù)據(jù)平均值,表達(dá)符號(hào)就是和。要看的就是A組樣本數(shù)量數(shù)據(jù)平均值減B組樣本數(shù)量數(shù)據(jù)平均值的差值是否等于0: 但我們已經(jīng)知道由于樣本均分差的存在,樣本平均值相減的差值不一定是零,而且這個(gè)差值有一定的置信區(qū)間。那么我們實(shí)際上更精確的說(shuō)是看0是否落在樣本差值的置信區(qū)間內(nèi)(置信區(qū)間的上限和下限和上面提到的第一統(tǒng)計(jì)錯(cuò)誤率是相一致的,有一個(gè)5%的概念在里面,這兒就不詳細(xì)介紹了。反正是否落在置信區(qū)間里否也可以用來(lái)判斷統(tǒng)計(jì)學(xué)上是有意義還是沒(méi)有意義)。落在里面我們就說(shuō)是統(tǒng)計(jì)學(xué)上是沒(méi)有意義的也就是兩組數(shù)據(jù)的平均值是一樣。不落在里面我們就說(shuō)是統(tǒng)計(jì)學(xué)上是有意義的也就是兩組數(shù)據(jù)的平均值不一樣。如圖十一所示:圖十一那為什么在樣本數(shù)據(jù)量為1000和 上萬(wàn)上百萬(wàn)的情況下結(jié)果會(huì)不一樣。這兒我們進(jìn)一步要講的就是樣本數(shù)量和置信區(qū)間之間的關(guān)系了。隨著樣本數(shù)量的增加,樣本差值會(huì)和真實(shí)的總體數(shù)據(jù)差值接近(不一定就是0哦),同時(shí)不確定性會(huì)減小,置信區(qū)間會(huì)縮短,其實(shí)就是估計(jì)的差值越來(lái)越精準(zhǔn)了。這種情況下,就算樣本差值是非常接近0的一個(gè)數(shù)(就是說(shuō)我們都覺(jué)得兩組數(shù)據(jù)的平均值是一樣的了),但是由于置信區(qū)間的縮小,0仍舊會(huì)落在置信區(qū)間的外面(如圖十一,下部分2所示)。這樣一來(lái),結(jié)果就會(huì)是統(tǒng)計(jì)學(xué)上是有意義的:兩組數(shù)據(jù)的平均值是不一樣的?,F(xiàn)有的統(tǒng)計(jì)方法運(yùn)用在大數(shù)據(jù)時(shí)會(huì)帶來(lái)這樣的一種錯(cuò)誤信息。這是因?yàn)楝F(xiàn)有的傳統(tǒng)統(tǒng)計(jì)方法是針對(duì)小數(shù)據(jù)的,在被提出的時(shí)候,還沒(méi)有面對(duì)過(guò)或想到數(shù)據(jù)量可以如此龐大。如何解決如何改進(jìn)由于這樣的數(shù)據(jù)特性帶來(lái)的問(wèn)題,我們還在研究的路上。羊群效應(yīng)(herding effect)大數(shù)據(jù)時(shí)代,我們的社會(huì)已經(jīng)在越來(lái)越多的把個(gè)人的觀點(diǎn)數(shù)字化,匯總化,并依賴于此做出決策(比如根據(jù)收集到的評(píng)分來(lái)進(jìn)行產(chǎn)品或服務(wù)的推薦)。這一現(xiàn)象在醫(yī)療界也漸漸的變的普遍起來(lái)。好多輔助醫(yī)療應(yīng)用軟件在移動(dòng)平臺(tái)上都會(huì)有使用者的評(píng)分,人們會(huì)根據(jù)評(píng)分來(lái)選擇是否使用一下。某些醫(yī)療網(wǎng)絡(luò)平臺(tái)推出的服務(wù),比如網(wǎng)絡(luò)問(wèn)診,使用者也可以對(duì)提供服務(wù)的醫(yī)療人員進(jìn)行滿意度的評(píng)分,進(jìn)而影響他人決定是否選擇此醫(yī)療人員來(lái)進(jìn)行問(wèn)診咨詢。利用這種“眾人的智慧”的一個(gè)關(guān)鍵要求是個(gè)人意見(jiàn)的獨(dú)立性。然而,在現(xiàn)實(shí)的世界中,匯總收集的集體意見(jiàn)卻很少是由互不相干的獨(dú)立的個(gè)體意見(jiàn)所組成的。最近的實(shí)驗(yàn)研究證明先前已經(jīng)存在的收集到的意見(jiàn)會(huì)歪曲隨后個(gè)人的決策還有對(duì)質(zhì)量及價(jià)值的認(rèn)知。凸顯出了一個(gè)根本的差異既: 我們從集體意見(jiàn)感知到的價(jià)值和產(chǎn)品本身固有的價(jià)值之間的差異。產(chǎn)生這種差異的原因在于“羊群效應(yīng)” 。羊群效應(yīng)簡(jiǎn)單的描述就是個(gè)體的從眾跟風(fēng)心理和行為。羊群是一種很散亂的組織,平時(shí)在一起也是盲目地左沖右撞,但一旦有一只頭羊動(dòng)起來(lái),其他的羊也會(huì)不假思索地一哄而上,全然不顧前 面可能有狼或者不遠(yuǎn)處有更好的草。因此,“羊群效應(yīng)”就是比喻一種從眾效應(yīng),很容易導(dǎo)致盲從,而盲從往往會(huì)陷入認(rèn)知偏差,決策偏差。IBM Watson 研究中心 (Wang & Wang, 2014)使用大規(guī)模縱向的客戶評(píng)分?jǐn)?shù)據(jù)集(亞馬遜的)并建立統(tǒng)計(jì)模型演示了評(píng)分和意見(jiàn)的產(chǎn)生不是獨(dú)立,均勻的過(guò)程,而是創(chuàng)建了一個(gè)環(huán)境進(jìn)而影響以后評(píng)分或意見(jiàn)的產(chǎn)生。體現(xiàn)在這種社會(huì)化的客戶評(píng)分系統(tǒng)中的“羊群效應(yīng)”具體表現(xiàn)為:高評(píng)分傾向于產(chǎn)生新的高評(píng)分同時(shí)抑制低評(píng)分的產(chǎn)生。接下來(lái)的問(wèn)題就是:什么是真實(shí)的符合產(chǎn)品真正質(zhì)量的評(píng)分如果我們能把“羊群效應(yīng)”給剔除出去的話? 應(yīng)用IBM Wats

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論