




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、程序設(shè)計(jì)方法學(xué)課程論文大數(shù)據(jù)下的機(jī)器學(xué)習(xí)大數(shù)據(jù)下的機(jī)器學(xué)習(xí)摘要:隨著產(chǎn)業(yè)界數(shù)據(jù)量的爆炸式增長(zhǎng),大數(shù)據(jù)概念受到越來(lái)越多的關(guān)注。由于大數(shù)據(jù)的海量、復(fù)雜多樣、變化快的特性,如何有效利用大數(shù)據(jù)中的信息,并使用這些信息提高生產(chǎn)率成為迫切需要解決的問(wèn)題。機(jī)器學(xué)習(xí)是解決這類問(wèn)題的有效方法之一。因此,研究大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)算法成為學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的話題。本文旨在對(duì)機(jī)器學(xué)習(xí)的一些基本算法和在大數(shù)據(jù)環(huán)境下機(jī)器學(xué)習(xí)大概面臨的一些問(wèn)題進(jìn)行初步介紹。關(guān)鍵詞:大數(shù)據(jù),機(jī)器學(xué)習(xí),分類,聚類,最優(yōu)化方法,并行算法1 .大數(shù)據(jù)時(shí)代來(lái)臨經(jīng)過(guò)20余年的努力,Internet已獲得巨大的成功,由此,人們可以在不同時(shí)間與地域
2、獲取自己希望獲得的信息。然而,有效獲得信息是一回事,獲得的信息是否能夠有效且方便地使用則是另一回事。目前的現(xiàn)狀是大量可以有效獲得的信息,大約只有10%可以被使用,消耗了大量資源的信息不僅未能夠被有效地使用,而且由于有用的信息正在更深地被掩埋在無(wú)用信息之中,變得更難以利用。花費(fèi)了大量人力物力而獲得信息,卻無(wú)法有效使用,長(zhǎng)此以往,這將與未獲得信息無(wú)區(qū)別。如何有效利用這些被掩埋的有用信息已成為信息產(chǎn)業(yè)繼續(xù)興旺發(fā)展的關(guān)鍵。大數(shù)據(jù)定義:有關(guān)大數(shù)據(jù)的定義有多種。一個(gè)狹義的定義:大數(shù)據(jù)是指不能裝載進(jìn)計(jì)算機(jī)內(nèi)存儲(chǔ)器的數(shù)據(jù)。盡管這是一個(gè)非正式的定義,但易理解,因?yàn)槊颗_(tái)電腦都有一個(gè)大到不能裝載進(jìn)內(nèi)存的數(shù)據(jù)集。廣義
3、的大數(shù)據(jù)定義為:一般意義上,大數(shù)據(jù)是指無(wú)法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。大數(shù)據(jù)特點(diǎn):大數(shù)據(jù)有多方面的特點(diǎn),從最開始的3V模型到目前擴(kuò)展的4V模型就是以大數(shù)據(jù)的特點(diǎn)命名的。3V模型包括體積(Volume),速度(Velodty)和多樣性(Variety);4V模型中的第4個(gè)V有多種解釋,如變化性(Variability),虛擬化(Virtual)或價(jià)值(Value)。針對(duì)這些特點(diǎn),大數(shù)據(jù)時(shí)代知識(shí)解析、機(jī)器智能與人類智能協(xié)調(diào)工作及智能分析系統(tǒng)將會(huì)扮演重要角色,人們需要一種智能分析接口將人類與計(jì)算機(jī)世界連接,否則將被淹沒(méi)在大數(shù)據(jù)的洪流中2
4、.機(jī)器學(xué)習(xí)自從計(jì)算機(jī)被發(fā)明以來(lái),人們就想知道它能不能學(xué)習(xí)。機(jī)器學(xué)習(xí)從本質(zhì)上是一個(gè)多學(xué)科的領(lǐng)域。它吸取了人工智能、概率統(tǒng)計(jì)、計(jì)算復(fù)雜性理論、控制論、信息論、哲學(xué)、生理學(xué)、神經(jīng)生物學(xué)等學(xué)科的成果。機(jī)器學(xué)習(xí)的研究主旨是使用計(jì)算機(jī)模擬人類的學(xué)習(xí)活動(dòng),它是研究計(jì)算機(jī)識(shí)別現(xiàn)有知識(shí)、獲取新知識(shí)、不斷改善性能和實(shí)現(xiàn)自身完善的方法。這里的學(xué)習(xí)意味著從數(shù)據(jù)中學(xué)習(xí),它包括有監(jiān)督學(xué)習(xí)(SupervisedLearning)、無(wú)監(jiān)督學(xué)習(xí)(UnsupervisedLearning)和半監(jiān)督學(xué)習(xí)(Semi-SupervisedLearning)三種類別。有監(jiān)督學(xué)習(xí)需要對(duì)已知的樣本進(jìn)行訓(xùn)練得到算法模型,然后對(duì)未知樣本的度量結(jié)
5、果(或者說(shuō)是標(biāo)簽)進(jìn)行預(yù)測(cè);而無(wú)監(jiān)督學(xué)習(xí)則是直接預(yù)測(cè)未知樣本的度量結(jié)果,沒(méi)有實(shí)現(xiàn)訓(xùn)練的過(guò)程;而半監(jiān)督學(xué)習(xí)就是介乎兩者之間的機(jī)器學(xué)習(xí)方法。傳統(tǒng)機(jī)器學(xué)習(xí)面臨的一個(gè)新挑戰(zhàn)是如何處理大數(shù)據(jù)。目前,包含大規(guī)模數(shù)據(jù)的機(jī)器學(xué)習(xí)問(wèn)題是普遍存在的,但是,由于現(xiàn)有的許多機(jī)器學(xué)習(xí)算法是基于內(nèi)存的,大數(shù)據(jù)卻無(wú)法裝載進(jìn)計(jì)算機(jī)內(nèi)存,故現(xiàn)有的諸多算法不能處理大數(shù)據(jù)。如何提出新的機(jī)器學(xué)習(xí)算法以適應(yīng)大數(shù)據(jù)處理的需求,是大數(shù)據(jù)時(shí)代的研究熱點(diǎn)方向之一。3 .大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)算法3.1 大數(shù)據(jù)分類有監(jiān)督學(xué)習(xí)(分類)面臨的一個(gè)新挑戰(zhàn)是如何處理大數(shù)據(jù)。目前包含大規(guī)模數(shù)據(jù)的分類問(wèn)題是普遍存在的,但是傳統(tǒng)分類算法不能處理大數(shù)據(jù).1)支
6、持向量機(jī)分類。SVM法即支持向量機(jī)(SupportVectorMachine)法,由Vapnik等人于1995年提出,具有相對(duì)優(yōu)良的性能指標(biāo)。該方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法。通過(guò)學(xué)習(xí)算法,SVM可以自動(dòng)尋找出那些對(duì)分類有較好區(qū)分能力的支持向量,由此構(gòu)造出的分類器可以最大化類與類的間隔。因而有較好的適應(yīng)能力和較高的分率。該方法只需要由各類域的邊界樣本的類別來(lái)決定最后的分類結(jié)果。2)決策樹分類。決策樹可看作一個(gè)樹狀預(yù)測(cè)模型,它通過(guò)把實(shí)例從根節(jié)點(diǎn)排列到某個(gè)葉子節(jié)點(diǎn)來(lái)分類實(shí)例,葉子節(jié)點(diǎn)即為實(shí)例所屬的分類。決策樹的核心問(wèn)題是選擇分裂屬性和決策樹的剪枝。決策樹的算法有很多,有ID3、C4.
7、5、CART等等。這些算法均采用自頂向下的貪婪算法,每個(gè)節(jié)點(diǎn)選擇分類效果最好的屬性將節(jié)點(diǎn)分裂2個(gè)或多個(gè)子結(jié)點(diǎn),繼續(xù)這一過(guò)程直到這棵樹能準(zhǔn)確地分類訓(xùn)練集,或所有屬性都已被使用過(guò)。對(duì)于分類問(wèn)題,當(dāng)葉節(jié)點(diǎn)中只有一個(gè)類,那么這個(gè)類就作為葉節(jié)點(diǎn)所屬的類,若節(jié)點(diǎn)中有多個(gè)類中的樣本存在,根據(jù)葉節(jié)點(diǎn)中樣本最多的那個(gè)類來(lái)確定節(jié)點(diǎn)所屬的類別,對(duì)于回歸問(wèn)題,則取其數(shù)量值的平均值。3)人工神經(jīng)網(wǎng)絡(luò)算法與感知機(jī)。人工神經(jīng)網(wǎng)絡(luò)(ArtficialNeuralNetworksANN)提供了一種普遍而且實(shí)用的方法,來(lái)從樣例中學(xué)習(xí)值為實(shí)數(shù)、離散或向量的函數(shù)。ANN學(xué)習(xí)對(duì)于訓(xùn)練數(shù)據(jù)中的擬合效果很好,且已經(jīng)成功地涉及到醫(yī)學(xué)、生理學(xué)
8、、哲學(xué)、信息學(xué)、計(jì)算機(jī)科學(xué)等眾多學(xué)科領(lǐng)域,這些領(lǐng)域互相結(jié)合、相互滲透并相互推動(dòng)。不同領(lǐng)域的科學(xué)家從各自學(xué)科的特點(diǎn)出發(fā),提出問(wèn)題并進(jìn)行了研究。感知機(jī)方法的原始動(dòng)機(jī)是“人類學(xué)習(xí)的根源是神經(jīng)系統(tǒng)”,根據(jù)神經(jīng)系統(tǒng)的原理建立模型是解決學(xué)習(xí)的合理途徑。由此,1956年,Rosenblatt根據(jù)James在1896年提出的神經(jīng)元相互連接與McCullochPitts發(fā)現(xiàn)神經(jīng)元的“興奮”和“抑制”工作方式為基礎(chǔ),建立一種神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型,并使用線性優(yōu)化的方法,奠定了感知機(jī)的理論基礎(chǔ),感知機(jī)提出之后受到Minsky的嚴(yán)厲批評(píng)。這個(gè)批評(píng)主要集中在兩個(gè)問(wèn)題上,其一,感知機(jī)模型不能向非線性(線性不可分)問(wèn)題推廣,這
9、是對(duì)算法的批評(píng);其二,感知機(jī)是基于“黑箱”原理,學(xué)習(xí)后的模型與實(shí)際世界沒(méi)有直接的對(duì)應(yīng)關(guān)系,這是對(duì)模型形式的批評(píng)。3.2 大數(shù)據(jù)聚類1)聚類學(xué)習(xí)是最早被用于模式識(shí)別及數(shù)據(jù)挖掘任務(wù)的方法之一,并且被用來(lái)研究各種應(yīng)用中的大數(shù)據(jù)庫(kù),因此用于大數(shù)據(jù)的聚類算法受到越來(lái)越多的關(guān)注。Haven對(duì)比3種擴(kuò)展的模糊c均值(FCM)聚類算法對(duì)于大數(shù)據(jù)的執(zhí)行效率。具體而言,這3種方法分別基于:取樣后進(jìn)行非迭代擴(kuò)展;連續(xù)通過(guò)數(shù)據(jù)子集的增量技術(shù);提供基于抽樣的估計(jì)的核模糊c均值算法;Havens等用可裝載的數(shù)據(jù)集和VL數(shù)據(jù)集來(lái)進(jìn)行數(shù)值型實(shí)驗(yàn),這些實(shí)驗(yàn)進(jìn)行如下對(duì)比:時(shí)間復(fù)雜度、空間復(fù)雜度、速度、處理裝載數(shù)據(jù)的批量FCM的近
10、似質(zhì)量、對(duì)劃分和地面實(shí)況間匹配的評(píng)估。實(shí)驗(yàn)結(jié)果顯示,隨機(jī)取樣可擴(kuò)展FCM(RandomSamplingPlusExtension淞減少FCM(Bit-ReducedFCM)及近似核FCM(ApproximateKernelFCM)都是較好的選擇,都近似于FCM。最后,Havens等展示針對(duì)含有50億對(duì)象的數(shù)據(jù)集的大數(shù)據(jù)算法,并就如何使用不同的大數(shù)據(jù)FCM聚類策略提出一系列建議。2)另一方面,隨著數(shù)據(jù)體積的增大,I/O瓶頸就變成數(shù)據(jù)分析的一個(gè)重要問(wèn)題。數(shù)據(jù)壓縮能起到緩解作用。以K-means為例,Xue等提出一種壓縮感知性能提升模型用于大數(shù)據(jù)聚類。該模型定量分析整個(gè)計(jì)算過(guò)程中與壓縮有關(guān)的諸多因素
11、的影響。在有上百個(gè)計(jì)算核的集群上對(duì)大到1.114TB的10維數(shù)據(jù)進(jìn)行聚類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明使用壓縮能改善I/O性能,并且該模型能有效決定何時(shí)如何使用壓縮來(lái)改善大數(shù)據(jù)分析中的I/O性能。針對(duì)分布式聚類、流數(shù)據(jù)聚類,Hall等研究二次抽樣方法以提高聚類算法的可擴(kuò)展性。實(shí)驗(yàn)表明,人們可構(gòu)造一個(gè)好的模型而不必知道所有的數(shù)據(jù),如果需要,修改后的算法可應(yīng)用于TB級(jí)或更多的數(shù)據(jù)。3.3 小結(jié)正如本文開頭所說(shuō),機(jī)器學(xué)習(xí)涉及的領(lǐng)域與算法繁雜,不僅僅只是分類與聚類兩類算法就能囊括的,這也正給海量數(shù)據(jù)的分析與挖掘提供了許多基礎(chǔ)工具、算法。而機(jī)器學(xué)習(xí)應(yīng)用在大數(shù)據(jù)的環(huán)境下必須對(duì)傳統(tǒng)算法做出改動(dòng),以適應(yīng)大數(shù)據(jù)的特性,而這
12、些改動(dòng)或者說(shuō)改進(jìn)一般面對(duì)的問(wèn)題大概是這幾個(gè):算法模型需要盡量簡(jiǎn)化,簡(jiǎn)單模型對(duì)硬件要求不高,更加容易實(shí)現(xiàn),而這是比較困難的,因?yàn)橐幚淼暮A繑?shù)據(jù)包含的數(shù)據(jù)類型種類繁多、數(shù)據(jù)特征復(fù)雜,而復(fù)雜數(shù)據(jù)往往對(duì)應(yīng)的是一個(gè)復(fù)雜的模型;算法收斂速度需要盡可能快,而這個(gè)要求往往受限于第一個(gè)問(wèn)題,復(fù)雜模型的運(yùn)算量大,收斂速度必然比較慢,這也是最優(yōu)化方法面臨的問(wèn)題,所以單線程的機(jī)器學(xué)習(xí)算法的運(yùn)行速度以及很難滿足分析大數(shù)據(jù)的要求,我們更希望將傳統(tǒng)的機(jī)器學(xué)習(xí)方法用多線程實(shí)現(xiàn),而正如前文所說(shuō),并行計(jì)算對(duì)計(jì)算機(jī)的I/O要求比較大。4結(jié)語(yǔ)與致謝大數(shù)據(jù)具有屬性稀疏、超高維、高噪聲、數(shù)據(jù)漂移、關(guān)系復(fù)雜等特點(diǎn),導(dǎo)致傳統(tǒng)機(jī)器學(xué)習(xí)算法難以有效處理和分析,為此,需在如下方面展開相應(yīng)研究。1)研究機(jī)器學(xué)習(xí)理論和方法,包括數(shù)據(jù)抽樣和屬性選擇等大數(shù)據(jù)處理的基本技術(shù),設(shè)計(jì)適合
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 串串店慶活動(dòng)策劃方案
- 書店pr活動(dòng)策劃方案
- 書法活動(dòng)社團(tuán)活動(dòng)方案
- 鄉(xiāng)鎮(zhèn)旅游農(nóng)家樂(lè)活動(dòng)方案
- 乒乓運(yùn)球活動(dòng)方案
- 主持采訪閱讀活動(dòng)方案
- 組織學(xué)校與社區(qū)的世界無(wú)煙日主題宣傳活動(dòng)
- 人工智能+快遞融合發(fā)展實(shí)現(xiàn)跨區(qū)域物流網(wǎng)絡(luò)智能化協(xié)同
- 批發(fā)市場(chǎng)設(shè)施管理與安全保障措施
- 2025至2030年中國(guó)滾刀行業(yè)市場(chǎng)發(fā)展規(guī)模及市場(chǎng)前景趨勢(shì)報(bào)告
- GB/T 45630-2025系統(tǒng)與軟件工程架構(gòu)描述
- 2025年環(huán)境監(jiān)測(cè)技術(shù)考試試卷及答案
- 2025-2030中國(guó)液體肥料行業(yè)市場(chǎng)發(fā)展分析及發(fā)展趨勢(shì)與投資研究報(bào)告
- 2025年上半年高級(jí)軟件水平考試系統(tǒng)架構(gòu)設(shè)計(jì)師(案例分析)真題及解析
- 2025年心理咨詢師考試試題及答案詳解
- 2024-2025成都各區(qū)初二年級(jí)下冊(cè)期末數(shù)學(xué)試卷
- 2024年湖北省中考地理生物試卷(含答案)
- 床上用品、服裝產(chǎn)品供貨及售后服務(wù)方案
- 履帶吊月保養(yǎng)記錄
- 公路運(yùn)營(yíng)之隧道知識(shí)培訓(xùn)
- 施耐德公司品牌戰(zhàn)略
評(píng)論
0/150
提交評(píng)論