




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Hadoop大數(shù)據(jù)項(xiàng)目開(kāi)發(fā)——MapReduce性能調(diào)優(yōu)目錄content02MapReduce優(yōu)化方法01MapReduce運(yùn)行效率瓶頸MapReduce運(yùn)行效率瓶頸運(yùn)行效率哪些因素影響MapReduce運(yùn)行效率瓶頸1.數(shù)據(jù)傾斜并行處理的數(shù)據(jù)集中,某一部分的數(shù)據(jù)顯著多于其它部分。使得該部分的處理速度成為整個(gè)數(shù)據(jù)集處理的瓶頸。MapReduce運(yùn)行效率瓶頸2.Map和Reduce數(shù)量設(shè)置不合理100M0.8默認(rèn)緩沖區(qū)大小默認(rèn)溢出的百分比1默認(rèn)Reduce任務(wù)數(shù)量MapReduce運(yùn)行效率瓶頸3.Map運(yùn)行時(shí)間太長(zhǎng),導(dǎo)致Reduce等待過(guò)久使Map運(yùn)行到一定程度后,Reduce也開(kāi)始運(yùn)行,減少Reduce的等待時(shí)間。MapReduce運(yùn)行效率瓶頸4.小文件過(guò)多當(dāng)輸入的是大量的小文件時(shí),會(huì)啟動(dòng)大量的MapTask;一方面大量占用NameNode的內(nèi)存空間,另一方面索引文件過(guò)大使得索引速度變慢MapReduce運(yùn)行效率瓶頸5.大量不可分塊的超大文件源文件無(wú)法分塊;導(dǎo)致需要通過(guò)網(wǎng)絡(luò)IO從其他節(jié)點(diǎn)讀取文件塊,IO開(kāi)銷較大。不可分塊超大文件MapReduce運(yùn)行效率瓶頸6.Spill次數(shù)過(guò)多當(dāng)Map產(chǎn)生的數(shù)據(jù)非常大時(shí),如果默認(rèn)的Buffer大小不夠;會(huì)進(jìn)行非常多次的Spill,進(jìn)行Spill就意味著要寫(xiě)磁盤(pán),產(chǎn)生IO開(kāi)銷。10Merge默認(rèn)處理Spill數(shù)量MapReduce運(yùn)行效率瓶頸7.merge次數(shù)過(guò)多Spill非常多,Merge階段每次只能處理10個(gè)Spill,造成頻繁的IO處理;調(diào)大并行處理的Spill數(shù)減少M(fèi)erge次數(shù),但是如果調(diào)整的數(shù)值過(guò)大,并行處理Spill的過(guò)程過(guò)多會(huì)對(duì)節(jié)點(diǎn)造成很大壓力。MapReduce優(yōu)化方法1、數(shù)據(jù)輸入優(yōu)化合并小文件大量的小文件會(huì)產(chǎn)生大量的裝載任務(wù),增大Map任務(wù)裝載次數(shù)。CombineTextinputFormat采用這個(gè)類作為輸入,解決輸入端大量小文件場(chǎng)景。CombineInputFormat使用這個(gè)類自定義分片策略,對(duì)小文件進(jìn)行合并處理從而減少M(fèi)apTask的數(shù)量。MapReduce優(yōu)化方法2、Map階段優(yōu)化減少溢寫(xiě)次數(shù)100M默認(rèn)緩沖區(qū)大小200M增大到200M減少磁盤(pán)的IO操作。減少合并次數(shù)10個(gè)文件20個(gè)文件減少歸并的次數(shù)在map之后,先進(jìn)行Combine處理,減少IO操作。MapReduce優(yōu)化方法合理設(shè)置Reduce端的Buffer3、Reduce階段優(yōu)化合理設(shè)置Reduce數(shù)量設(shè)置Map、Reduce共存Map運(yùn)行到一定程度后,Reduce也開(kāi)始運(yùn)行,減少Reduce的等待時(shí)間。保證reduce可以直接從buffer中拿一部分?jǐn)?shù)據(jù)MapReduce優(yōu)化方法4、I/O傳輸優(yōu)化采用數(shù)據(jù)壓縮的方式,減少網(wǎng)絡(luò)IO的時(shí)間Snappy速度快,系統(tǒng)自帶LZO壓縮編碼器速度快,支持切片MapReduce優(yōu)化方法5、數(shù)據(jù)傾斜優(yōu)化某一個(gè)區(qū)域的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于其他區(qū)域,如何減少數(shù)據(jù)數(shù)據(jù)傾斜:1.抽樣和范圍分區(qū)通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行抽樣得到的結(jié)果來(lái)預(yù)設(shè)分區(qū)邊界值;2.自定義分區(qū)數(shù)據(jù)量大的進(jìn)行分區(qū)處理;01020304傾斜優(yōu)化3.Combine在Map端減少數(shù)據(jù)4.采用Map
Join,避免ReduceJoinReduceJoin有數(shù)據(jù)傾斜的情況,MapJoin不會(huì),不過(guò)MapJoin適用于一張表很小,另一張表很大的情況。聚合精簡(jiǎn)數(shù)據(jù);MapReduce優(yōu)化方法6、HDFS小文件優(yōu)化方法JVM原理:一個(gè)MAP運(yùn)行在一個(gè)JVM上,開(kāi)啟重用,該Map在JVM上運(yùn)行完畢,JVM繼續(xù)運(yùn)行其他Map。開(kāi)啟JVM,重用會(huì)減少45%的運(yùn)行時(shí)間CombineTextInputFormat用于將多個(gè)文件合并成一個(gè)單獨(dú)的spilt。HadoopArcHive可以高效地將多個(gè)小文件打包成一個(gè)HAR文件,減少了nameNode的內(nèi)存使用。將小文件合成大文件再上傳HDFS采用CombineTextInputFormat提高效率1234使用MapReduce程序?qū)π∥募M(jìn)行合并SequenceFile由一系列的二進(jìn)制key/value組成,如果Key為文件名,value為文件內(nèi)容,則可以將大批小文件合并
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國(guó)自行車和滑板車租賃行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年中國(guó)胖自行車行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年中國(guó)肌苷片行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年中國(guó)維諾弗(蔗糖鐵注射液)行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年中國(guó)精磺胺行業(yè)市場(chǎng)現(xiàn)狀分析及競(jìng)爭(zhēng)格局與投資發(fā)展研究報(bào)告
- 高鐵變壓器油泵異音分析研究
- 汽車烤漆機(jī)租賃合同
- 生物修復(fù)生物技術(shù)實(shí)驗(yàn)室共建及生態(tài)修復(fù)技術(shù)服務(wù)合同
- 信息技術(shù)產(chǎn)業(yè)技術(shù)秘密共享及保密合同
- 醫(yī)療行業(yè)合規(guī)性評(píng)估與報(bào)告編制專項(xiàng)服務(wù)協(xié)議書(shū)
- 礦井瓦斯抽采
- 施工現(xiàn)場(chǎng)安全檢查記錄表(周)以及詳細(xì)記錄
- 立法學(xué)完整版教學(xué)課件全套ppt教程
- 五年級(jí)下冊(cè)科學(xué)說(shuō)課課件 -1.2 沉浮與什么因素有關(guān) |教科版 (共28張PPT)
- 流動(dòng)注射分析儀常見(jiàn)問(wèn)題解決方案.
- 《出口報(bào)關(guān)單模板》word版
- 邊坡護(hù)坡檢驗(yàn)批表格模板
- 工會(huì)會(huì)計(jì)制度——會(huì)計(jì)科目和會(huì)計(jì)報(bào)表(全)
- 《青年友誼圓舞曲》教案
- 馬清河灌區(qū)灌溉系統(tǒng)的規(guī)劃設(shè)計(jì)課程設(shè)計(jì)
- 《Monsters 怪獸》中英對(duì)照歌詞
評(píng)論
0/150
提交評(píng)論