在網(wǎng)計算(NACA)技術(shù)白皮書_第1頁
在網(wǎng)計算(NACA)技術(shù)白皮書_第2頁
在網(wǎng)計算(NACA)技術(shù)白皮書_第3頁
在網(wǎng)計算(NACA)技術(shù)白皮書_第4頁
在網(wǎng)計算(NACA)技術(shù)白皮書_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

在網(wǎng)計算(NACA在網(wǎng)計算(NACA)技術(shù)白皮書(2023年)PAGEPAGE10目錄TOC\o"1-2"\h\z\u需求 2景 4算算心 4算物聯(lián) 6算構(gòu) 9架構(gòu) 9NACA征 圖 15術(shù)戰(zhàn) 18射 18確障 19序排 19池化 20望 23獻(xiàn) 24列表 25高性能計算(HPC)和人工智能(AI)等技術(shù)的發(fā)展正不斷推動生物醫(yī)藥、模型參數(shù)總量已經(jīng)達(dá)到千億級別,高性能計算也已經(jīng)邁向百億億級計算時代。同時,5G、工業(yè)互聯(lián)算力能力方面,一是HPC二是大規(guī)模分布式系統(tǒng)接收端面臨的incast多打一問題,造成任務(wù)完成時間過長;三是現(xiàn)分布式機(jī)器學(xué)習(xí)模型訓(xùn)練加速[4]以及基于Infiniband技術(shù)提出的Sharp技術(shù)[5]可以加速HPC等大規(guī)模計算密集型任務(wù)。好等挑戰(zhàn)?;谝陨峡剂?,本白皮書提出了在網(wǎng)計算新架構(gòu)NACA(NetworkAssistedComputingAcceleration),系統(tǒng)化推進(jìn)在網(wǎng)計算設(shè)計和實現(xiàn)。在網(wǎng)計算NACA是一種與應(yīng)用深度融合,實現(xiàn)網(wǎng)絡(luò)輔助計算加速的新模式,通過重塑應(yīng)用處理和開發(fā)模式,實現(xiàn)系統(tǒng)加速,提升算網(wǎng)資源利用率。NACA出倡議,希望聯(lián)合產(chǎn)學(xué)研持續(xù)攻關(guān),推進(jìn)在網(wǎng)計算技術(shù)應(yīng)用和發(fā)展。高性能計算2013以典型的MPI聚合算子AllReduce為例,其通信交互復(fù)雜度為O(logN)(N表示服務(wù)器節(jié)點規(guī)模)。如圖1(a)所示,傳統(tǒng)聚合通信方式,8個節(jié)點(N=8)進(jìn)行AllReduce計算總共需要3個批次的通信,復(fù)雜度為O(logN);圖1(b)為采用了在網(wǎng)計算加速的聚合通信方式,8個節(jié)點進(jìn)行AllReduce計算,由接入leaf進(jìn)行第一次匯聚,由spine交換機(jī)進(jìn)行第二次匯聚,總的通信批次只與網(wǎng)絡(luò)的層次O(C),CHPC下的網(wǎng)絡(luò)時延,提升了計算效率。圖1(a)端側(cè)實現(xiàn)AllReduce 1(b)在網(wǎng)計算實現(xiàn)AllReduce應(yīng)用處理效率。高性能存儲從而保證所有的服務(wù)器產(chǎn)生一致的結(jié)果。文件內(nèi)容的修改也可以保證全局唯一性。sub-RTT的響應(yīng)時間,并有效提高端側(cè)的吞吐量。大數(shù)據(jù)流式處理Manager(ShuffleSpark[11]作業(yè)中對數(shù)據(jù)進(jìn)行重新分區(qū)的過程,ShuffleManagerSparkShuffle過程的組件。)MapReduce[12]ReducerMapper中拉取數(shù)據(jù),進(jìn)行規(guī)WordCount需要對分散在多機(jī)的單詞計數(shù)進(jìn)行匯總;SQL應(yīng)用中,先分類(groupby)再匯總(sum、count)也是常見的計算模車聯(lián)網(wǎng)以協(xié)助壓縮數(shù)據(jù)流量,縮短通信時延,提高處理的實時性。大減少需要回傳云端數(shù)據(jù)量。圖2在網(wǎng)計算車聯(lián)網(wǎng)用例文獻(xiàn)[6]XR擴(kuò)展現(xiàn)實(ExtendedReality,XR)VR、ARMR等多種技術(shù)的統(tǒng)稱,XR技術(shù)不斷演化升級,數(shù)據(jù)流更多源異構(gòu)、確定性時延和可靠性均提出全新要求。在網(wǎng)計算技術(shù)通過網(wǎng)絡(luò)感知業(yè)務(wù)的方式,XR終端設(shè)備提供高性能計算支撐。XRXR的服務(wù)保障。AR/VR5G并行分布式計算能力和聚合通信能力,隨路卸載邊緣云的計算任務(wù),大幅提升AR/VR渲染能力,提供更實時的用戶體驗。圖3基于在網(wǎng)計算的XR業(yè)務(wù)加速Sharp[5]在網(wǎng)計算Infiniband編程范式不友好方面,目前應(yīng)用程序開發(fā)和網(wǎng)絡(luò)設(shè)備開發(fā)模式有差異,對于應(yīng)用開發(fā)者門檻較高,不利于在網(wǎng)計算的設(shè)計和實現(xiàn)。針對現(xiàn)有問題,本白皮書提出在網(wǎng)計算新架構(gòu)NACA(NetworkAssistedComputingAcceleration)。在網(wǎng)計算NACA以提升在網(wǎng)計算通用性為目標(biāo),重構(gòu)應(yīng)用處理模式,構(gòu)建全新的在網(wǎng)計算通信庫,圍繞拓?fù)溆成?、編程范式、計算實現(xiàn)、資源管理形成”四個統(tǒng)一”,實現(xiàn)網(wǎng)絡(luò)輔助計算加速,提升分布式系統(tǒng)算能算效。圖4在網(wǎng)計算(NACA)技術(shù)架構(gòu)NACA在網(wǎng)計算通信庫層向上對接多種分NACA管理5個核心功能層。異構(gòu)網(wǎng)元XPUNACA在網(wǎng)計算性能。高性能互聯(lián)保障,可以基于現(xiàn)有成熟協(xié)議棧實現(xiàn),如RoCE、InfiniBand[8]、Omni-Path[9]Slingshot[10]源尋址等功能。在網(wǎng)計算通信庫NACA架構(gòu)體系的核心層,為分布式應(yīng)用提供了通用BroadcastReduce、AllReduce等;AllGather、ReduceScatterBarrier)。分布式應(yīng)用NACAHPC、高性能存儲以及分布式機(jī)器學(xué)習(xí)5G/6GSub-RTT的快速響應(yīng),縮短數(shù)據(jù)傳輸路徑,優(yōu)化分布式應(yīng)用的處理流程。編排管理(如計算圖真正做到在網(wǎng)計算即服務(wù)。NACA架構(gòu)為分布式應(yīng)用提供網(wǎng)絡(luò)輔助計算加速,其核心特征體現(xiàn)在拓?fù)溆成?、計算實現(xiàn)、編程范式和資源管理四個方面,形成“四個統(tǒng)一”。邏輯物理統(tǒng)一:NACA以親和度更高的方式將應(yīng)用邏輯拓?fù)溆成涞綄嶋H物理資源;通信原語統(tǒng)一:NACA構(gòu)建了統(tǒng)一的在網(wǎng)計算通信庫,為多樣化應(yīng)用提供通用在網(wǎng)計算能力;編程范式統(tǒng)一:NACA提供了統(tǒng)一的應(yīng)用設(shè)計和部署方案,簡化開發(fā)復(fù)雜度;網(wǎng)內(nèi)資源統(tǒng)一:NACA優(yōu)化了網(wǎng)絡(luò)資源管理,構(gòu)建一體化計算資源池,提升在網(wǎng)計算性能。特征一:邏輯物理統(tǒng)一NACAIO器的計算資源,可以更高效地共同完成計算任務(wù)。5spine交換機(jī)。這種映射機(jī)制下圖5邏輯拓?fù)渑c物理拓?fù)溟g的映射特征二:通信原語統(tǒng)一NACAHPC、智能計算以及大數(shù)據(jù)等多樣化應(yīng)用提供一致的在網(wǎng)計對應(yīng)的數(shù)據(jù)結(jié)構(gòu)不同。模型訓(xùn)練數(shù)據(jù)類型通常為值流(ValueStream),而大數(shù)據(jù)應(yīng)用則承載鍵值流(Key-ValueStream),兩者在索引機(jī)制、排列方式以及計算上限等方面存在不同。NACA架構(gòu)下,不同的應(yīng)用可以調(diào)用統(tǒng)一的在網(wǎng)計算通信庫實現(xiàn)計算加6所示,通信算子層面,NACA為多種分布式應(yīng)用統(tǒng)一定義了幾類高需靈活調(diào)用。在網(wǎng)計算原語層面,NACA規(guī)范了設(shè)備支持的在網(wǎng)計算原語。在高設(shè)備易用性,降低應(yīng)用開發(fā)、運維成本。圖6統(tǒng)一的在網(wǎng)計算原語實現(xiàn)在網(wǎng)計算通信庫特征三:編程范式統(tǒng)一NACA7P4NPLMicro-C不同的網(wǎng)絡(luò)編程語言對于應(yīng)用開發(fā)人員構(gòu)成了較大的使用門檻。圖7在網(wǎng)計算編程范式統(tǒng)一示意圖能擴(kuò)展維護(hù)。特征四:網(wǎng)內(nèi)資源統(tǒng)一NACARDMACXL[7]等高性能互聯(lián)協(xié)議實現(xiàn)跨網(wǎng)絡(luò)設(shè)備資源一致訪RDMAInfinibandRoCE網(wǎng)絡(luò)架構(gòu)下核心的遠(yuǎn)距離內(nèi)存直接訪問協(xié)議,CXL(ComputeExpressLink)是一種開放的行業(yè)互連標(biāo)準(zhǔn),為主機(jī)內(nèi)部處理器I/ORDMA、CXLoverEthernet等方式實現(xiàn)圖8在網(wǎng)計算網(wǎng)內(nèi)資源統(tǒng)一圖9在網(wǎng)計算整體功能視圖NACA架構(gòu)的應(yīng)用層。2NACA架構(gòu)的在網(wǎng)計算性等功能方面主要有以下常用在網(wǎng)計算引擎:在網(wǎng)計算引擎在網(wǎng)規(guī)約:AllReduceMPI報文發(fā)送到葉子交換機(jī)。葉子節(jié)點對報文信息進(jìn)行提取后,由內(nèi)通過MPISUM(求和)算子。在網(wǎng)序列器:事務(wù)管理器是保證分布式事務(wù)一致性的集中式解決方案.然而,作為一個集列號。在網(wǎng)序列器可以釋放服務(wù)器的算力來執(zhí)行其他計算任務(wù)。在網(wǎng)鎖:分布式系統(tǒng),通常有一個專用的鎖管理器,節(jié)點可以聯(lián)系它以獲得資源的讀和/CAS(compare-and-swap,較和交換)FA(fetch-and-Add添加)。鎖管理器通常運行在服務(wù)器上,從而導(dǎo)致I/O遲,性能更差。在網(wǎng)鎖可以有效加速系統(tǒng)并發(fā)控制原子粒度通用算子“簡單”并且“通用”類別,比較常見的是聚合通信算子和一致性算子。表1聚合通信算子名稱和功能說明算子分類通用算子OpCode算子說明聚合通信算子(通過函數(shù)將一組數(shù)據(jù)聚合為一個較小的集合)MAXMaximum,最大值MINMinimum,最小值SUMSum,求和PRODProduct,乘積LANDLogicaland,邏輯與BANDBit-wiseand,按位與LORLogicalor,邏輯或BORBit-wiseor,按位或LXORLogicalxor,邏輯異或BXORBit-wisexor,按位異或表2一致性算子名稱和功能說明算子分類通用算子OpCode算子說明一致性算子(通過增刪改查加速分布式系統(tǒng)端到端性能)WRITE寫入READ讀取DELETE刪除CASCompareandswap,比較并替換CAADDCompareandaddCASUBCompareandsubFAAFetchandadd,取原值,并進(jìn)行加法FASUBFetchandsubtractionFAORFetchandorFAANDFetchandandFANANDFetchandnandFAXORFetchandxor10了在網(wǎng)計算設(shè)備解析消息的過程。圖10面向消息的在網(wǎng)計算數(shù)據(jù)處理,定義協(xié)議??赡芤敫嗟南到y(tǒng)開發(fā)和操作的復(fù)雜性;數(shù)據(jù)處理。表3面向消息的在網(wǎng)計算實現(xiàn)方式實現(xiàn)方式顯式連接方式透明連接方式網(wǎng)絡(luò)設(shè)備是否實現(xiàn)完全協(xié)議棧需要實現(xiàn)完整或部分協(xié)議棧不需要端側(cè)與網(wǎng)絡(luò)設(shè)備是否建立傳輸層連接需要不需要,但需要感知傳輸層連接RDMA“Go-Back-N”可能的方法包括在網(wǎng)絡(luò)設(shè)備記錄應(yīng)用消息的出現(xiàn)次數(shù)以及是否完成計算等并依靠端側(cè)重傳機(jī)制從錯誤中恢復(fù)。圖11在網(wǎng)計算程序編譯與部署架構(gòu)11顯示了在網(wǎng)計算程序統(tǒng)一編譯和部署的架構(gòu)及流程。前端程序需首先最大的可行解,并通過相應(yīng)求解器尋求最優(yōu)編排方案。源池。12圖12網(wǎng)絡(luò)設(shè)備內(nèi)部多任務(wù)動態(tài)搶占共享計算資源13理器首先根據(jù)網(wǎng)絡(luò)節(jié)點上報的資源信息將物理網(wǎng)絡(luò)設(shè)備存儲器組織為虛擬存儲服務(wù)器訪問網(wǎng)絡(luò)設(shè)備計算資源的一致性,實現(xiàn)無中斷的資源重新分配。圖13在網(wǎng)計算統(tǒng)一資源管理NACA技術(shù)成熟,繁榮產(chǎn)業(yè)生態(tài),提出以下幾點倡議:深化在網(wǎng)計算技術(shù)攻關(guān)用提供高性能、高可靠的網(wǎng)內(nèi)加速。聯(lián)合推動在網(wǎng)計算技術(shù)開源及標(biāo)準(zhǔn)化IETF、ITU、CCSAOCP、Apache等開源組織布局在網(wǎng)計算開源項目,共同構(gòu)筑開放共享的在網(wǎng)計算生態(tài)格局。開展在網(wǎng)計算聯(lián)合試驗驗證。中國移動正加快步伐構(gòu)建算力網(wǎng)絡(luò)試驗網(wǎng)“1+9+9”CFITI方案,不斷推進(jìn)在網(wǎng)計算賦能千行百業(yè),促進(jìn)產(chǎn)業(yè)生態(tài)繁榮。參考文獻(xiàn)算力網(wǎng)絡(luò)白皮書ComputingForceNetworkWhitepaper.中國移動.2021.算力網(wǎng)絡(luò)技術(shù)白皮書ComputingForceNetworkTechnologyWhitepaper.中國移動.2022.算網(wǎng)一體網(wǎng)絡(luò)架構(gòu)及技術(shù)體系展望白皮書中國移動研究院.2022ChonLamLao,YanfangLe,KshiteejMahajan,YixiChen,WenfeiWu,AdityaAkella,MichaelM.Swift,"ATP:In-networkAggregationforMulti-tenantLearning."NSDI2021:741-761.RichardL.Graham,DevendarBureddy,PakLui,HalRosenstock,GiladShainer,GilBloch,DrorGoldenberg,MikeDubman,SashaKotchubievsky,VladimirKoushnir,LionLevi,AlexMargolin,TamirRonen,AlexanderShpiner,OdedWertheim,EitanZahavi,"ScalableHierarchicalAggregationProtocol(SHArP):AHardwareArchitectureforEfficientDataReduction."COMHPC@SC2016:1-10MingyuanZang,ChanggangZheng,RadostinStoyanov,LarsDittmannandNoaZilberman,"P4Pir:In-NetworkAnalysisforSmartIoTGateways."SIGCOMM'22:ProceedingsoftheSIGCOMM'22PosterandDemoSessions.August2022.Pages46–48./10.1145/3546037.3546060.CXL./.InfiniBand./.Omni-Path./content/www/us/en/products/network-io/high-performance-fabrics.html.Slingshot./en-us/.[11]Spark./oop-mapreduce-client-core/MapReduceTutorial.htmlTop500.https:///縮略語列表縮略語英文全名中文解釋5G5thGenerationMobileCommunicationTechnology第五代移動通信技術(shù)AIArtificialIntelligence人工智能ARAugmentedReality增強(qiáng)現(xiàn)實ASICApplicationSpecificIntegratedCircuit應(yīng)用型專用集成電路CCSAChinaCommunicationsStandardsAssociation中國通信標(biāo)準(zhǔn)化協(xié)會CFITICFNInnovativeTestInfrastructure中國移動算力網(wǎng)絡(luò)試驗示范網(wǎng)CPUCentralProcessingUnit中央處理器CXLComputeExpressLink計算快速鏈接DRAMDynamicRandomAccessMemory動態(tài)隨機(jī)存取存儲器GTMGlobalTrafficManager全局流量管理HPCHighPerformanceComputing高性能計算I/OInput/Output輸入/輸出IETFInternetEngineeringTask

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論