B400G以太網(wǎng)助力智算中心光互聯(lián)_第1頁(yè)
B400G以太網(wǎng)助力智算中心光互聯(lián)_第2頁(yè)
B400G以太網(wǎng)助力智算中心光互聯(lián)_第3頁(yè)
B400G以太網(wǎng)助力智算中心光互聯(lián)_第4頁(yè)
B400G以太網(wǎng)助力智算中心光互聯(lián)_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

B400G以太網(wǎng)助力智算中心光互聯(lián)程偉強(qiáng)中國(guó)移動(dòng)研究院-基礎(chǔ)網(wǎng)絡(luò)技術(shù)研究所算力成為數(shù)字經(jīng)濟(jì)時(shí)代的核心競(jìng)爭(zhēng)力AI大模型帶動(dòng)算力成為數(shù)字經(jīng)濟(jì)時(shí)代的核心競(jìng)爭(zhēng)力。到2025年,我國(guó)算力規(guī)模將超過300

EFLOPS,智能算力占比達(dá)到35%;算力基礎(chǔ)設(shè)施將成為推動(dòng)我國(guó)經(jīng)濟(jì)轉(zhuǎn)型升級(jí)和培育新動(dòng)能的重要力量2022年12月2022年中國(guó)移動(dòng)全球合作伙伴大會(huì)發(fā)布《新一代智算中心網(wǎng)絡(luò)技術(shù)白皮書》2023年8月2023年中國(guó)算力(基礎(chǔ)設(shè)施)大會(huì)發(fā)布《中國(guó)移動(dòng)NICC新型智算中心技術(shù)體系白皮書2023年5月2023云網(wǎng)智聯(lián)大會(huì)發(fā)布《面向AI大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書》智算中心將成為支撐和引領(lǐng)數(shù)字經(jīng)濟(jì)發(fā)展的關(guān)鍵信息基礎(chǔ)設(shè)施,將有效促進(jìn)AI產(chǎn)業(yè)化、產(chǎn)業(yè)AI化的進(jìn)程國(guó)家發(fā)改委:《全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》2021年5月2022年7月工信部:加速推進(jìn)高端芯片、新型數(shù)據(jù)中心等領(lǐng)域研發(fā)突破2022年1月國(guó)家發(fā)改委:我國(guó)將布局八大算力網(wǎng)絡(luò)國(guó)家樞紐節(jié)點(diǎn)

加快數(shù)字經(jīng)濟(jì)發(fā)展2023年5月中央網(wǎng)信辦:以算力、賦能、產(chǎn)業(yè)發(fā)展互動(dòng)

走出數(shù)字經(jīng)濟(jì)特色化發(fā)展道路2023年10月工信部等六部門聯(lián)合印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》2單個(gè)流量:數(shù)量多、帶寬小、異步累積流量:抖動(dòng)幅度較小,具有隨機(jī)性單個(gè)流量:數(shù)量少、帶寬大、同步累積流量:波峰、波谷效應(yīng)明顯,具有周期性單個(gè)流量3累積流量單個(gè)流量累積流量傳統(tǒng)DC流量模型智算中心大模型(All-to-all)流量模型GPU停工等待其他GPU完成工作傳統(tǒng)DC與智算中心流量模型區(qū)別面向大模型訓(xùn)練,網(wǎng)絡(luò)成為AI算力瓶頸AI大模型以GPU集群分布式訓(xùn)練為基礎(chǔ),帶來大量節(jié)點(diǎn)間通信消耗,網(wǎng)絡(luò)成為AI算力“瓶頸”當(dāng)前業(yè)界主流智算中心網(wǎng)絡(luò)技術(shù)被國(guó)外廠商壟斷,網(wǎng)絡(luò)芯片存在代際差距,網(wǎng)絡(luò)可能成為我國(guó)AI發(fā)展的“新卡點(diǎn)”集群有效算力∝{GPU單卡算力*總卡數(shù)*線性加速比*有效運(yùn)行時(shí)}網(wǎng)絡(luò)設(shè)備能力決定GPU集群組網(wǎng)規(guī)模

網(wǎng)絡(luò)性能決定GPU集群算力加速比

網(wǎng)絡(luò)可用性決定GPU集群穩(wěn)定性芯片容量提升2倍,組網(wǎng)規(guī)模提高4倍 GPU集群性能

單GPU性能*N 2%的丟包就會(huì)使RDMA吞吐率下降為0隨著GPU單卡算力受限,以網(wǎng)強(qiáng)算成為提升大模型訓(xùn)練效率的關(guān)鍵,探索以太網(wǎng)的新調(diào)度機(jī)制、新接口速率和新安全方案,提升智算中心網(wǎng)絡(luò)性能和整體算力水平4目錄以太網(wǎng)新調(diào)度機(jī)制—GSE以太網(wǎng)新接口速率—B400GE以太網(wǎng)新安全方案—PHYSec56GSE技術(shù)體系---核心理念中國(guó)移動(dòng)提出全調(diào)度以太網(wǎng)(GSE)技術(shù)架構(gòu),最大限度兼容以太網(wǎng)生態(tài),創(chuàng)新基于報(bào)文容器(PKTC)的轉(zhuǎn)發(fā)及調(diào)度機(jī)制,構(gòu)建無(wú)阻塞、高帶寬、低時(shí)延的新型智算中心網(wǎng)絡(luò),形成標(biāo)準(zhǔn)開放的技術(shù)體系,助力AI產(chǎn)業(yè)發(fā)展創(chuàng)新以太網(wǎng)轉(zhuǎn)發(fā)機(jī)制,實(shí)現(xiàn)三大核心機(jī)制轉(zhuǎn)變從“局部”決策到“全局”調(diào)度從“流”分發(fā)到“報(bào)文”分發(fā)從盲發(fā)+被動(dòng)控制到感知+主動(dòng)控制將業(yè)務(wù)流拆分到不同“報(bào)文容器”轉(zhuǎn)發(fā),提供逐“報(bào)文容器”負(fù)載均衡機(jī)制,提升帶寬利用率從被動(dòng)擁塞控制,到基于“授權(quán)請(qǐng)求和響應(yīng)機(jī)制”的主動(dòng)流控,最大限度避免網(wǎng)絡(luò)擁塞產(chǎn)生全局視野的轉(zhuǎn)發(fā)調(diào)度機(jī)制,實(shí)現(xiàn)集中式管理運(yùn)維、分布式控制轉(zhuǎn)發(fā),提高網(wǎng)絡(luò)可用性當(dāng)前:逐流負(fù)載,鏈路利用率低、發(fā)生擁塞被動(dòng)降速未來:逐報(bào)文容器轉(zhuǎn)發(fā),鏈路負(fù)載均衡,全局調(diào)度,避免擁塞SpineSpineSpine目的leaf32

1321321源leaf321321321擁塞3 2 13 2 12 1丟包報(bào)文容器以太報(bào)文以太報(bào)文報(bào)文1長(zhǎng)度報(bào)文2長(zhǎng)度報(bào)文2GSEHeader報(bào)文1GSEHeader源節(jié)點(diǎn)根據(jù)報(bào)文容器長(zhǎng)度以及已經(jīng)占用的字節(jié)數(shù)為到達(dá)該節(jié)點(diǎn)的報(bào)文分配相應(yīng)的容器ID,并記錄其歸屬的報(bào)文容器編號(hào)及在該容器占用的字節(jié)數(shù)Packet報(bào)文容器是區(qū)別于CELL轉(zhuǎn)發(fā)的一種核心轉(zhuǎn)發(fā)機(jī)制,該機(jī)制下以太網(wǎng)報(bào)文根據(jù)最終設(shè)備或者設(shè)備出端口被邏輯分配并組裝成”邏輯等長(zhǎng)”的虛擬報(bào)文容器,并以該”容器”為最小單元在交換網(wǎng)絡(luò)中傳輸基于確定長(zhǎng)度的容器轉(zhuǎn)發(fā)提升多鏈路均衡性報(bào)文容器1早期

鏈路速率低長(zhǎng)短包轉(zhuǎn)發(fā)差異性大切CellCell1Cell2Cell3報(bào)文容器將來鏈路速率高

總轉(zhuǎn)發(fā)帶寬增大Cell相應(yīng)增大組容器Packet1Packet27DGSQ+調(diào)度在輸入端口將發(fā)送到不同端口(或者優(yōu)先級(jí))的數(shù)據(jù)包虛擬成不同的隊(duì)列,并且彼此互不影響,解決HOL從Send-based到Receive-based,避免網(wǎng)絡(luò)入向流量大于網(wǎng)絡(luò)容量,從源頭避免網(wǎng)絡(luò)擁塞GSE報(bào)文信令請(qǐng)求獲取信道資源INOUT無(wú)阻塞低時(shí)延 無(wú)損高帶寬vs逐流負(fù)載均衡

高時(shí)延

甚至

丟包容器負(fù)載均衡

長(zhǎng)尾時(shí)延低,網(wǎng)絡(luò)利用率高低時(shí)延1000流量負(fù)載(%)報(bào)文時(shí)延非均勻到達(dá)模型下時(shí)延vs負(fù)載8負(fù)載均衡和重排序負(fù)載均衡方式

輪詢 隨機(jī) 基于擁塞感知每個(gè)轉(zhuǎn)發(fā)節(jié)點(diǎn)根據(jù)自身負(fù)載情況對(duì)PKTC進(jìn)行負(fù)載均衡,且同PKTC內(nèi)的報(bào)文轉(zhuǎn)發(fā)路徑相同,高精度負(fù)載均衡方式,消除網(wǎng)絡(luò)微突發(fā),獲得轉(zhuǎn)發(fā)低延遲目的節(jié)點(diǎn)依照PKTC為單位進(jìn)行容器間解亂序,同PKTC內(nèi)報(bào)文嚴(yán)格保序容器間排序

大大降低排序壓力...GSFGSFGSPGSPGSP...容器1容器29目錄以太網(wǎng)新調(diào)度機(jī)制—GSE以太網(wǎng)新接口速率—B400GE以太網(wǎng)新安全方案—PHYSec10IEEE802.3

B400GE標(biāo)準(zhǔn)目標(biāo)演進(jìn)IEEE

P802.3df&dj

800GE和1.6TE規(guī)范目標(biāo)電通道以太速率信號(hào)速率50m

MMF100m

MMF500m

SMF2km

SMF10km

SMF40km

SMFAUIBPCu800Gb/s100Gb/s800GAUI-8800GBASE-KR8800GBASE-CR88pairs800GE-VR88pairs800GE-SR88pairs800GE-DR88pairs800GE-DR8-2200Gb/s800GAUI-4800GBASE-KR4800GBASE-CR44pairs800GE-DR44pairs

800GE-DR4-24λ

800GE-FR44λ800GBASE-LR4800Gb/s1pair800GE-LR11pair800GE-ER11.6Tb/s100Gb/s1.6TAUI-16200Gb/s1.6TAUI-81.6TBASE-KR81.6TBASE-CR81.6TBASE-DR81.6TBASE-DR8-2802.3df802.3dj802.3dj智算中心內(nèi)光互聯(lián)智算中心間光互聯(lián)潛在繼續(xù)分化出子項(xiàng)目200G/lane光

+電BaselineD1.0D2.0D3.0802.3dj2022202420232026+800GE(4×200G)1.6TbE(8x200G)20252021D1.0D2.0D3.0100G/lane光+電800GE(8x100G)802.3df200G/lane電800G單波相干D1.0?/D2.0?800GE(1×800G)1.6TE(2×800G)?800GE(4×200G)1.6TbE(8x200G)B400GE標(biāo)準(zhǔn)演進(jìn)時(shí)間線11B400G以太網(wǎng)技術(shù)標(biāo)準(zhǔn)化進(jìn)展800Gbps以太網(wǎng)標(biāo)準(zhǔn)802.3df:?jiǎn)瓮ǖ?00Gb/s的800G以太網(wǎng)標(biāo)準(zhǔn),目前已完成TaskForceReview形成D3.1版本草案“IEEEP802.3df?/D3.1,14Nov.2023”,正在進(jìn)行標(biāo)準(zhǔn)協(xié)會(huì)(SA)范圍審查802.3dj:?jiǎn)瓮ǖ?00Gb/s

FEC采用低復(fù)雜度Hamming(128,120)內(nèi)碼級(jí)聯(lián)RS(544,514)外碼;PMA邏輯層方案已確定,光層Baseline目前還未確定,仍處于技術(shù)討論階段,需要更長(zhǎng)的時(shí)間完成方案收斂802.3dj:面向10km和40km場(chǎng)景的單波800Gbps相干標(biāo)準(zhǔn)進(jìn)展緩慢,800GE

LR1已確定采用KP4+BCH的FEC方案,但O波動(dòng)和C波段之爭(zhēng)逐漸白熱化;800G

ER1采用相干已獲得業(yè)界共識(shí),F(xiàn)EC和光層PMD方案尚未明確1.6Tbps以太網(wǎng)標(biāo)準(zhǔn)802.3dj:1.6TEPCS/FEC方案已確定,電接口形態(tài)包括16通道100Gbps(16AUI-16)和8通道200Gbps(1.6TAUI-8);1.6T

500m/2km

PMD子層方案尚未明確,2km采用相干技術(shù)可行性更高1.6TbpsLPO和CPO等技術(shù)已出現(xiàn)商用產(chǎn)品形態(tài),在智算中心場(chǎng)景也將具有廣泛的應(yīng)用潛力12推動(dòng)800G

10km目標(biāo)立項(xiàng),確立相干技術(shù)路線中國(guó)移動(dòng)積極參與并推動(dòng)IEEE802.3df&dj工作組完成800G

10km目標(biāo)立項(xiàng),完成800G10km相干技術(shù)路線確立,提交10余篇標(biāo)準(zhǔn)文稿需求文稿ApplicationRequirementforBeyond400GEfromTelecomOperators’

Perspective分析文稿提出B400GE需求,引領(lǐng)技術(shù)方向Towardsconsensusonacoherentbased800G10/40kmspecification800G

10km方案對(duì)比分析,凸顯相干方案優(yōu)勢(shì)Considerationon800Gb/scoherentsolutionsfor

10km800G-LR1/ER1的GMP

bypass方案分析標(biāo)準(zhǔn)文稿提出800G

10/40km發(fā)射和接收標(biāo)準(zhǔn)規(guī)范建議提出基于oFEC的800G

10km/40km規(guī)范建議提出800G-LR1/ER1與800ZR一致性規(guī)范建議標(biāo)準(zhǔn)文稿分析文稿ConsiderationsonGMPbypassfor

800G-LR1/ER1UpdatetooFEC-basedsinglelambdabaselinefor10kmand40km

objectives標(biāo)準(zhǔn)文稿Alignmentof800GBASE-LR1and800GBASE-ER1withOIF800ZRImplementations-abaseline

proposal1314800GE(8×100G)

500m/2km高速接口測(cè)試本次測(cè)試800GE短距光模塊性能整體較為穩(wěn)定,模塊功耗在15w左右和工作溫度在50~60℃范圍仍有待優(yōu)化空間;800GE光模塊與路由器設(shè)備和測(cè)試儀適配性能良好,業(yè)界支持800GE設(shè)備廠家還較為單一測(cè)試拓?fù)洌嚎刹灏喂饽K插入測(cè)試儀表進(jìn)行環(huán)回測(cè)試測(cè)試內(nèi)容:非成幀誤碼率、FEC功能、發(fā)射機(jī)頻率偏移、收發(fā)傳輸時(shí)延、通道時(shí)延偏差、固件功能等光模塊性能測(cè)試800GE光模塊性能測(cè)試800GE光模塊與路由器設(shè)備適配測(cè)試模塊類型A廠商B廠商500m500m2km500m500m非成幀誤碼率通道11.0e-096.5e-103.3e-091.1e-073.3e-06通道23.9e-101.6e-103.8e-082.3e-074.9e-06通道31.4e-109.6e-101.7e-084.3e-081.6e-06通道46.9e-118.4e-112.5e-084.9e-083.8e-06通道52.7e-092.4e-092.3e-084.8e-082.3e-06通道66.5e-106.0e-103.4e-086.1e-081.7e-06通道72.0e-084.5e-093.6e-084.6e-093.0e-07通道81.1e-101.0e-093.4e-086.9e-081.8e-06模塊時(shí)延傳輸時(shí)延51ns52ns43ns92ns90ns時(shí)延抖動(dòng)3ns3ns4ns4ns3ns測(cè)試拓?fù)洌郝酚善髟O(shè)備800G接口對(duì)接測(cè)試儀表進(jìn)行互通測(cè)試測(cè)試內(nèi)容:包括流量轉(zhuǎn)發(fā)功能、業(yè)務(wù)功能等設(shè)備能力測(cè)試注:802.3df規(guī)定的非成幀誤碼率BER≤2.4e–4目錄以太網(wǎng)新調(diào)度機(jī)制—GSE以太網(wǎng)新接口速率—B400GE以太網(wǎng)新安全方案—PHYSec15PHYSec:物理層加密,更低時(shí)延、更低開銷、協(xié)議透明19951994 2006NowL5L4L3L2物理層TimeMACSecPHYSecSoftware+

hardwareHardwareHardwareTLS/DTLS MAC IP TCPsoftwareMAC IPMACMACCipher

textCipher

textCipher

textCipher

textRDMASecHardware2022UDPCipher

textMAC IPIPSec?智算中心基礎(chǔ)設(shè)施承載大量數(shù)據(jù)傳輸處理,安全訴求極高;RDMASec、MACSec等安全方案在加解密帶寬開銷、時(shí)延、硬件支持等方面存在性能瓶頸,暴露的幀頭部信息仍存在安全漏洞PacketMACPCSPMAPMAPMDxAUIPHYSec光模塊加密接口芯片加密PacketMACPCSPMAPMA PMDxAUIPHYSec16or探索新層次:將傳統(tǒng)密碼學(xué)思想應(yīng)用到以太網(wǎng)物理層—PHYSec,解決現(xiàn)有技術(shù)方案的安全漏洞與性能瓶頸,具有極低開銷、時(shí)延以及低功耗和成本等優(yōu)勢(shì)L1.5層PHYSec:基于“64B/66B碼塊”的PHY芯片實(shí)現(xiàn)MAC(Preamble+Padding+FCS)RSAMDeskewAM

LockRS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleaveMAC(Preamble+Padding+FCS)RSAMDeskewAM

LockRS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleavePMDPMAPMDPMADencryptionEncryption技術(shù)優(yōu)勢(shì):安全功能硬化,高吞量安全加密能力不占用設(shè)備CPU資源,安全能力卸載實(shí)現(xiàn)底層光通道不感知(OTN/SPN)的端到端數(shù)據(jù)加密加密后的64B/66B400GE400GE400GE400G

OTN64B/66B

GMP

OTUOTU

GMP

64B/66BL1.5-PHYSecPHY芯片Serdes光模塊光模塊PHY芯片Serdes17400GEL1.5-PHYSecL1層PHYSec:基于“比特流”的光模塊實(shí)現(xiàn)MAC(Preamble+Padding+FCS)RSDeskewAM

LockRS-FECSymboldistributionReorderPMAEn/Decode(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論