




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
AI智算中心基礎設施方案白皮書智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書序言近兩年來,我們目睹了人工智能(AI)以驚人的速度發(fā)展和不斷成熟,它正在改變我們的生活、工作和與技術交互的ChatGPT為代表的生成式人工智能(AIGC)因其顯著的進步和廣泛的應用范圍而引起各行各業(yè)極大的關注。它能夠生成與人類語言非常相似的文本,生成高清圖片,視頻,影片,甚至編程,顛覆了大眾對人工智能(AI)的傳統(tǒng)認知,吸引了普通大眾乃至各個領域的專家的重點關注。隨著人工智能(AI)應用變得越來越普遍和具有影響力,其對算力的需求也隨之快速增長,人工智能(AI)業(yè)務負載也正在成為數(shù)據(jù)中心負載的重要組成部分,并且要求必須以集群的方式進行部署。因此,機柜的功率密度和數(shù)據(jù)中心的規(guī)模將大幅提升,給數(shù)據(jù)中心物理基礎設施(包括供配電、制冷等)帶來顛覆性的挑戰(zhàn)。換句話說,這意味著人工智能(AI)將顛覆通算中心(傳統(tǒng)數(shù)據(jù)中心)的設計和運營。為應對這些挑戰(zhàn),我們需要重新思考數(shù)據(jù)中心從IT層面到物理基礎設施層面的規(guī)劃和設計,從而建設出可以適應未來IT技術不斷發(fā)展的具有彈性和可擴展性的智算中心(AIDC)。智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書一智算中心的演進分析1.1智能算力的發(fā)展情況概述1.2智算芯片結(jié)構演進1.3智算用戶側(cè)訴求演進1.4機柜功耗高密度化演進1.5靜態(tài)負載向動態(tài)負載演進二智算中心選址與規(guī)劃2.1智算中心選址2.2智算中心建筑形式2.3智算中心建筑布局2.4智算中心房間功能需求2.5智算中心裝飾裝修需求2.6已有建筑改造為智算中心三.智算中心電氣鏈路架構挑戰(zhàn)及演進趨 智算中心電氣鏈路的挑 電力能源接入挑 配電與IT機房的面積比挑 電能利用率挑 能源利用效率(PUE)挑戰(zhàn) 服務器電源形式挑 智算負載分級供電的挑 末端配電方式挑 負載動態(tài)沖擊挑戰(zhàn) 環(huán)境溫度突變挑 智算中心供配電系統(tǒng)的演進趨勢—“智算電能管理鏈 電力能源系統(tǒng)向“算電協(xié)同”演進 簡化供電系統(tǒng)架構演 智算負載分級供電演 預制電力模組演 UPS向MW級,超高效及高密化演進 鋰進鉛退/儲備一體演 智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書目 一 智算中心的演進分末端電壓等級提升及全直流系統(tǒng)演 SST的前沿應用探 包間白地板交付方式的演 融合末端配電方式的演 新能源、儲能在智算中心的應用分 新能源在智算中心應用是必然趨 新能源發(fā)電在智算中心消納仍面臨諸多挑 儲能系統(tǒng)在智算中心應用的多重價 智算電能管理 四.智算中心制冷系統(tǒng)架 制冷技術發(fā)展趨 制冷系統(tǒng)架構的分類及方 芯片 機柜側(cè)/末端空調(diào)側(cè)(風冷技術 機柜側(cè)/末端空調(diào)側(cè)(液冷技術 冷源 制冷技術應用評 智算中心制冷應對策 五.智算中心預制模塊化技術的應用分 智算中心預制模塊化技術發(fā)展趨 電氣預制模塊化趨 制冷預制模塊化趨 智算中心預制模塊化趨 六總結(jié)與展望七7.1名詞解釋7.2主要作者介紹7.3六總結(jié)與展望七7.1名詞解釋7.2主要作者介紹7.3版權聲明
過去的十幾年,是通算中心(傳統(tǒng)數(shù)據(jù)中心)(見附錄名詞解釋)快速發(fā)展的階段,主要以云計算為主。隨著生成式運輸?shù)阮I域產(chǎn)生了廣泛的應用需求,通算中心(傳統(tǒng)數(shù)據(jù)中心)(見附錄名詞解釋)應運而生,它支持大規(guī)模的數(shù)據(jù)處理、機器學習、深度學習和其他智能算法的運算需求,得益于人工智能的革命性發(fā)展,智算中心的規(guī)模和處理能力正在呈指數(shù)級增長,以滿足日益增長的算力需求。智算中心已成為通算中心(傳統(tǒng)數(shù)據(jù)中心)升級發(fā)展的必然趨勢。本章節(jié)結(jié)合目前智能算力的發(fā)展情況,對智算中心(AIDC)在芯片結(jié)構演進、用戶側(cè)訴求演進、高密度化演進、負載特性演進等進行分析和總結(jié),作為規(guī)劃選址、電力系統(tǒng)、制冷系統(tǒng)及預制化等后續(xù)章節(jié)的依據(jù)和基礎。智能算力的發(fā)展情況概述算力發(fā)展:隨著數(shù)字經(jīng)濟時代的到來,數(shù)據(jù)成為新的生產(chǎn)資料,而算力則成為新的生產(chǎn)力。在萬物互聯(lián)的背景下,數(shù)據(jù)量爆炸式增長,對算力的需求達到前所未有的高度。從城市到家庭到個人,從政府到行業(yè)到企業(yè),以及新能源汽車智能化操控、短視頻內(nèi)容推薦、電商平臺個性化推薦等,每個生活和生產(chǎn)場景均離不開算力對信息的處理,算力已成為社會發(fā)展的重要動能??梢灶A見,算力將無處不在,算力服務也將像水、電一樣,成為一種社會基礎設施。算力分類:按照系統(tǒng)構成、技術特征和應用領域的差異,算力可分為三類:通用算力、超算算力和智能算力(見附錄名詞解釋)。由于超算中心屬于高度定制化的算力中心,不在本白皮書的討論范圍內(nèi)。本白皮書將重點討論通用算力中心(簡稱通算中心,即傳統(tǒng)數(shù)據(jù)中心)向人工智能(AI)算力中心(簡稱智算中心)的演進。智算業(yè)務:智算業(yè)務在應用中包括兩個環(huán)節(jié):訓練和推理(見附錄名詞解釋)智算業(yè)務發(fā)展趨勢:根據(jù)IDC的統(tǒng)計數(shù)據(jù)(見圖1),2022年部署的智算算力里,訓練算力占比為41.5%,推理算力占比達到58.5%;預計到2026年,推理算力的占比將會提升到62.2%,訓練算力降低到37.8%。這種趨勢也符合智算被廣泛應用的科學的比例變化,而隨著推理算力的普及,生成式人工智能(AIGC)的應用將引起范式革命(見附錄名詞解釋)(見圖2)。智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書
圖1:云端推理占比逐步提 圖2:生成式人工智能AIGC引發(fā)范式革AI輔助用戶AI輔助用戶
其中智能算力規(guī)模達到70EFLOPS180條,骨干網(wǎng)互聯(lián)帶寬擴容到40T,全國算力樞紐節(jié)點時延20ms時延圈已經(jīng)覆蓋全國主要城市。智算芯片結(jié)構演進
內(nèi)容制作模式數(shù)據(jù)來源:IDC,
智算算力(智算中心)和通用算力(傳統(tǒng)數(shù)據(jù)中心)通用算力芯片架構相對單一,主要以CPU為算力核心,基于CPU和云存儲集群提供的相關云服務,通常由多個物理服務器組成,通過網(wǎng)絡連接形成一個虛擬化的計算環(huán)境。市場表現(xiàn):根據(jù)PrecedenceResearch市場預測(見圖3),從2023年至2030年,全球人工智能(AI)市場有望實現(xiàn)超過35%的復合增長率。+38.8624 20232024E2025E2026E2027E2028E2029E數(shù)據(jù)來源:智算中心國內(nèi)外市場發(fā)展情況近年來,我國智算產(chǎn)業(yè)隨著算力產(chǎn)業(yè)的發(fā)展快速增長,政府鼓勵企業(yè)進行智算中心技術研發(fā)與服務能力的提升,智算中心應用與產(chǎn)業(yè)化成果顯著。2024年政府工作報告中明確提出:適度超前建設數(shù)字基礎設施,加快形成全國一體化算力體系,培育算力產(chǎn)業(yè)生態(tài)。數(shù)據(jù)顯示:截至2023年底,我國算力總規(guī)模達到230EFLOPS,即每秒230百億億次浮點運算,
智算算力則通常采用芯片異構計算架構,結(jié)合CPU、GPU、NPUTPU等(見附錄名詞解釋)多種芯片,形成高并發(fā)的分布式計算系統(tǒng),應用于神經(jīng)網(wǎng)絡模型的訓練及推理等。除算力芯片外,智算中心的存儲芯片也存在差異化的需求,例如更大的DRAM和NAND容量,以及存算一體技術的應用,以解決馮·諾依曼架構中的存儲墻問題等。從芯片結(jié)構演進來看,通算中心(傳統(tǒng)數(shù)據(jù)中心)側(cè)重于通用計算任務的性價比和靈活性,而智算中心注重人工智能(AI)類型的特定計算需求及運算效率,并要求具有強大的圖形處理功能,需要制定人工智能(AI)算力硬件和存儲解決方案,以滿足其人工智能(AI)高性能計算需求。智算用戶側(cè)訴求演進通用算力(傳統(tǒng)數(shù)據(jù)中心)的用戶側(cè)訴求經(jīng)過長期不斷的發(fā)展和梳理,已逐漸趨于成熟和穩(wěn)定,而智算中心用戶側(cè)訴求則主要是基于算力業(yè)務開展帶來的諸多挑戰(zhàn)。通算中心最初的用戶訴求主要來自于一些特定的應用,諸如:電子郵件、社交媒體和員工工資發(fā)放等。后來隨著云計算的快速發(fā)展,越來越多的關鍵應用遷移到云端,數(shù)據(jù)中心建設的規(guī)模也越來越大,通算中心對時延、帶寬、可用性以及安全性等有了更高的要求。為了滿足更高的標準和要求,通算中心通常選擇引入雙路市電,采用柴油發(fā)電機作為市電中斷后的應急電源,并配備不間斷電源UPS,從而確保系統(tǒng)的持續(xù)運行,隨著“碳中和、碳達峰”的目標制定,通算中心開始對極致PUE、降低數(shù)據(jù)中心的總擁有成本進行持續(xù)要求?;腉PU集群。這是因為,基于GPU的分布式工作原理,如果需要在減少訓練時間的同時降低訓練的成本,那么,必須在更小的物理空間內(nèi)部署更多的GPU服務器,從而突破分布式計算因帶寬和傳輸距離產(chǎn)生的運算瓶頸,提高集群算效,因此,智算訓練業(yè)務需要建立高度集中化的GPU集群。智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書在功能方面,智算用戶更注重數(shù)據(jù)的智能處理和應用,提供個性化的服務;在硬件上,智算用戶注重更多地使用GPU專用芯片;在軟件上,智算用戶注重更加高效的分配計算任務;在管理和運維方面,智算用戶要求自動化程度更高,更加注重資源的挖潛和最優(yōu)利用?;谝陨现撬阒行挠脩粼诟叨燃谢腉PU集群、功能、硬件、軟件以及管理和運維方面的訴求,智算中心面臨因此帶來的諸多變革和挑戰(zhàn),這些挑戰(zhàn)和對應的解決方案,在接下來的章節(jié)中將會進行詳細描述。機柜功耗高密度化演進如以上章節(jié)所述,智算訓練需要建立高度集中化的GPU集群,而智算中心GPU芯片的算力在不斷提升,目前H100/H200/H800等芯片TDP設計功耗已達700W(見圖4),2024年3月GTC大會最新發(fā)布的B200達1000W,GB200已達到2700W通常人工智能(AI)服務器(見圖5)由8卡GPU或NPU(AI)服務器的功耗在5kW~10kW。進一步由服務器組成整體機柜時,機柜的功率密度將達到40kW以上。以英偉達(NVIDIA)為例,DGX架構8卡GPUH100服務器額定功耗為10.2kW,安裝4臺服務器的風冷機柜功耗為42kW。新一代的GB200架構中,NVL36機柜功率密度為72kW,NVL72液冷機柜功率密度則為120kW。圖4:不同芯片架構對應參數(shù)表架構NVLink1個GraceCPU
圖5:不同規(guī)格服務器架構對應參數(shù)表架構HGXHGXHGXHGXHGX8xA1008xH1008xH2008xB1008xB2008x88x8x8xGPU-to-GPUNVLink2x2xIB8x8x8x8x8xGPUConnectX-6BlueField-3DPUBlueField-3DPU風冷機柜國產(chǎn)GPU,以華為910B為例,單機柜部署2臺風冷智算服務器,功耗約英偉達(NVIDIA)以HGX服務器為例,HGX是NVIDIA的高性能服務器,通常一臺機器包含8個或4個GPU,以8個H100為例,單臺服務器功耗約10.2kW,若選用B200芯片,單臺服務器設計功耗14.3kW。在智算中心的規(guī)劃中,通常會考慮到IB線纜等綜合成本,單機柜部署2臺HGX風冷智算服務器,含上IB交換機等,單機柜功耗高達24kW左右液冷機柜國產(chǎn)GPU,單機柜8臺液冷智算服務器,總功耗約42.4kW英偉達(NVIDIA)GPU,從NVL32機柜到NVL72機柜,單機柜部署4臺服務器至9臺服務器,GPU數(shù)量從32顆到72顆,總功耗也從44kW(為推測的數(shù)據(jù))增加到120kW。因此,單機柜功耗從通算中心(傳統(tǒng)數(shù)據(jù)中心)的4~6KW的逐漸增加至智算中心(AIDC)的20~40kW,未來逐步發(fā)展至40~120kW甚至還要更高,智算中心機柜呈現(xiàn)高密度化趨勢。這將導致智算中心在IT負載和市電引入規(guī)模上大大高于智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書靜態(tài)負載向動態(tài)負載演進通算中心(傳統(tǒng)數(shù)據(jù)中心)上線運行以后,負載相對比較平穩(wěn),很少有極端情況負載波峰或谷底出現(xiàn),而智算中心的負載運行特點是不斷進行訓練任務來進行高速運算,當它開始訓練任務時,負載將會迅速上升到比較高的功耗值,甚至會負載波動情況非常大,呈現(xiàn)出新的動態(tài)負載特性(見圖6)。新的動態(tài)負載特性主要表現(xiàn)為周期性、大幅度、并發(fā)性、瞬時沖擊等,這種特性對于智算中心的配電和制冷都是一個很大的挑戰(zhàn)。大幅度:智算負載功耗波動幅度可能超過額定功耗的80%,即智算中心的負載功耗可能從10%快速突變至甚至(AI)瞬時沖擊:某些算力模型可能出現(xiàn)400us~50ms左右的負載沖擊,幅度可能達到額定負載功耗的150%,它取決于POD運算模型及軟件算法Stepto150%Stepto150%Load10%idle30sec100%baseline(傳統(tǒng)數(shù)據(jù)中心)的基礎設施(電氣、制冷等)帶來顛覆性的變革,對智算中心的基礎設施(電氣、制冷等)解決方案也提出新的挑戰(zhàn)。
接下來的章節(jié),將分別從選址規(guī)劃、電氣架構和制冷系統(tǒng)架構等架構維度,探討如何應對智算中心的新挑戰(zhàn)以及演進趨勢。二 智算中心選址與規(guī)通算中心(傳統(tǒng)數(shù)據(jù)中心)的選址與規(guī)劃經(jīng)過多年的發(fā)展已比較完善、成熟和標準化,智算中心選址與規(guī)劃和通算中心相比有哪些特殊差異?本章節(jié)將從智算中心選址、建筑形式、建筑布局、房間功能、裝飾裝修以及已有建筑的改造這幾個方面進行考量。智算中心選址通算中心(傳統(tǒng)數(shù)據(jù)中心)近年來,在國內(nèi)政策的不斷調(diào)節(jié)下,逐漸推動數(shù)據(jù)中心選址到氣候更加適宜、土地更加充沛且電價更加便宜的地區(qū)。這是由于數(shù)據(jù)中心的選址與電力成本之間緊密相關,東部核心城市火電的發(fā)電和傳輸成本較高,導致總體能源成本且土地更充足。近年來,人們發(fā)現(xiàn)電網(wǎng)傳輸電能的成本要比傳輸信息的成本還要高,運電不如運信息更高效,因此,大型數(shù)據(jù)中心選址更趨向于在電能充沛且價低的內(nèi)蒙、寧夏、甘肅等西部地區(qū)。目前一些經(jīng)濟發(fā)達的核心城市由于產(chǎn)業(yè)密集、科技創(chuàng)新活躍,對智算中心的需求較為旺盛。然而,這些地區(qū)由于存在嚴格的能耗指標,導致算力部署面臨困難。因此,在智算中心選址初期,考慮到交通便利、人才招聘、運維便捷性等因素,通常選擇靠近核心城市或其周邊的的選址將會轉(zhuǎn)向偏遠但可再生能源富集的地區(qū)。這些偏遠地區(qū)在能源、電價、氣候和政策方面的優(yōu)勢,可以降低智算中心的建設和運營成本,提高智算中心的市場競爭力。另外,智算中心選址的決策,并非只關注電價,還需全面考量整體資源設施(如水資源是否充沛)、政策環(huán)境、市場需求等多重因素,以尋找經(jīng)濟活動豐富與能源費用的平衡點。同時,還要關注人才資源、運維便捷性、團隊成熟度等關鍵因素,以確保智算中心能夠順利落地并發(fā)揮最大效益。特別對于服務科研、教育、醫(yī)療等公共領域的智算中心,在選址時還需特別關注周邊環(huán)境要求和建造要求,以確保其能夠安全、穩(wěn)定地服務于社會。對于分布式智算中心(通常用于推理),因其需要通過網(wǎng)絡進行緊密協(xié)同和數(shù)據(jù)傳輸,所以網(wǎng)絡資源也是其選址考量的主要因素之一。智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書周邊的區(qū)域的地區(qū),其次綜合考量整體資源設施、政策環(huán)境、市場需求等多重因素,最后核算經(jīng)濟與能源費用的平衡點。智算中心建筑形式近年來,相對于傳統(tǒng)的多層建筑,出現(xiàn)了一種大平層建筑形式,這種建筑方式可以通過預制模塊化實現(xiàn)快速交付,并充分利用自然冷源提高制冷效率。典型的通算中心(傳統(tǒng)數(shù)據(jù)中心)為云廠商和互聯(lián)網(wǎng)公司規(guī)劃的云數(shù)據(jù)中心,這些通算中心重點關注交付周期、運營成本和可擴展性,因此大平層建筑方式在一些中大型數(shù)據(jù)中心園區(qū)中得以廣泛應用。智算中心的建筑形式優(yōu)先選用大平層還是多層建筑呢?智算中心在規(guī)劃時需要更多的考慮網(wǎng)絡組網(wǎng)傳輸?shù)囊?,對于面向訓練業(yè)務的智算中心,對網(wǎng)絡方面有著更高的要求,必須充分考慮支撐網(wǎng)絡。和通算中心(傳統(tǒng)數(shù)據(jù)中心)相比,智算中心的網(wǎng)絡帶寬收斂比低至1:1,存在大量的異構技術核心,東西向通信流量更大,對抖動、可用性、高吞吐、低時延數(shù)據(jù)訪問的要求更高。盡管通信的時延主要來自于轉(zhuǎn)發(fā)過程,與物理距離的關聯(lián)度相對較低,但因為大平層建筑形式的容積率低,設備布置同樣,基于智算中心網(wǎng)絡組網(wǎng)傳輸?shù)囊?,智算中心在集群?guī)劃時,需要在智算服務器和交換機之間采用盡可能短的傳輸距離,此需求可在多層建筑中通過相鄰樓層間豎向打通的方式得以滿足,因此,多層建筑可以更好地滿足網(wǎng)絡帶寬、抖動、可用性、高吞吐、低時延數(shù)據(jù)訪問的高標準要求,更適合大規(guī)模智算中心集群的部署。智算中心建筑布局通算中心(傳統(tǒng)數(shù)據(jù)中心)一直追求通過盡可能的降低制冷用電的CLF(CoolingLoadFactor),進而提高能源效率PUE(PowerUsageEffectiveness),從而提高可用的IT容量。通常可通過改善房間布局來提升場地利用率和降低配電損耗,實現(xiàn)可以安裝更多的服務器。而智算中心則追求高算力和高算效,通過優(yōu)化網(wǎng)絡架構和提升服務器ITUE(IT設備利用效率)和ITEE(IT設備能效)如何通過優(yōu)化建筑布局從而提高智算中心算力和算效?首先,集群組網(wǎng)及傳輸?shù)牟季中韪泳o湊。如以上章節(jié)所述,智算中心對網(wǎng)絡組網(wǎng)和傳輸有很高的要求,因此智算中心將打破通算中心(傳統(tǒng)數(shù)據(jù)中心)的建筑層高、承重、管線穿樓層等限制,從而做到服務器集群組網(wǎng)及傳輸?shù)牟季?/p>
網(wǎng)絡規(guī)劃和部署,目前已成為智算中心應用的趨勢。當然,這樣做法的同時必須滿足當?shù)叵酪?,并采取相應的漏水封堵措施。層高方面,采用風冷或風液混合制冷方案的智算中心,由于智算中心的功率密度更高,單位空間內(nèi)需要部署更多的管線,因此對層高提出更高要求,通常智算中心的層高普遍在5.0~6.5米。承重方面,TIA-942-C標準對Rated-3和Rated-4級對數(shù)據(jù)中心樓層活載荷的要求是不低于12KN/M2,而對于智算中心來說,對樓層活載荷的要求可能會更高,例如為部署液冷,樓層活載荷的要求達到18KN/M2甚至更高。智算中心房間功能需求通算中心(傳統(tǒng)數(shù)據(jù)中心)對房間功能需求,一般會設置主機房、輔助區(qū)、支持區(qū)、行政管理區(qū)等功能空間,并考慮員工及客戶派駐人員的休息、餐飲住宿、辦公和會議室等需求。智算中心在房間功能劃分上有哪些特殊需求?如以上章節(jié)所述,智算中心機柜呈現(xiàn)高密度化趨勢,因此智算中心的制冷和配電支持區(qū)域的需求也會相應增大,同樣,輔助區(qū)、支持區(qū)、行政管理區(qū)、運維操作和倉庫等區(qū)域的面積根據(jù)需求相應的增加。因此,智算中心,特別是面向訓練型業(yè)務類型的智算中心,相同的服務器數(shù)量需要更多的網(wǎng)絡交換機和直連銅纜并以此為依據(jù)對房間功能進行劃分。另外,智算中心應預留合理儲存?zhèn)淦穫浼姆块g,規(guī)劃出ICT設備的安裝和調(diào)試的空間,保證房間內(nèi)環(huán)境滿足儲存和測試正常運行的要求。同時,房間規(guī)劃上可能會設置更多的功能區(qū),以展示智算中心的技術先進性和創(chuàng)新成果,比如互動體驗區(qū)、展示區(qū)和休息區(qū)等。智算中心裝飾裝修需求智算中心在裝修的維護結(jié)構,節(jié)能措施,地板高度,裝修材料,防止水溢滲透等方面面臨新的挑戰(zhàn)。隨著通算中心智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書智算中心的裝飾裝修系統(tǒng),除為滿足智算中心適當?shù)耐L、散熱和防塵而設計的功能需求外,更加注重強化結(jié)構安全性、選用防水耐腐蝕材料、優(yōu)化安裝維護便利性,以及更加注重環(huán)保節(jié)能。以典型的智算中心風液混合方案為例,它在原有精密空調(diào)的基礎上,增加服務器內(nèi)冷板、液體制冷劑、分液管、液冷分配單元(CDU)、泵、過濾和凈化裝置、控制系統(tǒng)等,所以在風液混合方案內(nèi),為保障地板下液冷管路的維護,地板高度需根據(jù)管路和泵閥尺寸確定,建議不低于1m,并設置漏液檢測和壓力感應裝置。當然,管路和泵閥也可以放在機柜通道頂部,降低地板高度要求,也更有利于維護檢修,同時避免影響下送風系統(tǒng)的通風效果。另外,在智算中心裝修過程中,需要面對復雜的管線布局,做好安全防護措施,嚴格控制環(huán)境參數(shù),以及采用節(jié)能材料和系統(tǒng),滿足綠色環(huán)保標準,減少對環(huán)境的負面影響,降低建造和裝修材料的碳足跡。已有建筑改造為智算中心通算中心(傳統(tǒng)數(shù)據(jù)中心)向智算中心的演進,除新建的方式外,還可通過對原有建筑進行改造的方式升級為智算中心。如何改造已有的通算建筑以便適用于智算中心,是一個極具意義的課題,需根據(jù)業(yè)務系統(tǒng)的規(guī)模、現(xiàn)有土地、建筑條件、交付周期及商務條件等多種因素采取相應策略。首先,改造前要充分考慮,改造后投入運營可能因噪音、制冷等影響因素帶來的挑戰(zhàn)。面向訓練型業(yè)務負載改造時,因智算服務器(風冷)風扇速度的提高,噪音將成為影響運維人員工作環(huán)境的因素之一。因為任務加載時噪音可能超過90分貝,現(xiàn)場人員可能面臨長期在高噪因工況下的職業(yè)傷害風險,改造時宜考慮墻壁安裝吸音材料進行部分降噪,并在運營后為運維人員配備耳塞等裝備。其次,對于面向推理業(yè)務負載的智算中心,由于其規(guī)模相對較小,則可以考慮對部署在已有的數(shù)據(jù)中心內(nèi)改造,或?qū)吘墧?shù)據(jù)中心改造。在改造過程中,冷板液冷系統(tǒng)的改動比浸沒式液冷的改動較小。浸沒液冷系統(tǒng)的加固改造成本較高,加固成本甚至可能會超過新建成本。上述章節(jié)內(nèi)容中,建筑形式和布局是否便于維護和擴展,房間功能是否按技術操作需求劃分明確,裝修是否兼顧安全和實用性,對現(xiàn)有建筑的改造是否可以提升結(jié)構和系統(tǒng)以滿足智算中心的特定要求,這些綜合考量確保智算中心能夠適應技術更新,實現(xiàn)長期的穩(wěn)定運行和可持續(xù)發(fā)展。
三 智算中心電氣鏈路架構挑戰(zhàn)及演進趨接下來,本章節(jié)將從系統(tǒng)層面深入探討智算中心(AIDC)與通算中心(傳統(tǒng)數(shù)據(jù)中心)隨著人工智能(AI)更高的要求。智算中心正顛覆性的改變通算中心的電力系統(tǒng)架構,這些影響使得智算中心很難再遵循通算中心之前總結(jié)的規(guī)律和標準,特別對于超前建設的人工智能(AI)數(shù)字基礎設施提出更高的挑戰(zhàn)。智算中心電氣鏈路的挑戰(zhàn)電力能源接入挑戰(zhàn)在通算中心時代(傳統(tǒng)數(shù)據(jù)中心),以某大廠一棟數(shù)據(jù)機房樓為例,約2萬臺服務器,1020多臺機柜,單機柜功耗在12kW以上,組成IT總?cè)萘考s12.9MW的一棟標準數(shù)據(jù)機房樓,其電力容量大概在20MVA左右,通常由市政公共變電站引來四路10kV電源,多數(shù)情況下會分期建設,因此對區(qū)域電網(wǎng)的整體壓力不是很大。在智算中心時代,以英偉達(NVIDIA)H100的DGX架構8卡GPU服務器為例,部署一個1024臺服務器的萬卡算力集群,單機柜同樣按12kW考慮,加上制冷等輔助用電,需要15~20MVA的電力容量。那么一棟10萬卡的算力集群建筑,單棟建筑的用電規(guī)模則達到100兆瓦以上,因此,過去市政公共變電站的10kV電源輸出間隔很難滿足百兆瓦以上所需線路的數(shù)量,并且多路10kV長距離輸電線路的經(jīng)濟性不高,需要自建110kV或接入更高電壓等級的電網(wǎng)。隨著智算芯片密度的持續(xù)增加,園區(qū)的用電規(guī)??梢赃_到200MW,甚至攀升至300~500MW的水平,因此需要接入220kV因此,相比于通算中心,智算中心的拓展瓶頸已經(jīng)從機柜數(shù)量的物理空間問題,轉(zhuǎn)變?yōu)槟茉垂┙o問題,智算中心園區(qū)的算力容量上限不再是芯片算力的上限,而是發(fā)電廠和電網(wǎng)容量的上限。在滿足算力容量需求下,如何匹配電力能源接入,并實現(xiàn)綠色發(fā)展,成為智算中心面臨的重大挑戰(zhàn)。為解決這樣的問題,與智算中心基礎設施需求配套的電力能源系統(tǒng)應運而生。配電與IT機房的面積比挑戰(zhàn)根據(jù)通算中心(傳統(tǒng)數(shù)據(jù)中心)的規(guī)劃建設經(jīng)驗,單機柜功耗在2.5kW-5kW的情況下,供配電系統(tǒng)占地面積通常為智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書設備占地面積的1/4左右;當單機柜功耗提升到8kW左右時,供配電系統(tǒng)占地面積將達到IT設備占地面積的1/2左右;當單機柜密度提升到16kW,供配電系統(tǒng)占地面積將與IT設備占地面積幾乎相同。因此,隨著智算中心的單機柜功率密度的快速提升,變配電室面積必然隨之大幅度增加,智算中心的建設方案需要考慮供電系統(tǒng)更多的占地面積。電能利用率挑戰(zhàn)在通算中心(傳統(tǒng)數(shù)據(jù)中心)時代,為追求數(shù)據(jù)中心運營環(huán)境的極高可用性,2N配電架構是最常見的供電設計方案,但隨著智算中心對算力需求的不斷提升,以及對成本效益和空間效率的追求,供電效率低成為傳統(tǒng)2N架構面臨的主要問題,因此,簡化配電架構設計以提升系統(tǒng)利用率、降低占地面積、最大程度地提升算力成為智算中心一大挑戰(zhàn)。在智算中心運行著大量高效GPU服務器和存儲設備,這些IT設備自身需要大量的電力來支持其運行,此外,為保持這些IT設備的穩(wěn)定運行和數(shù)據(jù)處理的高效性,智算中心還需要匹配制冷系統(tǒng),這些配套的制冷系統(tǒng)同樣需要增加智算中心的能源消耗。龐大的算力規(guī)模部署,意味著消耗更多的能源,智算中心也正在成為中國電力系統(tǒng)的最大變量之一。作為能源消耗(PUE)降低需求尤為迫切。能源利用效率(PUE)的降低意味著用更少的電力完成更多的因此,隨著智算中心規(guī)模的不斷提升,對智算中心能源利用效率(PUE)服務器電源形式挑戰(zhàn)在通算中心(傳統(tǒng)數(shù)據(jù)中心)時代,通用CPU服務器電源功耗較小,通常在300~700瓦之間,常見電源冗余技術為冗余形式。隨著人工智能(AI)算力GPU芯片功耗的提升,先進人工智能(AI)服務器功耗持續(xù)升級。以英偉達(NVIDIA)服務器的電源結(jié)構為例,英偉達(NVIDIA)DGXH100服務器,8U機架安裝,輸入電壓:200-240V交流電,電源規(guī)格:最大10.2kW,200-240V3300W,16A,50-60HzDGXH100服務器電源架構是N+2的電源冗余的架構(見圖7),正常需要配置6個IECC20接口的開關電源。如果采用傳統(tǒng)的末端配電架構,機柜內(nèi)配置左右共兩個PDU電源,左右PDU電源分別接三個開關電源,當其中一路PDU
服務器僅剩余三個電源工作,DGXH100服務器則會宕機。因此,末端配電需要配置三條PDU電源,全鏈路三路獨立電源圖7:N+2電源配置示意圖智算負載分級供電的挑戰(zhàn)為確保通算中心(傳統(tǒng)數(shù)據(jù)中心)負載的連續(xù)性供電,通算中心通常采用來自兩個不同變電站的兩路市電作為電源,采用柴油發(fā)電機作為本項目的備用電源。當某路市電故障,另一路市電能迅速接入,當兩路市電完全中斷時,柴油發(fā)電機自動啟動供電,同時配置不間斷電源UPS和電池,確保柴發(fā)啟動前的電力系統(tǒng)不會中斷。和通算中心不同,智算中心的供電連續(xù)性要求已發(fā)生變化,并不是所有負載都需要不間斷供電。智算中心的推理業(yè)務負載屬于關鍵型負載,如推理、存儲與云服務等仍需配置后備電源,而訓練業(yè)務則屬于可間斷負載。當發(fā)生故障或斷電,訓練業(yè)務負載將模型保存為“檢查點”,電源恢復后可以從中斷點繼續(xù)運行,因此,智算中心的訓練業(yè)務負載對業(yè)務連續(xù)性,容錯性和可用性的訴求也發(fā)生改變。相較于昂貴的服務器成本,平衡不間斷電源供電的成本與服務器因斷電損壞的潛在風險是智算中心面臨的新挑戰(zhàn)。末端配電方式挑戰(zhàn)隨著智算集群規(guī)模增長,單機柜容量已攀升至上百千瓦。2024年3月英偉達(NVIDIA)發(fā)布DGXNVL72機柜,由36塊GB200AI加速卡(由72塊GPU和32塊CPU)組成,使得單機柜功耗達到120kW。智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書更高的機柜功耗意味著更大容量的電力需求,末端配電設施如何支撐大容量機柜供電?這些變化將對末端配電的物理基礎設施提出新的挑戰(zhàn)。負載動態(tài)沖擊挑戰(zhàn)特性將對智算中心供配電鏈路,如油機、不間斷電源、服務電源等關鍵環(huán)節(jié)提出新的挑戰(zhàn)。智算中心負載特性分析詳見“1.5環(huán)境溫度突變挑戰(zhàn)在通算時代(傳統(tǒng)數(shù)據(jù)中心),由于其服務器密度較低,散熱需求相對較小,因此制冷系統(tǒng)通??梢暂^為輕松地維持穩(wěn)定的溫度環(huán)境,因此溫度變化速率相對較慢,電氣設備在這樣的環(huán)境溫度變化下能夠保持其性能穩(wěn)定。在智算中心時代,由于服務器負載功率密度高,且呈現(xiàn)出新的動態(tài)負載特性,當智算服務器高負載運行且動態(tài)快速增加時,會快速產(chǎn)生大量的熱量,因此其散熱需求更大,制冷系統(tǒng)需要快速響應,但是制冷系統(tǒng)需要一定的反應時間,并且制冷系統(tǒng)很難在短時內(nèi)達到其效率極限,這將導致周圍環(huán)境溫度快速上升。緊接著,制冷系統(tǒng)為維持溫度穩(wěn)定,會全功率送冷,這又會導致周圍環(huán)境溫度快速下降。這種環(huán)境溫度的快速變化會給電氣元器件帶來更大的熱應力,可能導致電子元器件的性能發(fā)生明顯變化,影響設備的絕緣性能,降低電子元器件的可靠性,比如降低器件的靈敏度、需要降容使用等,增加故障事件發(fā)生的概率。智算中心供配電系統(tǒng)的演進趨勢—“智算電能管理鏈”如以上章節(jié)所述,相對于通算中心(傳統(tǒng)數(shù)據(jù)中心),智算中心在電氣整體鏈路方面面臨著一系列挑戰(zhàn),包括單機柜功耗的顯著提升、電力能源的接入問題、配電與IT機房的面積比、架構電能利用率、能效、智算負載分級、末端配電方式、負載動態(tài)沖擊以及環(huán)境溫度突變等挑戰(zhàn)。應對這些挑戰(zhàn),僅在供配電系統(tǒng)單一環(huán)節(jié)進行局部優(yōu)化難以解決,需要智算中心電氣系統(tǒng)在全鏈路進行協(xié)同演進,相較于傳統(tǒng)數(shù)據(jù)中心,智算中心在能源消耗方面呈現(xiàn)出顯著的量級差異,這使得其更加注重可持續(xù)發(fā)展。具體策略比如,智算中心的選址優(yōu)先考慮新能源資源豐富、能源利用條件良好的地區(qū)。統(tǒng)籌智算中心發(fā)展需求和新能源資源稟賦,科學整合源荷儲資源,開展算力、電力基礎設施協(xié)同規(guī)劃布局。探索新能源就近供電、聚合交易、就地消納的“綠電聚合
供應”模式。整合調(diào)節(jié)資源,提升算力與電力協(xié)同運行,提高數(shù)據(jù)中心綠電占比,降低電網(wǎng)保障容量需求,探索光熱發(fā)電與風電、光伏發(fā)電聯(lián)營的綠電穩(wěn)定供應模式。智算中心有較為明顯的極限算力工況和平時算力工況,此運行特點可以保證智算中心充分利用綠電儲能技術。當智算中心處在極限算力工況時,市電系統(tǒng)與綠電系統(tǒng)可以并行為其提供電力資源。當智算中心處在平時算力工況時,可以優(yōu)選綠電儲能系統(tǒng)為計算節(jié)點設備提供電力資源。但是對于新能源發(fā)電占比較高的電網(wǎng),其穩(wěn)定性易受新能源波動性的影響,市電的不穩(wěn)定成為潛在風險點。因此,擁有自有可控的本地電源對于園區(qū)來說更為可靠。除依賴傳統(tǒng)的發(fā)電機和不間斷電源UPS內(nèi)的各類可控能源,如小型水力發(fā)電、小型核反應堆SM、氫燃料電池等,形成綜合能源供應的資源池,不僅可提升備用電源容量的利用效率,更能確保電能足質(zhì)足量供應。新能源接入條件不佳的區(qū)域,在政策允許的情況下,智算中心可以與其他能源用戶或能源供應商進行綠電交易、綠證交易、碳交易等能源交易和共享,既能以市場化手段支撐自身低碳轉(zhuǎn)型,又能實現(xiàn)能源的互利共贏和最大化利用。簡化供電系統(tǒng)架構演進如以上章節(jié)所述,隨著智算中心功率密度的快速提升,配電室面積的占比也將顯著增加。因此可以想象,在一個多層供電設備占地面積大,供電效率低是通算中心傳統(tǒng)數(shù)據(jù)中心2N架構面臨的問題,因此智算中心需要簡化配電架構設計以提升系統(tǒng)利用率,降低配電設備的占地面積,DDistributedRedundanc/RReserveRedundanc/N+1簡化架構將得到進一步的推廣和應用。與傳統(tǒng)2N架構相比,DR架構(見圖8)和RR架構(見圖9),在簡化架構供電系統(tǒng)的利用率明顯提升,DR/RR架構的建設成本和運行成本也比2N架構降低10%,配電設備數(shù)量和占地空間明顯減少。智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書圖8:DR供電系統(tǒng)架構示意 圖9:RR供電系統(tǒng)架構示意10kV10kV配電10kV配電10kV10kV10kV變壓器變壓器變壓器ITITIT10kV配電10kV配電10kV10kV10kV變壓器變壓器變壓器ITITITITDR架構:屬于“手拉手”結(jié)構,每臺變壓器10kV進線均采用雙電源系統(tǒng)切換,組成三套獨立的系統(tǒng),每套系統(tǒng)都可以作為備份的冗余,末端的負載,由不間斷電源UPS交叉供電,變壓器負載率在66%以下,任何一套系統(tǒng)的故障都不影響99.998%。DR架構在海外數(shù)據(jù)中心使用較多,國內(nèi)較少使用。DR架構中配電設備使用減少接近25%,電源設備成本低。但由于設備和電纜路由難以實現(xiàn)物理隔離,發(fā)生故障時負載分別轉(zhuǎn)移到其他電源,故障定位時間較長。RR架構:有一套固定的設備作為冗余備用系統(tǒng),這套系統(tǒng)正常是不工作的。主用系統(tǒng)長期滿載,備用系統(tǒng)處于長期空載,當任何一套主用系統(tǒng)斷電或維修時,它所承擔的負載由備用系統(tǒng)帶載。RR架構屬于N+1配置,建設成本低,可用性99.995%,可靠性滿足基本要求。設備和電纜路由可以實現(xiàn)物理隔離,但系統(tǒng)架構復雜、運維難度偏高。RR架構在三大通信運營商的通信機房較多使用,而數(shù)據(jù)中心使用較少。RR架構可以使智算中心的供電系統(tǒng)的利用率從50%提升到N/(N+1),同時將占地面積減少(N-1)/2N。實際上,只要在規(guī)劃設計階段做好負載分配,無論DR架構還是RR架構,其可維護性和可用性都是比較高的,其可用性均在99.99%以上。以傳統(tǒng)2N架構為基準,單位面積下,DR架構算力提升33%,RR架構算力提升50%
如果選用一些非存儲和通信的算力設備可能會進一步降低冗余度,這種情況下,采用備電模塊級的N+1架構來替代DR/RR(雙路冗余或完全冗余)架構,甚至取消冗余的組件和電池,這樣簡化配電架構將助力智算中心在有限的空間內(nèi)實現(xiàn)更大的算力。例如,如果采用英偉達(NVIDIA)DGXH100服務器,其電源架構是N+2的電源冗余的架構,基于服務器這樣的架構,DR架構更適用于DGXH100這樣的服務器電源結(jié)構。自建項目:則采用DR/RR/N+1簡化架構成本更低、效率更高,占用空間更小,并且通過減少冗余組件的數(shù)量和優(yōu)化電力分配,減少非必要組件宕機風險。第三方租賃項目:簡化配電架構可能影響對潛在租戶的吸引力,需要在簡化配電架構的成本效益與吸引更多租戶的商業(yè)模式之間進行權衡。此外,鋰電池替代鉛酸電池和一體化電源方案也是智算中心集成度提升的一個明顯趨勢,以應對智算中心供配電面積占比過大的挑戰(zhàn)。綜上所述,智算中心的供電架構將由2N向混合簡化架構演進,針對不同負載、不同場景和不同客戶選擇不同架構進行適配(見圖10)。智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書圖10:智算中心2N+3DR混合供電架構示意圖市電電源市電電源10kV配電10kV配電變壓器變壓器10kV配電輔助10kV配電10kV變壓器變壓器變壓器智算中心包間ITITIT10kV配電10kV配電市電電源市電電源A市電電源市電電源市電電源A智算負載分級供電演進如以上章節(jié)所述,智算中心的訓練業(yè)務負載屬于可間斷負載,因此,智算中心的訓練業(yè)務負載對業(yè)務連續(xù)性、容錯性后備電源供電的成本與服務器因斷電損壞的潛在風險。智算中心在選擇備電模型時,需要根據(jù)自身的風險承受能力進行決策,尤其是第三方租賃的智算中心,提供菜單式的分級供電可用性的服務等級協(xié)議(SLA)可能是一個可以平衡成本和風險的途徑。預制電力模組演進采用預制電力模組將中壓柜、變壓器、不間斷電源UPS、高壓直流(HVDC)(見附錄名詞解釋)、饋電等預制集成
交付,可減少電力室面積高達40%,交付周期縮短70%,實現(xiàn)更高的利用率、可擴展性和更快的部署,是智算中心電氣鏈路演進的重要趨勢之一。詳見“5.2電氣預制模塊化趨勢”。UPS向MW級,超高效及高密化演進近年來,國家陸續(xù)發(fā)布UPS相關政策,引導UPS技術發(fā)展,2022年工信部發(fā)布的《國家工業(yè)和信息化領域節(jié)能技術裝備推薦目錄(2022年版)》便將大功率模塊化UPS作為數(shù)據(jù)中心機房整體模塊化解決方案的重要產(chǎn)品之一。2024年5月,工信部發(fā)布《國家工業(yè)和信息化領域節(jié)能降碳技術裝備推薦目錄(2024年版)》,其中數(shù)據(jù)中心節(jié)能降碳技術提到重點發(fā)展高頻、大功率、模塊化UPS技術。目前通算中心(傳統(tǒng)數(shù)據(jù)中心)主流UPS容量為400kVA/500kVA/600kVA,智算中心向MW由于智算數(shù)據(jù)中心IT系統(tǒng)功率快速提升,現(xiàn)有2500kVA變壓器在占地及系統(tǒng)容量上不具備優(yōu)勢,變壓器容量出現(xiàn)向3150kVA及更大容量變化趨勢,考慮到UPS并機臺數(shù)限制,現(xiàn)有600kVAUPS主機在適配更大并機系統(tǒng)容量上面臨挑戰(zhàn)。UPS單機容量由600kVA提升至1MVA及1.2MVA,減少并機臺數(shù),同時可進一步節(jié)省系統(tǒng)占地及后期運維成本,成為演進的趨勢。同時,UPS需要持續(xù)提升功率密度,減小設備占地,以改善供配電設備輔助占比。以600kVAUPS寬度一邊為1200mm,但業(yè)界已有頭部廠商通過架構及器件創(chuàng)新,將寬度縮減至600mm,功率密度提升100%,占地面積下降50%(見圖11)圖11:600kVAUPS功率密度提升600mmUPS高密化的基礎是提升UPS能效,通過能效提升減小UPS發(fā)熱量來應對UPS高密化帶來的發(fā)熱挑戰(zhàn),隨著大功率SIC器件的不斷成熟及成本下降,UPS將采用SIC器件替代傳統(tǒng)開關器件(見圖12),運行效率可提升至97.5%以上,相對于傳統(tǒng)96%效率UPS,UPS單臺主機發(fā)熱量可降低37.5%以上。600mm智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書
圖12:采用SIC器件的超高效UPS典型效率曲線97. 120%(負載率
圖13市電與油機兩種模式下UPS帶智算負載的測試波形市電模式 油機模不間斷電源系統(tǒng)儲備一體演進①.鋰進鉛退目前通算中心(傳統(tǒng)數(shù)據(jù)中心)中鉛酸電池仍然是主流,但隨著智算中心電力的面積占比不斷增加,與不間斷電源配套的電池室面積也在相應同步增加,有必要對電池選型進一步研判。2023年12月,中國建筑節(jié)能協(xié)會正式發(fā)布《數(shù)據(jù)中心鋰離子電池室設計標準》,為鋰電池在數(shù)據(jù)中心行業(yè)的規(guī)范化和規(guī)?;瘧玫於ɑA。鋰電池作為一種節(jié)能環(huán)保的電池技術,憑借占地面積小、能量密度高、承重要求低、循環(huán)壽命長、維護成本低等顯著優(yōu)勢,將逐步取代鉛酸電池,成為智算中心的首選。行業(yè)內(nèi)UPS頭部廠商已全面兼容鋰電池儲能技術,利用數(shù)據(jù)中心UPS滿載15分鐘備電時間,以及UPS備電容量的實際冗余進行相應的削峰填谷,無需改變供電結(jié)構,也不會額外增加制冷系統(tǒng)和EMS系統(tǒng),在節(jié)能模式下效率高達99%,進一步降低能耗,顯著提升了運營效率。②.儲備一體對于智算負載動態(tài)特性的調(diào)優(yōu)適配在海外某大型智算中心的實際測試中,可以看到當UPS前端轉(zhuǎn)為油機供電時,由于負載的大幅持續(xù)波動,油機的(見圖13)
借助鋰電池的高循環(huán)壽命,并結(jié)合UPS儲備功能,通過精確的控制市電與電池的功率配比,實現(xiàn)UPS輸入功率的緩升緩降,減小智算負載動態(tài)特性對于油機的沖擊,提升系統(tǒng)運行可靠性。末端電壓等級提升及全直流系統(tǒng)演進隨著智算中心單機柜功率密度的提升,供電系統(tǒng)優(yōu)化的關注點將轉(zhuǎn)向更高電壓等級,以解決導體截面積過大,更多的材料和更大的體積的問題。同時,電壓等級的升高也會帶來遠距離輸電的優(yōu)勢,這將會引發(fā)數(shù)據(jù)中心設計架構上顛覆性的變革。通算中心(傳統(tǒng)數(shù)據(jù)中心)在供電系統(tǒng)選擇上,常見兩種方案:AC400V不間斷電源(UPS)和DC240V高壓直流(HVDC)。這兩項技術經(jīng)過多年的市場考驗,已證明其技術可行性,市場接受度較高,產(chǎn)業(yè)鏈較為成熟。但對于高密度、高效率的智算中心而言,由于智算服務器之間連接的光纜已經(jīng)占用過多機柜的走線空間,探索更高電壓的應用可以減少再考慮到未來智算中心中直流設備(光伏、儲能、電池、IT服務器、直流充電樁、直流照明和空調(diào)設備等)的比重將越來越大,有必要建立一套兼容的全直流供電架構,這將有助于數(shù)據(jù)中心及周邊新能源、儲能的廣泛接入,并支持負載側(cè)的智能化調(diào)控。智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書電壓的提升確實是一個趨勢,但同時也應該看到電壓提升帶來的一些風險,如單體產(chǎn)品的可靠性降低、短路和弧閃的風險增加,以及人身操作安全等問題。在選擇供電方案時要綜合考慮這些因素,并確保產(chǎn)業(yè)鏈整合、標準制定以及市場接受度等方面的完善。此外,未來可能會向10kV交流轉(zhuǎn)低壓直流的全直流供電模式演進。全直流的供電模式是一種全新的供電架構,是供電系統(tǒng)將來發(fā)展的一個方向,可以減少交直流變換的環(huán)節(jié),因此供電效率將會更高。
直流環(huán)節(jié)的固態(tài)變壓器(SST)結(jié)構(見圖15),不僅可以在原方接入直流設備,如儲能電池、光伏電站等,還能同時這種全直流供電架構將10kV交流輸入轉(zhuǎn)換為750V、400V、240V直流,750V直流用于接入分布式電源和儲能以及直流空調(diào)室外機組用電,400V直流為空調(diào)室內(nèi)機組等直流設備供電,240V直流為照明、IT服務器等直流負載供電,實現(xiàn)全直流供電架構(見圖14)。這種全直流供電模式可以很好地適配新能源供電,光伏、儲能、充電樁等可以快速接入全直流系統(tǒng),減少交直流變換的環(huán)節(jié),提升供電效率。
MV
圖14:全直流供電架構示意圖 FuelcellH1000/
需要特別說明的是,固態(tài)變壓器(SST)由于存在電壓制式及拓撲器件成熟度問題,在可靠性,可維護性及使用規(guī)范方面面臨著挑戰(zhàn),現(xiàn)在仍以試點為主,需要業(yè)界產(chǎn)品生態(tài)的進一步完善。
3.2.9包間白地板交付方式的演進
PSU
DC AC
在智算中心建設時,經(jīng)常遇到?jīng)]有明確GPU芯片型號的情況,但同時又需要兼容未來發(fā)展,避免后續(xù)改造性資金智算中心從明確采購某型號的GPU芯片,至GPU芯片交付,中間的時間間隔較長,白地板交付方式可利用此時間差進行基礎設施的部署,從而保障項目的整體交付進度。SST的前沿應用探索隨著數(shù)據(jù)中心節(jié)能減碳力度的加大,尤其是“零碳”、“近零排放”等發(fā)展趨勢下,新能源將成為數(shù)據(jù)中心未來電力能源的基礎。新能源是直流供電系統(tǒng),其具有控制快速靈活、系統(tǒng)效率高、供電容量大、線路損耗小、電能質(zhì)量高、具有無功補償能力等優(yōu)點,更適合于分布式電源、儲能裝置和直流負載的靈活接入,是數(shù)據(jù)中心電源系統(tǒng)發(fā)展的重要方向。為解決智算中心的新能源供給問題,提升空間利用效率,經(jīng)過多年技術發(fā)展,高壓直流(HVDC)、巴拿馬電源以及固態(tài)變壓器(SST)(見附錄名詞解釋)等10kV中壓直流電源解決方案不斷涌現(xiàn)固態(tài)變壓器(SST)(SST)不僅在中壓之間具有高頻隔離的直流或交流接口,可實現(xiàn)局部自治的單向或雙向潮流,還具有電能管理、能源管理以及故障管理的能力,支持不同直流發(fā)電單元、儲能系統(tǒng)和用電單元之間、不同用電電壓之間的電力交互。
3.2.10融合末端配電方式的演進隨著智算集群規(guī)模的增長,智算中心的單機柜功耗已迅速攀升至上百千瓦,導致智算中心單機柜功耗并非都是固定的,在10~130kW之間都有分布,采用單一的末端配電架構已無法適配智算中心彈性較大的機柜功耗,需要采用融合的末端配電方式。傳統(tǒng)的列頭柜方式需要占用一個IT機柜的位置,而智能母線(見圖16)系統(tǒng)采用沿機柜排布,不占用機柜面積,可顯著提升空間利用率。同時,其模塊化結(jié)構和即插即用的特性可簡化安裝和維護流程,降低長期運維成本,并且智能母線的銅排使用壽命要高于導線壽命。因此,傳統(tǒng)列頭柜+電纜敷設的方式難以適應智算中心需求快速變化的需求,為靈活適應未來服務器應用的變化,低壓輸出側(cè)將逐漸轉(zhuǎn)變?yōu)榇竽妇€與小母線相結(jié)合的方式。智能母線這種方案具有智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書智算中心對末端配電需求的不斷提升,傳統(tǒng)單相rPDU已難以勝任更高功率的應用場景。相比之下,三相rPDU可提供更高的功率支持,但也使服務器的電源分配變得更加復雜,特別是三相負載平衡問題需要重點關注,因此配備監(jiān)控功能顯得尤為重要。監(jiān)控型三相rPDU通過實時監(jiān)控電流、電壓等關鍵參數(shù),優(yōu)化電源分配,確保三相負載平衡,從而提升供電的穩(wěn)定性和安全性。同時,監(jiān)控功能為運維人員提供詳盡的數(shù)據(jù)分析與故障預警,有效提升管理效率和系統(tǒng)可靠性。還需注意的是,三相rPDU的尺寸較傳統(tǒng)單相rPDU更大,加之智算服務器深度和液冷分液器的安裝,進一步壓縮了機柜背面的安裝空間。因此,選購rPDU時需考慮rPDU的安裝空間和安裝方式。如空間不足,建議選擇橫裝水平PDU,以適應有限空間,確保合理布局和安裝便捷。單機柜10~20kW:采用列頭柜+電纜+2條/4條單相PDU電源的配電方式即可滿足需求單機柜20~40kW:若采用8條單相PDU電源的配電方式,需要著重解決電源線數(shù)量眾多導致的服務器檢修不便及檢修時造成二次故障的問題,而采用列頭柜+電纜/智能中功率母線+橫裝近端三相PDU電源的配電方式更為適配此功耗段的機柜單機柜功耗120~140kW:此功耗段機柜為前瞻性、探索性的人工智能(AI)整機柜交付方式,目前有兩個比較主流的解決方案,其一是采用大母線/智能中功率母線+銅排/工業(yè)連接器+預制大容量模塊RACKBUSWAY的方案,單條RACKBUSWAY可以達到120~200A三相電流,服務器和RACKBUSWAY采用常規(guī)C13和C19插頭電源線直接連接。另外一種是采用集中式PSU(見圖17)的Powershelf+BUSBAR方案,將服務器電源與服務器解耦,BUSBAR與電源采用銅排連接,與服務器采用盲插連接
新能源、儲能在智算中心的應用分析相較于通算中心(傳統(tǒng)數(shù)據(jù)中心),智算中心和在能源消耗方面呈現(xiàn)出顯著的量級差異,這使得智算中心更加注重本章節(jié)將重點分析智算中心采用新能源與儲能的必然性、面臨的挑戰(zhàn)以及潛在的收益。關于新能源、可再生能源、儲能的概念(見附錄名詞解釋)。新能源在智算中心應用是必然趨勢光伏和儲能具有更短的開發(fā)周期,可以更好的滿足智算應用井噴的電力需求,同時也有助于對能源的高效利用,實現(xiàn)智算中心的綠色發(fā)展。智算中心的選址優(yōu)先考慮新能源資源豐富、能源利用條件良好的地區(qū)。這不僅有助于智算中心降低運營過程中的碳排放,符合可持續(xù)發(fā)展理念,也符合政府對綠色發(fā)展的政策導向,有助于智算中心在未來獲得更多政策支持和市場機遇(以下簡稱“能源站場”),成為滿足智算中心電力需求的重要選擇。通過對局部區(qū)域內(nèi)的各類可控能源場站進行全面的評估,包括能源的種類、規(guī)模、穩(wěn)定性、可持續(xù)性等因素。根據(jù)評估結(jié)果,將不同能源進行有效整合,形成局部區(qū)域內(nèi)綜合能源供應的資源池,保障能源供應的穩(wěn)定和高效圖16
在局部區(qū)域內(nèi)建設分布式能源系統(tǒng),如分布式光伏、儲能等,與智算中心的能源管理系統(tǒng)進行對接,構建能源微電網(wǎng)。但由于新能源多為直流電,因此需要特定的方式將其接入電網(wǎng)??梢詫⒅绷麟娹D(zhuǎn)換為交流電后接入交流電網(wǎng),也可通過直流耦合接入直流電網(wǎng)。在選擇微電網(wǎng)新能源接入方式時,需要綜合考慮應用場景、技術條件和經(jīng)濟成本等因素在政策允許的情況下,智算中心可以與區(qū)域內(nèi)的其它能源用戶或供應商進行能源交易和共享。例如將本地的光伏電量優(yōu)先存在儲能系統(tǒng)中,通過需求側(cè)響應、電力輔助服務、電力現(xiàn)貨交易、補貼等形式,參與能源平臺交易,實現(xiàn)能源的互利共贏和最大化利用。通過綜合運用上述策略和方法,智算中心能夠充分挖掘區(qū)域內(nèi)各類可控能源的潛力,建立負載預測模型,依據(jù)用能行為和用能狀態(tài)進行能源錯峰管理,構建一個綜合能源供應的資源池,實現(xiàn)能源利用的最大化。這樣不僅有助于實現(xiàn)能源的高效利用,降低智算中心的運營成本,還能提升環(huán)境效益,同時推動可持續(xù)發(fā)展,為企業(yè)的競爭力提升提供有力保障。智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書新能源發(fā)電在智算中心消納仍面臨諸多挑戰(zhàn)新能源發(fā)電在智算中心消納面臨諸多挑戰(zhàn),其隨機性、波動性和低能量密度的特性限制其穩(wěn)定供電能力,與智算中心穩(wěn)定供電的需求相悖,因此,新能源難以單獨承擔起智算中心電源供應的責任,必須與其它穩(wěn)定的能源形式相結(jié)合。例如氫能,雖然它能效高、供電穩(wěn)定,但在技術、安全、運輸?shù)确矫娴膶嵤藴矢?,在高度重視安全性的智算中心,廣泛應用還欠缺相應條件。辦公和基礎設施的用電由園區(qū)光伏發(fā)電系統(tǒng)供應,多余電量在園區(qū)內(nèi)儲存以備后用,當儲電能力達到極限后,可向城市電網(wǎng)輸送在天燃氣供應網(wǎng)絡完善區(qū)域的智算中心,通過冷、熱、電三聯(lián)供等方式,分布式燃氣供能系統(tǒng)可以實現(xiàn)能源的梯級利用,進一步提高能源的綜合利用效率在新能源接入時,必須重新設計配電架構,以避免多種新能源發(fā)電的混合系統(tǒng)中,由于配置很多電力電子設備而導致的電能質(zhì)量問題。例如:在新能源接入點與智算中心配電系統(tǒng)之間使用隔離變壓器或電力電子裝置,將新能源產(chǎn)生的諧波與系統(tǒng)隔離;通過合理設置電纜長度、截面和連接方式,減少諧波電流的傳輸,確保系統(tǒng)關鍵節(jié)點的電壓、頻率、畸變率等參數(shù)處于穩(wěn)定狀態(tài)使用仿真分析軟件來輔助電力系統(tǒng)設計,將新能源發(fā)電功耗預測按照不同尺度精細化設計,例如:按照時間尺度進行短、中、長期預測,按照空間尺度分為單區(qū)域預測、單場站預測,以消除分布式光伏、風電等能源波動對電能穩(wěn)定性的影響,實現(xiàn)高效利用采用多種能耗管理策略,有效降低碳排放并減少電價成本。例如:通過優(yōu)化調(diào)度和需求響應策略,作為可調(diào)載荷參與電力需求側(cè)響應,提高能源利用效率并優(yōu)化新型電力系統(tǒng)的資源配置;利用市場手段促進本地發(fā)電資源優(yōu)化配置,作為電力調(diào)度機構、電力市場之間的中介,參與主能量市場、輔助服務市場,參與多種電力市場的運營模式及其調(diào)度框架,從被動的消費者逐步轉(zhuǎn)變?yōu)橹鲃拥漠a(chǎn)銷者面對新能源發(fā)電的不穩(wěn)定性,需要運維團隊更強的系統(tǒng)監(jiān)控和調(diào)節(jié)能力,綜合考慮不同新能源的發(fā)電特性、儲能設備的充放電狀態(tài)以及智算中心的用電需求,制定合理的能源調(diào)度策略,確保能源的高效利用和系統(tǒng)的穩(wěn)定運行另外,新能源和儲能技術能否在智算中心中得到廣泛應用,還取決于技術和產(chǎn)業(yè)的成熟度和適用的場景。只有經(jīng)過全面評估,并確保技術與場景相匹配,新能源和儲能技術才能為智算中心帶來實際效益
儲能系統(tǒng)在智算中心應用的多重價值由于受到空間限制的影響,在智算中心部署儲能系統(tǒng)的規(guī)模很難做大。但是,由于儲能系統(tǒng)有能力根據(jù)時間變化提供額外能源,這與智算中心用電負載隨氣候變化的特點相匹配,因此,可以與智算中心的基礎架構融合,提高智算中心的IT和外電轉(zhuǎn)化率,替代一部分不間斷電源UPS備電設備,發(fā)揮額外的經(jīng)濟收益,收益甚至遠大于常規(guī)本地光儲一體本身帶來的經(jīng)濟收益。配置儲能系統(tǒng)可以獲得額外的備用電源。獨立于傳統(tǒng)供電系統(tǒng)運行的儲能系統(tǒng),在電力不足或其他緊急情況下,仍可持續(xù)提供額外的電力供應。例如,在改造的智算中心中,當配電容量不足且用電功耗大于變壓器容量時,短期內(nèi)可通過額外的儲能設施快速放電來“增峰”,滿足負載電能高峰值的需量要求,進而在短期內(nèi)延緩輸電設備的擴容周期和降低資金投入;在面對智算負載的波動性時,通過對儲能系統(tǒng)進行精準控制,可以最大化地利用儲能系統(tǒng)的調(diào)峰能力,從而避免電網(wǎng)或油機的過載沖擊,以及因電力不足而導致的運算中斷的風險減少對柴油發(fā)電機的依賴。智算中心作為能源消耗大戶,其環(huán)境影響和碳排放問題也日益受到關注。柴油發(fā)電機在運行過程中對環(huán)境造成一定的污染,而儲能系統(tǒng)大多基于可再生能源(如太陽能、風能等)進行充電,能量轉(zhuǎn)換效率更高,更加有助于減少溫室氣體排放。儲能系統(tǒng)可以儲存多余的電能,并在電力需求高峰或電網(wǎng)故障時進行可靠釋放,從而減少對柴油發(fā)電機等備用電源的依賴和需求參與儲備電網(wǎng)服務。儲能還可以為智算中心運營提供節(jié)能和創(chuàng)收的機會。未來隨著越來越多的激勵措施,支持儲能參與電網(wǎng)活動,例如減稅和退稅等,智算中心將更積極地參與能源市場的交易和競爭,以尋找最優(yōu)的電力供應方案。隨著鋰電池價格的持續(xù)下降,這種趨勢將更加明顯。結(jié)合分布式能源、儲能、不間斷電源UPS、發(fā)電機和自有變電站,未來的智算中心將可能成為能源站。這些能源站將積極參與儲備電網(wǎng)服務,為電網(wǎng)提供調(diào)峰、調(diào)頻等輔助服務,從而降低運營成本并有可能創(chuàng)造額外的收入增加可再生能源的使用。智算中心由于耗電更多,對電價也更加敏感。而從2024年4月1日起,電網(wǎng)將不再“全額收購”新能源發(fā)電,更多的新能源發(fā)電需要通過市場化交易來消納,這可能會導致電價波動變得更加頻繁,進而影響能源成本。如果智算中心能夠有效地利用儲能設施來平衡這種供需差異,不僅可以提高其能源自給自足的能力,降低能源成本,同時也能夠優(yōu)化和增加可再生能源的使用效率以上是配置儲能系統(tǒng)給智算中心帶來的好處,包括提供彈性、環(huán)境可持續(xù)性以及降低能源成本,這也使得儲能系統(tǒng)成為眾多智算中心值得考慮的技術。然而,部署儲能的投資回報率(ROI)在很大程度上取決于具體用例、負載曲線、當?shù)厥袌鰲l件和其他因素。因此,儲能系統(tǒng)需要根據(jù)特定的輸入場景和運行模型,從而準確預測財務回報或投資回報率。智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書智算電能管理鏈智算電能管理鏈新能 油機 智算電能管理鏈新能 油機 預制式電力模組& PSU供電高密UPS&鋰電 智能母線 整體柜源接入及油機架構中低壓配電柜+不間斷電源后備末端機柜服務器演進方案算電協(xié)調(diào),新能源接入供電架構預制電力模組全直流架構MW級超高效及高密化儲備一體,管理高倍率磷酸鐵鋰智能母線機柜供電智能型降低初投資提升能效快速交付降低機柜功率彈性適配AI特性適應綠色低碳
四 智算中心制冷系統(tǒng)架制冷技術發(fā)展趨勢如以上章節(jié)所述,智算中心的單機柜功耗已經(jīng)有大幅提升。從單機柜20~30KW,到單機柜40~50kW,到單機柜70~132kW,以及未來可能達到的的200kW(見圖18)圖18:OMDIA咨詢公司預測值(2023年傳統(tǒng)機柜功率密度傳統(tǒng)機柜功率密度1代AI訓練模型2020-2代AI訓練模型2022-3代AI訓練模型2022-OMDIADataCenterCapacityReport房間級風冷空調(diào)遠端送風型式的散熱能力上限為單機柜25kW,當單機柜功耗超過25kW時,房間級風冷空調(diào)很難滿足服務器的散熱需求。對于單機柜功耗在25~80kW的高密度散熱需求,可采用列間空調(diào)、背板式風冷、薄板風墻等近端送風或冷板液冷技術,其中液冷技術因具有高效散熱、低能耗、低噪聲、占地面積小等突出的優(yōu)勢,成為智算中心制冷系統(tǒng)的優(yōu)先選擇。現(xiàn)階段風冷高密和液冷高密方案并存,液冷采用冷板式液冷的型式居多,至于選擇風液混合還是全風冷則取決于不同的需求及項目條件。本白皮書將會針對不同技術的應用特性來分析其適合的應用場景(見圖19)智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書圖19:制冷技術演進路示意圖低密度~中密度低密度~中密度10~極高密度高密度25~IT背板風液混合將成為大多數(shù)高密設計的標準,因為10~30%熱量仍然需要風冷進行散熱40~60kW左右開始考慮液冷,但根據(jù)服務器或芯片的不同,液冷可能會更早開始使用列間級浸沒液冷單相冷板液冷單相房間級冷凍水風冷直膨制冷系統(tǒng)架構的分類及方案本白皮書對制冷系統(tǒng)架構的建議是:宜遵循從芯片(服務器)側(cè)機柜側(cè)末端空調(diào)側(cè)冷源側(cè)的整條冷鏈的系統(tǒng)化解決方案(見圖20)。同時,對不同種類的技術方案進行對比,分析其應用特性,建議合適的應用場景,最終選擇出最合理的空調(diào)制冷方案。圖20:冷鏈系統(tǒng)化解決方示意圖
芯片側(cè)冷鏈類別技術方案應用特性系統(tǒng)描述風冷服務器風冷芯片處理過的冷空氣通過并對服務器制冷單相冷板+制冷水冷凍水風冷與液冷的應用過渡區(qū)采用泵驅(qū)動制冷液流過芯片背部的冷板通道,制冷液在通道內(nèi)通過板壁與芯片進行換熱,帶走芯片的熱量。換熱后的制冷液在換熱模塊中散熱制冷冷鏈類別技術方案應用特性系統(tǒng)描述風冷服務器風冷芯片處理過的冷空氣通過并對服務器制冷單相冷板+制冷水冷凍水風冷與液冷的應用過渡區(qū)采用泵驅(qū)動制冷液流過芯片背部的冷板通道,制冷液在通道內(nèi)通過板壁與芯片進行換熱,帶走芯片的熱量。換熱后的制冷液在換熱模塊中散熱制冷單相冷板+冷凍水單相冷板液冷芯片解熱上限采用泵驅(qū)動制冷液流過芯片背部的冷板通道,制冷液在通道內(nèi)通過板壁與芯片進行換熱,帶走芯片的熱量。換熱后的制冷液在換熱模塊中散熱制冷兩相冷板耦合液冷相變冷板液冷相變冷板:利用液泵驅(qū)動液態(tài)冷媒進入芯片背部的冷板,吸熱后蒸發(fā)成氣態(tài),再利用水冷冷凝器制冷成液態(tài)并將熱量排入制冷水系統(tǒng)。一次側(cè)可以采用冷凍水耦合液冷:芯片部分采用相變冷板帶走熱量,服務器內(nèi)剩余部分元器件通過浸沒液冷帶走熱量設施/列間/服務器/智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書機柜側(cè)/末端空調(diào)側(cè)(風冷技術風冷低密度(1-23層及以上建筑,可采用遠端水平送風或下送風形式的房間級精密空調(diào)冷鏈類別冷鏈類別技術方案應用特性系統(tǒng)描述風冷低密度風冷房間空調(diào)適用多層建筑。水資源緊缺地區(qū)采用氟泵風墻或下送風;水資源豐富地區(qū)采用水冷雙冷源風墻或下送風。超大規(guī)模采用冷凍水風墻或下送風低功率密度項目,多為傳統(tǒng)低功耗段服務器,多采用風冷房間級空調(diào)部署,包括氟泵變頻房間冷凍水房間級空調(diào)等。以封閉冷通道下送風和封閉熱通道水平送風為主常規(guī)方案為:一拖一風冷列間單獨部署和一拖多多聯(lián)方案部署風冷低密度風冷列間空調(diào)適用于微模塊產(chǎn)品配套,常見于多機房分散布局項目或機房高度受限類項目或分期使用類項目多聯(lián)方案可有效減少室內(nèi)外機連管的初投資單個包間模塊數(shù)量少時,多聯(lián)方案通常為水氟主機或全變頻氟泵渦旋壓縮機多聯(lián)部署方案;單個包間模塊數(shù)量較多時,可采用大顆粒度磁懸浮相變多聯(lián)方案部署風冷低密度預制化空調(diào)適用于1層或2層大平層建筑條件的項目主要為一體化氟泵空調(diào)和風側(cè)間接蒸發(fā)制冷空調(diào)兩種產(chǎn)品技術方案,在水資源緊缺地區(qū)推薦采用一體化氟泵方案,水資源豐富的地區(qū)兩種方案均可部署
風冷中密度(單機柜遠端水平送風方式可解決風冷25kW單機柜功率密度散熱1-23層及以上建筑,推薦采用房間級空調(diào)(遠端水平送風方式微模塊內(nèi)配套列間空調(diào)冷鏈類別技術方案應用特性系統(tǒng)描述(單機柜風冷房間級精密空調(diào)(遠端送風方式可解決25kW單機柜功率密度散熱冷熱通道寬度根據(jù)機柜功率密度靈活變化。可采用雙冷源風墻、冷凍水風墻、風冷氟泵風墻等形式,采用預冷+補冷形式的風墻,能有效助力機房實現(xiàn)低PUE值(單機柜風冷型列間空調(diào)適用于微模塊產(chǎn)品配套,常見于多機房項目或分期使用類常規(guī)方案為:一拖一風冷列間單獨部署、一拖多風冷列間多聯(lián)方案部署多聯(lián)方案可有效減少室內(nèi)外機連管的初投資。單個包間模塊數(shù)量少時,多聯(lián)方案為水氟主機或全變頻氟泵渦旋壓縮機多聯(lián)部署方案;單個包間模塊數(shù)量較多時,可采用大顆粒度磁懸浮相變多聯(lián)方案部署(單機柜預制化一體式空調(diào)預制化一體式空調(diào),送風形式,可解決單機柜25kW散熱場景需求適用于1-2層大平層建筑主要為一體化氟泵、間接蒸發(fā)冷、預制化雙冷源等方案水資源緊缺地區(qū)優(yōu)先采用一體化氟泵方案,水資源豐富地區(qū)三種方案均可部署預制化空調(diào)通常為遠端風墻送風形式,可解決單機柜25kW散熱場景需求(單機柜風冷背板式空調(diào)適用于有局部熱點特性的機柜場景,以及低密度風冷機柜改造擴容的場景背板空調(diào)可采用冷凍水背板空調(diào)或氟冷背板空調(diào)背板空調(diào)方案將整個機房規(guī)劃為大冷池,背板和服務器之間自密封形成熱通道冷凍水背板通常采用環(huán)管供水進行備份,前端配置CDU進行水溫調(diào)節(jié)氟背板采用模塊之間交叉?zhèn)浞莘绞竭M行備份,降低主機宕機的影響范圍智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書風冷高密度(單機柜45kW高密度機柜可采用近端風墻精密空調(diào)列間空調(diào)在一對一模式時可解決風冷60kW單機柜功率密度散熱更高功率密或更高出柜率度則需采用冷凍水背板空調(diào)冷鏈類別技術方案應用特性系統(tǒng)描述風冷高密度(單機柜風冷房間級精密空調(diào)(近端風墻送風近端風墻空調(diào)最大滿足45kW的高密度機柜散熱需求冷凍水型近端薄板風墻可解決最大45kW單機柜功率密度散熱,模塊化產(chǎn)品技術易于部署,同時該方案的氣流組織相對更好。風冷高密度(單機柜風冷列間空調(diào)風冷列間空調(diào)可解決60kW以內(nèi)的高功率密度散熱需求風冷列間空調(diào),更高功率密度散熱可采用風冷高密度(單機柜風冷背板空調(diào)大冷量背板空調(diào)多為冷凍水背板,常規(guī)機柜背板門尺寸的50~70kW高功率密度散熱需求背板傳熱量隨著進風溫度升高而增加,隨著冷凍水流量增加而增加,背板換熱量基本不會受到機柜內(nèi)部服務器布置均勻性的影響風冷極高密度(單機柜>80kW及以上的極高密風冷場景,可采用冷凍水背板形式,但需增加背板門寬度和高度尺寸,因而需增加機柜
下表為部分風冷高密度場景下房間級精密空調(diào)(遠端水平送風)、預制化一體式空調(diào)(遠端水平送風)、列間空調(diào)單機柜功率密度模型場景冷備份下,機組最高送風溫度CFD仿真圖(仿真結(jié)果均滿足單機柜功率密度模型場景冷備份下,機組最高送風溫度CFD仿真圖(仿真結(jié)果均滿足GB50174-2017中冷通道18~27℃要求房間級精密空調(diào)(遠端水平送風預制化一體式空調(diào)(遠端水平送風(近端送風薄板風墻精密空調(diào)(近端送風冷鏈類別技術方案應用特性系統(tǒng)描述風冷極高密度(風冷背板空調(diào)為風冷技術散熱能力的上限,最大支持80kW高功率密度散熱極高密風冷散熱,機柜尺寸更大,采用冷凍水背板,需增加背板門寬度和高度尺寸智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書機柜側(cè)/末端空調(diào)側(cè)(液冷技術部署密度極高的機柜時采用液冷是大勢所趨,但在選擇液冷技術方案時,由于10-30%熱量仍然需要風冷進行散熱,液冷全密度應用場景邊緣計算場景,宜采用風液CDU或者分布式企業(yè)級應用場景,宜采用中顆粒度集中式液液人工智能(AI)大規(guī)模集群場景,宜采用大顆粒度集中式的改造場景時,宜采用風液CDU
冷源側(cè)冷鏈類別技術方案應用特性系統(tǒng)描述風冷冷源風冷冷凝器風冷系統(tǒng):常規(guī)系統(tǒng)選用風冷冷凝器,追求系統(tǒng)高效則宜采用蒸發(fā)式冷凝器液冷系統(tǒng):適用于改造場景風冷冷凝器是一種用于制冷和冷凝蒸汽的熱交換器,不需要水源,環(huán)保且高效,是常規(guī)室蒸發(fā)式冷凝器下,分體式室內(nèi)冷機的冷源多用于磁懸浮多聯(lián)系統(tǒng)室外冷冷凍水冷源風冷螺桿風冷系統(tǒng):全場景適配各種冷凍水末端液冷系統(tǒng):芯片供液溫度在AS冷鏈類別技術方案應用特性系統(tǒng)描述風冷冷源風冷冷凝器風冷系統(tǒng):常規(guī)系統(tǒng)選用風冷冷凝器,追求系統(tǒng)高效則宜采用蒸發(fā)式冷凝器液冷系統(tǒng):適用于改造場景風冷冷凝器是一種用于制冷和冷凝蒸汽的熱交換器,不需要水源,環(huán)保且高效,是常規(guī)室蒸發(fā)式冷凝器下,分體式室內(nèi)冷機的冷源多用于磁懸浮多聯(lián)系統(tǒng)室外冷冷凍水冷源風冷螺桿風冷系統(tǒng):全場景適配各種冷凍水末端液冷系統(tǒng):芯片供液溫度在ASHRAE標準的W17/W2W32類別時的應用場景,可同時作為風冷及液冷系統(tǒng)冷源多用于冷凍水末端冷源,或冷板液冷進水溫度要求較低時的冷源方案風冷系統(tǒng):系統(tǒng)簡單,適用于水資源匱乏的地區(qū)水冷系統(tǒng):系統(tǒng)能效高,適合于大型數(shù)據(jù)中心,可采用模塊化集成式冷水機房產(chǎn)品方案,方便運輸及部署水冷螺桿風冷磁懸浮水冷普通離心水冷磁懸浮水冷冷源風冷系統(tǒng):主要適配水冷空調(diào)和雙冷源空調(diào)的冷源設備液冷系統(tǒng):芯片供液溫度在ASHRAE標準的W40/W45W+同時作為風冷及液冷系統(tǒng)冷源多用冷凍水末端冷源(如水冷冷板液冷進水溫度要求較高的冷源方案開式制冷塔閉式制冷塔冷鏈類別技術方案應用特性系統(tǒng)描述液冷低密度冷板液冷CDU為冷板液冷和浸沒式液冷的制冷液提供熱交換器,調(diào)節(jié)制冷液溫度和流量。在復雜環(huán)境中部署間接或直接液冷設備時,CDU可為局部制冷液輸送和排熱提供完整的解決方案。在全液冷環(huán)境中支持直接液冷方案時,CDU需搭配散熱系統(tǒng)使用。CDU與熱管背板一起使用時,通常會采用冷水機組提供的低溫冷水來對熱管背板進行制冷低密度液冷通常為多節(jié)點CPU液冷或單節(jié)點GPU液冷,推薦采用風液CDU方案,簡化部署方案,減少初投資浸沒液冷低功率密度浸沒通常為一體機浸沒(單機柜冷板液冷邊緣機房和算力試點項目,多采用分布式CDU或風液型集中式CDU。大規(guī)模液冷部署多采用集中式中顆粒度液液CDU浸沒液冷在規(guī)模小的應用場景,可采用風液CDU或者分布式CD在數(shù)據(jù)中心擴容改造場景,宜采用風液混合式CDU方案多采用單相浸沒液冷方案液冷高密度(單機柜冷板液冷邊緣機房和算力試點項目,多采用分布式CDU或風液型集中式CDU。大規(guī)模液冷部署多采用集中式大顆粒度液液CDU浸沒液冷在新建的中大型智算中心的空調(diào)系統(tǒng),更宜采用液-液熱交換CDU方案可采用單相浸沒液冷或相變浸沒液冷解決方案邊緣機房或算力試點項目,多采用分布式CDU或風液型集中式液冷極高密度(冷板液冷大規(guī)模液冷部署多采用集中式大顆粒度液-液CDU。可采用單相冷板液冷或相變冷板液冷,當前單相冷板液冷可解決單機柜132kW散熱,相變冷板液冷可解決單機柜160kW散熱,而耦合液冷可解決單機柜200kW散熱浸沒液冷可采用相變浸沒液冷,此方法可最大化制冷液的熱傳導特性,也是最高效節(jié)能的液冷方式智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書制冷技術應用評估以上總結(jié)的制冷技術均有著不同的應用特點及應用場景,下面將從用戶關注的要素點出發(fā),從技術可靠性、運行能效、初投資、出柜率、占地空間、噪聲程度、柔性調(diào)節(jié)以及對建筑條件要求等方面對各類技術進行對比評估(見圖21)。圖21:用戶關注要素技術路線對比 續(xù)表冷鏈類別冷鏈類別技術方案客戶關注因素高可靠性高能效低初投資柜率低屋頂占用率低噪音調(diào)節(jié)范圍廣建筑兼容性優(yōu)風冷單相冷板+冷卻水/單相冷板+冷凍水/冷卻水相變冷板/耦合液冷風冷低密度風冷房間空調(diào)風冷列間空調(diào)預制化空調(diào)風冷房間空調(diào)遠端水平送風風冷列間空調(diào)預制化空調(diào)風冷背板空調(diào)風冷高密度風冷列間空調(diào)風冷背板空調(diào)風冷近端風墻空調(diào)風冷極高密度風冷背板空調(diào)冷鏈類別技術方案液冷低密度冷板液冷浸沒液冷冷板液冷浸沒液冷液冷高密度冷板液冷浸沒液冷風冷冷凝器蒸發(fā)式冷凝器風冷螺桿水冷螺桿風冷磁懸浮水冷普通離心水冷磁懸浮開式冷卻塔閉式冷卻塔智算中心基礎設施演進白皮書智算中心基礎設施演進白皮書智算中心制冷應對策略如以上章節(jié)所述,智算中心負載特性呈現(xiàn)出周期性、大幅度、并發(fā)性、瞬時沖擊等動態(tài)負載特性,那么針對智算中心動態(tài)負載特性的制冷解決方案,建議從兩方面考慮:提高制冷系統(tǒng)的響應速度軟件方面以PID(ProportionalIntegralDerivative)P、D并減小I,這樣系統(tǒng)的響應速度會加快。但需要注意的是,調(diào)節(jié)速度變快后,容易引起制冷系統(tǒng)的震蕩和超調(diào),因此需根據(jù)實際情況合理設置并反復調(diào)試驗證后再投入應用采用人工智能(AI)預測性控制技術基于人工智能(AI)負載預測算法,可以根據(jù)智算的任務計劃來預測數(shù)據(jù)中心未來的負載趨勢變化。通過對比負載預測結(jié)果和負載實時數(shù)據(jù),指導空調(diào)提前進行預調(diào),確保在負載高峰或低谷到來之前已經(jīng)調(diào)整到最佳運行狀態(tài),從而實現(xiàn)快速響應連續(xù)制冷對于有條件的智算中心,建議采用在線式蓄冷系統(tǒng),并對關鍵設備配備足夠容量的不間斷電源UPS來實現(xiàn)連續(xù)制冷,最大限
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CCOA 32-2020葵花籽油中蠟含量及組成的測定氣相色譜測定法
- T/CCCI 002-2024企業(yè)班組文化建設星級評價標準
- T/CBMCA 034-2022裝配式預制構件設計生產(chǎn)數(shù)據(jù)交互標準
- T/CAQI 346-2023水利水電施工企業(yè)信息管理系統(tǒng)建設指南
- T/CAQI 333-2023混凝土企業(yè)碳排放管理規(guī)范
- 2024年度江蘇省二級注冊建筑師之法律法規(guī)經(jīng)濟與施工押題練習試題A卷含答案
- 中級java程序員面試題及答案
- pcb面試題及答案
- T/CAFFCI 67-2023化妝品祛痘功效人體測試方法
- 傳播管理面試題及答案
- 2021譯林版高中英語選擇性必修一課文翻譯
- 醫(yī)院工作制度與人員崗位職責2011(衛(wèi)生部醫(yī)管司修訂)
- 二級、三級電箱接線圖
- (完整版)非計劃性拔管魚骨圖
- 最新美術中國傳統(tǒng)玩具課件PPT
- 名著導讀《紅樓夢》PPT課件(完整版)
- GB∕T 10544-2022 橡膠軟管及軟管組合件 油基或水基流體適用的鋼絲纏繞增強外覆橡膠液壓型 規(guī)范
- Python編碼規(guī)范
- 體育——常用隊列隊形的口令及動作要領
- quartus ii 13.1安裝教程
- 《給教師的建議》(課堂PPT)
評論
0/150
提交評論