人工智能行業(yè)市場(chǎng)前景及投資研究報(bào)告:GenAIAI云計(jì)算新范式規(guī)模效應(yīng)AIInfraASIC芯片_第1頁(yè)
人工智能行業(yè)市場(chǎng)前景及投資研究報(bào)告:GenAIAI云計(jì)算新范式規(guī)模效應(yīng)AIInfraASIC芯片_第2頁(yè)
人工智能行業(yè)市場(chǎng)前景及投資研究報(bào)告:GenAIAI云計(jì)算新范式規(guī)模效應(yīng)AIInfraASIC芯片_第3頁(yè)
人工智能行業(yè)市場(chǎng)前景及投資研究報(bào)告:GenAIAI云計(jì)算新范式規(guī)模效應(yīng)AIInfraASIC芯片_第4頁(yè)
人工智能行業(yè)市場(chǎng)前景及投資研究報(bào)告:GenAIAI云計(jì)算新范式規(guī)模效應(yīng)AIInfraASIC芯片_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

報(bào)

告AI云計(jì)算新范式:規(guī)模效應(yīng)+AI

Infra+ASIC芯片——GenAI系列報(bào)告之五十四2025.03.281重點(diǎn)報(bào)告回顧?

我們近期已發(fā)布多篇深度報(bào)告,圍繞重點(diǎn)標(biāo)的AI布局及進(jìn)展,從底層硬件至上層應(yīng)用進(jìn)行全方位梳理:1.

騰訊AI詳細(xì)梳理:《騰訊控股(00700)點(diǎn)評(píng):AI應(yīng)用+云業(yè)務(wù)有望迎來(lái)價(jià)值重估》2.

阿里云深度:《阿里巴巴-W(09988)深度:AI開(kāi)啟阿里云新成長(zhǎng)(阿里巴巴深度之三暨GenAI系列報(bào)告之39)》3.

字節(jié)AI詳細(xì)梳理:《豆包大模型升級(jí),字節(jié)AI產(chǎn)業(yè)鏈?zhǔn)崂怼?/p>

GenAI之四十四》4.

金山云深度:《金山小米生態(tài)核心云廠,AI+智駕乘風(fēng)而上》5.

美股云行業(yè)季度總結(jié):《云廠Capex指引仍樂(lè)觀,AI應(yīng)用ROI路線(xiàn)清晰或?qū)⒂瓉?lái)催化——美股云計(jì)算和互聯(lián)網(wǎng)巨頭24Q4總結(jié)》、《北美云廠Capex加速,AI降本增效初步體現(xiàn)——

美股云計(jì)算和互聯(lián)網(wǎng)巨頭24Q3總結(jié)》6.

谷歌深度:《谷歌:AI征途換檔提速,云業(yè)務(wù)驅(qū)動(dòng)成長(zhǎng)》7.

META深度:《Meta

Platforms

(META):廣告推薦應(yīng)用+開(kāi)源模型+算力,AI布局解析》8.

博通深度:《博通:軟硬一體的AI賣(mài)鏟人》9.

AI應(yīng)用深度:2024年總結(jié)-《AI應(yīng)用:商業(yè)化初露鋒芒——AI應(yīng)用深度之二暨GenAI系列報(bào)告之三十九》、2023年總結(jié)-《AI應(yīng)用:從生產(chǎn)力工具到交互體驗(yàn)升級(jí)——生成式AI2024年投資策略》

證券研究報(bào)告2核心觀點(diǎn):???AI云計(jì)算新范式:規(guī)模效應(yīng)+AI

Infra能力+算力自主化。云計(jì)算在AI收入拉動(dòng)下?tīng)I(yíng)收增速回暖、Capex增長(zhǎng)加速已成為市場(chǎng)共識(shí)。(詳見(jiàn)此前相關(guān)報(bào)告總結(jié)。)但對(duì)于AI云時(shí)代競(jìng)爭(zhēng)格局以及云廠利潤(rùn)率還有分歧,也是本報(bào)告的重點(diǎn)。1)更強(qiáng)的規(guī)模效應(yīng);2)AI

infra能力;3)算力自主化為云廠中長(zhǎng)期降本方向。規(guī)模效應(yīng):更高的初始投入,更高的算力利用率。(1)AI云更高的資本密集度。(2)AI服務(wù)器/網(wǎng)絡(luò)設(shè)備使用年限更短、成本占比明顯提升。多租戶(hù)+多場(chǎng)景(含自有場(chǎng)景)+自有模型平抑需求峰谷,降低產(chǎn)能空置率、攤薄單位計(jì)算成本,實(shí)現(xiàn)更高的ROI。以騰訊、阿里、谷歌等為代表的大型云廠商/互聯(lián)網(wǎng)巨頭具備龐大的內(nèi)部工作負(fù)載稟賦+AI大模型的優(yōu)勢(shì),有望降低單位計(jì)算成本。AI

Infra:實(shí)現(xiàn)計(jì)算性能挖潛。AI

Infra定位于算力與應(yīng)用之間的“橋梁”角色的基礎(chǔ)軟件設(shè)施層,體現(xiàn)在:1)硬件集群的組網(wǎng)構(gòu)建、算力調(diào)度系統(tǒng);2)大模型+AI開(kāi)發(fā)工具,增強(qiáng)大模型對(duì)于算力計(jì)算效率的挖潛;3)針對(duì)應(yīng)用的定向優(yōu)化等工作。盡管模型開(kāi)源,但針對(duì)特定模型推理的優(yōu)化能力、AI工具豐富度差異仍會(huì)放大云廠對(duì)同一開(kāi)源模型優(yōu)化后的推理成本差距。以谷歌、字節(jié)火山引擎、阿里云、DeepSeek等為代表的廠商已在AI

Infra領(lǐng)域發(fā)布訓(xùn)練/推理側(cè)工具。?算力自主化:海外ASIC芯片趨勢(shì)啟示。強(qiáng)大的工程能力或有望彌補(bǔ)ASIC和GPU硬件生態(tài)差距。ASIC架構(gòu):基于脈動(dòng)陣列的定制架構(gòu)為重要路線(xiàn);ASIC開(kāi)發(fā)生態(tài):谷歌和AWS均基于XLA,Meta

MTIA

v2軟件堆棧基于Triton。ASIC芯片的確定性來(lái)自:(1)供給端,芯片設(shè)計(jì)制造專(zhuān)業(yè)分工:降低ASIC與GPU在代工制造、后端封裝設(shè)計(jì)上的差距,ASIC輔助設(shè)計(jì)博通、邁威爾等崛起。(2)需求端:牧本擺動(dòng),有望從標(biāo)準(zhǔn)化到定制化:架構(gòu)創(chuàng)新,催生新的定制化芯片,并再度基于新的芯片進(jìn)行算法創(chuàng)新升級(jí),以實(shí)現(xiàn)芯片性?xún)r(jià)比優(yōu)勢(shì);商業(yè)上可行:具備龐大算力需求的云廠可覆蓋開(kāi)發(fā)定制化芯片的成本。ASIC制造模式:云廠前端設(shè)計(jì)+IC輔助設(shè)計(jì)支持。??推薦(1)互聯(lián)網(wǎng)云計(jì)算:騰訊控股,阿里巴巴,金山云;谷歌、微軟、META、亞馬遜;(2)ASIC輔助設(shè)計(jì):博通。風(fēng)險(xiǎn)提示:內(nèi)容和互聯(lián)網(wǎng)平臺(tái)監(jiān)管環(huán)境變化風(fēng)險(xiǎn);大模型性能進(jìn)步不及預(yù)期;AI應(yīng)用落地進(jìn)展不及預(yù)期風(fēng)險(xiǎn)

證券研究報(bào)告3主要內(nèi)容1.

AI云計(jì)算新范式:規(guī)模效應(yīng)+AI

Infra能力+算力自主化2.

規(guī)模效應(yīng):資本密集度+多租戶(hù)+內(nèi)部負(fù)載的削峰填谷3.

AIInfra:實(shí)現(xiàn)計(jì)算性能挖潛4.

算力自主化:海外ASIC芯片趨勢(shì)啟示5.

重點(diǎn)標(biāo)的:互聯(lián)網(wǎng)云廠+ASIC芯片6.

重點(diǎn)公司估值表及風(fēng)險(xiǎn)提示41.1

云計(jì)算:計(jì)算資源公共化,AI云聚焦于AI算力+工具?

云計(jì)算是將計(jì)算資源變成可租用的公共服務(wù),強(qiáng)調(diào)集中管理和動(dòng)態(tài)分配虛擬化計(jì)算資源,以按需自助服務(wù)、彈性擴(kuò)展和按使用量計(jì)費(fèi)為核心特征的標(biāo)準(zhǔn)化服務(wù)模式,實(shí)現(xiàn)相對(duì)企業(yè)自建數(shù)據(jù)中心的性?xún)r(jià)比優(yōu)勢(shì)。?

傳統(tǒng)云計(jì)算指基于CPU服務(wù)器,主要為傳統(tǒng)工作負(fù)載提供支持。AI云的區(qū)別在于,硬件平臺(tái)基于GPU服務(wù)器,主要提供包括MaaS層在內(nèi)的各環(huán)節(jié)AI工具及服務(wù)。圖:云計(jì)算按服務(wù)方式的分層基礎(chǔ)設(shè)施即服務(wù)平臺(tái)即服務(wù)大模型即服務(wù)MaaS(AI云提供)軟件即服務(wù)IaaSPaaSSaaS應(yīng)用程序數(shù)據(jù)信息應(yīng)用程序數(shù)據(jù)信息應(yīng)用程序數(shù)據(jù)信息應(yīng)用程序數(shù)據(jù)信息云用戶(hù)管理大模型API/開(kāi)源模型大模型API/開(kāi)源模型運(yùn)行環(huán)境中間件運(yùn)行環(huán)境中間件運(yùn)行環(huán)境中間件運(yùn)行環(huán)境中間件云服務(wù)商全棧管理操作系統(tǒng)數(shù)據(jù)庫(kù)操作系統(tǒng)數(shù)據(jù)庫(kù)操作系統(tǒng)數(shù)據(jù)庫(kù)操作系統(tǒng)數(shù)據(jù)庫(kù)虛擬化軟件服務(wù)器虛擬化軟件服務(wù)器虛擬化軟件服務(wù)器虛擬化軟件服務(wù)器云服務(wù)商提供網(wǎng)絡(luò)設(shè)備網(wǎng)絡(luò)設(shè)備網(wǎng)絡(luò)設(shè)備網(wǎng)絡(luò)設(shè)備存儲(chǔ)設(shè)備存儲(chǔ)設(shè)備存儲(chǔ)設(shè)備存儲(chǔ)設(shè)備機(jī)房基礎(chǔ)設(shè)施機(jī)房基礎(chǔ)設(shè)施機(jī)房基礎(chǔ)設(shè)施機(jī)房基礎(chǔ)設(shè)施

證券研究報(bào)告

資料:CSDN,申萬(wàn)宏源研究51.1

云計(jì)算:AI時(shí)代云需求明確提升,重點(diǎn)關(guān)注未來(lái)競(jìng)爭(zhēng)?

AI對(duì)于算力基礎(chǔ)設(shè)施的需求明確提升,各云廠在AI云收入拉動(dòng)下?tīng)I(yíng)收增速回暖、Capex將增長(zhǎng)加速已成為市場(chǎng)共識(shí)。?

本報(bào)告則旨在聚焦于未來(lái)的AI云競(jìng)爭(zhēng),在規(guī)模效應(yīng)、AI

Infra能力、算力自主化三大層面討論AI云競(jìng)爭(zhēng)格局變化和未來(lái)利潤(rùn)率趨勢(shì)。表:國(guó)內(nèi)及海外主要云廠商營(yíng)收增速回暖(單位:美股標(biāo)的為億美元,其他標(biāo)的為億人民幣)公司2023年云收入2023年YoY云收入占比

2024年云收入

2024年YoY云收入占比

云經(jīng)營(yíng)利潤(rùn)率亞馬遜微軟智能云谷歌阿里巴巴金山云中國(guó)移動(dòng)中國(guó)聯(lián)通中國(guó)電信9087973319947083351097213%16%35%11%11%100%8%1,0769564321,135781,00468619%20%31%8%10%20%17%17%17%37%17%12%100%10%18%22%37%40%以上14%26%2%-14%66%42%68%9%-6%14%19%1,139表:國(guó)內(nèi)及海外主要云廠商Capex同比增速大幅提升公司23Q323Q424Q124Q224Q324Q4微軟亞馬遜Meta70%-24%-30%11%-57%237%61%69%-12%-15%45%28%33%90%79%5%-2%91%221%226%57%78%54%36%91%75%121%-22%79%81%41%97%91%94%谷歌62%30%阿里巴巴騰訊控股百度240%114%-53%259%386%-36%

證券研究報(bào)告資料:各公司財(cái)報(bào),申萬(wàn)宏源研究61.2

AI云新范式:更多競(jìng)爭(zhēng)要素,看好互聯(lián)網(wǎng)云/大型云?

對(duì)于云計(jì)算而言,云服務(wù)工具/資源的豐富度、計(jì)算資源的利用率為云廠商盈利核心。?

相對(duì)傳統(tǒng)云,AI云計(jì)算出現(xiàn)新范式:云技術(shù)重新進(jìn)入快速迭代階段、資本更為密集,對(duì)云廠商的資本密集度、產(chǎn)能利用率、云基礎(chǔ)設(shè)施能力、工具和生態(tài)的豐富度、自研芯片布局等維度均提出新要求。?

AI云實(shí)現(xiàn)盈利的門(mén)檻將進(jìn)一步提升,看好擁有技術(shù)能力、云多租戶(hù)、內(nèi)部負(fù)載規(guī)模效應(yīng)的互聯(lián)網(wǎng)云/大型云。圖:AI云相對(duì)傳統(tǒng)云,在資本開(kāi)支、產(chǎn)能利用率、技術(shù)能力等方面提出更高要求核心競(jìng)爭(zhēng)要素傳統(tǒng)云計(jì)算AI云計(jì)算資本密集型,以CPU服務(wù)器為主2023年海外大型云/互聯(lián)網(wǎng)巨頭Capex總和為1534億美元以GPU服務(wù)器為主,單集群Capex更龐大2024年海外大型云/互聯(lián)網(wǎng)巨頭Capex總和為2504億美元規(guī)模效應(yīng)-資本密集度IT設(shè)備成本占比約為40%-50%,基建、運(yùn)維占比相對(duì)高,對(duì)產(chǎn)能空置有一定容忍度IT設(shè)備成本占比約為60%-70%,折舊壓力更大,對(duì)產(chǎn)能空置容忍度很低,擁有內(nèi)部負(fù)載/自研大模型/云多租戶(hù)十分重要規(guī)模效應(yīng)-產(chǎn)能利用率AI云的基礎(chǔ)設(shè)施能力仍在快速迭代,且各廠商能力差異大,體現(xiàn)在大模型推理成本等領(lǐng)域AIInfra-云基礎(chǔ)設(shè)施能力傳統(tǒng)云基礎(chǔ)設(shè)施強(qiáng)調(diào)穩(wěn)定性及服務(wù),虛擬化、容器等技術(shù)已趨于成熟AI

Infra-工具/生態(tài)豐富度主要提供數(shù)據(jù)分析工具、Devops平臺(tái)等除傳統(tǒng)工具外,競(jìng)爭(zhēng)格局還受到云廠商提供的AI工具豐富度影響服務(wù),工具豐富度算力自主化自研ASIC芯片主要云廠商亞馬遜、阿里巴巴、谷歌等均主要云廠商谷歌、亞馬遜、阿里巴巴等均在針對(duì)特定工作負(fù)載自研AI

ASIC芯片在自研CPU等芯片資料:申萬(wàn)宏源研究

證券研究報(bào)告7注:本表內(nèi)海外大型云/互聯(lián)網(wǎng)巨頭包括微軟、亞馬遜、谷歌、META1.2

AI云ROI:更強(qiáng)的規(guī)模效應(yīng)、AI

Infra能力、算力自主化?

AI云利潤(rùn)率將由三大方向影響,不同能力、規(guī)模間的AI云利潤(rùn)率或?qū)⒗_(kāi)較為明顯的差距。?

1)需求側(cè)-規(guī)模效應(yīng)提升算力利用率:增加工作負(fù)載保證集群滿(mǎn)負(fù)載、實(shí)現(xiàn)算力需求削峰填谷;?

2)供給側(cè)-AI

Infra能力提升硬件計(jì)算效能:對(duì)應(yīng)用程序/大模型至硬件間的組網(wǎng)、軟件算法進(jìn)行優(yōu)化;?

3)長(zhǎng)期供給側(cè)-算力自主化降低硬件成本:中長(zhǎng)期維度降本途徑。圖:AI云的ROI主要由規(guī)模效應(yīng)、AI

Infra優(yōu)化、算力自主化帶來(lái)應(yīng)用程序-AI云工程棧規(guī)模效應(yīng)AIInfra能力算力自主化應(yīng)用程序-算力負(fù)載前提條件

軟件技術(shù)、業(yè)務(wù)運(yùn)營(yíng)導(dǎo)向軟硬件技術(shù)、研發(fā)導(dǎo)向硬件技術(shù)、研發(fā)導(dǎo)向規(guī)模效應(yīng):提升產(chǎn)能利用率?

自研/投資大模型?

云多租戶(hù)需求量MaaS/PaaS算力平臺(tái)?

ASIC芯片設(shè)計(jì)能力?

開(kāi)發(fā)生態(tài)構(gòu)建能力核心因素降本方式?

AIInfra工程能力?

龐大而穩(wěn)定的AI內(nèi)部工作負(fù)載AI

Infra能力:計(jì)算效能挖潛提升產(chǎn)能利用率:削峰填谷,平穩(wěn)地工作負(fù)載,攤薄折舊成本提升計(jì)算效能,提升同等芯片在單位時(shí)間內(nèi)可完成的訓(xùn)練/推理任務(wù)量降低硬件采購(gòu)成本,提升單位資本開(kāi)支可獲取的算力GPU/ASIC硬件平臺(tái)算力自主化:自研ASIC芯片

證券研究報(bào)告資料:申萬(wàn)宏源研究8主要內(nèi)容1.

AI云計(jì)算新范式:規(guī)模效應(yīng)+AI

Infra能力+算力自主化2.

規(guī)模效應(yīng):資本密集度+多租戶(hù)+內(nèi)部負(fù)載的削峰填谷3.

AIInfra:實(shí)現(xiàn)計(jì)算性能挖潛4.

算力自主化:海外ASIC芯片趨勢(shì)啟示5.

重點(diǎn)標(biāo)的:互聯(lián)網(wǎng)云廠+ASIC芯片6.

重點(diǎn)公司估值表及風(fēng)險(xiǎn)提示92.1

資本密集度:構(gòu)建AI云集群的支出量級(jí)仍在不斷擴(kuò)大?

海外:根據(jù)各企業(yè)指引,2024年谷歌、微軟、亞馬遜、META的Capex總計(jì)2504億美元;若假設(shè)2025年(即FY25Q3-FY26Q2)微軟保持FY25Q2的資本開(kāi)支水平,則四家巨頭的Capex預(yù)計(jì)將接近3400億美元,同比增速有望達(dá)到35%。隨著各家Capex已達(dá)到較高基數(shù)水平,預(yù)計(jì)26年增速或有所放緩。?

國(guó)內(nèi):阿里巴巴指引25-27年資本開(kāi)支將達(dá)到3800億元,年均將接近1300億元;騰訊指引Capex將占營(yíng)收的低兩位數(shù)百分比(Low

Teens)。圖:海外主要互聯(lián)網(wǎng)云巨頭資本開(kāi)支快速增長(zhǎng)圖:國(guó)內(nèi)主要互聯(lián)網(wǎng)云巨頭資本開(kāi)支快速增長(zhǎng)(億美元)微軟AmazonMetaGoogle合計(jì)同比(億人民幣)阿里騰訊百度30090%80%70%60%50%4003503002502502001501005040%

20030%20%10%0%1501005000-10%18Q1

18Q3

19Q1

19Q3

20Q1

20Q3

21Q1

21Q3

22Q1

22Q3

23Q1

23Q3

24Q1

24Q3CY2022Q3CY2023Q1CY2023Q3CY2024Q1CY2024Q3

證券研究報(bào)告資料:谷歌、微軟、亞馬遜、META財(cái)報(bào),Bloomberg,申萬(wàn)宏源研究102.1

資本密集度:AI視頻/Agent到來(lái)將提升算力需求量級(jí)?

AI應(yīng)用即將走向AI

Agent、視頻、3D等模態(tài),對(duì)算力的消耗量級(jí)將進(jìn)一步提升:文字交互的推理單次請(qǐng)求目前僅為數(shù)百Tokens的計(jì)算量,但AI

Agent的復(fù)雜任務(wù)規(guī)劃、多步推理,以及視頻和3D工具的單次推理,消耗Tokens的量級(jí)將相對(duì)文字交互明確提升。?

此外,AI有望拉動(dòng)國(guó)內(nèi)企業(yè)上云需求,進(jìn)一步帶動(dòng)云計(jì)算Capex提升。表:圖片/視頻生成及AIAgent預(yù)計(jì)將帶來(lái)更高量級(jí)算力需求功能文字對(duì)話(huà)圖片生成視頻生成模型價(jià)格具體消耗谷歌輸入:0.1美元/百萬(wàn)Tokens;4字符/Token,100Tokens大約相當(dāng)于60-80英文單詞,每輪對(duì)話(huà)生成300個(gè)單詞,則消耗大約500TokensGemini2.0Flash

輸出:0.4美元/百萬(wàn)Tokens谷歌

Imagen3谷歌

Veo2生成圖片:0.04美元/圖片生成視頻:0.5美元/s按同等價(jià)格算約等同于10萬(wàn)Tokens文字輸出算力8s視頻價(jià)格為4美元,按同等價(jià)格算約等同于1000萬(wàn)Tokens文字輸出算力越復(fù)雜的任務(wù)需要的大模型推理步數(shù)更多。AI

Agent完成某一簡(jiǎn)單代碼開(kāi)發(fā)需要約20步,則算力消耗為單步推理的20倍以上(多步推理還需考慮狀態(tài)維持開(kāi)銷(xiāo)、動(dòng)態(tài)規(guī)劃損耗等算力消耗),復(fù)雜代碼開(kāi)發(fā)則需要更多推理步數(shù)。AI

Agent基于基礎(chǔ)大模型參照文字對(duì)話(huà)消耗3D模型生成Meshy生成模型+紋理:0.4美元/個(gè)按同等價(jià)格算,約等同于100萬(wàn)Tokens文字輸出算力

證券研究報(bào)告資料:谷歌、Meshy官網(wǎng),申萬(wàn)宏源研究112.2

產(chǎn)能利用率:AI云IT設(shè)備折舊壓力大,空置容忍度更低?

對(duì)比傳統(tǒng)云計(jì)算,AI云廠將面臨更大的折舊壓力,利潤(rùn)率將對(duì)產(chǎn)能利用率更為敏感,將形成更強(qiáng)規(guī)模效應(yīng)。?

1)AI云的IT設(shè)備在建設(shè)成本的占比提升:AI服務(wù)器+網(wǎng)絡(luò)設(shè)備折舊周期更短,通常折舊年限在5-6年,而基礎(chǔ)設(shè)施折舊年限通常超過(guò)15年;短折舊項(xiàng)占比更高,AI云廠面臨更大的折舊壓力。?

2)AI服務(wù)器實(shí)際折舊周期更短:不同于發(fā)展成熟的CPU,GPU/ASIC仍處于高速更新迭代階段,可能加速折舊。以亞馬遜FY24Q4財(cái)報(bào)為例,重新將部分IT設(shè)備折舊年限從6年縮短至5年。表

:折舊期限更短的IT設(shè)備在自建AIDC成本占比重中更高,產(chǎn)能空置的容忍度大幅降低典型傳統(tǒng)數(shù)據(jù)中心建設(shè)成本占比30%-40%典型AI數(shù)據(jù)中心建設(shè)成本占比25%-35%基礎(chǔ)設(shè)施IT設(shè)備40%-50%60%-70%服務(wù)器/IT設(shè)備:存儲(chǔ)及網(wǎng)絡(luò)/IT設(shè)備:運(yùn)維及人工60%-70%30%-40%80%-90%10%-20%10%-20%5%-10%表

:FY24Q4亞馬遜縮短部分服務(wù)器及網(wǎng)絡(luò)設(shè)備折舊年限至5年,季度折舊攤銷(xiāo)成本環(huán)比加速增加單位:百萬(wàn)美元

3Q22A4Q22A1Q23A2Q23A3Q23A4Q23A1Q24A2Q24A3Q24A4Q24A亞馬遜QoQ谷歌103273933279021301208117.0%360211123-7.9%2635115894.2%28247.2%38749.2%26233.9%121314.7%317112.3%39211.2%28589.0%131148.1%33164.6%595952.0%31349.7%11684-10.9%34132.9%120383.0%37088.6%63805.9%36377.8%1344211.7%3,9857.5%1563116.3%4205QoQ微軟-8.4%3648-26.8%35495.5%60271.1%73836827QoQMETAQoQ30.8%2329-2.7%252415.7%4027-7.5%446033747.7%9.3%8.4%10.7%10.8%資料:谷歌、微軟、亞馬遜、META財(cái)報(bào),Bloomberg,申萬(wàn)宏源研究

證券研究報(bào)告12注:微軟的折舊中包含收購(gòu)暴雪動(dòng)視后的無(wú)形資產(chǎn)折舊等2.2

產(chǎn)能利用率:短期GPU供不應(yīng)求利潤(rùn)率向好,供需平衡后產(chǎn)能利用率影響將凸顯?

AI云計(jì)算需求供不應(yīng)求,拉動(dòng)云廠營(yíng)業(yè)利潤(rùn)率自23Q3后明確回暖。H100等GPU租賃價(jià)格保持在較高水平,為核心云廠帶來(lái)了較為豐厚的投資回報(bào)率;此外北美云廠疊加北美宏觀經(jīng)濟(jì)從23Q3后從悲觀預(yù)期中逐漸修復(fù)。?

盡管當(dāng)前云廠營(yíng)業(yè)利潤(rùn)率對(duì)折舊成本抬升仍不敏感,但仍需關(guān)注,隨著臺(tái)積電COWOS產(chǎn)能逐漸釋放,GPU將從緊缺逐漸轉(zhuǎn)向平衡,GPU租賃價(jià)格或有所回落,屆時(shí)云廠AI算力產(chǎn)能利用率對(duì)利潤(rùn)率影響將更明確體現(xiàn)。表

:AI算力供不應(yīng)求+需求回暖,主要云廠利潤(rùn)率持續(xù)提升后仍保持較高水平單位:億美元CY23Q174.54CY23Q280.31CY23Q384.11CY23Q491.92CY24Q195.74CY24Q2103.4728.8%11.3%262.8118.7%35.5%35.0%237.8519.6%CY24Q3113.5335.0%17.1%274.5219.1%38.1%34.0%240.9220.4%43.6%CY24Q4119.5530.1%17.5%287.8618.9%36.9%31.0%255.4418.7%42.5%營(yíng)收同比增速營(yíng)業(yè)利潤(rùn)率營(yíng)收谷歌云28.1%2.6%28.0%4.9%22.5%3.2%25.7%9.4%28.4%9.4%213.5415.8%24.0%221.4012.2%24.2%230.5912.3%30.3%30.0%200.1318.5%44.5%242.0413.2%29.6%31.0%215.2520.1%250.3717.2%37.6%35.0%221.4121.4%亞馬遜AWSAzure同比增速營(yíng)業(yè)利潤(rùn)率營(yíng)收增速營(yíng)收182.44198.89微軟智能云同比增速營(yíng)業(yè)利潤(rùn)率營(yíng)收(億人民幣)185.82251.23276.48280.66255.95265.49296.10317.42阿里云營(yíng)收YoY-2.1%2.1%4.1%1.5%2.3%5.1%2.6%8.4%3.4%5.6%5.9%8.8%7.1%9.0%13.1%9.9%EBITAMargin資料:谷歌、微軟、亞馬遜、阿里巴巴財(cái)報(bào),Bloomberg,申萬(wàn)宏源研究

證券研究報(bào)告13注:微軟智能云業(yè)務(wù)在Azure之外還包括服務(wù)器產(chǎn)品等其他業(yè)務(wù)2.3

如何實(shí)現(xiàn)規(guī)模效應(yīng)?多租戶(hù)+內(nèi)部負(fù)載均衡算力需求?

對(duì)于大模型/云廠商而言,應(yīng)用訪問(wèn)需求在日內(nèi)呈現(xiàn)明顯周期性和波動(dòng)性:1)日間算力需求高峰期:盡可能實(shí)現(xiàn)訪問(wèn)請(qǐng)求量相對(duì)穩(wěn)定減少波動(dòng)性,避免峰值需求過(guò)高偏離可服務(wù)量,擁有云多租戶(hù)/大規(guī)模用戶(hù)的AI應(yīng)用至關(guān)重要。2)夜間算力需求低谷期:盡可能增加時(shí)效性要求偏低的任務(wù)負(fù)載,平抑需求周期性。圖:DeepSeek應(yīng)用推理節(jié)點(diǎn)數(shù)量按需彈性變化,日間需求平穩(wěn)并跑滿(mǎn)產(chǎn)能,夜間實(shí)現(xiàn)彈性調(diào)整夜間算力彈性調(diào)整:DeepSeek動(dòng)態(tài)調(diào)整節(jié)點(diǎn)數(shù)量降低夜間GPU使用量日內(nèi)需求穩(wěn)定并發(fā):龐大的用戶(hù)體量保持實(shí)際訪問(wèn)量接近峰值可服務(wù)訪問(wèn)量,減少波動(dòng)性

證券研究報(bào)告資料:知乎@DeepSeek,申萬(wàn)宏源研究142.3

如何實(shí)現(xiàn)規(guī)模效應(yīng)?多租戶(hù)+內(nèi)部負(fù)載均衡算力需求?

云多租戶(hù)/大規(guī)模AI應(yīng)用平抑波動(dòng)性:以互聯(lián)網(wǎng)云為代表的云廠,對(duì)AI布局較早并已吸引眾多AI初創(chuàng)公司客戶(hù),旗下?lián)碛杏脩?hù)規(guī)模較大的AI應(yīng)用(豆包、騰訊元寶)以及內(nèi)部AI負(fù)載,可實(shí)現(xiàn)日內(nèi)需求的穩(wěn)定性。?

內(nèi)部負(fù)載調(diào)度均衡平抑周期性:互聯(lián)網(wǎng)云廠擁有較為旺盛的非實(shí)時(shí)算力需求,包括大模型/多模態(tài)工具/推薦系統(tǒng)的訓(xùn)練迭代需求、數(shù)據(jù)分析處理需求等,可以運(yùn)行于算力需求低谷期,可平抑需求的周期性。表:多租戶(hù)/應(yīng)用+非實(shí)時(shí)內(nèi)部負(fù)載將幫助AI云算力實(shí)現(xiàn)削峰填谷整體需求日間需求波動(dòng)夜間需求填補(bǔ)較長(zhǎng)時(shí)間維度內(nèi)對(duì)客戶(hù)需求的準(zhǔn)確估算擁有云多租戶(hù)、自有業(yè)務(wù)的非實(shí)時(shí)AI算力需求對(duì)AI云的要求擁有云多租戶(hù)、大規(guī)模AI應(yīng)用由于夜間推理訪問(wèn)量較少,1)可運(yùn)行時(shí)效性要求較低的AI工作負(fù)載,包括模型訓(xùn)練、離線(xiàn)推理、推薦系統(tǒng)訓(xùn)練等,填補(bǔ)夜間算力空閑時(shí)間。2)可通過(guò)大幅降價(jià)吸引云租戶(hù)業(yè)績(jī)運(yùn)行工作負(fù)載。實(shí)際滿(mǎn)足算力需求的大數(shù)定律,擁有云多租戶(hù)、應(yīng)用用戶(hù)數(shù)量大的AI應(yīng)用,可以保持在大部分時(shí)間段的負(fù)載相對(duì)穩(wěn)定,而租戶(hù)、應(yīng)用用戶(hù)少的情況下更可能出現(xiàn)的需求波動(dòng)性,導(dǎo)致算力空載。根據(jù)云客戶(hù)或自身需提升產(chǎn)能利用率

求設(shè)計(jì)集群規(guī)模,減方式少因租戶(hù)不足而帶來(lái)的產(chǎn)能空置

證券研究報(bào)告

資料:申萬(wàn)宏源研究152.4

互聯(lián)網(wǎng)云:閉源大模型將影響云競(jìng)爭(zhēng)格局、算力需求量?

閉源模型仍為主要模式,云廠商可通過(guò)自研大模型+投資大模型廠商形成模型獨(dú)占,獲取更大市場(chǎng)份額,增加云客戶(hù)數(shù)量、提升對(duì)于云廠的算力需求量。海外TOP3閉源廠商(OpenAI-微軟+甲骨文、谷歌、Anthropic-亞馬遜)+以阿里為代表國(guó)內(nèi)大模型云廠。?

但開(kāi)源模型亦逐漸走向繁榮,一定程度上縮小大模型能力差距對(duì)云廠競(jìng)爭(zhēng)格局的影響力。DeepSeek接力META的Llama系列大模型,領(lǐng)導(dǎo)開(kāi)源生態(tài)逐漸走向繁榮,此外阿里、谷歌等廠商也開(kāi)源部分模型構(gòu)建開(kāi)發(fā)者生態(tài),預(yù)計(jì)閉源與開(kāi)源兩大路徑將共存。表

:主要大模型性能排名Arena

Score排名模型Grok-3-Preview-02-24GPT-4.5-PreviewArena分?jǐn)?shù)1412141114021384138013771363135713521336131813111309130512711269模型廠商xAIOpenAIxAI谷歌谷歌OpenAIDeepSeek谷歌OpenAI阿里巴巴DeepSeek智譜AIAnthropic階躍星辰騰訊是否開(kāi)源閉源閉源閉源閉源閉源閉源開(kāi)源閉源閉源閉源開(kāi)源閉源閉源閉源閉源開(kāi)源12345678910131416182834chocolate

(EarlyGrok-3)Gemini-2.0-Flash-Thinking-Exp-01-21Gemini-2.0-Pro-Exp-02-05ChatGPT-4o-latest

(2025-01-29)DeepSeek-R1Gemini-2.0-Flash-001o1-2024-12-17Qwen2.5-MaxDeepSeek-V3GLM-4-Plus-0111Claude3.7SonnetStep-2-16K-ExpHunyuan-Large-2025-02-10Meta-Llama-3.1-405B-Instruct-bf16Meta資料:Hugging

Face,申萬(wàn)宏源研究

證券研究報(bào)告16注:時(shí)間截止2025年3月,并未包括字節(jié)跳動(dòng)與百度等公司的大模型2.4

互聯(lián)網(wǎng)云:龐大的工作負(fù)載+潛在AI應(yīng)用將攤薄成本?

互聯(lián)網(wǎng)云公司擁有龐大的可遷移至AI芯片的內(nèi)部工作負(fù)載,以META為例,2022年開(kāi)始將推薦系統(tǒng)負(fù)載轉(zhuǎn)移至GPU服務(wù)器上,此外搜索引擎、大模型訓(xùn)練推理、潛在爆款A(yù)I應(yīng)用均可運(yùn)行于AI芯片,具備規(guī)模效應(yīng)。?

內(nèi)部負(fù)載/全球性應(yīng)用可調(diào)節(jié)算力芯片工作峰谷。1)任務(wù)調(diào)整:將時(shí)效性要求更低的負(fù)載(例如大模型/推薦系統(tǒng)訓(xùn)練迭代、數(shù)據(jù)分析處理)用于閑時(shí)。2)全球布局的企業(yè),日間與夜間工作負(fù)載的時(shí)差可以被平抑。表:國(guó)內(nèi)互聯(lián)網(wǎng)云廠商擁有龐大工作負(fù)載,可有效攤薄成本AI芯片布局大模型及AI開(kāi)發(fā)框架已推出的核心AI應(yīng)用可在AI芯片上運(yùn)行的內(nèi)部工作負(fù)載??云計(jì)算:火山引擎推薦系統(tǒng):應(yīng)用矩陣抖音、TikTok、剪映、今日頭條等的AI推薦算法??大模型:豆包;多模態(tài)BuboGPT開(kāi)發(fā)平臺(tái):Coze

AI平臺(tái)???AI視頻工具:即夢(mèng)外購(gòu):根據(jù)Omdia,2024年公司購(gòu)買(mǎi)了23萬(wàn)片H100字節(jié)跳動(dòng)阿里巴巴騰訊AIChatbot:豆包AIAgent平臺(tái):小悟空??云計(jì)算:阿里云外購(gòu):采購(gòu)英偉達(dá)芯片自研AI芯片:12nm

含光800(推理)等??AIChatbot:通義??大模型:24年5月發(fā)布通義千問(wèn)2.5推薦系統(tǒng):電商平臺(tái)淘寶、阿里國(guó)際站等的AI推薦算法電商助手:淘寶問(wèn)問(wèn)(ToC)、AI生意助手(ToB)開(kāi)發(fā)平臺(tái):百煉AI平臺(tái)?AI助手:承擔(dān)Apple

Intelligence的大模型/算力支持自研CPU:倚天系列?開(kāi)源大模型社區(qū):魔塔社區(qū)??大模型:24年11月推出Huanyuan

large

389B

MoE開(kāi)源模型????AIChatbot:混元助手、騰訊元寶AI視頻平臺(tái):騰訊智影AIAgent平臺(tái):騰訊元器AI筆記:Ima

copilot??云計(jì)算:騰訊云外購(gòu):根據(jù)Omdia,2024年公司購(gòu)買(mǎi)了23萬(wàn)片H100自研AI芯片:紫霄(推理)等推薦系統(tǒng):微信視頻號(hào)、騰訊視頻等的AI推薦算法開(kāi)發(fā)平臺(tái):騰訊云AI平臺(tái)?搜索引擎:微信搜一搜的AI搜索算法?大模型:24年6月發(fā)布文心4.0

Turbo深度學(xué)習(xí)框架:飛槳開(kāi)發(fā)平臺(tái):千帆????AI搜索:百度AI智能問(wèn)答AIChatbot:文心一言AIAgent平臺(tái):文心智能體自動(dòng)駕駛:蘿卜快跑???云計(jì)算:百度云外購(gòu):采購(gòu)英偉達(dá)芯片自研AI芯片:7nm

昆侖芯二代搜索引擎:百度搜索的AI搜索算法推薦系統(tǒng):應(yīng)用矩陣百度地圖、等的AI推薦算法百度??

證券研究報(bào)告資料:字節(jié)跳動(dòng)、阿里巴巴、騰訊、百度官網(wǎng)及財(cái)報(bào),Omdia,申萬(wàn)宏源研究172.4

互聯(lián)網(wǎng)云:龐大的工作負(fù)載+潛在AI應(yīng)用將攤薄成本表:海外互聯(lián)網(wǎng)巨頭/大型云廠商擁有多租戶(hù)/龐大內(nèi)部工作負(fù)載,可有效攤薄成本AI芯片布局大模型及開(kāi)發(fā)框架AI研發(fā)布局模式已推出的核心AI應(yīng)用現(xiàn)有業(yè)務(wù)生態(tài)協(xié)同大模型:OpenAI推出GPT系列模型,2023年3月推出GPT-4,24年5月推出GPT-4o,24年9月推出GPT-o1開(kāi)發(fā)平臺(tái):Azure

AIStudio,包括GPT系列獨(dú)家模型及第三方大模型大比例持股體外公司+深度合作。辦公:推出Microsoft

3652023年向OpenAI投資100億美

Copilot云計(jì)算:Microsoft

Azure辦公軟件:Microsoft

365、Office外購(gòu):根據(jù)Omdia,24年購(gòu)買(mǎi)約48.5萬(wàn)張H100芯片元,為OpenAI主要的算力提供

CRM/ERP:推出Dynamic微軟谷歌自研:2023年11月發(fā)布Maia100芯片商365

copilot操作系統(tǒng):Windows瀏覽器:Edge自研:招攬Inflection

AI核心團(tuán)

編程工具:Github

Copilot隊(duì),布局大模型搜索引擎:必應(yīng)集成ChatGPT

搜索引擎:Bing外購(gòu):根據(jù)Omdia,24年購(gòu)買(mǎi)約16.9萬(wàn)張H100;辦公:推出Duet

AI,定價(jià)30

云計(jì)算:Google

Cloud大模型:2023年12月推出首個(gè)旗下部門(mén)自研:此前有Google

美元/月辦公軟件:Workspace操作系統(tǒng):安卓自研:2016年推出第一代TPU,

多模態(tài)大模型Gemini,24年底TPUv6

Trilium已上線(xiàn)谷歌云,性

開(kāi)始發(fā)布Gemini

2.0系列能出色。TPU芯片可基本支撐自研

深度學(xué)習(xí)框架:TensorFlowBrain、Deepmind等多個(gè)AI研

搜索:AI搜索功能AI發(fā)部門(mén)/全資子公司,分立運(yùn)營(yíng);

Overview,至24年10月,已

瀏覽器:Chrome2023年4月起整合為單一AI研發(fā)

覆蓋10億用戶(hù)部門(mén)Google

Deepmind

應(yīng)用:NotebookLM搜索引擎:Google應(yīng)用矩陣:谷歌地圖、Youtube、大模型的訓(xùn)練和推理(兩大主流框架之一)、JAX通信:自研OCS通信系統(tǒng),通信性

開(kāi)發(fā)平臺(tái):Vertex

AI其他:編程工具Alphacode等

Play

store、Gmail能出色AI推薦系統(tǒng)升級(jí):截至24年10月,AI全年已提升外購(gòu):根據(jù)Omdia,2024年購(gòu)買(mǎi)

大模型(開(kāi)源):2023年7月開(kāi)約22.4萬(wàn)張H100芯片;計(jì)劃在25

源Llama2,2024年推出Llama3,F(xiàn)acebook

/Ins使用時(shí)長(zhǎng)社交應(yīng)用:Facebook、Instagram等元宇宙:旗下VR設(shè)備品牌Quest以及內(nèi)容平臺(tái)旗下部門(mén)自研:AI業(yè)務(wù)均由旗下

8%/6%AI部門(mén)進(jìn)行研發(fā),為直屬部門(mén)模

METAAI助手:已集成于社交年底擁有130萬(wàn)塊GPULlama4正在10萬(wàn)卡集群上訓(xùn)練,Meta自研:2024年發(fā)布MTIA

v2芯片,

Llama4

mini已完成訓(xùn)練陸續(xù)應(yīng)用于推薦系統(tǒng)等的推理負(fù)載

深度學(xué)習(xí)框架:Pytorch(兩大中,26年將應(yīng)用于訓(xùn)練及推理負(fù)載

主流框架之一)式軟件中,至24Q4

MAU超7億廣告創(chuàng)意及投放:推出輔助廣告內(nèi)容生成工具、AI廣告投放工具電商:為電商運(yùn)營(yíng)提供一系列外購(gòu):根據(jù)Omdia,2024年購(gòu)買(mǎi)

自研大模型:2023年12月推出

旗下部門(mén)自研+持股重點(diǎn)公司:

AI功能支持,以及導(dǎo)購(gòu)助手約19.6萬(wàn)張H100Titan系列AI模型旗下AI部門(mén)完成自研大模型研發(fā);Rufus;自研:2020年推出Trainium,23

大模型(Anthropic):24年開(kāi)

重點(diǎn)投資Anthropic,2023-24

生成式助手:面向企業(yè)端的云計(jì)算:AWS電商平臺(tái):亞馬遜商城亞馬遜年推出Trainium2,Rainier項(xiàng)目正

始持續(xù)更新Claude3.5系列構(gòu)建數(shù)十萬(wàn)卡Tranium2集群;Tranium3將于25年底發(fā)布年投資80億美元,并提供算力支

AmazonQ;開(kāi)發(fā)平臺(tái):Bedrock

AI搭載自研

持;谷歌也參與Anthropic多輪

廣告:輔助廣告內(nèi)容生成工具;及第三方模型投資通過(guò)AI實(shí)現(xiàn)廣告智能投放提升效率

證券研究報(bào)告

資料:谷歌、亞馬遜、微軟、Meta、蘋(píng)果公司官網(wǎng),Omdia,申萬(wàn)宏源研究18主要內(nèi)容1.

AI云計(jì)算新范式:規(guī)模效應(yīng)+AI

Infra能力+算力自主化2.

規(guī)模效應(yīng):資本密集度+多租戶(hù)+內(nèi)部負(fù)載的削峰填谷3.

AIInfra:實(shí)現(xiàn)計(jì)算性能挖潛4.

算力自主化:海外ASIC芯片趨勢(shì)啟示5.

重點(diǎn)標(biāo)的:互聯(lián)網(wǎng)云廠+ASIC芯片6.

重點(diǎn)公司估值表及風(fēng)險(xiǎn)提示193.1

AIInfra:從算力到應(yīng)用的基礎(chǔ)設(shè)施軟件/工具?

AI

Infra定位于算力與應(yīng)用之間的“橋梁”角色的基礎(chǔ)軟件設(shè)施層,包括:1)算力硬件層面的組網(wǎng)、算力資源調(diào)度等,實(shí)現(xiàn)集群高效率;2)模型層面提供的工具庫(kù)、框架庫(kù)的豐富度及有效性,幫助云客戶(hù)實(shí)現(xiàn)高效資源調(diào)用;3)針對(duì)具體應(yīng)用的定向優(yōu)化。?

各廠商間AI

Infra能力有較大差距。不同于開(kāi)發(fā)生態(tài)十分成熟、潛能已充分挖掘的CPU,GPU/ASIC硬件的開(kāi)發(fā)生態(tài)仍在不斷迭代豐富中,不同AI

Infra工程能力的團(tuán)隊(duì)對(duì)于算力硬件的利用率有較明顯差距。表:AIInfra從硬件平臺(tái)到軟件工具應(yīng)用程序-AI云工程棧AI

Infra能力層所處層次主要工作AI

Infra具體能力/實(shí)現(xiàn)方式以谷歌/DeepSeek為例的典型工作應(yīng)用程序-算力負(fù)載提供資源管理、運(yùn)營(yíng)管理、運(yùn)維管理等運(yùn)營(yíng)能力?

谷歌:根據(jù)具體使用場(chǎng)景,基于大模型能力開(kāi)發(fā)AI

Agent、AI應(yīng)用(NotebookLM)等針對(duì)具體的應(yīng)用進(jìn)行定向優(yōu)化,降低推理成本等應(yīng)用管理層主要為軟件、算法能力。1)提供AI框架庫(kù)、開(kāi)發(fā)資源庫(kù)、工具庫(kù);2)針對(duì)大模型進(jìn)行計(jì)算效率的算力優(yōu)化、負(fù)載均衡、擁塞控制等?

谷歌:1)提供Tensorflow深度學(xué)習(xí)框架庫(kù)以及眾多工具;2)針對(duì)大模型進(jìn)行定制化優(yōu)化。?

DeepSeek:針對(duì)大模型進(jìn)行專(zhuān)家并行、數(shù)據(jù)并行等方面的優(yōu)化提供模型開(kāi)發(fā)和應(yīng)用所需的各種基礎(chǔ)工具和組件MaaS/PaaS模型管理層算力管理層算力平臺(tái)?

谷歌:1)組網(wǎng):通過(guò)OCS組建TPU集群;2)通過(guò)Pathway實(shí)現(xiàn)異構(gòu)計(jì)算資源大規(guī)模編排調(diào)度;?

DeepSeek:構(gòu)建Fire-Flyer

AI-HPC集群,在組網(wǎng)、通信方面定向優(yōu)化;主要為通信優(yōu)化、算力資源調(diào)度、提供計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、

管理能力。安全等基礎(chǔ)資源和服務(wù)包括通信組網(wǎng)、異構(gòu)計(jì)算協(xié)調(diào)、容器管理、彈性部署等GPU/ASIC硬件平臺(tái)

證券研究報(bào)告資料:谷歌、DeepSeek官網(wǎng),申萬(wàn)宏源研究203.1

AIInfra:優(yōu)化主要由云廠/互聯(lián)網(wǎng)/大模型廠商完成?

具體看,從硬件到大模型的訓(xùn)練推理仍有AI框架庫(kù)、AI資源庫(kù)、底層算子等生態(tài)層次,英偉達(dá)CUDA生態(tài)提供眾多AI

Infra工具,能夠提供較好的計(jì)算利用率,但以出售硬件產(chǎn)品為目的的英偉達(dá),在AI

Infra優(yōu)化上進(jìn)一步算力挖潛的動(dòng)機(jī)略顯不足。因此云廠商/互聯(lián)網(wǎng)/大模型廠商將承擔(dān)主要的AI

Infra優(yōu)化、計(jì)算效能挖潛任務(wù)。圖:基于英偉達(dá)GPU的開(kāi)發(fā)工程棧,DeepSeek自PTX層定制算子優(yōu)化算法工程?高級(jí)封裝的算子易開(kāi)發(fā)性計(jì)算利用率相對(duì)低應(yīng)用/模型層:應(yīng)用程序/大模型AI框架庫(kù)基于下游用戶(hù)場(chǎng)景設(shè)計(jì)特定算法,并向用戶(hù)提供相應(yīng)服務(wù)??AI框架庫(kù)(高維抽象):從數(shù)學(xué)表達(dá)到計(jì)算圖:1)張量計(jì)算引擎,2)高層算子,例如全連接、卷積、optimizer等谷歌:TensorFlow、JAXMETA:PyTorch基本計(jì)算資源庫(kù)(低維抽象):例如cuDNN最基礎(chǔ)庫(kù),包含前向、后向卷積、激活函數(shù)、歸一化、張量變換等深度學(xué)習(xí)庫(kù):cuDNN、CUTLASS、TensorRT機(jī)器學(xué)習(xí)庫(kù):cuML、cuDF等CUDA-XLibraries底層硬件算子庫(kù)(Kernel)驅(qū)動(dòng)GPU計(jì)算單元執(zhí)行Kernel核函數(shù)功能,完成計(jì)算CUDA

工具包:CUDA驅(qū)動(dòng):CUDACUDA編譯器、開(kāi)發(fā)者工具等存儲(chǔ)管理等???底層的算法撰寫(xiě)高開(kāi)發(fā)維護(hù)難度PTX(并行線(xiàn)程執(zhí)行):英偉達(dá)GPU中間指令集架構(gòu)更精細(xì)地算力利用低級(jí)機(jī)器代碼:流處理匯編或英偉達(dá)SASS(Stream

Assembly

Code)GPU硬件

證券研究報(bào)告

資料:英偉達(dá)官網(wǎng),申萬(wàn)宏源研究213.2

DeepSeek啟示:AI

Infra能力對(duì)推理成本影響重大?

AI

Infra能力正拉開(kāi)AI應(yīng)用/大模型API的單次推理成本差距。英偉達(dá)GPU提供的開(kāi)發(fā)工具適用于標(biāo)準(zhǔn)化通用需求,易開(kāi)發(fā)性出色,但大模型至硬件調(diào)用間仍有多個(gè)步驟可實(shí)現(xiàn)成本優(yōu)化,優(yōu)化與否將拉開(kāi)成本差距。?

DeepSeek測(cè)算的應(yīng)用理論利潤(rùn)率出色,一大核心在于其針對(duì)特定DeepSeek

R1大模型進(jìn)行充分優(yōu)化。而同為DeepSeek

R1模型搭載于第三方大模型平臺(tái),若未進(jìn)行充分優(yōu)化,則其推理成本仍將相對(duì)較高。例如大模型平臺(tái)公司潞晨科技停用DeepSeekR1API接口,或?yàn)槌杀緜?cè)難以復(fù)制DeepSeek的優(yōu)化措施,成本仍較高。圖:DeepSeek列舉的DeepSeek應(yīng)用理論收入及成本對(duì)比,可實(shí)現(xiàn)利潤(rùn)/成本=545%的理論比例資料:《DeepSeek-V3/R1推理系統(tǒng)概覽》,申萬(wàn)宏源研究

證券研究報(bào)告22注:僅為理論測(cè)算,未考慮收費(fèi)服務(wù)的折扣以及實(shí)際收費(fèi)Tokens占比,實(shí)際場(chǎng)景中比例將低于此3.2

DeepSeek:AI

Infra優(yōu)化深入AI工程棧全環(huán)節(jié)?

從算力硬件到大模型的API調(diào)用,其中的眾多環(huán)節(jié)可均有較大優(yōu)化空間,AI

Infra能力體現(xiàn)在針對(duì)改善存儲(chǔ)瓶頸、提升通信效率、提升計(jì)算單元效率等方面,實(shí)際上是對(duì)已有GPU性能的進(jìn)一步發(fā)掘:1)讓大模型推理/訓(xùn)練中計(jì)算、通信、存取方式更簡(jiǎn)潔,減少算法粗糙下的算力浪費(fèi);2)根據(jù)具體的GPU(如英偉達(dá)H100)的微架構(gòu)設(shè)計(jì),針對(duì)性實(shí)現(xiàn)優(yōu)化。圖:DeepSeek開(kāi)源周發(fā)布了各環(huán)節(jié)算法工程優(yōu)化的工具

證券研究報(bào)告資料:DeepSeek官網(wǎng),中存算,申萬(wàn)宏源研究233.3

互聯(lián)網(wǎng)云:在AI

Infra領(lǐng)域已有較深技術(shù)積累?

AI

Infra能力的積累通常需要具備前沿大模型開(kāi)發(fā)經(jīng)驗(yàn),即完成了構(gòu)建AI算力集群→基于集群的大模型訓(xùn)練→提供大模型API推理服務(wù)→構(gòu)建上層AI應(yīng)用的全工作棧。?

大模型廠商/互聯(lián)網(wǎng)云已積累較強(qiáng)的AI

Infra能力,發(fā)布較多AI

Infra成果,包括實(shí)現(xiàn)萬(wàn)卡集群的高利用率、提供豐富的大模型訓(xùn)練和推理工具提升開(kāi)發(fā)效率等,已具備較為明確的優(yōu)勢(shì)。表:字節(jié)、騰訊、阿里巴巴、DeepSeek在AI

Infra上的主要工作平臺(tái)IaaS重要AI

Infra工作MaaS/PaaS重要AI

Infra工作MegaScale大模型訓(xùn)練框架G?del實(shí)現(xiàn)萬(wàn)卡集群的資源調(diào)度字節(jié)跳動(dòng)

自2022年開(kāi)始在字節(jié)跳動(dòng)內(nèi)部各數(shù)據(jù)中心批量部署,火山引擎

G?del

調(diào)度器已經(jīng)被驗(yàn)證可以在高峰期提供

>60%的CPU

利用率和

>95%的GPU利用率。MegaScale系統(tǒng)在12,288個(gè)GPU上訓(xùn)練175BLLM模型時(shí),模型FLOPs利用率(MFU)達(dá)到了55.2%,比起英偉達(dá)的Megatron-LM,提升了1.34倍。高性能網(wǎng)絡(luò)IHNTACO大模型推理加速套件單集群支持萬(wàn)卡規(guī)模,單機(jī)支持3.2T大帶寬,通信占比低

同樣以

Llama-3.170B為例,使用

TACO-LLM

部署的騰訊騰訊云平臺(tái)至6%,訓(xùn)練效率提升

20%。成本低至

<$0.5/1Mtokens,相比直接調(diào)用

MaaSAPI的成本節(jié)約超過(guò)60%+,且使用方式、調(diào)用接口保持一致,支持無(wú)縫切換。靈駿計(jì)算集群+HPN

7.0組網(wǎng)架構(gòu)訓(xùn)練框架PAI-ChatLearn靈駿計(jì)算集群提供可擴(kuò)容到

10萬(wàn)張GPU卡規(guī)模的能力,相比于當(dāng)前的SOTA

系統(tǒng),ChatLearn在

7B+7B規(guī)模有阿里巴巴阿里云同時(shí)在萬(wàn)卡的規(guī)模下性能線(xiàn)性增長(zhǎng)率達(dá)到了

96%,性能網(wǎng)115%的加速,在

70B+70B規(guī)模有

208%的加速。同時(shí)絡(luò)吞吐的有效使用率也達(dá)到了99%。Fire-Flyer

AI-HPC集群ChatLearn可以擴(kuò)展到更大規(guī)模,如:300B+300B(Policy+Reward)。HAI

LLM訓(xùn)練框架在DL訓(xùn)練中部署含1萬(wàn)個(gè)PCIeA100GPU的Fire-Flyer

2,包括HAI

Scale算子庫(kù)等,針對(duì)專(zhuān)家并行、流水線(xiàn)并行、DeepSeek

實(shí)現(xiàn)了接近NVIDIA

DGX-A100的性能,同時(shí)將成本降低

張量并行等領(lǐng)域的通信、計(jì)算能力進(jìn)行大量?jī)?yōu)化。近一半,能源消耗降低了40%。

證券研究報(bào)告資料:阿里云、火山引擎、騰訊云、DeepSeek官網(wǎng),申萬(wàn)宏源研究243.3

字節(jié):MegaScale針對(duì)萬(wàn)卡集群訓(xùn)練大幅提升MFU?

模型訓(xùn)練兩大挑戰(zhàn):1)實(shí)現(xiàn)高訓(xùn)練效率:體現(xiàn)在MFU(模型計(jì)算利用率),即實(shí)際吞吐量/理論最大吞吐量,與集合通信、算法優(yōu)化、數(shù)據(jù)預(yù)處理等相關(guān),2)保持高訓(xùn)練效率:體現(xiàn)在降低初始化時(shí)間和容錯(cuò)修復(fù)能力。?

字節(jié)算法優(yōu)化:Transformer

Block

并行、滑動(dòng)窗口的Attention、LAMB優(yōu)化器。實(shí)現(xiàn)初始化時(shí)間大幅優(yōu)化,2048卡GPU集群初始化時(shí)間從1047秒下降到5秒以下。實(shí)現(xiàn)高效容錯(cuò)管理:自動(dòng)檢測(cè)故障并實(shí)現(xiàn)快速恢復(fù)工作。?

網(wǎng)絡(luò)優(yōu)化:1)基于博通Tomahawk

4的交換機(jī),優(yōu)化網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);2)降低ECMP哈希沖突:將數(shù)據(jù)密集型節(jié)點(diǎn)都安排在一個(gè)ToR交換機(jī)上;3)擁塞控制:將往返時(shí)延精確測(cè)量與顯式擁塞通知的快速擁塞響應(yīng)能力結(jié)合。圖:字節(jié)在2024年2月提出的MegaScale訓(xùn)練框架的MFU相對(duì)英偉達(dá)的Megatron-LM大幅優(yōu)化,萬(wàn)卡集群MFU達(dá)到55.2%

證券研究報(bào)告資料:《MegaScale:

Scaling

Large

Language

Model

Training

toMore

Than2510,000

GPUs》,申萬(wàn)宏源研究3.3

阿里云:PAI-ChatLearn實(shí)現(xiàn)RLHF訓(xùn)練效率提升?

PAI-ChatLearn

是阿里云

PAI

團(tuán)隊(duì)自研的、靈活易用的、支持大規(guī)模

Alignment

高效訓(xùn)練的框架。?

ChatLearn通過(guò)對(duì)

Alignment

訓(xùn)練流程進(jìn)行合理的抽象和解耦,提供靈活的資源分配和并行調(diào)度策略。ChatLearn提供了RLHF、DPO、OnlineDPO、GRPO等對(duì)齊訓(xùn)練,同時(shí)也支持用戶(hù)自定義大模型訓(xùn)練流程。相比于當(dāng)時(shí)的SOTA

系統(tǒng),ChatLearn在7B+7B規(guī)模有115%的加速,在70B+70B規(guī)模有208%

的加速。圖:阿里巴巴2024年8月開(kāi)源的大規(guī)模對(duì)齊訓(xùn)練框架PAI-ChatLearn在Llama2模型

RLHF訓(xùn)練中實(shí)現(xiàn)更高效率

證券研究報(bào)告

資料:GitHub,阿里云官網(wǎng),申萬(wàn)宏源研究26主要內(nèi)容1.

AI云計(jì)算新范式:規(guī)模效應(yīng)+AI

Infra能力+算力自主化2.

規(guī)模效應(yīng):資本密集度+多租戶(hù)+內(nèi)部負(fù)載的削峰填谷3.

AIInfra:實(shí)現(xiàn)計(jì)算性能挖潛4.

算力自主化:海外ASIC芯片趨勢(shì)啟示5.

重點(diǎn)標(biāo)的:互聯(lián)網(wǎng)云廠+ASIC芯片6.

重點(diǎn)公司估值表及風(fēng)險(xiǎn)提示274.1

ASIC

VS

GPU:架構(gòu)、生態(tài)、成本對(duì)比?

從IC設(shè)計(jì)思路來(lái)看,GPU為自下而上,即基于已設(shè)計(jì)的硬件平臺(tái)作工具豐富、生態(tài)適配工作支持上層應(yīng)用;ASIC(專(zhuān)用集成電路)則是自上而下,基于現(xiàn)有應(yīng)用/工作負(fù)載進(jìn)行芯片架構(gòu)設(shè)計(jì),通過(guò)更定制化、針對(duì)性的架構(gòu)設(shè)計(jì)匹配算法提升計(jì)算效能,但將犧牲通用性,完成非特定任務(wù)的效率較差。?

但云客戶(hù)更傾向于使用開(kāi)發(fā)生態(tài)成熟、具備易開(kāi)發(fā)性的英偉達(dá)GPU,預(yù)計(jì)在較長(zhǎng)時(shí)間內(nèi)仍將為云服務(wù)的首選。有望形成英偉達(dá)GPU仍占據(jù)公有云市場(chǎng)、ASIC芯片在巨頭內(nèi)部負(fù)載形成替代的并行格局。圖:主要的AI算力芯片分類(lèi)通用性CPUGPUFPGAASIC??馮諾依曼架構(gòu),串行計(jì)算為主計(jì)算單元占比較低,重在控制??馮諾依曼架構(gòu),并行計(jì)算為主計(jì)算單元占比很高??哈佛架構(gòu),無(wú)須共享內(nèi)存可重構(gòu)邏輯單元??非馮諾依曼架構(gòu)計(jì)算單元占比高芯片架構(gòu)標(biāo)準(zhǔn)化硬件,用戶(hù)基于架構(gòu)固定的標(biāo)準(zhǔn)化硬件,用戶(hù)基于架構(gòu)固定的可編程硬件,可靈活根據(jù)應(yīng)用/工定制化硬件,根據(jù)應(yīng)用/工作負(fù)載特應(yīng)用構(gòu)建開(kāi)發(fā)生態(tài)硬件構(gòu)建應(yīng)用/工作負(fù)載硬件構(gòu)建應(yīng)用/工作負(fù)載作負(fù)載在使用過(guò)程中改變硬件架構(gòu)點(diǎn)設(shè)計(jì)硬件架構(gòu)僅英偉達(dá)的CUDA較成熟,其他GPU廠商生態(tài)成熟度較低十分成熟可適用主流編程語(yǔ)言生態(tài)成熟度相對(duì)較低??通用性較強(qiáng),并行計(jì)算能力出色適用于AI功耗較高,編程難度中等??計(jì)算效能出眾功耗低,成本更低僅在特定類(lèi)別的工作負(fù)載表現(xiàn)出色,靈活性差,編程難度高??通用性最強(qiáng),編程難度低計(jì)算能力弱,不適用于AI計(jì)算??靈活性好,多用于推理環(huán)節(jié)峰值計(jì)算能力較弱相對(duì)優(yōu)劣勢(shì)

證券研究報(bào)告

資料:寒武紀(jì)招股說(shuō)明書(shū),申萬(wàn)宏源研究284.2

ASIC:架構(gòu)+生態(tài)大相徑庭,將成為GPU的有力補(bǔ)充?

GPU與ASIC在架構(gòu)及開(kāi)發(fā)生態(tài)上有著明確差異:?架構(gòu)存在差異:GPU基于通用并行計(jì)算向AI轉(zhuǎn)變,內(nèi)部設(shè)計(jì)通常為大量并行計(jì)算核+小型AI加速單元TensorCore;TPU等則為僅針對(duì)AI算力需求場(chǎng)景直接設(shè)計(jì)內(nèi)部架構(gòu),代表架構(gòu)有大型脈動(dòng)陣列等。?開(kāi)發(fā)生態(tài)存在差異:英偉達(dá)具備完整成熟的CUDA開(kāi)發(fā)生態(tài),AMD

GPU/ASIC廠商開(kāi)發(fā)生態(tài)均不完善。圖:各家GPU/ASIC芯片對(duì)比NVIDIA

H100

NVIDIA

B200

NVIDIA

B300AMDMI325xTPUv5pTPUv6eTrainium2

METAMTIA

v2

微軟

Maia100推出時(shí)間芯片制程20224nm20244nm20244nm20245nm20235nm20244nm20235nm20245nm20235nm峰值計(jì)算性能-BF/FP16(TFlops)990225033751300459926431177800功耗700WHBM3801000WHBM3e1921200WHBM3e2881000WHBM3e256---90WLPDDR5128860WHBM3e64存儲(chǔ)類(lèi)型存儲(chǔ)(GB)內(nèi)存帶寬HBM2e96HBM332HBM3963.35TB/s8TB/s8TB/s6TB/s2765GB/s1640GB/s4000GB/s204.8GB/s1600GB/sNVLink900GB/sNVLink1800GB/sNVLink1800GB/sInfinity

FabricLink896GB/sICILinks600GB/sICILinks3584GB/sNeuronLink768GB/s卡間通信帶寬-600GB/s計(jì)算強(qiáng)度-FP16峰值性能/存儲(chǔ)12.411.711.75.14.828.94.51.412.5(Flops/GB)芯片架構(gòu)+開(kāi)發(fā)生態(tài)ComputeDie數(shù)量HBMStacks數(shù)量162828481612241414大量并行大量并行CUDA大量并行CUDA

大量并行運(yùn)算核

少量大型脈動(dòng)陣

少量大型脈動(dòng)

少量大型脈動(dòng)陣

多核CPU+多核計(jì)算單元微架構(gòu)CUDA核核多核AI加速單元核+TensorCore

+MatrixCore列單元陣列單元列單元AI加速單元+TensorCore

+TensorCore開(kāi)發(fā)生態(tài)CUDACUDACUDARocmXLAXLAXLATritonTriton

證券研究報(bào)告

資料:英偉達(dá)、谷歌、AMD、亞馬遜、META、微軟官網(wǎng),申萬(wàn)宏源研究294.2

ASIC架構(gòu):基于脈動(dòng)陣列的定制架構(gòu)為重要路線(xiàn)?

GPU為馮諾依曼架構(gòu),運(yùn)算中與寄存器需要高頻數(shù)據(jù)交換,對(duì)存儲(chǔ)容量要求較高。GPU主要是針對(duì)數(shù)據(jù)并行執(zhí)行,

控制單元較小,

執(zhí)行單元眾多,

同時(shí)有大量的寄存器文件用于在多個(gè)執(zhí)行線(xiàn)程上隱藏延遲。?

谷歌TPU、AWS

Tranium2均基于脈動(dòng)陣列架構(gòu),專(zhuān)為矩陣計(jì)算設(shè)計(jì),計(jì)算結(jié)果可以直接向下一個(gè)計(jì)算單元遞推,直到該維度的矩陣結(jié)果計(jì)算完畢,再與寄存器作數(shù)據(jù)存取,減少不必要的全局?jǐn)?shù)據(jù)交換等。圖:脈動(dòng)陣列架構(gòu)專(zhuān)用于大型矩陣計(jì)算,可降低存儲(chǔ)消耗

證券研究報(bào)告資料:亞馬遜官網(wǎng),申萬(wàn)宏源研究304.2

ASIC開(kāi)發(fā)生態(tài):谷歌和AWS均基于脈動(dòng)陣列+XLA?

開(kāi)發(fā)生態(tài)應(yīng)在硬件架構(gòu)/計(jì)算架構(gòu)ROI提升的方向逐漸成熟,國(guó)內(nèi)AI算力+海外云廠ASIC芯片等均具備潛力。DeepSeek實(shí)際證明擁有強(qiáng)大的工程團(tuán)隊(duì),有能力為其他AI芯片構(gòu)建相對(duì)可用的開(kāi)發(fā)生態(tài)(但易開(kāi)發(fā)性預(yù)計(jì)仍有明顯差距。?

XLA為谷歌為T(mén)PU構(gòu)建的編譯器,并陸續(xù)結(jié)合JAX等AI框架形成開(kāi)發(fā)生態(tài),逐漸走向成熟,同為脈動(dòng)陣列架構(gòu)的AWS

Tranium2同樣采用XLA,將加速相關(guān)生態(tài)更新迭代。圖:谷歌TPU/亞馬遜Trainuim基于XLA的開(kāi)發(fā)生態(tài)棧JAXTraining

StackPyTorchTraining

StackLLM

ReferenceImplementationMaxTextJAX

Core

LibrariesPyTorch

&

Hugging

FaceLibraries核心資源庫(kù)OptaxAQTOrbaxFlaxJAXXLATPUPyTorch/PyTorch

XLAXLAAI框架庫(kù)編譯器硬件TPU/Trainium

證券研究報(bào)告資料:谷歌官網(wǎng),申萬(wàn)宏源研究314.2

ASIC開(kāi)發(fā)生態(tài):META

MTIA

v2軟件堆?;赥riton?

Triton為OpenAI于2021年7月推出的類(lèi)似Python的開(kāi)源編程語(yǔ)言,旨在降低GPU的編程難度,但Triton并不非常依賴(lài)單一廠商的GPU,可拓展至MTIA

v2等非GPU硬件架構(gòu)。?

Pytorch正致力于推廣Triton,已經(jīng)在英偉達(dá)GPU上實(shí)現(xiàn)無(wú)CUDA條件下較高的硬件效率。MTIA

v2基于Triton,并提供Triton-MTIA編譯器進(jìn)一步優(yōu)化軟件堆棧。圖:MTIA

v2軟件堆棧主要基于Triton編程語(yǔ)言圖:Pytorch使用無(wú)CUDA的Triton編譯語(yǔ)言實(shí)現(xiàn)較高的GPU調(diào)用效率資料:Pytorch官網(wǎng),申萬(wàn)宏源研究

證券研究報(bào)告32注:LLM模型選用Meta的Llama3-8B和IBM的Granite-8B代碼模型,推理計(jì)算使用FP164.2

ASIC成本:具備性?xún)r(jià)比,但使用范圍相對(duì)局限?

我們簡(jiǎn)單測(cè)算各家芯片的制造成本,主要根據(jù)各芯片具體的存儲(chǔ)容量、晶圓尺寸等進(jìn)行測(cè)算,并根據(jù)英偉達(dá)、博通、Marvell/AIChip大致的毛利率進(jìn)行估計(jì),大致推測(cè)各家芯片的價(jià)格。?

ASIC芯片在特定任務(wù)部署中實(shí)際具備性?xún)r(jià)比,但受限于開(kāi)發(fā)生態(tài):1)開(kāi)發(fā)過(guò)程中,生態(tài)不成熟存在開(kāi)發(fā)效率損失,一定程度提升隱性成本。2)場(chǎng)景限于云廠內(nèi)部負(fù)載,云客戶(hù)基于其開(kāi)發(fā)的難度較大。表:各家GPU/ASIC芯片預(yù)計(jì)的成本拆分對(duì)比測(cè)算單位:美元H100B200TPUv5p

TPUv6eTrainium2亞馬遜-AIChip/Marvell廠商英偉達(dá)英偉達(dá)谷歌-博通

谷歌-博通制程4nm9904nm22505nm4594nm9265nm峰值計(jì)算性能-BF16/FP16(TFlops)431存儲(chǔ)(GB)96192963296存儲(chǔ)類(lèi)型HBM3HBM3eHBM2eHBM3HBM3預(yù)計(jì)存儲(chǔ)成本1150135027002150100080040055011501000預(yù)計(jì)制造、封測(cè)等成本總成本250048501800950215047%~53%4400預(yù)計(jì)業(yè)務(wù)毛利率估算的各家芯片單價(jià)85%~90%

85%~90%

65%~70%

65%~70%18000

33000

6000

3100資料:英偉達(dá)、谷歌、AMD、亞馬遜、META、微軟官網(wǎng),申萬(wàn)宏源研究

證券研究報(bào)告33注:成本及單價(jià)僅為估算,實(shí)際價(jià)格與成本為動(dòng)態(tài)變化4.2

ASIC成本:典型訓(xùn)練場(chǎng)景具備性?xún)r(jià)比芯片產(chǎn)品NVIDIA

H100NVIDIA

B200GPUNVIDIA

GB200SuperchipGoogle/博通

TPUAWS/MarvellTrainium2v5p訓(xùn)練LLama3

405B模型所需的FP16算力總量

(ZFLOPS)單卡FP16峰值性能(TOPS)計(jì)算性能使用效率(%)平均計(jì)算性能(TFLOPS)單卡單日算力(PFLPOS)1800099040%396342148212218000225040%9007776018661018000500040%2000172800414741800045940%18415863381471800065040%2602246453933集群?jiǎn)稳账懔?ZFLOPS)大模型訓(xùn)練所需的運(yùn)行天數(shù)(24000卡集群)算力芯片硬件成本AIAI芯片數(shù)量-算力集群芯片數(shù)量-每臺(tái)服務(wù)器24000824000824000362400082400016服務(wù)器數(shù)量-算力集群30001800014430003300026466770000252430006000481500440071AIAI芯片價(jià)格(美元/片)芯片+CPU價(jià)格(萬(wàn)美元)-每臺(tái)服務(wù)器AI折舊年限芯片+CPU的成本(億美元)-算力集群43.3479.34168.3414.5410.64算力集群中AI算力硬件年折舊費(fèi)用(億美元)10.819.842.13.62.7能源成本AI設(shè)計(jì)功耗700W1.46.21000W2.38.62400W2.197.21.2700W0.76.2700W0.911.81.5每瓦特AI計(jì)算性能

(TFLOPS/Watt)服務(wù)器中AI計(jì)算單元功耗(千瓦)電源使用效率(PUE)1.51.41.3AI服務(wù)器電力功耗(千瓦)AI集群電力功耗(千千瓦)9.327.912.036.1116.677.88.124.217.726.6AI算力集群運(yùn)行成本

(不包括網(wǎng)絡(luò)和基建等)電價(jià)(千瓦時(shí)/美元)耗電量(萬(wàn)千瓦時(shí))0.10587590.10334330.10324320.1010971100.1085185能源成本(萬(wàn)美元)集群算力硬件折舊成本(萬(wàn)美元)AI計(jì)算總成本(萬(wàn)美元)650708524557500533468578243328資料:《Scaling

Lawsfor

NeuralLanguageModels》,英偉達(dá)、谷歌、亞馬遜官網(wǎng),申萬(wàn)宏源研究34

證券研究報(bào)告注:標(biāo)紅為非官方公布的假設(shè)數(shù)據(jù),僅用以本表格進(jìn)行計(jì)算4.3

為什么ASIC增長(zhǎng)趨勢(shì)明顯?從供需兩端出發(fā)?

上游供給:芯片設(shè)計(jì)制造分工化:全球芯片設(shè)計(jì)制造分工化以及ASIC輔助設(shè)計(jì)的成熟,大幅降低了ASIC與GPU之間在代工制造、后端封裝設(shè)計(jì)等領(lǐng)域的差距,差異集中在前端設(shè)計(jì)和軟件開(kāi)發(fā)生態(tài)。?

云廠需求:1)技術(shù)/架構(gòu)演進(jìn):牧本擺動(dòng)本質(zhì)為針對(duì)通用芯片的算法演進(jìn)迭代陷入停滯后,需要在架構(gòu)上進(jìn)行創(chuàng)新,催生新的定制化芯片,并再度基于新的芯片進(jìn)行算法創(chuàng)新升級(jí),以實(shí)現(xiàn)芯片性?xún)r(jià)比優(yōu)勢(shì)。當(dāng)前正處于重要節(jié)點(diǎn)。2)商業(yè)化驅(qū)動(dòng):算力需求量級(jí)提升,具備龐大算力需求的廠商足以覆蓋開(kāi)發(fā)定制化芯片的成本。圖:云廠開(kāi)發(fā)自研ASIC芯片已具備商業(yè)化、技術(shù)驅(qū)動(dòng)力牧本擺動(dòng):按需定制化設(shè)計(jì)算力的端到端方案在算力上游供給:芯片設(shè)計(jì)制造行業(yè)的分工化云廠需求:技術(shù)/架構(gòu)演進(jìn)驅(qū)動(dòng)中的效能、利用率正體現(xiàn)優(yōu)勢(shì)推理側(cè)對(duì)算力芯片要求或更低:大模型推理算法相對(duì)訓(xùn)練更固定,對(duì)于芯片性能、開(kāi)發(fā)生態(tài)靈活性要求可略降低芯片制造與IC設(shè)計(jì)的分工:半導(dǎo)體產(chǎn)業(yè)正從Sharing

foundry到Sharing

design

house轉(zhuǎn)變,共享代工廠+后端設(shè)計(jì)封裝等鏈路。算力開(kāi)支量級(jí)上升:AIASIC輔助設(shè)計(jì)企業(yè)逐漸成熟:博通、AIChip為代表的企業(yè)已經(jīng)在TPU、Trainium的設(shè)計(jì)和制造中積累了豐富經(jīng)驗(yàn)和制造流程管理能力。達(dá)到重新設(shè)計(jì)一款芯片的綜合成本臨界點(diǎn)。云廠需求:商業(yè)化驅(qū)動(dòng)單芯片的價(jià)格更低:成本側(cè)后續(xù)有望實(shí)現(xiàn)量產(chǎn)爬坡。

證券研究報(bào)告資料:申萬(wàn)宏源研究354.4

如何設(shè)計(jì)制造ASIC?云廠前端設(shè)計(jì)+IC輔助設(shè)計(jì)支持?

云廠:僅維持相對(duì)精簡(jiǎn)的IC設(shè)計(jì)團(tuán)隊(duì),無(wú)須困擾于龐雜的芯片制造流程。云廠可根據(jù)自有業(yè)務(wù)場(chǎng)景的算力需求進(jìn)行前端設(shè)計(jì)(邏輯設(shè)計(jì)、仿真驗(yàn)證等)等環(huán)節(jié),并避免在主業(yè)之外形成龐大半導(dǎo)體業(yè)務(wù)部門(mén)。?

IC輔助設(shè)計(jì):提供后端設(shè)計(jì)、制造流片等環(huán)節(jié)支持。博通、Marvell、AIChip通常提供IC設(shè)計(jì)所需的IP核等,并完成后端設(shè)計(jì)、封裝測(cè)試設(shè)計(jì)等,全流程跟蹤、優(yōu)化晶圓廠代工流片的制造流程,最終向云廠交付。圖:ASIC芯片設(shè)計(jì)流程,輔助設(shè)計(jì)廠商可輔助完成后端設(shè)計(jì)到流片管理等環(huán)節(jié)應(yīng)用公司完成ASIC輔助設(shè)計(jì)廠商完成:根據(jù)客戶(hù)的設(shè)計(jì),提供IP核支持、封裝設(shè)計(jì)、流片等生產(chǎn)環(huán)節(jié)管理后端設(shè)計(jì)前端設(shè)計(jì)流片封裝測(cè)試量產(chǎn)??????工藝選型?????封裝設(shè)計(jì)仿真可靠性方案工程批設(shè)計(jì)系統(tǒng)級(jí)分裝封裝量產(chǎn)管理??????晶圓測(cè)試成品測(cè)試測(cè)試工程開(kāi)發(fā)測(cè)試量產(chǎn)管理ATE設(shè)備研發(fā)產(chǎn)品認(rèn)證分析??????訂單管理質(zhì)量管控計(jì)劃管理DPPM優(yōu)化良

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論