GPU行業(yè)市場(chǎng)前景及投資研究報(bào)告:“AI算力GPU”AI產(chǎn)業(yè)化加速智能大時(shí)代開(kāi)啟_第1頁(yè)
GPU行業(yè)市場(chǎng)前景及投資研究報(bào)告:“AI算力GPU”AI產(chǎn)業(yè)化加速智能大時(shí)代開(kāi)啟_第2頁(yè)
GPU行業(yè)市場(chǎng)前景及投資研究報(bào)告:“AI算力GPU”AI產(chǎn)業(yè)化加速智能大時(shí)代開(kāi)啟_第3頁(yè)
GPU行業(yè)市場(chǎng)前景及投資研究報(bào)告:“AI算力GPU”AI產(chǎn)業(yè)化加速智能大時(shí)代開(kāi)啟_第4頁(yè)
GPU行業(yè)市場(chǎng)前景及投資研究報(bào)告:“AI算力GPU”AI產(chǎn)業(yè)化加速智能大時(shí)代開(kāi)啟_第5頁(yè)
已閱讀5頁(yè),還剩110頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

證券研究報(bào)告半導(dǎo)體行業(yè)評(píng)級(jí):領(lǐng)先大市-A華金證券電子團(tuán)隊(duì)—走進(jìn)“芯”時(shí)代系列深度之六十“AI算力GPU”AI產(chǎn)業(yè)化再加速,智能大時(shí)代已開(kāi)啟——GPU行業(yè)深度報(bào)告2023年3月26日核心觀點(diǎn)(1)?

在芯片算力快速提升、日趨龐大的數(shù)據(jù)量共同支撐下,AI算法迭代升級(jí)加速。AI的發(fā)展經(jīng)歷了很長(zhǎng)時(shí)間的積累,其能不斷跨越科學(xué)與應(yīng)用之間的鴻溝主要得益于技術(shù)突破、行業(yè)落地、產(chǎn)業(yè)協(xié)作等多方面的推動(dòng),而技術(shù)突破是其中最為關(guān)鍵的要素。從起步階段發(fā)展到當(dāng)下深度學(xué)習(xí)階段,算法、數(shù)據(jù)和算力構(gòu)成了AI三大基本要素,并共同推動(dòng)AI向更高層次的感知和認(rèn)知發(fā)展。算法方面,目前深度學(xué)習(xí)仍然是AI技術(shù)發(fā)展的主導(dǎo)路線,但是早期所使用的有監(jiān)督學(xué)習(xí)方式由于受限于對(duì)大量標(biāo)注數(shù)據(jù)依賴(lài)與理解能力缺乏,而且模型通用性較差,正逐步被新的技術(shù)所取代,在芯片算力的快速提升、日益龐大的數(shù)據(jù)量這兩者的支撐下,新算法正處于加速迭代升級(jí)過(guò)程中。?

自監(jiān)督學(xué)習(xí)的算法模型快速發(fā)展,“預(yù)訓(xùn)練+精調(diào)”的開(kāi)發(fā)范式邁向成熟,新一輪AI技術(shù)產(chǎn)業(yè)化之路開(kāi)啟。谷歌、臉書(shū)等多家企業(yè)先后發(fā)布使用自監(jiān)督學(xué)習(xí)的算法模型,通過(guò)挖掘無(wú)標(biāo)注數(shù)據(jù)的監(jiān)督信息,減少人為干預(yù)?,F(xiàn)階段自監(jiān)督學(xué)習(xí)本質(zhì)上仍依賴(lài)規(guī)范化、標(biāo)簽化的數(shù)據(jù),主要借助預(yù)訓(xùn)練模型構(gòu)筑并學(xué)習(xí)數(shù)據(jù)特征?!邦A(yù)訓(xùn)練”的做法一般是將大量低成本收集的訓(xùn)練數(shù)據(jù)放在一起,經(jīng)過(guò)某種預(yù)訓(xùn)方法去學(xué)習(xí)其中的共性,然后將其中的共性“移植”到特定任務(wù)的模型中,再使用相關(guān)特定領(lǐng)域的少量標(biāo)注數(shù)據(jù)進(jìn)行“微調(diào)”,這樣的話,模型只需要從“共性”出發(fā),去“學(xué)習(xí)”該特定任務(wù)的“特殊”部分即可。預(yù)訓(xùn)練模型成功的關(guān)鍵是自監(jiān)督學(xué)習(xí)與Transformer的結(jié)合。預(yù)訓(xùn)練大模型在海量數(shù)據(jù)的學(xué)習(xí)訓(xùn)練后具有良好的通用性和泛化性,用戶基于大模型通過(guò)零樣本、小樣本學(xué)習(xí)即可獲得領(lǐng)先的效果,同時(shí)“預(yù)訓(xùn)練+精調(diào)”等開(kāi)發(fā)范式,讓研發(fā)過(guò)程更加標(biāo)準(zhǔn)化,顯著降低了人工智能應(yīng)用門(mén)檻。整體上來(lái)看,關(guān)于本輪AI技術(shù)突破所帶來(lái)的產(chǎn)業(yè)化變局,我們有三個(gè)核心觀點(diǎn):1、基于GPT為代表的大模型AI的通用能力,未來(lái)幾年大模型AI的滲透廣度、深度和速度有可能會(huì)超預(yù)期;2、ChatGPT采用的是閉源模型,其加速的產(chǎn)業(yè)落地會(huì)刺激更多的廠商加大大模型AI的研發(fā)投入,進(jìn)而推動(dòng)AI產(chǎn)業(yè)化發(fā)展;3、大模型AI通用能力的提升,帶動(dòng)的將不僅僅是云計(jì)算市場(chǎng)的增長(zhǎng),伴隨著多種技術(shù)與商業(yè)化路徑的逐步成熟,云、邊緣、端的增量市場(chǎng)空間均有望漸次打開(kāi)。核心觀點(diǎn)(2)?

云端計(jì)算進(jìn)入高性能計(jì)算時(shí)代,大模型訓(xùn)練仍以GPU為主。雖然AI芯片目前看有GPU、ASIC、CPU、FPGA等幾大類(lèi),但是基于幾點(diǎn)原因,我們判斷GPU仍將是訓(xùn)練模型的主流硬件:1、Transformer架構(gòu)是最近幾年的主流,該架構(gòu)最大的特點(diǎn)之一就是能夠利用分布式GPU進(jìn)行并行訓(xùn)練,提升模型訓(xùn)練效率;2、ASIC的算力與功耗雖然看似有優(yōu)勢(shì),但考慮到AI算法還是處于一個(gè)不斷發(fā)展演進(jìn)的過(guò)程,用專(zhuān)用芯片部署會(huì)面臨著未來(lái)算法更迭導(dǎo)致芯片不適配的巨大風(fēng)險(xiǎn);3、英偉達(dá)強(qiáng)大的芯片支撐、生態(tài)、算法開(kāi)源支持。?

模型小型化技術(shù)逐步成熟,從訓(xùn)練走向推理,云、邊、端全維度發(fā)展。我們認(rèn)為至少有四大投資主線應(yīng)持續(xù)關(guān)注:1、GPU方面,在英偉達(dá)的推動(dòng)下,其從最初的顯卡發(fā)展到如今的高性能并行計(jì)算,海外大廠已經(jīng)具備了超過(guò)20年的技術(shù)、資本、生態(tài)、人才等儲(chǔ)備,形成了大量的核心技術(shù)專(zhuān)利,而且也能充分享有全球半導(dǎo)體產(chǎn)業(yè)鏈的支撐,這都或是目前國(guó)內(nèi)廠商所缺失的。近幾年在資本的推動(dòng)下,國(guó)內(nèi)涌現(xiàn)出數(shù)十家GPU廠商,各自或都具備一定的發(fā)展基礎(chǔ),但整體經(jīng)營(yíng)時(shí)間較短,無(wú)論從技術(shù)積淀、產(chǎn)品料號(hào)布局、高端料號(hào)性能來(lái)說(shuō),與國(guó)外大廠仍具備較大差距。但國(guó)產(chǎn)化勢(shì)在必行,國(guó)內(nèi)相關(guān)產(chǎn)業(yè)鏈重點(diǎn)環(huán)節(jié)也積極對(duì)上游芯片原廠進(jìn)行扶持,國(guó)產(chǎn)算力芯片需要不斷迭代以實(shí)現(xiàn)性能的向上提升,后續(xù)持續(xù)關(guān)注相關(guān)廠商料號(hào)升級(jí)、生態(tài)建設(shè)和客戶突破;2、

AI在端側(cè)設(shè)備應(yīng)用普及是大勢(shì)所趨,目前,知識(shí)蒸餾、剪枝、量化等模型小型化技術(shù)在逐步成熟,AI在云、邊、端全方位發(fā)展的時(shí)代已至。除了更加廣泛的應(yīng)用帶來(lái)需求量的提升外,更復(fù)雜算法帶來(lái)更大算力的需求也將從另一個(gè)維度推動(dòng)市場(chǎng)擴(kuò)容;3、數(shù)據(jù)的高吞吐量需要大帶寬的傳輸支持,光通信技術(shù)作為算力產(chǎn)業(yè)發(fā)展的支撐底座,具備長(zhǎng)期投資價(jià)值;4、Chiplet技術(shù)可以突破單一芯片的性能和良率等瓶頸,降低芯片設(shè)計(jì)的復(fù)雜度和成本?;谙駽hiplet模式的設(shè)計(jì)轉(zhuǎn)型,已經(jīng)是大型芯片廠商的共識(shí),相關(guān)產(chǎn)業(yè)鏈具備長(zhǎng)期投資價(jià)值。?

建議關(guān)注:瑞芯微、晶晨股份、星宸科技(待上市)、全志科技、北京君正、中科藍(lán)訊、富瀚微、恒玄科技?

風(fēng)險(xiǎn)提示:技術(shù)創(chuàng)新風(fēng)險(xiǎn)、宏觀經(jīng)濟(jì)和行業(yè)波動(dòng)風(fēng)險(xiǎn)、國(guó)際貿(mào)易摩擦風(fēng)險(xiǎn)??偰夸浻蓪?zhuān)用走向通用,GPU賽道壁壘高筑產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速全維智能化大時(shí)代,國(guó)產(chǎn)算力行則必至建議關(guān)注產(chǎn)業(yè)相關(guān)風(fēng)險(xiǎn)提示分目錄(1)由專(zhuān)用走向通用,GPU賽道壁壘高筑?

1.1

什么是GPU?

1.14

走向新場(chǎng)景的GPGPU?

1.2

始于圖形處理設(shè)備?

1.15GPU與GPGPU的對(duì)比?

1.3

浮點(diǎn)計(jì)算能力與可編程性結(jié)合?

1.4GPU發(fā)展三大方向?

1.16GPGPU與CPU的對(duì)比?

1.17

并行計(jì)算發(fā)展的核心?

1.5

英傳達(dá)顯卡發(fā)展歷程?

1.18SIMT,主流GPU的系統(tǒng)架構(gòu)核心?

1.19GPGPU架構(gòu),以A100為例?

1.6GeForceRTX40系列,時(shí)代最強(qiáng)?

1.7

英特爾的核顯?

1.20Fermi是第一個(gè)完整的GPU計(jì)算架構(gòu)?

1.21

通用算力提升是英偉達(dá)GPU架構(gòu)演進(jìn)的重點(diǎn)之一?

1.22

多方面構(gòu)建的高壁壘?

1.8

核顯與獨(dú)顯性能對(duì)比?

1.9

圖形流水線是GPU工作的通用模型?

1.10

統(tǒng)一渲染架構(gòu)的推出開(kāi)啟了通用計(jì)算大時(shí)代?

1.11

從簡(jiǎn)單到越來(lái)越復(fù)雜的流水線?

1.12

光線追蹤時(shí)代開(kāi)啟?

1.23

人才與研發(fā)投入,以英偉達(dá)為例?

1.24

國(guó)外廠商多年間構(gòu)筑了龐大的專(zhuān)利池?

1.25

英偉達(dá)全棧布局構(gòu)筑強(qiáng)大生態(tài)?

1.26

走向異構(gòu),海外廠商橫向布局不斷?

1.13

光線追蹤算法要求的計(jì)算量巨大分目錄(2)產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速?

2.1AI技術(shù)賦能實(shí)體經(jīng)濟(jì)面臨的瓶頸?

2.2

ChatGPT的破圈?

2.14

數(shù)據(jù)中心邁入“高算力”時(shí)代,兵家必爭(zhēng)?

2.15

英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)快速增長(zhǎng)?

2.16

自動(dòng)駕駛研發(fā)兩大商業(yè)路線?

2.17

自動(dòng)駕駛實(shí)現(xiàn)的兩種技術(shù)路線?

2.18

單車(chē)智能化推動(dòng)算力升級(jí)加速?

2.19

自動(dòng)駕駛具備廣闊市場(chǎng)前景?

2.3

ChatGPT的成功離不開(kāi)預(yù)訓(xùn)練大模型?

2.4

預(yù)訓(xùn)練模型的發(fā)展歷程?

2.5Transformer架構(gòu)成主流?

2.6

自監(jiān)督學(xué)習(xí)與Transformer的結(jié)合?

2.7

大模型的突現(xiàn)能力?

2.8

參數(shù)量爆發(fā)式增長(zhǎng)的ChatGPT?

2.9

預(yù)訓(xùn)練大模型,第三波AI發(fā)展的重大拐點(diǎn)?

2.10

生成式AI、邊緣AI技術(shù)即將步入成熟期?

2.11

大模型是大算力和強(qiáng)算法結(jié)合的產(chǎn)物?

2.12AI芯片三劍客?

2.13

訓(xùn)練端GPU擔(dān)綱分目錄(3)全維智能化大時(shí)代,國(guó)產(chǎn)算力行則必至???????????????3.1

全球數(shù)據(jù)中心負(fù)載任務(wù)量快速增長(zhǎng)??????????????3.16

先求有,再求好3.2

全球計(jì)算產(chǎn)業(yè)投資空間巨大3.3

預(yù)訓(xùn)練大模型對(duì)于GPU的需求3.4

國(guó)內(nèi)市場(chǎng)需求將保持高增長(zhǎng)3.5

云計(jì)算及云部署方式3.17

生態(tài)先兼容主流,未來(lái)將走向自建3.18

國(guó)產(chǎn)之路已開(kāi)啟,部分國(guó)產(chǎn)GPU設(shè)計(jì)廠商列表3.19GPU發(fā)展離不開(kāi)全球產(chǎn)業(yè)鏈的支撐3.20

制程升級(jí)對(duì)于算力芯片性能提升具有較高貢獻(xiàn)度3.21

摩爾定律發(fā)展趨緩3.6

不同云部署方式的市場(chǎng)占比3.7

企業(yè)上云持續(xù)向細(xì)分行業(yè)滲透3.8

從“資源上云”邁入“深度用云”3.9

信創(chuàng)從試點(diǎn)走向推廣3.22

Chiplet技術(shù)潛力大3.23

Chiplet技術(shù)發(fā)展歷程3.24

行業(yè)巨頭推動(dòng),產(chǎn)業(yè)加速落地3.25

采用Chiplet技術(shù)的產(chǎn)品不斷出現(xiàn)3.26

算力兩大演進(jìn)方向:更大算力&更多樣化應(yīng)用3.27

存量替代與增量成長(zhǎng)并存3.10

公有云主要參與廠商3.11

云計(jì)算產(chǎn)業(yè)鏈3.12

集成顯卡與獨(dú)立顯卡市場(chǎng)份額3.13

獨(dú)立顯卡英偉達(dá)一家獨(dú)大3.14

性能強(qiáng)大的H1003.28

高吞吐量離不開(kāi)高速傳輸3.29

光通信前景可期3.15

國(guó)產(chǎn)廠商兩條發(fā)展路徑:GPU和GPGPU分目錄(4)建議關(guān)注產(chǎn)業(yè)相關(guān)?

4.1

瑞芯微?

5.1

海光信息?

5.2

龍芯中科?

5.3

景嘉微?

4.2

晶晨股份?

4.3

星宸科技(待上市)?

4.4

全志科技?

4.5

北京君正?

4.6

中科藍(lán)訊?

4.7

富瀚微?

5.4

寒武紀(jì)-U?

5.5?

5.6

芯原股份-U?

5.7

華大九天?

5.8

概倫電子?

5.9

長(zhǎng)電科技?

5.10

華天科技?

5.11

通富微電?

5.12

炬芯科技?

5.13

源杰科技?

5.14

光迅科技?

5.15

摩爾線程(未上市)?

4.8

恒玄科技風(fēng)險(xiǎn)提示?

技術(shù)創(chuàng)新風(fēng)險(xiǎn)?

宏觀經(jīng)濟(jì)和行業(yè)波動(dòng)風(fēng)險(xiǎn)?

國(guó)際貿(mào)易摩擦風(fēng)險(xiǎn)目錄01由專(zhuān)用走向通用,GPU賽道壁壘高筑?????????1.1什么是GPU?????????1.10統(tǒng)一渲染架構(gòu)的推出開(kāi)啟了通用計(jì)算大時(shí)代1.11從簡(jiǎn)單到越來(lái)越復(fù)雜的流水線1.12光線追蹤時(shí)代開(kāi)啟????????1.19GPGPU架構(gòu),以A100為例1.2始于圖形處理設(shè)備1.20Fermi是第一個(gè)完整的GPU計(jì)算架構(gòu)1.21通用算力提升是英偉達(dá)GPU架構(gòu)演進(jìn)的重點(diǎn)之一1.22多方面構(gòu)建的高壁壘1.3浮點(diǎn)計(jì)算能力與可編程性結(jié)合1.4GPU發(fā)展三大方向1.13光線追蹤算法要求的計(jì)算量巨大1.14走向新場(chǎng)景的GPGPU1.5英傳達(dá)顯卡發(fā)展歷程1.6GeForceRTX40系列,時(shí)代最強(qiáng)1.7英特爾的核顯1.23人才與研發(fā)投入,以英偉達(dá)為例1.24國(guó)外廠商多年間構(gòu)筑了龐大的專(zhuān)利池1.25英偉達(dá)全棧布局構(gòu)筑強(qiáng)大生態(tài)1.26走向異構(gòu),海外廠商橫向布局不斷1.15GPU與GPGPU的對(duì)比1.16GPGPU與CPU的對(duì)比1.8核顯與獨(dú)顯性能對(duì)比1.9圖形流水線是GPU工作的通用模型1.17并行計(jì)算發(fā)展的核心1.18SIMT,主流GPU的系統(tǒng)架構(gòu)核心產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速全維智能化大時(shí)代,國(guó)產(chǎn)算力行則必至建議關(guān)注產(chǎn)業(yè)相關(guān)風(fēng)險(xiǎn)提示1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.1

什么是GPUSOC中的GPU模塊?

圖形處理器(graphicsprocessingunit,縮寫(xiě):GPU),又稱(chēng)顯示核心、視覺(jué)處理器、顯示芯片,是一種專(zhuān)門(mén)在個(gè)人電腦、工作站、游戲機(jī)和一些移動(dòng)設(shè)備(如平板電腦、智能手機(jī)等)上做圖像和圖形相關(guān)運(yùn)算工作的微處理器。?

NVIDIA公司在1999年發(fā)布GeForce256圖形處理芯片時(shí)首先提出GPU的概念。從此NVIDIA顯卡的芯片就用這個(gè)新名字GPU來(lái)稱(chēng)呼。GPU使顯卡削減了對(duì)CPU的依賴(lài),并執(zhí)行部分原本CPU的工作,尤其是在3D圖形處理時(shí)。GPU與顯卡資料:痞客邦,華金證券研究所資料:痞客邦,華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.2

始于圖形處理設(shè)備?

最早計(jì)算機(jī)是黑白顯示的時(shí)代,機(jī)器對(duì)于顯示的要求極低,隨著計(jì)算機(jī)的普及和軟件的多樣化,使用者對(duì)于顯示的要求越來(lái)越高。VGA(VideoGraphicsArray,視頻圖形陣列)是一種標(biāo)準(zhǔn)的顯示接口,是IBM于1987年提出的一個(gè)使用模擬信號(hào)的電腦顯示標(biāo)準(zhǔn)。VGA標(biāo)準(zhǔn)由于可以呈現(xiàn)的彩色顯示能力大大加強(qiáng),因此迅速成為了顯示設(shè)備的標(biāo)準(zhǔn),也推動(dòng)了VGACard也即是顯卡的誕生。早期的VGACard的唯一功能是輸出圖像,圖形運(yùn)算全部依賴(lài)CPU,當(dāng)微軟Windows操作系統(tǒng)出現(xiàn)后,大量的圖形運(yùn)算占據(jù)了CPU的大量資源,如果沒(méi)有專(zhuān)門(mén)的芯片來(lái)處理圖形運(yùn)算,Windows界面運(yùn)作會(huì)大受影響而變得卡頓,因此出現(xiàn)專(zhuān)門(mén)處理圖形運(yùn)算的芯片成為必然趨勢(shì)。?

1993年1月,英偉達(dá)創(chuàng)立,1999年,英偉達(dá)發(fā)布了劃時(shí)代的產(chǎn)品GeForce256,首次推出了所謂圖形處理器(GPU,GraphicProcessing?

Unit)的概念,它帶來(lái)了3D圖形性能的一次革命。圖:顯卡發(fā)展歷程資料:51CTO,華金證券研究所繪制1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.3

浮點(diǎn)計(jì)算能力與可編程性結(jié)合?

GeForce256

是一款用于實(shí)時(shí)圖形處理的專(zhuān)用處理器,GeForce圖形處理器的發(fā)布,實(shí)現(xiàn)了頂點(diǎn)的矩陣變換和光照計(jì)算,圖形實(shí)時(shí)處理應(yīng)用需要高內(nèi)存帶寬和大量的浮點(diǎn)計(jì)算能力。2001年英偉達(dá)發(fā)布了第三代顯示核心GeForce3,GeForce3不僅集成了來(lái)自之前GeForce256和GeForce2芯片的“靜態(tài)”座標(biāo)轉(zhuǎn)換和照明引擎,更增加了稱(chēng)為“頂點(diǎn)著色單元”的可編程頂點(diǎn)處理器功能。游戲開(kāi)發(fā)者可借由加上頂點(diǎn)程序,讓游戲產(chǎn)生令人驚艷的全新效果。?

可編程性與浮點(diǎn)計(jì)算能力相結(jié)合,基于GPU的通用計(jì)算也開(kāi)始出現(xiàn),GPU朝著通用計(jì)算的方向持續(xù)演進(jìn)。2006年,英偉達(dá)CUDA(ComputeUnifiedDeviceArchitecture,統(tǒng)一計(jì)算設(shè)備架構(gòu)),及對(duì)應(yīng)工業(yè)標(biāo)準(zhǔn)的OpenCL的出現(xiàn),讓GPU實(shí)現(xiàn)更廣泛的通用計(jì)算功能,GPGPU的概念落地。NVidiaTesla架構(gòu)GPU的圖形(處理)流水線資料:搜狐網(wǎng),華金證券研究所資料:《深入GPU硬件架構(gòu)及運(yùn)行機(jī)制》博客園,華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.4GPU發(fā)展三大方向?

GPU最初用在PC和移動(dòng)端上運(yùn)行繪圖運(yùn)算工作的微處理器,與CPU集成以集成顯卡(核顯)的形態(tài)發(fā)揮功能。NVIDIA于2007年率先推出獨(dú)立GPU(獨(dú)顯),使其作為“協(xié)處理器”在PC和服務(wù)器端負(fù)責(zé)加速計(jì)算,承接CPU計(jì)算密集部分的工作負(fù)載,同時(shí)由CPU繼續(xù)運(yùn)行其余程序代碼。?

2019年NVIDIA的中國(guó)GTC大會(huì)設(shè)置了兩大主題:AI和圖形。從大會(huì)的關(guān)注重點(diǎn)可以看出,GPU未來(lái)趨勢(shì)主要是3個(gè):大規(guī)模擴(kuò)展計(jì)算能力的高性能計(jì)算(GPGPU)、人工智能計(jì)算(AIGPU)、更加逼真的圖形展現(xiàn)(光線追蹤RayTracingGPU)。英偉達(dá)三大產(chǎn)品系列四核心Intel處理器的die

shot框圖(帶有Gen9核顯)資料:CSDN,華金證券研究所資料:英偉達(dá),華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.5

英傳達(dá)顯卡發(fā)展歷程時(shí)間

發(fā)布型號(hào)

制程1995STG-2000X

500nm采用第一代NV1核心,核心頻率12MHz,同時(shí)支持2D、3D處理能力亮點(diǎn)1998

RIVA128

350nm第一款成功的顯示核心。第一款支持微軟Direct3D加速的圖形芯片,也是第一個(gè)提供硬件三角形引擎的128bit圖形芯片,加入了對(duì)OpenGL技術(shù)的支持1999

RivaTNT2

250nm奠定英偉達(dá)顯卡王朝的基石,核心頻率和顯存容量都有了極大的提升,從這一代開(kāi)始,英偉達(dá)開(kāi)始產(chǎn)品進(jìn)行了市場(chǎng)化細(xì)分GeForce1999

256首次推出了所謂圖形處理器(GPU)的概念,增加了PixelShader流水線的數(shù)目,支持硬件T&L引擎,第一款硬件支持T&L的顯卡,亦支援MPEG-2硬件視頻加速。Quadro也是以220nmGeForce256為基礎(chǔ)開(kāi)始研發(fā)。2001

GeForce3

180nm英偉達(dá)首款支持DirectX

8.0的產(chǎn)品,并支持可編程的T&L引擎GeForce42002

Ti4200GeForce150nm新一代的T&L引擎,并支持高效率的反鋸齒技術(shù)2004

6800130nm渲染管線首次突破性增長(zhǎng)到16條,采用GDDR3顯存,頻率達(dá)到了1.1GHz。同年,英偉達(dá)SLI(可擴(kuò)展的鏈接接口)技術(shù)問(wèn)世,單臺(tái)PC的圖形處理能力大大提升。世界上第一塊支持DirectX10的PC桌面顯卡。GeForce8采用統(tǒng)一流水線結(jié)構(gòu),傳統(tǒng)顯示核心的架構(gòu)分為頂點(diǎn)著色引擎和像素著色引擎。所謂統(tǒng)一渲染,即GPU中不再有單獨(dú)的頂端渲染單元和像素渲染單元,而是由一個(gè)通用的渲染單元同時(shí)完成頂點(diǎn)和像素渲染任務(wù)。統(tǒng)一渲染架構(gòu)具有硬件利用效率高以及編程靈活的優(yōu)點(diǎn),進(jìn)一步提升了GPU內(nèi)部運(yùn)算單元的可編GeForce2006

8800GTX

90nm

程性,讓GPU運(yùn)行高密集度的通用計(jì)算任務(wù)就成為可能GeForce采用英偉達(dá)推出全新一代的Fermi架構(gòu),F(xiàn)ermi架構(gòu)GPU產(chǎn)品在保持圖形性能的前提下,將通用計(jì)算的重要性提升到前所未有的高度,大規(guī)模GPU計(jì)算從之開(kāi)始。30億個(gè)晶體管的大芯片,2010

GTX48040nm

全局ECC設(shè)計(jì)、可讀寫(xiě)緩存、更大的sharedmemory、甚至出現(xiàn)了分支預(yù)測(cè)概念。Fermi是英偉達(dá)最后一款在游戲顯卡上保留強(qiáng)悍雙精度的微架構(gòu)采用Kepler架構(gòu),與前一代的Fermi架構(gòu)相比,Kepler架構(gòu)不僅僅是性能的提升,功耗和溫度上也得到了極大的改善。Fermi架構(gòu)中英偉達(dá)主要專(zhuān)注于提升計(jì)算與曲面細(xì)分的性能。然而在Kepler架構(gòu)中,英偉達(dá)轉(zhuǎn)向了提升效率、可編程性與性能,效率的提升來(lái)自采用了統(tǒng)一的GPU時(shí)鐘、簡(jiǎn)化的靜態(tài)指令調(diào)度和更加優(yōu)化的每瓦性能。專(zhuān)用的雙精度CUDA核心被用來(lái)GeForce2013

GTXTitan

28nm

彌補(bǔ)KeplerCUDA核心為了節(jié)省芯片面積而放棄的雙精度計(jì)算能力采用英偉達(dá)第四代GPU架構(gòu)Maxwell架構(gòu),Kepler的改進(jìn)版架構(gòu)。最明顯的變化是在SMX單元和GPC單元上,Maxwell的SMM(之前叫SMX)單元從之前Kepler的包含192個(gè)CUDACore下降GeForce2014

GTX970GeForce到128個(gè),但發(fā)射器從之前的每SMX一個(gè)變?yōu)榱嗣縎MM四個(gè),目的是降低每個(gè)SMM單元的運(yùn)算壓力提升效率,增加了兩個(gè)寄存器,然后L1緩存翻倍,GPC單元的L2緩存增加到了2M。28nm

Maxwell將具備以下三大特性:提升圖形性能,降低編譯難度(這應(yīng)該歸功于ARMv8核心和統(tǒng)一內(nèi)存尋址增強(qiáng)技術(shù))和提高能耗比。這一代顯卡的工藝和架構(gòu)全面升級(jí)。架構(gòu)方面,采用了Pascal架構(gòu),Pascal是Maxwell的接替者,增強(qiáng)了異步計(jì)算功能實(shí)現(xiàn)硬件層了對(duì)DirectXAPI的更高版本(DirectX12Feature2016

GTX1080

16nm

Level12_1)的支持,高端產(chǎn)品還配備帶寬更高的HBM2顯存,性能和能耗比都有了很大提升GeForce

第一代GeForceRTX系列,支持光線/路徑追蹤硬件加速,使實(shí)時(shí)光線追蹤成為可能。新GeForce顯卡最大的亮點(diǎn)就是集成了光線追蹤核心的TuringGPU,從技術(shù)上拉開(kāi)了與上代顯卡2018

RTX2080

12nm

的差距,NVIDIA宣布圖靈架構(gòu)的時(shí)候表示新一代顯卡的光線追蹤性能是現(xiàn)有Pascal顯卡的6倍之多GeForce

三星

采用了全新的Ampere安培架構(gòu),相比RTX20系的圖靈架構(gòu)是革命性的提升,Ampere集成了第二代RT光線追蹤核心、第三代Tensor張量核心,并支持PCIE4.0、DisplayPort1.4a、2020

RTX3090

8nm

HDMI2.1GeForce采用最新的AdaLovelace架構(gòu),較上一代Ampere晶體管和CUDA核心數(shù)量提升70%,著色器、光追、深度學(xué)習(xí)性能均實(shí)現(xiàn)重大飛躍。AdaLovelace架構(gòu)的創(chuàng)新大體上可以分為三2022

RTX40系列

4nm

個(gè)板塊,分別是帶來(lái)了新的全景光線追蹤、著色器執(zhí)行重排序(SER)和DLSS3資料:英偉達(dá),維基百科,華金證券研究所整理1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.6GeForceRTX40系列,時(shí)代最強(qiáng)?

2022秋季GTC大會(huì)上,英偉達(dá)發(fā)布GeForceRTX?40系列GPU,旨在為游戲玩家和創(chuàng)作者提供革命性性能,其中新旗艦產(chǎn)品RTX4090GPU的性能相較上一代提升最高可達(dá)4倍。作為全球首款基于全新NVIDIA?

AdaLovelace架構(gòu)的GPU,RTX40系列在性能和效率上都實(shí)現(xiàn)了巨大的代際飛躍,根據(jù)NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛的介紹,RTX光線追蹤和神經(jīng)網(wǎng)絡(luò)渲染的時(shí)代正在全面展開(kāi)。?

RTX40系列GPU具有一系列新的技術(shù)創(chuàng)新:包括流式多處理器具有高達(dá)83TFLOPS的著色器能力、第三代RTCores的有效光線追蹤計(jì)算能力達(dá)到191TFLOPS、第四代TensorCores具有高達(dá)1.32Petaflops的FP8張量處理性能、著色器執(zhí)行重排序(SER)通過(guò)即時(shí)重新安排著色器負(fù)載來(lái)提高執(zhí)行效率、Ada光流帶來(lái)2倍的性能提升、架構(gòu)上改進(jìn)來(lái)實(shí)現(xiàn)與TSMC4N定制工藝技術(shù)緊密結(jié)合等。資料:電腦評(píng)測(cè)網(wǎng),華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.7

英特爾的核顯?

1998年英特爾推出了Inteli740獨(dú)立顯卡并進(jìn)入顯卡市場(chǎng),隨后它被整合進(jìn)了810/815芯片組并誕生了Intel的集成顯卡家族。2010年英特爾推出的Clarkdale處理器是首款整合GPU的CPU,這款處理器由32nm制程CPUDie和45nm的GPUDie共同封裝在一塊PCB上組成,兩顆芯片使用QPI總線相連。2011年英特爾推出的SandyBridge架構(gòu)處理器把CPU和GPU做到同一塊芯片上,進(jìn)入核顯時(shí)代。英特爾早期通過(guò)封裝將CPU、GPU兩顆芯片封裝在一起Skylake處理器核心(CPU、GPU在同一顆芯片上)資料:超能網(wǎng),華金證券研究所資料:超能網(wǎng),華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.8

核顯與獨(dú)顯性能對(duì)比?

2022年1月25日,搭載第12代酷睿AlderLake-H處理器的筆記本正式上市,采用最新一代Intel7制程工藝,內(nèi)置IrisXEGPU,擁有48組EU單元,加速頻率高達(dá)1450MHz。英特爾IrisXEGPU的跑分Intel第12代酷睿性能圖資料:量子位,華金證券研究所資料:zmmoo,華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.9

圖形流水線是GPU工作的通用模型?

圖形流水線(graphicspipeline),也叫圖形管線,指的是一連串的圖形處理任務(wù),這一系列的工作先后有序、不可顛倒,因此得以有這個(gè)形象的稱(chēng)呼。圖形流水線是GPU工作的通用模型,它以某種形式表示的三維場(chǎng)景為輸入,輸出二維的光柵圖形到顯示器。圖:圖形流水線資料:CSDN,華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.10

統(tǒng)一渲染架構(gòu)的推出開(kāi)啟了通用計(jì)算大時(shí)代?

GPU的硬件結(jié)構(gòu)從固定功能流水線架構(gòu)發(fā)展為大規(guī)模并行的統(tǒng)一染色器架構(gòu)。所謂統(tǒng)一渲染,即GPU中不再有單獨(dú)的頂端渲染單元和像素渲染單元,而是由一個(gè)通用的渲染單元同時(shí)完成頂點(diǎn)和像素渲染任務(wù)。為了實(shí)現(xiàn)這一點(diǎn),圖形指令必須先經(jīng)過(guò)一個(gè)通用的解碼器、將頂點(diǎn)和像素指令翻譯成統(tǒng)一渲染單元可直接執(zhí)行的渲染微指令,而統(tǒng)一渲染單元其實(shí)就是一個(gè)高性能的浮點(diǎn)和矢量計(jì)算邏輯,它具有通用和可編程屬性。在統(tǒng)一渲染架構(gòu)的GPU中,VertexShader和PixelShader概念都將廢除同時(shí)代之以ALU。ALU是個(gè)完整的圖形處理體系,它既能夠執(zhí)行對(duì)頂點(diǎn)操作的指令(代替VS),又能夠執(zhí)行對(duì)象素操作的指令(代替PS)?;诮y(tǒng)一渲染架構(gòu),ShaderCore被挖掘出了更多的使用方法,比如通用計(jì)算。早期的GPU只支持固定管線統(tǒng)一渲染架構(gòu)資料:CSDN,華金證券研究所資料:CSDN,華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.11

從簡(jiǎn)單到越來(lái)越復(fù)雜的流水線當(dāng)代GPU渲染管線示意圖?

以前GPU只支持固定管線,并且不支持編程,2002年,GPU在VertexOperations和FragmentOperations這兩個(gè)模塊中具有了可編程功能,2006年GPU流水線中增加了一種新的模塊,GeometryShader(幾何元著色器),使得圖形程序開(kāi)發(fā)者在可編程渲染管道(programablerender

pipline)下能夠更大的發(fā)揮自由度。再之后,Tessellation(細(xì)分曲面技術(shù))、Mesh著色器等等功能的加入,GPU的流水線變得越來(lái)越復(fù)雜。?

GPU要實(shí)現(xiàn)對(duì)二維屏幕上每一個(gè)像素點(diǎn)的輸出,需要很多個(gè)并行工作的著色處理器shaderprocessor同步工作,示意圖中將硬件中的四個(gè)小處理器連為一組,軟件層面將各類(lèi)渲染任務(wù)按4個(gè)thread打成一個(gè)卷warp發(fā)給硬件,同時(shí)加入了多warp切換的機(jī)制,保證了GPU任務(wù)執(zhí)行的高效性。資料:新浪網(wǎng),華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.12

光線追蹤時(shí)代開(kāi)啟?

光線跟蹤是一種真實(shí)地顯示物體的方法,該方法由Appel在1968年提出。光線跟蹤方法沿著到達(dá)視點(diǎn)的光線的反方向跟蹤,經(jīng)過(guò)屏幕上每一個(gè)象素,找出與視線相交的物體表面點(diǎn)P0,并繼續(xù)跟蹤,找出影響P0點(diǎn)光強(qiáng)的所有光源,從而算出P0點(diǎn)上精確的光線強(qiáng)度,在材質(zhì)編輯中經(jīng)常用來(lái)表現(xiàn)鏡面效果。光線跟蹤或稱(chēng)光跡追蹤是計(jì)算機(jī)圖形學(xué)的核心算法之一。在算法中,光線從光源被拋射出來(lái),當(dāng)他們經(jīng)過(guò)物體表面的時(shí)候,對(duì)他們應(yīng)用種種符合物理光學(xué)定律的變換。最終,光線進(jìn)入虛擬的攝像機(jī)底片中,圖片被生成出來(lái)。光線追蹤原理圖光線追蹤對(duì)比圖資料:CSDN,華金證券研究所資料:新浪,華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.13

光線追蹤算法要求的計(jì)算量巨大?

光線追蹤與光柵化的實(shí)現(xiàn)原理不同。光柵化渲染管線是傳統(tǒng)的渲染管線流程,是以一個(gè)三角形為單元,將三角形變成像素的過(guò)程;光線追蹤渲染管線則是以一根光線為單元,描述光線與物體的求交和求交后計(jì)算的過(guò)程。和光柵化線性管線不同的是,光線追蹤的管線是可以通過(guò)遞歸調(diào)用來(lái)衍生出另一根光線,并且執(zhí)行另一個(gè)管線實(shí)例。光線追蹤最大難點(diǎn)在于對(duì)算力要求極高,計(jì)算量非常龐大。?

2018年NVIDIA發(fā)布的RTX2080GPU,采用Turing架構(gòu),在GPU中集成了68個(gè)獨(dú)立的RT(raytracing)Core

(專(zhuān)門(mén)為光線追蹤服務(wù)的,實(shí)質(zhì)上它是一條特異化的專(zhuān)用流水線),用于光線追蹤,光線處理能力達(dá)到了10Giga/S,1080P@60Hz需要處理的光線約為6Giga/S,光線追蹤對(duì)于反射和陰影有著更逼真的處理效果,盡管目前仍然是采用光線追蹤和傳統(tǒng)光柵圖形處理相結(jié)合的方式來(lái)進(jìn)行圖形渲染,但其效果已經(jīng)遠(yuǎn)超傳統(tǒng)光柵圖形處理。資料:英偉達(dá),華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.14

走向新場(chǎng)景的GPGPU?

對(duì)GPU通用計(jì)算進(jìn)行深入研究從2003年開(kāi)始,并提出了GPGPU概念,前一個(gè)GP則表示通用目的(General

Purpose),所以GPGPU一般也被稱(chēng)為通用圖形處理器或通用GPU。伴隨著GPUShader單元計(jì)算能力的不斷增長(zhǎng),GPU也在向通用計(jì)算開(kāi)始擴(kuò)張邊界。GPU從由若干專(zhuān)用的固定功能單元(FixedFunctionUnit)組成的專(zhuān)用并行處理器,進(jìn)化為了以通用計(jì)算資源為主,固定功能單元為輔的架構(gòu),這一架構(gòu)的出現(xiàn)奠定了GPGPU的發(fā)展基礎(chǔ)。?

GPGPU由于其高并發(fā)性、高吞吐量以及不斷提升的可編程能力,目前的應(yīng)用已經(jīng)擴(kuò)展到科學(xué)計(jì)算、區(qū)塊鏈、大數(shù)據(jù)處理、工程計(jì)算、金融、基因等方面。AI芯片的分類(lèi)計(jì)算是未來(lái)科學(xué)和工程突破的關(guān)鍵資料:搜狐網(wǎng),華金證券研究所資料:《智能時(shí)代的科學(xué)計(jì)算:低維表達(dá)與高維問(wèn)題的自然融合》李若,華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.15GPU與GPGPU的對(duì)比NVIDIAGeForceRTX40的GPC單元?

GPU的核心價(jià)值體現(xiàn)在圖形圖像渲染,GPGPU的重點(diǎn)在于算力,雖然都是由GPU的架構(gòu)演進(jìn)而來(lái),但所關(guān)注的重點(diǎn)有明顯區(qū)別。GPGPU架構(gòu)設(shè)計(jì)時(shí),去掉了GPU為了圖形處理而設(shè)計(jì)的加速硬件單元,保留了GPU的SIMT架構(gòu)和通用計(jì)算單元,使之更適合高性能并行計(jì)算,并能使用更高級(jí)別的編程語(yǔ)言,在性能、易用性和通用性上更加強(qiáng)大。GPU與GPGPU對(duì)比資料:新浪網(wǎng),華金證券研究所資料:英偉達(dá),華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.16GPGPU與CPU的對(duì)比?

CPU作為計(jì)算機(jī)系統(tǒng)的運(yùn)算和控制核心,是信息處理、程序運(yùn)行的最終執(zhí)行單元。CPU內(nèi)部主要由運(yùn)算器、控制器和寄存器組成,運(yùn)算器執(zhí)行數(shù)值計(jì)算,寄存器儲(chǔ)存數(shù)據(jù)。CPU是程序的調(diào)用者和運(yùn)行者,計(jì)算機(jī)的每一條指令都要經(jīng)過(guò)CPU的解析和執(zhí)行。GPU無(wú)法單獨(dú)工作,必須由CPU進(jìn)行控制調(diào)用才能工作。CPU可單獨(dú)作用,處理復(fù)雜的邏輯運(yùn)算和不同的數(shù)據(jù)類(lèi)型,但當(dāng)需要大量的處理類(lèi)型統(tǒng)一的數(shù)據(jù)時(shí),則可調(diào)用GPU進(jìn)行并行計(jì)算。?

CPU與GPU從設(shè)計(jì)之初就是為了實(shí)現(xiàn)不同的目標(biāo),GPU的構(gòu)成相對(duì)簡(jiǎn)單,有數(shù)量眾多的計(jì)算單元和超長(zhǎng)的流水線,特別適合處理大量的類(lèi)型統(tǒng)一的數(shù)據(jù)。GPU為并行而設(shè)計(jì),更重視整體數(shù)據(jù)吞吐量(Throughput);CPU為串行而設(shè)計(jì),更看重任務(wù)間的時(shí)延(Latency)。與超標(biāo)量亂序CPU相比,通過(guò)減少用于控制邏輯的面積并增加算術(shù)邏輯單元的面積,GPU可以在高度并行的工作負(fù)載上獲得更好的單位面積性能。CPU與GPU芯片面積對(duì)比CPU與GPGPU架構(gòu)對(duì)比(ALU用于計(jì)算的晶體管)資料研究所:anandtech,華金證券資料:imagination,華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.17

并行計(jì)算發(fā)展的核心?

現(xiàn)代計(jì)算機(jī)發(fā)展經(jīng)歷了串行計(jì)算時(shí)代、并行計(jì)算時(shí)代,并行計(jì)算機(jī)是由一組處理單元組成的,這組處理單元通過(guò)互相之間的通信與協(xié)作,以更快的速度共同完成一項(xiàng)大規(guī)模的計(jì)算任務(wù)。并行計(jì)算機(jī)體系結(jié)構(gòu)的發(fā)展主要體現(xiàn)在計(jì)算節(jié)點(diǎn)性能的提高及節(jié)點(diǎn)間通信技術(shù)的改進(jìn)兩方面。?

弗林分類(lèi)法,根據(jù)指令流和數(shù)據(jù)流的不同組織方式把計(jì)算機(jī)體系的結(jié)構(gòu)分為四類(lèi):?jiǎn)沃噶盍鲉螖?shù)據(jù)流(SISD)、單指令流多數(shù)據(jù)流(SIMD)、多指令流多單數(shù)據(jù)流(MISD)、多指令流多數(shù)據(jù)流(MIMD)。指令流指的是機(jī)器執(zhí)行的指令序列;數(shù)據(jù)流指指令流調(diào)用的數(shù)據(jù)序列,包括輸入數(shù)據(jù)和中間結(jié)果。SIMD是一種執(zhí)行模型,這意味著處理器將其用于在管道中將相似的數(shù)據(jù)集排隊(duì)并并行執(zhí)行的方法,是現(xiàn)代CPU和GPU使用的最受歡迎的EM之一。弗林分類(lèi)法資料:javatpoint,華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.18SIMT,主流GPU的系統(tǒng)架構(gòu)核心?

現(xiàn)代的GPU架構(gòu)中,每個(gè)GPU會(huì)包含很多的core,英偉達(dá)稱(chēng)之為流多處理器(streamingmultiprocessors,SM)。每個(gè)核都在執(zhí)行單指令多線程的程序(single-instructionmultiple-thread,SIMT)。在單個(gè)核上執(zhí)行的線程可以通過(guò)暫存內(nèi)存(有點(diǎn)像阻塞操作,保存現(xiàn)場(chǎng))進(jìn)行通信,并使用快速barrier操作進(jìn)行同步。?

SIMT與SIMD(同一條指令多個(gè)數(shù)據(jù))的共同點(diǎn)是同一條指令。SIMT是SIMD的線程等價(jià)物,不同之處在于,SIMD使用執(zhí)行單元或矢量單元,而SIMT將其擴(kuò)展為利用線程。SIMT的好處是無(wú)需開(kāi)發(fā)者費(fèi)力把數(shù)據(jù)湊成合適的矢量長(zhǎng)度,并且SIMT允許每個(gè)線程有不同的分支。SIMT的主要優(yōu)點(diǎn)是它減少了指令預(yù)取帶來(lái)的等待時(shí)間?,F(xiàn)代GPU簡(jiǎn)單架構(gòu)示意圖SIMD與SIMT對(duì)比資料:CSDN,華金證券研究所資料:新浪VR,華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.19GPGPU架構(gòu),以A100為例?

A100是NVIDIA2020年5月14日發(fā)布的采用新一代Ampere架構(gòu)的計(jì)算卡,使用了GA100核心。Ampere架構(gòu)仍然沿用了成熟的GPC-TPC-SM多級(jí)架構(gòu),GA100內(nèi)部包含8組圖形處理集群(Graphics

ProcessingCluster,GPC),每組GPC包含8組紋理處理集群(TextureProcessingCluster,TPC),每組TPC又包含8組流式多處理器(StreamingMultiprocessor,SM),另外還有內(nèi)存控制器組成。GPCSM資料:CSDN,華金證券研究所繪制1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.20Fermi是第一個(gè)完整的GPU計(jì)算架構(gòu)?

英偉達(dá)的Fermi是第一個(gè)完整的GPU計(jì)算架構(gòu),該架構(gòu)在保持圖形性能的前提下,將通用計(jì)算的重要性提升到前所未有的高度,大規(guī)模GPU計(jì)算從此開(kāi)始。?

要做通用計(jì)算,需要更強(qiáng)大的線程管理能力,更強(qiáng)大的仲裁機(jī)制,豐富的共享cache和寄存器資源以及充足的發(fā)射端等。全新Fermi架構(gòu),是以處理器為目標(biāo)進(jìn)行設(shè)計(jì),因此Fermi架構(gòu)新增了以前GPU上從來(lái)沒(méi)有的東西,包括更多的指令雙發(fā)射、統(tǒng)一的L2全局緩存、64KB的可配置式L1或者SharedMemory、大量的原子操作單元等等。GF100費(fèi)米架構(gòu)核心示意圖資料:快懂百科,華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.21

通用算力提升是英偉達(dá)GPU架構(gòu)演進(jìn)的重點(diǎn)之一?

2016年3月英偉達(dá)推出Pascal架構(gòu),采用16nm和14nm的工藝。該架構(gòu)建立在五大技術(shù)突破之上,啟用了全新的計(jì)算平臺(tái),打破了從書(shū)桌端到數(shù)據(jù)中心的傳統(tǒng)思維。Pascal徹底采用全新設(shè)計(jì),為深度學(xué)習(xí)和其他計(jì)算工作負(fù)載提供更好的性能。該架構(gòu)利用全新的混合精度指令,可為深度學(xué)習(xí)提供每秒超過(guò)20萬(wàn)億次浮點(diǎn)運(yùn)算的性能峰值。英偉達(dá)架構(gòu)兩年升級(jí)一次資料:華金證券研究所繪制1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.22

多方面構(gòu)建的高壁壘?

GPU的體系結(jié)構(gòu)與算法是各個(gè)公司的核心機(jī)密。微架構(gòu)人才核心競(jìng)爭(zhēng)力制程算法專(zhuān)利產(chǎn)業(yè)配套生態(tài)資料:華金證券研究所繪制1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.23

人才與研發(fā)投入,以英偉達(dá)為例?

根據(jù)英偉達(dá)官網(wǎng)報(bào)告顯示,公司共有22,500名員工;根據(jù)公司最新財(cái)年的年報(bào)顯示,公司職員中有80%屬于技術(shù)人員,有50%的具備高等學(xué)歷。?

根據(jù)英偉達(dá)最新的公告顯示,整個(gè)2023財(cái)年,英偉達(dá)總收入269.7億美元,與前一個(gè)財(cái)年幾乎持平,研發(fā)支出高達(dá)73.39億美元,研發(fā)支出在營(yíng)收中占比高達(dá)27.21%。截至2023財(cái)年,公司十年間共計(jì)研發(fā)支出高達(dá)290.23億美元。圖:近十個(gè)財(cái)年英偉達(dá)營(yíng)收(億美元)、研發(fā)支出(億美元)

、研發(fā)支出在營(yíng)收中占比300.00250.00200.00150.00100.0050.0035.00%30.00%25.00%20.00%15.00%10.00%5.00%269.14269.7432.35%29.05%27.21%26.57%25.91%23.53%166.7521.17%20.28%19.57%18.50%117.16109.1897.1473.3969.1052.6850.1013.3146.8213.6041.3013.3639.2428.2923.7617.9714.630.000.00%2014財(cái)年2015財(cái)年2016財(cái)年2017財(cái)年2018財(cái)年2019財(cái)年2020財(cái)年2021財(cái)年2022財(cái)年2023財(cái)年研發(fā)支出(億美元)營(yíng)業(yè)收入(億美元)研發(fā)支出在營(yíng)收中占比資料:wind,華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.24

國(guó)外廠商多年間構(gòu)筑了龐大的專(zhuān)利池?

根據(jù)萬(wàn)雪佼、徐步陸在2017年發(fā)布的《圖形處理器(GPU)專(zhuān)利態(tài)勢(shì)研究》的內(nèi)容顯示,全球GPU專(zhuān)利呈現(xiàn)以下幾大特點(diǎn):?

1、從全球?qū)@_(kāi)國(guó)看,GPU專(zhuān)利全球布局重心在美國(guó)。其中超過(guò)總數(shù)80%的5459個(gè)專(zhuān)利家族有美國(guó)專(zhuān)利,剩余世界五大專(zhuān)利局的中日歐韓分布也排名靠前,均有超過(guò)10%專(zhuān)利家族有該國(guó)專(zhuān)利布局。從各國(guó)公開(kāi)趨勢(shì)來(lái)看,在美國(guó)、中國(guó)、韓國(guó)專(zhuān)利布局比重呈逐年上升趨勢(shì);?

2、從專(zhuān)利權(quán)人分布看,全球GPU技術(shù)領(lǐng)域?qū)@麛?shù)量排名前20的公司占有全球70%的GPU專(zhuān)利,GPU專(zhuān)利技術(shù)相對(duì)集中。排名靠前的公司以美國(guó)居多,其次是英國(guó)(ARM和ImaginationTech)。日本游戲公司索尼電腦娛樂(lè)公司和任天堂公司也有少量GPU專(zhuān)利。除臺(tái)灣VIA公司外,排名前100的沒(méi)有中國(guó)專(zhuān)利權(quán)人。GPU技術(shù)領(lǐng)域全球?qū)@易宄钟袛?shù)量排名前三的分別是NVIDIA、Intel和AMD。其中NVIDIA持有專(zhuān)利數(shù)量占全球總量的近20%。?

3、我國(guó)原生GPU企業(yè),歷史短,專(zhuān)利數(shù)量極少且布局僅在國(guó)內(nèi)。1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.25

英偉達(dá)全棧布局構(gòu)筑強(qiáng)大生態(tài)?

2006年,NVIDIA推出CUDA,這是一種用于通用GPU計(jì)算的革命性架構(gòu)。CUDA的存在使得開(kāi)發(fā)者使用GPU進(jìn)行通用計(jì)算的難度大幅降低,使得開(kāi)發(fā)者可以相對(duì)簡(jiǎn)單有效地對(duì)英偉達(dá)GPU芯片進(jìn)行編程,使科學(xué)家和研究人員能夠利用GPU的并行處理能力來(lái)應(yīng)對(duì)最復(fù)雜的計(jì)算挑戰(zhàn)。?

芯片是算力基礎(chǔ),但要充分發(fā)揮其性能,必須構(gòu)建完備的系統(tǒng)軟件底層庫(kù),英偉達(dá)構(gòu)建了從底層系統(tǒng)軟件、驅(qū)動(dòng)軟件、平臺(tái)到上層的應(yīng)用框架。此外,英偉達(dá)提供全面的算法庫(kù),幾乎全部開(kāi)源。圖:英偉達(dá)提供全堆棧的AI、HPC軟件資料:搜狐,華金證券研究所1.由專(zhuān)用走向通用,GPU賽道壁壘高筑1.26

走向異構(gòu),海外廠商橫向布局不斷?

異構(gòu)計(jì)算主要是指使用不同類(lèi)型指令集和體系架構(gòu)的計(jì)算單元組成系統(tǒng)的計(jì)算方式。異構(gòu)計(jì)算近年來(lái)得到更多關(guān)注,主要是因?yàn)橥ㄟ^(guò)提升CPU時(shí)鐘頻率和內(nèi)核數(shù)量而提高計(jì)算能力的傳統(tǒng)方式遇到了散熱和能耗瓶頸。而與此同時(shí),GPU等專(zhuān)用計(jì)算單元雖然工作頻率較低,具有更多的內(nèi)核數(shù)和并行計(jì)算能力,總體性能-芯片面積比和性能-功耗比都很高,卻遠(yuǎn)遠(yuǎn)沒(méi)有得到充分利用。云和邊緣計(jì)算的數(shù)據(jù)中心、自動(dòng)駕駛等超級(jí)終端領(lǐng)域都是典型的復(fù)雜計(jì)算場(chǎng)景,這類(lèi)型場(chǎng)景的計(jì)算平臺(tái)都采用了大算力芯片,也是異構(gòu)計(jì)算最重要的落地場(chǎng)景。2015年12月29日,英特爾公司宣布完成對(duì)Altera公司的收購(gòu),Altera公司是FPGA(可編程邏輯陣列)技術(shù)的領(lǐng)先提供商。2022年2月14日,AMD宣布以全股份交易(all-stocktransaction)方式完成對(duì)賽靈思(Xilinx)的收購(gòu)。英偉達(dá)自研CPU,在2022GTC大會(huì)上,NVIDIA宣布推出首款面向AI基礎(chǔ)設(shè)施和高性能計(jì)算的基于ArmNeoverse架構(gòu)的數(shù)據(jù)中心專(zhuān)屬CPU——GraceCPU超級(jí)芯片。面向未來(lái),海外大廠橫向布局不斷。大算力芯片走向異構(gòu)超異構(gòu)的三大要素資料:極術(shù)社區(qū),華金證券研究所繪制資料:《AI計(jì)算邁入超異構(gòu)時(shí)代》宋繼強(qiáng),華金證券研究所繪制目錄02由專(zhuān)用走向通用,GPU賽道壁壘高筑產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速?????????2.1AI技術(shù)賦能實(shí)體經(jīng)濟(jì)面臨的瓶頸2.2ChatGPT的破圈?????????2.10生成式AI、邊緣AI技術(shù)即將步入成熟期2.11大模型是大算力和強(qiáng)算法結(jié)合的產(chǎn)物2.12AI芯片三劍客?2.19自動(dòng)駕駛具備廣闊市場(chǎng)前景2.3ChatGPT的成功離不開(kāi)預(yù)訓(xùn)練大模型2.4預(yù)訓(xùn)練模型的發(fā)展歷程2.13訓(xùn)練端GPU擔(dān)綱2.5Transformer架構(gòu)成主流2.14數(shù)據(jù)中心邁入“高算力”時(shí)代,兵家必爭(zhēng)2.15英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)快速增長(zhǎng)2.16自動(dòng)駕駛研發(fā)兩大商業(yè)路線2.17自動(dòng)駕駛實(shí)現(xiàn)的兩種技術(shù)路線2.18單車(chē)智能化推動(dòng)算力升級(jí)加速2.6自監(jiān)督學(xué)習(xí)與Transformer的結(jié)合2.7大模型的突現(xiàn)能力2.8參數(shù)量爆發(fā)式增長(zhǎng)的ChatGPT2.9預(yù)訓(xùn)練大模型,第三波AI發(fā)展的重大拐點(diǎn)全維智能化大時(shí)代,國(guó)產(chǎn)算力行則必至建議關(guān)注產(chǎn)業(yè)相關(guān)風(fēng)險(xiǎn)提示2.產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.1AI技術(shù)賦能實(shí)體經(jīng)濟(jì)面臨的瓶頸?

過(guò)去,絕大部分人工智能企業(yè)和研究機(jī)構(gòu)遵循算法、算力和數(shù)據(jù)三位一體的研究范式,即以一定的算力和數(shù)據(jù)為基礎(chǔ),使用開(kāi)源算法框架訓(xùn)練智能模型。而這也導(dǎo)致了當(dāng)前大部分人工智能處于“手工作坊式”階段,面對(duì)各類(lèi)行業(yè)的下游應(yīng)用,AI逐漸展現(xiàn)出碎片化、多樣化的特點(diǎn),也出現(xiàn)了模型通用性不高的缺陷。這不僅是AI技術(shù)面臨的挑戰(zhàn),也限制了AI的產(chǎn)業(yè)化進(jìn)程。隨著人工智能賦能實(shí)體經(jīng)濟(jì)進(jìn)入深水區(qū),企業(yè)通常面臨數(shù)據(jù)資源有限、算力投資難度大、模型泛化能力差、高水平人才稀缺的發(fā)展瓶頸。人工智能發(fā)展的瓶頸問(wèn)題資料:《人工智能:天使還是魔鬼》譚鐵牛,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.2

ChatGPT的破圈?

聊天生成型預(yù)訓(xùn)練變換模型(ChatGenerativePre-trainedTransformer)簡(jiǎn)稱(chēng)ChatGPT,是OpenAI開(kāi)發(fā)的人工智慧聊天機(jī)器人程序,于2022年11月推出,上線兩個(gè)月后已有上億用戶。?

ChatGPT目前仍以文字方式互動(dòng),而除了可以用人類(lèi)自然對(duì)話方式來(lái)互動(dòng),還可以用于甚為復(fù)雜的語(yǔ)言工作,包括自動(dòng)生成文本、自動(dòng)問(wèn)答、自動(dòng)摘要等多種任務(wù)。ChatGPT突破1億用戶數(shù)所需時(shí)間對(duì)比ChatGPT介紹資料:滿投財(cái)經(jīng),華金證券研究所資料:cnbeta,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.3

ChatGPT的成功離不開(kāi)預(yù)訓(xùn)練大模型?

人工智能需要用大量的數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練,理論上來(lái)講,投喂數(shù)據(jù)越多、數(shù)據(jù)質(zhì)量越高,模型效果就會(huì)越好。而預(yù)訓(xùn)練

(Pre-trained

Models,PTMs),就是預(yù)先訓(xùn)練好的模型,可以幫助人們降低模型創(chuàng)建和訓(xùn)練的成本。預(yù)訓(xùn)練大模型需要深度學(xué)習(xí)的算法,也需要大的數(shù)據(jù)、大的算力,做自監(jiān)督學(xué)習(xí)(模型直接從無(wú)標(biāo)簽數(shù)據(jù)中自行學(xué)習(xí),無(wú)需標(biāo)注數(shù)據(jù)),再面向不同的任務(wù)、在不同的應(yīng)用場(chǎng)景里做少量任務(wù)數(shù)據(jù)進(jìn)行遷移學(xué)習(xí),進(jìn)而應(yīng)用于很多場(chǎng)景。?

ChatGPT能夠?qū)崿F(xiàn)當(dāng)前的交互,離不開(kāi)OpenAI在AI預(yù)訓(xùn)練大模型領(lǐng)域的積累。NLP模型開(kāi)發(fā)領(lǐng)域的標(biāo)準(zhǔn)范式“pretrain+finetune”預(yù)訓(xùn)練的起源與發(fā)展資料tawhale,華金證券研究所資料:阿里云開(kāi)發(fā)者社區(qū),華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.4

預(yù)訓(xùn)練模型的發(fā)展歷程預(yù)訓(xùn)練模型的分類(lèi)?

預(yù)訓(xùn)練的研究最早起源于遷移學(xué)習(xí)。遷移學(xué)習(xí)的核心思想,即運(yùn)用已有的知識(shí)來(lái)學(xué)習(xí)新的知識(shí),通俗來(lái)說(shuō)就是將一個(gè)預(yù)訓(xùn)練的模型被重新用在另一個(gè)任務(wù)中。早期的預(yù)訓(xùn)練模型主要基于有標(biāo)簽數(shù)據(jù)。而在NLP領(lǐng)域,由于下游任務(wù)的多樣性以及數(shù)據(jù)標(biāo)注的復(fù)雜性,導(dǎo)致無(wú)法獲得一個(gè)像ImageNet這樣大規(guī)模的有標(biāo)簽數(shù)據(jù),所以NLP領(lǐng)域嘗試使用自監(jiān)督學(xué)習(xí)的方法來(lái)獲取預(yù)訓(xùn)練模型,自監(jiān)督學(xué)習(xí)的主要思想就是利用文本間的內(nèi)在聯(lián)系為監(jiān)督信號(hào)。?

2017年出現(xiàn)的Transformer結(jié)構(gòu),給NLP領(lǐng)域預(yù)訓(xùn)練模型的發(fā)展帶來(lái)了絕大的突破。Transformer的成功,也誘使CV領(lǐng)域加入了自監(jiān)督預(yù)訓(xùn)練模型的賽道。如今,自監(jiān)督預(yù)訓(xùn)練已經(jīng)成為當(dāng)前人工智能研究的重點(diǎn),幾乎所有的最新的PTM都是采用類(lèi)Transformer結(jié)構(gòu)與自監(jiān)督學(xué)習(xí)的方法。資料:CSDN,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.5Transformer架構(gòu)成主流?

2017年,谷歌團(tuán)隊(duì)首先提出Transformer模型。該團(tuán)隊(duì)將Transformer概括為一句話:“AttentionisAllYouNeed.”目前Transformer已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的主流模型,基于Transformer的預(yù)訓(xùn)練語(yǔ)言模型更是成為主流。除了NLP

之外,Transformer

也逐漸成為很多基于序列的語(yǔ)音應(yīng)用的主流AI模型,在很多場(chǎng)景中已取代RNN/LSTM,比如自動(dòng)語(yǔ)音識(shí)別、語(yǔ)音合成等等?

Transformer受歡迎的主要原因是其架構(gòu)引入了并行化,它利用了強(qiáng)大的TPU和并行訓(xùn)練,從而減少了訓(xùn)練時(shí)間?;赥ransformer架構(gòu)的應(yīng)用基于Transformer架構(gòu)的NLP模型規(guī)模資料:新浪,華金證券研究所資料:新浪,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.6

自監(jiān)督學(xué)習(xí)與Transformer的結(jié)合?

自監(jiān)督學(xué)習(xí)是從無(wú)標(biāo)注數(shù)據(jù)中提取知識(shí)的一種手段,它能夠利用數(shù)據(jù)本身的隱藏信息作為監(jiān)督,和無(wú)監(jiān)督有非常相似的設(shè)置。由于自然語(yǔ)言很難標(biāo)注且又存在大量未標(biāo)注的句子,所以NLP領(lǐng)域的預(yù)訓(xùn)練模型主要致力于自監(jiān)督學(xué)習(xí),進(jìn)而大大促進(jìn)了NLP領(lǐng)域的發(fā)展。?

預(yù)訓(xùn)練模型成功的關(guān)鍵是自監(jiān)督學(xué)習(xí)與Transformer的結(jié)合,具有代表性的工作是GPT和BERT系列模型。后續(xù)的其他預(yù)訓(xùn)練模型都是這兩個(gè)經(jīng)典模型的變體。近年來(lái)的預(yù)訓(xùn)練模型家族資料:搜狐網(wǎng),華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.7

大模型的突現(xiàn)能力?

當(dāng)擴(kuò)展大型語(yǔ)言模型時(shí),偶爾會(huì)出現(xiàn)一些較小模型沒(méi)有的新能力,這種類(lèi)似于「創(chuàng)造力」的屬性被稱(chēng)作「突現(xiàn)」能力。GPT-3的論文表明,語(yǔ)言模型執(zhí)行多位數(shù)加法的能力對(duì)于從100M到13B參數(shù)的模型具有平坦的縮放曲線,近似隨機(jī),但會(huì)在一個(gè)節(jié)點(diǎn)造成性能的飛升。?

初代GPT-3展示了三個(gè)重要能力:語(yǔ)言生成、上下文學(xué)習(xí)、世界知識(shí)?;旧先N能力都來(lái)自于大規(guī)模預(yù)訓(xùn)練:在有3000億單詞的語(yǔ)料上預(yù)訓(xùn)練擁有1750億參數(shù)的模型。GPT-3.5

的進(jìn)化樹(shù)大模型的「突現(xiàn)」能力資料:《EmergentAbilitiesofLargeLanguageModels》JeffDean等,華金證券研究所資料:《拆解追溯GPT-3.5各項(xiàng)能力的起源》符堯,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.8

參數(shù)量爆發(fā)式增長(zhǎng)的ChatGPT?

GPT模型的訓(xùn)練需要超大的訓(xùn)練語(yǔ)料,超多的模型參數(shù)以及超強(qiáng)的計(jì)算資源。2018年,OpenAI發(fā)布了生成式預(yù)訓(xùn)練語(yǔ)言模型GPT,可用于生成文章、代碼、機(jī)器翻譯、問(wèn)答等各類(lèi)內(nèi)容。GPT的參數(shù)量1.17億,預(yù)訓(xùn)練數(shù)據(jù)量約5GB;2019年2月份發(fā)布的GPT-2的參數(shù)量15億,預(yù)訓(xùn)練數(shù)據(jù)量40GB;2020年5月發(fā)布的GPU-3的參數(shù)量高達(dá)1,750億,預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)45TB。圖:ChatGPT與GPT

1-3的技術(shù)對(duì)比資料:ofweek,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.9

預(yù)訓(xùn)練大模型,第三波AI發(fā)展的重大拐點(diǎn)?

深度學(xué)習(xí)時(shí)代,為了充分訓(xùn)練深層模型參數(shù)并防止過(guò)擬合,通常需要更多標(biāo)注數(shù)據(jù)喂養(yǎng)。在NLP領(lǐng)域,標(biāo)注數(shù)據(jù)更是一個(gè)昂貴資源。預(yù)訓(xùn)練從大量無(wú)標(biāo)注數(shù)據(jù)中進(jìn)行預(yù)訓(xùn)練使許多NLP任務(wù)獲得顯著的性能提升。?

大模型通常是在大規(guī)模無(wú)標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,學(xué)習(xí)出一種特征和規(guī)則?;贏I大模型進(jìn)行應(yīng)用開(kāi)發(fā)時(shí),將大模型進(jìn)行微調(diào)(在下游特定任務(wù)上的小規(guī)模有標(biāo)注數(shù)據(jù)進(jìn)行二次訓(xùn)練)或者不進(jìn)行微調(diào),就可以完成多個(gè)應(yīng)用場(chǎng)景的任務(wù),實(shí)現(xiàn)通用的智能能力。預(yù)訓(xùn)練大模型在海量數(shù)據(jù)的學(xué)習(xí)訓(xùn)練后具有良好的通用性和泛化性,用戶基于大模型通過(guò)零樣本、小樣本學(xué)習(xí)即可獲得領(lǐng)先的效果,同時(shí)“預(yù)訓(xùn)練+精調(diào)”等開(kāi)發(fā)范式,讓研發(fā)過(guò)程更加標(biāo)準(zhǔn)化,顯著降低了人工智能應(yīng)用門(mén)檻,成為AI走向工程化應(yīng)用落地的重要手段。訓(xùn)練大模型“預(yù)訓(xùn)練+精調(diào)”模式預(yù)訓(xùn)練大模型的基本原理資料:IDC,華金證券研究所資料:百度大腦,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.10

生成式AI、邊緣AI技術(shù)即將步入成熟期?

根據(jù)Gartner發(fā)布的2022年Gartner人工智能(AI)技術(shù)成熟度曲線(HypeCycle?)顯示,在多項(xiàng)人工智能技術(shù)中,生成式AI、合成數(shù)據(jù)、邊緣AI等當(dāng)下均處于期望膨脹期,預(yù)計(jì)2-5年達(dá)到高峰期。人工智能發(fā)展歷程人工智能技術(shù)成熟度曲線資料:《人工智能標(biāo)準(zhǔn)化白皮書(shū)》,華金證券研究所資料:Gartner,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.11

大模型是大算力和強(qiáng)算法結(jié)合的產(chǎn)物?

ChatGPT等AI應(yīng)用需要基于大量模型訓(xùn)練,以GPT-3模型為例,其存儲(chǔ)知識(shí)的能力

于1750億參數(shù),訓(xùn)練所需的算力高達(dá)3650PFLOPS-day。據(jù)Lambda實(shí)驗(yàn)室測(cè)算,如果采用英偉達(dá)V100GPU和當(dāng)時(shí)最便宜的云服務(wù)進(jìn)行計(jì)算,GPT-3訓(xùn)練一次需要355個(gè)GPU年(一塊GPU運(yùn)行355年的運(yùn)算量)、花費(fèi)460萬(wàn)美元。?

美國(guó)市場(chǎng)研究機(jī)構(gòu)TrendForce在2023年3月1日的報(bào)告中測(cè)算稱(chēng),處理1800億個(gè)參數(shù)的GPT-3.5大模型,需要的GPU芯片數(shù)量高達(dá)2萬(wàn)枚。未來(lái)GPT大模型商業(yè)化所需的GPU芯片數(shù)量甚至超過(guò)3萬(wàn)枚。在2022年11月,英偉達(dá)在官網(wǎng)公告中提到,微軟Azure上部署了數(shù)萬(wàn)枚A100/H100高性能芯片。這是第一個(gè)采用英偉達(dá)高端GPU構(gòu)建的大規(guī)模AI算力集群。資料:騰訊云,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.12AI芯片三劍客?

AI芯片(GPU/FPGA/ASIC)在云端同時(shí)承擔(dān)人工智能“訓(xùn)練”和“推斷”過(guò)程,在終端主要承擔(dān)“推斷”過(guò)程,從性能與成本來(lái)看ASIC最優(yōu)。ASIC作為專(zhuān)用芯片,算力與功耗在通用芯片GPU具有絕對(duì)優(yōu)勢(shì),但開(kāi)發(fā)周期較長(zhǎng),落地較慢,需一定規(guī)模后才能體現(xiàn)成本優(yōu)勢(shì)。FPGA可以看做從GPU到ASIC重點(diǎn)過(guò)渡方案。相對(duì)于GPU可深入到硬件級(jí)優(yōu)化,相比ASIC在算法不斷迭代演進(jìn)情況下更具靈活性,且開(kāi)發(fā)時(shí)間更短。圖:AI芯片三劍客GPUFPGAASIC特性圖形處理器,圖像和圖形相關(guān)運(yùn)算工作

現(xiàn)場(chǎng)可編程門(mén)陣列,可以重構(gòu)電路的芯

專(zhuān)用集成電路,應(yīng)特定用戶要求和特定的微處理器片,一種硬件可重構(gòu)的體系結(jié)構(gòu)電子系統(tǒng)需要而設(shè)計(jì)制造的集成電路性能靈活性成本較高較低較高高較低高較高低低高低低功耗較低較高同構(gòu)性?xún)?yōu)點(diǎn)較低可以支撐大量數(shù)據(jù)的并行計(jì)算,適合對(duì)

可無(wú)限次編程,延時(shí)性比較低,同時(shí)擁

功耗低,適合量產(chǎn)數(shù)據(jù)密集型的應(yīng)用進(jìn)行計(jì)算和處理

有流水線并行和數(shù)據(jù)并行、靈活性高缺點(diǎn)功耗高,管理控制能力弱,不具備可編

開(kāi)發(fā)難度大、只適合定點(diǎn)運(yùn)算、價(jià)格比

研發(fā)成本高昂,開(kāi)發(fā)周期長(zhǎng),靈活性低程性

較昂貴資料:華金證券研究所整理2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.13

訓(xùn)練端GPU擔(dān)綱?

雖然AI芯片目前看有三大類(lèi),但是基于幾點(diǎn)原因,我們判斷GPU仍將是主流:1、Transformer架構(gòu)是最近幾年的主流,該架構(gòu)最大的特點(diǎn)之一就是能夠利用分布式GPU進(jìn)行并行訓(xùn)練,提升模型訓(xùn)練效率;2、ASIC的算力與功耗雖然看似有優(yōu)勢(shì),但考慮到AI算法還是處于一個(gè)不斷發(fā)展演進(jìn)的過(guò)程,用專(zhuān)用芯片部署會(huì)面臨著未來(lái)算法更迭導(dǎo)致芯片不適配的巨大風(fēng)險(xiǎn);3、英偉達(dá)強(qiáng)大的芯片支撐、生態(tài)、算法開(kāi)源支持。不同場(chǎng)景對(duì)于不同類(lèi)型AI芯片的占比預(yù)測(cè)2018年全球AI芯片市場(chǎng)結(jié)構(gòu)云端訓(xùn)練芯片49%終端推理芯片30%云端推理芯片21%資料:賽迪顧問(wèn),華金證券研究所資料:賽迪顧問(wèn),華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.14

數(shù)據(jù)中心邁入“高算力”時(shí)代,兵家必爭(zhēng)?

工信部發(fā)布的《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023年)》明確了算力內(nèi)涵并引入測(cè)算指標(biāo)FLOPS,對(duì)數(shù)據(jù)中心發(fā)展質(zhì)量進(jìn)行評(píng)價(jià),指出到2023年底,總算力規(guī)模將超過(guò)200EFLOPS,高性能算力占比將達(dá)到10%,到2025年,總算力規(guī)模將超過(guò)300EFLOPS。?

由于GPU比CPU更適合處理企業(yè)數(shù)據(jù)中心和超大規(guī)模網(wǎng)絡(luò)中AI和機(jī)器學(xué)習(xí)所需的許多計(jì)算,數(shù)據(jù)中心對(duì)GPU的需求是一個(gè)不斷增長(zhǎng)的機(jī)會(huì)。2020-2025年全球AI服務(wù)器行業(yè)市場(chǎng)規(guī)模及增速(單位:億美元)2016-2020中國(guó)算力結(jié)構(gòu)變化資料:信通院,華金證券研究所資料:華經(jīng)產(chǎn)業(yè)研究院,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.15

英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)快速增長(zhǎng)?

英偉達(dá)有四大產(chǎn)品線平臺(tái),包括游戲業(yè)務(wù)、數(shù)據(jù)中心、專(zhuān)業(yè)顯示和汽車(chē)業(yè)務(wù)。2023財(cái)年第一季度,英偉達(dá)游戲業(yè)務(wù)收入較上年同比增長(zhǎng)31%,環(huán)比增長(zhǎng)6%;數(shù)據(jù)中心收入同比增長(zhǎng)83%,環(huán)比增長(zhǎng)15%,主要是由用于訓(xùn)練和推理的GPU銷(xiāo)售所驅(qū)動(dòng)的;專(zhuān)業(yè)顯示的收入同比增長(zhǎng)67%,環(huán)比下降3%;汽車(chē)收入同比下降10%,環(huán)比增長(zhǎng)10%,同比下降由于汽車(chē)制造商供應(yīng)限制等因素導(dǎo)致。圖:英偉達(dá)按下游市場(chǎng)劃分銷(xiāo)售占比(百萬(wàn)美元)100%2985057006315361,1625667676413587775586984877833207503391,11890%80%70%60%50%40%30%20%10%0%1,0532,11111301,21293483583019326,696293210,6132,9837,556406020162818201555132017624620185,51820197,759202012,46220215,6622022H1Gaming

Data?Center

Pro?Visualization

Automotive

OEM?&?Other資料:wind,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.16

自動(dòng)駕駛研發(fā)兩大商業(yè)路線?

自動(dòng)駕駛研發(fā)有兩大路線:以傳統(tǒng)車(chē)企為代表的漸進(jìn)式路線,從L1逐步升級(jí)到L5;以科技公司為代表的跨越式路線,跳過(guò)駕駛輔助系統(tǒng),直接從高度自動(dòng)駕駛L4系統(tǒng)切入,首先會(huì)在一些相對(duì)較易的商用場(chǎng)景率先落地。汽車(chē)制造商和互聯(lián)網(wǎng)企業(yè)的自動(dòng)駕駛技術(shù)發(fā)展路徑資料:亞洲新能源汽車(chē)網(wǎng),華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.17

自動(dòng)駕駛實(shí)現(xiàn)的兩種技術(shù)路線?

從商業(yè)場(chǎng)景來(lái)看,實(shí)現(xiàn)的自動(dòng)駕駛的路徑主要有兩條,一是單車(chē)智能,即通過(guò)攝像頭、

等傳感器以及高效準(zhǔn)確的算法,賦予車(chē)輛自動(dòng)駕駛的能力;二是車(chē)路協(xié)同,即主要通過(guò)5G、高精地圖,來(lái)感知路況從而具備無(wú)人駕駛功能。?

從當(dāng)下技術(shù)角度來(lái)看,無(wú)論單車(chē)智能還是車(chē)路協(xié)同都存在不足之處,兩者結(jié)合可以提升自動(dòng)駕駛安全。但是從商業(yè)角度,車(chē)路協(xié)同需要大量的、長(zhǎng)期的基礎(chǔ)設(shè)施建設(shè),車(chē)企目前主要還是選擇單車(chē)智能的技術(shù)路線,而且這樣也能滿足對(duì)于自動(dòng)駕駛技術(shù)的自主可控。車(chē)路協(xié)同系統(tǒng)架構(gòu)資料:中國(guó)新通信,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.18

單車(chē)智能化推動(dòng)算力升級(jí)加速?

自動(dòng)駕駛的完整流程包括感知、決策、控制,自動(dòng)駕駛域的算法一般也被劃分感知算法、融合算法和執(zhí)行算法三種。隨著車(chē)輛自動(dòng)駕駛等級(jí)的提升,對(duì)于車(chē)輛的主動(dòng)性要求也大幅度提升,自動(dòng)駕駛算法的難度就在于在所面對(duì)場(chǎng)景的多樣性和復(fù)雜性。?

由于不依賴(lài)人工智能算法實(shí)現(xiàn)基于機(jī)器的環(huán)境感知和規(guī)劃決策,L1-L2級(jí)傳統(tǒng)汽車(chē)不需要太大的車(chē)載算力,因此多采用小算力、微控制器的解決方案。從L2級(jí)開(kāi)始,尤其是L3級(jí)以上的自動(dòng)駕駛汽車(chē)需要裝備大算力芯片支撐感知、決策算法的高效運(yùn)行。根據(jù)地平線公司的預(yù)測(cè),自動(dòng)駕駛每提高一級(jí),算力就增加一個(gè)數(shù)量級(jí)。L2級(jí)別大概需要2個(gè)TOPS的算力,L3需要24個(gè)TOPS,L4為320TOPS,L5為4000+TOPS。自動(dòng)駕駛核心技術(shù)不同等級(jí)自動(dòng)駕駛對(duì)于算力的需求資料:51CTO,華金證券研究所資料:地平線,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速2.19

自動(dòng)駕駛具備廣闊市場(chǎng)前景?

IDC最新發(fā)布的《全球自動(dòng)駕駛汽車(chē)預(yù)測(cè)報(bào)告(2020-2024)》數(shù)據(jù)顯示,2024年全球L1-L5級(jí)自動(dòng)駕駛汽車(chē)出貨量預(yù)計(jì)將達(dá)到約5425萬(wàn)輛,2020至2024年的年均復(fù)合增長(zhǎng)率(CAGR)達(dá)到18.3%;L1和L2級(jí)自動(dòng)駕駛在2024年的市場(chǎng)份額預(yù)計(jì)分別為64.4%和34.0%。中國(guó)仍將是全球汽車(chē)工業(yè)的主要市場(chǎng),ICV的報(bào)告預(yù)計(jì),到2026年中國(guó)汽車(chē)銷(xiāo)售市場(chǎng)約占到全球的40.12%。全球自動(dòng)駕駛汽車(chē)出貨量及增長(zhǎng)率預(yù)測(cè)(2020-2024)全球自動(dòng)駕駛汽車(chē)出貨量及增長(zhǎng)率預(yù)測(cè)(2020-2024)資料:IDC,華金證券研究所資料:ICV,華金證券研究所目錄03由專(zhuān)用走向通用,GPU賽道壁壘高筑產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競(jìng)賽再加速全維智能化大時(shí)代,國(guó)產(chǎn)算力行則必至??????????3.1全球數(shù)據(jù)中心負(fù)載任務(wù)量快速增長(zhǎng)3.2全球計(jì)算產(chǎn)業(yè)投資空間巨大3.3預(yù)訓(xùn)練大模型對(duì)于GPU的需求3.4國(guó)內(nèi)市場(chǎng)需求將保持高增長(zhǎng)3.5云計(jì)算及云部署方式??????????3.11云計(jì)算產(chǎn)業(yè)鏈?????????3.21摩爾定律發(fā)展趨緩3.12集成顯卡與獨(dú)立顯卡市場(chǎng)份額3.13獨(dú)立顯卡英偉達(dá)一家獨(dú)大3.22Chiplet技術(shù)潛力大3.23Chiplet技術(shù)發(fā)展歷程3.14性能強(qiáng)大的H1003.24行業(yè)巨頭推動(dòng),產(chǎn)業(yè)加速落地3.25采用Chiplet技術(shù)的產(chǎn)品不斷出現(xiàn)3.26算力兩大演進(jìn)方向:更大算力&更多樣化應(yīng)用3.27存量替代與增量成長(zhǎng)并存3.28高吞吐量離不開(kāi)高速傳輸3.29光通信前景可期3.15國(guó)產(chǎn)廠商兩條發(fā)展路徑:GPU和GPGPU3.16先求有,再求好3.6不同云部署方式的市場(chǎng)占比3.7企業(yè)上云持續(xù)向細(xì)分行業(yè)滲透3.8從“資源上云”邁入“深度用云”3.9信創(chuàng)從試點(diǎn)走向推廣3.17生態(tài)先兼容主流,未來(lái)將走向自建3.18國(guó)產(chǎn)之路已開(kāi)啟,部分國(guó)產(chǎn)GPU設(shè)計(jì)廠商列表3.19GPU發(fā)展離不開(kāi)全球產(chǎn)業(yè)鏈的支撐3.20制程升級(jí)對(duì)于算力芯片性能提升具有較高貢獻(xiàn)度3.10公有云主要參與廠商建議關(guān)注產(chǎn)業(yè)相關(guān)風(fēng)險(xiǎn)提示3.全維智能化大時(shí)代,國(guó)產(chǎn)算力行則必至3.1

全球數(shù)據(jù)中心負(fù)載任務(wù)量快速增長(zhǎng)?

大規(guī)模張量運(yùn)算、矩陣運(yùn)算是人工智能在計(jì)算層面的突出需求,高并行度的深度學(xué)習(xí)算法在視覺(jué)、語(yǔ)音和自然語(yǔ)言處理等領(lǐng)域上的廣泛應(yīng)用使得計(jì)算能力需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。根據(jù)IDC的預(yù)測(cè),從2018年至2025年,全球的數(shù)據(jù)增長(zhǎng)量達(dá)到5倍以上,將從2018年的32ZB增至2025年的175ZB。中國(guó)將在2025年以48.6ZB的數(shù)據(jù)量及27.8%的占比成為全球最大的數(shù)據(jù)匯集地。?

根據(jù)Cisco的預(yù)計(jì),2021年全球數(shù)據(jù)中心負(fù)載任務(wù)量將超過(guò)2016年的兩倍,從2016年的不到250萬(wàn)個(gè)負(fù)載任務(wù)量增長(zhǎng)到2021年的近570萬(wàn)個(gè)負(fù)載任務(wù)量。2010年至2025年全球數(shù)據(jù)量增長(zhǎng)情況2016年-2021年數(shù)據(jù)中心負(fù)載任務(wù)量變化資料:IDC,華金證券研究所資料::CiscoGlobalCloudIndex,華金證券研究所3.全維智能化大時(shí)代,國(guó)產(chǎn)算力行則必至3.2

全球計(jì)算產(chǎn)業(yè)投資空間巨大?

根據(jù)《鯤鵬計(jì)算產(chǎn)業(yè)發(fā)展白皮書(shū)》內(nèi)容顯示,數(shù)字化浪潮正重塑世界經(jīng)濟(jì)格局,數(shù)字經(jīng)濟(jì)正在成為全球可持續(xù)增長(zhǎng)的引擎。IDC預(yù)測(cè),到2023年數(shù)字經(jīng)濟(jì)產(chǎn)值將占到全球GDP的62%,全球進(jìn)入數(shù)字經(jīng)濟(jì)時(shí)代。新的計(jì)算產(chǎn)業(yè)鏈將推動(dòng)全球計(jì)算產(chǎn)業(yè)快速發(fā)展,帶動(dòng)全球數(shù)字經(jīng)濟(jì)走向繁榮。?

IDC預(yù)測(cè),到2023年,全球計(jì)算產(chǎn)業(yè)投資空間1.14萬(wàn)億美元。中國(guó)計(jì)算產(chǎn)業(yè)投資空間1043億美元,接近全球的10%,是全球計(jì)算產(chǎn)業(yè)發(fā)展的主要推動(dòng)力和增長(zhǎng)引擎。鯤鵬計(jì)算產(chǎn)業(yè)定義2023年全球計(jì)算產(chǎn)業(yè)投資額(美元)資料:鯤鵬計(jì)算產(chǎn)業(yè)發(fā)展白皮書(shū),華金證券研究所資料:鯤鵬計(jì)算產(chǎn)業(yè)發(fā)展白皮書(shū),華金證券研究所3.全維智能化大時(shí)代,國(guó)產(chǎn)算力行則必至3.3

預(yù)訓(xùn)練大模型對(duì)于GPU的需求?

根據(jù)TrendForce的估計(jì),2020年,GPT模型處理訓(xùn)練數(shù)據(jù)所需的GPU數(shù)量達(dá)到了20000左右。展望未來(lái),GPT模型(或ChatGPT)商業(yè)化所需的GPU數(shù)量預(yù)計(jì)將達(dá)到30000個(gè)以上。這些均使用英偉達(dá)的A100GPU作為計(jì)算基礎(chǔ)。?

根據(jù)中關(guān)村在線的新聞顯示,目前英偉達(dá)A100顯卡的售價(jià)在1.00~1.50萬(wàn)美元之間。英偉達(dá)還將A100作為DGXA100系統(tǒng)的一部分進(jìn)行銷(xiāo)售,該系統(tǒng)具有八塊A100,兩塊AMDRome7742CPU,售價(jià)高達(dá)199,000美元。英偉達(dá)數(shù)據(jù)中心GPU對(duì)比DGXA100組件資料:cnbeta,華金證券研究所資料:foresine,華金證券研究所3.全維智能化大時(shí)代,國(guó)產(chǎn)算力行則必至3.4

國(guó)內(nèi)市場(chǎng)需求將保持高增長(zhǎng)?

人工智能領(lǐng)域的應(yīng)用目前處于技術(shù)和需求融合的高速發(fā)展階段,在運(yùn)算加速方面逐漸形成了以GPGPU解決方案為主的局面。根據(jù)前瞻產(chǎn)業(yè)研究院的數(shù)據(jù),未來(lái)幾年內(nèi),中國(guó)人工智能芯片市場(chǎng)規(guī)模將保持年均40%至50%的增長(zhǎng)速度,到2024年,市場(chǎng)規(guī)模將達(dá)到785億元。?

聚集強(qiáng)大人工智能算力的智算中心是中國(guó)數(shù)字經(jīng)濟(jì)高速發(fā)展的產(chǎn)物,是一種新型的公共基礎(chǔ)設(shè)施。國(guó)家已經(jīng)出臺(tái)了相關(guān)政策,并把智算中心列為“新基建”。東數(shù)西算樞紐節(jié)點(diǎn)區(qū)域特點(diǎn)及布局思路中國(guó)人工智能芯片市場(chǎng)規(guī)模(億元)資料:海光信息招股書(shū),華金證券研究所資料:前瞻產(chǎn)業(yè)研究院,華金證券研究所3.全維智能化大時(shí)代,國(guó)產(chǎn)算力行則必至3.5

云計(jì)算及云部署方式?

云計(jì)算廣義的來(lái)說(shuō)是廠商通過(guò)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論