




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
計(jì)算機(jī)
/
行業(yè)專題報(bào)告
/
2024.10.20請(qǐng)閱讀最后一頁(yè)的重要聲明!Meta
Movie
Gen
的論文告訴我們什么?證券研究報(bào)告投資評(píng)級(jí):看好(維持)最近
12
月市場(chǎng)表現(xiàn)分析師 楊燁SAC
證書(shū)編號(hào):S0160522050001yangye01@分析師 李宇軒SAC
證書(shū)編號(hào):S0160524080001liyx02@相關(guān)報(bào)告1.
《智駕月報(bào):補(bǔ)貼政策見(jiàn)效,網(wǎng)聯(lián)化推進(jìn)》 2024-10-17《十大不容忽視的數(shù)據(jù)要素新政細(xì)節(jié)》 2024-10-16《特斯拉發(fā)布
Cybercab,預(yù)期三年內(nèi)量產(chǎn)》 2024-10-13核心觀點(diǎn)Movie
Gen:音視頻兩手抓,模型效果亮眼。2024
年
10
月
4
日,Meta
團(tuán)隊(duì)發(fā)布論文《Movie
Gen:
A
Cast
of
Media
Foundation
Models》,介紹了一系列基礎(chǔ)模型
Movie
Gen,該模型在文本到視頻合成、視頻個(gè)性化、視頻編輯、視頻到音頻生成等多個(gè)任務(wù)上取得了顯著成果,標(biāo)志著
Meta
正式進(jìn)入視頻生成賽道,與
Sora、Pika、Runway
等進(jìn)行競(jìng)爭(zhēng)。Meta
通過(guò)擴(kuò)大訓(xùn)練數(shù)據(jù)、計(jì)算資源和模型參數(shù),使用
Flow
Matching(流匹配)方法訓(xùn)練的
Transformer
模型,打造
Movie
Gen
的
2
種基礎(chǔ)模型:Movie
Gen
Video(300
億參數(shù))和
MovieGen
Audio(130
億參數(shù)),生成高質(zhì)量的視頻或音頻?;?/p>
Movie
Gen
Video
基礎(chǔ)模型進(jìn)一步訓(xùn)練與微調(diào)后,得到可以生成可個(gè)性化視頻的
PersonalizedMovieGenVideo
模型和可精確編輯視頻的
Movie
GenEdit。多模態(tài)大模型架構(gòu)與訓(xùn)練方法持續(xù)創(chuàng)新,向?qū)崿F(xiàn)應(yīng)用落地大幅邁進(jìn)。Movie
Gen
系列模型打開(kāi)創(chuàng)意生成與創(chuàng)意編輯市場(chǎng)
AI
應(yīng)用落地的新的想象空間,“文本控制生成”的方式將逐步融入創(chuàng)意工作流,“文本+UI”并存的模式將長(zhǎng)期持續(xù);模型架構(gòu)創(chuàng)新尚無(wú)止境,“流匹配+最優(yōu)傳輸+純Transformer”生成效率、質(zhì)量均優(yōu)于
DiT;對(duì)于多模態(tài)大模型預(yù)訓(xùn)練或是微調(diào),高質(zhì)量的數(shù)據(jù)及處理起到?jīng)Q定性作用;未來(lái)在模型訓(xùn)練方面,獲得更多的算力基礎(chǔ)依然是必不可少的,而架構(gòu)等技術(shù)創(chuàng)新有望持續(xù)提升訓(xùn)練效率和生成質(zhì)量,兩者并不矛盾。投資建議:Scaling
Law
持續(xù)發(fā)揮效力,建議關(guān)注:英偉達(dá)、AMD、博通、Vertiv、美光、Oracle、微軟、海光信息、協(xié)創(chuàng)數(shù)據(jù)、中科曙光、浪潮信息、英維克、神州數(shù)碼等;音視頻創(chuàng)意類賽道依然大有可為,建議關(guān)注
Adobe、萬(wàn)興科技、美圖公司等。風(fēng)險(xiǎn)提示:技術(shù)迭代不及預(yù)期的風(fēng)險(xiǎn);商業(yè)化落地不及預(yù)期的風(fēng)險(xiǎn);政策支持不及預(yù)期風(fēng)險(xiǎn);全球宏觀經(jīng)濟(jì)風(fēng)險(xiǎn)20%10%-1%-12%-23%-34%計(jì)算機(jī)滬深300上證指數(shù)行業(yè)專題報(bào)告/證券研究報(bào)告1 Movie
Gen:音視頻兩手抓,模型效果亮眼........................................................................................
42 Meta
四個(gè)模型的原理與訓(xùn)練方法.........................................................................................................
62.1 視頻生成模型:創(chuàng)新模型架構(gòu)實(shí)現(xiàn)高效訓(xùn)練...................................................................................
62.2 音頻生成模型:生成與畫(huà)面和情緒匹配的動(dòng)效聲、環(huán)境聲.........................................................
122.3 個(gè)性化視頻模型:用于生成特定人像的微調(diào)模型.........................................................................
152.4 可編輯視頻模型:無(wú)需大量監(jiān)督視頻數(shù)據(jù)實(shí)現(xiàn)模型訓(xùn)練.............................................................
173 Meta
論文發(fā)布帶來(lái)的四點(diǎn)啟示...........................................................................................................
194 投資建議.................................................................................................................................................
215 風(fēng)險(xiǎn)提示.................................................................................................................................................
21圖
1.
Text-to-Video
功能示例..........................................................................................................................
4圖
2.Video-to-Audio
功能示例
......................................................................................................................
5圖
3.
Video
Personalization
and
Consistency
功能示例...............................................................................
5圖
4.
Instruction-Guided
Precise
Editing
功能示例.....................................................................................
6圖
5.
Movie
Gen
Video
的訓(xùn)練方法...............................................................................................................
7圖
6.
聯(lián)合圖像與視頻的生成流程.................................................................................................................
8圖
7.
Movie
Gen
Video
Transformer
模型骨干和模型并行應(yīng)用.................................................................
9圖
8.
使用
TAE
模型編碼和解碼不同長(zhǎng)度的視頻.......................................................................................
9圖
9.
真實(shí)視頻(左)和
TAE
重建視頻(右),以及
TAE
重建指標(biāo)對(duì)比.............................................
10圖
10.
流匹配+最優(yōu)傳輸方法的訓(xùn)練效果更好..........................................................................................
11圖
11.
流匹配+最優(yōu)傳輸方法可獲得最低的求解誤差與最高的樣本質(zhì)量...............................................
11圖
12.
Movie
GenVideo
中的關(guān)鍵設(shè)計(jì)決策...............................................................................................
11圖
13.
Movie
GenVideo
效果與其他模型對(duì)比...........................................................................................
12圖
14.
相同
Prompt
下,Movie
GenVideo
與其他模型生成視頻對(duì)比....................................................
12圖
15.
Movie
Gen
Audio
展開(kāi)示意圖...........................................................................................................
13圖
16.
Movie
Gen
Audio
模型示意圖...........................................................................................................
14圖
17.
生成聲音效果模型對(duì)比.....................................................................................................................
15圖
18.
個(gè)性化
Movie
Gen
Video
的架構(gòu)與推理流程.................................................................................
16內(nèi)容目錄圖表目錄2謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告3謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)圖
19.
PT2V模型與
ID-Animator、T2V
的對(duì)比.......................................................................................
16圖
20.
將文本到視頻模型擴(kuò)展到視頻編輯.................................................................................................
17圖
21.
第二階段:多幀編輯示例.................................................................................................................
18圖
22.
第三階段:基于反向翻譯的視頻編輯.............................................................................................
18圖
23.
與
TGVE+和
Movie
Gen
EditBench
基準(zhǔn)上的視頻編輯模型的比較..........................................
19行業(yè)專題報(bào)告/證券研究報(bào)告1 Movie
Gen:音視頻兩手抓,模型效果亮眼2024
年
10
月
4
日,Meta
團(tuán)隊(duì)發(fā)布論文《Movie
Gen:
A
Cast
of
Media
FoundationModels》,介紹了一系列基礎(chǔ)模型
Movie
Gen,該模型在文本到視頻合成、視頻個(gè)性化、視頻編輯、視頻到音頻生成等多個(gè)任務(wù)上取得了顯著成果,標(biāo)志著
Meta
正式進(jìn)入視頻生成賽道,與
Sora、Pika、Runway
等進(jìn)行競(jìng)爭(zhēng)。Meta
通過(guò)擴(kuò)大訓(xùn)練數(shù)據(jù)、計(jì)算資源和模型參數(shù),使用
Flow
Matching(流匹配)方法訓(xùn)練的
Transformer模型,打造
Movie
Gen
的
2種基礎(chǔ)模型:Movie
Gen
Video(300
億參數(shù))和
MovieGen
Audio(130
億參數(shù)),生成高質(zhì)量的視頻或音頻?;?/p>
Movie
Gen
Video
基礎(chǔ)模型進(jìn)一步訓(xùn)練與微調(diào)后,得到可以生成可個(gè)性化視頻的Personalized
Movie
GenVideo
模型和可精確編輯視頻的
MovieGen
Edit。Movie
Gen
Video(視頻生成模型):基礎(chǔ)文生視頻功能這是一個(gè)
300
億參數(shù)的基礎(chǔ)模型,用于聯(lián)合文本到圖像、文本到視頻的生成,輸入prompt
可以生成長(zhǎng)達(dá)
16
秒(每秒
16
幀)且符合文本提示的高質(zhì)量視頻。它基于Transformer
架構(gòu),采用了LLaMa3
的骨干結(jié)構(gòu),并進(jìn)行了一些適應(yīng)性調(diào)整。該模型在約
1
億個(gè)視頻和
10
億張圖像上進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練模型可以推理物體運(yùn)動(dòng)、主體-客體交互、幾何、相機(jī)運(yùn)動(dòng)和物理學(xué),并學(xué)習(xí)各種概念的合理運(yùn)動(dòng),自然地生成多種寬高比、可變分辨率、不同時(shí)長(zhǎng)的高質(zhì)量圖像和視頻。圖1.Text-to-Video
功能示例注:分別輸入文本提示“一只穿著芭蕾舞裙的豪豬,在舞臺(tái)上跳芭蕾舞”、“騎手疾馳在洛杉磯的街頭。攝像機(jī)追蹤鏡頭”、“消防員穿越燃燒的森林”數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所4謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告Movie
Gen
Audio(音頻生成模型):生成匹配視頻環(huán)境的音頻這是一個(gè)
130
億參數(shù)的基礎(chǔ)模型,用于視頻和文本到音頻的生成,遵循輸入的文本提示,可以生成
48kHz
高質(zhì)量的電影音效并實(shí)現(xiàn)和視頻畫(huà)面同步的音樂(lè)。它采用了擴(kuò)散
Transformer(DiT)架構(gòu),并基于
Flow
Matching(流匹配)進(jìn)行訓(xùn)練。該模型在約
100
萬(wàn)小時(shí)的音頻上預(yù)訓(xùn)練,通過(guò)音頻延伸技術(shù)可以為長(zhǎng)達(dá)幾分鐘的視頻生成連貫的長(zhǎng)音頻。它不僅學(xué)習(xí)了物理關(guān)聯(lián),還學(xué)習(xí)了視覺(jué)和音頻世界之間的心理關(guān)聯(lián),可以生成與視覺(jué)場(chǎng)景匹配的環(huán)境音,以及與視覺(jué)動(dòng)作同步的聲音效果。圖2.Video-to-Audio
功能示例注:分別輸入文本提示“當(dāng)人撞擊水面時(shí),水花聲和巨大的砰擊聲”;“巨大的雷聲,背景音樂(lè)暗黑且緊張”數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所VideoPersonalization(個(gè)性化視頻):演你所想,人人都是主角視頻個(gè)性化根據(jù)文本和用戶的形象生成以用戶為主角的視頻。生成的個(gè)性化視頻保持了用戶的身份,同時(shí)遵循文本提示。模型訓(xùn)練使用包含人類的視頻子集,自動(dòng)構(gòu)建圖像與文本輸入和視頻輸出對(duì)。訓(xùn)練過(guò)程包括預(yù)訓(xùn)練和后訓(xùn)練階段,預(yù)訓(xùn)練在原始的
Movie
Gen
Video
模型基礎(chǔ)上進(jìn)行,后訓(xùn)練則針對(duì)個(gè)性化視頻生成進(jìn)行優(yōu)化。圖3.Video
Personalization
and
Consistency
功能示例注:提供一個(gè)人的圖像;分別輸入文本提示“一個(gè)科學(xué)家拿著試管做實(shí)驗(yàn)”、“一個(gè)人放飛燈籠”“一個(gè)人在動(dòng)物園喂羊駝”數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所5謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告Instruction-Guided
Precise
Video
Editing(指令引導(dǎo)下的精確視頻編輯):視頻版
PS
時(shí)代到來(lái)視頻精準(zhǔn)編輯功能允許用戶使用文本指令對(duì)原視頻或生成視頻進(jìn)行精確編輯,包括風(fēng)格和細(xì)節(jié)。由于在視頻編輯方面缺乏大規(guī)模監(jiān)督數(shù)據(jù),Movie
Gen
團(tuán)隊(duì)采用多階段的訓(xùn)練方法,將視頻生成與先進(jìn)的圖像編輯功能結(jié)合起來(lái),既能進(jìn)行局部編輯也能全局更改,比如添加、移除或替換元素,以及背景或風(fēng)格修改。傳統(tǒng)編輯工具對(duì)使用者要求較高,且生成結(jié)果缺乏精度,而
Movie
Gen
在進(jìn)行局部或全局更改時(shí),能夠保留原始內(nèi)容,僅針對(duì)相關(guān)像素進(jìn)行操作。圖4.Instruction-Guided
PreciseEditing
功能示例注:在原視頻的基礎(chǔ)上,輸入文本提示:在燈籠底部添加彩帶、將燈籠變成一個(gè)上升的泡泡、將背景更改為帶有湖泊的城市公園數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所Meta
四個(gè)模型的原理與訓(xùn)練方法視頻生成模型:創(chuàng)新模型架構(gòu)實(shí)現(xiàn)高效訓(xùn)練MovieGen
Video
訓(xùn)練過(guò)程分為三個(gè)主要步驟:低分辨率
T2I(Text
to
Image
文本到圖像)預(yù)訓(xùn)練:在低分辨率(256px)圖像數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,讓模型學(xué)會(huì)基本的文本到圖像的生成能力,并形成對(duì)基礎(chǔ)視覺(jué)元素的理解。聯(lián)合低分辨率圖像和視頻預(yù)訓(xùn)練:通過(guò)同時(shí)訓(xùn)練文本到圖像和文本到視頻的任務(wù),模型可以在相同的框架中生成圖像和視頻,從而共享視覺(jué)和時(shí)間建模能力,有助于模型在處理時(shí)間維度時(shí),更好地捕獲視頻的運(yùn)動(dòng)特征。高分辨率微調(diào):模型在高質(zhì)量的視頻數(shù)據(jù)集上進(jìn)行微調(diào),以提高視頻生成的質(zhì)量。模型逐步提高視頻的空間分辨率(從
256px
提升到
768px),并進(jìn)行針對(duì)性的優(yōu)化,有助于提高生成視頻的細(xì)節(jié)水平和視覺(jué)質(zhì)量,使生成的視頻更加逼真、連貫。6謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告圖5.MovieGen
Video
的訓(xùn)練方法數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所創(chuàng)新模型訓(xùn)練架構(gòu),TAE+Flow
Matching+Transformer
提升訓(xùn)練和推理效率。Meta訓(xùn)練了一個(gè)單一的時(shí)間自動(dòng)編碼器模型(TAE,Temporal
Autoencoder)來(lái)將圖像和視頻映射到時(shí)空壓縮的潛在空間(spatiotemporally
compressed
latent
space)中,使用預(yù)訓(xùn)練的文本編碼器對(duì)輸入文本進(jìn)行編碼,以獲得文本提示嵌入。Meta使用流匹配(FM,F(xiàn)low
Matching)訓(xùn)練方法,以采樣噪聲和用戶文本作為輸入,最終通過(guò)
TAE
解碼器將其映射回像素空間并生成圖像或視頻。過(guò)去的主干網(wǎng)絡(luò)以DiT(擴(kuò)散
Transformer)為主,而
Meta
使用了
LLaMa3(Transformer)結(jié)構(gòu)。訓(xùn)練過(guò)程對(duì)文本提示的處理分為三個(gè)部分:UL2(統(tǒng)一語(yǔ)言學(xué)習(xí)范式,Unifying
Language
Learning
Paradigms):可構(gòu)建一種獨(dú)立于模型架構(gòu)以及下游任務(wù)類型的預(yù)訓(xùn)練策略(自監(jiān)督目標(biāo)),可以靈活地適配不同類型的下游任務(wù)。使用大量純文本數(shù)據(jù)進(jìn)行訓(xùn)練,提供了強(qiáng)大的文本推理能力。Long-prompt
MetaCLIP:通過(guò)對(duì)較長(zhǎng)文本標(biāo)題的
MetaCLIP
文本編碼器進(jìn)行微調(diào),將輸入文本
token
長(zhǎng)度從
77
增加到
256。提供了與視覺(jué)對(duì)齊的文本表示,有利于跨模態(tài)生成。ByT5(Byte-to-byte
Text-to-Text
Transfer
Transformer):基于
T5架構(gòu)的預(yù)訓(xùn)練字節(jié)級(jí)
Transformer(不再處理
token,而直接作用于文本字節(jié)或字符),對(duì)噪聲的魯棒性更強(qiáng),對(duì)拼寫(xiě)和發(fā)音敏感的任務(wù)上表現(xiàn)更好。7謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告圖6.聯(lián)合圖像與視頻的生成流程數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所硬件與基礎(chǔ)設(shè)施:使用多達(dá)
6144個(gè)H100
GPU來(lái)訓(xùn)練多模態(tài)模型,每個(gè)
GPU都運(yùn)行在
700W
TDP,配備
80GB
HBM3,使用
Meta
的Grand
TetonAI
服務(wù)器平臺(tái)進(jìn)行訓(xùn)練。每個(gè)服務(wù)器內(nèi)有
8
個(gè)
GPU,通過(guò)
NVSwitches
均勻連接。服務(wù)器之間的GPU通過(guò)
400Gbps
RoCE
RDMA
NICs
連接。訓(xùn)練任務(wù)由
Meta的全球規(guī)模訓(xùn)練調(diào)度程序
MAST
進(jìn)行調(diào)度。與大語(yǔ)言模型的比較:與大型語(yǔ)言模型(LLM)使用結(jié)構(gòu)化因果注意力掩碼來(lái)強(qiáng)制
token
的因果性不同,Movie
Gen
Video
使用的全雙向注意力(full
bi-directional
attention),其核心優(yōu)勢(shì)在于其能夠雙向交互,增強(qiáng)模型對(duì)上下文的理解深度。這種機(jī)制不僅允許模型在編碼器和解碼器之間雙向流動(dòng),而且還能夠更精確地聚焦于問(wèn)題相關(guān)的文段部分,從而顯著提升了機(jī)器理解自然語(yǔ)言的能力。此外,LLaMa3
使用分組查詢注意力(GQA)代替多頭注意力(MHA),這減少了
K-頭和
V-頭的數(shù)量,從而減少了鍵(Key)和值(Value)投影的總維度。這不僅減少了
FLOPs
和張量?jī)?nèi)存大小,還提高了內(nèi)存帶寬利用率。模型并行方法:LLaMa3
訓(xùn)練分為不同上下文長(zhǎng)度的階段。由于模型規(guī)模大、上下文長(zhǎng)度極長(zhǎng),需要使用多種并行性來(lái)實(shí)現(xiàn)高效訓(xùn)練。Meta
采用
3D并行性來(lái)支持模型在參數(shù)量、輸入
token
和數(shù)據(jù)集大小三個(gè)維度上的擴(kuò)展,同時(shí)允許水平擴(kuò)展到更多的GPU。Meta
利用了完全分片的數(shù)據(jù)并行性、張量并行性、序列并行性和上下文并行性。8謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告圖7.MovieGen
Video
Transformer
模型骨干和模型并行應(yīng)用數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
Media
Foundation
Models》The
Movie
Genteam,財(cái)通證券研究所TAE
用于將
RGB
像素空間的視頻和圖像編碼,進(jìn)入時(shí)空壓縮的潛在空間中學(xué)習(xí),通過(guò)優(yōu)化目標(biāo)函數(shù),提高生成質(zhì)量和效率。TAE
基于變分自動(dòng)編碼器(VAE,采用變分推斷的用于降維、數(shù)據(jù)壓縮和生成的神經(jīng)網(wǎng)絡(luò)),通過(guò)在
2D
空間卷積后加入
1D
時(shí)間卷積,使得模型能夠更好地處理視頻的時(shí)間維度。TAE
將輸入的各個(gè)時(shí)空維度(T
時(shí)間、H
高度、W
寬度)壓縮
8倍,從而減少
Transformer
核心網(wǎng)絡(luò)的整體序列長(zhǎng)度,使其能夠生成長(zhǎng)時(shí)間和高分辨率的視頻。TAE
的目標(biāo)函數(shù)在標(biāo)準(zhǔn)的重建損失之外增加了一個(gè)懲罰項(xiàng),用于對(duì)遠(yuǎn)離均值的潛在值進(jìn)行懲罰,從而限制模型生成高范數(shù)潛在點(diǎn)(high-norm
latent
dots),防止模型過(guò)度依賴局部高范數(shù)(范數(shù)用于衡量矩陣的“距離”、“長(zhǎng)度”或者“大小”)信息而影響全局的學(xué)習(xí),以解決生成視頻時(shí)出現(xiàn)的“斑點(diǎn)”偽影問(wèn)題。這種設(shè)計(jì)使得生成的視頻在視覺(jué)上更加自然和一致,從而顯著提高了重建質(zhì)量和生成效果。圖8.使用TAE
模型編碼和解碼不同長(zhǎng)度的視頻數(shù)據(jù)來(lái)源:《Movie
Gen:
A
CastofMediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所9謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)10行業(yè)專題報(bào)告/證券研究報(bào)告原始視頻和通過(guò)
TAE
編解碼后的重構(gòu)樣本對(duì)比,發(fā)現(xiàn)
TAE
可以在保留視覺(jué)細(xì)節(jié)的情況下重建視頻幀。對(duì)于圖像和視頻幀中的高頻空間細(xì)節(jié),以及視頻中的快速運(yùn)動(dòng),TAE
的重建質(zhì)量會(huì)下降。將經(jīng)過(guò)
8
倍時(shí)間壓縮的TAE
模型與未經(jīng)過(guò)時(shí)間壓縮的幀自動(dòng)編碼器(Frame-wise
AutoEncoder)比較,視頻數(shù)據(jù)在結(jié)構(gòu)相似度(SSIM)、峰值信噪比(PSNR)、初始距離(FID)表現(xiàn)相當(dāng),圖像數(shù)據(jù)方面
TAE
優(yōu)于幀自動(dòng)編碼器。圖9.真實(shí)視頻(左)和TAE
重建視頻(右),以及
TAE
重建指標(biāo)對(duì)比數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所Movie
Gen
采用流匹配(Flow
Matching)作為訓(xùn)練目標(biāo),避免了傳統(tǒng)擴(kuò)散模型中的逐步去噪過(guò)程,而是通過(guò)找到生成空間中從初始狀態(tài)到目標(biāo)狀態(tài)的最優(yōu)傳輸路徑(OT,Optimal
Transport),從而以更少的計(jì)算步驟達(dá)到高質(zhì)量生成。流匹配是一種訓(xùn)練連續(xù)歸一化流(CNF,Continuous
Normalizing
Flows)的方法,它通過(guò)學(xué)習(xí)與概率路徑相關(guān)的向量場(chǎng)來(lái)訓(xùn)練模型,并使用ODE(常微分方程)求解器來(lái)生成新樣本。連續(xù)歸一化流的核心思想是通過(guò)一系列可逆的變換將一個(gè)簡(jiǎn)單的分布逐步轉(zhuǎn)換為復(fù)雜的目標(biāo)數(shù)據(jù)分布,這種模型框架在概率密度函數(shù)變換方法的基礎(chǔ)上,通過(guò)神經(jīng)網(wǎng)絡(luò)參數(shù)化這些變換,使得模型能夠?qū)W習(xí)到輸入數(shù)據(jù)的概率分布。對(duì)應(yīng)到圖像生成領(lǐng)域,圖片數(shù)據(jù)與高斯噪聲可以理解為不同的數(shù)據(jù)分布,CNF即為讓模型學(xué)習(xí)從噪聲到圖像的變換方法,F(xiàn)M
流匹配
+OT最優(yōu)傳輸路徑即為相比去噪擴(kuò)散概率模型(DDPM,擴(kuò)散模型的基石)更具一般性、高效的變換方法。如圖
10
顯示,從噪聲到棋盤的生成過(guò)程中,OT
路徑更早地引入了棋盤模式,而本報(bào)告來(lái)源于三個(gè)皮匠報(bào)告站(),由用戶Id:549683下載,文檔Id:178256,下載日期:2024-10-23行業(yè)專題報(bào)告/證券研究報(bào)告FM
則實(shí)現(xiàn)了更穩(wěn)定的訓(xùn)練。使用
FM+OT
使得采樣步驟較少時(shí)就形成了棋盤的初始形態(tài)。圖10.流匹配+最優(yōu)傳輸方法的訓(xùn)練效果更好數(shù)據(jù)來(lái)源:《FLOWMATCHING
FORGENERATIVEMODELING》Yaron
Lipman
等,財(cái)通證券研究所圖11.流匹配+最優(yōu)傳輸方法可獲得最低的求解誤差與最高的樣本質(zhì)量數(shù)據(jù)來(lái)源:《FLOWMATCHING
FOR
GENERATIVEMODELING》Yaron
Lipman
等,財(cái)通證券研究所Movie
Gen
Video
的各個(gè)模塊架構(gòu)在最終實(shí)現(xiàn)綜合質(zhì)量和文本對(duì)齊方面,與其他同類架構(gòu)具備顯著優(yōu)勢(shì)。根據(jù)
FM
與
Diffusion、視頻與圖片標(biāo)題、類
LLaMa3
與DiT
相比的凈勝率,F(xiàn)M、圖片標(biāo)題、類
LLaMa3的架構(gòu)表現(xiàn)出更高的凈勝率。圖12.MovieGen
Video
中的關(guān)鍵設(shè)計(jì)決策數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所Movie
Gen
Video
生成質(zhì)量在當(dāng)前視頻大模型當(dāng)前為最優(yōu)。Movie
Gen
在整體質(zhì)量、一致性、真實(shí)度、美學(xué)方面方面顯著優(yōu)于
Runway
Gen3
和
LumaLabs。在文字對(duì)齊和真實(shí)性方面優(yōu)于
Sora,在真實(shí)性和美學(xué)方面優(yōu)于快手的
Kling1.5,僅在動(dòng)作完整度方面明顯弱于
Kling1.5。根據(jù)
Prompt“一只帶腿的鼠標(biāo)在跑步機(jī)上跑步”,Movie
Gen
Video
生成的視頻邏輯上更合理,畫(huà)面更清晰流暢,Runway
Gen3在對(duì)齊方面有欠缺(生成了老鼠而不是鼠標(biāo)),LumaLabs
在邏輯上不合理(沿著垂直于跑步機(jī)帶的方向運(yùn)動(dòng)),Kling1.5
生成畫(huà)面較為雜亂,缺乏美感。11謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告圖13.MovieGen
Video
效果與其他模型對(duì)比數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所注:正值表示
Movie
Gen
Video
相對(duì)對(duì)應(yīng)模型的效果“勝率”,負(fù)值可理解為“不如”對(duì)應(yīng)的對(duì)手模型圖14.相同Prompt
下,Movie
GenVideo
與其他模型生成視頻對(duì)比數(shù)據(jù)來(lái)源:《Movie
Gen:
A
CastofMediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所2.2
音頻生成模型:生成與畫(huà)面和情緒匹配的動(dòng)效聲、環(huán)境聲Movie
Gen
Audio
旨在為視頻剪輯和短片生成幾秒至幾分鐘不等的配樂(lè),還原電影級(jí)音效,高度匹配畫(huà)面與環(huán)境。模型考慮的原聲包括環(huán)境聲、音效和樂(lè)器聲,但不包括語(yǔ)音或人聲。該模型實(shí)現(xiàn)環(huán)境音效與視覺(jué)環(huán)境相匹配,音效與動(dòng)作在時(shí)間上保持一致,并與視覺(jué)對(duì)象保持一致,表達(dá)出視頻的情緒和情感,并與場(chǎng)景融12謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告合統(tǒng)一。要生成長(zhǎng)音頻,用戶需要先輸入長(zhǎng)視頻(例如,58s)和音頻文本標(biāo)題,進(jìn)而長(zhǎng)視頻被拆解為幾個(gè)視頻塊(例如,20s)。從第二個(gè)塊開(kāi)始,模型不僅需要視頻塊和文本標(biāo)題,還需要之前生成的音頻片段(例如,最后
5
秒),以便生成與前一個(gè)保持風(fēng)格統(tǒng)一的新音頻片段。圖15.MovieGen
Audio
展開(kāi)示意圖數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
Media
Foundation
Models》The
Movie
Genteam,財(cái)通證券研究所Meta
采用了基于流匹配的生成模型和擴(kuò)散
Transformer
的模型架構(gòu),并增加了額外的調(diào)節(jié)模塊以提供控制。在流程圖中,黃色塊表示輸入,藍(lán)色塊表示預(yù)訓(xùn)練和凍結(jié)的模塊,灰色塊表示沒(méi)有可學(xué)習(xí)參數(shù)的操作,綠色塊表示可學(xué)習(xí)的模塊,粉色塊表示輸出的已學(xué)習(xí)的流場(chǎng)(通過(guò)
Flow
Matching
學(xué)到的去噪方法)。Meta
選擇流匹配而不是擴(kuò)散,是因?yàn)榕c擴(kuò)散模型(DDPM)相比,流匹配具有更好的訓(xùn)練效率、推理效率和性能。13謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告圖16.MovieGen
Audio
模型示意圖數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所逐幀添加視覺(jué)和音頻特征可以改善視頻-音頻對(duì)齊,進(jìn)而實(shí)現(xiàn)視頻畫(huà)面與音頻同步。從
MetaCLIP
中微調(diào)的長(zhǎng)提示
MetaCLIP
用于提取視頻中每幀的
1024
維嵌入。由于視頻的幀率可能與音頻的幀率不匹配,Meta
對(duì)每個(gè)音頻幀取最接近的視覺(jué)幀。然后用門控線性投影層將重新采樣的序列投影到DiT
模型維度,并逐幀添加到音頻特征中。與沿著時(shí)間維度拼接特征相比,逐幀添加視覺(jué)和音頻特征可以改善視頻-音頻對(duì)齊。Meta
發(fā)現(xiàn),長(zhǎng)提示
MetaCLIP
特征編碼更高級(jí)的語(yǔ)義信息,使學(xué)習(xí)更容易,同時(shí)保留足夠的細(xì)節(jié)來(lái)捕捉每個(gè)運(yùn)動(dòng)的時(shí)間,以便模型產(chǎn)生與運(yùn)動(dòng)一致的聲音效果。訓(xùn)練數(shù)據(jù)選擇方面,模型將學(xué)習(xí)音頻和條件輸入之間不同層次的關(guān)系:屏幕上的敘事聲音在視頻和音頻之間有很強(qiáng)的對(duì)應(yīng)關(guān)系。這種情況下,聲音與畫(huà)面同步度較高,這要求模型具有更強(qiáng)的視頻理解能力和密集動(dòng)作識(shí)別能力。難度取決于事件的密集程度和結(jié)構(gòu),一般聲音總體上比音樂(lè)或語(yǔ)音更容易(例如,生成高爾夫球桿擊球比生成一個(gè)人彈吉他匹配和弦更容易)。生成敘事化的屏幕外音頻需要理解什么聲音可能出現(xiàn)在什么環(huán)境中(例如,在森林場(chǎng)景中可能出現(xiàn)鳥(niǎo)鳴)和事件之間的邏輯順序(例如,人群歡呼可能發(fā)生在一個(gè)人表演一個(gè)困難的把戲之后,而不是之前)。因此,與屏幕上的聲音相比,它需要更強(qiáng)的推理能力。14謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告非敘事音頻在語(yǔ)義層面上與視頻相關(guān)。例如,背景音樂(lè)需要與氣氛相匹配,而升調(diào)通常用來(lái)創(chuàng)造一種緊張或期待的感覺(jué)。這需要超越理解世界物理的最深層次的理解,需要推理和模擬人類的情感。訓(xùn)練結(jié)果:在不同數(shù)據(jù)集上,Movie
Gen
Audio
的凈勝率(范圍[-100%,100%])在總體質(zhì)量(圖中的
Ovr.)、自然度(Nat.)、專業(yè)度(Pro.)、敘事正確性(Corr.)、敘事同步性(Sync.)等指標(biāo)均優(yōu)于對(duì)比模型。圖17.生成聲音效果模型對(duì)比數(shù)據(jù)來(lái)源:《Movie
Gen:
A
CastofMediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所2.3
個(gè)性化視頻模型:用于生成特定人像的微調(diào)模型基于
30B
的
Movie
Gen
Video模型,Meta
將參考人像、個(gè)性化文本作為輸入,實(shí)現(xiàn)了個(gè)性化視頻(PT2V)輸出。Meta
從已訓(xùn)練好的T2V
Movie
Gen
Video
參數(shù)作為初始化權(quán)重,在微調(diào)當(dāng)中使用視覺(jué)標(biāo)記串聯(lián),使其集成到一個(gè)統(tǒng)一的框架中,從而允許擴(kuò)展模型大小。使用可訓(xùn)練的長(zhǎng)提示
MetaCLIP
視覺(jué)編碼器從人臉圖像中提取身份特征,
然后使用投影層將其與文本特征維度對(duì)齊,
進(jìn)而輸入到Transformer
的交叉注意力模塊進(jìn)行訓(xùn)練。黃色模塊表示凍結(jié)層,采用已訓(xùn)練好的參數(shù),綠色表示可訓(xùn)練模塊。訓(xùn)練策略包括
PT2V
預(yù)訓(xùn)練階段,然后是
PT2V
高質(zhì)量的微調(diào)。15謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告圖18.個(gè)性化
MovieGen
Video
的架構(gòu)與推理流程數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所PT2V
生成人物身份正確性和各幀的面部一致性優(yōu)于此前
SOTA
模型。Meta
在對(duì)PT2V
預(yù)訓(xùn)練和高質(zhì)量監(jiān)督微調(diào)之后,與
ID-Animator、單獨(dú)
PT2V
預(yù)訓(xùn)練、單獨(dú)PT2V
微調(diào)對(duì)比,比較發(fā)現(xiàn)
Meta
個(gè)性化模型在最佳相似幀、最差相似幀和跨幀的面部一致性三個(gè)方面取得優(yōu)異的結(jié)果,尤其在面部一致性方面顯著勝出。另外,其微調(diào)模型與
ID-Animator
相比,在總體質(zhì)量、一致性、動(dòng)作自然度、動(dòng)作復(fù)雜度、文本對(duì)齊方面全部勝出。而
PT2V
預(yù)訓(xùn)練在動(dòng)作自然度、動(dòng)作復(fù)雜度、文本對(duì)齊方面略遜色于T2V
預(yù)訓(xùn)練,我們認(rèn)為可能是
PT2V
模型注意力集中于輸入人物形象,對(duì)基礎(chǔ)動(dòng)作和環(huán)境的學(xué)習(xí)略有減弱。圖19.PT2V
模型與
ID-Animator、T2V
的對(duì)比數(shù)據(jù)來(lái)源:《Movie
Gen:
A
CastofMediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所16謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告2.4
可編輯視頻模型:無(wú)需大量監(jiān)督視頻數(shù)據(jù)實(shí)現(xiàn)模型訓(xùn)練專業(yè)視頻編輯軟件門檻高、操作復(fù)雜,Meta
發(fā)布基于自然語(yǔ)言指令的視頻編輯模型,可提升普通人或半專業(yè)群體的視頻編輯效率。當(dāng)前由于缺乏大量的監(jiān)督視頻編輯數(shù)據(jù),開(kāi)發(fā)高效的視頻編輯模型仍有較大挑戰(zhàn)。為了解決數(shù)據(jù)不足的問(wèn)題,Movie
Gen
Edit
創(chuàng)新地采用了一系列訓(xùn)練策略,使得無(wú)需依賴大量監(jiān)督數(shù)據(jù),也能實(shí)現(xiàn)出色的視頻編輯效果。其基礎(chǔ)架構(gòu)基于視頻生成模型進(jìn)行了若干改動(dòng):視頻輸入:模型通過(guò)在
Patch
Embedder
中添加額外的輸入通道來(lái)實(shí)現(xiàn)視頻輸入的條件化。將輸入視頻的隱向量和噪聲/輸出的隱向量沿通道維度進(jìn)行拼接,再傳遞給模型。任務(wù)嵌入向量:參考
Emu
Edit,在模型中加入了用于特定編輯任務(wù)的嵌入向量,每種不同的任務(wù)都有一個(gè)可學(xué)習(xí)的任務(wù)嵌入向量。權(quán)重初始化:為了保證視頻生成的能力,所有新添加的權(quán)重被初始化為
0,其余的權(quán)重則從預(yù)訓(xùn)練好的
MovieGen模型中繼承。視頻訓(xùn)練分為三個(gè)階段:第一階段利用圖像編輯來(lái)模擬單幀視頻編輯,第二階段通過(guò)合成多幀編輯任務(wù)來(lái)減少模糊問(wèn)題,第三階段則通過(guò)反向翻譯增強(qiáng)了輸出視頻的自然感。該訓(xùn)練方法克服了由于缺乏監(jiān)督數(shù)據(jù)而產(chǎn)生的“訓(xùn)練—測(cè)試”不一致性問(wèn)題。圖20.將文本到視頻模型擴(kuò)展到視頻編輯數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所第一階段:?jiǎn)螏曨l編輯。由于缺乏監(jiān)督視頻編輯數(shù)據(jù),Movie
Gen
Edit
利用圖像編輯數(shù)據(jù),將其視為單幀視頻編輯來(lái)進(jìn)行訓(xùn)練。具體地,圖像編輯數(shù)據(jù)由三元組組成,表示輸入圖像、編輯指令和輸出圖像。高質(zhì)量的視頻編輯不僅需要精確編輯單個(gè)幀,還需要確保輸出視頻保持時(shí)間一致性,以及新元素17謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告的合理性。因此,模型被同時(shí)訓(xùn)練進(jìn)行圖像編輯和文本到視頻生成,以保持時(shí)間一致性和生成質(zhì)量。第二階段:多幀視頻編輯。雖然第一階段的模型已經(jīng)具備了編輯單幀圖像和生成高質(zhì)量視頻的能力,但在進(jìn)行視頻編輯時(shí)仍然會(huì)產(chǎn)生模糊的結(jié)果。為了減少這類問(wèn)題,第二階段的訓(xùn)練通過(guò)創(chuàng)建兩個(gè)包含多幀視頻輸入和輸出的合成數(shù)據(jù)集來(lái)進(jìn)行改進(jìn),數(shù)據(jù)集包括:(1)動(dòng)畫(huà)幀編輯:利用視頻-字幕數(shù)據(jù)對(duì)生成編輯指令,并對(duì)隨機(jī)幀進(jìn)行編輯,然后通過(guò)仿射變換將這些幀進(jìn)行動(dòng)畫(huà)化,從而生成多幀編輯的示例。(2)生成式指令引導(dǎo)視頻分割:要求模型根據(jù)指令用高亮顏色標(biāo)記視頻中的特定對(duì)象,以補(bǔ)充動(dòng)畫(huà)幀編輯中缺乏自然運(yùn)動(dòng)的問(wèn)題。圖21.第二階段:多幀編輯示例數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所第三階段:基于反向翻譯(back
translation)的視頻編輯。雖然第二階段訓(xùn)練的模型減輕了模糊問(wèn)題,但新生成的元素仍然缺乏足夠的運(yùn)動(dòng)感,且有時(shí)會(huì)過(guò)度飽和。因此,Meta
通過(guò)創(chuàng)建包含真實(shí)輸出視頻的視頻編輯數(shù)據(jù)集來(lái)解決這些問(wèn)題,并引入了反向翻譯技術(shù)。模型首先生成一個(gè)編輯后的視頻,然后通過(guò)反向指令將其還原至原視頻,從而實(shí)現(xiàn)“去噪”獲得真實(shí)視頻。這種方法構(gòu)建了一個(gè)弱監(jiān)督的視頻編輯數(shù)據(jù)集,使模型能夠在帶有噪聲的視頻和編輯指令的條件下進(jìn)行“去噪”。圖22.第三階段:基于反向翻譯的視頻編輯數(shù)據(jù)來(lái)源:《Movie
Gen:
A
CastofMediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所18謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告Movie
Gen
Edit
編輯效果顯著優(yōu)于其他視頻編輯模型。前期相關(guān)工作包括:隨機(jī)差分編輯(SDEdit)通過(guò)向輸入視頻添加噪聲,然后用描述性文本進(jìn)行微調(diào)的同時(shí)進(jìn)行去噪來(lái)執(zhí)行圖像編輯,這種方法可能會(huì)導(dǎo)致重要細(xì)節(jié)的丟失,例如主體身份和紋理,從而降低了精確編輯的效果;目前表現(xiàn)最優(yōu)的視頻編輯方法,是利用事先訓(xùn)練好同時(shí)克服了視頻編輯缺乏監(jiān)督數(shù)據(jù)集的問(wèn)題,
例如
InsV2V
將InstructPix2Pix
的一般方法擴(kuò)展到視頻編輯,可以使用合成數(shù)據(jù)創(chuàng)建和訓(xùn)練視頻編輯模型;EVE
采用無(wú)監(jiān)督訓(xùn)練,通過(guò)使用來(lái)自兩個(gè)專家模型的知識(shí)蒸餾,一個(gè)用于圖像編輯,另一個(gè)用于文本到視頻的生成。Meta
在
TGVE+(Text
Guided
VideoEditing,文本引導(dǎo)視頻編輯)和在
Movie
Gen
Edit
Bench
基準(zhǔn)上,與所有模型進(jìn)行比較,人類評(píng)估分?jǐn)?shù)取自[0,100],50
代表模型水平相當(dāng)。下圖數(shù)據(jù)顯示,Meta模型在文本、結(jié)構(gòu)、質(zhì)量、綜合評(píng)分明顯優(yōu)于
InsV2V、Runway
Gen3
V2V、SDEdit等。圖23.與
TGVE+和
MovieGen
EditBench
基準(zhǔn)上的視頻編輯模型的比較數(shù)據(jù)來(lái)源:《Movie
Gen:
A
Castof
MediaFoundation
Models》The
Movie
Genteam,財(cái)通證券研究所3 Meta
論文發(fā)布帶來(lái)的四點(diǎn)啟示Movie
Gen
系列模型打開(kāi)
AI
應(yīng)用落地的新的想象空間。(1)創(chuàng)意生成市場(chǎng)是
AIGC
技術(shù)開(kāi)辟的新市場(chǎng),Meta
模型能夠生成時(shí)長(zhǎng)達(dá)到
16
秒的視頻和最長(zhǎng)
45
秒的音頻,個(gè)人用戶可結(jié)合個(gè)性化功能用于社交媒體娛樂(lè)展示、教學(xué)視頻、數(shù)字人形象。企業(yè)可用于廣告宣傳、場(chǎng)景特效資源積累、中小規(guī)模影視作品制作,以及游戲開(kāi)發(fā)和虛擬現(xiàn)實(shí),由于音頻與畫(huà)面高度匹配,能給觀眾帶來(lái)更具沉浸感的體驗(yàn)。(2)創(chuàng)意編輯市場(chǎng),當(dāng)前已有以
Adobe
為代表的成熟的視頻、圖像、音頻編輯工具軟件,Meta
大模型(通過(guò)文本控制編輯內(nèi)容的方式)一定程度上將會(huì)降低編輯視頻圖像的壁壘與專業(yè)度,但大模型對(duì)編輯內(nèi)容的精確度與效率目前仍低于
UI
界面,即文本描述對(duì)視頻/圖像中具體對(duì)象和位置的處理效率低于
UI
交互的過(guò)程。因此我們認(rèn)為,視頻圖像類編輯軟件的形態(tài)將持續(xù)存在,但大模型在其中貢獻(xiàn)的價(jià)值比重將持續(xù)提升,“文本19謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告/證券研究報(bào)告+UI”的控制方式未來(lái)或?qū)⒊蔀橹髁?。若未?lái)巨頭拒絕開(kāi)源多模態(tài)大模型,沒(méi)有訓(xùn)練基礎(chǔ)模型的編輯軟件企業(yè)將選擇API
接入的方法提供文本生成與編輯的功能,此時(shí)平臺(tái)的知名度、易用性、穩(wěn)定性、適配度,以及資源素材的豐富程度將成為創(chuàng)意軟件競(jìng)爭(zhēng)的焦點(diǎn)。模型架構(gòu)創(chuàng)新尚無(wú)止境,“流匹配+最優(yōu)傳輸+純
Transformer”生成效率、質(zhì)量均優(yōu)于
DiT。Movie
Gen
的生成效果在多個(gè)領(lǐng)域超過(guò)了現(xiàn)有的模型,包括分辨率、生成視頻的連貫性、音視頻同步的準(zhǔn)確性以及生成效率等方面。模型架構(gòu)方面,Meta
沒(méi)有選擇此前業(yè)界主流采用的
DiT
架構(gòu),明顯與
Sora、Kling、Gen-3、Minima
等一系列海內(nèi)外的視頻生成模型不同,表明模型架構(gòu)的創(chuàng)新尚無(wú)止境。我們看到
Transformer
架構(gòu)在多模態(tài)生成領(lǐng)域極為強(qiáng)大的適用性(從
NLP
拓展到CV,再拓展到音頻生成),對(duì)這一模型架構(gòu)的挖掘遠(yuǎn)未結(jié)束。FLUX.1、Stable
Diffusion
3等近期發(fā)布的視頻大模型也采用了
FM的方法。當(dāng)然,F(xiàn)M+OT(流匹配+最優(yōu)傳輸)的方法并不意味著完全舍棄擴(kuò)散模型加噪去噪的方法,F(xiàn)M
方法通過(guò)學(xué)習(xí)從真實(shí)數(shù)據(jù)分布到噪聲數(shù)據(jù)分布的梯度(流)變化過(guò)程,只是擴(kuò)散模型的更為一般和高效的形式。對(duì)于多模態(tài)大模型訓(xùn)練,高質(zhì)量的數(shù)據(jù)及處理起到?jīng)Q定性作用。從論文中我們可以看到
Meta
團(tuán)隊(duì)對(duì)高質(zhì)量數(shù)據(jù)的追求,從論文的數(shù)據(jù)判斷,經(jīng)過(guò)整個(gè)預(yù)訓(xùn)練數(shù)據(jù)處理,數(shù)據(jù)留存率可能僅為
1%左右。Meta
選擇從基礎(chǔ)開(kāi)始逐步建立數(shù)據(jù)集評(píng)估、篩選、標(biāo)注系統(tǒng),特別是在文本與視頻對(duì)齊領(lǐng)域,選擇綜合多個(gè)
text-encoder
模型的組合,實(shí)現(xiàn)在文本對(duì)齊的效果上做到
SOTA。Meta
遵從三階段訓(xùn)練模型,從
256px
的
T2I
模型到
768px
的
T2I+T2V,再到各種微調(diào)模型,我們發(fā)現(xiàn)即使是用于粗略學(xué)習(xí)的
256px
的T2I
模型,Meta
也是投喂高質(zhì)量數(shù)據(jù),這可能意味著數(shù)據(jù)質(zhì)量在訓(xùn)練初始階段就已經(jīng)對(duì)模型的最終效果產(chǎn)生深刻影響。大力出奇跡的“Scaling
Law”依然成立,技術(shù)和方法的創(chuàng)新也同樣重要,兩
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 頸椎手術(shù)術(shù)前護(hù)理
- 商業(yè)街環(huán)境管理
- 銀行輔導(dǎo)保密協(xié)議書(shū)
- 六年級(jí)遵守紀(jì)律協(xié)議書(shū)
- 銀行上門收款協(xié)議書(shū)
- 配套設(shè)施移交協(xié)議書(shū)
- 輕微工傷和解協(xié)議書(shū)
- 車輛租用解除協(xié)議書(shū)
- 護(hù)理用藥安全培訓(xùn)
- 酒莊設(shè)備轉(zhuǎn)讓協(xié)議書(shū)
- 廣東省佛山市2025屆高三下學(xué)期二模政治試題 含解析
- 2025屆廣東省茂名市高三下學(xué)期第二次綜合測(cè)試生物學(xué)試卷(含答案)
- 公衛(wèi)健康教育試題及答案
- 分級(jí)保護(hù)技術(shù)標(biāo)準(zhǔn)bmb17-2024
- 物流公司安全生產(chǎn)自查報(bào)告范文
- 公司高速公路占道施工應(yīng)急方案
- 公司安全考核試題及答案
- 2025年兵團(tuán)職工考試試題及答案
- 雨污水管施工方案
- 2025美國(guó)急性冠脈綜合征(ACS)患者管理指南解讀課件
- 人教版語(yǔ)文二年級(jí)下冊(cè)全冊(cè)課件
評(píng)論
0/150
提交評(píng)論