DeepSeek技術(shù)溯源及前沿探索_第1頁(yè)
DeepSeek技術(shù)溯源及前沿探索_第2頁(yè)
DeepSeek技術(shù)溯源及前沿探索_第3頁(yè)
DeepSeek技術(shù)溯源及前沿探索_第4頁(yè)
DeepSeek技術(shù)溯源及前沿探索_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

浙江大學(xué)DS系列專題主講人:朱強(qiáng)浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院人工智能省部共建協(xié)同創(chuàng)新中心(浙江大學(xué))/zhuqDeepSeek技術(shù)溯源及前沿探索1Outline一、語(yǔ)言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能體2Language

Modeling對(duì)于任意的詞序列,計(jì)算出這個(gè)序列是一句話的概率我們每天都和語(yǔ)言模型打交道:I

saw

a

catI

saw

a

cat

on

the

chairI

saw

a

cat

running

after

adogI

saw

a

cat

in

my

dreamI

saw

a

cacar語(yǔ)言模型:終極目標(biāo)3Sheismymom1

0

0

00

1

0

00

0

1

00

0

0

1One-hot

Encoding只有一個(gè)1,其余均為0One-hot

Encoding有什么缺點(diǎn)嗎?4編碼:讓計(jì)算機(jī)理解人類語(yǔ)言語(yǔ)言模型:基本任務(wù)…游泳

飛翔0.99

0.99

0.05

0.10.99

0.05

0.93

0.09…0.02

0.01

0.99

0.98…0.98

0.02

0.940.3…鯨魚海豚鸚鵡企鵝Word

Embedding用一個(gè)低維的詞向量表示一個(gè)詞能使距離相近的向量對(duì)應(yīng)的物體有相近的含義20維的向量用one-hot和word

embedding的方法分別可以表示多少單詞?編碼:讓計(jì)算機(jī)理解人類語(yǔ)言5Word

Embedding結(jié)合句子語(yǔ)境我們可以猜測(cè):tezgüino是一種由玉米制作的酒精類飲料(1)

(2)

(3)

(4)A

bottle

of

tezgüino

is

on

the

table.Everyone

likes

tezgüino.Tezgüino

makes

you

drunk.We

make

tezgüino

out

of

corn.A

bottleof

is

on

the

table.Everyone

likes

.

makes

you

drunk.We

make

out

of

corn.1

1

1

11

0

0

00

1

0

11

1

1

0tezgüinomotor

oiltortillaswine兩行內(nèi)容十分相近兩個(gè)單詞含義相近編碼:讓計(jì)算機(jī)理解人類語(yǔ)言6基于統(tǒng)計(jì)的N-gram

1970

after)語(yǔ)言模型:技術(shù)演化Before:P(小)·

P(貓|小)·

P(抓|小貓)·

P(老|小貓抓)·

P(鼠|小貓抓老)gram:P(小)·

P(貓|小)·

P(抓|貓)·

P(老|抓)·

P(鼠|老)gram:P(小)·

P(貓|小)·

P(抓|小貓)·

P(老|貓抓)·

P(鼠|抓老)基于神經(jīng)網(wǎng)絡(luò)的LSTM/GRU(2000

after)Transformer

(2017

after)7常見的深度學(xué)習(xí)模型框架,可用于解決Seq2Seq問(wèn)題可以根據(jù)任務(wù)選擇不同的編碼器和解碼器(LSTM/GRU/Transformer)EncoderDecoder我很聰明!I

am

pretty

smart!隱空間RepresentationEncoder-Decoder8Outline一、語(yǔ)言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能體910Transformer:理論架構(gòu)創(chuàng)新自注意力機(jī)制:支持并行計(jì)算/全局上下文的理解能力多頭注意力:從多個(gè)角度捕捉復(fù)雜的語(yǔ)義關(guān)系前饋網(wǎng)絡(luò)/位置編碼/層歸一化:解決了傳統(tǒng)模型的諸多局限性大型語(yǔ)言模型簡(jiǎn)史2017201820182019201920202021

202220222023

20232024202420242025JUNJUNOCTFEBOCTMAYSEP

MARNOVFEB

MARMARAPRDECJAN1958TransformerGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V3DeepSeek-R1/cf2SudS8x8F0v/article/details/145695146OpenAI-o3DecoderAttention

Is

All

You

NeedEncoderNIPS

2017,引用量15萬(wàn)+引入全新注意力機(jī)制,改變了深度學(xué)習(xí)模型的處理方式11Transformer:大模型的技術(shù)基座Transformer:(自)注意力機(jī)制在理解語(yǔ)言任務(wù)時(shí),Attention機(jī)制本質(zhì)上是捕捉單詞間的關(guān)系She

is

eating

a

green

apple.中國(guó)南北

飲食文化存在差異,豆花有南甜北咸之分。南方人一般喜歡吃甜豆花123

The

animal

didn't

cross

the

street

because

it

was

too

tired/wide1213Transformer:(自)注意力機(jī)制ImageSketchGradient在理解圖像任務(wù)時(shí),Attention機(jī)制本質(zhì)上是一種圖像特征抽取14Transformer:訓(xùn)練機(jī)制場(chǎng)景:你在圖書館想找一本關(guān)于“機(jī)器學(xué)習(xí)基礎(chǔ)”的書Query:描述要找的書(精準(zhǔn)的需求描述)Key:書的索引編號(hào)(高效的書籍定位)Value:內(nèi)容的抽?。ㄓ赡繕?biāo)任務(wù)驅(qū)動(dòng))https://newsletter.theaiedge.io/p/the-multi-head-attention-mechanism大型語(yǔ)言模型簡(jiǎn)史預(yù)訓(xùn)練時(shí)代:大力出奇跡(“暴力美學(xué)”)BERT:Bidirectional

Encoder

Representations

TransformersGPT:

Generative

Pertained

Transformer自監(jiān)督算法:MLM/NTP/MAE解決海量數(shù)據(jù)標(biāo)注問(wèn)題2017201820182019201920202021

202220222023

20232024202420242025JUNJUNOCTFEBOCTMAYSEP

MARNOVFEB

MARMARAPRDECJAN1958TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V3DeepSeek-R1OpenAI-o315BERTOct2018RepresentatioGPTJun2018Generation16The

LLM

Era

Paradigm

Shift

in

MachineLearningBERT

2018DistilBERT

–2019RoBERTa

–2019ALBERT

2019ELECTRA

–2020ReDperBeEseRnTtat–io20n20…GPT

2018GPT-2

2019GPT-3

2020GPT-Neo

2021GPT-3.5

(ChatGPT)

–2022LLaMA

2023GPT-4

2023…Generation17T5

2019BART

2019mT5

2021…The

LLM

Era

Paradigm

Shift

in

MachineLearning自監(jiān)督學(xué)習(xí)(語(yǔ)言)Masked

Langauge

Modeling(MLM)

模型會(huì)不斷地在句子中‘挖去’一個(gè)單詞,根據(jù)剩下單詞的上下文來(lái)填空,即預(yù)測(cè)最合適的‘填空詞’出現(xiàn)的概率,這一過(guò)程為‘自監(jiān)督學(xué)習(xí)’原話:

一輛

列車

緩慢 行駛

崎嶇

山路上移除單詞:

一輛

列車

行駛

崎嶇

山路上預(yù)測(cè)填空:

一輛

列車

緩慢 行駛

崎嶇

山路上1819自監(jiān)督學(xué)習(xí)(圖像)Masked

AutoEncoders(MAE)通過(guò)隨機(jī)遮蓋部分輸入數(shù)據(jù)(如圖像)并重建缺失內(nèi)容,讓模型從上下文中學(xué)到圖像的深層特征,常用于計(jì)算機(jī)視覺(jué)任務(wù)。遮蓋圖像重建圖像/pdf/2111.06377數(shù)據(jù)是燃料、模型是引擎、算力是加速器數(shù)據(jù):訓(xùn)練中使用了45TB數(shù)據(jù)、近1萬(wàn)億個(gè)單詞(約1351萬(wàn)本牛津詞典所包含單詞數(shù)量)以及數(shù)十億行源代碼。模型:包含了1750億參數(shù),將這些參數(shù)全部打印在A4紙張上,一張一張疊加后,疊加高度將超過(guò)上海中心大廈632米高度。算力:ChatGPT的訓(xùn)練門檻是1萬(wàn)張英偉達(dá)V100芯片、約10億人民幣。大數(shù)據(jù)、大模型、大算力下以“共生則關(guān)聯(lián)”原則實(shí)現(xiàn)了統(tǒng)計(jì)關(guān)聯(lián)關(guān)系的挖掘。MCP神經(jīng)元PerceptronDNN神經(jīng)網(wǎng)絡(luò)早期前向神經(jīng)網(wǎng)絡(luò)seq2seq序列學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)RNNLSTMWord2vec詞向量單詞之間關(guān)聯(lián)關(guān)系TransformerSelf-supervisedPromptFine-tune語(yǔ)言大模型

LLM人類反饋強(qiáng)化學(xué)習(xí)(InstructGPT)CodeX(CoT,120億參數(shù))引入Self-attentionChatGPT訓(xùn)練transformer

的通用之力20大模型

Large

Model大語(yǔ)言模型(LLM)Large

Language

ModelBERT系列GPT系列

3.5/4GPT-4oDeepseek-v3科學(xué)計(jì)算模型

Science

Model多模態(tài)大模型(LMM)Large

Multimodal

ModelDDPMSAM交互式DemoSoraDALLE·3

inChatGPTAlpha系列AlphaStar魔獸爭(zhēng)霸氣象大模型藥物分子預(yù)測(cè)PanguLMMidjourneyGoogle

Bard文心一言AlphaGo圍棋AlphaFold蛋白質(zhì)預(yù)測(cè)GPT-o1/o3Deepseek-R1機(jī)理技術(shù)產(chǎn)品21大模型脈絡(luò)22群雄(中美)爭(zhēng)霸O(shè)penAI最新15頁(yè)報(bào)告:DeepSeek縮小中美AI差距A

Survey

on

Large

LanguageModels

with

some

Insights

on

their

Capabilities

andLimitations23閉源vs開源國(guó)際企業(yè)微軟投資OpenAI的GPT-4.0系列閉源自研開源小模型Phi-3

Mini開源亞馬遜自研Titan系列閉源投資Anthropic的Claude

3.5系列閉源谷歌Gemini系列閉源Gemma系列開源METALlama3系列開源Mistral

AIMistral-Large閉源Mistral-Medium開源中國(guó)企業(yè)阿里通義千問(wèn)2.5系列基礎(chǔ)模型、行業(yè)模型開源Qwen

0.5b-110b系列開源模型開源華為盤古系列閉源騰訊混元基礎(chǔ)模型、行業(yè)模型閉源混元開源模型開源百度文心一言4.0模型閉源DeepSeek以一己之力改變了開源和閉源的力量對(duì)比:從6~12個(gè)月的代差縮短到1~3個(gè)月2412層,每層12個(gè)注意頭GPT-2做了以下改進(jìn):增加到4

8層,使用1600維向量進(jìn)行詞嵌入;將層歸一化移動(dòng)到每個(gè)子塊的輸入,并在最終的自注意塊后增加一層歸一化;修改初始化的殘差層權(quán)重,縮放為原來(lái)的1/?,其中,?是殘差層的數(shù)量;特征向量維數(shù)從768擴(kuò)展到1600,詞表擴(kuò)大到

50257。GPT-3做了以下優(yōu)化:增加到96層,每層有96個(gè)注意頭;單詞嵌入大小從1600增加到12888;上下文窗口大小從

GPT-2的1024增加到

2048,并采用交替密度和局部帶狀稀疏注意模式。ChatGPT基于GPT-3.5:1.ChatGPT使用來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練;2.通過(guò)近端策略優(yōu)化算法進(jìn)行微調(diào),為信任域策略優(yōu)化算法帶來(lái)成本效益。模型發(fā)布時(shí)間參數(shù)量預(yù)訓(xùn)練數(shù)據(jù)量GPT-12018年6月1.17億約5GBGPT-22019年2月15億40GGPT-32020年5月1750億45TBChatGPT2022年11月千億級(jí)?百T級(jí)?摩爾定律(大模型時(shí)代)DeepSeek通過(guò)大幅提升模型訓(xùn)練、推理效率,緩解(???)了算力需求?Outline一、語(yǔ)言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能體25大型語(yǔ)言模型簡(jiǎn)史GPT-3:語(yǔ)言模型的轉(zhuǎn)折點(diǎn)大語(yǔ)言模型:1750億參數(shù)涌現(xiàn)能力:隨著模型規(guī)模增大而出現(xiàn)的新能力生成/創(chuàng)造:Artificial

Intelligence

(人工=>藝術(shù))2017201820182019201920202021

202220222023

20232024202420242025JUNJUNOCTFEBOCTMAYSEP

MARNOVFEB

MARMARAPRDECJAN1958TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V3DeepSeek-R1OpenAI-o326大型語(yǔ)言模型簡(jiǎn)史ChatGPT:人工智能的IPHONE時(shí)刻2017201820182019201920202021

202220222023

20232024202420242025JUNJUNOCTFEBOCTMAYSEP

MARNOVFEB

MARMARAPRDECJAN1958TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V3DeepSeek-R1OpenAI-o327OpenAI技術(shù)白皮書GPT-3

SeriesGPT-3.5

SeriesTraining

oncodeLarge-scale

language

model

pretrainingGPT-3

InitialLM

+

code

trainingthen

instruction

tuningCode-davinci-002RLHFInstruction

tuningCodex

InitialCode-davinci-001Code-cushman-001InstructGPT

InitialInstruct-davinci-betaText-davinci-001Text-davinci-002RLHFChatGPTText-davinci-003Davinci28Large-scale

language

model

pretrainingTraining

oncodeGPT-3

Initial

Instruction

tuningGPT-3

Series

Codex

Initial

Davinci

InstructGPT

Initial

Code-davinci-001

Instruct-davinci-beta

Code-cushman-001

Text-davinci-001LM

+

code

trainingthen

instruction

tuningCode-davinci-002GPT-3.5

SeriesRLHF

Text-davinci-002

RLHFText-davinci-003

ChatGPTGPT-3

Initial初代GPT-3展示了三個(gè)重要能力(來(lái)自于大規(guī)模的預(yù)訓(xùn)練)語(yǔ)言生成:來(lái)自語(yǔ)言建模的訓(xùn)練目標(biāo)(說(shuō)人話)世界知識(shí):來(lái)自3000億單詞的訓(xùn)練語(yǔ)料庫(kù)(百曉生)上下文學(xué)習(xí):上下文學(xué)習(xí)可以泛化,仍然難以溯源(觸類旁通)初代GPT-3表面看起來(lái)很弱,但有非常強(qiáng)的潛力,展示出極為強(qiáng)大的“涌現(xiàn)”能力29GPT3

InitialLarge-scale

language

model

pretrainingTraining

oncodeGPT-3

Initial

Instruction

tuningGPT-3

Series

Codex

Initial

Davinci

InstructGPT

Initial

Code-davinci-001

Instruct-davinci-beta

Code-cushman-001

Text-davinci-001LM

+

code

trainingthen

instruction

tuningCode-davinci-002GPT-3.5

SeriesRLHF

Text-davinci-002

RLHFText-davinci-003

ChatGPTCodex

InitialInstructGPT

Initial2020-2021年,OpenAI投入了大量的精力通過(guò)代碼訓(xùn)練和指令微調(diào)來(lái)增強(qiáng)GPT-3。使用思維鏈進(jìn)行復(fù)雜推理的能力很可能是代碼訓(xùn)練的一個(gè)神奇副產(chǎn)物使用指令微調(diào)將GPT-3.5的分化到不同的技能樹(數(shù)學(xué)家/程序員/…)30Codex

+

InstructLarge-scale

language

model

pretrainingTraining

oncodeGPT-3

Initial

Instruction

tuningGPT-3

Series

Codex

Initial

Davinci

InstructGPT

Initial

Code-davinci-001

Instruct-davinci-beta

Code-cushman-001

Text-davinci-001LM

+

code

trainingthen

instruction

tuningCode-davinci-002GPT-3.5

SeriesRLHF

Text-davinci-002

RLHFText-davinci-003

ChatGPTCode-davinci-0021)指令微調(diào)不會(huì)為模型注入新的能力(解鎖能力)

2)指令微調(diào)犧牲性能換取與人類對(duì)齊(“對(duì)齊稅”)31GPT3.5Large-scale

language

model

pretrainingTraining

oncodeGPT-3

Initial

Instruction

tuningGPT-3

Series

Codex

Initial

Davinci

InstructGPT

Initial

Code-davinci-001

Instruct-davinci-beta

Code-cushman-001

Text-davinci-001LM

+

code

trainingthen

instruction

tuningCode-davinci-002GPT-3.5

SeriesRLHF

Text-davinci-002

RLHFText-davinci-003

ChatGPTRLHFRLHF2022.11RLHF

(基于人類反饋的強(qiáng)化學(xué)習(xí)的指令微調(diào))觸發(fā)的能力:翔實(shí)的回應(yīng)公正的回應(yīng)拒絕不當(dāng)問(wèn)題拒絕其知識(shí)范圍之外的問(wèn)題32ChatGPT(技術(shù)到產(chǎn)品)大型語(yǔ)言模型簡(jiǎn)史多模態(tài)模型:連接文本、圖像及其他開源:Meta的LLaMA系列(普惠學(xué)術(shù)領(lǐng)域)GPT-4v:視覺(jué)遇見語(yǔ)言(跨模態(tài))GPT-4o:全模態(tài)前沿(交互能力)2017201820182019201920202021

202220222023

20232024202420242025JUNJUNOCTFEBOCTMAYSEP

MARNOVFEB

MARMARAPRDECJAN1958TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V3DeepSeek-R1OpenAI-o333GPT-4可提供多模態(tài)能力zero-shot及few-shot的能力GPT-4邏輯推理能力的飛躍GPT-4的安全性已經(jīng)大幅提升更強(qiáng)的專屬能力(如編程)處理其它語(yǔ)言的能力處理更長(zhǎng)序列的能力GPT-4v(聽、說(shuō)

看)2023.0634多模態(tài)輸入輸出(交互能力)響應(yīng)速度(接近人類響應(yīng))數(shù)學(xué)推理、編程等能力提升非英文文本性能大幅提升視覺(jué)和音頻理解能力成本優(yōu)勢(shì)GPT-4o(文科博士生)352024.06推理能力大幅提升:數(shù)學(xué)和編程能力爆表更像人類一樣思考:全新安全訓(xùn)練方法&更強(qiáng)的“越獄”抵抗力GPT-o1(理科博士生)362024.09Outline一、語(yǔ)言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能體37大型語(yǔ)言模型簡(jiǎn)史推理模型:從「生成」到「推理」的重心轉(zhuǎn)變OpenAI-o1/o3:推理能力的一大飛躍DeepSeek-V3/R1:專家模型、強(qiáng)化學(xué)習(xí),開源,效率2017201820182019201920202021

202220222023

20232024202420242025JUNJUNOCTFEBOCTMAYSEP

MARNOVFEB

MARMARAPRDECJAN1958TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V3DeepSeek-R1OpenAI-o33839DeepSeek-V3Base

(671B/37B激活)階段1:有監(jiān)督微調(diào)SFT強(qiáng)化學(xué)習(xí)GRPO(規(guī)則獎(jiǎng)勵(lì))+語(yǔ)言一致性獎(jiǎng)勵(lì)階段2的模型生成推理SFT數(shù)據(jù)推理數(shù)據(jù)(60w樣本)冷啟動(dòng)階段(DeepSeek-R1-Zero生成少量推理數(shù)據(jù))DeepSeek-V3SFT數(shù)據(jù)DeepSeek-V3Base

(671B/37B激活)COTPrompting非推理數(shù)據(jù)(20w樣本)數(shù)據(jù)合并(80w樣本)DeepSeek-R1-ZeroQwen2.5-14BLlama3.3-70B-Qwen2.5-32BLlama3.1-8BInstruct……SFT(2epochs)DeepSeek-R1-Distill階段3:SFT(2

epcohs)階段4:全場(chǎng)景強(qiáng)化學(xué)習(xí)DeepSeek-R1基于規(guī)則獎(jiǎng)勵(lì)的大規(guī)模強(qiáng)化學(xué)習(xí)階段2:基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)模型蒸餾(Distillation)DeepSeek模型并非是顛覆性基礎(chǔ)理論創(chuàng)新(Transformer-based),其對(duì)算法、模型和系統(tǒng)等進(jìn)行的系統(tǒng)級(jí)協(xié)同工程創(chuàng)新,打破了大語(yǔ)言模型以大算力為核心的預(yù)期天花板,為受限資源下探索通用人工智能開辟了新的道路。DeepSeek

技術(shù)全景圖DeepSeekStep

1:

DeepSeek-V3BaseStep

2:

DeepSeek-R1-ZeroStep

3:

DeepSeek-R1Step

4:

DeepSeek-R1-Distill基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型DS-V3對(duì)標(biāo)GPT-4o(文科博士生):混合專家模型:V3基座模型總共有6710億參數(shù),但是每次

token僅激活8個(gè)專家、370億參數(shù)(~5.5%)。極致的工程優(yōu)化:多頭潛在注意力機(jī)制(MLA),使用FP8混合精度,DualPipe算法提升訓(xùn)練效率,將訓(xùn)練效率優(yōu)化到極致,顯存占用為其他模型的5%-13%。DeepSeek

技術(shù)揭秘動(dòng)態(tài)路由機(jī)制和專家共享機(jī)制DeepSeekStep

1:

DeepSeek-V3

BaseStep

2:

DeepSeek-R1-ZeroStep

3:

DeepSeek-R1Step

4:

DeepSeek-R1-Distill40基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型DeepSeek

技術(shù)揭秘賦予DeepSeek-V3最基礎(chǔ)的推理能力:R1-Zero使用DeepSeek-V3-Base作為基礎(chǔ)模型,直接使用GRPO

進(jìn)行強(qiáng)化學(xué)習(xí)來(lái)提升模型的推理性能:準(zhǔn)確度獎(jiǎng)勵(lì)(Accuracy

rewards)格式獎(jiǎng)勵(lì)(

Format

rewards

)人工標(biāo)注獎(jiǎng)勵(lì)模型獎(jiǎng)勵(lì)規(guī)則SFTRLHFGRPO0

或1引入人類偏好數(shù)據(jù)將知識(shí)抽象為獎(jiǎng)勵(lì)規(guī)則通過(guò)標(biāo)注將知識(shí)顯示化數(shù)據(jù)驅(qū)動(dòng)+知識(shí)引導(dǎo)DeepSeekStep

1:

DeepSeek-V3BaseStep

2:

DeepSeek-R1-ZeroStep

3:

DeepSeek-R1Step

4:

DeepSeek-R1-Distill41基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型DeepSeek

技術(shù)揭秘DeepSeek-V3Base

(671B/37B激活)階段1:有監(jiān)督微調(diào)SFT強(qiáng)化學(xué)習(xí)GRPO(規(guī)則獎(jiǎng)勵(lì))+語(yǔ)言一致性獎(jiǎng)勵(lì)階段2:模型生成推理SFT數(shù)據(jù)推理數(shù)據(jù)(60w樣本)冷啟動(dòng)階段(DeepSeek-R1-Zero生成少量推理數(shù)據(jù))DeepSeek-V3SFT數(shù)據(jù)DeepSeek-V3Base

(671B/37B激活)COTPrompting非推理數(shù)據(jù)(20w樣本)數(shù)據(jù)合并(80w樣本)DeepSeek-R1-ZeroQwen2.5-14BLlama3.3-70B-Qwen2.5-32BLlama3.1-8BInstruct……SFT(2epochs)DeepSeek-R1-Distill階段3:SFT(2

epcohs)階段4:全場(chǎng)景強(qiáng)化學(xué)習(xí)DeepSeek-R1基于規(guī)則獎(jiǎng)勵(lì)的大規(guī)模強(qiáng)化學(xué)習(xí)階段2:基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)模型蒸餾(Distillation)DS-R1對(duì)標(biāo)OpenAI-o1(理科博士生):階段1:DeepSeek-R1-Zero生成少量推理數(shù)據(jù)+SFT=>為V3植入初步推理能力(冷啟動(dòng))階段2:根據(jù)規(guī)則獎(jiǎng)勵(lì)直接進(jìn)行強(qiáng)化學(xué)習(xí)(GRPO)訓(xùn)練=>提升推理能力(多輪迭代,獲取大量推理數(shù)據(jù))階段3:迭代生成推理/非推理樣本微調(diào)=>增強(qiáng)全場(chǎng)景能力階段4:全場(chǎng)景強(qiáng)化學(xué)習(xí)=>人類偏好對(duì)齊(RLHF)DeepSeekStep

1:

DeepSeek-V3BaseStep

2:

DeepSeek-R1-ZeroStep

3:

DeepSeek-R1Step

4:

DeepSeek-R1-Distill42基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型DeepSeek

技術(shù)揭秘DeepSeek-R1-Distill模型:基于各個(gè)低參數(shù)量通用模型(千問(wèn)、Llama等)使用DeepSeek-R1同款數(shù)據(jù)微調(diào)大幅提升低參數(shù)量模型性能知識(shí)蒸餾:老師教學(xué)生:“解題思路”,不僅給答案(硬標(biāo)簽),還教“為什么”(軟標(biāo)簽)模型瘦身:大幅壓縮參數(shù)(如671億→7億參數(shù)),手機(jī)也能跑AIDeepSeekStep

1:

DeepSeek-V3BaseStep

2:

DeepSeek-R1-ZeroStep

3:

DeepSeek-R1Step

4:

DeepSeek-R1-Distill43基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型大模型應(yīng)用層垂直應(yīng)用教育醫(yī)療法律制造……客服服務(wù)(智能客服)OA類(WIKI等)數(shù)據(jù)經(jīng)營(yíng)分析運(yùn)營(yíng)工具(產(chǎn)品、渠道)GPT

Agent(基于Prompt的應(yīng)用,AutoGPT,AgentGPT等)大模型應(yīng)用開發(fā)框架(Langchain)大模型精調(diào)訓(xùn)練數(shù)據(jù)管理與生成精調(diào)pipeline基礎(chǔ)架構(gòu)及模型部署GPT4(公有云)LLMA(開源)Stable

Diffusion基礎(chǔ)模型應(yīng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論