




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ChatGLM:從千億到開源的一點思考3大模型通用能力強,可完成多場景任務,*模型未羅列全還請見諒大模型已成為各國人工智能技術新方向,$vable1750億礎n段ChatGPT):48十億模型十億模型千億基座code-davinci-002text-text-davinci-002百億模型text-davincitext-davinci-003GitHubGitHubCopilotWebGPT(RLHFWebGPT(RLHF)ChatGPTChatGPT底底codecode-davinci-002textdavinci002text-davinci-003千億基座十億模型百億模型GitHubCopilotChatGPTWebGPT(RLHF)底百億模型十億多語言百億模型十億多語言千億模型(SFT+RLHF)百億模型VSCode/JetBrainsVSCode/JetBrainsCodeGeeX插件9清華&智譜GLM系列模型9OpenAIGPT系列模型千億基座千億模型千億模型清華&智譜GLM系列模型自2022自2022年8月發(fā)布以來,收到69個國家1000+機構的使用需求??????????基礎架構訓練方式量化加速跨平臺能力??????????基礎架構訓練方式量化加速跨平臺能力中文:在CLUE和FewCLUE上遠超ERNIE3.0,Yuan 高精度:普惠推理:高速推理:跨平臺:GLM-130B與OpenAI、Google、Meta、Microsoft等基礎大模型相比,在部分評估指標上具有優(yōu)勢v2(175B*)GLM(130B)GPT-3davinciv1(175B)v2(175B*)GLM(130B)GPT-3davinciv1(175B)YaLM(100B)GPT-3davinciv1(175B)GLM(130B)v2(175B*) YaLM(100B)v2(175B*)GPT-3davinciv1(175B)GLM(130B)YaLM(100B)校準誤差CalibrationerrGLM(130B)GPT-3davinciv1(175B)校準誤差CalibrationerrGLM(130B)GPT-3davinciv1(175B)v2(175B*)YaLM(100B) 寫一個劇本殺大綱,關于古埃及神話,現代冒險,神秘組織。角色:場景:本劇本殺的場景設定在古埃及,冒險家們將在古埃及的神廟、陵墓和城市中尋找線索和答案。劇情:亞歷山大是一位年輕的考古學家,他在研究古埃及文化時,發(fā)現了一些神秘的線索。他聽說古寫一個劇本殺大綱,關于古埃及神話,現代冒險,神秘組織。在古埃及,亞歷山大遇到了艾米麗和布魯斯,他們一起進入了一些古老的神廟和陵墓中尋找答案。他們發(fā)神秘組織是一個古老的組織,他們試圖通過古埃及神話中的生物和神靈來掌控世界。他們計劃利用這些動戰(zhàn)爭,并掌控整個世界。艾米麗和布魯斯意識到他們的冒險家朋友已經成為了神秘組織的靶子,他們冒險家們踏上了尋找“神器”的旅程。他們來到了他們不僅面對著危險,還要應對一些神秘的生物和神靈。他們的勝利不僅代表著正義的勝利,也意味著古埃及.流暢的文本生成–47%的用戶無法GPT-3生成的新聞,哪些是真實用戶撰寫的新聞大規(guī)模難題:沒人用得起規(guī)模vs.精度如何支持用單機推理封閉vs.開源訓練開源開放的高精度千億務英雙語稠密模型,對大模型研究有重大意義訓練開源開放的高精度千億務英雙語稠密模型,對大模型研究有重大意義訓練出GPT-3本身就面臨重重挑戰(zhàn)……訓練成本高昂:訓練1750億參數的GPT-3使用了上萬塊V100,機時費用是460萬美元,總成本據悉達到1200萬美元人力投入極大:谷歌PaLM540B的團隊:前期準備29人,訓練過程11人,整個作者列表68人訓練過程不穩(wěn)定:容易出現訓練不收斂現象缺少—個充分訓練的、中文模型開放的稠密千億模型缺少—個充分訓練的、中文模型開放的稠密千億模型43模型大小訓練的單詞量總計算量GLM-130B:千億模型之旅8個月時間,從零開始解決無數的難題:算法難題:千億模型的混合精度訓練非常不穩(wěn)定,且調試困難穩(wěn)定性,DataLoader狀態(tài)種子恢復,以及Softmax和Attention的計算精度選擇……工程難題:不同架構集群上高效訓練千億模型是極大的挑戰(zhàn)算法框架 √√××編碼器-解碼器 √ √√√預訓練:雙向注意力、對maked字段進行自回歸預測.精度超過BERT、T5、RoBERTa.更重要的是.僅需—個模型即可完成不同個任務大模型訓練最大挑戰(zhàn):訓練穩(wěn)定性權衡利弊:訓練穩(wěn)定性(高精度低效)還是訓練效率(低精度高效)OPT-175B:訓練崩潰時反復調整學習率,跳過數研(權宜之計,損失性能)BLOOM176B:embeddingnorm和BF16(損失性能,有限適配平臺)GLM-130B:穩(wěn)定訓練方法softmax=softmax?max×α)=FP16(softmax(FP32×α))調小Embedding層梯度,緩解前期梯度爆炸問題Attention層的分數分布很容易超過FP16表示范圍Embedding層梯度存在數量級上的差異,大模型測試上有效穩(wěn)定訓練并行策略:高效訓練千億模型挑戰(zhàn):遠超單卡顯存(40GB),采取何種并行方式高效訓練?并行策略:高效訓練千億模型遠超單卡顯存,如何高效訓練?2.模型并行:將模型參數分布到多個GPU上張量并行:切分參數矩陣,每GPU計算—部分→額外通信,降低計算粒度流水線并行:將網絡分成多段并行→引入流水線氣泡ZeRO-3:將參數分布到數據并行組中,算之前先取回參數→額外通信時間分析:流水線的氣泡占比的時候可以忽略不計并行策略:張量并行隨著模型規(guī)模增大緩慢的展,但不超過單機規(guī)模(<=8),其余全部使用流水線并行,通過調整微批處理大小減少氣泡占比并行策略:高效訓練千億模型其他優(yōu)化算子融合:融合多個element-wise算子→提升~10%計算速度流水線平衡:流水線首尾階段各少放置—個層平衡占用→節(jié)省~10%顯存跨平臺兼容:swDeepSpeed訓練庫與DeepSpeedAPI兼容支持申威架構,—行代碼無縫替換兼容實現并行通信策略,混合精度策略,ZeRO優(yōu)化器同—套訓練框架可在三個集群上對齊訓練曲線)并行策略:高效訓練千億模型硬件差異性大測試集群配置:硬件差異性大A100集群(A100):96臺DGX-A100,每臺2張200GBIB網卡海光GPU(Hygon):3000臺機器,每臺4張DCU加速卡、4張50GIB網卡申威處理器(Sunway):8192個節(jié)點,每節(jié)點—塊訓練GPT-3175B規(guī)模的模型,按照相同的300B單詞量估計訓練時間:利用率較高利用率較高訓練時間合理訓練時間合理有性能優(yōu)勢有性能優(yōu)勢ZengandLiuZengandLiuGLM-130B:讓每個人都能用上千億模型在保留中間計算結果為FP16的情況下,將GLM-130B的權重進行量化GLM-130B:開源模型代碼,免費下載(雙語:同時支持務文和英文),在高精度(務文):在7個零樣本CLUE數研集(+24.26%)和5個零樣本低門檻推理:最低量化至INT4,允許在4張3090/8張2080Ti上模成推理跨平臺:支持在NVIDIA、海光DCU從千億模型到ChatGLM挑戰(zhàn)1:傳統(tǒng)NLPvs.復雜問題QQP(Paraphrase)Question1Howisairtrafficcontrolled?Question2Howdoyoubecomeanairtrafficcontroller? Label Label0{Question1}{Question2}Pickone:Thesequestionsareduplicatesornotduplicates."{Question1}"and"{Question2}".Aretheyduplicates?{Choices[label]}{Choices[label]}挑戰(zhàn)2:傳統(tǒng)NLPvs.動態(tài)知識-知識欠缺:長尾知識.例如:世界第二高的山峰(答案:K2喬格里峰)-不可解釋:缺乏答案的參考源挑戰(zhàn)3:傳統(tǒng)NLPvs.人類對齊.例如:請用幾句話給—個6歲小孩解釋登月GLMCodeGeexCodeGeex有監(jiān)督微調面向對話的用戶反饋強化學習ChatGLM算力:面向對話的用戶反饋強化學習ChatGLM算力:A100x1000x30天text&codeGLM-130BGLM-130B++(GLM3.5)意圖對齊,生成正確的內容多模態(tài)千億基座模型多模態(tài)Visual-ChatGLM融合多模態(tài)能力WebGLMWebGLM2021.122022.092022.122022.122021.122022.092022.122022.122023.03sympy.solve(equations_list,*variable_list)sympy.solve(equations_list,*variable_list),來計算數列的和。[Begin]Calc[Param](3+[Begin]Calc[Param](3+Correct代入已知數值:這是一個等差數列求和問題,其中首項a1=3,首先需要求項數n。將上述數據帶入等差數列的通的方程計算數列的和。模型平均結果ChatGLM0.57GPT-3.5-turbo0.70GPT-3davinci0.44BLOOM0.39BLOOMGPT3GPT-3.5-turboChatGLM.評估實際使用中的核心場景-知識密集型場景-認知推理型場景-數學計算型場景多場景評測結果MathReasonKnowledgeuText-Davinci-003
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全文化課件公司介紹
- 電梯合同協(xié)議書注意事項
- 老年創(chuàng)業(yè)活動策劃方案模板
- 考研網絡平臺創(chuàng)業(yè)計劃書
- 2025年智能家居能源管理系統(tǒng)的節(jié)能效果與優(yōu)化策略報告
- 拆除改裝合同協(xié)議書模板
- 獸醫(yī)診療實訓報告
- 4.3探索三角形全等的條件課件 -2024-2025學年北師大版數學七年級下冊
- 7《納米技術就在我們身邊》課件-2024-2025學年四年級下冊語文統(tǒng)編版
- 拓展培訓機構哪家好002
- 潛水主題素材課件
- 三供一業(yè)移交政策規(guī)定
- 小班活動學情分析
- 風電施工安全生產事故案例匯編(第一期)
- 固定資產使用與維護制度
- 黑龍江三支一扶考試筆試真題2023
- (正式版)JBT 14694-2024 電氣絕緣用合成有機酯與結構材料的相容性試驗方法
- MOOC 工程制圖-重慶大學 中國大學慕課答案
- 銀川市安置房買賣合同合集3篇
- 男西褲結構制圖課件
- 道觀行業(yè)分析
評論
0/150
提交評論