




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
彭厚文騰訊混元多模態(tài)模型負責人目前專注于多模態(tài)基礎模型研發(fā)、曾任微軟亞洲研究院主管研究員。在人工智能領域國際期刊和會議如TPAMI、CVPR、NeurIPS等發(fā)表學術論文30余篇,擔任PatternRecognition期刊副主編,ACMMultimedia會議領域主席。演講主題:騰訊混元多模態(tài)技術實踐混元大模型的“前世今生”:從零自研、持續(xù)成長騰訊混元大模型正式發(fā)布24Q224Q1混元位居沙利文測評的第一象限24Q3文生文、多模態(tài)理解、文生圖均位居33混元多模態(tài)發(fā)展路線?圖、視頻生文:輸入是圖像和視頻以及文字指令,輸出是對圖像和視頻的內容理解這張圖什么意思?這張圖什么意思?混元多模態(tài)大模型-預訓練與模型結構模型結構模型結構?圖片:VisionTransformer(ViT)?視頻:參數(shù)復用理解多圖、多視頻幀?視覺-語言(文本)適配器?鏈接視覺-語言模態(tài)的“橋梁”?大語言(文本)模型?理解視覺內容和文字的“大腦中樞”預訓練預訓練?多階段預訓練策略從粗到細分門別類構建和優(yōu)化從粗到細分門別類構建和優(yōu)化1.分門別類:10大垂類topic覆蓋理解/創(chuàng)作/問答/推理/專業(yè)領域等基礎識別知識問答基礎識別知識問答內容創(chuàng)作分析推理多輪對話描述OCR圖表數(shù)學代碼2.任務多樣復雜:圖片復雜度x文本問題復雜度?統(tǒng)計類圖表(柱狀圖、折線圖、餅圖、散點圖、表格、散點圖、熱力圖、復雜圖表)?思維類圖表(程序流程圖、數(shù)據(jù)流程圖、業(yè)務流程圖、工作流程圖、架構圖、樹狀圖、思維導圖、錐形、甘特圖等)OCR圖片類型:?自然場景(街景、路標、廣告牌、發(fā)票、商標、菜單...)2.難點:數(shù)據(jù)雜亂、數(shù)據(jù)敏感(法律風險、用戶隱私)數(shù)據(jù)預處理數(shù)據(jù)泛化數(shù)據(jù)清洗數(shù)據(jù)使用過濾隱私數(shù)據(jù)答案改寫糾錯數(shù)據(jù)篩選數(shù)據(jù)去重多輪合并過濾隱私數(shù)據(jù)答案改寫糾錯數(shù)據(jù)篩選數(shù)據(jù)去重多輪合并多輪拆分相似檢索效果:日志挖掘提升指令覆蓋豐富度,提升指令理解渲染渲染圖表型財報分析:極端長寬比圖片圖像描述:一圖勝千言圖表型財報分析:極端長寬比圖片圖像描述:一圖勝千言更詳細的描述Q:騰訊上半年情況怎么樣?A:根據(jù)圖片中的財務表現(xiàn)摘要,騰訊2024年上半年的經(jīng)營盈利為103,288百萬元人民幣,每股盈利如下:攤薄每股盈利為9.377人民幣元因此,騰訊2024年上半年的經(jīng)營盈利為103,288百萬元人民幣,基本每股盈利為9.590人民幣元,攤薄每股盈利為9.377人民幣元。Q:Markdown形式列出騰訊經(jīng)營資料信息A:現(xiàn)狀:中文超越GPT-4V水平完成情況:6月評測結果與GPT-4o同處第一梯隊,位居國內第一總分:比GPT-4v高15.6分,比國內第2名高5.4分(75.9vs.躍分項能力:OCR,圖像分析推理,圖生文視覺數(shù)學,圖像內容創(chuàng)作,多輪對話等5項能力達到國內第一SuperCLUE-V多模態(tài)理解榜單(8月)位居國內應用能力應用能力卓越領導者騰訊Hunyuan卓越領導者騰訊Hunyuan-vision競爭梯隊國內大模型國外大模型技術探索者潛力探索者技術探索者[1]Gartner報告預測,到2030年,合成數(shù)據(jù)在AI模型中的使用將完全超過真實數(shù)據(jù)[2]除此之外,Epoch指出,自然數(shù)據(jù)在2026-2030不能滿足LLM訓練需求?指令數(shù)據(jù)合成與進化n基于MoE架構的多模態(tài)大模型技術路線?性能更優(yōu):相同訓練成本,MoE性能優(yōu)于稠?MoEScalingLaw業(yè)界公開可參考探索少?訓練穩(wěn)定性差,專家定義、負載不均衡或專家表征趨同?ScalingLaw:探索數(shù)據(jù)、參數(shù)、學習率(LR)、批量大小(BS)、Expert數(shù)量等縮放特性?路由機制:探索DomainRouting、共享專家Top-K路由、補償策略等?效率優(yōu)化:專家異構、層級異構、線性Attention、混合低精度等?“準確、及時、精細”的獎勵反饋是驅動大模型能力提?精細:過程式獎勵模型(PRM)帶來更大效果提升?關注用戶體驗,避免“高分低能”?Benchmark評測存在Bias,與真實用戶場景不同?評價標準覆蓋模型能力評測,與用戶體驗評測構建短視頻多模態(tài)理解框架,理解并提取用戶潛在商業(yè)需求與廣告營銷表達核心洞察提取多模態(tài)素材提取和理解核心洞察提取多模態(tài)素材提取和理解分享XX煙酰胺搓泥寶膏去角質效果商業(yè)價值:強混元多模態(tài)理解熱死了熱死了,我剛出去一會兒胳膊就曬成構建直播帶貨實時理解流程,識別不同時刻在播商品,及時捕獲用戶商業(yè)需求與廣告營銷表達直播間多模態(tài)內容提取和理解直播間多模態(tài)內容提取和理解商品1商品1:自行車商品2:滑行墊商品2:滑行墊商品3:羽毛球訓練器商品3:羽毛球訓練器騰訊視頻微信搜一搜騰訊視頻?需求:?需求:用大模型來提升復雜問題、代碼、數(shù)學、創(chuàng)作等生成類query的AI元寶AI搜索調用量?需求:解決模糊的、口語化、場景化的用戶找片搜索結果合格視頻源文件視頻幀圖基于混元內容審核大模型,信安人工審核提效22%,AMS廣告內容審核漏放率降低20%視頻源文件視頻幀圖審核1S(完整視頻20+min容易漏過騰訊文檔:思維圖表ToB:多模態(tài)小程序代碼生成,AI教育小助手?小程序編程場景:小程序教育版AI助手小程序教育版上線AI編程助手,面向師生推廣小程序開發(fā)教育,累計650+所試用學校,~200所已認證學校產(chǎn)品創(chuàng)新:支持專業(yè)復雜分析的個人助手ChatGPT技術演進展示了大模型在橫向多模態(tài)和縱向深度思考兩個維度上的持續(xù)創(chuàng)新2023.32024.9橫向:多模態(tài)2024.52024.2縱向:深度思考2022.112023.92023.32024.9橫向:多模態(tài)2024.52024.2縱向:深度思考2022.112023.9未來探索:往更深刻和更廣度的智能前進廣度理解認知空間全模態(tài)大模型拓寬與物理世界交互方式廣度理解認知空間全模態(tài)大模型拓寬與物理世界交互方式理解物理世界深度在環(huán)境中行動的能力在環(huán)境中行動的能力解決奧賽學科難題探索知識邊界29/67未來研究方向:探索智能的廣度各模態(tài)神經(jīng)網(wǎng)絡趨向統(tǒng)一文語言模型隱馬爾科夫模型HMM統(tǒng)計特征神經(jīng)網(wǎng)絡模型卷積神經(jīng)網(wǎng)絡CNN統(tǒng)一的神經(jīng)網(wǎng)Transformers大語言模型未來:未來:全模態(tài)過去:單模態(tài)?…現(xiàn)在:雙模態(tài)現(xiàn)在:雙模態(tài)?…定理證明系統(tǒng)AlphaProof生成證明代碼并與證明環(huán)境交互幾何求解系統(tǒng)AlphaGeometry2構造輔助條件使用幾何求解器2024.7:谷歌DeepMind2024.7:谷歌DeepMind發(fā)布數(shù)學大模型,今年IMO競賽中達到人類選手的銀牌水平2024.9:OpenAI發(fā)布GPT-o1模型開啟推理算力新ScalingLawAIME數(shù)學競賽:從GPT-4oAIME數(shù)學競賽:從GPT-4o的13%準確率提升至83%選手水平(金牌門檻359.71)混元進展:?使用自動化定理證明工具,利用自推理和規(guī)則合成方式構造高質量數(shù)理證明思維鏈數(shù)據(jù)?混元定理證明器在MiniF2F評測集取得業(yè)內領先的準確率?7B小模型也可解決部分學科競賽類問題Atari(2013)?2024.5月開源混元DIT:業(yè)界
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 武裝押運合同安全協(xié)議模板
- 殯葬服務一條龍合同協(xié)議
- 商場地推合作合同協(xié)議
- 歌手演出經(jīng)紀合同協(xié)議
- 商品驗收合同協(xié)議
- 檳榔園采摘合同協(xié)議
- 毽球場建設合同協(xié)議
- 2025全球合同范本
- 2025型集裝箱采購合同
- 商品過戶合同協(xié)議
- 敬老院食品安全培訓
- 大數(shù)據(jù)背景下企業(yè)財務風險分析與防范-以比亞迪公司為例
- 延髓梗死護理查房課件
- 醫(yī)院產(chǎn)科培訓課件:《地中海貧血的產(chǎn)前篩查》
- 8.1陶瓷器及宋代五大名窯(全國導游基礎知識-第五版-)
- 可愛卡通立冬手抄報
- 日本人的衣食住行課件
- 產(chǎn)品思維到用戶思維
- 華為成本控制 論文
- 仿生原理與創(chuàng)新設計課件
- 【自考練習題】大連理工大學概率論與數(shù)理統(tǒng)計真題匯總(附答案解析)
評論
0/150
提交評論