具身智能:決定機器人泛化能力天花板的“大小腦”_第1頁
具身智能:決定機器人泛化能力天花板的“大小腦”_第2頁
具身智能:決定機器人泛化能力天花板的“大小腦”_第3頁
具身智能:決定機器人泛化能力天花板的“大小腦”_第4頁
具身智能:決定機器人泛化能力天花板的“大小腦”_第5頁
已閱讀5頁,還剩103頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

機器人泛化能力天花板的“大小腦”分析師:聞學臣執(zhí)業(yè)證書編號:S0740519090007分析師:蘇儀分析師:聞學臣執(zhí)業(yè)證書編號:S0740519090007分析師:蘇儀執(zhí)業(yè)證書編號:S0740520060001執(zhí)業(yè)證書編號:S0740525030001n具身智能是一種基于物理身體進行感知和行動的智能系統(tǒng),其通過智能體與環(huán)境的交互獲取信息理解問題、做出決策并實現(xiàn)行動,從而產生智能行為和適應性。具體而言,具身智能在機器人上的應用體現(xiàn)可以劃分為三階段:感知、推理、執(zhí)行。n具身智能是機器人與人工智能發(fā)展的交匯點。機器人的通用性取決于泛化性的發(fā)展程度,自20世紀50年代以來,經過多輪發(fā)展,機器人開始從傳統(tǒng)的自動化工業(yè)場景機器人,向通用泛化場景的機器人方向發(fā)展。而人工智能在幾十年發(fā)展過后,在今天迎來了智能程度、通識程度更高的生成式大模型時代。在當前時間點,人工智能可以真正為機器人賦予“大腦”,機器人也可為人工智能提供“身體”,兩者深度融合,而融合的交點——具身智能,則是人工智能與機器人相互促進發(fā)展而形成的必然的產業(yè)趨勢。n目前具身大模型可以分為兩大流派,一類是端到端大模型,一類是分層具身大模型。1)端到端大模型:能夠直接實現(xiàn)從人類指令到機械臂執(zhí)行,即輸入圖像及文本指令,輸出夾爪末端動作。2)分層具身大模型:不同層次模型協(xié)作,上層大模型進行感知與決策,底層硬件層和中間響應快的小模型進行決策的分解與執(zhí)行。目前,由于受數(shù)據(jù)制約難以達到性能要求,端到端大模型尚未成為主流選擇,更多廠商還是選擇以分層模型為機器人的具身智能。?訓練具身大模型的痛點:數(shù)據(jù)。機器人需要用海量數(shù)據(jù)進行訓練,使其變得更加智能。但機器人是非常新的領域,嚴重缺乏訓練數(shù)據(jù)的積累。對應而言,目前主要的數(shù)據(jù)收集方法有四種:1)遠程操作,即由實驗人員操作機械手柄,遠程控制機器人做出相同動作,以此來積累數(shù)據(jù);2)AR,即通過AR環(huán)境對機器人進行訓練,積累數(shù)據(jù);3)仿真,即通過海量算力進行模擬運算,計算得出海量機器人訓練數(shù)據(jù)集;4)視頻學習,即通過多模態(tài)大模型,直接讓機器人通過視頻學習人類動作,從而積累訓練數(shù)據(jù)。n人形機器人產業(yè)未來展望:從專用到通用,從ToB到ToC。短期來看,任務相對聚焦,對泛化能力要求不高工業(yè)制造場景下的任務正在更快進入商業(yè)化階段。在工業(yè)制造場景實現(xiàn)商業(yè)化落地之后,海量機器人的具身數(shù)據(jù)疊加算力技術的進步,機器人的能力將循序漸進逐步解鎖,并向商用服務、家庭服務等更開放的場景進行延伸,屆時市場有望達萬n投資建議:作為機器人的“大小腦”,在硬件已達到較高工藝水平的情況下,具身智能的技術能力或將成為機器人發(fā)展的天花板。當前多家領軍機器人企業(yè)均已各自的方式在具身智能領域投入較多資源與精力,以提升自家機器人的泛化行為能力。我們建議投資人持續(xù)關注具身智能產業(yè)的技術變革突破、商業(yè)化落地路線、節(jié)奏與進展等。具體到標的上,建議關注索辰科技(物理AI、機器人子公司)、能科科技(特種行業(yè)AI能力領先)等。n風險提示:機器人產業(yè)相關政策落地不及預期;機器人商業(yè)化落地推進不及預期;AI與具身智能產業(yè)技術發(fā)展不及預期;行業(yè)競爭加?。谎袌笮畔⒏虏患皶r的風險等。11223344什么是具身智能具身智能:機器人與AI的交匯具身大模型賦能人形機器人蛻變具身智能賦能下,未來機器人發(fā)展方向 n具身智能的定義:一種基于物理身體進行感知和行動的智能系統(tǒng),其通過智能體與環(huán)境的交互獲取信息理解問題、做出決策并實現(xiàn)行動,從而產生智能行為和適應性。?具身智能的實質:強調有物理身體的智能體通過與物理環(huán)境進行交互而獲得智能的人工智能研究范式。n從機器人的角度出發(fā),具身智能在機器人上的應用體現(xiàn)可以劃分為三階段:感知、推理、執(zhí)行。n機器人需要具備環(huán)境感知能力,依據(jù)感知對象的不同,可以分為四類:物體感知、場景感知、行為感知、表達感知。n具身感知的過程主要包括以下幾步:n具身感知的過程主要包括以下幾步:任務規(guī)劃、導航、具身問答。n任務規(guī)劃:任務規(guī)劃(TaskPlanning)是具身智能的核心任務之一,將抽象的非可執(zhí)行人類指令轉換為具體的可執(zhí)行技能。這一步驟的完成需要兩步:1)將人類指令分解為機器人可執(zhí)行的技能,2)執(zhí)行技能。n結合大模型的任務規(guī)劃:大模型作為轉換器、大模型作為分解器。?作為轉換器:LLM+P,用LLM將狀態(tài)信息描述成PDDL語言再進行規(guī)劃,取代以往需要人工針對實際問題書寫PDDL語言對任務進行建模;?作為規(guī)劃器:可以zero-shot進行任務規(guī)劃。資料來源:哈爾濱工業(yè)大學,中泰證券研究所資料來n具身導航(EmbodiedNavigation):智能體在3D環(huán)境中移動完成導航目標。n早期的具身導航,通過構建一系列基于規(guī)則的組件和算法,實現(xiàn)有效的環(huán)境感知、定位、路徑規(guī)劃和避障。而基于學習的導航則利用深度學習與強化學習技術,提高模型對復雜環(huán)境和新場景的泛化能力。不同于傳統(tǒng)算法依賴預定義的規(guī)則和手工設計的特征,基于學習的導航算法從大量數(shù)據(jù)中學習環(huán)境特征和導航策略,實現(xiàn)強自適應性和高靈活性。?視覺導航:基于學習的導航的一個重要分支,它依靠計算機視覺來理解環(huán)境信息并做出導航決策。?視覺語言導航:通過自然語言指令和視覺圖像進行導航的任務,其目標是開發(fā)一種能夠與人類進行自然語言交流并在現(xiàn)實3D環(huán)境中導航的具身智能體。1)大模型出現(xiàn)之前:主要通過RNN,LSTM,Transformer等網絡來提取命令中的語義信息;2)大模型出現(xiàn)后:利用大模型作為輔助來幫助規(guī)劃器輸出規(guī)劃或者大模型直接作為規(guī)劃器來輸出規(guī)劃。圖表:具身導航的發(fā)展階段n具身問答:機器人需要主動探索環(huán)境,定位目標物體或位置獲取環(huán)境中的信息,然后基于獲取的信息回答問題。該任務可視為導航、VQA任務的結合。?相比于VQA等已有問答任務,具身問答的特點在于機器人具有主動行動能力。n具身執(zhí)行,就是把任務具體執(zhí)行出來,其中最重要的環(huán)節(jié)就是技能學習。n技能學習:以技能描述、環(huán)境觀察為輸入,輸出完成技能所需的7Dof軌跡(主要指人手腕或者機械臂末端執(zhí)行器的位置、朝向、末端狀態(tài))。技能學習主要有兩類方法:?模仿學習:收集專家演示數(shù)據(jù),用神經網絡擬合。?強化學習:設計獎勵函數(shù),機器人通過交互學習行為策略。?兩者的差別在于:模仿學習是從樣例中學習,機器人學習過程中不與環(huán)境進行交互;而強化學習從交互中學習,機器人學習過程中與環(huán)境進行交互。2具身智能:機器人與AI的交匯n在上個世紀六十年代,人類已經制造出機器人并且可以控制其執(zhí)行給定的動作。但是對于復雜抽象的人類指令,早期需要專家人工設計動作軌跡,然后再由機器人執(zhí)行。一個理想中的智能機器人應該是“通用”的,可以適用于各種場景,進行推理決策并執(zhí)行相關技能,完成各種任務。n從人工設計專門的程序到通用型智能機器人,存在著巨大的技術發(fā)展空間,其中最關鍵的問題之一即為泛化性,包括人類指令、環(huán)境配置、物體形狀位置、機器人類別上的泛化性。泛化性描述了機器人因為學習場景和應用場景的任務設置不一致導致的性能變化情況,這衡量了機器人在特定維度上的通用性。n從泛化性的角度來看,智能機器人技術可以劃分為以下幾個階段,其對應泛化性逐漸變強。n從歷史的角度來看,工業(yè)機器人的硬件進化不斷發(fā)展,從自動化設備到移動機器人,從協(xié)作機器人到人形機器人,每一步都代表著技術的進步和創(chuàng)新。當下,已經進入了AI大模型與機器人在底層技術創(chuàng)新和應用融合的交叉時代。n技術的每一次進步都會帶來機器人應用場景的突破,且一般會在精準、重復的工業(yè)場景作業(yè)流程中率先得到應用。未來,如何提升智能機器人在開放場景的可用性,是具身智能正在解決的問題。n在機器人領域的應用上,生成式AI技術正在兌現(xiàn)提升機器人關鍵能力的潛力,在環(huán)境感知、自主決策、學習與適應等多個方面均有表現(xiàn)。n基于網絡數(shù)據(jù)訓練的大模型似乎正在觸及AI認知的邊界,ScalingLaw下的預訓練大模型性能似乎快要達到極限,參數(shù)量和數(shù)據(jù)量的擴充已經難以給模型帶來質的突破。AI想要進一步發(fā)展,必須與物理世界建立更加緊密的聯(lián)系,具身智能將是AI繼續(xù)向AGI進步的關鍵途徑。n人工智能和機器人技術的發(fā)展并非孤立進行,而是相互促進、共同演進的。人工智能為機器人賦予了“大腦”,使其具備感知、思考和決策能力;而機器人則為人工智能提供了“身體”,使其能夠與真實世界進行交互,獲取經驗和知n具身智能的興起是人工智能和機器人技術各自發(fā)展到一定階段的必然結果,是兩者深度融合的體現(xiàn)。人工智能的持續(xù)進步需要與物理世界的交互能力,而機器人的未來發(fā)展也離不開更高級別的智能化水平。n如果說OpenAI的ChatGPT引爆了2023年對大語言模型的投資熱潮,那么Tesla入局人形機器人和黃仁勛的“AI的下一個浪潮是具身智能”,則徹底帶火了具身智能與人形機器人領域的投資熱潮,成為2024年科技產業(yè)投資的最大熱點。n從投資角度看,頭部人形機器人的本體研發(fā)集成廠商已經歷多輪融資,估值較高,行業(yè)整體投資熱點正從人形機器人本體向具身智能模型和其他上游零部件遷移。FigureAI2024年2月6.星海圖2024年11月超2億元3具身大模型賦能人形機器n從物理空間的角度來劃分,大模型可以分為非具身大模型(DisembodiedModel)、具身智能大模型(又被叫做機器人大模型)(EmbodiedVLAModel)。它們的區(qū)別是能否生成運動姿態(tài)(例如夾爪的末端位姿等),即是否能跟物理機器人聯(lián)系起來。n目前,具身大模型可以分為兩大流派。一類是端到端大模型,一類是分層具身大模型。?從人體“大腦-小腦-肢體”的架構來看,分層大模型通過不同層次模型協(xié)作,利用底層硬件層和中間響應快的小模型彌補上層大語言模型的不足,推動機器人在實際場景的應用,并越來越多地采用基于學習的控制方法。?VLA等端到端模型能夠直接實現(xiàn)從人類指令到機械臂執(zhí)行,即輸入圖像及文本指令,輸出夾爪末端動作。?分層式路線一度是主流選擇,因為端到端路線受數(shù)據(jù)制約難以達到性能要求;機器人數(shù)據(jù)正在逐步積累,端到端路線在未來可能成為主流。Vision-Language-ActionModel,中泰證券研n在機器人中,端到端大模型可實現(xiàn)直接端到端地從人類指令到機械臂執(zhí)行,即輸入是圖像及文本指令,輸出是夾爪末端動作。以谷歌的RT-1到RT-2的進化迭代為例:?谷歌RT-1——關注泛化能力:2022年,谷歌機器人研究團隊歷時17個月基于13個機器人得到了130kepisodes以及超過700個任務的數(shù)據(jù),在該數(shù)據(jù)集的基礎之上,基于模仿學習中行為克隆學習范式,把Transformer應用機器人的操縱任務上,提出了RT-1模型。RT-1的輸入由圖片序列、自然語言指令構成,輸出由機械臂運動的目標位姿(Toll,pitchgaw,gripperstαtus)、基座的運動、模式轉換指令構成。?谷歌RT-2——獲得涌現(xiàn)能力:2023年,Google的DeepMind團隊基于互聯(lián)網上數(shù)據(jù)訓練視覺-語言模型(VLM),使其能夠學習到更多關于視覺和語言之間映射關系的知識后,在機器人操縱任務上微調,提出了RT-2。RT-2的目標是訓練一個學習機器人觀測到動作的端到端模型,且能夠利用大規(guī)模預訓練視覺語言模型的益處,經測評,這類學習方法產生的Vision-Language-Action(VLA)模型獲得了涌現(xiàn)能力。資料來源:機器人大講堂,騰訊網,中泰證券研究所資料n以谷歌RT-2發(fā)布為標志,VLA模型正式進入人們的視野中并快速發(fā)展。nVLA模型是在視覺語言模型(VLM)的基礎上發(fā)展而來的。在VLM基礎上,它還利用了機器人或汽車運動軌跡的數(shù)據(jù),進一步訓練這些現(xiàn)有的VLM,以輸出可用于機器人或汽車控制的動作序列。通過這種方式,VLA可以解釋復雜的指令并在物理世界中執(zhí)行相應的動作。?端到端架構:VLA是一個端到端的大模型,這意味著它可以簡化傳統(tǒng)上需要多個獨立模塊才能完成的任務流程。這不僅可以提高系統(tǒng)的效率,還能增強其靈活性和適應性。?泛化能力:VLA具有強大的泛化能力。以谷歌DeepMind推出的RT-2為例,該模型可以在新的物體、背景和環(huán)境中表現(xiàn)出顯著改善的性能。它可以理解并響應那些在訓練數(shù)據(jù)集中未曾出現(xiàn)過的命令,并基于底層語言模型提供的思路鏈進行推理,從而做出合理的決策。?通用性:VLA具備高度的通用性。由于它是建立在一個通用的大規(guī)模預訓練基礎上,因此理論上幾乎所有的“智能機器設備”都可以使用這套算法。無論是汽車、飛行器還是其他類型的機器人,只需要經過適當?shù)奈⒄{就能滿足特定應用場景的需求。?數(shù)據(jù)來源非常有限:谷歌在MountainVillage(美國加州)辦公室的廚房里采集了17個月,得到13萬條數(shù)據(jù),使得其機器人在谷歌的廚房里表現(xiàn)可以非常好。但一旦出了這個廚房,需要考察其環(huán)境泛化性,它的成功率就從97%驟降到30%左右。并且這種泛化是有選擇的泛化,不是將其直接放到施工工地、非常嘈雜的后廚等場景中。?推理、響應速度仍有待提升:RT-2大模型中包含了谷歌上一代大模型PaLM-E,它的速度只能達到1~3Hz,對應機器人的反射弧長達0.3秒甚至1秒。n分層決策模型通過將感知、規(guī)劃決策、控制和執(zhí)行各模塊分解為多個層級,分別突破“大腦”和“小腦”,利用不同的神經網絡進行訓練,最終再整合起來。?一個典型案例如Figure02。Figure02采用三層級方案:1)頂層集成了OpenAI的大模型,負責視覺推理和語言理解;2)中間層是神經網絡策略(NNP),負責快速、靈巧的操作,將視覺信息直接轉換為動作指令,并輸出這些指令;3)底層是全身控制器,負責提供穩(wěn)定的基礎控制,在接收NNP的動作指令后,輸出各關節(jié)的扭矩指令。?另一典例如銀河通用的三層級大模型方案。1)底層是硬件層,2)中間層是通過仿真合成數(shù)據(jù)不用任何真實世界數(shù)據(jù)訓練的泛化的技能,3)最上層是大模型,可以調度中間技能API,來實現(xiàn)完整的從任務的感知、規(guī)劃到執(zhí)行的全流程。資料來源:AI科技評論,網易,中泰證券研究所資料來源:智東西,騰訊網,中泰證券研究所3.3分層模型中,大模型為“大腦”n在分層端到端模型方案中,機器人的四大板塊(感知、規(guī)劃決策、控制和執(zhí)行),逐漸被類人化地劃分為負責解決高層次認知或決策問題(highlevel)的“大腦”,以及負責基礎層面的功能性問題(lowlevel)的“小腦”。兩大系統(tǒng)各司其職又互相合作,“大腦”負責解析任務需求,整合來自傳感器的信息,進行任務的細化和策略規(guī)劃;“小腦”則專注于精細的運動控制,確保在“大腦”制定的策略指導下,機器人能夠準確無誤地執(zhí)行動作并進行必要的調整。目前較為普遍的方向是,機器人的“大腦”由大模型來擔任,“小腦”則依然為底層控制算法。n大腦:負責highlevel的感知和規(guī)劃決策系統(tǒng),是多模態(tài)大模型。基于多模態(tài)大模型,機器人能學習、理解、融合和對齊各傳感器采集而來的跨模態(tài)信息,實現(xiàn)對復雜環(huán)境的魯棒建模與更精準、通用的感知,并根據(jù)環(huán)境情況,自主拆解任務、規(guī)劃動作。n目前基于大模型的“大腦”技術路線正處在并行探索階段,并逐漸向端到端的大模型演進?,F(xiàn)階段主要是4條技術路線:?LLM(大語言模型)+VFM(視覺基礎模型):實現(xiàn)人機語言交互、任務理解、推理和規(guī)劃,目前最為成熟。主要代表是谷歌的SayCan模型。?VLM(視覺-語言模型):彌合語言與視覺理解間的差距,實現(xiàn)更準確的任務規(guī)劃和決策,主要代表是清華大學的CoPa模型,利用嵌入在基礎模型(比如視覺語言模型的代表GPT-4V)中的常識知識為開放世界機器人操控生成一系列的自由度末端執(zhí)行器姿勢,生成的操控任務分為任務導向抓取和感知運動規(guī)劃。?VLA(視覺-語言-動作模型):在VLM基礎上增加運動控制,解決機器人運動軌跡決策問題。主要代表是谷歌RT-H模型,學習語言和運動,并使用視覺上下文,通過利用語言-視覺-動作結合的多任務數(shù)據(jù)集學習更強大和靈活的動作策略?多模態(tài)大模型:實現(xiàn)對物理世界環(huán)境的全面感知,是未來的主要研究方向。主要代表是麻省理工、IBM等共同研究的MultiPLY模型,將視覺、觸覺、語音等3D環(huán)境的各類特征作為輸入,以形成場景外觀的初步印象,并通過多視圖關聯(lián)將印象中的輸出融合到3D,最終得到以對象為中心的場景特征。n“小腦”的運動規(guī)劃與控制是人形機器人實現(xiàn)自然和流暢動作的關鍵。目前,“小腦”運動控制包括基于模型的控制方法和基于學習的控制方式兩個大類。?傳統(tǒng)的基于模型的控制方法:通過建立機器人的運動學和動力學模型,進行運動軌跡規(guī)劃和平衡控制。這一類方法的特點是身體控制穩(wěn)健,但步頻較慢,且整體開發(fā)較為復雜,成本高,不利于產品快速迭代。基于模型的控制方法具體包括ZMP判據(jù)及預觀控制、混雜零動態(tài)規(guī)劃方法、虛擬模型解耦控制、模型預測控制+全身控制(MPC+WBC)等。?基于學習的控制方法:使用端到端的人工智能技術,代替復雜的運動學模型,大幅度降低了“小腦”開發(fā)難度、提升了迭代速度,一般通過人類示教或自主學習建立運動執(zhí)行策略,其中通過人類示教的方式也稱為模仿學習,效果依賴高質量示范數(shù)據(jù);通過自主學習的方式也稱為強化學習(ReinforcementLearning,RL),指通過精心設計學習目標,機器人不斷在環(huán)境中探索逐漸發(fā)現(xiàn)最大化獎勵的方式學習到最優(yōu)的執(zhí)行策略,效果依賴于仿真環(huán)境。n根據(jù)智元機器人定義的路線圖,當前具身智能大腦已經具備認知、推理、規(guī)劃的能力,且而小腦層面機器人技能任務的訓練也是通過深度學習以驅動的。隨著場景、數(shù)據(jù)的增多,多個特定小模型會逐漸泛化為通用操作大模型,并最終實現(xiàn)與上層模型的融合。n一些對人類來說很簡單的任務,對機器人來說可能并不容易,如靈巧性能力、空間感知能力、平衡恢復能力等,為了克服這些問題,需要用海量數(shù)據(jù)進行訓練,使機器人變得更加智能。n但同時,機器人也是一個非常新的領域,嚴重缺乏訓練數(shù)據(jù)的積累。對比不同模態(tài)下的最大數(shù)據(jù)集,文本模態(tài)約15Ttokens,圖片模態(tài)有6B圖文配對數(shù)據(jù),視頻模態(tài)有2.6B視聽特征數(shù)據(jù)。然而機器人模態(tài)只有240萬個數(shù)據(jù)片段,相比其他模態(tài)而言,數(shù)據(jù)積累遠遠不夠。n針對數(shù)據(jù)這一問題,業(yè)界形成了四種流派,以快速積累機器人訓練數(shù)據(jù),分別是遠程操作、AR、仿真、視頻學習。資料來源:Coatue,中泰證券研究所n遠程操作,即由實驗人員操作機械手柄,遠程控制機器人做出相同動作,以此來積累數(shù)據(jù)。?近期的研究通過多個操作員協(xié)作收集了大規(guī)模多樣化的數(shù)據(jù)集,結果表明,基于這些數(shù)據(jù)集訓練的機器人表現(xiàn)出色,甚至能夠在不同環(huán)境中泛化。n然而,數(shù)據(jù)采集是這一方法更廣泛應用的主要瓶頸。?在單臂機器人任務中,數(shù)據(jù)采集通常需要多個操作員、機器人以及數(shù)月的人力投入。針對類人機器人的數(shù)據(jù)采集則更具挑戰(zhàn)性,因為同時控制多只手臂和多指靈巧手的復雜性較高。?為了實現(xiàn)類人機器人的實時遠程操作,研究人員開發(fā)了專門的遠程操作界面,但這些界面的成本高昂,難以實現(xiàn)規(guī)模化。類人機器人的任務復雜性也更高,因此數(shù)據(jù)需求更大,但由于操作員需同時控制多臂和多指手,工作負擔大幅增加,數(shù)據(jù)采集也更加困難。資料來源:Coatue,中泰證券研究所n所謂仿真,即通過海量算力進行模擬運算,計算得出海量機器人訓練數(shù)據(jù)集。仿真可能是目前最有可能做到規(guī)模化數(shù)據(jù)生成的路徑,不過其背后需要巨大的算力支持。n2024年11月,來自英偉達、UTAustin和UCSD的研究人員推出了一種大規(guī)模自動化數(shù)據(jù)生成系統(tǒng)——DexMimicGen。它可基于少量人類演示合成類人機器人的靈巧手運動軌跡,幫助實現(xiàn)在更少人工干預下擴大類人數(shù)據(jù)的采集。?DexMimicGen的核心思想是利用一小組人類演示,并通過在物理仿真中進行演示轉換和重放,自動生成大量適用于雙手靈巧操作場景中模仿學習的訓練數(shù)據(jù)。例如,從僅5個源人類演示開始,DexMimicGen可以生成1000個雙手靈巧任務的演示。研究團隊從60個源人類演示中總共生成了21000個演示,涵蓋了9種不同的任務。?研究團隊發(fā)現(xiàn),相較僅依賴源演示,DexMimicGen大幅提升了策略成功率,所有任務中基于DexMimicGen數(shù)據(jù)集訓練的機器人表現(xiàn)明顯優(yōu)于僅基于少量源數(shù)據(jù)訓練的機器人。且隨著DexMimicGen數(shù)據(jù)量的增加,策略的性能也隨之提升。圖表:DexMimicGen大幅提升了策略的成功率圖表:隨著DexMimicGen數(shù)據(jù)量的增加,策略的性能也隨之提升資料來源:新智元,36氪,中泰證券研究所資料來源:新智元,36氪,Github,中泰證券研究所32n在一項名為《ExplainableHuman-RobotTrainingandCooperationwithAugmentedReality》的研究中,研究人員通過AR(增強現(xiàn)實)技術讓人機交互過程具備更強的可解釋性,從而進行數(shù)據(jù)積累。n2024年10月,斯坦福李飛飛團隊發(fā)表論文《ARCap:CollectingHigh-qualityHumanDemonstrationsforRobotLearningwithAugmentedRealityFeedback》,提出了ARCap系統(tǒng)。?ARCap是一種便攜式數(shù)據(jù)收集系統(tǒng),它通過增強現(xiàn)實(AR)和觸覺警告提供視覺反饋,以指導用戶收集高質量的演示。ARCap使新手用戶能夠收集與機器人運動學相匹配的機器人可執(zhí)行數(shù)據(jù),并避免與場景發(fā)生碰撞。利用從ARCap收集的數(shù)據(jù),機器人可以執(zhí)行具有挑戰(zhàn)性的任務,例如在雜亂的環(huán)境中進行操作和長視野跨具身操作。?ARCap完全開源且易于標定;所有組件均由現(xiàn)成的產品構建。圖表:研究人員通過AR指導機器人行為,機器人在AR場資料來源:ExplainableHuman-RobotTrainingandCoopen視頻學習,即通過多模態(tài)大模型,直接讓機器人通過視頻學習人類動作,從而積累訓練數(shù)據(jù)。?考慮到直接學習人類操作、人類遠程操控等方式的示教成本較高,“從人類視頻中學習”已成為機器人的主流訓練方法之一,如直接通過YouTube視頻進行策略學習。?但視頻學習同樣有自己難以解決的問題:1)控制上:不同于以往的示教方法(如遙操作示教及拖動示教),視頻示教沒有提供機器人本體的motion數(shù)據(jù),agent需要僅根據(jù)演示視頻生成action。2)感知方面,讓機器人理解人類演示視頻也具有很大挑戰(zhàn),機器人與人類的視角不同,并且人類演示視頻中,每一幀是人手臂的運動圖像,而機器人捕獲的圖像是機械臂的運動圖像,這些原因導致了演示視頻與機器人感知的圖像之間存在gap。資料來源:LearningbyWatching:Phn2024年12月,宇樹開源了一系列數(shù)據(jù)采集工具和數(shù)據(jù)集。?數(shù)據(jù)采集工具包括但不限于:1)針對開源機器人系統(tǒng)R(obot)OS推出的模擬包,包含宇樹系列機器人的質量、慣量、力矩等參數(shù);2)使用蘋果VisionPro對G1進行遙操作控制的倉庫,可以用于數(shù)據(jù)采集;3)RLGYM,用于機器人仿真訓練,之前開源了英偉達IssacGym平臺上的訓練代碼,這次新增了對MuJoCo模擬仿真的支持。?數(shù)據(jù)集:包含五種操作,使用配備有三指靈巧手的宇樹G1人形機器人收集,每張圖分辨率為640×480,每個手臂和靈巧手的狀態(tài)和動作維度為7,可使機器人完成擰瓶蓋倒水、疊放積木等操作。n在數(shù)據(jù)采集環(huán)節(jié),宇樹運用了蘋果VisionPro進行G1的遙操作控制,該數(shù)據(jù)集采用640x480分辨率的圖像,并記錄了機器人手臂和靈巧手的七維狀態(tài)和動作數(shù)據(jù)。圖表:宇樹開源的數(shù)據(jù)采集工具項目資料來源:量子位,中泰證券研究所資料來源:量子位n特斯拉在AI系統(tǒng)訓練中采取的是以真實數(shù)據(jù)為驅動的策略。為訓練Optimus機器人執(zhí)行類人動作,特斯拉大量招募“數(shù)據(jù)收集操作員”,要求其穿戴動作捕捉服、VR頭顯等設備,模擬機器人需完成的動作(如行走、搬運物品)。Optimus的核心亮點之一在于其利用動作捕捉技術,以及VR和AR技術的融合應用,以實現(xiàn)更為真實的人類動作模擬。n以波士頓動力的Atlas人形機器人為例,Atlas依靠其視覺系統(tǒng)進行任務排序的推理,低層控制器進行行動規(guī)劃。而不管是“大腦”視覺系統(tǒng)還是“小腦”控制系統(tǒng),都離不開數(shù)據(jù)訓練。nAtlas的訓練過程融合了多個數(shù)據(jù)來源,包括真實工廠部署數(shù)據(jù)、實驗室測試數(shù)據(jù)以及仿真環(huán)境中的模擬數(shù)據(jù)。通過對這些數(shù)據(jù)進行強化學習,不斷訓練、調優(yōu)規(guī)控算法,Atlas能夠逐步掌握類似人類的精細操作技能。nFigureAI創(chuàng)建于2022年,相較于國內外幾家知名機器人公司成立時間較晚,側重于研究具身人工智能發(fā)展。nFigureAI基于端到端運動控制算法,結合OpenAI的GPT,先于特斯拉公開展示了人形機器人在無需預設程序的情況下的高度自主性和智能化交互,形成模型訓練-云端設施-車廠落地的閉環(huán)。n近期,結束與OpenAI的合作后,F(xiàn)igureAI實現(xiàn)將首個自研具身模型Helix裝入機器人Figure。預告中展示了通過通用的“視覺-語言-感知”(VLA)模型Helix訓練機器人,將感知、語言理解和學習控制統(tǒng)一起來,展示出較大的多機協(xié)作與強大的泛化功能。其原理包括雙系統(tǒng)建構、端到端訓練、解耦架構、優(yōu)化推理部署。資料來源:FigureAI官方社媒,51CTO.c資料來源:FigureAI官方社媒,中泰nHelix是一個通用的“視覺-語言-感知”(VLA)模型,將感知、語言理解和學習控制統(tǒng)一起來,可以通過自然語言直接控制人形機器人整個上半身。nHelix是首創(chuàng)的“系統(tǒng)1、系統(tǒng)2”VLA模型,用于對整個仿人上半身進行高速、靈巧的控制。之前的方法面臨著一個基本的權衡:VLM骨架通用但不快速,而機器人視覺運動策略快速但不通用。Helix通過兩個互補系統(tǒng)解決了這一問題,這兩個系統(tǒng)經過端對端訓練,可以進行通信:?系統(tǒng)2:經過互聯(lián)網訓練的板載VLM,工作頻率為7-9Hz,用于場景理解和語言理解,可廣泛應用于各種物體和環(huán)境。?系統(tǒng)1:快速反應視覺運動策略,將系統(tǒng)2生成的潛在語義表征轉化為200Hz的精確連續(xù)機器人動作。n這種解耦架構允許每個系統(tǒng)以其最佳時間尺度運行,系統(tǒng)2可以“慢思考”高層次目標,而系統(tǒng)1則可以“快思考”實時執(zhí)行和調整動作。n在訓練效率方面,Helix以極少的資源實現(xiàn)了圖表:Helix:用于整個上半身控制的“系統(tǒng)1、系統(tǒng)2”VLA強大的對象泛化能力。研究團隊總共使用了約500小時的高質量監(jiān)督數(shù)據(jù)對Helix進行訓練,其規(guī)模僅為之前收集的VLA數(shù)據(jù)集的一小部分(<5%),并且不依賴于多機器人-具身收集或多階段訓練。n同時,Helix只需一個統(tǒng)一的模型,就能在不同任務中實現(xiàn)強大的性能。Helix的系統(tǒng)2參n銀河通用機器人有限公司成立于2023年,專注于通用具身多模態(tài)大模型機器人研發(fā),并與北京大學等多所高校成立了具身智能相關聯(lián)合實驗室。銀河通用研發(fā)的端到端具身抓取基礎大模型GraspVLA及基于仿真數(shù)據(jù)驅動的訓練范式,能夠顯著提升機器人在復雜環(huán)境下的操作精度與適應性,尤其在處理多變材質、動態(tài)工況等挑戰(zhàn)場景中展現(xiàn)出卓越優(yōu)勢。nGraspVLA的訓練包含預訓練和后訓練兩部分。其中預訓練完全基于合成大數(shù)據(jù),訓練數(shù)據(jù)達到了十億幀“視覺-語言-動作”對,掌握泛化閉環(huán)抓取能力、達成基礎模型。而針對特別需求,后訓練僅需小樣本學習即可遷移基礎能力到特定場景,維持高泛化性的同時形成符合產品需求的專業(yè)技能。n整個開發(fā)過程無需大規(guī)模真實數(shù)據(jù)、僅通過合成數(shù)據(jù)達到基礎模型,開創(chuàng)了VLA領域發(fā)展的全新范式。n2024年,智元機器人在上海建了一座數(shù)據(jù)采集工廠,該數(shù)據(jù)采集工廠投入使用兩個多月,就采集了超百萬量級真機數(shù)據(jù)集,采集任務超一千種?,F(xiàn)在智元數(shù)據(jù)采集工廠投放了近百臺機器人,日均采集3-5w條數(shù)據(jù)。n12月30日,智元機器人宣布開源AgiBotWorld(智元世界)。智元AgiBotWorld數(shù)據(jù)集包含超過100萬條真實機器人操作數(shù)據(jù),覆蓋家居(40%)、餐飲(20%)、工業(yè)(20%)、商超(10%)和辦公(10%)五大場景,涵蓋80余種日常技能(如抓取、折疊、熨燙)和3000多種真實物品。數(shù)據(jù)質量從實驗室級上升到工業(yè)級標準。n2025年2月,智元機器人宣布推出自主研發(fā)的大型仿真框架AgiBotDigitalWorld,為機器人操作提供靈活的仿真數(shù)據(jù)生成方案、預訓練的大規(guī)模仿真數(shù)據(jù)和統(tǒng)一的模型評測標準,同步開源海量仿真數(shù)據(jù)。圖表:智元具身智能數(shù)據(jù)系統(tǒng)AIDEA資料來源:焉知科技,中泰證券研究所資料來源:智元機器人,第一財經,中泰證券研究所n在優(yōu)必選內部,人形機器人訓練的數(shù)據(jù)的收集有這樣一個“二八定律”:用于人形機器人訓練的20%的數(shù)據(jù),由真實的機器人在實際場景中進行遙操作收集而來,80%的數(shù)據(jù)則是在仿真環(huán)境下生成而來。因此,優(yōu)必選搭建了人形機器人智能仿真系統(tǒng)UNDERS2,可以低成本地為人形機器人模擬和生成多樣化的場景。n同時,優(yōu)必選通過與比亞迪、吉利、東風柳汽等車企合作,將人形機器人(如WalkerS系列)部署在總裝車間實訓,打造人形機器人與無人物流車等協(xié)同作業(yè)的工業(yè)場景解決方案。n目前優(yōu)必選正在人形機器人應用場景中驗證DeepSeek技術的有效性,如多模態(tài)人機交互、復雜環(huán)境中的指令理解、工業(yè)場景中的任務分解與規(guī)劃等,有望利用推理大模型的深度思考能力解決復雜任務中的挑戰(zhàn)。圖表:優(yōu)必選人形機器人智能仿真系統(tǒng)UNDERS2資料來源:澎湃新聞,中泰證券研究所資料來源nGR-1:VR動作捕捉,實現(xiàn)Sim2Real。傅利葉研發(fā)團隊率先在安全可控、低成本的仿真環(huán)境中訓練GR-1,再將訓練好的模型遷移到現(xiàn)實世界(Sim2Real)。這種方式大幅提升了算法的迭代開發(fā)效率,降低了算法開發(fā)的總體成本。研發(fā)人員穿戴VR和動作捕捉設備,遙操控制GR-1完成各種任務,記錄動作數(shù)據(jù),用于訓練和改進仿真模型,優(yōu)化機器人運動控制策略,增強在現(xiàn)實中的表現(xiàn),像人類一樣靈活決策,完成各種任務。n利用NVIDIAIsaacGym開發(fā)人形機器人GR-2:傅利葉團隊采用了NVIDIAIsaacGym(現(xiàn)已棄用)進行強化學習,利用NVIDIAIsaacGym開發(fā)人形機器人GR-2,目前正在將其工作流遷移到NVIDIAIsaacLab。同時利用IsaacGym對抓取算法進行預訓練,在實際部署前,對成功率進行仿真測算。這種方法顯著減少了真實世界中的試錯,節(jié)省了時間和資源。GR-2支持VR遙操作控制、拖拽示教、上位機末端控制等多種上肢示教方式。4具身智能賦能下,未來機n從迭代路徑看,ToB市場是人形機器人發(fā)展的必經階段,ToC市場將成為遠期重點方向。n從技術領域看,“大腦”“小腦”屬于ICT領域,“肢體”屬于工業(yè)裝備領域,兩個領域應協(xié)同發(fā)力,融合發(fā)展。但不同階段的發(fā)力重點各有側重。?在產業(yè)落地初期、應用規(guī)模較小時,人形機器人能否落地的重要因素就是其智能化水平;在大規(guī)模應用階段,成本問題成為核心因素。n人形機器人落地應用節(jié)奏判斷:圖表:具身智能機器人應用場景節(jié)奏預測?1)在工業(yè)制造場景,機器人的任務執(zhí)行和流程和任務本身有高度規(guī)則性,機器人具備極高的勞動力替代性。2)而服務場景更加開放,相關任務更加多樣化,更加不可預測,需要機器人具備更強的自主決策能力與泛化適應性。n機器人在C端的應用最具想象力,但短期來看,任務相對聚焦,對泛化能力要求不高工業(yè)制造場景下的任務正在更快進入商業(yè)化階段。n在工業(yè)制造場景實現(xiàn)商業(yè)化落地之后,海量機器人的具身數(shù)據(jù)疊加算力技術的進步,機器人的能力將循序漸進逐步解鎖,并向商用服務、家庭服務等更開放的場景進行延伸,屆時市場有望達萬億級。n根據(jù)中國信通院的研究,人形機器人或將分三個階段商業(yè)化落地。?第一階段(2024—2030年):通過政策牽引,深入挖掘危險作業(yè)、極端環(huán)境等高價值場景,遴選一批可落地可推廣的典型需求。政府搭橋,推動特種應用場景供需雙方對接,定向開發(fā)一批產品并落地應?第二階段(2030—2035年加快探索工業(yè)制造、物流等制造業(yè)相關的大規(guī)模應用場景,從“替代相對簡單且重復性的勞動”開始,成熟一代應用一代,在迭代中加速技術成熟、降低單體成本、提升整體性能,逐步提高對制造業(yè)場景的滲透率。?第三階段(2035年后加強人工智能與人形機器人的融合創(chuàng)新,實現(xiàn)更高水平的具身智能,并推動人形機器人進入醫(yī)院、學校、商場、餐廳等服務業(yè)場景,最終走入千家萬戶n工業(yè)制造流程的特點使得該場景在具身智能技術落地應用方面占據(jù)先發(fā)優(yōu)勢,如柔性生產需求迫切、工作環(huán)境結構化程度高、成本效益優(yōu)勢突出等需求特點,刺激著工業(yè)制造場景客戶對工業(yè)具身智能的應用更加期待。n工業(yè)具身智能機器人能夠有效提升工廠生產任務的靈活性與適應性,并在作業(yè)過程中實現(xiàn)自主學習,不斷增強其復雜任務執(zhí)行能力與操作精度。n具身智能的訓練需要數(shù)據(jù),而質量更高的數(shù)據(jù)需要從真實場景中來,機器人落地最快的場景仍然是場景相對封閉的工業(yè)制造場景,越早實現(xiàn)規(guī)模化落地,就有望越早實現(xiàn)模型的能力提升。圖表:工業(yè)場景率先應用具身智能的原因資料來源:甲子光年,中泰證券研究所資料來源:甲子光年,中泰證券研究所n配天機器人是一家專注于工業(yè)機器人、核心零部件及行業(yè)自動化解決方案的提供商,是京城機電旗下的國家級高新技術企業(yè)。公司始終致力于機器人技術的自主研發(fā)及高端裝備技術瓶頸的突破,同時前瞻性布局打造以具身智能、機器人行為大模型為核心的“AI+機器人”。n植根于工業(yè)制造場景,配天在“AI+機器人”已經成功研發(fā)免示教焊接軟件模塊,基于繹零機器人運動控制引擎,通過視覺檢測和感知技術實現(xiàn)對焊接任務的快速識別和自主調整,無需人工示教即可投入使用,適應工廠靈活的排產需求。?應用案例:船廠BK板免示教焊接。某船舶制造廠商專注于碳鋼船體結構的生產,其生產線包含焊接工序。配天免示教焊接軟件模塊通過集成3D視覺系統(tǒng),能夠自主識別工件信息,無需預先進行人工標記。該模塊可自動提取焊縫特征,并基于此選擇合適的焊接路徑規(guī)劃和工藝參數(shù),最終驅動機器人完成焊接作業(yè),有效滿足該產線的柔性化生產需求。圖表:配天機器人的工業(yè)自動化解決方案資料來源:甲子光年,中泰證券研究所資料來源n偉景智能創(chuàng)立于2016年,是一家專注于立體智能視覺系統(tǒng)和智能人形機器人研發(fā)、生產及應用的高科技人工智能公司。公司的核心子公司偉景機器人成立于2017年,專注于機器人和立體智能視覺系統(tǒng)研發(fā)與應用,擁有完整的智能機器人的生產線和3D立體智能相機整體解決方案,并形成了以自主核心算法、核心軟件、核心硬件及行業(yè)系統(tǒng)解

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論