无码精品亚洲第1页,国产XXXX搡XXXXX搡麻豆,久久精品私人影院免费看,人妻少妇看A偷人无码精品视频

J彩神vllim Fan全華人團(tuán)隊(duì)HOVER問世15M小模型讓機(jī)器人獲「潛意識(shí)」!

發(fā)布時(shí)間:2024-11-08

點(diǎn)擊量:

  

J彩神vllim Fan全華人團(tuán)隊(duì)HOVER問世15M小模型讓機(jī)器人獲「潛意識(shí)」!(圖1)

  來自英偉達(dá)、CMU、UC伯克利等的全華人團(tuán)隊(duì)提出一個(gè)全新的人形機(jī)器人通用的全身控制器HOVER,僅用一個(gè)1.5M參數(shù)模型就可以控制人形機(jī)器人的身體。人形機(jī)器人的運(yùn)動(dòng)和操作之前只是外表看起來類人,現(xiàn)在有了HOVER,連底層運(yùn)動(dòng)邏輯都可以類人了!

  英偉達(dá)高級科學(xué)家Jim Fan表示,并不是每個(gè)基礎(chǔ)模型都需要規(guī)模龐大。我們訓(xùn)練了一個(gè)擁有150萬參數(shù)的神經(jīng)網(wǎng)絡(luò)來控制人形機(jī)器人的身體。

  對于人類來說,行走、保持平衡、將手臂和腿移動(dòng)到期望的位置都需要大量的潛意識(shí)處理。

  相應(yīng)地,對于人形機(jī)器人來說,實(shí)現(xiàn)全身控制需要適應(yīng)多種任務(wù),比如導(dǎo)航、行走和桌面操作。

  每種任務(wù)都需要不同的控制模式。例如,導(dǎo)航依賴于根速度(root velocity)或位置追蹤,而桌面操作則主要關(guān)注上半身關(guān)節(jié)角度的跟蹤。

  現(xiàn)有的方法通常針對特定任務(wù)設(shè)計(jì)獨(dú)立策略,這不僅使機(jī)器人開發(fā)過程重復(fù)且耗時(shí),還限制了最終全身控制器的多功能性。

  例如,使用根速度跟蹤(root velocity tracking)在不平地形上進(jìn)行兩足行走的機(jī)器人,在需要精確雙臂操作的任務(wù)中會(huì)遇到困難,因?yàn)檫@些任務(wù)可能需要關(guān)節(jié)角度或末端執(zhí)行器跟蹤。

  所有這些運(yùn)動(dòng)控制模式都應(yīng)用于同一個(gè)硬件平臺(tái),自然會(huì)引出一個(gè)問題:能否創(chuàng)建一個(gè)支持所有控制模式的統(tǒng)一控制器,以結(jié)合每種模式的優(yōu)勢?

  這并非一個(gè)簡單的挑戰(zhàn),因?yàn)槊糠N模式在不同的指令空間內(nèi)運(yùn)行,直接集成并不可行。

  然而,盡管控制接口有所不同,其底層運(yùn)動(dòng)目標(biāo)往往是一致的:即實(shí)現(xiàn)穩(wěn)定、類人的運(yùn)動(dòng),以滿足人形機(jī)器人的控制需求。

  由此,Jim Fan團(tuán)隊(duì)提出一個(gè)關(guān)鍵見解:全身運(yùn)動(dòng)的動(dòng)作模仿可以作為這些任務(wù)的共同抽象,為學(xué)習(xí)多種全身控制模式提供通用的運(yùn)動(dòng)技能。

  在此基礎(chǔ)之上,他們提出了HOVER(Humanoid Versatile Controller,人形通用控制器),這是一個(gè)多模式策略蒸餾框架,能夠?qū)⒉煌目刂颇J秸蠟橐粋€(gè)統(tǒng)一的策略。

  HOVER支持在各控制模式之間的無縫切換,同時(shí)保留每種模式的獨(dú)特優(yōu)勢,為人形機(jī)器人在廣泛的模式下提供了一種穩(wěn)健且可擴(kuò)展的控制解決方案。

  也就是說,Jim Fan團(tuán)隊(duì)在HOVER中捕捉到了一種和人類相似的「潛意識(shí)」,這種「潛意識(shí)」能夠?qū)W習(xí)如何協(xié)調(diào)人形機(jī)器人的電機(jī)以支持各種運(yùn)動(dòng)和操作。

  人形機(jī)器人的運(yùn)動(dòng)和操作之前只是外表看起來類人,現(xiàn)在有了HOVER,連底層運(yùn)動(dòng)邏輯都可以類人了!

  HOVER能夠切實(shí)地消除為每個(gè)控制模式單獨(dú)重新訓(xùn)練策略的需求,該方法提高了未來人形機(jī)器人應(yīng)用的效率和靈活性。

  如何提高彩神vll的使用效率

  Jin Fan團(tuán)隊(duì)將此問題表述為一個(gè)針對人形機(jī)器人控制的目標(biāo)條件強(qiáng)化學(xué)習(xí)(RL)任務(wù),并進(jìn)行了人形機(jī)器人控制的指令空間設(shè)計(jì)。

  指令空間包括兩個(gè)主要控制區(qū)域——上半身和下半身控制——并且整合了三種不同的控制模式:

  在訓(xùn)練HOVER策略之前,首先通過大量人類運(yùn)動(dòng)數(shù)據(jù)訓(xùn)練一個(gè)「Oracle」策略,使其能夠模仿人類的全身運(yùn)動(dòng)。

  這一過程包括設(shè)計(jì)狀態(tài)空間、獎(jiǎng)勵(lì)系統(tǒng)以及應(yīng)用域隨機(jī)化來支持從仿真到現(xiàn)實(shí)的轉(zhuǎn)換。

  狀態(tài)空間設(shè)計(jì):Oracle策略的狀態(tài)包括機(jī)器人身體的剛體位置、姿態(tài)、速度和上一時(shí)刻的動(dòng)作歷史。同時(shí)引入目標(biāo)狀態(tài),用來定義參考姿態(tài)和當(dāng)前狀態(tài)的差異,為機(jī)器人提供詳細(xì)的運(yùn)動(dòng)目標(biāo)。

  獎(jiǎng)勵(lì)設(shè)計(jì):獎(jiǎng)勵(lì)分為三部分:懲罰、正則化以及任務(wù)獎(jiǎng)勵(lì)。具體權(quán)重和細(xì)節(jié)見下列表格,用以確保機(jī)器人能夠有效地執(zhí)行目標(biāo)運(yùn)動(dòng)并減少誤差。

  域隨機(jī)化:為了使仿真環(huán)境中學(xué)到的策略能夠成功轉(zhuǎn)移到現(xiàn)實(shí)中,對模擬環(huán)境中的物理參數(shù)進(jìn)行隨機(jī)化,以提高模型在現(xiàn)實(shí)世界中的泛化能力。

  在訓(xùn)練Oracle策略后,使用「蒸餾」過程將Oracle策略中的技能轉(zhuǎn)移到HOVER策略中,以使其能夠?qū)崿F(xiàn)多模式控制。

  如何提高彩神vll的使用效率

  這個(gè)過程通過DAgger算法完成,該算法是一種監(jiān)督學(xué)習(xí)方法,用于使學(xué)生策略的動(dòng)作逐漸與Oracle策略對齊。

  任務(wù)指令屏蔽:HOVER使用特定模式和稀疏性屏蔽來生成不同的任務(wù)指令模式,并通過這些屏蔽激活不同的指令空間組件,從而支持多模式控制。HOVER策略能夠在上半身和下半身的控制中選擇性地跟蹤某些關(guān)節(jié)和運(yùn)動(dòng)目標(biāo)。

  動(dòng)作對齊與優(yōu)化:在每個(gè)時(shí)間步,學(xué)生策略從Oracle策略中獲取目標(biāo)動(dòng)作,通過最小化目標(biāo)動(dòng)作和當(dāng)前動(dòng)作的差距來更新自身,從而優(yōu)化策略的表現(xiàn)。此過程的核心是將Oracle策略的優(yōu)點(diǎn)有效地轉(zhuǎn)移到HOVER策略中,使其能夠支持多種控制模式的無縫切換。

  Q1:HOVER作為一種通用策略,能否在特定指令配置下表現(xiàn)優(yōu)于其他策略?

  Jim Fan團(tuán)隊(duì)將HOVER策略在不同控制模式下的表現(xiàn)與相應(yīng)的特定策略進(jìn)行了比較。

  例如,HOVER在ExBody模式下的表現(xiàn)通過固定屏蔽來匹配ExBody模式,并在整個(gè)數(shù)據(jù)集Q?上進(jìn)行評估。

  HOVER在各種控制模式下表現(xiàn)出優(yōu)越的泛化能力。在每個(gè)指令模式下,HOVER至少在12項(xiàng)指標(biāo)中的7項(xiàng)上優(yōu)于此前工作的特定控制器,顯著性指標(biāo)在下表中以粗體標(biāo)出。

  HOVER在不同控制模式中的一致優(yōu)勢體現(xiàn)了其多功能性。此外,即使僅在單一控制模式下,基于Oracle策略的蒸餾方法仍優(yōu)于RL訓(xùn)練的特定策略。

  除了前述基線之外,Jim Fan團(tuán)隊(duì)還評估了四種附加模式:左手模式、右手模式、雙手模式和頭部模式。他們分別訓(xùn)練了四個(gè)RL特定策略以單獨(dú)跟蹤這些模式。

  下表的結(jié)果表明,HOVER在跟蹤特定指令配置的指標(biāo)上持續(xù)優(yōu)于這些特定策略。

  Jim Fan團(tuán)隊(duì)將HOVER與一種多模式RL基線進(jìn)行比較,該基線采用相同的指令屏蔽過程,但從零開始以RL目標(biāo)進(jìn)行訓(xùn)練。

  在下圖中,他們評估了四項(xiàng)指標(biāo)的跟蹤誤差:根部姿態(tài)、上半身關(guān)節(jié)角度、局部身體位置和全局身體位置,測量于八種不同模式下。

  結(jié)果顯示,HOVER在32項(xiàng)指標(biāo)和模式中的跟蹤誤差始終較低。這一性能提升表明,從跟蹤全身運(yùn)動(dòng)學(xué)的Oracle策略中蒸餾出通用全身控制器具有重要意義。

  Jin Fan團(tuán)隊(duì)進(jìn)行了定量的跟蹤實(shí)驗(yàn)和定性的行走測試,以評估HOVER多模式控制能力。

  他們在真實(shí)環(huán)境中評估HOVER的性能,測試了數(shù)據(jù)集Q?中的20種不同站立運(yùn)動(dòng)。

  其中兩種運(yùn)動(dòng)在下圖中有視覺示例。如下圖中間所示,他們展示了根部俯仰運(yùn)動(dòng)的成功跟蹤;在下圖右側(cè)展示了全身運(yùn)動(dòng)學(xué)跟蹤,機(jī)器人能夠跟蹤高度動(dòng)態(tài)的跑步運(yùn)動(dòng)。

  下表中展示的定量指標(biāo)表明,HOVER在12項(xiàng)指標(biāo)中有11項(xiàng)優(yōu)于特定策略。

  Jim Fan團(tuán)隊(duì)還評估了HOVER在行走任務(wù)中的泛化能力。他們在操作過程中突然切換指令模式,以模擬真實(shí)場景。

  如下圖(a)中,HOVER成功在前進(jìn)行走時(shí)從ExBody模式切換到H2O模式;

  (b)中,在執(zhí)行轉(zhuǎn)彎和后退行走時(shí),從HumanPlus模式切換到OmniH2O模式。

  此外,他們使用Vision Pro進(jìn)行了一個(gè)真實(shí)的遠(yuǎn)程操作演示,隨機(jī)屏蔽了頭部和手部的位置。例如,下圖(c)中間,機(jī)器人在頭部模式下僅跟蹤人的頭部位置,忽略揮動(dòng)的手部動(dòng)作。

  結(jié)果表明,HOVER能夠在不同模式下平穩(wěn)地跟蹤運(yùn)動(dòng),展示出其在真實(shí)場景中的穩(wěn)健性。

  此前,他在上海交通大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,導(dǎo)師是Weinan Zhang。并曾在微軟亞洲研究院工作過一段時(shí)間。

  他的研究目標(biāo)是打造能改善每個(gè)人生活質(zhì)量的機(jī)器人;重點(diǎn)是如何為機(jī)器人構(gòu)建數(shù)據(jù)飛輪,使其獲得媲美人類的運(yùn)動(dòng)能力和語義理解能力,以及如何讓機(jī)器人既能安全可靠,又能靈活適應(yīng)各種環(huán)境,具備通用性和敏捷性來完成各類實(shí)用任務(wù);采用的是隨計(jì)算能力和數(shù)據(jù)規(guī)模擴(kuò)展的機(jī)器學(xué)習(xí)方法。

  共同一作Wenli Xiao是卡內(nèi)基梅隆大學(xué)機(jī)器人研究所(MSR)的碩士生,由Guanya Shi教授和John Dolan教授指導(dǎo)。

  他目前在NVIDIA GEAR實(shí)驗(yàn)室擔(dān)任研究實(shí)習(xí)生,與Jim Fan博士和Yuke Zhu教授一起研究人形機(jī)器人基礎(chǔ)模型。

在線客服
服務(wù)熱線

服務(wù)熱線

13776045948

微信咨詢
微信二維碼
返回頂部
×微信二維碼

截屏,微信識(shí)別二維碼

微信號:13776045948(手機(jī)同號)

(點(diǎn)擊微信號復(fù)制,添加好友)

打開微信

微信號已復(fù)制,請打開微信添加咨詢詳情!