无码精品亚洲第1页,国产XXXX搡XXXXX搡麻豆,久久精品私人影院免费看,人妻少妇看A偷人无码精品视频

彩神vll具身智能究竟還缺什么?

發(fā)布時間:2024-11-13

點擊量:

  

彩神vll具身智能究竟還缺什么?(圖1)

  具身智能(Embodied AI)指的是擁有物理形態(tài)的人工智能系統(tǒng),這些系統(tǒng)能夠在真實的物理環(huán)境中進行學習和操作,與周圍世界實現(xiàn)動態(tài)交互。

  不同于傳統(tǒng)基于數(shù)字環(huán)境的AI,具身智能具備感知、行動,并對外界物理刺激作出反應的能力。

  長期以來,這些系統(tǒng)希望通過集成的傳感器和執(zhí)行器,模仿人類或動物的感知和行為,逐步彌合智能計算與物理行為之間的差距。

  同時,它們的復雜性還取決于其處理感官與行為數(shù)據(jù)的能力,當下大模型的出現(xiàn)讓相關能力呈現(xiàn)規(guī)模級增長,正在革新其交互方式。

  然而,為何具身智能尚未像其他智能應用一樣廣泛融入我們的日常生活?究竟還缺乏哪些關鍵技術突破?通過回顧近期的技術進展,我們一起來探討這個問題。

  進入大模型時代,人工智能的發(fā)展超出了許多人的預期。有人甚至設想,只要將最先進的大模型裝入機器人,就能立刻實現(xiàn)具身智能。然而,事實并非如此,物理實體或面臨更大的挑戰(zhàn)。

  大家熟知的機器人行業(yè)明星公司波士頓動力(Boston Dynamics),已經(jīng)為“具身”工程問題“死磕”了二十余年。該公司成立于1992年,最初因其先進的機器人研究而獲得認可,許多項目被視為全球標桿,包括人形機器人Atlas和四足機器人Spot等。然而,在眾多引人注目的演示視頻背后,實際上,這些機器人在過去很長一段時間內(nèi)并未達到“可用”的狀態(tài)。

  不久前波士頓動力公布了一條催人淚下的短片,宣布大家熟悉的液壓動力人形機器人Atlas正式退役!在最后一段告別視頻中,我們可以看到這位明星機器人的真實狀態(tài):不斷嘗試奔跑、跳躍、后空翻,失手已成為家常便飯,甚至膝蓋噴出了液壓油,運動時皮帶斷裂而摔倒。這些公眾平時看不到的畫面,正是傳統(tǒng)機器人多年來難以實現(xiàn)商業(yè)化的重要原因。

  當屏幕前的幾十萬觀眾為Atlas的一次次摔倒而跟著喊疼時,波士頓動力隨即宣布將推出下一代產(chǎn)品:專為實際應用而設計的全電動Atlas。然而,很遺憾,這一次的產(chǎn)品更新并非引領性創(chuàng)新,因為在波士頓動力死磕液壓技術的這兩年間,已經(jīng)出現(xiàn)了不少新的競爭對手。

  特斯拉便是其中的佼佼者。早在2021年8月的特斯拉AI日上,特斯拉首次提出了推進機器人全電動化的概念。經(jīng)過近兩年的努力,今年5月,Tesla官方發(fā)布了其二代人形機器人Optimus最新的演示視頻,展示其在特斯拉電池工廠學習分裝電池。視頻中,最值得關注的并不是AI的能力,而是馬斯克讓我們窺見了人類幫助機器人進行數(shù)據(jù)收集的真實場景,這也是Optimus最大的優(yōu)勢。一方面,Optimus的手是世界上頂級的五指靈巧型機器人手之一,具備觸覺感知,擁有11個自由度(DOF),并稱今年晚些時候將達到22個自由度(DOF)。另一方面,視頻中展示了人類操作員戴著VR眼鏡和手套指揮機器人進行操作,以精確的復刻動作,這背后是一個超低時延的全身控制器與硬件組合,強大的運動控制有助于訓練的數(shù)據(jù)迭代。這樣的能力,我們還在特斯拉10月11日舉辦的“Robotaxi Day”上看到。雖然過程中發(fā)生了一段小插曲,網(wǎng)友稱其中的Tesla Bot與人類互動太流暢,背后應該是人類操作員而并非由AI獨立完成,稱其作假。真相無從考究,也許特斯拉確實還未能全面的接入AI,實現(xiàn)機器人的完全自主。但實際上此時的AI只是錦上添花,我們更希望看到“具身”工程的重大突破。

  與此同時,競爭對手們也不甘示弱。8月初OpenAI投資的Figure AI發(fā)布了第二代人形機器人Figure 02,進行了全面的硬件和軟件升級,增強了AI、視覺處理、電池續(xù)航和傳感器性能。在最新的視頻中5臺機器人已經(jīng)可以進入到寶馬車間進行了“實訓”,盡管,它們的動作依然較為遲緩。僅僅三天后,波士頓動力的全新電動Atlas機器人也展示了能連續(xù)做8個俯臥撐的能力,采用非線性模型預測控制方法來優(yōu)化動作,取得很大的進步。盡管,新款電動Atlas的手部設計仍未包含手指,在技術和實用性方面受到了挑戰(zhàn)。

  Optimus Gen-2、Figure 02以及電動Atlas均是當前人形機器人的頂流,希望通過全面的電動化,能夠更精確地將智能控制指令轉化為物理行動,這一轉化類似于電動車的興起如何促進自動駕駛技術的發(fā)展。然而,要實現(xiàn)真正可用甚至好用的水平,仍需更多時間與技術進步。

  另外,人形機器人除了本體運動控制,高自由度靈巧手,還有觸覺傳感器、肌肉骨骼技術、表情模仿控制等等,均在不斷發(fā)展中,雖不完美,但年內(nèi)也有不少試點項目陸續(xù)取得了進展。

  人形機器人行業(yè)尚難以實現(xiàn)大規(guī)模量產(chǎn),主要原因之一是供應鏈成熟度不足,導致制作成本居高不下。在電動化之前,波士頓動力的傳統(tǒng)液壓動力Atlas各個部分的零部件均為定制生產(chǎn),單臺制作成本高達200萬美元(約合1447萬元人民幣),且后期維護費用高昂。電動化之后,雖然機器人的制作成本將有所下降,但仍面臨復雜的供應鏈挑戰(zhàn)。馬斯克擅長通過第一性原理實現(xiàn)成本極限壓縮,但其Optimus Gen2硬件的成本依然遠未達到預期。根據(jù)摩根士丹利近期發(fā)布的分析報告《Humanoids: Optimus Prime》,Optimus Gen2目前的成本已達到6萬美元甚至更高,而馬斯克理想中的Optimus人型機器人的定價目標僅為2萬美元。

  自2021年決定生產(chǎn)Optimus以來,馬斯克的社交媒體賬號上頻繁出現(xiàn)一個關鍵詞:supply chain(供應鏈)。在一次公開視頻中,他無奈地表示,“盡管世界上有很多電機供應商,但沒有一種電機適用于人形機器人,也沒有一種齒輪箱符合我們的尺寸需求?!?

  但這并非完全看不到希望,摩根士丹利分析報告中提到了一個積極的預測:隨著規(guī)模擴大、研發(fā)周期縮短和中國零部件價格降低,成本可能會降至馬斯克設定的2萬美元目標?!鳖愃朴谛履茉雌嚕袊a(chǎn)業(yè)鏈或許能夠再開辟出一片天地?目前國內(nèi)確實有眾多出色的人形機器人“卷王”,幾乎每月均有重大的更新,不僅是在技術上,在量產(chǎn)與售價上似乎更有競爭力。

  9月底,傅利葉智能發(fā)布了第二代人形機器人GR-2,決定在已有的供應鏈條件下優(yōu)先“落地交付”,已交付超過一百臺。傅利葉的新一代FSA執(zhí)行器已搭載在GR-2的踝關節(jié)和髖關節(jié),最大關節(jié)扭矩超過380牛·米(N·m),并為機器人的靈巧手內(nèi)置了6個觸覺傳感器,提升了機器人的精密操作能力。盡管售價相對較高,傅利葉仍決心通過落地交付來推動研發(fā)。

  10月底,深圳一家名叫眾擎機器人(EngineAI)的機器人公司,推出了一款直立行走、姿勢酷似人類的的機器人SE01,為了克服大部分雙足機器人的彎腿、跺腳、小碎步,甚至是原地踏步的病態(tài)步伐,SE01采用的是自主研發(fā)的高性能諧波力控關節(jié)模組,使得膝關節(jié)最大扭矩能達到 186N·m,動力關節(jié)力控精度可達 0.2N·m。整體售價計劃控制在2-3 萬美元。

  相較于國外大廠,“活蹦亂跳”的國內(nèi)機器人商業(yè)公司毫不示弱甚至更“卷”,尤其是在人形機器人形態(tài)的多樣化發(fā)展方向,我們有理由相信摩根士丹利的預測,中國零部件價格降低,或將推動全球人形機器人的供應鏈的完善,加快實現(xiàn)更強大、更便宜的人形機器人大規(guī)模量產(chǎn)。

  決定具身智能復雜性的感官與行為數(shù)據(jù)及其相關算法,是軟件層面制約機器人的量產(chǎn)與泛化能力的另一個重要因素。多維度數(shù)據(jù)遠沒有文本、圖像等豐富,難以有效支持大規(guī)模的空間訓練。

  關于李飛飛提出的空間智能,至今沒有給出明確定義,但我們可以從她多年來與之相關的一系列工作中,具象化“空間智能”這一概念,并理解它對具身智能的重要性。

  目前,AI在3D領域的發(fā)展遠不如其他領域迅速,一個重要原因就是基礎數(shù)據(jù)的獲取難度較大。優(yōu)勢的3D資產(chǎn)往往存在于建模、影視、游戲、自動駕駛公司的私有數(shù)據(jù)中,難以共享或交易。

  如今,空間智能要做的,其實可以簡單理解為,就是3D版本的ImageNet數(shù)據(jù)集及相關算法。

  今年年中,李飛飛推動的“空間智能”概念,通過吳佳?。ㄍ瑸樗固垢=虇T,目前在李飛飛創(chuàng)業(yè)公司W(wǎng)orld Labs中擔任顧問)團隊的BVS(BEHAVIOR Vision Suite)得到了新的發(fā)展。該套件為計算機視覺模型提供了一套強大的基礎工具與資源集,幫助三維數(shù)據(jù)的合成與評估。

  并在10月進行了重要迭代。1、提出“數(shù)字表親”概念,不再追求與真實物體一比一的復制,降低成本,增強模型的泛化能力。數(shù)字表親通過簡單拍照即可創(chuàng)建,用于機器人訓練,提供變化且相似的訓練場景。通過ACDC(Automatic Creation of Digital Cousins)方法自動創(chuàng)建數(shù)字表親,實現(xiàn)從虛擬到真實的零樣本遷移,表現(xiàn)優(yōu)于數(shù)字孿生模型。2、推出WonderWorld系統(tǒng),實現(xiàn)了交互式3D生成速度的重要突破。系統(tǒng)通過FLAGS(Fast LAyered Gaussian Surfels)方法在10秒內(nèi)生成3D場景,速度比現(xiàn)有技術快100倍,并解決了多場景銜接的幾何裂縫問題,無需訓練預設模型,可跨多種場景類型生成連貫的3D世界。

  因此,團隊還提出了ReKep框架,提出了關系關鍵點約束方法(ReKep/Relational Keypoint Constraints),來優(yōu)化機器人與環(huán)境的復雜交互。ReKep能夠與GPT-4等多模態(tài)大模型整合,實現(xiàn)多階段任務的分解和優(yōu)化。通過約束優(yōu)化問題定義機器人操作任務,增強執(zhí)行策略的泛化能力。可以簡單理解為,該方法將某項復雜任務表現(xiàn)為一連串的關系序列,通過與大型語言模型(LLMs)解決序列問題的強項結合,希望更加有效的提升機器人訓練的效率與泛化能力。

  總體來說,與九年前的ImageNet一樣,“神秘”的空間智能的創(chuàng)業(yè)內(nèi)容其實并不難理解,甚至很簡單、直接,就是把之前0-1的成功經(jīng)驗與優(yōu)勢,增加一個維度,再做一遍。而這對于接下來具身智能對世界的理解與交互來說,是非常重要的基礎工作。

  在我們生活中,或許經(jīng)常會遇到這樣的情況:一件事情明明已經(jīng)想好怎么做,但當真正動手時,卻會發(fā)現(xiàn)自己笨手笨腳,不能完全將想象中的動作執(zhí)行出來。

  具體智能的實現(xiàn)也面臨著同樣的問題,主要的挑戰(zhàn)就是彌合模擬與現(xiàn)實之間的差距。這是一項涉及多方面的復雜系統(tǒng)工程??上驳氖?,我們目前已經(jīng)看到了一系列積極的變化。

  首先是物理環(huán)境的適應。虛擬環(huán)境與現(xiàn)實環(huán)境的顆粒度是不同的,現(xiàn)實世界的變量更加復雜多變。傳統(tǒng)上,讓機器人學會在現(xiàn)實世界中執(zhí)行任務,需要研究人員通過手動方式設置各類模型環(huán)境的參數(shù)與獎勵函數(shù)等,這一過程非常繁瑣且難以窮盡。得益于大型語言模型的泛文本與代碼能力,這一過程有望得到簡化。今年5月初,由賓夕法尼亞大學、英偉達等攜手推出的突破性研究項目DrEureka驗證了這一路徑的可行性。在該研究中,一只四足機器人在瑜伽球上穩(wěn)穩(wěn)行走,無論是研究人員故意干擾,還是球體表面氣壓的變化,都無法讓它失去平衡。這樣的類似科幻電影的畫面非常讓人驚訝,這主要得益于DrEureka創(chuàng)新設計,它通過AI自動生成的獎勵函數(shù)和域隨機化技術,利用大算力來窮盡物理環(huán)境的參數(shù),以更大程度的模擬現(xiàn)實。

  其次是動作與策略規(guī)劃。與單一任務機器人等不同,AI和機器人專家的長遠目標,是創(chuàng)造出具有通用智能的機器人代理,使其能夠像人類或動物一樣自我學習與進步,應用于千變?nèi)f化的現(xiàn)實環(huán)境。而當前基于編程的運動控制算法,顯然難以滿足這一目標,無論我們已經(jīng)努力編程了N個任務,當機器人遇到第N+1項任務時,可能就會隨時宕機。這時,我們也許會再次想到大型語言模型的泛化能力,但是,由于涉及到復雜的動作訓練與策略規(guī)劃,對推理的要求更高,強化學習將是更好的嘗試。類似于圍棋領域的AlphaGo Zero,人類只需要提供最基礎的圍棋規(guī)則,人工智能便能通過自我博弈的方式學會千變?nèi)f化的棋藝,并碾壓人類。4月初,AlphaGo Zero的開發(fā)者谷歌的DeepMind便打造了一款足球機器人,登上了《Science Robotics》封面。這簡單來說就是足球機器人界的AlphaGo Zero,通過最基礎的目標設置,機器人就可以學會行走、轉身、踢腿等一系列動作,并根據(jù)目標(如射門)去連貫執(zhí)行。該項目的核心是訓練能夠自我進化的通用機器人,而不是僅僅訓練它們執(zhí)行特定任務。

  最后是控制策略的泛化。如果說上述兩種方法都已經(jīng)很驚艷,但如果我們的機器人不是DrEureka這樣的四足機器人,或者像DeepMind這樣的足球機器人,那相關的數(shù)據(jù)與控制指令是不是都要重新做一遍呢?顯然,最好不要??刂撇呗缘姆夯瘜τ诰呱碇悄艿膹V泛普及具有重要意義。今年10月底,英偉達推出了一個具有150萬參數(shù)的極小模型HOVER,主要用于人形機器人的多功能全身神經(jīng)通用控制。HOVER控制器在單一模型內(nèi)整合多種任務需求,適應各類人形機器人動作(行走、操作等),實現(xiàn)多模式切換,提升了機器人仿人應用的效率和靈活性。它不僅在輸出端進行控制,還可以支持不同輸入設備,簡化數(shù)據(jù)收集。實際上,各類人形機器人在平時走路、保持平衡、控制手腳等看似簡單的動作背后,其實涉及大量的潛意識處理,HOVER相當于把這種潛意識編碼到了一個統(tǒng)一的模型里,同時,支持反向編譯。

  市場和技術之間一直都存在著一種相互促進、相互影響的辯證關系。市場需求往往是推動技術創(chuàng)新的關鍵動力,而技術進步反過來又影響市場結構。甚至在很多行業(yè)中,市場比技術顯得更為重要。例如,增程式電動車雖然在多種技術方案中并不算領先,卻占據(jù)了當前電動車銷量的市場;蘋果公司雖然大量采用非自研技術,但依然多年來穩(wěn)居智能終端的領頭羊;等等。

  尤其是在各類要素高速流動的今天,工程實現(xiàn)事實上并不存在足夠高的護城河,核心技術人員一旦出走,就有可能重新創(chuàng)辦一家新公司。把握市場機會,甚至比技術本身更為重要。在機器人領域同樣如此,除了觀察技術本身,更應該看到機器人落地的的一些關鍵的價值方向:

  第一類看預期規(guī)模。比如老年陪護機器人。據(jù)統(tǒng)計,2030年老齡化比例將達到約17%,2050年將進一步達到約24%。人口老齡化以及老年人的撫養(yǎng)和陪護問題,已成為擺在社會面前的重要議題之一。通過技術發(fā)展來惠及社會,關愛人類,是機器人規(guī)?;l(fā)展的一個剛性需求和核心方向。9月底,騰訊Robotics X實驗室發(fā)布了新機器人「小五」,這是實驗室開發(fā)的第五代機器人,具備四腿輪足復合設計、多指靈巧手、大面積觸覺皮膚、安全人機物理交互等技術,可以提高機器人在人居環(huán)境中的實用性和交互性。其設計理念來自于實驗室A2G理念的B(Body,機器人本體)、G(Guardian Angel,守護天使),通過探索不同形態(tài)的本體,去讓人類的生活更美好。這個市場空間是非常巨大的,足以支持技術的迭代。類似的案例還有5月份,馬里蘭團隊打造的輔助喂食機器人,可用于老年人進食和兒童保育,等等。

  第二類看數(shù)據(jù)反饋。比如當下人形機器人的“進廠潮”。5月份,特斯拉Optimus人形機器人開始進入工廠,參與電池分裝;7月份,F(xiàn)igure AI與寶馬達成合作,將人形通用機器人引入汽車生產(chǎn)線月份,波士頓動力的Atlas機器人在工廠環(huán)境中成功完成全自動任務,展示了搬運汽車發(fā)動機零件的能力。當前頂尖機器人進入工廠的現(xiàn)象,幾乎成為了行業(yè)標配。難道相對于傳統(tǒng)的工業(yè)機器人,人形機器人真的能更好的適應廠里的工作嗎?事實上并非如此。當下人形機器人上能夠獨立完成的具體工作,其實并不多,且并不足夠穩(wěn)定,成本上也不具備規(guī)模落地的優(yōu)勢。機器人紛紛進廠,或許更多為的不是規(guī)?;涞兀峭ㄟ^任務執(zhí)行,獲取更多的數(shù)據(jù)反饋,并在實際環(huán)境中驗證軟硬件的操作表現(xiàn)。

  第三類看比較優(yōu)勢。已經(jīng)具備成熟的物理實體,數(shù)據(jù)較為完備的優(yōu)勢場景應用或更快得到應用。其中一個最典型的就是手術機器人。8月份,斯坦福團隊開發(fā)的達芬奇機器人通過模仿學習獨立完成外科手術基本任務,如縫合、針頭處理和提起組織等;實驗中,達芬奇機器人展示了精細操作能力,成功應用相對動作公式克服了系統(tǒng)本體感知的不準確性。通過大規(guī)模模仿學習,達芬奇機器人能夠在沒有進一步運動學矯正的情況下,有效學習并執(zhí)行復雜手術任務。同樣,Perceptive公司開發(fā)的AI機器人牙醫(yī)也于近期首次完成了一例漂亮的人類牙科手術,速度是人類醫(yī)生的8倍,能夠精確處理患者頭部移動。在國外或一些鄉(xiāng)村社區(qū),醫(yī)生人數(shù)不足,或者沒有太多牙醫(yī)愿意在偏遠、落后的社區(qū)工作,手術機器人將會是一個不錯的主意。

  在閉源平臺方面,3月中,英偉達推出了通用機器人模型Project GR00T,提出與人形機器人專家共同打造平臺的設想。該平臺涵蓋了幾乎所有著名的人形機器人制造商,包括1X Technologies、Agility Robotics、Apptronik、Boston Dynamics、Figure AI、Fourier Intelligence、Sanctuary AI、Unitree Robotics和XPENG Robotics等。該項目主要包括兩個部分:1、提供機器人專用的基礎模型,GR00T代表“通用機器人00技術”,旨在使人形機器人能夠通過觀察人類行為來理解自然語言并模仿動作,從而快速學習協(xié)調(diào)性、靈活性等技能;2、提供英偉達的Isaac平臺,包括Isaac Lab(用于強化學習)和Jetson Thor(高性能計算平臺),將英偉達的加速計算能力復用到機器人領域的開發(fā)中。目前,該項目并非一個開源項目,更像是通過產(chǎn)業(yè)聯(lián)盟的方式推進相關工作。

  開源社區(qū)方面,同期,以構建大型開源社區(qū)而聞名的 AI 初創(chuàng)公司Hugging Face,挖來了前特斯拉科學家 Remi Cadene,他是特斯拉 Autopilot 和 Optimus 機器人研究項目的團隊成員,有著豐富的實踐經(jīng)驗。這次開源的LeRobot機器人工具包,堪稱機器人領域的「Transformers」。LeRobot 提供了一個多功能的平臺,支持大規(guī)模機器人數(shù)據(jù)集、預訓練模型訪問,以及物理模擬器集成,同時,還可以支持從簡單機械臂到復雜類人機器人的多種硬件。Cadene 表示 LeRobot 項目的發(fā)展愿景是“從多樣化社區(qū)中構建軟件和硬件,以在現(xiàn)實世界中開發(fā)下一代智能機器人”。聚集于應用場景,加強技術的共享與創(chuàng)新交流,開源項目通常吸引大量開發(fā)者參與,這種集體智慧能夠有效解決復雜問題。通過共同努力,開發(fā)者可以在更短的時間內(nèi)找到解決方案,從而推動技術的進步與應用。

  彩神vll的隱私保護措施有哪些

  閉源與開源的爭論是一個復雜的話題。開源模式強調(diào)技術的共享、協(xié)作和快速迭代,而閉源模式則側重于保護商業(yè)利益、確保數(shù)據(jù)安全和技術支持。不管哪種方式,對于具身智能這項復雜工程,都是有益且必要的。隨著技術的發(fā)展和市場的變化,開源與閉源之間的界限也在逐漸變得模糊,未來可能會出現(xiàn)更多結合兩者優(yōu)點的混合模式,共同解決具身智能這一多學科難題。

  總的來說,要實現(xiàn)具身智能,還需要做大量的工作?!皼]有靈魂的軀體是一具行尸走肉,沒有軀體的靈魂是一縷虛無幽靈?!痹诰呱碇悄艿陌l(fā)展過程中,具身和智能缺一不可,且需要達到高度的有機結合。彌合虛擬與現(xiàn)實的鴻溝也從來不是一件易事,不管是從現(xiàn)實到虛擬的元宇宙,還是虛擬到現(xiàn)實的具身智能??上驳氖牵斚氯澜绲腁I與機器人專家正在各自的專業(yè)領域為此狂奔,長遠來看,具身智能一定會走進千家萬戶,只是,還需要給它多一些時間。

  騰訊研究院AGI圖譜數(shù)據(jù)庫、#騰訊研究院AI速遞、#AI每周關鍵詞Top50

  AGI路線圖是騰訊研究院旗下的AI創(chuàng)新研究專項,依托對AI創(chuàng)新前沿的關注、技術積累與產(chǎn)品實踐,為探索AGI(通用人工智能)之路提供全方位的研究支持。該專項持續(xù)關注技術、場景、數(shù)據(jù)、生態(tài)和安全等多個維度,希望為AGI逐步落地及其產(chǎn)生的行業(yè)和社會影響,提供思想洞察和交流平臺。如果您對這個主題感興趣,歡迎來稿,或與我們交流您的所思所想!

標簽:運動控制器
在線客服
服務熱線

服務熱線

13776045948

微信咨詢
微信二維碼
返回頂部
×微信二維碼

截屏,微信識別二維碼

微信號:13776045948(手機同號)

(點擊微信號復制,添加好友)

打開微信

微信號已復制,請打開微信添加咨詢詳情!