從符號(hào)主義到聯(lián)結(jié)主義,智能體與真實(shí)世界的交互得到日益重視。上世紀(jì)五十年代的達(dá)特茅斯會(huì)議之后的一段時(shí)期內(nèi),對(duì)人工智能的研究主要限于符號(hào)處理范式(符號(hào)主義)。符號(hào)主義的局限性很快在實(shí)際應(yīng)用中暴露出來(lái),并催動(dòng)了聯(lián)接主義的發(fā)展,形成了包括多層感知機(jī)、前向神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò),直至今日風(fēng)靡學(xué)術(shù)界與產(chǎn)業(yè)界的深度神經(jīng)網(wǎng)絡(luò)等多種方法。這種用人工神經(jīng)網(wǎng)絡(luò)模擬認(rèn)知過(guò)程的方法在適應(yīng)、泛化與學(xué)習(xí)方面的確取得了很大的進(jìn)展,但并未真正解決智能體與真實(shí)物理世界交互的難題。該難題“莫拉維克悖論”可以通俗地表述為:要讓電腦如成人般地下棋是相對(duì)容易的,但是要讓電腦有如一歲小孩般的感知和行動(dòng)能力卻是相當(dāng)困難甚至是不可能的。
針對(duì)以上問(wèn)題,“具身智能”(Embodied AI)概念應(yīng)運(yùn)而生。針對(duì)智能體的交互問(wèn)題, 明斯基從行為學(xué)習(xí)的角度提出了“強(qiáng)化學(xué)習(xí)”的概念。1986年,布魯克斯從控制論角度出發(fā),強(qiáng)調(diào)智能是具身化(Embodied)和情境化 (Contextlized)的,傳統(tǒng)以表征為核心的經(jīng)典AI進(jìn)化路徑是錯(cuò)誤的,而清除表征的方式就是制造基于行為的機(jī)器人(行情300024,診股)。Rolf Pfeifer在其著作《How the Body Shapes the Way We Think》中通過(guò)分析“身體是如何影響智能的”對(duì)“智能的具身化”做了清晰的描述,闡明了“具身性”對(duì)理解智能本質(zhì)與研究人工智能系統(tǒng)的深遠(yuǎn)影響。以上這些工作為人工智能的第三個(gè)流派——以具身智能為代表的行為主義方法奠定了堅(jiān)實(shí)基礎(chǔ)。
“具身智能”的基本假設(shè)是,智能行為可以被具有對(duì)應(yīng)形態(tài)的智能體通過(guò)適應(yīng)環(huán)境的方式學(xué)習(xí)到。可以簡(jiǎn)單理解為各種不同形態(tài)的機(jī)器人,讓它們?cè)谡鎸?shí)的物理環(huán)境下執(zhí)行各種各樣的任務(wù),來(lái)完成人工智能的進(jìn)化過(guò)程。拆分來(lái)理解,“具身”的基本含義是認(rèn)知對(duì)身體的依賴性,即身體對(duì)于認(rèn)知具有影響,換句話說(shuō),身體參與了認(rèn)知,影響了思維、判斷等心智過(guò)程。“具身”意味著認(rèn)知不能脫離身體單獨(dú)存在。此外,“具身”相對(duì)的概念是“離身”(Disembodiment),指的是認(rèn)知與身體解耦(CHATGPT為代表的大模型就僅僅實(shí)現(xiàn)了離身智能);“智能”代表智能體(生物或機(jī)械)通過(guò)與環(huán)境產(chǎn)生交互后,通過(guò)自身學(xué)習(xí),產(chǎn)生對(duì)于客觀世界的理解和改造能力。此外,一些通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的機(jī)器人,也可以被認(rèn)為是具身智能的一種形式,如OpenAI的單手還原魔方機(jī)器人等。因此,具身智能旨在基于機(jī)器與物理世界的交互,創(chuàng)建軟硬件結(jié)合、可自主學(xué)習(xí)進(jìn)化的智能體。
具身的概念是可檢驗(yàn)、可測(cè)量的。人所理解的世界概念,其中既包括人類獨(dú)有的責(zé)任心、榮譽(yù)、感情、欲望等非具身的概念,也包括了杯子、車等實(shí)體以及相應(yīng)行為的具身概念。而具身概念是具備可達(dá)性、可檢驗(yàn)性以及可解釋性的,即具身的概念對(duì)應(yīng)的實(shí)體和行為是可以被測(cè)量,可以通過(guò)任務(wù)的完成來(lái)驗(yàn)證以及通過(guò)具身學(xué)習(xí)來(lái)實(shí)現(xiàn)概念的推斷。相比之下,非具身概念基本要素不能實(shí)現(xiàn)可測(cè)量及可檢驗(yàn)。
“知行合一”是具身智能的科學(xué)立場(chǎng)。根據(jù)具身智能的技術(shù)實(shí)現(xiàn)邏輯,“知”是建立在“行”之上的,也就是說(shuō)只有通過(guò)“具身”才能理解某個(gè)場(chǎng)景。比如有個(gè)臥室,其具有睡覺(jué)、休息、放衣服等行為特征,這類行為是基于人的身體設(shè)計(jì)的,因此真正理解臥室的場(chǎng)景,就是要能夠直接通過(guò)坐上椅子、躺在床上等行為任務(wù)去驗(yàn)證。同理,機(jī)器人通過(guò)理解場(chǎng)景,能夠?qū)崿F(xiàn)以上行為才能代表它真正理解了該場(chǎng)景。因?yàn)閺谋举|(zhì)上,物體和場(chǎng)景的類別大多是由功能和任務(wù)來(lái)定義的,“我能用來(lái)干什么,那它是什么”,比如錘子不能叫木棍,錘子有它獨(dú)特的行為屬性。
具身知識(shí)在中國(guó)古老漢字中都占據(jù)較高比例。甲骨文等古老漢字,絕大多數(shù)就是通過(guò)行為的表征來(lái)刻畫(huà)一個(gè)概念,比如“爭(zhēng)”的古老寫(xiě)法中,代表兩個(gè)人的手拔一根繩子,因此,理解行為才是理解概念及場(chǎng)景的關(guān)鍵。
所以,計(jì)算機(jī)視覺(jué)和NLP更多是具身智能的工具,而通用人工智能才是具身智能的終極目標(biāo)。具身智能要能夠?qū)崿F(xiàn)使用身體(各個(gè)部位)完成物理任務(wù)的一些現(xiàn)象,比如外國(guó)人不會(huì)用筷子,但仍能叉起來(lái)吃東西,因此具身智能也要通過(guò)物理環(huán)境完成任務(wù)的過(guò)程中,表現(xiàn)出完成之前沒(méi)有覆蓋的場(chǎng)景。所以,根據(jù)具身智能的特點(diǎn)可以研判,如同經(jīng)典力學(xué)領(lǐng)域的速度、動(dòng)量、彈性等概念奠基了物理學(xué)領(lǐng)域,驅(qū)動(dòng)了后續(xù)科學(xué)的發(fā)展,同理,具身智能因其實(shí)現(xiàn)了知識(shí)、概念、可解釋以及行為因果關(guān)系,其有望成為通用人工智能的驅(qū)動(dòng)力(行情838275,診股)。
具身智能首先要具備可供性。可供性意味著要讓機(jī)器知道物體和場(chǎng)景能夠提供的是什么,比如整個(gè)身體、部件怎么和場(chǎng)景進(jìn)行有效擬合。根據(jù)《Gendexgrasp: Generalizable dexterous grasping》論文中的案例,用兩、三、五根手指去握一個(gè)柱子,倘若不同的手都能夠產(chǎn)生無(wú)誤的握桿效果,就代表有了可供性,而物理學(xué)正是機(jī)器理解可供性的關(guān)鍵。
具身智能還要具有功能性。具身智能在把物體作為工具使用的過(guò)程中,要能夠以任務(wù)執(zhí)行為導(dǎo)向去理解功能。從智能體來(lái)理解世界,核心就在于任務(wù)——改變實(shí)體狀態(tài),是任務(wù)實(shí)現(xiàn)來(lái)驅(qū)動(dòng)智能體的。例如,在解決 “鏟土”任務(wù)過(guò)程中,需要實(shí)現(xiàn)用不同的工具去鏟土,比如杯子、鏟子、平底鍋等,都要能夠讓智能體實(shí)現(xiàn)“鏟土”這個(gè)任務(wù)。因此,具身智能的功能性就是賦予了物體一個(gè)功能,用來(lái)解決某個(gè)特定任務(wù)。
具身智能需要實(shí)現(xiàn)因果鏈。就以上提到的“鏟土”例子,智能體能否順利鏟起土來(lái)是有因果關(guān)系的,例如控制揮動(dòng)錘子的方式、動(dòng)量、沖量等指標(biāo)的改變程度和改變過(guò)程,需要用數(shù)學(xué)和物理的因果鏈來(lái)控制。人工智能研究院朱松純教授團(tuán)隊(duì)介紹了一種學(xué)習(xí)和規(guī)劃框架,并證明了所提出的學(xué)習(xí)和規(guī)劃框架能夠識(shí)別對(duì)任務(wù)成功有重要意義的基本物理量,使智能體能夠自主規(guī)劃有效的工具使用策略,模仿人類使用工具的基本特性。
智能體學(xué)習(xí)如何使用工具涉及到多個(gè)認(rèn)知和智能過(guò)程,這個(gè)過(guò)程即使對(duì)人類來(lái)說(shuō)也并不容易。讓機(jī)器人掌握工具使用所涵蓋的所有技能是一項(xiàng)有挑戰(zhàn)性的難題,這項(xiàng)工作包括三個(gè)層面:其一是底層的運(yùn)動(dòng)控制。很多研究基于阻抗控制(Impedance control)來(lái)跟蹤工具使用的運(yùn)動(dòng)軌跡,或在不同階段改變力和運(yùn)動(dòng)約束,或使用基于學(xué)習(xí)的方法來(lái)控制機(jī)器人運(yùn)動(dòng)軌跡。在底層控制中,魯棒地執(zhí)行運(yùn)動(dòng)軌跡是關(guān)注的核心。其二是中間層表征。各種利于下游任務(wù)的中間表征被提出,以便更好地理解工具的使用。盡管引入這些表征有利于學(xué)習(xí)更多不同的工具使用技能,但它們目前仍然局限于工具的形狀和任務(wù)之間的幾何關(guān)聯(lián)。其三是理解在工具使用中的涉及的高層概念,比如物體的功能性(Functionality)和可供性(Affordance),以及工具使用中涉及的因果關(guān)系與常識(shí),從而實(shí)現(xiàn)更好的泛化能力。
現(xiàn)有的具身智能工作大多集中在以上三種基本特性中的某一層面。要么主要關(guān)注于機(jī)器人的動(dòng)作軌跡而不去理解任務(wù)本身,要么旨在高層次概念理解而過(guò)度簡(jiǎn)化運(yùn)動(dòng)規(guī)劃,都不能夠較全面的涵蓋所有層面。因此,機(jī)器人還遠(yuǎn)遠(yuǎn)沒(méi)有辦法基于特定的情境去制定工具使用的策略,并且由于運(yùn)動(dòng)學(xué)結(jié)構(gòu)的顯著差異,機(jī)器人觀察到的人類使用工具的策略對(duì)其來(lái)說(shuō)可能并不是最理想的方式。例如給定一組物體(典型的工具或其他物體),機(jī)器人如何判斷哪一個(gè)會(huì)是完成任務(wù)的最佳選擇?一旦選擇了一個(gè)物體作為工具,根據(jù)機(jī)器人和工具特定的運(yùn)動(dòng)學(xué)結(jié)構(gòu)和動(dòng)力學(xué)限制,機(jī)器人該如何有效地使用它?這些問(wèn)題也正是行業(yè)的前沿研究領(lǐng)域。
要機(jī)器理解實(shí)體與行為,就得回答三個(gè)核心的科學(xué)問(wèn)題。首先,從機(jī)器認(rèn)知角度,如何讓機(jī)器看懂行為?其次,從神經(jīng)認(rèn)知角度,機(jī)器認(rèn)知語(yǔ)義與神經(jīng)認(rèn)知的內(nèi)在關(guān)聯(lián)如何?再者,從具身認(rèn)知的角度,如何將行為理解知識(shí)遷移到機(jī)器人系統(tǒng)?
要實(shí)現(xiàn)具身智能,就必須先回答機(jī)器能否克隆人類的行為這個(gè)問(wèn)題。行為認(rèn)知是智能科學(xué)中的重要和核心問(wèn)題,要讓機(jī)器理解世界代表著:理解實(shí)體+理解行為,因?yàn)椴淮_定性的世界空間就可以歸類為實(shí)體與行為兩者。
深度學(xué)習(xí)框架在行為認(rèn)知中遇到了瓶頸。因?yàn)樯疃葘W(xué)習(xí)得到長(zhǎng)足發(fā)展,計(jì)算機(jī)視覺(jué)領(lǐng)域有兩個(gè)要素,一個(gè)是以物體為中心的感知,一個(gè)是以人為中心的感知。配合不斷進(jìn)化的深度學(xué)習(xí)算法,復(fù)雜物體識(shí)別可以十分成功,但是要機(jī)器明白從人類視角的這個(gè)行為的真實(shí)語(yǔ)義,卻十分困難。市場(chǎng)表現(xiàn)來(lái)看也是如此,很多商用產(chǎn)品都是基于物體檢測(cè),行為理解的產(chǎn)品都是很少的。之所以人為中心的感知十分困難,是因?yàn)樯疃葘W(xué)習(xí)本身達(dá)到了瓶頸。根據(jù)盧策吾教授的研究結(jié)果,行為識(shí)別的SOTA要遠(yuǎn)低于物體識(shí)別。
行為理解的關(guān)鍵是要在極大語(yǔ)義噪聲中提取行為理解要素。行為是一個(gè)抽象概念,因而需要在圖像中捕抓行為相關(guān)要素。要衡量圖像的語(yǔ)義判斷區(qū)間,可以用語(yǔ)噪比(語(yǔ)噪比=支撐語(yǔ)義判斷區(qū)間/全圖像區(qū)間)來(lái)刻畫(huà),即抹去圖像上的某個(gè)區(qū)域使得其他人無(wú)法識(shí)別出行為類型的最小區(qū)域。盧策吾教授團(tuán)隊(duì)通過(guò)計(jì)算發(fā)現(xiàn),物體識(shí)別的語(yǔ)噪比要遠(yuǎn)大于行為識(shí)別,這意味著遮住較大區(qū)域仍可以識(shí)別物體,但哪怕遮住一小塊區(qū)域就無(wú)法識(shí)別行為。因此,可以得出結(jié)論,行為理解的關(guān)鍵是要在極大語(yǔ)義噪聲中提取行為理解要素,也就是需要在很大干擾情況下,真正挖掘圖像的真實(shí)語(yǔ)義。而這個(gè)工作是無(wú)法通過(guò)增加深度學(xué)習(xí)的工作量來(lái)達(dá)到的。
將行為認(rèn)知問(wèn)題分解為感知到知識(shí)、知識(shí)到推理融合的兩個(gè)較為簡(jiǎn)單的階段,是一個(gè)較優(yōu)的科學(xué)路徑。離散語(yǔ)義符號(hào)是被不同行為所共享的,比如吃飯、讀書(shū)和打掃都有著“手-握-某物”的標(biāo)簽,通過(guò)對(duì)這些共享標(biāo)簽的遷移、復(fù)用和組合,可以形成行為原語(yǔ),從而構(gòu)造“中間層知識(shí)”,這種組合可以有著一定的泛化能力,即通過(guò)原語(yǔ)組合,機(jī)器可以做出沒(méi)見(jiàn)過(guò)的行為。
因此,構(gòu)建海量原語(yǔ)知識(shí)以及邏輯規(guī)則庫(kù)是首當(dāng)其沖的工作。人類理解行為的基本原因,約等于人類各個(gè)部件在干什么事情,因此首先得構(gòu)建大量的基于人類局部狀態(tài)的原語(yǔ)知識(shí),并能識(shí)別它們。其次,有了好的原語(yǔ)檢測(cè),之后就需要對(duì)它們進(jìn)行編程,實(shí)現(xiàn)邏輯規(guī)則引導(dǎo)下的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí),但這里容易出的問(wèn)題是,規(guī)則是人類自己認(rèn)為的,如果規(guī)則庫(kù)錯(cuò)了就會(huì)有很大的影響,因此規(guī)則學(xué)習(xí)是解決該問(wèn)題的辦法。具體流程是,在行為原語(yǔ)知識(shí)庫(kù)中隨機(jī)采樣,形成對(duì)該行為的判斷,然后基于人類給的先驗(yàn)起始點(diǎn)去搜索,規(guī)則空間采樣,若準(zhǔn)確率提高就加上規(guī)則,不然就刪掉該規(guī)則,通過(guò)調(diào)整后的規(guī)則分布形成新規(guī)則。盧策吾教授發(fā)現(xiàn),以“人騎車”圖像為例,經(jīng)過(guò)以上技術(shù)流程,機(jī)器可以在未見(jiàn)過(guò)的“騎車規(guī)則”中自動(dòng)識(shí)別出“騎車”這個(gè)行為,所以該技術(shù)路線可以有效逼近行為識(shí)別的人類性能。
機(jī)器能夠理解人類行為需要有科學(xué)依據(jù)的支撐。因此,科學(xué)家需要進(jìn)一步確定機(jī)器視覺(jué)行為分類特征跟神經(jīng)特征之間是否存在穩(wěn)定映射關(guān)系。如果有穩(wěn)定關(guān)系,視覺(jué)定義行為就是有客觀依據(jù)的。
實(shí)驗(yàn)發(fā)現(xiàn)行為從模式到腦信號(hào)存在映射,且模型穩(wěn)定。盧策吾教授聯(lián)合生物醫(yī)學(xué)團(tuán)隊(duì),搭建了首套大規(guī)模視覺(jué)理解-神經(jīng)信號(hào)閉環(huán)系統(tǒng),對(duì)小鼠的行為模式和神經(jīng)信號(hào)進(jìn)行了相關(guān)性分析。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)機(jī)器學(xué)習(xí)得出行為從模式到腦信號(hào)存在映射,并可以建立一個(gè)穩(wěn)定模型。另外,通過(guò)構(gòu)建一套基于機(jī)器學(xué)習(xí)的行為相關(guān)的神經(jīng)回路發(fā)現(xiàn)系統(tǒng),成功發(fā)現(xiàn)解析了“小鼠社會(huì)等級(jí)”行為的神經(jīng)回路。綜上可以得出結(jié)論,通過(guò)視覺(jué)定義行為是有科學(xué)依據(jù)的。
不僅僅理解行為,更需要能執(zhí)行行為,機(jī)器能夠執(zhí)行行為才是真正理解行為。通過(guò)計(jì)算機(jī)視覺(jué)以及行為認(rèn)知識(shí)別,讓機(jī)器能夠確認(rèn)和分辨一個(gè)行為僅僅只是第一步,這也只是傳統(tǒng)旁觀式AI學(xué)習(xí)所達(dá)到的功能水平,例如,傳統(tǒng)AI學(xué)習(xí)可以讓機(jī)器學(xué)習(xí)“盒子”概念并在新的場(chǎng)景中說(shuō)出“盒子”這個(gè)標(biāo)簽,但在具身智能學(xué)習(xí)模式中,機(jī)器通過(guò)感知環(huán)境實(shí)體,通過(guò)親身體驗(yàn)完成具身學(xué)習(xí),最終理解場(chǎng)景并形成“打開(kāi)”這個(gè)概念。因此,當(dāng)機(jī)器可以執(zhí)行該行為才是具身智能的落腳點(diǎn)。
執(zhí)行行為需要涉及到形態(tài)、行為和學(xué)習(xí)的體系化交互。在基于形態(tài)的具身智能中, 形態(tài)、行為與學(xué)習(xí)之間的關(guān)系密切。首先,需要利用形態(tài)產(chǎn)生行為,該過(guò)程重點(diǎn)強(qiáng)調(diào)利用具身智能體的形態(tài)特性巧妙地實(shí)現(xiàn)特定的行為, 從而達(dá)到部分取代“計(jì)算”的目的。其次,需要利用行為實(shí)現(xiàn)學(xué)習(xí),重點(diǎn)強(qiáng)調(diào)利用具身智能體的探索、操作等行為能力主動(dòng)獲取學(xué)習(xí)樣本、標(biāo)注信息,從而達(dá)到自主學(xué)習(xí)的目的,此領(lǐng)域當(dāng)前屬于研究前沿。再者,需要強(qiáng)調(diào)利用學(xué)習(xí)提升行為以及利用行為控制形態(tài),后者有多種實(shí)現(xiàn)方法,但當(dāng)前利用學(xué)習(xí)手段來(lái)提升行為,并進(jìn)而控制形態(tài)的工作是現(xiàn)代人工智能技術(shù)發(fā)展起來(lái)后涌現(xiàn)出來(lái)的新型智能控制方法,特別是基于強(qiáng)化學(xué)習(xí)的技術(shù)已成為當(dāng)前的熱點(diǎn)手段。最后,具身智能需要利用學(xué)習(xí)來(lái)優(yōu)化形態(tài),強(qiáng)調(diào)利用先進(jìn)的學(xué)習(xí)優(yōu)化技術(shù)實(shí)現(xiàn)對(duì)具身智能體的形態(tài)優(yōu)化設(shè)計(jì)。
“具身感知”是以執(zhí)行動(dòng)作為導(dǎo)向的全概念的交互感知。具身智能首先第一步就得解決具身概念學(xué)習(xí)的問(wèn)題,即如何定義、獲取、表達(dá)可以被機(jī)器人使用的物理概念。具身感知和傳統(tǒng)計(jì)算機(jī)視覺(jué)不同,計(jì)算機(jī)視覺(jué)沒(méi)有解析全部的知識(shí),而具身感知包含了“全概念感知”和“交互感知”,從而保證機(jī)器看到的不是標(biāo)簽,而是怎么利用它。例如,可以從人類認(rèn)知的角度,構(gòu)建大規(guī)模關(guān)節(jié)體知識(shí)庫(kù),該知識(shí)庫(kù)涵蓋外形、結(jié)構(gòu)、語(yǔ)義、物理屬性,同時(shí)標(biāo)注關(guān)節(jié)體每個(gè)部件的質(zhì)量、體積、慣性等,記錄真實(shí)世界物體操作力反饋與仿真操作力反饋,在物理屬性知識(shí)加持下,物體力反饋曲線可以完全擬合出來(lái),這時(shí)候仿真物體操作的時(shí)候,不再是去檢測(cè)標(biāo)簽,而是所有知識(shí)全部檢測(cè)出來(lái),檢測(cè)出來(lái)后,可以通過(guò)機(jī)器執(zhí)行的準(zhǔn)確率,判斷感知的準(zhǔn)確率。
通過(guò)行為的反饋和模式學(xué)習(xí)的空間壓縮,可以實(shí)現(xiàn)“具身執(zhí)行”的一定泛化性。在交互感知下,機(jī)器如果只是看物體,信息量沒(méi)有增加,但如果交互它,就能迅速減少誤差。機(jī)器面對(duì)物體,初步檢測(cè)它的知識(shí),但肯定存在知識(shí)結(jié)構(gòu)不準(zhǔn)的情況,但可以在猜測(cè)它是怎么做出這個(gè)行為的基礎(chǔ)上,指導(dǎo)機(jī)械去做,倘若做完之后跟真實(shí)不一樣,就證明猜測(cè)有問(wèn)題,再反過(guò)來(lái)優(yōu)化問(wèn)題。并且,可以把抓取到的所有特征模式,壓縮到可以被學(xué)習(xí)的空間范圍內(nèi),通過(guò)這種機(jī)制,機(jī)器在面對(duì)沒(méi)見(jiàn)過(guò)的物體時(shí),也能進(jìn)行相關(guān)的行為,因而具備了一定的通用性。
Tesla Bot功能進(jìn)展迅速,商業(yè)化前景可期。2021年,在“特斯拉AI日”上,馬斯克發(fā)布了特斯拉的通用機(jī)器人計(jì)劃,并用圖片展示了人形機(jī)器人Tesla Bot的大致形態(tài)。但當(dāng)時(shí)的Tesla Bot只是個(gè)概念。一年后在2022特斯拉AI日上,人形機(jī)器人擎天柱(Optimus)實(shí)體亮相。2023年5月中旬的特斯拉股東大會(huì)上,馬斯克又展示了Tesla Bot的最新進(jìn)展,現(xiàn)在Tesla Bot已經(jīng)可以流暢行走,并還能靈活抓取放下物體。馬斯克在會(huì)上表示“人形機(jī)器人將會(huì)是今后特斯拉主要的長(zhǎng)期價(jià)值來(lái)源。如果人形機(jī)器人和人的比例是2比1,則人們對(duì)機(jī)器人的需求量可能是100億乃至200億個(gè),遠(yuǎn)超電動(dòng)車數(shù)量”。
最近的Tesla Bot功能突破來(lái)源于特斯拉改進(jìn)的電機(jī)扭矩控制以及環(huán)境建模等技術(shù)。特斯拉利用一些技術(shù)方法改進(jìn)了人形機(jī)器人的動(dòng)作和控制,包括電機(jī)扭矩控制、環(huán)境發(fā)現(xiàn)與記憶、基于人類演示訓(xùn)練機(jī)器人。首先,研究團(tuán)隊(duì)使用電機(jī)扭矩控制(motor torque control)操縱人形機(jī)器人腿部的運(yùn)動(dòng),讓機(jī)器人落腳力度保持輕緩。對(duì)于一個(gè)機(jī)器人來(lái)說(shuō),觀察或感知周圍環(huán)境是非常重要的,因此特斯拉為人形機(jī)器人添加了環(huán)境發(fā)現(xiàn)與記憶的能力。現(xiàn)在該人形機(jī)器人已經(jīng)可以對(duì)周圍環(huán)境進(jìn)行大致建模。特斯拉的人形機(jī)器人具備與人類相似的身體結(jié)構(gòu),特斯拉的研究團(tuán)隊(duì)使用大量人類演示訓(xùn)練了機(jī)器人,特別是在手部動(dòng)作方面,旨在讓其具備與人類似的物體抓取能力。
具身智能帶來(lái)的AI價(jià)值遠(yuǎn)比人形機(jī)器人更大。具身智能最大的特質(zhì)就是能夠以主人公的視角去自主感知物理世界,用擬人化的思維路徑去學(xué)習(xí),從而做出人類期待的行為反饋,而不是被動(dòng)的等待數(shù)據(jù)投喂。人形機(jī)器人提供了各種基于人類行為的學(xué)習(xí)和反饋系統(tǒng),為實(shí)現(xiàn)更復(fù)雜行為語(yǔ)義提供了迭代的基礎(chǔ)和試驗(yàn)場(chǎng),因此,人形機(jī)器人的逐步完善也為具身智能的落地提供了方向。而面向工業(yè)等場(chǎng)景的具身智能應(yīng)用并非一定要是人形機(jī)器人,因此具身智能背后的技術(shù)和方法論才是核心,也意味著具身智能所帶來(lái)的價(jià)值要遠(yuǎn)遠(yuǎn)高于人形機(jī)器人本身。換句話說(shuō),人形機(jī)器人是具身智能的重要應(yīng)用場(chǎng)景,也將為具身智能的迭代優(yōu)化提供方向和空間。
強(qiáng)化學(xué)習(xí)興起之后,具身智能受到了更廣泛的關(guān)注。之前隨著Alpha Go的成功,學(xué)術(shù)界對(duì)于強(qiáng)化學(xué)習(xí)的興趣大增,隨之很多人開(kāi)始用RL來(lái)打通智能體的感知-決策-執(zhí)行,希望實(shí)現(xiàn)具身智能。訓(xùn)練RL是一個(gè)不斷試錯(cuò)的過(guò)程,所以從2017、18年開(kāi)始,出現(xiàn)了很多仿真訓(xùn)練平臺(tái),能把一個(gè)智能體以具身的形式放進(jìn)去,然后通過(guò)與環(huán)境的交互中獲得reward,進(jìn)而學(xué)習(xí)一個(gè)policy。但是因?yàn)榉抡姝h(huán)境和現(xiàn)實(shí)環(huán)境總是有差距的(叫sim2real gap),習(xí)得的policy不一定能遷移到現(xiàn)實(shí)里。當(dāng)前能實(shí)現(xiàn)技能policy從仿真遷移到現(xiàn)實(shí)環(huán)境中的,主要還是像移動(dòng)導(dǎo)航、單步驟的抓取或者操作這類較為單一的技能,而且很難泛化。
最近大語(yǔ)言模型的風(fēng)頭又壓過(guò)了強(qiáng)化學(xué)習(xí)。最近業(yè)界希望通過(guò)大規(guī)模sequence to sequence,用一個(gè)模型整合視覺(jué)、語(yǔ)言、機(jī)器人,也取得了一定效果。但是機(jī)器人的執(zhí)行需要的是4D數(shù)據(jù)(三維環(huán)境和機(jī)器人運(yùn)動(dòng)的時(shí)序軌跡),它的數(shù)據(jù)量和豐富度都遠(yuǎn)不如圖片和文本,采集成本也高的多,因此迭代演化的難度相比于大模型高得多。
而多模態(tài)大模型為具身智能的技術(shù)瓶頸突破提供了重要驅(qū)動(dòng)力。具身智能是人工智能、機(jī)器人等各技術(shù)分支融合發(fā)展的必然結(jié)果,因?yàn)橛?jì)算機(jī)視覺(jué)為圖像的采集和處理打開(kāi)了窗口,圖形學(xué)也為物理仿真提供了工具支撐,NLP也為人類-機(jī)器交互提供了便捷性,也為機(jī)器從文本中學(xué)習(xí)知識(shí)提供了有效途徑,認(rèn)知科學(xué)也為具身智能的行為認(rèn)知原理提供了科學(xué)研究途徑。各類機(jī)器人構(gòu)件也為智能體與物理環(huán)境交互提供了橋梁。因此,人工智能的技術(shù)分支以及機(jī)器人功能性的提升,為具身智能的進(jìn)一步發(fā)展帶來(lái)了可能,而當(dāng)前AIGC時(shí)代的大模型可以將之前的技術(shù)分支更優(yōu)地集成和創(chuàng)新,已有不少研究者嘗試將多模態(tài)的大語(yǔ)言模型作為人類與機(jī)器人溝通的橋梁,即通過(guò)將圖像、文字、具身數(shù)據(jù)聯(lián)合訓(xùn)練,并引入多模態(tài)輸入,增強(qiáng)模型對(duì)現(xiàn)實(shí)中對(duì)象的理解,從而更高效地幫助機(jī)器人處理具身推理任務(wù),一定程度提升了具身智能的泛化水平。所以,GPT等AI大模型為具身智能的自我感知和任務(wù)處理的優(yōu)化升級(jí)提供了新的研究手段。
“算力霸主”英偉達(dá)高調(diào)布局具身智能。在ITF World 2023半導(dǎo)體大會(huì)上,黃仁勛表示人工智能的下一個(gè)浪潮將是具身智能,即能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng)。同時(shí),他也介紹了英偉達(dá)的多模態(tài)具身智能系統(tǒng)Nvidia VIMA,其能在視覺(jué)文本提示的指導(dǎo)下,執(zhí)行復(fù)雜任務(wù)、獲取概念、理解邊界、甚至模擬物理學(xué),這也標(biāo)志著AI能力的一大顯著進(jìn)步。
融合傳感器模態(tài)與語(yǔ)言模型,谷歌推出的視覺(jué)語(yǔ)言模型相較于ChatGPT新增了視覺(jué)功能。2023年3月,谷歌和柏林工業(yè)大學(xué)AI研究團(tuán)隊(duì)推出了當(dāng)時(shí)最大視覺(jué)語(yǔ)言模型——PaLM-E多模態(tài)視覺(jué)語(yǔ)言模型(VLM),該模型具有5620億個(gè)參數(shù),集成了可控制機(jī)器人的視覺(jué)和語(yǔ)言能力,將真實(shí)世界的連續(xù)傳感器模態(tài)直接納入語(yǔ)言模型,從而建立單詞和感知之間的聯(lián)系,且該模型能夠執(zhí)行各種任務(wù)且無(wú)需重新訓(xùn)練,其相較于ChatGPT新增了視覺(jué)功能。PaLM-E的主要架構(gòu)思想是將連續(xù)的、具體化的觀察(如圖像、狀態(tài)估計(jì)或其他傳感器模態(tài))注入預(yù)先訓(xùn)練的語(yǔ)言模型的語(yǔ)言嵌入空間,因此實(shí)現(xiàn)了以類似于語(yǔ)言標(biāo)記的方式將連續(xù)信息注入到語(yǔ)言模型中。
谷歌實(shí)現(xiàn)視覺(jué)語(yǔ)言與機(jī)器人高水平實(shí)時(shí)互聯(lián),且觀察到了類似多模態(tài)思維鏈推理與多圖像推理等涌現(xiàn)能力的出現(xiàn)。基于語(yǔ)言模型,PaLM-E 會(huì)進(jìn)行連續(xù)觀察,例如接收?qǐng)D像或傳感器數(shù)據(jù),并將其編碼為一系列與語(yǔ)言令牌大小相同的向量。因此,模型就能繼續(xù)以處理語(yǔ)言的方式“理解”感官信息。而且,同一套PaLM-E模型能夠達(dá)到實(shí)時(shí)控制機(jī)器人的水準(zhǔn)。PaLM-E 還展現(xiàn)出隨機(jī)應(yīng)變的能力,例如盡管只接受過(guò)單圖像提示訓(xùn)練,仍可實(shí)現(xiàn)多模態(tài)思維鏈推理(允許模型對(duì)包含語(yǔ)言和視覺(jué)信息在內(nèi)的一系列輸入進(jìn)行分析)和多圖像推理(同時(shí)使用多張輸入圖像進(jìn)行推理或預(yù)測(cè))。但谷歌展示的Demo中的空間范圍、物品種類、任務(wù)規(guī)劃復(fù)雜度等條件還比較有限,隨著深度學(xué)習(xí)模型愈發(fā)復(fù)雜,PaLM-E也將打開(kāi)更多可行性應(yīng)用空間。
微軟正計(jì)劃將ChatGPT 的能力擴(kuò)展到機(jī)器人領(lǐng)域,使得能用語(yǔ)言文字控制機(jī)器人。目前實(shí)驗(yàn)已經(jīng)能夠通過(guò)給ChatGPT的對(duì)話框輸入指令,讓其控制機(jī)器人在房間中找到“健康飲料”、“有糖和紅色標(biāo)志的東西”等。微軟研究人員表示,“研究的目標(biāo)是看ChatGPT是否能超越生成文本的范疇,對(duì)現(xiàn)實(shí)世界狀況進(jìn)行推理,從而幫助機(jī)器人完成任務(wù)”。微軟希望幫助人們更輕松地與機(jī)器人互動(dòng),而無(wú)需學(xué)習(xí)復(fù)雜的編程語(yǔ)言或有關(guān)機(jī)器人系統(tǒng)的詳細(xì)信息。
阿里采用和微軟相似的路徑,正在實(shí)驗(yàn)將千問(wèn)大模型接入工業(yè)機(jī)器人。在近日舉行的第六屆數(shù)字中國(guó)建設(shè)峰會(huì)上,阿里云發(fā)布一個(gè)演示視頻中展示了千問(wèn)大模型的實(shí)際應(yīng)用場(chǎng)景。其中,千問(wèn)大模型接入了工業(yè)機(jī)器人,工程師通過(guò)釘釘對(duì)話框向機(jī)器人發(fā)出指令后,千問(wèn)大模型在后臺(tái)自動(dòng)編寫(xiě)了一組代碼發(fā)給機(jī)器人,機(jī)器人開(kāi)始識(shí)別周邊環(huán)境,從附近的桌上找到一瓶水,并自動(dòng)完成移動(dòng)、抓取、配送等一系列動(dòng)作,遞送給工程師。在釘釘對(duì)話框輸入一句人類語(yǔ)言即可指揮機(jī)器人工作,這將為工業(yè)機(jī)器人的開(kāi)發(fā)和應(yīng)用帶來(lái)革命性的變化,其背后意味著大模型為工業(yè)機(jī)器人的開(kāi)發(fā)打開(kāi)了新的大門(mén)。因?yàn)榍?wèn)等大模型為機(jī)器人提供了推理決策的能力,從而有望讓機(jī)器人的靈活性和智能性大幅提升。