亚洲国产成人久久精品91,蜜桃AV抽搐高潮一区二区,国产色综合久久无码麻豆

從符號(hào)主義到聯(lián)結(jié)主義，智能體與真實(shí)世界的交互得到日益重視。上世紀(jì)五十年代的達(dá)特茅斯會(huì)議之后的一段時(shí)期內(nèi)，對(duì)人工智能的研究主要限于符號(hào)處理范式（符號(hào)主義）。符號(hào)主義的局限性很快在實(shí)際應(yīng)用中暴露出來(lái)，并催動(dòng)了聯(lián)接主義的發(fā)展，形成了包括多層感知機(jī)、前向神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)，直至今日風(fēng)靡學(xué)術(shù)界與產(chǎn)業(yè)界的深度神經(jīng)網(wǎng)絡(luò)等多種方法。這種用人工神經(jīng)網(wǎng)絡(luò)模擬認(rèn)知過(guò)程的方法在適應(yīng)、泛化與學(xué)習(xí)方面的確取得了很大的進(jìn)展，但并未真正解決智能體與真實(shí)物理世界交互的難題。該難題“莫拉維克悖論”可以通俗地表述為：要讓電腦如成人般地下棋是相對(duì)容易的，但是要讓電腦有如一歲小孩般的感知和行動(dòng)能力卻是相當(dāng)困難甚至是不可能的。

針對(duì)以上問(wèn)題，“具身智能”（Embodied AI）概念應(yīng)運(yùn)而生。針對(duì)智能體的交互問(wèn)題，明斯基從行為學(xué)習(xí)的角度提出了“強(qiáng)化學(xué)習(xí)”的概念。1986年，布魯克斯從控制論角度出發(fā)，強(qiáng)調(diào)智能是具身化（Embodied）和情境化（Contextlized）的，傳統(tǒng)以表征為核心的經(jīng)典AI進(jìn)化路徑是錯(cuò)誤的，而清除表征的方式就是制造基于行為的機(jī)器人(行情300024,診股)。Rolf Pfeifer在其著作《How the Body Shapes the Way We Think》中通過(guò)分析“身體是如何影響智能的”對(duì)“智能的具身化”做了清晰的描述，闡明了“具身性”對(duì)理解智能本質(zhì)與研究人工智能系統(tǒng)的深遠(yuǎn)影響。以上這些工作為人工智能的第三個(gè)流派——以具身智能為代表的行為主義方法奠定了堅(jiān)實(shí)基礎(chǔ)。

“具身智能”的基本假設(shè)是，智能行為可以被具有對(duì)應(yīng)形態(tài)的智能體通過(guò)適應(yīng)環(huán)境的方式學(xué)習(xí)到。可以簡(jiǎn)單理解為各種不同形態(tài)的機(jī)器人，讓它們?cè)谡鎸?shí)的物理環(huán)境下執(zhí)行各種各樣的任務(wù)，來(lái)完成人工智能的進(jìn)化過(guò)程。拆分來(lái)理解，“具身”的基本含義是認(rèn)知對(duì)身體的依賴性，即身體對(duì)于認(rèn)知具有影響，換句話說(shuō)，身體參與了認(rèn)知，影響了思維、判斷等心智過(guò)程。“具身”意味著認(rèn)知不能脫離身體單獨(dú)存在。此外，“具身”相對(duì)的概念是“離身”（Disembodiment），指的是認(rèn)知與身體解耦（CHATGPT為代表的大模型就僅僅實(shí)現(xiàn)了離身智能）；“智能”代表智能體（生物或機(jī)械）通過(guò)與環(huán)境產(chǎn)生交互后，通過(guò)自身學(xué)習(xí)，產(chǎn)生對(duì)于客觀世界的理解和改造能力。此外，一些通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的機(jī)器人，也可以被認(rèn)為是具身智能的一種形式，如OpenAI的單手還原魔方機(jī)器人等。因此，具身智能旨在基于機(jī)器與物理世界的交互，創(chuàng)建軟硬件結(jié)合、可自主學(xué)習(xí)進(jìn)化的智能體。

具身的概念是可檢驗(yàn)、可測(cè)量的。人所理解的世界概念，其中既包括人類獨(dú)有的責(zé)任心、榮譽(yù)、感情、欲望等非具身的概念，也包括了杯子、車等實(shí)體以及相應(yīng)行為的具身概念。而具身概念是具備可達(dá)性、可檢驗(yàn)性以及可解釋性的，即具身的概念對(duì)應(yīng)的實(shí)體和行為是可以被測(cè)量，可以通過(guò)任務(wù)的完成來(lái)驗(yàn)證以及通過(guò)具身學(xué)習(xí)來(lái)實(shí)現(xiàn)概念的推斷。相比之下，非具身概念基本要素不能實(shí)現(xiàn)可測(cè)量及可檢驗(yàn)。

具身智能：人工智能的下一個(gè)浪潮

“知行合一”是具身智能的科學(xué)立場(chǎng)。根據(jù)具身智能的技術(shù)實(shí)現(xiàn)邏輯，“知”是建立在“行”之上的，也就是說(shuō)只有通過(guò)“具身”才能理解某個(gè)場(chǎng)景。比如有個(gè)臥室，其具有睡覺(jué)、休息、放衣服等行為特征，這類行為是基于人的身體設(shè)計(jì)的，因此真正理解臥室的場(chǎng)景，就是要能夠直接通過(guò)坐上椅子、躺在床上等行為任務(wù)去驗(yàn)證。同理，機(jī)器人通過(guò)理解場(chǎng)景，能夠?qū)崿F(xiàn)以上行為才能代表它真正理解了該場(chǎng)景。因?yàn)閺谋举|(zhì)上，物體和場(chǎng)景的類別大多是由功能和任務(wù)來(lái)定義的，“我能用來(lái)干什么，那它是什么”，比如錘子不能叫木棍，錘子有它獨(dú)特的行為屬性。

具身智能：人工智能的下一個(gè)浪潮

具身知識(shí)在中國(guó)古老漢字中都占據(jù)較高比例。甲骨文等古老漢字，絕大多數(shù)就是通過(guò)行為的表征來(lái)刻畫(huà)一個(gè)概念，比如“爭(zhēng)”的古老寫(xiě)法中，代表兩個(gè)人的手拔一根繩子，因此，理解行為才是理解概念及場(chǎng)景的關(guān)鍵。

具身智能：人工智能的下一個(gè)浪潮

所以，計(jì)算機(jī)視覺(jué)和NLP更多是具身智能的工具，而通用人工智能才是具身智能的終極目標(biāo)。具身智能要能夠?qū)崿F(xiàn)使用身體（各個(gè)部位）完成物理任務(wù)的一些現(xiàn)象，比如外國(guó)人不會(huì)用筷子，但仍能叉起來(lái)吃東西，因此具身智能也要通過(guò)物理環(huán)境完成任務(wù)的過(guò)程中，表現(xiàn)出完成之前沒(méi)有覆蓋的場(chǎng)景。所以，根據(jù)具身智能的特點(diǎn)可以研判，如同經(jīng)典力學(xué)領(lǐng)域的速度、動(dòng)量、彈性等概念奠基了物理學(xué)領(lǐng)域，驅(qū)動(dòng)了后續(xù)科學(xué)的發(fā)展，同理，具身智能因其實(shí)現(xiàn)了知識(shí)、概念、可解釋以及行為因果關(guān)系，其有望成為通用人工智能的驅(qū)動(dòng)力(行情838275,診股)。

具身智能首先要具備可供性。可供性意味著要讓機(jī)器知道物體和場(chǎng)景能夠提供的是什么，比如整個(gè)身體、部件怎么和場(chǎng)景進(jìn)行有效擬合。根據(jù)《Gendexgrasp: Generalizable dexterous grasping》論文中的案例，用兩、三、五根手指去握一個(gè)柱子，倘若不同的手都能夠產(chǎn)生無(wú)誤的握桿效果，就代表有了可供性，而物理學(xué)正是機(jī)器理解可供性的關(guān)鍵。

具身智能：人工智能的下一個(gè)浪潮

具身智能還要具有功能性。具身智能在把物體作為工具使用的過(guò)程中，要能夠以任務(wù)執(zhí)行為導(dǎo)向去理解功能。從智能體來(lái)理解世界，核心就在于任務(wù)——改變實(shí)體狀態(tài)，是任務(wù)實(shí)現(xiàn)來(lái)驅(qū)動(dòng)智能體的。例如，在解決 “鏟土”任務(wù)過(guò)程中，需要實(shí)現(xiàn)用不同的工具去鏟土，比如杯子、鏟子、平底鍋等，都要能夠讓智能體實(shí)現(xiàn)“鏟土”這個(gè)任務(wù)。因此，具身智能的功能性就是賦予了物體一個(gè)功能，用來(lái)解決某個(gè)特定任務(wù)。

具身智能：人工智能的下一個(gè)浪潮

具身智能需要實(shí)現(xiàn)因果鏈。就以上提到的“鏟土”例子，智能體能否順利鏟起土來(lái)是有因果關(guān)系的，例如控制揮動(dòng)錘子的方式、動(dòng)量、沖量等指標(biāo)的改變程度和改變過(guò)程，需要用數(shù)學(xué)和物理的因果鏈來(lái)控制。人工智能研究院朱松純教授團(tuán)隊(duì)介紹了一種學(xué)習(xí)和規(guī)劃框架，并證明了所提出的學(xué)習(xí)和規(guī)劃框架能夠識(shí)別對(duì)任務(wù)成功有重要意義的基本物理量，使智能體能夠自主規(guī)劃有效的工具使用策略，模仿人類使用工具的基本特性。

智能體學(xué)習(xí)如何使用工具涉及到多個(gè)認(rèn)知和智能過(guò)程，這個(gè)過(guò)程即使對(duì)人類來(lái)說(shuō)也并不容易。讓機(jī)器人掌握工具使用所涵蓋的所有技能是一項(xiàng)有挑戰(zhàn)性的難題，這項(xiàng)工作包括三個(gè)層面：其一是底層的運(yùn)動(dòng)控制。很多研究基于阻抗控制（Impedance control）來(lái)跟蹤工具使用的運(yùn)動(dòng)軌跡，或在不同階段改變力和運(yùn)動(dòng)約束，或使用基于學(xué)習(xí)的方法來(lái)控制機(jī)器人運(yùn)動(dòng)軌跡。在底層控制中，魯棒地執(zhí)行運(yùn)動(dòng)軌跡是關(guān)注的核心。其二是中間層表征。各種利于下游任務(wù)的中間表征被提出，以便更好地理解工具的使用。盡管引入這些表征有利于學(xué)習(xí)更多不同的工具使用技能，但它們目前仍然局限于工具的形狀和任務(wù)之間的幾何關(guān)聯(lián)。其三是理解在工具使用中的涉及的高層概念，比如物體的功能性（Functionality）和可供性（Affordance），以及工具使用中涉及的因果關(guān)系與常識(shí)，從而實(shí)現(xiàn)更好的泛化能力。

現(xiàn)有的具身智能工作大多集中在以上三種基本特性中的某一層面。要么主要關(guān)注于機(jī)器人的動(dòng)作軌跡而不去理解任務(wù)本身，要么旨在高層次概念理解而過(guò)度簡(jiǎn)化運(yùn)動(dòng)規(guī)劃，都不能夠較全面的涵蓋所有層面。因此，機(jī)器人還遠(yuǎn)遠(yuǎn)沒(méi)有辦法基于特定的情境去制定工具使用的策略，并且由于運(yùn)動(dòng)學(xué)結(jié)構(gòu)的顯著差異，機(jī)器人觀察到的人類使用工具的策略對(duì)其來(lái)說(shuō)可能并不是最理想的方式。例如給定一組物體（典型的工具或其他物體），機(jī)器人如何判斷哪一個(gè)會(huì)是完成任務(wù)的最佳選擇？一旦選擇了一個(gè)物體作為工具，根據(jù)機(jī)器人和工具特定的運(yùn)動(dòng)學(xué)結(jié)構(gòu)和動(dòng)力學(xué)限制，機(jī)器人該如何有效地使用它？這些問(wèn)題也正是行業(yè)的前沿研究領(lǐng)域。

要機(jī)器理解實(shí)體與行為，就得回答三個(gè)核心的科學(xué)問(wèn)題。首先，從機(jī)器認(rèn)知角度，如何讓機(jī)器看懂行為？其次，從神經(jīng)認(rèn)知角度，機(jī)器認(rèn)知語(yǔ)義與神經(jīng)認(rèn)知的內(nèi)在關(guān)聯(lián)如何？再者，從具身認(rèn)知的角度，如何將行為理解知識(shí)遷移到機(jī)器人系統(tǒng)？

要實(shí)現(xiàn)具身智能，就必須先回答機(jī)器能否克隆人類的行為這個(gè)問(wèn)題。行為認(rèn)知是智能科學(xué)中的重要和核心問(wèn)題，要讓機(jī)器理解世界代表著：理解實(shí)體+理解行為，因?yàn)椴淮_定性的世界空間就可以歸類為實(shí)體與行為兩者。

具身智能：人工智能的下一個(gè)浪潮

深度學(xué)習(xí)框架在行為認(rèn)知中遇到了瓶頸。因?yàn)樯疃葘W(xué)習(xí)得到長(zhǎng)足發(fā)展，計(jì)算機(jī)視覺(jué)領(lǐng)域有兩個(gè)要素，一個(gè)是以物體為中心的感知，一個(gè)是以人為中心的感知。配合不斷進(jìn)化的深度學(xué)習(xí)算法，復(fù)雜物體識(shí)別可以十分成功，但是要機(jī)器明白從人類視角的這個(gè)行為的真實(shí)語(yǔ)義，卻十分困難。市場(chǎng)表現(xiàn)來(lái)看也是如此，很多商用產(chǎn)品都是基于物體檢測(cè)，行為理解的產(chǎn)品都是很少的。之所以人為中心的感知十分困難，是因?yàn)樯疃葘W(xué)習(xí)本身達(dá)到了瓶頸。根據(jù)盧策吾教授的研究結(jié)果，行為識(shí)別的SOTA要遠(yuǎn)低于物體識(shí)別。

具身智能：人工智能的下一個(gè)浪潮

行為理解的關(guān)鍵是要在極大語(yǔ)義噪聲中提取行為理解要素。行為是一個(gè)抽象概念，因而需要在圖像中捕抓行為相關(guān)要素。要衡量圖像的語(yǔ)義判斷區(qū)間，可以用語(yǔ)噪比（語(yǔ)噪比=支撐語(yǔ)義判斷區(qū)間/全圖像區(qū)間）來(lái)刻畫(huà)，即抹去圖像上的某個(gè)區(qū)域使得其他人無(wú)法識(shí)別出行為類型的最小區(qū)域。盧策吾教授團(tuán)隊(duì)通過(guò)計(jì)算發(fā)現(xiàn)，物體識(shí)別的語(yǔ)噪比要遠(yuǎn)大于行為識(shí)別，這意味著遮住較大區(qū)域仍可以識(shí)別物體，但哪怕遮住一小塊區(qū)域就無(wú)法識(shí)別行為。因此，可以得出結(jié)論，行為理解的關(guān)鍵是要在極大語(yǔ)義噪聲中提取行為理解要素，也就是需要在很大干擾情況下，真正挖掘圖像的真實(shí)語(yǔ)義。而這個(gè)工作是無(wú)法通過(guò)增加深度學(xué)習(xí)的工作量來(lái)達(dá)到的。

將行為認(rèn)知問(wèn)題分解為感知到知識(shí)、知識(shí)到推理融合的兩個(gè)較為簡(jiǎn)單的階段，是一個(gè)較優(yōu)的科學(xué)路徑。離散語(yǔ)義符號(hào)是被不同行為所共享的，比如吃飯、讀書(shū)和打掃都有著“手-握-某物”的標(biāo)簽，通過(guò)對(duì)這些共享標(biāo)簽的遷移、復(fù)用和組合，可以形成行為原語(yǔ)，從而構(gòu)造“中間層知識(shí)”，這種組合可以有著一定的泛化能力，即通過(guò)原語(yǔ)組合，機(jī)器可以做出沒(méi)見(jiàn)過(guò)的行為。

具身智能：人工智能的下一個(gè)浪潮

因此，構(gòu)建海量原語(yǔ)知識(shí)以及邏輯規(guī)則庫(kù)是首當(dāng)其沖的工作。人類理解行為的基本原因，約等于人類各個(gè)部件在干什么事情，因此首先得構(gòu)建大量的基于人類局部狀態(tài)的原語(yǔ)知識(shí)，并能識(shí)別它們。其次，有了好的原語(yǔ)檢測(cè)，之后就需要對(duì)它們進(jìn)行編程，實(shí)現(xiàn)邏輯規(guī)則引導(dǎo)下的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)，但這里容易出的問(wèn)題是，規(guī)則是人類自己認(rèn)為的，如果規(guī)則庫(kù)錯(cuò)了就會(huì)有很大的影響，因此規(guī)則學(xué)習(xí)是解決該問(wèn)題的辦法。具體流程是，在行為原語(yǔ)知識(shí)庫(kù)中隨機(jī)采樣，形成對(duì)該行為的判斷，然后基于人類給的先驗(yàn)起始點(diǎn)去搜索，規(guī)則空間采樣，若準(zhǔn)確率提高就加上規(guī)則，不然就刪掉該規(guī)則，通過(guò)調(diào)整后的規(guī)則分布形成新規(guī)則。盧策吾教授發(fā)現(xiàn)，以“人騎車”圖像為例，經(jīng)過(guò)以上技術(shù)流程，機(jī)器可以在未見(jiàn)過(guò)的“騎車規(guī)則”中自動(dòng)識(shí)別出“騎車”這個(gè)行為，所以該技術(shù)路線可以有效逼近行為識(shí)別的人類性能。

機(jī)器能夠理解人類行為需要有科學(xué)依據(jù)的支撐。因此，科學(xué)家需要進(jìn)一步確定機(jī)器視覺(jué)行為分類特征跟神經(jīng)特征之間是否存在穩(wěn)定映射關(guān)系。如果有穩(wěn)定關(guān)系，視覺(jué)定義行為就是有客觀依據(jù)的。

實(shí)驗(yàn)發(fā)現(xiàn)行為從模式到腦信號(hào)存在映射，且模型穩(wěn)定。盧策吾教授聯(lián)合生物醫(yī)學(xué)團(tuán)隊(duì)，搭建了首套大規(guī)模視覺(jué)理解-神經(jīng)信號(hào)閉環(huán)系統(tǒng)，對(duì)小鼠的行為模式和神經(jīng)信號(hào)進(jìn)行了相關(guān)性分析。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)機(jī)器學(xué)習(xí)得出行為從模式到腦信號(hào)存在映射，并可以建立一個(gè)穩(wěn)定模型。另外，通過(guò)構(gòu)建一套基于機(jī)器學(xué)習(xí)的行為相關(guān)的神經(jīng)回路發(fā)現(xiàn)系統(tǒng)，成功發(fā)現(xiàn)解析了“小鼠社會(huì)等級(jí)”行為的神經(jīng)回路。綜上可以得出結(jié)論，通過(guò)視覺(jué)定義行為是有科學(xué)依據(jù)的。

具身智能：人工智能的下一個(gè)浪潮

不僅僅理解行為，更需要能執(zhí)行行為，機(jī)器能夠執(zhí)行行為才是真正理解行為。通過(guò)計(jì)算機(jī)視覺(jué)以及行為認(rèn)知識(shí)別，讓機(jī)器能夠確認(rèn)和分辨一個(gè)行為僅僅只是第一步，這也只是傳統(tǒng)旁觀式AI學(xué)習(xí)所達(dá)到的功能水平，例如，傳統(tǒng)AI學(xué)習(xí)可以讓機(jī)器學(xué)習(xí)“盒子”概念并在新的場(chǎng)景中說(shuō)出“盒子”這個(gè)標(biāo)簽，但在具身智能學(xué)習(xí)模式中，機(jī)器通過(guò)感知環(huán)境實(shí)體，通過(guò)親身體驗(yàn)完成具身學(xué)習(xí)，最終理解場(chǎng)景并形成“打開(kāi)”這個(gè)概念。因此，當(dāng)機(jī)器可以執(zhí)行該行為才是具身智能的落腳點(diǎn)。

具身智能：人工智能的下一個(gè)浪潮

執(zhí)行行為需要涉及到形態(tài)、行為和學(xué)習(xí)的體系化交互。在基于形態(tài)的具身智能中，形態(tài)、行為與學(xué)習(xí)之間的關(guān)系密切。首先，需要利用形態(tài)產(chǎn)生行為，該過(guò)程重點(diǎn)強(qiáng)調(diào)利用具身智能體的形態(tài)特性巧妙地實(shí)現(xiàn)特定的行為，從而達(dá)到部分取代“計(jì)算”的目的。其次，需要利用行為實(shí)現(xiàn)學(xué)習(xí)，重點(diǎn)強(qiáng)調(diào)利用具身智能體的探索、操作等行為能力主動(dòng)獲取學(xué)習(xí)樣本、標(biāo)注信息，從而達(dá)到自主學(xué)習(xí)的目的，此領(lǐng)域當(dāng)前屬于研究前沿。再者，需要強(qiáng)調(diào)利用學(xué)習(xí)提升行為以及利用行為控制形態(tài)，后者有多種實(shí)現(xiàn)方法，但當(dāng)前利用學(xué)習(xí)手段來(lái)提升行為，并進(jìn)而控制形態(tài)的工作是現(xiàn)代人工智能技術(shù)發(fā)展起來(lái)后涌現(xiàn)出來(lái)的新型智能控制方法，特別是基于強(qiáng)化學(xué)習(xí)的技術(shù)已成為當(dāng)前的熱點(diǎn)手段。最后，具身智能需要利用學(xué)習(xí)來(lái)優(yōu)化形態(tài)，強(qiáng)調(diào)利用先進(jìn)的學(xué)習(xí)優(yōu)化技術(shù)實(shí)現(xiàn)對(duì)具身智能體的形態(tài)優(yōu)化設(shè)計(jì)。

具身智能：人工智能的下一個(gè)浪潮

“具身感知”是以執(zhí)行動(dòng)作為導(dǎo)向的全概念的交互感知。具身智能首先第一步就得解決具身概念學(xué)習(xí)的問(wèn)題，即如何定義、獲取、表達(dá)可以被機(jī)器人使用的物理概念。具身感知和傳統(tǒng)計(jì)算機(jī)視覺(jué)不同，計(jì)算機(jī)視覺(jué)沒(méi)有解析全部的知識(shí)，而具身感知包含了“全概念感知”和“交互感知”，從而保證機(jī)器看到的不是標(biāo)簽，而是怎么利用它。例如，可以從人類認(rèn)知的角度，構(gòu)建大規(guī)模關(guān)節(jié)體知識(shí)庫(kù)，該知識(shí)庫(kù)涵蓋外形、結(jié)構(gòu)、語(yǔ)義、物理屬性，同時(shí)標(biāo)注關(guān)節(jié)體每個(gè)部件的質(zhì)量、體積、慣性等，記錄真實(shí)世界物體操作力反饋與仿真操作力反饋，在物理屬性知識(shí)加持下，物體力反饋曲線可以完全擬合出來(lái)，這時(shí)候仿真物體操作的時(shí)候，不再是去檢測(cè)標(biāo)簽，而是所有知識(shí)全部檢測(cè)出來(lái)，檢測(cè)出來(lái)后，可以通過(guò)機(jī)器執(zhí)行的準(zhǔn)確率，判斷感知的準(zhǔn)確率。

通過(guò)行為的反饋和模式學(xué)習(xí)的空間壓縮，可以實(shí)現(xiàn)“具身執(zhí)行”的一定泛化性。在交互感知下，機(jī)器如果只是看物體，信息量沒(méi)有增加，但如果交互它，就能迅速減少誤差。機(jī)器面對(duì)物體，初步檢測(cè)它的知識(shí)，但肯定存在知識(shí)結(jié)構(gòu)不準(zhǔn)的情況，但可以在猜測(cè)它是怎么做出這個(gè)行為的基礎(chǔ)上，指導(dǎo)機(jī)械去做，倘若做完之后跟真實(shí)不一樣，就證明猜測(cè)有問(wèn)題，再反過(guò)來(lái)優(yōu)化問(wèn)題。并且，可以把抓取到的所有特征模式，壓縮到可以被學(xué)習(xí)的空間范圍內(nèi)，通過(guò)這種機(jī)制，機(jī)器在面對(duì)沒(méi)見(jiàn)過(guò)的物體時(shí)，也能進(jìn)行相關(guān)的行為，因而具備了一定的通用性。

Tesla Bot功能進(jìn)展迅速，商業(yè)化前景可期。2021年，在“特斯拉AI日”上，馬斯克發(fā)布了特斯拉的通用機(jī)器人計(jì)劃，并用圖片展示了人形機(jī)器人Tesla Bot的大致形態(tài)。但當(dāng)時(shí)的Tesla Bot只是個(gè)概念。一年后在2022特斯拉AI日上，人形機(jī)器人擎天柱（Optimus）實(shí)體亮相。2023年5月中旬的特斯拉股東大會(huì)上，馬斯克又展示了Tesla Bot的最新進(jìn)展，現(xiàn)在Tesla Bot已經(jīng)可以流暢行走，并還能靈活抓取放下物體。馬斯克在會(huì)上表示“人形機(jī)器人將會(huì)是今后特斯拉主要的長(zhǎng)期價(jià)值來(lái)源。如果人形機(jī)器人和人的比例是2比1，則人們對(duì)機(jī)器人的需求量可能是100億乃至200億個(gè)，遠(yuǎn)超電動(dòng)車數(shù)量”。

具身智能：人工智能的下一個(gè)浪潮

最近的Tesla Bot功能突破來(lái)源于特斯拉改進(jìn)的電機(jī)扭矩控制以及環(huán)境建模等技術(shù)。特斯拉利用一些技術(shù)方法改進(jìn)了人形機(jī)器人的動(dòng)作和控制，包括電機(jī)扭矩控制、環(huán)境發(fā)現(xiàn)與記憶、基于人類演示訓(xùn)練機(jī)器人。首先，研究團(tuán)隊(duì)使用電機(jī)扭矩控制（motor torque control）操縱人形機(jī)器人腿部的運(yùn)動(dòng)，讓機(jī)器人落腳力度保持輕緩。對(duì)于一個(gè)機(jī)器人來(lái)說(shuō)，觀察或感知周圍環(huán)境是非常重要的，因此特斯拉為人形機(jī)器人添加了環(huán)境發(fā)現(xiàn)與記憶的能力。現(xiàn)在該人形機(jī)器人已經(jīng)可以對(duì)周圍環(huán)境進(jìn)行大致建模。特斯拉的人形機(jī)器人具備與人類相似的身體結(jié)構(gòu)，特斯拉的研究團(tuán)隊(duì)使用大量人類演示訓(xùn)練了機(jī)器人，特別是在手部動(dòng)作方面，旨在讓其具備與人類似的物體抓取能力。

具身智能：人工智能的下一個(gè)浪潮

具身智能帶來(lái)的AI價(jià)值遠(yuǎn)比人形機(jī)器人更大。具身智能最大的特質(zhì)就是能夠以主人公的視角去自主感知物理世界，用擬人化的思維路徑去學(xué)習(xí)，從而做出人類期待的行為反饋，而不是被動(dòng)的等待數(shù)據(jù)投喂。人形機(jī)器人提供了各種基于人類行為的學(xué)習(xí)和反饋系統(tǒng)，為實(shí)現(xiàn)更復(fù)雜行為語(yǔ)義提供了迭代的基礎(chǔ)和試驗(yàn)場(chǎng)，因此，人形機(jī)器人的逐步完善也為具身智能的落地提供了方向。而面向工業(yè)等場(chǎng)景的具身智能應(yīng)用并非一定要是人形機(jī)器人，因此具身智能背后的技術(shù)和方法論才是核心，也意味著具身智能所帶來(lái)的價(jià)值要遠(yuǎn)遠(yuǎn)高于人形機(jī)器人本身。換句話說(shuō)，人形機(jī)器人是具身智能的重要應(yīng)用場(chǎng)景，也將為具身智能的迭代優(yōu)化提供方向和空間。

強(qiáng)化學(xué)習(xí)興起之后，具身智能受到了更廣泛的關(guān)注。之前隨著Alpha Go的成功，學(xué)術(shù)界對(duì)于強(qiáng)化學(xué)習(xí)的興趣大增，隨之很多人開(kāi)始用RL來(lái)打通智能體的感知-決策-執(zhí)行，希望實(shí)現(xiàn)具身智能。訓(xùn)練RL是一個(gè)不斷試錯(cuò)的過(guò)程，所以從2017、18年開(kāi)始，出現(xiàn)了很多仿真訓(xùn)練平臺(tái)，能把一個(gè)智能體以具身的形式放進(jìn)去，然后通過(guò)與環(huán)境的交互中獲得reward，進(jìn)而學(xué)習(xí)一個(gè)policy。但是因?yàn)榉抡姝h(huán)境和現(xiàn)實(shí)環(huán)境總是有差距的（叫sim2real gap），習(xí)得的policy不一定能遷移到現(xiàn)實(shí)里。當(dāng)前能實(shí)現(xiàn)技能policy從仿真遷移到現(xiàn)實(shí)環(huán)境中的，主要還是像移動(dòng)導(dǎo)航、單步驟的抓取或者操作這類較為單一的技能，而且很難泛化。

最近大語(yǔ)言模型的風(fēng)頭又壓過(guò)了強(qiáng)化學(xué)習(xí)。最近業(yè)界希望通過(guò)大規(guī)模sequence to sequence，用一個(gè)模型整合視覺(jué)、語(yǔ)言、機(jī)器人，也取得了一定效果。但是機(jī)器人的執(zhí)行需要的是4D數(shù)據(jù)（三維環(huán)境和機(jī)器人運(yùn)動(dòng)的時(shí)序軌跡），它的數(shù)據(jù)量和豐富度都遠(yuǎn)不如圖片和文本，采集成本也高的多，因此迭代演化的難度相比于大模型高得多。

而多模態(tài)大模型為具身智能的技術(shù)瓶頸突破提供了重要驅(qū)動(dòng)力。具身智能是人工智能、機(jī)器人等各技術(shù)分支融合發(fā)展的必然結(jié)果，因?yàn)橛?jì)算機(jī)視覺(jué)為圖像的采集和處理打開(kāi)了窗口，圖形學(xué)也為物理仿真提供了工具支撐，NLP也為人類-機(jī)器交互提供了便捷性，也為機(jī)器從文本中學(xué)習(xí)知識(shí)提供了有效途徑，認(rèn)知科學(xué)也為具身智能的行為認(rèn)知原理提供了科學(xué)研究途徑。各類機(jī)器人構(gòu)件也為智能體與物理環(huán)境交互提供了橋梁。因此，人工智能的技術(shù)分支以及機(jī)器人功能性的提升，為具身智能的進(jìn)一步發(fā)展帶來(lái)了可能，而當(dāng)前AIGC時(shí)代的大模型可以將之前的技術(shù)分支更優(yōu)地集成和創(chuàng)新，已有不少研究者嘗試將多模態(tài)的大語(yǔ)言模型作為人類與機(jī)器人溝通的橋梁，即通過(guò)將圖像、文字、具身數(shù)據(jù)聯(lián)合訓(xùn)練，并引入多模態(tài)輸入，增強(qiáng)模型對(duì)現(xiàn)實(shí)中對(duì)象的理解，從而更高效地幫助機(jī)器人處理具身推理任務(wù)，一定程度提升了具身智能的泛化水平。所以，GPT等AI大模型為具身智能的自我感知和任務(wù)處理的優(yōu)化升級(jí)提供了新的研究手段。

具身智能：人工智能的下一個(gè)浪潮

“算力霸主”英偉達(dá)高調(diào)布局具身智能。在ITF World 2023半導(dǎo)體大會(huì)上，黃仁勛表示人工智能的下一個(gè)浪潮將是具身智能，即能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng)。同時(shí)，他也介紹了英偉達(dá)的多模態(tài)具身智能系統(tǒng)Nvidia VIMA，其能在視覺(jué)文本提示的指導(dǎo)下，執(zhí)行復(fù)雜任務(wù)、獲取概念、理解邊界、甚至模擬物理學(xué)，這也標(biāo)志著AI能力的一大顯著進(jìn)步。

融合傳感器模態(tài)與語(yǔ)言模型，谷歌推出的視覺(jué)語(yǔ)言模型相較于ChatGPT新增了視覺(jué)功能。2023年3月，谷歌和柏林工業(yè)大學(xué)AI研究團(tuán)隊(duì)推出了當(dāng)時(shí)最大視覺(jué)語(yǔ)言模型——PaLM-E多模態(tài)視覺(jué)語(yǔ)言模型（VLM），該模型具有5620億個(gè)參數(shù)，集成了可控制機(jī)器人的視覺(jué)和語(yǔ)言能力，將真實(shí)世界的連續(xù)傳感器模態(tài)直接納入語(yǔ)言模型，從而建立單詞和感知之間的聯(lián)系，且該模型能夠執(zhí)行各種任務(wù)且無(wú)需重新訓(xùn)練，其相較于ChatGPT新增了視覺(jué)功能。PaLM-E的主要架構(gòu)思想是將連續(xù)的、具體化的觀察（如圖像、狀態(tài)估計(jì)或其他傳感器模態(tài)）注入預(yù)先訓(xùn)練的語(yǔ)言模型的語(yǔ)言嵌入空間，因此實(shí)現(xiàn)了以類似于語(yǔ)言標(biāo)記的方式將連續(xù)信息注入到語(yǔ)言模型中。

谷歌實(shí)現(xiàn)視覺(jué)語(yǔ)言與機(jī)器人高水平實(shí)時(shí)互聯(lián)，且觀察到了類似多模態(tài)思維鏈推理與多圖像推理等涌現(xiàn)能力的出現(xiàn)。基于語(yǔ)言模型，PaLM-E 會(huì)進(jìn)行連續(xù)觀察，例如接收?qǐng)D像或傳感器數(shù)據(jù)，并將其編碼為一系列與語(yǔ)言令牌大小相同的向量。因此，模型就能繼續(xù)以處理語(yǔ)言的方式“理解”感官信息。而且，同一套PaLM-E模型能夠達(dá)到實(shí)時(shí)控制機(jī)器人的水準(zhǔn)。PaLM-E 還展現(xiàn)出隨機(jī)應(yīng)變的能力，例如盡管只接受過(guò)單圖像提示訓(xùn)練，仍可實(shí)現(xiàn)多模態(tài)思維鏈推理（允許模型對(duì)包含語(yǔ)言和視覺(jué)信息在內(nèi)的一系列輸入進(jìn)行分析）和多圖像推理（同時(shí)使用多張輸入圖像進(jìn)行推理或預(yù)測(cè)）。但谷歌展示的Demo中的空間范圍、物品種類、任務(wù)規(guī)劃復(fù)雜度等條件還比較有限，隨著深度學(xué)習(xí)模型愈發(fā)復(fù)雜，PaLM-E也將打開(kāi)更多可行性應(yīng)用空間。

微軟正計(jì)劃將ChatGPT 的能力擴(kuò)展到機(jī)器人領(lǐng)域，使得能用語(yǔ)言文字控制機(jī)器人。目前實(shí)驗(yàn)已經(jīng)能夠通過(guò)給ChatGPT的對(duì)話框輸入指令，讓其控制機(jī)器人在房間中找到“健康飲料”、“有糖和紅色標(biāo)志的東西”等。微軟研究人員表示，“研究的目標(biāo)是看ChatGPT是否能超越生成文本的范疇，對(duì)現(xiàn)實(shí)世界狀況進(jìn)行推理，從而幫助機(jī)器人完成任務(wù)”。微軟希望幫助人們更輕松地與機(jī)器人互動(dòng)，而無(wú)需學(xué)習(xí)復(fù)雜的編程語(yǔ)言或有關(guān)機(jī)器人系統(tǒng)的詳細(xì)信息。

阿里采用和微軟相似的路徑，正在實(shí)驗(yàn)將千問(wèn)大模型接入工業(yè)機(jī)器人。在近日舉行的第六屆數(shù)字中國(guó)建設(shè)峰會(huì)上，阿里云發(fā)布一個(gè)演示視頻中展示了千問(wèn)大模型的實(shí)際應(yīng)用場(chǎng)景。其中，千問(wèn)大模型接入了工業(yè)機(jī)器人，工程師通過(guò)釘釘對(duì)話框向機(jī)器人發(fā)出指令后，千問(wèn)大模型在后臺(tái)自動(dòng)編寫(xiě)了一組代碼發(fā)給機(jī)器人，機(jī)器人開(kāi)始識(shí)別周邊環(huán)境，從附近的桌上找到一瓶水，并自動(dòng)完成移動(dòng)、抓取、配送等一系列動(dòng)作，遞送給工程師。在釘釘對(duì)話框輸入一句人類語(yǔ)言即可指揮機(jī)器人工作，這將為工業(yè)機(jī)器人的開(kāi)發(fā)和應(yīng)用帶來(lái)革命性的變化，其背后意味著大模型為工業(yè)機(jī)器人的開(kāi)發(fā)打開(kāi)了新的大門(mén)。因?yàn)榍?wèn)等大模型為機(jī)器人提供了推理決策的能力，從而有望讓機(jī)器人的靈活性和智能性大幅提升。

windeploy.exe損壞文件(7z.dll被破壞)

win7system占用率高(win7cpu占用率高)