人民網北京6月11日電 (記者趙竹青)過去一年,具身智能領域迎來爆發式增長,成為人工智能與機器人技術融合的核心賽道。在近日舉行的北京智源大會上,多位專家學者分享前沿研究與產業實踐,為推動具身智能從實驗室走向廣泛場景應用出謀劃策。
在具身智能的技術路線與底層邏輯層面,清華大學教授孫富春表示,世界模型是全要素模型,空間智能是其向視覺空間的投影,強調觸覺糾偏高于視覺糾偏,需構建包含物理屬性等的沉浸式數字物理系統。
清華大學研究員、機器人控制實驗室主任趙明國提出,類腦算法可替代傳統控制器,人形機器人發展需從運動控制向視覺決策等升級,人類進化的底層運動智能具有啟示意義。
在具身智能的數據瓶頸突破路徑上,北京大學助理教授、智源具身智能研究中心主任王鶴主張采用合成數據為主、真實數據校準的訓練范式,通過十億級高質量仿真數據訓練的端到端模型,可實現零樣本泛化,已在零售、工業等場景逐步落地。
上海人工智能實驗室青年科學家、具身智能中心負責人龐江淼認為,合成數據有助于本體和場景泛化,但持續壓低真實數據采集數量,提升合成數據的質量,直到全合成數據能夠達成零樣本泛化,需要一定時間。
北京大學副教授盧宗青提出,利用互聯網視頻預訓練姿態生成模型,學習人類運動先驗,解決人形機器人數據稀缺問題。
清華大學交叉信息研究院助理教授高陽說,機器人數據采集成本高(需遙操作+物理交互),且難以用語言描述(如游泳),形成“無智能-少機器人-少數據”的惡性循環,可利用互聯網視頻數據,通過跟蹤視頻中物體運動預訓練模型,再遷移到機器人遙操作數據微調,結合強化學習,解決仿真與現實差距。
在具身智能的通用泛化能力構建方面,智源具身多模態大模型中心負責人、北京大學計算機學院助理教授仉尚航認為,構建具身快慢系統是具身智能從“單一任務/本體”邁向“通用泛化”的關鍵路徑,分別以“大腦(推理)+小腦(控制)”的分層快慢系統和VLA端到端快慢系統兩條技術路線,解決跨本體(如機械臂、人形機器人)與場景的泛化性問題。
北京郵電大學教授方斌表示,視觸覺感知是具身智能從“感知”邁向“精準操作”的核心環節,需通過傳感器創新、仿真數據增強與多模態融合,解決動態環境下的操作穩定性與泛化性難題。
關于具身智能的未來應用,智源研究院理事長黃鐵軍總結說,預計5-10年,具身智能有望代替人類從事不愿干、危險的勞動,但這并非終極目標,在更遠的未來,具身智能有望全面超越人類,代表人類走向星際。