首頁 商業 > 正文

今日熱文:從實驗室到真實場景 數據為具身智能落地關鍵

在近期具身智能企業的發布活動中,數據成為高頻詞匯。隨著具身智能從實驗室走入真實場景,數據成為影響具身智能落地部署的關鍵。近日,覓蜂科技、帕西尼發布具身智能數據與數據服務平臺,多家企業發布更低成本的數據采集方案,圍繞物理AI數據規模、質量與成本的競賽全面開啟。

數據成為模型能力關鍵


(資料圖片)

“機器人其實硬件到位了,但是大腦沒有跟上,就像空有一身漂亮的肌肉?!弊宰兞繖C器人CEO王潛在4月21日舉辦的發布會上說。

如今,業內普遍認為具身智能數據是提升機器人“大腦”能力的關鍵,這種能力對應著更強的具身模型能力,通常指機器人執行任務的泛化性。自變量機器人CTO王昊將具身智能模型訓練所用的數據分為“糖水數據”和“牛奶數據”:“糖水數據”來自實驗室,與現實世界有較大差距,難以提升模型的泛化性;“牛奶數據”來自真實環境,充滿隨機性,對模型訓練更有益。

為了獲得高質量的“牛奶數據”,自變量機器人將機器人部署到100個志愿者的真實家庭中進行訓練?!罢鎸嵉幕靵y和不可預測的場景、畫面,這些才是能驅動數據飛輪真正轉起來的因素。”王昊稱,以實驗室數據打底,真實環境的數據提質,自變量機器人發布新一代基于世界統一模型架構的具身智能基礎模型WALL-B。公司還宣布,今年5月25日,部署WALL-B模型的新一代機器人將入駐真實家庭,邊做邊學。

具身數據已經成為今年行業發展的關注焦點?!皺C器人的跑跳等運動能力,前兩年已經很大程度得到解決,下一步要解決機器人能干活的問題,這需要機器人‘大腦’能感知、能做規劃,需要數據來訓練模型。”祥峰投資管理合伙人夏志進對記者表示,對具身模型和數據的高關注度,正是當前行業推動機器人落地部署的真實需求。

覓蜂科技董事長姚卯青認為,2026年是具身智能產業數據元年,具身智能是萬億元級賽道,但行業面臨數據荒漠?!拔谋敬竽P驼Z料規模達百億小時級,具身智能高質量數據規模僅為50萬小時級,差距巨大?!彼硎?,百億小時是通用智能的基礎門檻。阿里云高級算法專家張民英也表示,要讓具身智能模型能力實現突破,需要100億小時數據量級。

頭部企業積極布局

4月16日,帕西尼聯合京東云、騰訊云、百度智能云共同推出全模態具身智能數據云商城,即日起全面對外開放。同日,智元機器人控股的具身智能數據平臺公司覓蜂科技在上海發布一站式物理AI數據服務平臺,并上線覓蜂數據商城,公司計劃到2026年和2030年,分別實現千萬小時級、百億小時級數據產能。今年3月光輪智能宣布完成近10億元融資,成為首個具身數據領域的“獨角獸”企業,并宣布在今年一季度獲得5.5億元訂單。

“當下處于數據‘軍備競賽’的起點?!币γ啾硎荆袠I頭部數據需求方,普遍有全年百萬小時的數據需求。

此前,北京、上海、天津、武漢、無錫等多地已經建立起大規模的具身智能數據采集工廠,行業探索發現,傳統數據采集模式依賴大量機器人本體,由人工遙操作采集,采集成本高、花費時間長。如今,更多企業開始探索更低成本的數據采集方式。

夏志進介紹:“近期比較受關注的是采用UMI(通用操作接口)方案,通過人類穿戴采集設備采集數據,再將采集到的數據部署至機器人?!比缃衲?月鹿明機器人發布FastUMI無本體數采產品,該方案將單條數據采集時間從傳統遙操作所需的50秒縮短至10秒,效率大幅提升,同時將綜合成本降至原來的五分之一。

今年4月,覓蜂科技發布MEgo系列無本體采集硬件,包括夾爪造型的手持輕量化采集設備MEgo Gripper,以及穿戴在頭部、手部的MEgo View采集終端。這些搭載著傳感器、攝像頭的采集設備會將穿戴者的周圍環境與動作軌跡采集、還原?!半S著無本體采集方案普及,預計采集效率會達到真機采集的兩三倍,數據成本也將下降?!币γ喾Q。

專家認為,另一個降低數據采集成本的方案是使用部分視頻數據與仿真合成數據,與真實數據相印證,幫助降低模型訓練成本、提升效率。例如極佳視界2025年12月發布并開源的具身世界模型GigaWorld-0,將世界模型生成數據在VLA訓練中的占比提升至90%。千尋智能聯合創始人高陽介紹,公司選擇基于海量人類互聯網視頻進行預訓練,通過自研設備將數據采集成本降低了90%。

夏志進表示,目前市場上,具身智能相關數據仍存在較大缺口,與此同時,關于具身智能數據的選用標準、用量規模以及采集方式,行業內尚未形成統一共識,企業仍處于探索階段。另有業內投資人表示,當下資本更看好具備低成本、高效率的數據獲取方式的企業。

需盡快建立標準

在提升具身數據規模的同時,具身數據標準、質量問題成為行業挑戰?!笆紫仁切袠I標準缺失,各家企業生產數據的格式、標注都自成體系,難以互通和復用;二是數據質量參差不齊,數據標注不規范、數據質量粗糙問題普遍存在。”姚卯青表示,大模型由數據驅動,如果輸入“垃圾數據”,產出的就是“垃圾模型”。

為解決數據標準問題,行業企業正在各自探索。如覓蜂科技通過數據治理引擎對采集到的數據進行處理,其中包括數據預處理、空間感知信息提取、數據質量評估等?!皬臄祿布用娴耐?、標定,再到語義的標注,再到采集操作的規范,以及數據場景、任務的多樣性,這些都構成了高質量數據的必要元素。”姚卯青稱。

帕西尼則建立了一套標準化的數據全生命周期閉環管理系統,降低數據清洗成本,確保數據的一致性與高質量。北京人形機器人創新中心設立的具身智能機器人數據與訓練基地也建立了標準化項目管理體系,制定數據采集、標注、質檢等系列規范,實現全流程的質量把控。

光輪智能創始人兼CEO謝晨表示,具身智能數據呈現為“真機數據、仿真數據、互聯網視頻數據”三層金字塔結構,三類數據都是實現行業泛化的必要條件。除了數據的缺失,當前行業痛點還在于缺少模型評價體系。謝晨說:“如果沒有評價體系,大家就不知道用什么樣的數據能夠使模型表現得更好。”從業者普遍認為,行業需要建立統一的數據采集標準和模型評價體系。

關鍵詞: 數據 機器人 智能 模型

最近更新

關于本站 管理團隊 版權申明 網站地圖 聯系合作 招聘信息

Copyright © 2005-2023 創投網 - www.jxytsy.com All rights reserved
聯系我們:39 60 29 14 2@qq.com
皖ICP備2022009963號-3