告別「數據孤島」!具身智能數據超市面世
(大公報 記者 郭若溪)4月10日,第三屆中國機器人產業大會在深圳舉辦,百度智能雲聯合零次方機器人、靈生、傅利葉、拓元智慧等多家頭部具身智能企業,正式推出了「具身智能數據超市」(Beta版)。該平台首創層級化、可擴展的數據標籤體系,打通數據流通壁壘,以全鏈路數據服務破解行業試錯成本高企難題,成為具身智能領域的「數據新基建」。
從「數據孤島」到「超市貨架」當前,具身智能行業正處於爆發前夜,這背後是從實驗室Demo走向真實場景應用的巨大鴻溝。核心阻礙在於數據:真機採集成本極高、質量參差不齊、且各家本體差異巨大導致數據路線尚未收斂。企業若想訓練模型,往往面臨「無米下鍋」或「有米難炊」的尷尬境地,試錯成本極高。
通過市場驗證數據可行性
「我們過往幫很多客戶採集了數據,但大家面臨一個問題:我怎麼做數據售賣?」百度智能雲泛科技創新行業負責人徐良指出,百度以中立角色搭建這個平台,目的一是為數據生產方增加一個變現渠道;二是通過市場機制,驗證什麼樣的數據是被行業真正需要的。百度智能雲此次推出的具身智能數據超市,並非簡單的數據交易平台,而是面向全行業的基礎設施級解決方案,其核心創新在於首創層級化、可擴展的數據標籤體系。通過原子標籤的標準化定義與複合標籤的結構化組合,數據集的關鍵屬性(如任務語義、交互特性、環境條件等)能夠被清晰呈現。這讓數據特徵實現了「一眼可識」,用戶無需深入解析原始數據,即可快速理解數據集的核心特徵與使用邊界。
依託百度智能雲海量存儲與「百舸」異構計算平台,數據超市提供合規的數據託管、展示與流量對接服務,不干預數據內容與使用方式,助力企業將數據轉化為可持續增值的數字資產。企業可通過平台全面了解行業數據形態、技術趨勢與應用方向,為數據選型、合作對接與技術規劃提供客觀參考,推動行業數據路線加速收斂。
雙向賦能 促具身智能模型落地
拓元智慧CTO陳添水表示,具身智能模型落地真實場景,需要大量物理量、動作軌跡等精準數據,目前各家本體公司數據封閉,缺乏標準和流通。「數據超市能幫我們在基礎模型這一塊,拿到更多預告、更多樣化的數據。」同時拓元智慧也將以數據供給方身份,為平台補充真實場景與仿真生成數據,形成雙向賦能。
零次方機器人聯合創始人馬曉龍表示,具身智能行業的終極目標是讓機器人像人一樣工作,賦能千行百業。「沒有優質的模型,沒有大量優質的數據,這件事很難推進。」他認為,數據是具身智能模型進化的核心原料,數據超市作為行業基礎設施,可高效對接數據供需雙方,拉通數據標準,降低採集成本,解決行業「數據荒」痛點,為機器人真實場景落地提供核心動力。
關於數據超市的運作模式,馬曉龍將其比作製造業的供應鏈整合:「具身數據的生產更像是製造業,需要用大量的人和機器產生大量的數據。百度智能雲搭建這個平台,能統籌資源,把整體效率拉上去,成本降下來。」
徐良強調,百度作為雲服務商,以中立第三方身份搭建數據超市,「我們不做本體,也不做數據本身,我們只是搭建平台幫大家流通。」這種中立性,加上百度已有的海量客戶觸達基礎和強大的存儲與「百舸」異構計算平台,使其能夠作為可信的第三方,連接數據的生產者(如零次方機器人、拓元)和消費者(具身智能企業)。據Omdia最新報告,百度智能雲以35%的市場份額位居中國具身智能AI雲服務市場第一。目前,百度智能雲已為包括智元機器人、宇樹科技等超過30家重點企業提供服務。
優質數據可大幅提升模型精準度
具身智能數據是支撐機器人實現自主感知、決策、執行與交互的核心生產資料,是機器人「大腦」進化的關鍵燃料,具備強物理屬性、高場景關聯性、多模態融合三大特徵。
具身智能數據主要包含真機實測數據與仿真合成數據兩類。真機數據來自機器人在真實場景中的作業採集,涵蓋深度視頻、關節電機、運動軌跡、語義交互、物理反饋等多維度信息,是模型訓練的核心優質數據,但採集成本高、效率低、規模有限;仿真數據通過虛擬環境生成,成本低、易規模化,可補充真機數據缺口,但存在「仿真到現實」的遷移誤差。
據百度智能雲泛科技創新行業負責人徐良介紹,當前行業數據面臨三大痛點:一是標準缺失,各企業傳感器、控制協議、標註規則互不兼容,數據難以互通復用;二是成本高企,真機設備昂貴,人工採集與標註耗時費力,中小企業難以承擔;三是孤島嚴重,企業數據自給自足,缺乏流通渠道,資源浪費與數據短缺並存。具身智能數據的核心價值在於訓練機器人理解物理世界、執行複雜任務,從簡單動作執行邁向自主場景適配。優質數據可大幅提升模型精準度、魯棒性與泛化能力,推動機器人在工業、零售、家居、公共服務等場景落地。隨着數據超市等基礎設施完善,數據標準化、流通化、資產化將成為行業趨勢,為具身智能規模化落地提供持續動力。
(來源:大公報A10:內地 2026/04/11)

字號:

評論