123,123

在具身智能競速加速升溫的當下，真實場景的客觀評測成為檢驗機器人模型能力最關鍵的一環(huán)。

近日，“具身進化論”在查詢最新發(fā)布的RoboChallenge測試結果時注意到，π0、π0.5 在成功率上遙遙領先其他開源模型。自變量機器人（X Square Robot）的大模型wall-oss-flow雖然在多次企業(yè)自我宣傳中提到，“基本上和PI、和google在同一個水平線上”，但是在多個任務上成功率偏低。根據(jù)公開的測評記錄，其在31次測試中大部分成功率為零，這一表現(xiàn)引發(fā)業(yè)內(nèi)對其大模型真實能力的討論。

RoboChallenge是全球首個具身智能的大規(guī)模真機評測平臺，也是目前行業(yè)內(nèi)最受關注的真實物理機器人評測平臺，由Dexmal原力靈機聯(lián)合Hugging Face發(fā)布，被視作“機器人界的硬核基準”。其最大特點是真機真測：評測同時接入UR5、Franka、Aloha 雙臂系統(tǒng)以及國產(chǎn)ARX-5 四類主流機器人，統(tǒng)一軟件棧并配備多臺RGB-D深度相機，以確保任務在高度一致的物理條件下進行。

平臺的任務覆蓋柔性物體處理、雙臂協(xié)作、多階段順序動作等真實世界的關鍵難點。其中Table30場景包含30個具有代表性的日常任務，包括疊抹布、整理果籃、插花、開關水龍頭等，難度從基礎操作遞進到長鏈條組合動作。

據(jù)了解，RoboChallenge 之所以被認為更加客觀，是因為其采用了 “任務成功率 + 進度評分”的雙指標體系。前者統(tǒng)計任務是否完整成功，后者將任務拆解為多個關鍵階段并按推進程度累計分值，即便任務未完成也能反映模型做到哪一步，為能力評估提供更細粒度的信息。

在該評測體系中，多款主流開源模型已完成測試。“具身進化論”對比發(fā)現(xiàn)，基于Physical Intelligence （Pi）系列構建的π0和π0.5是官方重點基線，它們在成功率與進度得分上整體領先其他開源模型，特別是π0.5，顯示出更成熟的任務執(zhí)行能力。

π0測試結果

π0.5測試結果

相比之下，自變量的wall-oss-flow 在相同條件下的表現(xiàn)明顯偏弱。測評結果顯示：wall-oss-flow共測試31次，其中2次成功率為60%，1次成功率為50%，1次成功率為20%，其余所有任務成功率均為0。

wall-oss-flow測試結果

“具身進化論”從進度分情況看到，模型雖然在部分任務中能完成初段動作，但多數(shù)情況下未能完成關鍵步驟，執(zhí)行鏈條往往在中段被迫中斷。這與平臺強調(diào)的“多階段連續(xù)操作能力”形成明顯差距。

公開信息顯示，自變量2023年成立，創(chuàng)始人兼CEO為王潛。今年9月，自變量發(fā)布其開源大模型WALL-OSS，自變量在官方宣傳稿中強調(diào)該模型“具備強大的泛化性和推理能力，在長程操作任務方面表現(xiàn)優(yōu)于其他基礎模型”。

王潛甚至曾在接受媒體采訪時表示：“我們（自變量）的模型水平基本上和PI、和google在同一個水平線上。”

但此次RoboChallenge 的評測結果顯示，自變量模型的水平、能力在真實機器人執(zhí)行任務時未能體現(xiàn)，與PI的模型（π0 和 π0.5）也存在明顯差距。

一位具身智能從業(yè)者對“具身進化論”分析，RoboChallenge的獨特價值正是在于提供透明、可復現(xiàn)的真機評估環(huán)境，避免主觀展示帶來的偏差。隨著越來越多模型加入測評，業(yè)內(nèi)對“模型真實能力差異”有了更清晰的認知。

對具身智能行業(yè)而言，此次結果再次提醒：真正的競爭不在PR宣傳中，而在三方認可的評測，學術基準線，以及機器人能否穩(wěn)定完成任務的那一刻。

真實世界，正在成為檢驗大模型能力的最終標準。而認識到差距，正是追趕的開始。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

當前位置：首頁 > 科技 > IT業(yè)界 > 正文

RoboChallenge測評：π0、π0.5領先，自變量WALL-OSS-Flow零成功率引關注

相關文章

熱門排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門標簽

當前位置：首頁 > 科技 > IT業(yè)界 > 正文

RoboChallenge測評：π0、π0.5領先，自變量WALL-OSS-Flow零成功率引關注