當(dāng)下,人工智能技術(shù)正從“感知智能”邁向“行動(dòng)智能”,如何科學(xué)、公正地評(píng)估機(jī)器人在真實(shí)物理世界中的真實(shí)能力,成為制約行業(yè)發(fā)展的核心命題。在 Dexmal 原力靈機(jī)與 Hugging Face 共同發(fā)起 RoboChallenge 之后,迅速在行業(yè)內(nèi)引發(fā)強(qiáng)烈共鳴并吸引廣泛參與。智源研究院、智元機(jī)器人、Qwen、星海圖、自變量、清華大學(xué)、西安交通大學(xué)、GOSIM 國際國內(nèi)合作伙伴進(jìn)一步攜手,共同推動(dòng)生態(tài)建設(shè),并于 2025 年 11 月 20 日正式成立 RoboChallenge 組委會(huì)。這標(biāo)志著具身智能真機(jī)測(cè)評(píng)的開源協(xié)作不僅邁入了標(biāo)準(zhǔn)化的新階段,更以“開放共同體”的行業(yè)共創(chuàng)模式,為具身智能技術(shù)的落地與迭代注入新動(dòng)能。
日前,在不久前深圳舉行的一場國際人工智能展覽會(huì)上,一臺(tái)名為“小量”的機(jī)器人嫻熟地進(jìn)行著果味冰沙制作的全部流程。取杯、接冰、添加小料,整個(gè)動(dòng)作連貫且精準(zhǔn),兩分鐘內(nèi)就完成了一份飲品。這個(gè)看似簡單的場景背后,是深圳一家成立僅一年多的初創(chuàng)公司——自變量機(jī)器人。
自變量機(jī)器人是國內(nèi)最早實(shí)現(xiàn)端到端具身智能大模型商業(yè)化的公司之一。其自主研發(fā)的「WALL-A」系列視覺-語言-行動(dòng)(VLA)操作大模型,構(gòu)建了統(tǒng)一的認(rèn)知與行動(dòng)框架,讓機(jī)器人不僅能“看懂”,還能自主“動(dòng)手”完成。

更具行業(yè)意義的是,自變量機(jī)器人近期開源了端到端具身智能基礎(chǔ)模型「WALL-OSS」。與行業(yè)內(nèi)常見的部分開源不同,該公司提供了一整套完整可復(fù)現(xiàn)的開源方案,包括模型權(quán)重、訓(xùn)練代碼、數(shù)據(jù)集接口及詳細(xì)部署文檔。
“我們希望真正把成果交到行業(yè)手中,讓大家能夠用起來,而不僅僅是停留在展示層面。”創(chuàng)始人兼CEO王潛表示。這一舉措有望降低行業(yè)技術(shù)門檻,推動(dòng)具身智能生態(tài)的快速發(fā)展。
01 信仰:從理論到實(shí)踐的“關(guān)鍵變量”
王潛身上烙印著清華人的典型特質(zhì):理性、執(zhí)著、目光長遠(yuǎn)。本碩畢業(yè)于清華大學(xué),他是全球最早在神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制的學(xué)者之一,其工作與Google在該領(lǐng)域的開創(chuàng)性論文同期發(fā)表。這些研究,后來成為Transformer架構(gòu)的基石,奠定了當(dāng)今大模型的技術(shù)根基。
遠(yuǎn)赴美國南加州大學(xué)攻讀博士時(shí),他選擇了摯愛的機(jī)器人方向,在頂級(jí)實(shí)驗(yàn)室深耕機(jī)器人學(xué)習(xí)與人機(jī)交互。這段經(jīng)歷讓他深刻認(rèn)識(shí)到傳統(tǒng)機(jī)器人技術(shù)的局限。博士畢業(yè)后,王潛曾在美國創(chuàng)辦量化基金,然而,“晚上經(jīng)常睡不著,想做機(jī)器人”的念頭始終纏繞著他。2023年,隨著大語言模型等領(lǐng)域迎來突破,他敏銳察覺機(jī)器人行業(yè)的新機(jī),毅然解散基金,回國創(chuàng)業(yè)。
回國并非一時(shí)沖動(dòng)。王潛看中的是中國無與倫比的硬件制造與供應(yīng)鏈優(yōu)勢(shì)。“美國的硬件人才多被‘金手銬’鎖在大公司,”他指出,“而中國的供應(yīng)鏈優(yōu)勢(shì)可能領(lǐng)先美國一個(gè)數(shù)量級(jí)。”他特別提到,數(shù)據(jù)收集成本在中國大約僅為美國的十分之一。
2023年12月18日,王潛初次踏足深圳,自變量機(jī)器人就此誕生。深圳的產(chǎn)業(yè)生態(tài)讓他驚嘆:“當(dāng)時(shí)我們實(shí)驗(yàn)室用的機(jī)器人硬件和零配件,很多都產(chǎn)自深圳。”“在這里,配齊所有零件有時(shí)只需半天。”
02 堅(jiān)守:“大小腦統(tǒng)一”的孤傲之路
自變量創(chuàng)立之初,就選擇了一條與眾不同的技術(shù)路線——“大小腦統(tǒng)一的端到端大模型”。這在當(dāng)時(shí)顯得頗為孤傲,甚至遭受質(zhì)疑。數(shù)年前,當(dāng)王潛闡述端到端思路時(shí),一位知名機(jī)器人教授曾當(dāng)面否定:“這很有趣,但可能永遠(yuǎn)只是個(gè)玩具,無法落地。”
何為端到端模型?與傳統(tǒng)的分層架構(gòu)不同,端到端模型試圖在統(tǒng)一架構(gòu)中解決從感知、規(guī)劃到控制的全流程問題。傳統(tǒng)分層架構(gòu)將任務(wù)分解為感知、規(guī)劃、控制等多個(gè)模塊,每個(gè)模塊有獨(dú)立模型,而端到端模型則是單一的、整合的模型。
王潛解釋道,“分層模型每多一步拆解,就會(huì)引入額外誤差和不可控的噪聲,難以實(shí)現(xiàn)真正可靠的執(zhí)行;而端到端統(tǒng)一模型,能夠在‘感知—決策—執(zhí)行’的全流程中保持連續(xù)性,從根本上解決這一問題。”
自變量機(jī)器人的技術(shù)理念可以概括為“縱向統(tǒng)一”和“橫向統(tǒng)一”??v向統(tǒng)一指從視頻、傳感器等原始輸入到機(jī)器人運(yùn)動(dòng)輸出,全部由同一模型處理;橫向統(tǒng)一則是不同任務(wù)共用同一個(gè)模型,訓(xùn)練和推理都在同一架構(gòu)下完成。
這一技術(shù)路線的優(yōu)勢(shì)在WALL-A模型上得到了充分體現(xiàn)。該模型使機(jī)器人僅用二指夾爪就能完成拉拉鏈、疊衣服、澆花等復(fù)雜操作,數(shù)分鐘級(jí)別的任務(wù)成功率達(dá)到了95%以上。
03 進(jìn)化:WALL-A模型釋放泛化之力
自變量的產(chǎn)品演進(jìn)清晰印證了其技術(shù)路線的生命力。成立僅兩個(gè)月,公司便訓(xùn)練出第一版具身智能操作模型,實(shí)現(xiàn)了切菜、倒水等復(fù)雜任務(wù)。2024年10月,自變量推出具身智能通用操作大模型Great Wall系列(GW)的WALL-A模型。可以實(shí)現(xiàn)機(jī)器人自主感知、決策與高精度操作,解決從感知到最后動(dòng)作生成之間的巨大鴻溝。
它的核心突破,主要體現(xiàn)在三個(gè)方面。
第一,強(qiáng)大的泛化能力。模型在部分未見過的物理場景中,無需針對(duì)新場景進(jìn)行額外訓(xùn)練,已經(jīng)能部分實(shí)現(xiàn)零樣本泛化。
其二,具身思維鏈(CoT,Chain of Thought)。模型通過多步邏輯推理,將抽象任務(wù)拆解為可執(zhí)行的子步驟,并能夠根據(jù)實(shí)時(shí)變化調(diào)整行動(dòng)策略。
其三,統(tǒng)一架構(gòu)。將視覺、語言、動(dòng)作等所有模態(tài)信息,轉(zhuǎn)換為統(tǒng)一的token序列,再送入一個(gè)Transformer核心,從而實(shí)現(xiàn)端到端統(tǒng)一學(xué)習(xí)。這能讓系統(tǒng)在面對(duì)新任務(wù)時(shí),可以像人類一樣思考和工作,不再依賴模塊化的信息傳遞。

04 選擇:真機(jī)數(shù)據(jù),筑牢模型迭代的根基
在數(shù)據(jù)策略上,自變量堅(jiān)持“高質(zhì)量真機(jī)數(shù)據(jù)”,與依賴仿真或網(wǎng)絡(luò)視頻數(shù)據(jù)的同行形成鮮明對(duì)比。王潛明確表示:“所有涉及復(fù)雜物理交互(如豐富的手部操作)不應(yīng)完全用仿真數(shù)據(jù)。我們探索了十幾年,基本結(jié)論是:手部復(fù)雜操作無法通過仿真數(shù)據(jù)進(jìn)化。”
數(shù)據(jù)主要來自三個(gè)渠道:集中式采集場地、分布式現(xiàn)實(shí)環(huán)境收集,以及機(jī)器人部署后的回流數(shù)據(jù)。自變量將泛化能力分為四個(gè)層次:基礎(chǔ)條件(光照、位置變化)、跨環(huán)境、跨對(duì)象(處理未見過的同類物體)、跨任務(wù)(解決全新任務(wù))。目前自變量的模型在前三個(gè)層次已展現(xiàn)出優(yōu)秀的通用性與泛化能力。
05 野心:資本重注下的賽道卡位
自變量在資本市場的表現(xiàn)堪稱耀眼。成立不到兩年,完成8輪融資,累計(jì)金額超20億元。2025年9月,公司完成近10億元A+輪融資,由阿里云、國科投資領(lǐng)投,國開金融、紅杉中國、渶策資本跟投,老股東美團(tuán)、聯(lián)想之星、君聯(lián)資本持續(xù)加碼。這是阿里云首次投資具身智能公司,也是美團(tuán)第二次參投。
06 清晰的商業(yè)化路徑
面對(duì)商業(yè)化這一行業(yè)核心質(zhì)疑,王潛思路清晰。他認(rèn)為:“家庭是機(jī)器人最大市場,預(yù)計(jì)3-4年會(huì)出現(xiàn)早期產(chǎn)品。”有經(jīng)濟(jì)學(xué)測(cè)算指出,未被計(jì)入GDP的家務(wù)勞動(dòng)價(jià)值約占總量四分之一,這意味著家庭機(jī)器人市場潛力巨大,甚至可能超越工業(yè)及其他所有場景。
自變量的商業(yè)化將先從To B場景切入,逐步延伸至To C。王潛表示,公司今年將在多個(gè)功能場景推動(dòng)落地,讓機(jī)器人在開放、隨機(jī)環(huán)境中自主完成復(fù)雜操作。對(duì)于當(dāng)前部分企業(yè)將人形機(jī)器人送入工廠從事簡單重復(fù)勞動(dòng),他直言“那更像是一種PR行為”。真正有價(jià)值的商業(yè)化,必須依賴具身智能模型泛化能力的提升。
價(jià)格方面,王潛預(yù)測(cè),消費(fèi)者可接受且產(chǎn)業(yè)鏈能支撐的價(jià)格區(qū)間可能在1-2萬美元(約人民幣10萬元上下),但這仍需產(chǎn)業(yè)鏈進(jìn)一步優(yōu)化成本。他預(yù)計(jì),類GPT-3水平的具身智能大模型可能在一年左右出現(xiàn),而人形機(jī)器人的“ChatGPT時(shí)刻”則需要3-5年。
07 未來挑戰(zhàn)與生態(tài)構(gòu)建
盡管進(jìn)展顯著,王潛清醒認(rèn)識(shí)到,通往通用機(jī)器人的道路仍布滿挑戰(zhàn)。他認(rèn)為,當(dāng)前限制產(chǎn)業(yè)化的主要是機(jī)器人的“大腦”,而非硬件。“展會(huì)上很多機(jī)器人運(yùn)動(dòng)能力不錯(cuò),但提供的‘實(shí)用價(jià)值’有限,更多是‘形式價(jià)值’。”
為此,自變量正積極構(gòu)建生態(tài)。2025年9月,公司在合肥發(fā)布《具身智能生態(tài)建設(shè)計(jì)劃》,旨在通過自研基礎(chǔ)模型,打造全球具身智能創(chuàng)新與產(chǎn)業(yè)樞紐。此前,公司開源了自研端到端具身智能基礎(chǔ)模型WALL-OSS,這是目前唯一面向物理世界交互、具備真實(shí)落地能力的開源模型。
對(duì)于長遠(yuǎn)商業(yè)模式,王潛認(rèn)為機(jī)器人將走向軟硬一體。“機(jī)器人相對(duì)特殊,難以形成像Windows或Android那樣的純軟件模式。它需要軟硬件高度耦合,一體化的模式最為合理。”
2025年世界機(jī)器人大會(huì)上,搭載自變量WALL-A模型的機(jī)器人嫻熟地制作香囊、整理客廳,引來無數(shù)駐足。那個(gè)讓通用機(jī)器人步入千家萬戶的夢(mèng)想,正以“深圳速度”,一步步照進(jìn)現(xiàn)實(shí)。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!





