大模型爭霸的下一站：不僅是超越GPT-4，更是尋求模型之間的平衡應用

2024-05-07 08:51 來源：A5專欄我來投稿撤稿糾錯

文 | 智能相對論

作者 | 沈浪

知名科學雜志《Nature》發(fā)表了一篇關于大模型規(guī)模參數(shù)大小爭議的文章《In Al, is bigger always better?》——AI大模型，越大越好嗎？隨著大模型應用走向?qū)嵺`，這一問題不可避免地成為了當前AI行業(yè)發(fā)展的焦點與爭議。

有人認為，大模型當然是越大越好，參數(shù)越大，性能越優(yōu)。也有人認為，小模型更好，消耗更小，更能精準地解決專業(yè)問題。兩相對比之下，各有各的道理，懸而未決，究竟什么才是AI大模型發(fā)展的出路？

這一問題或許在日前商湯科技舉辦的技術交流日活動上有所解答。在活動現(xiàn)場，商湯科技發(fā)布了行業(yè)首個“云、端、邊”全棧大模型產(chǎn)品矩陣，以滿足不同規(guī)模場景的應用需求，對大模型的場景應用提出了新的思路，并且全新升級了“日日新SenseNova 5.0”大模型體系，綜合能力全面對標GPT-4 Turbo。

當然，在當前節(jié)點上，領先的意義已經(jīng)不僅僅是超越GPT-4，更是探索出能解決實際應用問題的有效路徑。

01、離譜or靠譜？日日新端側大模型“暴打”GPT-4

在技術交流日活動的現(xiàn)場，商湯科技以一個很有趣的畫面闡釋了大模型與小模型之間的差別?；谌视螒虻漠嬅嫜菔荆虦萍紝⒆约业腟enseChat-Lite 版本日日新端側?模型與GPT-4進行PK。

一開始，GPT-4還能略占上風，但是SenseChat-Lite出拳速度更快，隨后各種連招打到他根本反應不過來，只得被商湯科技的模型“暴打”，直接K.O出局。

這一結局似乎太離譜了？商湯科技對此做了解釋：實際上其中的差距并非模型能力強弱問題，而是在不同的適用場景之下小模型決策速度快。當大模型還在計算的時候，小模型已經(jīng)完成了判斷并且出拳了，而且實實在在打到了對手身上。

正所謂，“天下武功，唯快不破”！對比大模型，小模型在具體的場景應用中有著更明顯的決策優(yōu)勢。

因此，業(yè)內(nèi)正在形成一個全面的共識：在實際應用中，大模型并非越大越好，而是得看具體場景需求。前不久，美國AI公司Anthropic發(fā)布Claude 3系列模型，一度超越GPT-4，登頂全球最強大模型。其中Claude 3系列就給出了不同量級的模型產(chǎn)品，包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus，以便適用于不同的企業(yè)和場景。

同樣的，基于這一思路，商湯科技也在搭建完善的基模型體系與小模型系統(tǒng)方案，并發(fā)布了一系列的垂類大模型和端側大模型。其中，SenseChat-Lite版本端側大模型就可以面向手機、平板、VR 眼鏡、智能汽車等提供輕量、高效的大模型能力，結合端云解決方案，及時適應變化的環(huán)境和需求，保持高性能和準確性。

對比來說，中國更注重實踐。商湯科技在這個思路上給出的解決方案更具有主動性和服務意識以及更有實踐價值。具體的，商湯端側大模型不僅是參數(shù)量級小，還講究端側部署與端側處理能力的強化，在解決實際問題上響應更快速。

與此同時，商湯科技還面向金融、代碼、醫(yī)療、政務等多個領域推出了邊緣產(chǎn)品“商湯企業(yè)級大模型一體機”，在實際場景應用中更能滿足專業(yè)化需求，主動貼合客戶需求。比如，“大醫(yī)”醫(yī)療健康大模型一體機就可以在醫(yī)療機構內(nèi)部一鍵部署大模型應用，實現(xiàn)“開箱即用”，并有效針對智能問診、導診、病歷結構化、影像報告解讀等場景，支持智能調(diào)整回復內(nèi)容的語言風格、詳略程度、格式要求等。

當然，這也是目前商湯科技在AI大模型領域領先行業(yè)的關鍵點。同樣的思路，以小模型為應用焦點，商湯比別人多走了幾步，提出了軟硬兼顧的解決方案。

02、在尺度定律之下，沒有永恒的“最強”，唯有“日日新”

從經(jīng)濟性而言，小模型更利于企業(yè)應用與解決實際問題。那么，是否對于AI行業(yè)而言，就不需要訓練大模型了？

實則不然。

在技術交流日活動現(xiàn)場，商湯科技提到了一個同為業(yè)內(nèi)共識的理論：尺度定律。在普遍的認知中，以尺度定律為參考，隨著模型的參數(shù)變大、數(shù)據(jù)量變大、訓練時長加長，則算法性能會越來越好。

OpenAl于2020年曾發(fā)布一篇論文《Scaling Laws for Neural Language Models》，其中也有類似的觀點，即模型性能隨著模型參數(shù)大小的增長而變好。因此，在后續(xù)的大模型迭代中，OpenAI通過構建一個巨大的海量數(shù)據(jù)集，再簡單增加GPT模型的深度，就做出了具有驚人的涌現(xiàn)能力的大模型產(chǎn)品。

對此，很多廠商也作了相關驗證，包括谷歌、商湯科技等。其中，谷歌曾精調(diào)了三個尺寸的Minerva模型，分別使用了80億，620億和5400億個參數(shù)的預訓練PaLM模型。

結果發(fā)現(xiàn)，Minerva的性能隨著規(guī)模的擴大而提高。在整個MATH數(shù)據(jù)集上，最小模型的準確率為25%，中型模型達到43%，最大模型突破50%大關。

由此，基于尺度定律的認知，他們發(fā)現(xiàn)自家的模型產(chǎn)品在一定測試級上超越GPT-4的能力，并非不可能。如今，商湯科技發(fā)布的最新的“日日新SenseNova 5.0”大模型體系，其性能就超越了GPT-4。

其中，日日新·商量大模型5.0主模型在語言、知識、推理、數(shù)學、代碼等領域的能力，在主流客觀評測上就達到或超越了GPT-4 Turbo，在聊天、多輪對話、信息提取、寫作等場景能和GPT-4 Turbo相媲美。

更值得一提的是，日日新·商量多模態(tài)大模型的圖文感知能力達到了全球領先水平，在多模態(tài)大模型權威綜合基準測試MMBench中綜合得分排名首位，并在多個知名多模態(tài)榜單MathVista、AI2D、ChartQA、TextVQA、DocVQA、MMMU 取得領先成績。

換句話說，在尺度定律的認知下，GPT-4被超越是遲早的事情，AI大模型領域沒有永恒的“最強”。

當然，若要登頂最強，雖說可行，但絕不簡單。大模型的參數(shù)爭議，其中就有能耗的問題。谷歌曾坦言，PaLM的訓練在2個月內(nèi)消耗了大約300個美國家庭一年的電力消耗，其中所需要的算力、數(shù)據(jù)等基礎設施絕非常規(guī)企業(yè)可以負擔。

在這一點上，商湯科技秉持“大模型+大算力”的“雙輪驅(qū)動”戰(zhàn)略布局又一次為其拓寬了道路。其中，SenseCore商湯大裝置作為商湯科技前瞻決策所打造的高效率、低成本、規(guī)模化的新一代AI基礎設施，可以支撐超過20個千億超大模型同時訓練，并支持萬億參數(shù)大模型的全生命周期生成，為大模型的打造提供了非常關鍵的支撐。

簡單來說，雖說有尺度定律作為理論支持，但是以SenseCore商湯大裝置為代表的大算力才是商湯科技能超越GPT-4的底氣。從這個角度來看，商湯科技做AI，比大多企業(yè)要更加純粹且徹底。

03、大模型的最優(yōu)解，是場景平衡

從國內(nèi)外的實驗與實踐來看，模型的大小之爭意義不大，離開基礎理論和場景應用去拋棄任何一方都不可取。因此，目前主流的AI廠商在迭代和發(fā)布系列模型時，往往都會推出主模型與小模型以及垂類專業(yè)模型，根據(jù)場景需求按需提供服務。

這一點將在接下來的時間里拉開專業(yè)AI服務商之間的差距。目前，日日新SenseNova5.0大模型體系采用了混合專家模式，這樣做的目的在于通過將模型分割成多個具有專門功能的模塊，使得模型在推理過程中能更有效地利用計算資源，并可能提高模型的泛化能力和應對復雜任務的性能。

具體來看，商湯瓊宇發(fā)布的3D高斯?jié)姙R技術，就具備輕量化的web渲染能力，可以產(chǎn)生更輕量的模型資產(chǎn)，使城市級三維模型的構建和編輯重建效果更加真實，成本更低，也可以應用在更多場景。

這是混合專家模式思想在實際應用中的體現(xiàn)，通過不同技術和模型組件之間的配合，實現(xiàn)了對特定任務定制化處理和資源優(yōu)化，從而加速大模型在不同場景中的應用，實現(xiàn)AI普惠。目前，瓊宇已服務客戶超過60個，實現(xiàn)了15個城市120多種場景的重建。

因此，當我們把目光投遞到實際中的場景問題，就會發(fā)現(xiàn)大模型和小模型均有用武之地，問題則在于如何去平衡地調(diào)配資源，實現(xiàn)最優(yōu)解。由此來看，商湯科技對混合專家模式的應用，可以視為是一種領先行業(yè)的熟練決策。

未來不屬于大模型或小模型，而是大小模型之間的平衡。因此，“AI大模型是否越大越好”類似的問題不必糾結，但需要面對，即如何去打造大模型，又如何把大模型的能力調(diào)配出小模型服務好市場，會是各大廠商接下來的必修課程。

*本文圖片均來源于網(wǎng)絡

此內(nèi)容為【智能相對論】原創(chuàng)，

僅代表個人觀點，未經(jīng)授權，任何人不得以任何方式使用，包括轉載、摘編、復制或建立鏡像。

部分圖片來自網(wǎng)絡，且未核實版權歸屬，不作為商業(yè)用途，如有侵犯，請作者與我們聯(lián)系。

•AI產(chǎn)業(yè)新媒體;

•澎湃新聞科技榜單月度top5;

•文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

•著有《人工智能十萬個為什么》

•【重點關注領域】智能家電（含白電、黑電、智能手機、無人機等AIoT設備）、智能駕駛、AI+醫(yī)療、機器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關標簽: 大模型

大模型是下一代操作系統(tǒng)的未來，在這屆云棲大會上已經(jīng)到來

9月24日，2025云棲大會在杭州開幕，阿里巴巴集團CEO、阿里云智能集團董事長兼CEO吳泳銘發(fā)表主旨演講，首次系統(tǒng)性地闡述通往ASI的三階段演進路線，包括智能涌現(xiàn)、自主行動以及自我迭代等，實現(xiàn)從學習人、輔助人到超越人的發(fā)展脈絡?；谏鲜龅陌l(fā)展路線，吳泳銘對外做出判斷，大模型是下一代的操作系統(tǒng)?！拔?/p>

標簽：

大模型
大模型搶灘高考志愿填報，能否頂替「張雪峰」們？

文/二風來源/節(jié)點財經(jīng)每年高考成績放榜后，數(shù)千萬考生和家長將迎來另一場硬仗——填報志愿。今年，這一領域迎來了AI的全面介入，多家互聯(lián)網(wǎng)大廠和教育公司紛紛推出智能志愿填報產(chǎn)品，為考生提供院校和專業(yè)選擇建議。據(jù)艾媒咨詢數(shù)據(jù)，2023年中國高考志愿填報市場付費規(guī)模約9.5億元，近九成考生愿意借助志愿填報服

標簽：

大模型
崔大寶：大模型降溫背后的難點、卡點、節(jié)點

崔大寶｜節(jié)點財經(jīng)創(chuàng)始人進入2024年，大模型似乎有熄火之勢：資本市場，與之關聯(lián)的概念炒不動了，英偉達股價動輒暴跌重挫，引發(fā)“泡沫戳破”的擔憂；消費市場，BATH們的推新活動少了，產(chǎn)品更新迭代的速度慢了，民眾的關注度降了……熱鬧的大概只剩下兩場酣仗：自5月15日字節(jié)跳動宣布“以厘計費”，打響國內(nèi)大模型

標簽：

大模型
兩分鐘“熟讀”《國史大綱》，大模型的下一個爆點是“書童”？

年初大模型行業(yè)上演“長文本”大戰(zhàn)時，我們就萌生過做一個“讀書助理”的想法。測試了市面上主流的大模型后，發(fā)現(xiàn)普遍存在兩個不足：一種是可以處理的文本長度不夠，即使有些大模型將文本長度提升到了20萬字，像《紅樓夢》這樣近百萬字的名著，還是需要多次才能“讀”完。另一種是語言理解和生成能力不足，經(jīng)常出現(xiàn)“幻覺

標簽：

大模型
除了燒錢，互聯(lián)網(wǎng)留給大模型揮霍的“家底”不多了

互聯(lián)網(wǎng)或許從未停止創(chuàng)新，只是對于創(chuàng)新的認知下降了。

標簽：

大模型

90%的AI中間商會消失：Google封號只是第一槍

AI的“免費紅利期”結束了，未來18個月，靠“API倒賣”的公司，會成片消失。這個導火索就是最近Google的一輪封號導致的，隨著封號風波的結束，這也標志著AI行業(yè)【收租時代】來了。2月封號潮：高付費用戶被一鍋端一周前，Google開始大規(guī)模封號，付著250美金月費的人，賬號說沒就沒，Gmail、Y
DeepSeek V4意外泄露，原生多模態(tài)

來自路透社等媒體報道的最新消息：DeepSeek未發(fā)布的V4Lite模型遭泄露上網(wǎng)，華為獲得早期訪問權限，英偉達被排除在外。近期，谷歌發(fā)表了2篇Multi-Agent協(xié)作學習新論文有網(wǎng)友提供了更加詳細的信息，DeepSeekV4Lite：100萬token上下文窗口（V3為128K）內(nèi)置原生多模態(tài)推
中國開啟AI全民化元年，BAT同入“億級俱樂部”

春節(jié)紅包會結束，但AI已融入數(shù)億人生活里
開源模型再突破，全球AI行業(yè)的拐點要來了？

性能、商業(yè)、生態(tài)詮釋開源模型的最佳姿態(tài)
看懂黃仁勛CES演講，就看懂 AI 接下來十年的走向

2026年剛開年，全世界最狂的那個男人，穿著他的經(jīng)典黑皮衣，在CES舞臺上發(fā)出了未來十年的信號。他搞了個“能吃飽套餐”：6個包子+一碟小菜+一碗粥=肉包子套餐，這樣以后你只要買一個套餐就能吃飽了。(Rubin平臺)同時他們店里還免費提供的筷子、勺子、蘸料、醬油、醋、水果、零食等等。(開放10萬億語言
GDPS2025賽場直擊！開普勒大黃蜂助力華理斬獲搬運賽項桂冠

12月12日-14日，2025全球開發(fā)者先鋒大會暨國際具身智能技能大賽（GDPS2025）于上海張江科學會堂舉行，大會以具身智能競技為核心，融合了技術比拼、產(chǎn)業(yè)展示與科普體驗，為全球觀眾呈現(xiàn)出具身智能的現(xiàn)在與未來。上海開普勒機器人有限公司（以下簡稱"開普勒機器人"）攜明星產(chǎn)品K2"大黃蜂"亮相，并參

標簽：

GDPS

2025

弈動 Dynamic·數(shù)智躍遷博弈無界｜2025TechWorld智慧安全大會在京召開

在數(shù)字化與智能化深度交織的時代浪潮中，安全的邊界不斷延展，技術的演進正引領產(chǎn)業(yè)邁向新一輪變革。10月24日，以“弈動Dynamic·數(shù)智躍遷博弈無界”為主題的2025TechWorld智慧安全大會在北京盛大召開。來自國家部委、院士學者、高?？蒲袡C構和企業(yè)的權威專家與業(yè)界精英齊聚北京，共議AI安全、數(shù)

標簽：

弈動
甌江論道：AI賦能綠色發(fā)展

2025年10月25日，2025世界青年科學家峰會之人工智能（AI）融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦，中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦，中國電工技術學會、中科先進技術溫州研究院與溫州市電力工程學會提供支持，以“甌江論道-AI賦能綠色發(fā)展”為主題，

標簽：

ai技術
AI云“分野”：阿里云們“賣鏟”，火山引擎奇襲“MaaS”

AI云“分野”：阿里云們“賣鏟”，火山引擎奇襲“MaaS”

標簽：

阿里巴巴
未來5年，中國AI的“大洗牌”和“內(nèi)循環(huán)”

我覺得我們AI的目標是：從芯片設計到軟件生態(tài)，全鏈路自主開發(fā)，建立可控的世界級AI體系。所以這是俺對未來5年中國AI圈的展望和判斷。(1)2026年，英偉達造車、國產(chǎn)開車26年國產(chǎn)芯片會在推理和垂直場景上發(fā)力。以DeepSeek為代表，大多數(shù)AI大模型會以軟件彌補硬件不足，所以訓練和推理分開，訓練就