當前位置:首頁 >  科技 >  IT業(yè)界 >  正文

大模型千億參數讓GPU顯存告急,英特爾居然讓你試試CPU

 2025-12-29 14:35  來源: 互聯網   我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領券再下單

你敢想象:僅一臺僅裝備了單塊24G顯存消費級顯卡的系統,不但能跑滿血671B DeepSeek R1模型,還能帶來5并發(fā)51 Token/秒的性能(更細節(jié)數據見下圖),要知道這個性能水準,足以搞定像報告解讀或數據分析這類對實時性要求不高的任務了。

這就是英特爾開發(fā)的全新異構LLM服務方案流出的最新測試數據,這個方案基于HeteroFlow軟件框架,搭配了至強6性能核CPU(配MRDIMM內存,開啟AMX加速)作為硬件基座,它的目標就是緩解 “滿血”大模型們面臨的存力困局。

眾所周知:大模型,是樂也“大參數”,痛也“大參數”——滿血版動輒千億級的參數規(guī)模,再疊加GPU大佬們在顯存容量上的“精準”刀法,總能讓你錢包嚴重失血!如果你就搞一個節(jié)點,即便GPU多卡插滿,也就是能剛剛裝下海量參數,剩余的顯存會限制并發(fā)性能和上下文的長度。咬咬牙上多個節(jié)點,那就只能是……把牙咬碎,因為付出翻倍。

而現在,有了HeteroFlow框架的加持,如果你用的是MoE類大模型,且選擇了英特爾的至強6性能核CPU來做機頭處理器,那么恭喜你,破局方法來了!

當然這個方法可能會顛覆你“AI讓CPU走開”,或者“AI應用中CPU只是GPU小助手”的觀念。但這個方法,恰恰是充分利用了GPU和CPU各自的優(yōu)勢——GPU算力強,CPU內存大。HeteroFlow的工作原理就是把Attention、Dense MLP這些算力敏感型的,也是高價值的任務留給高算力的GPU,但把MoE這種需要大存力的任務,部分或全部卸載給CPU+大容量的內存。

這種方法的終極奧義,并不是說CPU比GPU更重要,或者你不需要GPU了,而是有了CPU的分擔與協助,GPU的工作更有意義了——它能把其成本高昂的算力和顯存全用在榨取并發(fā)性能與上下文長度上,正所謂“好鋼用在刀刃上”,讓整個系統不僅性能收益明顯,投資回報率也是原地起飛。

接下來,讓我們瞧瞧HeteroFlow是怎樣具體干活的:

一、卸載

對AI任務做智能拆分,把部分或全部MoE負載移到CPU上,讓GPU更專注算力密集型任務,細節(jié)如下圖。

二、調度

通過Pipelined Scheduling設計,讓CPU與GPU在各自承載的子任務間實現無縫銜接,最大化榨取它們各自的潛能,如下圖:

三、加速

雖然至強CPU沒有GPU那么強的AI加速算力,但它還是有自己的看家本領——英特爾AMX(高級矩陣擴展技術,有人將其比擬為“CPU里的Tensor Core”),它能為MoE任務涉及的計算提供加速。如果你對AMX技術沒有那么了解,可以借下面兩張圖快速了解一下它的核心組件與架構,以及加速能力。

如果你比較細心,一定注意到我們在前文提到的是HeteroFlow框架 +至強6 性能核CPU這個組合,推薦這款CPU的原因很簡單,因為它內置AMX技術,且主流型號(SKU),特別是用于機頭的SKU能解鎖對MRDIMM內存(8000/8800)的支持,幾乎是目前市面上能同時兼顧內存的大容量與高帶寬的惟一選擇。

如果你還意猶未盡,覺得前文測試場景里的“低配”型系統和它實現的性能,還遠遠不能滿足你一些更加“高大上”的需求,先別急,因為英持爾正在測試HeteroFlow+至強6的另外兩種應用場景:

在更多節(jié)點的、中量級的系統中,瞧它能不能把MoE中的“冷專家”(不常被激活的專家)卸載到CPU上,盡可能提升這類系統的并發(fā)度和拓展其上下文長度; 在更大或特大規(guī)模的AI集群中,當GPU出現單卡故障時,用CPU暫時頂一下,保障集群的穩(wěn)定運行。

由衷期待這兩個新場景能盡快落地,并有性能或性價比上的優(yōu)異表現供大家分享。你可以訪問英特爾官網了解更多基于HeteroFlow框架的異構LLM服務方案的細節(jié),或者聯系英特爾官方得到英特爾相關技術專家的支持。

誰說CPU只是GPU的小助手?用至強® 6高存力搞定MoE卸載!

想Get基于HeteroFlow的大模型異構新方案?

歡迎訪問英特爾官網,即刻揭秘!

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
英特爾

相關文章

  • 英特爾攜手火山引擎,驅動AI應用落地生花

    英特爾亮相2025火山引擎FORCE原動力大會·冬,全方位展示了雙方在從基礎設施架構和開發(fā)工具的創(chuàng)新,到AI應用落地等全方位的深度合作成果。通過全棧基礎設施的深度整合,雙方正將前沿智能技術轉化為即取即用、協同高效的生產力,推動AI從單點能力演進為全面系統化的業(yè)務支撐。英特爾市場營銷集團副總裁、中國區(qū)

    標簽:
    英特爾
  • 英特爾攜手產學合作伙伴發(fā)布《具身智能機器人安全子系統白皮書》

    近日,在2025英特爾中國學術峰會上,英特爾聯合學界及產業(yè)界的合作伙伴發(fā)布了《具身智能機器人安全子系統白皮書》(以下簡稱《白皮書》),從系統架構層面提出了一個安全子系統的設計框架,旨在為機器人系統提供全方位、多層次的安全保障。此白皮書由來自英特爾中國研究院、武漢大學、香港中文大學(深圳)、清華大學、

    標簽:
    英特爾
  • 終端 AI 奇點已至,英特爾點燃 PC 新范式

    導語:英特爾正通過其XPU混合架構、AI算力以及開放的軟件生態(tài)來引領這一趨勢。AIPC市場的競爭正在升溫,格局也在重塑。無論是對于終端AI的討論,還是智能硬件的熱潮,其本質都是關于下一代計算入口的爭奪,其底層邏輯是,將智能無縫融入個人設備,讓AI從需要主動調用的工具,演變?yōu)殡S時待命、主動服務的環(huán)境能

    標簽:
    英特爾
  • 下一個爆款在哪兒?2025英特爾人工智能創(chuàng)新應用大賽獲獎名單揭曉

    8月16日,2025英特爾人工智能創(chuàng)新應用大賽總決賽暨頒獎典禮在深圳盛大啟幕。

    標簽:
    英特爾
  • AI PC應用新突破:英特爾三大生態(tài)伙伴上線全新應用

    近日,英特爾的AIPC生態(tài)伙伴——虎踞龍盤英特爾AIPC專區(qū)、小旺AI截圖工具以及“瑞士軍刀”級的CherryStudio多合一AI助手已分別正式上線,為AIPC體驗再添應用新突破!

    標簽:
    英特爾

熱門排行

信息推薦