挖貝網(wǎng)> 產(chǎn)業(yè)> 詳情
大模型千億參數(shù)讓GPU顯存告急,英特爾居然讓你試試CPU

你敢想象:僅一臺(tái)僅裝備了單塊24G顯存消費(fèi)級(jí)顯卡的系統(tǒng),不但能跑滿血671B DeepSeek R1模型,還能帶來5并發(fā)51 Token/秒的性能(更細(xì)節(jié)數(shù)據(jù)見下圖),要知道這個(gè)性能水準(zhǔn),足以搞定像報(bào)告解讀或數(shù)據(jù)分析這類對(duì)實(shí)時(shí)性要求不高的任務(wù)了。

這就是英特爾開發(fā)的全新異構(gòu)LLM服務(wù)方案流出的最新測(cè)試數(shù)據(jù),這個(gè)方案基于HeteroFlow軟件框架,搭配了至強(qiáng)6性能核CPU(配MRDIMM內(nèi)存,開啟AMX加速)作為硬件基座,它的目標(biāo)就是緩解 “滿血”大模型們面臨的存力困局。
眾所周知:大模型,是樂也“大參數(shù)”,痛也“大參數(shù)”——滿血版動(dòng)輒千億級(jí)的參數(shù)規(guī)模,再疊加GPU大佬們?cè)陲@存容量上的“精準(zhǔn)”刀法,總能讓你錢包嚴(yán)重失血!如果你就搞一個(gè)節(jié)點(diǎn),即便GPU多卡插滿,也就是能剛剛裝下海量參數(shù),剩余的顯存會(huì)限制并發(fā)性能和上下文的長(zhǎng)度。咬咬牙上多個(gè)節(jié)點(diǎn),那就只能是……把牙咬碎,因?yàn)楦冻龇丁?/p>

而現(xiàn)在,有了HeteroFlow框架的加持,如果你用的是MoE類大模型,且選擇了英特爾的至強(qiáng)6性能核CPU來做機(jī)頭處理器,那么恭喜你,破局方法來了!
當(dāng)然這個(gè)方法可能會(huì)顛覆你“AI讓CPU走開”,或者“AI應(yīng)用中CPU只是GPU小助手”的觀念。但這個(gè)方法,恰恰是充分利用了GPU和CPU各自的優(yōu)勢(shì)——GPU算力強(qiáng),CPU內(nèi)存大。HeteroFlow的工作原理就是把Attention、Dense MLP這些算力敏感型的,也是高價(jià)值的任務(wù)留給高算力的GPU,但把MoE這種需要大存力的任務(wù),部分或全部卸載給CPU+大容量的內(nèi)存。
這種方法的終極奧義,并不是說CPU比GPU更重要,或者你不需要GPU了,而是有了CPU的分擔(dān)與協(xié)助,GPU的工作更有意義了——它能把其成本高昂的算力和顯存全用在榨取并發(fā)性能與上下文長(zhǎng)度上,正所謂“好鋼用在刀刃上”,讓整個(gè)系統(tǒng)不僅性能收益明顯,投資回報(bào)率也是原地起飛。
接下來,讓我們瞧瞧HeteroFlow是怎樣具體干活的:
一、卸載
對(duì)AI任務(wù)做智能拆分,把部分或全部MoE負(fù)載移到CPU上,讓GPU更專注算力密集型任務(wù),細(xì)節(jié)如下圖。

二、調(diào)度
通過Pipelined Scheduling設(shè)計(jì),讓CPU與GPU在各自承載的子任務(wù)間實(shí)現(xiàn)無(wú)縫銜接,最大化榨取它們各自的潛能,如下圖:

三、加速
雖然至強(qiáng)CPU沒有GPU那么強(qiáng)的AI加速算力,但它還是有自己的看家本領(lǐng)——英特爾AMX(高級(jí)矩陣擴(kuò)展技術(shù),有人將其比擬為“CPU里的Tensor Core”),它能為MoE任務(wù)涉及的計(jì)算提供加速。如果你對(duì)AMX技術(shù)沒有那么了解,可以借下面兩張圖快速了解一下它的核心組件與架構(gòu),以及加速能力。

如果你比較細(xì)心,一定注意到我們?cè)谇拔奶岬降氖荋eteroFlow框架 +至強(qiáng)6 性能核CPU這個(gè)組合,推薦這款CPU的原因很簡(jiǎn)單,因?yàn)樗鼉?nèi)置AMX技術(shù),且主流型號(hào)(SKU),特別是用于機(jī)頭的SKU能解鎖對(duì)MRDIMM內(nèi)存(8000/8800)的支持,幾乎是目前市面上能同時(shí)兼顧內(nèi)存的大容量與高帶寬的惟一選擇。
如果你還意猶未盡,覺得前文測(cè)試場(chǎng)景里的“低配”型系統(tǒng)和它實(shí)現(xiàn)的性能,還遠(yuǎn)遠(yuǎn)不能滿足你一些更加“高大上”的需求,先別急,因?yàn)橛⒊譅栒跍y(cè)試HeteroFlow+至強(qiáng)6的另外兩種應(yīng)用場(chǎng)景:
在更多節(jié)點(diǎn)的、中量級(jí)的系統(tǒng)中,瞧它能不能把MoE中的“冷專家”(不常被激活的專家)卸載到CPU上,盡可能提升這類系統(tǒng)的并發(fā)度和拓展其上下文長(zhǎng)度;
在更大或特大規(guī)模的AI集群中,當(dāng)GPU出現(xiàn)單卡故障時(shí),用CPU暫時(shí)頂一下,保障集群的穩(wěn)定運(yùn)行。
由衷期待這兩個(gè)新場(chǎng)景能盡快落地,并有性能或性價(jià)比上的優(yōu)異表現(xiàn)供大家分享。你可以訪問英特爾官網(wǎng)了解更多基于HeteroFlow框架的異構(gòu)LLM服務(wù)方案的細(xì)節(jié),或者聯(lián)系英特爾官方得到英特爾相關(guān)技術(shù)專家的支持。
誰(shuí)說CPU只是GPU的小助手?用至強(qiáng)? 6高存力搞定MoE卸載!

想Get基于HeteroFlow的大模型異構(gòu)新方案?
歡迎訪問英特爾官網(wǎng),即刻揭秘!
相關(guān)閱讀
- 青團(tuán)社攜手“就業(yè)在線”開啟直播帶崗,助力靈活就業(yè)“暖冬”升溫
- 吃美食便利店火雞面去美宜佳:門店網(wǎng)絡(luò)保障隨時(shí)享用
- 不止“騎愛瑪”,更要“為熱愛加碼”:愛瑪馬年CNY營(yíng)銷的年輕化破局之道
- 反套路贏麻了|愛瑪《銀河系賣馬指南》:一部科幻喜劇,打破春節(jié)營(yíng)銷慣性
- “京”喜淘寶年貨節(jié),光大分期助你最高省300元!
- “先返鄉(xiāng)再出游”成2026春節(jié)主流,神州租車跨城訂單量同比漲七成
- 線路商更適合哪類智能語(yǔ)音質(zhì)檢產(chǎn)品?為什么電話邦是線路商的天然伙伴?
- 從規(guī)模引領(lǐng)到品牌引領(lǐng):亞朵見野品牌發(fā)布
- 躋身人工智能500強(qiáng)頭部陣營(yíng) 寒武紀(jì)以算力賦能多行業(yè)升級(jí)
- 問界全系1月交付超4萬(wàn)輛 智享服務(wù)多維護(hù)航“春節(jié)安心行”
推薦閱讀
快訊 更多
- 01-28 11:21 | 啟佑志愿重磅升級(jí):首創(chuàng)“就業(yè)導(dǎo)向型”志愿填報(bào)新模式,破解升學(xué)與就業(yè)脫節(jié)難題
- 07-09 13:16 | 三重?zé)ㄐ?,啟航未來——Pivotal中文品牌發(fā)布暨喬遷新址、新官網(wǎng)上線
- 04-10 11:21 | 為“首發(fā)經(jīng)濟(jì)”注入創(chuàng)新動(dòng)力,CMEF見證寬騰醫(yī)學(xué)影像技術(shù)革新
- 02-20 18:53 | 手機(jī)也要上HBM芯片?三星計(jì)劃推出移動(dòng)版HBM,預(yù)計(jì)首款產(chǎn)品2028年上市
- 12-30 16:40 | 國(guó)產(chǎn)首款DDR5內(nèi)存問世!價(jià)格戰(zhàn)開啟,復(fù)制長(zhǎng)江存儲(chǔ)擊敗三星路徑!
- 12-30 16:36 | 華為手機(jī)回歸第一年:全年銷量或超4000萬(wàn)臺(tái) 有望憑借Mate 70在高端市場(chǎng)擊敗蘋果
- 11-26 18:19 | 眾興菌業(yè)擬與漣水縣人民政府簽訂《招商引資合同書》 擬投資設(shè)立漣水食用菌產(chǎn)業(yè)園項(xiàng)目
- 11-26 18:16 | 美芝股份中選vivo全球AI研發(fā)中心-精裝工程采購(gòu)項(xiàng)目(標(biāo)段二)
- 11-26 18:14 | 健之佳擬用不超1億回購(gòu)公司股份 維護(hù)公司價(jià)值及股東權(quán)益
- 11-26 09:53 | 格靈深瞳收購(gòu)深圳市國(guó)科億道科技有限公司部分股權(quán)并增資5000萬(wàn)
