輝達新技術讓大語言模型記憶體用量銳減20倍

輝達新技術讓大語言模型記憶體用量銳減20倍

2026-03-18 23:16
重點摘要
輝達推出名為「KV快取轉換編碼」(KVTC)的新技術,能將大型語言模型(LLM)的記憶體用量降低高達20倍。
KVTC技術借鑒媒體壓縮概念,透過非侵入性方式優化KV快取,不需修改模型權重或程式碼。
該技術在多項測試中顯示,即使在極高壓縮率下,準確度損失仍極微,遠優於現有技術。
KVTC能顯著縮短首個詞元生成時間達8倍,提升AI應用效率與使用者體驗。
此技術有望加速AI普及,並影響未來AI硬體設計朝向更精巧、成本效益更高的方向發展。
#AI #輝達 #KVTC #大型語言模型 #記憶體
商傳媒|何映辰/台北報導

全球人工智慧(AI)晶片領導廠商輝達(Nvidia)昨日(17日)發表一項名為「KV快取轉換編碼」(KV Cache Transform Coding, KVTC)的嶄新技術,能大幅降低大型語言模型(LLM)處理對話歷史時的記憶體佔用,最高可達20倍,且不需更改模型權重。這項創新亦能將首個詞元(token)的生成時間加速達8倍,對企業級AI應用效率提升具關鍵意義。

AI多輪對話的記憶體瓶頸

在開發複雜的AI應用,如程式撰寫助理或聊天機器人時,LLM仰賴「鍵值(Key-Value, KV)快取」機制來儲存過往對話的隱藏數值表示,避免每次使用者輸入新提示時,都需重新計算整個對話歷史。然而,隨著對話輪次增加,此快取所佔用的記憶體空間會迅速擴大,成為延遲與基礎設施成本的嚴重瓶頸。輝達深度學習工程師 Adrian Lancucki 透過《VentureBeat》指出,由於LLM在推論期間高度受記憶體限制,同時服務多名使用者時,GPU記憶體耗盡而非運算時間,才是系統效能的最大限制。有效的KV快取管理因此成為關鍵,因為閒置的快取必須快速從GPU記憶體卸載,以容納其他使用者,並在對話恢復時迅速還原,這類基礎設施成本也反映在商業定價中。

市場上現有的壓縮解決方案往往無法全面解決問題。例如,為網路傳輸設計的壓縮工具壓縮率低;其他壓縮方法則需耗費大量資源進行即時運算;而量化(quantization)或稀疏化(sparsification)等熱門技術,則可能導致延遲增加、準確度下降,或必須修改模型權重,限制了其實用性。輝達研究人員發現,KV張量雖龐大複雜,其內含的資訊卻具有高度的「低秩結構」(low-rank structure),可透過更精簡的方式精確表示,KVTC技術正是以此為核心。

借鑒媒體壓縮技術提升效率

KVTC技術借鑒了傳統媒體壓縮領域的「轉換編碼」(transform coding)概念,此方法廣泛應用於JPEG等影像與視訊壓縮格式。該框架透過一系列快速的多步驟流程,在推論階段之間執行快取縮減,以避免拖慢詞元生成速度。Lancucki 強調,這種「媒體壓縮」方法具非侵入性,不需修改模型權重或程式碼,且靠近傳輸層運作,有利於企業部署。

KVTC流程首步驟是利用主成分分析(Principal Component Analysis, PCA),根據KV快取數據的重要性對特徵進行對齊。PCA是一種統計技術,透過分離數據最關鍵的特徵並消除冗餘,來提高模型效率。此校準步驟僅在每個模型初次使用時離線執行一次,其生成的對齊矩陣可重複使用,不影響後續壓縮過程。接著,系統透過動態規劃演算法,自動分配每個特定數據維度所需的記憶體預算,讓最重要的主成分獲得高精度,較不重要的部分則分配較少位元甚至完全捨棄。最後,經過優化和量化的數據會被打包成位元組陣列,並透過DEFLATE熵編碼器進行壓縮。此步驟利用輝達的nvCOMP函式庫在GPU上平行執行,確保極高的運算速度。

當使用者再次互動時,KVTC會以反向操作解壓縮數據。為加速此過程,系統會分區塊、分層級地執行大部分解壓縮工作,使AI模型能夠在背景解壓縮剩餘區塊的同時,利用首個解壓縮完成的區塊開始計算下一個回應,大幅提升反應速度。

效能卓越且準確度損耗極微

輝達研究人員對KVTC進行了廣泛測試,涵蓋了從15億到700億參數的各類模型,包括Llama 3系列、Mistral NeMo,以及注重推理的R1蒸餾版Qwen 2.5模型。測試基準包括MATH-500、LiveCodeBench等複雜數學與程式編寫挑戰,以及「大海撈針」(Needle In A Haystack)等密集型長上下文檢索任務。

結果顯示,在20倍有效壓縮率下,KVTC在大多數任務中,相較於未壓縮的原始模型,準確度損失始終保持在1個百分點以內。即使將壓縮率推升至32倍或64倍的極限,KVTC的表現依然出色。相比之下,KIVI和GEAR等主流基線技術在僅5倍壓縮率下,特別是在長上下文任務上,就出現了嚴重的準確度下降。而H2O和TOVA等標準快取驅逐方法作為通用壓縮器,在要求檢索深層上下文資訊時,則完全失效。

以15億參數的Qwen 2.5程式助理模型為例,其每個詞元通常需要29KB記憶體。透過8倍壓縮設定,KVTC將記憶體佔用縮減至約3.2KB,而程式編寫準確度僅微幅下降0.3個百分點。KVTC對於提升使用者體驗也助益良多,它顯著縮短了「首個詞元生成時間」(Time-to-First-Token, TTFT)。在處理8000個詞元的提示時,未經優化的12B模型在輝達H100 GPU上需約3秒才能重新計算歷史紀錄;而透過KVTC,系統只需380毫秒即可解壓縮快取,將首個詞元生成時間縮短達8倍。

加速AI普及並影響硬體發展

Lancucki 指出,KVTC技術最適合應用於長上下文、多輪次的AI情境,例如程式設計助理、疊代式代理推理工作流程,以及疊代式檢索增強生成(RAG)。輝達預計很快會將這項高度可移植的優化實作整合至Dynamo框架內的KV區塊管理器(KVBM)中,使其能與vLLM等主流開源推論引擎相容。這項技術透過降低LLM運行的記憶體需求與運算成本,可望加速AI技術的普及與大規模部署。

對於全球半導體產業,特別是台灣半導體供應鏈而言,KVTC技術的推出意味著AI硬體發展將更加注重效率與成本效益。台灣在全球先進製程與高頻寬記憶體(HBM)封裝領域佔有領先地位,例如台積電(TSMC)在製造輝達AI晶片及相關封裝技術中扮演關鍵角色。KVTC有助於最佳化AI模型的記憶體使用,這將可能引導未來AI晶片與硬體設計朝向更精巧、更具成本效益的方向發展,同時提高現有AI基礎設施的利用率,鞏固台灣在供應這些高效能AI解決方案上的核心地位,並進一步推動AI生態系的創新。


熱門文章
騰訊QClaw AI代理整合WeChat 支援PC控制測試
騰訊QClaw AI代理整合WeChat 支援PC控制測試

商傳媒

好市多女廁抽搐倒地喊「救我」 陌生女會員機警求援救一命 尋人貼文暖心落幕
好市多女廁抽搐倒地喊「救我」 陌生女會員機警求援救一命 尋人貼文暖心落幕

品觀點傳媒

3月20日最強翻身日來了!春風「龍抬頭」 3生肖獲加持
3月20日最強翻身日來了!春風「龍抬頭」 3生肖獲加持

品觀點傳媒

【台灣瘋滑雪9-1】三年衝出12萬人 滑雪人口如何從小眾變成冬季主流
【台灣瘋滑雪9-1】三年衝出12萬人 滑雪人口如何從小眾變成冬季主流

匯流新聞網CNEWS

國3霧峰段深夜5車連環撞釀1死 半聯結車疑恍神撞分隔島釀禍
國3霧峰段深夜5車連環撞釀1死 半聯結車疑恍神撞分隔島釀禍

記者爆料網

AI代理浪潮引爆OpenClaw商機 中國10檔科技股躍投資焦點
AI代理浪潮引爆OpenClaw商機 中國10檔科技股躍投資焦點

商傳媒

台中私立僑泰高中75人錄取繁星 創校史最佳紀錄 
台中私立僑泰高中75人錄取繁星 創校史最佳紀錄 

中廣新聞

東海展現私校龍頭實力  繁星推薦開紅盤 「滿招零缺額」
東海展現私校龍頭實力 繁星推薦開紅盤 「滿招零缺額」

勁報

(有影片)/非洲豬瘟後找去處 廚餘變培養土、液肥落實資源循環
(有影片)/非洲豬瘟後找去處 廚餘變培養土、液肥落實資源循環

獨家報導

高虹安推智慧托育再升級 新竹市定點臨托導入線上預約
高虹安推智慧托育再升級 新竹市定點臨托導入線上預約

匯流新聞網CNEWS

前鎮分局草衙所員警盤查違停  意外逮獲毒駕通緝犯
前鎮分局草衙所員警盤查違停 意外逮獲毒駕通緝犯

勁報

苗縣長下鄉座談會巡迴頭份市召開 在公所配合下裁示解決多項提案
苗縣長下鄉座談會巡迴頭份市召開 在公所配合下裁示解決多項提案

台灣好新聞

Lithic推LEP100-3模型 為可程式化AI經濟建立治理框架
Lithic推LEP100-3模型 為可程式化AI經濟建立治理框架

商傳媒

台中酒醉女子扛空心磚砸車! 網友驚呼:力氣真大
台中酒醉女子扛空心磚砸車! 網友驚呼:力氣真大

記者爆料網

麻疹其實很難纏! 醫師提醒出國旅遊前應先確認兩件事
麻疹其實很難纏! 醫師提醒出國旅遊前應先確認兩件事

NOW健康

貢寮管線破裂影響基隆供水 謝國樑赴台水關切搶修進度
貢寮管線破裂影響基隆供水 謝國樑赴台水關切搶修進度

台灣好新聞

毒鴛鴦跑4縣市販毒落網!交保數日再犯280萬毒品被查獲
毒鴛鴦跑4縣市販毒落網!交保數日再犯280萬毒品被查獲

品觀點傳媒

酒後見真情1/小S情緒潰堤夜赴好友黑人范范家 撕心痛哭崩潰畫面曝光
酒後見真情1/小S情緒潰堤夜赴好友黑人范范家 撕心痛哭崩潰畫面曝光

CTWANT

彰化中興莊眷村文化園區修復完工 文化部發表繪本傳承記憶
彰化中興莊眷村文化園區修復完工 文化部發表繪本傳承記憶

匯流新聞網CNEWS

桃園社會安全網人力不足 黃瓊慧籲市府「先接住社工」
桃園社會安全網人力不足 黃瓊慧籲市府「先接住社工」

桃園電子報

台股強彈512點!ETF擁抱台積、股王信驊受惠 法人這樣說
台股強彈512點!ETF擁抱台積、股王信驊受惠 法人這樣說

品觀點傳媒

大園警破獲「美女裸聊+假投資」連環套詐騙案 11名核心成員落網
大園警破獲「美女裸聊+假投資」連環套詐騙案 11名核心成員落網

桃園電子報

離奇!基隆騎士自撞路邊車不治 碎片害後車摔倒
離奇!基隆騎士自撞路邊車不治 碎片害後車摔倒

記者爆料網

國道飆車事故亡 競速「車手」判刑3年6月定讞
國道飆車事故亡 競速「車手」判刑3年6月定讞

匯流新聞網CNEWS

Meta旗下Manus推AI桌面應用 強化在地互動與效率
Meta旗下Manus推AI桌面應用 強化在地互動與效率

商傳媒

中國AI助理OpenClaw崛起 政府警示資安風險
中國AI助理OpenClaw崛起 政府警示資安風險

商傳媒

AI 代理技能缺乏身分識別 Gen Digital 推出指紋機制強化安全
AI 代理技能缺乏身分識別 Gen Digital 推出指紋機制強化安全

商傳媒

赴歐旅遊注意!歐盟將實施新入境系統 專家籲預留四小時
赴歐旅遊注意!歐盟將實施新入境系統 專家籲預留四小時

商傳媒

不只是看WBC!桃園消防員東京神救援 「動漫魂」化作跨國救命關鍵
不只是看WBC!桃園消防員東京神救援 「動漫魂」化作跨國救命關鍵

TVBS新聞網

祖傳水鹿頭也敢賣!台中男臉書兜售遭抓 觸法下場曝光
祖傳水鹿頭也敢賣!台中男臉書兜售遭抓 觸法下場曝光

CTWANT

Avante N 7.5 代賽道實戰解析  從底盤調校到後勤體系,正德如何讓韓規性能車在台落地
Avante N 7.5 代賽道實戰解析 從底盤調校到後勤體系,正德如何讓韓規性能車在台落地

記者爆料網

太陽聯盟屏陽總會太子被捕!桌遊店掩護洗錢 警逮42人到案
太陽聯盟屏陽總會太子被捕!桌遊店掩護洗錢 警逮42人到案

CTWANT

通用型AI會計能力測試出爐 最佳模型準確度未達八成
通用型AI會計能力測試出爐 最佳模型準確度未達八成

商傳媒

中國警示黃仁勳稱「新電腦」AI代理 OpenClaw安全風暴席捲
中國警示黃仁勳稱「新電腦」AI代理 OpenClaw安全風暴席捲

商傳媒

潮州文創美食街  屏東潮州第一家文創、美食園區登場
潮州文創美食街 屏東潮州第一家文創、美食園區登場

民眾日報民眾網

訂鴨肉飯備註「請附3張衛生紙」遭公審 個資全曝業者急道歉
訂鴨肉飯備註「請附3張衛生紙」遭公審 個資全曝業者急道歉

TVBS新聞網

桃園南崁高中繁星推薦傳捷報!84人成功上榜錄取率亮眼
桃園南崁高中繁星推薦傳捷報!84人成功上榜錄取率亮眼

桃園電子報

部桃攜手親子館 故事車陪學誠實
部桃攜手親子館 故事車陪學誠實

台灣好新聞

Google Colab 推出 MCP 伺服器 AI Agent 開發效率望顯著提升
Google Colab 推出 MCP 伺服器 AI Agent 開發效率望顯著提升

商傳媒

 陽帆、陳亞蘭、謝金燕確定降臨!「大港開唱」本周末高雄登場 20周年最盛大
陽帆、陳亞蘭、謝金燕確定降臨!「大港開唱」本周末高雄登場 20周年最盛大

LIFE生活網記者-郭懿慧

讚 85
留言 0
分享
分享