×
In

關鍵數字:KV 快取記憶體降低 6 倍、H100 GPU 上執行效能提升最高 8 倍。Google 研究院近期於官方部落格正式發表新型壓縮演算法「TurboQuant」,由研究科學家 Amir Zandieh 與副總裁暨 Google 研究員 Vahab Mirrokni 共同撰文說明。這項技術的核心目標,是以極致壓縮重新定義大型語言模型(LLM)的 AI 效率,並預計於 ICLR 2026 正式發表。消息一出,美系外資摩根士丹利(大摩)隨即以「另一個 DeepSeek 時刻」來描述其潛在影響力,認為此技術有望顛覆現有 AI 部署的成本曲線。

📊 技術背景:KV 快取瓶頸為何難以突破?

KV 快取(Key-Value Cache)是大型語言模型推論階段的核心機制,可視為一種高速「數位速查表」,以簡單標籤儲存常用資訊,使電腦能即時存取,而不需反覆搜尋龐大且緩慢的資料庫。然而,隨著模型規模持續擴大,高維向量(High-dimensional vectors)所消耗的記憶體也急遽增加,KV 快取因此成為制約 AI 系統效能的關鍵瓶頸。

傳統解法是採用「向量量化」(Vector quantization)縮減高維向量大小,理論上可加速向量搜尋並降低記憶體成本。然而,傳統向量量化技術存在一個根本矛盾:每個壓縮後的小區塊仍需存取額外的量化參數,導致每個數值反而增加 1 至 2 個 bit,抵銷了原本的壓縮效益。這也是 Google 研究團隊決定從根本重新設計演算法的主要動機。

TurboQuant 核心架構:兩階段壓縮流程

TurboQuant 的壓縮流程分為兩個關鍵步驟,分別對應兩項底層技術:PolarQuant 與 Quantized Johnson-Lindenstrauss(QJL)。

步驟一:高品質壓縮(PolarQuant 方法)

TurboQuant 首先透過 PolarQuant 技術對資料向量進行隨機旋轉,以簡化資料的幾何結構。PolarQuant 的核心創新在於將向量從傳統的 X、Y、Z 標準座標系統,轉換為「極座標」(Polar coordinates)表示方式。以直觀的比喻說明:傳統方法描述「向東走 3 個街區、向北走 4 個街區」,而 PolarQuant 則描述為「以 37 度角走總共 5 個街區」,以半徑(代表核心資料強度)與角度(代表資料方向或語意)兩種資訊取代原有的多維座標。

這種極座標模式具有高度集中且可預測的特性,使模型不再需要執行昂貴的資料標準化(normalization)步驟。更重要的是,當資料被映射至固定且可預測的圓形網格時,邊界是已知的,不像傳統方形網格那樣邊界持續變動,從而消除了傳統方法必然承擔的記憶體額外負擔。

步驟二:消除隱藏誤差(QJL 演算法)

完成第一階段壓縮後,TurboQuant 使用極少的剩餘位元(僅 1 bit),對第一階段殘留的微小誤差套用 QJL 演算法進行修正。QJL 採用一種名為 Johnson-Lindenstrauss Transform 的數學方法,能將每個向量數值簡化為單一符號位元(+1 或 -1),建立高速的資料「速記形式」,且不需要額外記憶體負擔。此外,QJL 使用特殊估算器(estimator),在高精度查詢與低精度資料之間取得平衡,確保模型仍能精確計算注意力分數(attention score)——即判斷哪些輸入資訊重要、哪些可忽略的核心機制。

實驗驗證:多項基準測試數據全面解析

Google 使用開源大型語言模型 Gemma 與 Mistral,在多個標準長上下文基準測試上進行嚴謹評估,涵蓋 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 及 L-Eval 等測試集。

實驗結果顯示,TurboQuant 在「點積失真」(dot product distortion)與「召回率」(recall)兩項關鍵指標上均達到最佳表現。在長上下文「大海撈針」任務中,TurboQuant 在所有基準測試中均達到完美的下游任務表現,同時將 KV 記憶體大小降低至少 6 倍以上,且 PolarQuant 在此任務中幾乎無精度損失。

在執行效率方面,Google 的測試結果同樣亮眼:在 H100 GPU 加速器上,4 位元 TurboQuant 相較於 32 位元未量化鍵值,效能提升最高可達 8 倍。Google 同時確認,TurboQuant 可在無需訓練或微調的情況下,將 KV 鍵值快取量化至僅 3 位元,且不犧牲模型準確度,執行時幾乎不產生額外負擔。此外,與目前最先進方法 PQ 及 RabbiQ 的比較測試也顯示,TurboQuant 在高維向量搜尋任務中持續維持更優異的召回率,驗證其穩健性與效率。

大摩的判斷:為何稱之為「另一個 DeepSeek 時刻」?

摩根士丹利(大摩)在分析報告中指出,目前 AI 服務擴展的最大瓶頸正是 KV 快取問題。若模型能在顯著降低記憶體需求的情況下維持效能,每次查詢的服務成本將可大幅下降,進而提升 AI 部署的整體獲利能力。

大摩進一步區分短期與長期影響。短期而言,TurboQuant 主要針對推論階段的 KV 快取進行壓縮,對模型權重(GPU/TPU 上的 HBM 使用量)與訓練工作負載並無直接影響,但可讓相同硬體支援 4 至 8 倍更長的上下文,或在不耗盡記憶體的情況下處理更大的批次大小(batch size)。這代表的是「效率提升」,即增加每顆 GPU 的吞吐量,而非整體記憶體或硬體需求降低 6 倍。

長期而言,大摩預測將出現「Jevons Paradox」(傑文斯悖論)效應——效率提升反而推動總需求增加。從這個角度審視,TurboQuant 與其說是漸進式的技術優化,不如說是從根本上「改變 AI 部署的成本曲線」,這也正是大摩以「另一個 DeepSeek 時刻」來定位這項技術的原因。

TurboQuant 的應用前景

Google 表示,TurboQuant 的應用範疇不僅限於解決 LLM 的 KV 快取瓶頸,預期將延伸至更多場景。尤其是在極低記憶體使用量、幾乎為零的前處理時間,以及最先進準確度的條件下,建立並查詢大規模向量索引,有助於 Google 語意搜尋系統變得更快速且更高效率。值得注意的是,NVIDIA 亦已於論文中公開其 KV 快取壓縮技術 KVTC,顯示業界主要玩家正同步投入這一關鍵技術領域,外界也期待隨著更多企業投入,進一步促使 AI 推論成本持續下降。

常見問題解答

TurboQuant 是什麼技術?

TurboQuant 是 Google 研究院開發的新型壓縮演算法,預計於 ICLR 2026 正式發表。其核心功能是在不損失模型準確度的前提下,大幅壓縮大型語言模型的 KV 快取記憶體占用,同時提升向量搜尋效率。技術上由 PolarQuant(高品質壓縮)與 QJL(誤差消除)兩個核心組件構成。

TurboQuant 能帶來多大的效能提升?

根據 Google 的實驗數據,TurboQuant 可將 KV 快取記憶體大小降低至少 6 倍以上,同時在 H100 GPU 上的執行效能相較於 32 位元未量化鍵值最高提升 8 倍,且在多個標準基準測試中均達到完美的下游任務表現。

為何大摩稱 TurboQuant 為「另一個 DeepSeek 時刻」?

摩根士丹利認為,TurboQuant 能在不增加硬體的情況下大幅提升 GPU 吞吐量,顯著降低每次 AI 查詢的服務成本。長期來看,依據「傑文斯悖論」效應,效率提升將推動 AI 總需求進一步增加,因此這項技術被視為改變 AI 部署成本曲線的關鍵突破,而非單純的漸進式優化。

TurboQuant 與 PolarQuant、QJL 的關係為何?

PolarQuant 與 QJL(Quantized Johnson-Lindenstrauss)是 TurboQuant 的兩項核心組件技術。PolarQuant 負責第一階段的高品質壓縮,將向量轉換為極座標表示以消除記憶體額外負擔;QJL 則負責第二階段的誤差修正,以僅 1 bit 的極低成本消除壓縮偏差,提升注意力分數的準確性。三者合稱 TurboQuant 技術體系,其中 PolarQuant 預計於 AISTATS 2026 發表。

Related Posts

In

臺灣2065年人口恐跌破1200萬!超高齡社會比預期提早來臨的三大衝擊

臺灣的少子化危機比我們想像的更嚴峻。根據國發...

Read out all
In

鴻海每股配7.2元創新高!52.9%配發率背後透露什麼產業訊號?

鴻海營運數字背後的產業密碼 根據鴻海最新財報...

Read out all