Google 研究團隊近期發表了一項名為「TurboQuant」的全新免訓練壓縮演算法,這項技術能夠將大型語言模型(LLM)的鍵值快取(KV caches)大幅壓縮至僅剩 3 位元,同時維持模型準確度不受影響。此一突破性進展,有望成為解決 AI 運算領域中日益嚴峻的記憶體資源消耗問題的關鍵,特別是在 NVIDIA H100 GPU 上的基準測試中,已展現出驚人的效能提升與記憶體需求縮減。
TurboQuant 演算法:AI 記憶體瓶頸的關鍵突破
在 AI 技術浪潮下,大型語言模型的應用普及與上下文長度不斷擴張,使得記憶體瓶頸成為產業界亟待克服的挑戰。生成式 AI 模型在文字生成過程中,KV 快取扮演著至關重要的角色,它負責儲存先前計算過的注意力數據,避免重複運算,進而加速內容生成。然而,隨著上下文長度呈指數級成長,KV 快取所佔用的記憶體空間也隨之暴增,逐漸成為系統效能的主要限制。
Google 推出的 TurboQuant 演算法,正是為了解決這項痛點而生。根據在 NVIDIA H100 GPU 上進行的嚴謹基準測試,採用 4 位元版本的 TurboQuant 在計算注意力對數時,相較於未經量化的 32 位元金鑰,效能提升了高達 8 倍。更令人矚目的是,它同時將 KV 快取記憶體的需求量降低了至少 6 倍,這無疑為當前記憶體資源消耗龐大的 AI 運算領域,提供了顯著的硬體最佳化解決方案。
顛覆傳統量化:兩階段創新設計解析
過去,業界多半仰賴傳統的向量量化方法來縮減快取體積,但這類方法往往需要額外儲存量化常數,導致每個數值仍產生數個位元的記憶體消耗。當面對超大型上下文時,這些微小的額外開銷將不斷複合累加,最終嚴重侵蝕掉量化所帶來的記憶體節省效益。有鑑於此,Google 團隊透過創新的「兩階段處理流程」打造出 TurboQuant 演算法,旨在徹底消除傳統量化帶來的額外負擔。
TurboQuant 的核心設計包含以下兩大階段:
- 第一階段:PolarQuant 技術導入
PolarQuant 的運作原理是將數據向量從傳統的笛卡爾坐標轉換為極坐標。透過這種轉換,每個向量被巧妙地分離成代表大小的「半徑」(radius)和代表方向的「角度」(angles)。由於在極座標下,角度的分布具有高度可預測性且非常集中,PolarQuant 因此能夠直接省略傳統量化器必須執行的、極度消耗運算資源的每區塊正規化步驟。這項設計使得模型在達成高品質壓縮的同時,實現了零量化常數儲存消耗的驚人成果。 - 第二階段:1 位元錯誤修正層(QJL)
此階段採用了名為 Quantized Johnson-Lindenstrauss (QJL) 的演算法。QJL 演算法會將殘餘的量化誤差投影到一個較低維度的空間之中,接著將每個數值進一步縮減至僅剩一個單一符號位元。此數學轉換幾乎沒有增加任何額外的運算成本,同時還能有效消除在計算注意力分數時所產生的系統性偏差,確保模型的高精準度。
實戰表現亮眼:多方驗證展現卓越效能
為了驗證 TurboQuant 的實際效能,Google 團隊使用了 Gemma 與 Mistral 等開源模型,在多個業界標準的長文本基準測試中進行全面評估,涵蓋了 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 以及 L-Eval 等項目。在其中,LongBench 的資訊檢索任務中,TurboQuant 即使在將 KV 記憶體壓縮至少 6 倍的嚴苛條件下,依然取得了完美的下游分數。而在包含問答、程式碼生成以及文章摘要等多元任務的 LongBench 測試中,TurboQuant 的表現不僅追平,甚至在所有任務上都超越了 KIVI 基準線,展現其卓越的通用性。
此外,TurboQuant 在向量搜尋領域也展現了強大的實力。在 GloVe 資料集的評測中,即使面對如 Product Quantization 和 RabbiQ 等依賴龐大碼本與特定資料集微調的現有基準技術,TurboQuant 依舊取得了最高的 1@k 召回率。Google 官方特別強調,TurboQuant 最具商業價值的優勢在於它完全不需要任何訓練或微調,且在執行時期的資源消耗微乎其微。這些優異特性使得 TurboQuant 能夠非常輕易且無縫地部署於現有的生產級推論系統以及大規模的向量搜尋系統之中。
展望與影響:AI 運算未來新篇章
這項由 Google 研究科學家 Amir Zandieh 與副總裁 Vahab Mirrokni 共同撰寫的技術論文,預計將於下個月舉辦的 2026 年國際學習表徵會議(ICLR 2026)上正式發表。TurboQuant 的問世,不僅為大型語言模型記憶體瓶頸提供了解方,更預示著 AI 運算硬體最佳化進入一個嶄新階段。
Google 官方強調:「TurboQuant 最具商業價值的優勢在於它完全不需要任何訓練或微調,且在執行時期的資源消耗微乎其微。這些優異特性使得 TurboQuant 能夠非常輕易且無縫地部署於現有的生產級推論系統以及大規模的向量搜尋系統之中。」
這項技術有望大幅降低 AI 運算的硬體門檻,加速生成式 AI 的普及與應用,為整個產業帶來深遠的影響。隨著 AI 模型持續進化,像 TurboQuant 這類創新演算法的出現,將是推動 AI 技術發展不可或缺的力量。