Google提出TurboQuant方法，大幅降低LLM的KV快取與向量搜尋記憶體占用

新聞

TurboQuant不是單一量化步驟，Google將其拆成兩個關鍵組件來說明，先以PolarQuant負責主要壓縮，再用1位元的Quantized Johnson-Lindenstrauss，也就是QJL，處理第一階段留下的殘差，以降低低位元量化後的內積估算偏差。目前，TurboQuant列為ICLR 2026 Poster論文，PolarQuant列為AISTATS 2026 Poster論文，QJL則已收錄於AAAI 2025論文集。

該研究的技術重點，在於設法減少傳統向量量化常見的額外記憶體開銷。PolarQuant論文摘要指出，這套方法透過隨機預處理與極座標轉換，避免額外的正規化步驟，也降低對資料相依量化碼簿的依賴。QJL則結合Johnson-Lindenstrauss transform與sign-bit量化，藉此省去每個資料區塊都要額外儲存量化常數的做法。若能壓低這類額外儲存成本，KV快取壓縮與向量索引建置就有機會在相同記憶體條件下容納更多資料。

在效能資料上，Google指出，TurboQuant在LongBench、Needle In A Haystack等長上下文測試中，可在維持任務表現的同時，將KV快取記憶體縮減至少6倍。4位元版本在H100上計算注意力分數時，相較32位元未量化鍵值，最高可達8倍加速。不過，TurboQuant論文摘要的表述相對保守，僅指出在每通道3.5位元設定下可維持原有表現，2.5位元時則只有輕微品質下降。在近鄰搜尋任務中，研究人員則稱其召回率優於既有乘積量化方法，且索引時間幾乎可降到零。

Google表示，TurboQuant這類方法可望用於緩解Gemini等模型的KV快取瓶頸，也可應用於大規模語意搜尋。

Google提出TurboQuant方法，大幅降低LLM的KV快取與向量搜尋記憶體占用

Comments (0)