KVキャッシュ10%で無損失の数学的推論を実現！推論大規模モデルの「メモリ過負荷」問題を解決するこのオープンソース手法

R-KVチーム寄稿量子位 | 公式アカウント QbitAI

推論大規模モデルは素晴らしいものの、単純な算術問題でさえ3ページもの重複した「無駄話」を推論し、要点が見つからないことがあります…

大規模モデルの「独り言」を制御可能な記憶エントリに変換できる、効率的な圧縮方法が登場しました！

R-KVオープンソース登場：VRAM↓90%、スループット×6.6、精度=100%。

リアルタイムでトークンをソートし、重要性と非冗長性を両立させ、情報が豊富で多様なトークンのみを保持することで、大規模モデル推論時の冗長性の問題を解決します。

「長時間の推論」はもはや贅沢品ではありません。

プロジェクトの詳細は記事末尾のリンクをご参照ください。

R-KVの3ステップ：冗長性識別+重要性評価+動的淘汰

思考の連鎖（Chain-of-Thought, CoT）により、LLMの解法は明確になりましたが、推論の長さは指数関数的に膨張します。

DeepSeek-R1-Llama-8Bを例にとると、一つのAIME数学問題で3.2万ものトークンが生成されます。モデルの重みが15.5GB、KVキャッシュがさらに4.1GBを消費し、VRAMは瞬時に枯渇します。

既存のKV圧縮方法（SnapKV、StreamingLLM、H2Oなど）は主に長入力向けに設計されていますが、モデルが出力側で「独り言」を始めると、似たような文が互いに高い注意度を払い、「注意度スコアが低いものを削除する」戦略が機能しなくなります。

これにより、重要なステップが誤って削除されたり、重複したコンテンツが残されたり、精度が急激に低下するなどの問題が発生します。

R-KVは、以下の手順を通じて、モデルのデコード時にKVキャッシュをリアルタイムで圧縮し、冗長なキー/値（KV）トークンを処理し、重要かつ非冗長なトークンのみを保持します。

生成しながら圧縮（Decoding-Time Compression）：トークンがKVに書き込まれる前に、「残すか削除するか」を判断し、VRAMの膨張を完全に阻止します。

重要性スコアリング（Importance）：多頭アテンションが総合的に評価し、各トークンが後続の解答にどの程度貢献するかを判断します。

冗長性スコアリング（Redundancy）：Keyベクトルのコサイン類似度を計算し、「リピーター」のような内容を特定します。

共同淘汰（Joint Eviction）：「高重要+低冗長」の優先順位でKV割り当てをリアルタイムでスケジューリングし、λ≈0.1の時に最も効果的です。

このプロセス全体はトレーニング不要（training-free）で、モデルに依存せず（model-agnostic）、モデル構造を変更する必要がなく、直接「プラグアンドプレイ」で利用できます。そのため、強化学習のサンプリングプロセスにも直接利用でき、非常に柔軟です。

視覚化：R-KV vs. SnapKV

上図は、R-KVと純粋なアテンションベースラインであるSnapKVが、同じデコードステップでどのトークンを選択したかを示しています。灰色＝未選択；薄い赤から濃い赤＝より多くのアテンションヘッドによって選択されたことを示します。

SnapKVは、現在のQueryに最も近い局所的なセグメントに焦点を当てており、時には「3 students are leaving early…」のような無意味な自己記述を何度も繰り返し保持していることがわかります。

一方、R-KVが選択したトークンは、推論全体にわたっています。問題のキーワード「30 students」、重要な中間値「24,12」、そして最終的な解答がすべて保持されており、さらにセマンティックなカバレッジが広いです。

アテンション強度と冗長性フィルタリングを組み合わせることで、R-KVは重要なコンテキストを保持し、ノイズを除去してタスクを成功させました。一方、SnapKVは誤って重要な情報を削除したため、誤った解答に至りました。

結果：R-KVはより広範なカバレッジ、高い情報多様性、そして顕著な冗長性除去能力を持っています。

性能テスト：精度は低下せず、むしろ向上

ご覧の通り、R-KVは挑戦的な数学ベンチマークにおいて、ベースラインを大幅に上回り、完全なKVさえも凌駕しました。

計算オーバーヘッドに関して、R-KVは重要性スコアリングと冗長性スコアリングの追加計算を導入しますが、全体的なオーバーヘッドは適度であり、通常、圧縮されたKVキャッシュによるアテンションコストの削減によって相殺されます。シーケンス長が増加するにつれて、このトレードオフはますます有利になります。

メモリ節約とエンドツーエンドスループット向上のリアルタイム分析によると、バッチサイズが1の場合、R-KVはスループットにおいてFullKVをわずかに上回ります。これは、R-KVがアテンション計算の削減によって達成した高速化効果が、R-KV自身の計算オーバーヘッドを上回っていることを示しています。

しかし、この直接的な速度向上は全体的な利益のごく一部にすぎません。R-KVがもたらす主なスループット向上は、KVキャッシュの圧縮によるものであり、これによりモデルは著しく大きな推論バッチサイズをサポートできるようになります。

R-KVの適用シナリオは以下の通りです：

エッジデバイスでの長連鎖推論：VRAMが劇的に削減され、コンシューマーGPUや携帯電話のNPUでも実行可能になります。

マルチターンエージェント：反省-書き換え-自己評価などの複雑なプロセスがVRAMの制限を受けなくなります。

強化学習のサンプリングプロセスの直接高速化：トレーニング不要な（training-free）手法でプラグアンドプレイが可能です。

論文PDF：https://arxiv.org/pdf/2505.24133.pdfプロジェクトホームページ：https://zefan-cai.github.io/R-KV.page/コードリポジトリ：https://github.com/Zefan-Cai/R-KV

ワンクリックで「いいね」「シェア」「ハート」のトリプルアクションをお願いします！

コメント欄にぜひご意見をお寄せください！

— 完 —

🌟 星を点灯 🌟

最先端のテクノロジーの進歩を毎日お届け