ICML 2025 | 速くて強力なライガー！わずか20Mトークンでファインチューニング、Transformerが瞬時に線形RNNに切り替わる

先日、上海AI Labは華南理工大学、香港科技大学（広州）、南京大学、香港中文大学と共同で、Liger（ライガー、獅子と虎の混血獣）という研究成果を発表しました。これは、「Linearizing LLMs to gated recurrent structures」の略で、事前学習済み大規模言語モデルのアーキテクチャを、ゲート付きリカレント構造を持つ線形モデルに効率的に変換する線形化技術です。

本研究はICML 2025に採択され、コードとモデルはすべてオープンソース化されています。

論文タイトル：

Liger: Linearizing Large Language Models to Gated Recurrent Structures

論文リンク：

https://arxiv.org/abs/2503.01496

コードリンク：

https://github.com/OpenSparseLLMs/Linearization

モデルリンク：

https://huggingface.co/collections/linear-moe-hub/liger-67d904bffd7f9b77ade7747d

大規模言語モデル（Llama、Mistralなど）は、様々なシーケンスモデリングタスクで優れた性能を発揮しており、特にTransformerアーキテクチャに基づく大規模言語モデルは、その有効性が広く検証されています。しかし、このアーキテクチャには固有の欠陥があります。

1. アテンションメカニズムはシーケンス長に対して二次的な計算複雑性を持ち、次の単語を生成するたびに過去のシーケンスデータを見直してアテンション計算を行う必要があるため、Transformerアーキテクチャモデルは長シーケンスシナリオで非効率です。

2. KV-Cacheメカニズムは、後続の計算のために過去のシーケンスデータを保存する必要があり、シーケンス長の増加に伴ってGPUメモリの圧力が上昇します。

従来のTransformerアーキテクチャモデルの効率ボトルネックはますます顕著になっています。性能を犠牲にすることなく、いかに効率的な推論を実現するかが、学術界と産業界の共通の焦点となっています。

このような背景から、線形シーケンスモデリング手法に基づくモデルアーキテクチャが注目されています。線形リカレントモデルは、アーキテクチャ上明確な利点を持っています。

1. 線形アテンションメカニズムはシーケンス長に対して線形計算複雑性を持ち、次の単語を生成するたびに固定サイズのメモリ/状態にアクセスするだけで済むため、計算効率が高いです。

2. KV-Cacheが不要で、推論生成段階でのGPUメモリ占有は一定であり、生成シーケンスがどれほど長くてもメモリ占有は常に一定に保たれます。

その高効率性により、Transformerアーキテクチャの固有の欠陥を完全に解決できるため、線形リカレントアーキテクチャモデルはLLMの基本アーキテクチャとして優位性を示しています。

しかし、新しいモデルアーキテクチャの有効性を検証することは容易ではありません。これは、非常に大規模なパラメータを持つモデルの学習には、何千億、何兆もの高品質なデータ量が必要となることが多く、計算リソースの要求も極めて高いため、大規模なGPUクラスタでランダム初期化された大規模モデルをゼロから事前学習する必要があるからです。

したがって、このような線形リカレントモデルをゼロから学習するコストは高く、通常、既存のTransformer LLMの性能に匹敵することは困難であり、ほとんどの研究者が躊躇し、性能が期待できないかもしれない線形LLMを訓練するためにそのような高コストを実際に投入することは難しいのが現状です。

既存の事前学習済みTransformer大規模モデル（Llama、Mistralなど）がある今、既存のモデルアーキテクチャを線形リカレントモデルアーキテクチャに調整し、その上でさらに学習を進める方がコストの低い解決策かもしれません。これを「モデルアーキテクチャの線形化」と呼んでいます。

しかし、現在の線形モデルはTransformerアーキテクチャのSoftmax Attentionの効果を模倣するために、既存の線形アテンションにFeature Mappingやゲーティングメカニズムなど様々なモジュールを追加する必要があり、これにより既存の線形モデルの性能をある程度向上させることができます。

しかし、既存の線形化手法では、Transformerをゲート付きリカレント構造を持つ線形モデルにどのようにすればより良く線形化できるかについてはまだ十分に探求されていません。また、線形化シナリオでは、これらの追加モジュールは初期化して学習する必要があるため、アーキテクチャの複雑性と差異が増し、線形化コストがさらに増加します。

このような背景から、Ligerが誕生しました。これは非常に効率的で簡潔、かつ汎用的な線形化技術であり、ごく少量のファインチューニングコストで事前学習済みTransformer LLMをゲート付きリカレント構造に線形化でき、元のモデル性能の93%以上を回復させると同時に、高効率な線形計算複雑性を持つシーケンスモデリングを実現します。

手法の説明

Ligerの核となる目的は、簡潔かつ低コストな学習を通じてモデル構造を変換し、事前学習済みLLMの重みをゲート付きリカレントアーキテクチャに直接移行させ、ゼロからの事前学習に伴う高コストを回避することです。

複雑さを簡素化：モデルパラメータの冗長性を巧みに利用

ゲーティングメカニズムに基づく線形リカレントモデルは、個別にゲーティングモジュールを設計する必要があり、これにより追加の学習可能なパラメータが導入され、モデルの複雑さが増します。Ligerは、LLMに固有のパラメータ冗長性という特性を巧みに利用し、キー行列（Key Matrix）を変換してゲーティングメカニズムを構築します。

具体的には、プーリング（Pooling）による無パラメータ操作を通じて、キー投影行列から直接ゲーティング情報を抽出し、新たな学習可能なパラメータを増やす必要がありません。線形リカレントモデルはSoftmax操作を削除しているため、QKの積が正規化されずに数値が膨張し、元の出力分布に適合できない可能性があります。そのため、線形リカレントモデルでは通常、Softmax Attentionに適合させるために、学習可能なFeature Mapping関数を導入する必要があります。

具体的な実装では、Feature MappingをQとKにそれぞれ作用するSoftmax関数に簡素化し、QK積の数値正規化の安定性を提供し、元のLLMアテンションメカニズムとの互換性を確保します。同時に、学習可能なパラメータを一切導入せず、LLMの重みを完全に再利用することで、モデルアーキテクチャの複雑さと差異を低減し、多段階の学習を不要とすることで、線形化コストをさらに削減し、モデル性能を向上させます。

Liger手法は、様々なゲーティングメカニズムを持つ線形リカレントモデルアーキテクチャと互換性があり、非常に柔軟で高効率です。

軽量ファインチューニング：LoRAが線形構造への適応を支援

モデル構造変換後、Ligerは低ランク適応（LoRA）技術を用いてモデルをファインチューニングし、線形リカレントモデルアーキテクチャに適応させます。

Ligerの線形化は、アテンション層のQKVの演算順序を変更するだけで、右乗核トリックによって線形高効率計算を実現します。そのため、モデル全体を全パラメータでファインチューニングする必要はなく、アテンション層のQKV投影行列に対してLoRAを用いた低ランク分解学習を行うだけで済みます。学習目標は自己回帰型の次トークン予測（Next Token Prediction）を採用し、損失関数は交差エントロピー損失（Cross-Entropy Loss）です。

LoRAの軽量ファインチューニングにより、Ligerの線形化プロセスにおいてLLMの事前学習済み知識を十分に保持し、線形化コストを削減し、大部分の性能を迅速に回復させることができます。

ハイブリッドメカニズム：Liger Attention

線形化の性能をさらに向上させるため、本論文ではLiger Attentionハイブリッドアテンションメカニズムを提案しています。これは、スライディングウィンドウアテンション（Sliding Window Attention、SWA）とゲート付きリカレントモデリング（Gated Recurrent Modeling、GRM）を組み合わせることで、層内線形シーケンスモデリング手法とアテンションメカニズムのハイブリッドを実現し、同時に線形計算複雑性の高効率性を維持します。

Ligerは層間ハイブリッドアーキテクチャの効率的な線形化にも使用できます。7層のゲート付きリカレントモジュールの後に1層の標準アテンションモジュールを挿入することで、長距離依存性を捕捉しつつ、局所的なアテンションによって重要な情報の処理を強化し、モデルの適応性をさらに向上させています。

実験分析

著者らは、Ligerと既存の様々なモデルアーキテクチャ線形化手法を実験で比較しました。その結果、Ligerは他の手法よりも訓練コストが低いにもかかわらず、わずか20M訓練トークンのコストで事前学習済みTransformer大規模モデルの93%以上の性能を回復できることが示されました。様々な言語モデリングタスクにおいて、既存のSOTA線形化手法に匹敵するか、それを超える性能を示し、Llama、MistralなどのTransformerアーキテクチャLLMの性能に非常に近い結果を出しています。

線形モデルのアーキテクチャ上の利点により、Ligerの推論時間はシーケンス長に線形に比例して増加します。16Kのシーケンス長での推論はFlash Attentionよりも2倍高速であり、32K長シーケンスを処理する際、LigerのGPUメモリ占有は16.37GBで一定を保ちます。一方、Flash Attentionに基づく元のLlama-3はメモリ不足（OOM）のため推論を完了できませんでした。