先日、上海AI Labは華南理工大学、香港科技大学(広州)、南京大学、香港中文大学と共同で、Liger(ライガー、獅子と虎の混血獣)という研究成果を発表しました。これは、「Linearizing LLMs to gated recurrent structures」の略で、事前学習済み大規模言語モデルのアーキテクチャを、ゲート付きリカレント構造を持つ線形モデルに効率的に変換する線形化技術です。
本研究はICML 2025に採択され、コードとモデルはすべてオープンソース化されています。
論文タイトル:
Liger: Linearizing Large Language Models to Gated Recurrent Structures
論文リンク:
https://arxiv.org/abs/2503.01496
コードリンク:
https://github.com/OpenSparseLLMs/Linearization
モデルリンク:
https://huggingface.co/collections/linear-moe-hub/liger-67d904bffd7f9b77ade7747d
大規模言語モデル(Llama、Mistralなど)は、様々なシーケンスモデリングタスクで優れた性能を発揮しており、特にTransformerアーキテクチャに基づく大規模言語モデルは、その有効性が広く検証されています。しかし、このアーキテクチャには固有の欠陥があります。
1. アテンションメカニズムはシーケンス長に対して二次的な計算複雑性を持ち、次の単語を生成するたびに過去のシーケンスデータを見直してアテンション計算を行う必要があるため、Transformerアーキテクチャモデルは長シーケンスシナリオで非効率です。
2. KV-Cacheメカニズムは、後続の計算のために過去のシーケンスデータを保存する必要があり、シーケンス長の増加に伴ってGPUメモリの圧力が上昇します。
従来のTransformerアーキテクチャモデルの効率ボトルネックはますます顕著になっています。性能を犠牲にすることなく、いかに効率的な推論を実現するかが、学術界と産業界の共通の焦点となっています。
このような背景から、線形シーケンスモデリング手法に基づくモデルアーキテクチャが注目されています。線形リカレントモデルは、アーキテクチャ上明確な利点を持っています。
1. 線形アテンションメカニズムはシーケンス長に対して線形計算複雑性を持ち、次の単語を生成するたびに固定サイズのメモリ/状態にアクセスするだけで済むため、計算効率が高いです。
2. KV-Cacheが不要で、推論生成段階でのGPUメモリ占有は一定であり、生成シーケンスがどれほど長くてもメモリ占有は常に一定に保たれます。
その高効率性により、Transformerアーキテクチャの固有の欠陥を完全に解決できるため、線形リカレントアーキテクチャモデルはLLMの基本アーキテクチャとして優位性を示しています。
しかし、新しいモデルアーキテクチャの有効性を検証することは容易ではありません。これは、非常に大規模なパラメータを持つモデルの学習には、何千億、何兆もの高品質なデータ量が必要となることが多く、計算リソースの要求も極めて高いため、大規模なGPUクラスタでランダム初期化された大規模モデルをゼロから事前学習する必要があるからです。
したがって、このような線形リカレントモデルをゼロから学習するコストは高く、通常、既存のTransformer LLMの性能に匹敵することは困難であり、ほとんどの研究者が躊躇し、性能が期待できないかもしれない線形LLMを訓練するためにそのような高コストを実際に投入することは難しいのが現状です。
既存の事前学習済みTransformer大規模モデル(Llama、Mistralなど)がある今、既存のモデルアーキテクチャを線形リカレントモデルアーキテクチャに調整し、その上でさらに学習を進める方がコストの低い解決策かもしれません。これを「モデルアーキテクチャの線形化」と呼んでいます。
しかし、現在の線形モデルはTransformerアーキテクチャのSoftmax Attentionの効果を模倣するために、既存の線形アテンションにFeature Mappingやゲーティングメカニズムなど様々なモジュールを追加する必要があり、これにより既存の線形モデルの性能をある程度向上させることができます。
しかし、既存の線形化手法では、Transformerをゲート付きリカレント構造を持つ線形モデルにどのようにすればより良く線形化できるかについてはまだ十分に探求されていません。また、線形化シナリオでは、これらの追加モジュールは初期化して学習する必要があるため、アーキテクチャの複雑性と差異が増し、線形化コストがさらに増加します。
このような背景から、Ligerが誕生しました。これは非常に効率的で簡潔、かつ汎用的な線形化技術であり、ごく少量のファインチューニングコストで事前学習済みTransformer LLMをゲート付きリカレント構造に線形化でき、元のモデル性能の93%以上を回復させると同時に、高効率な線形計算複雑性を持つシーケンスモデリングを実現します。
手法の説明
Ligerの核となる目的は、簡潔かつ低コストな学習を通じてモデル構造を変換し、事前学習済みLLMの重みをゲート付きリカレントアーキテクチャに直接移行させ、ゼロからの事前学習に伴う高コストを回避することです。
複雑さを簡素化:モデルパラメータの冗長性を巧みに利用
ゲーティングメカニズムに基づく線形リカレントモデルは、個別にゲーティングモジュールを設計する必要があり、これにより追加の学習可能なパラメータが導入され、モデルの複雑さが増します。Ligerは、LLMに固有のパラメータ冗長性という特性を巧みに利用し、キー行列(Key Matrix)を変換してゲーティングメカニズムを構築します。
具体的には、プーリング(Pooling)による無パラメータ操作を通じて、キー投影行列から直接ゲーティング情報を抽出し、新たな学習可能なパラメータを増やす必要がありません。線形リカレントモデルはSoftmax操作を削除しているため、QKの積が正規化されずに数値が膨張し、元の出力分布に適合できない可能性があります。そのため、線形リカレントモデルでは通常、Softmax Attentionに適合させるために、学習可能なFeature Mapping関数を導入する必要があります。
具体的な実装では、Feature MappingをQとKにそれぞれ作用するSoftmax関数に簡素化し、QK積の数値正規化の安定性を提供し、元のLLMアテンションメカニズムとの互換性を確保します。同時に、学習可能なパラメータを一切導入せず、LLMの重みを完全に再利用することで、モデルアーキテクチャの複雑さと差異を低減し、多段階の学習を不要とすることで、線形化コストをさらに削減し、モデル性能を向上させます。
Liger手法は、様々なゲーティングメカニズムを持つ線形リカレントモデルアーキテクチャと互換性があり、非常に柔軟で高効率です。
軽量ファインチューニング:LoRAが線形構造への適応を支援
モデル構造変換後、Ligerは低ランク適応(LoRA)技術を用いてモデルをファインチューニングし、線形リカレントモデルアーキテクチャに適応させます。
Ligerの線形化は、アテンション層のQKVの演算順序を変更するだけで、右乗核トリックによって線形高効率計算を実現します。そのため、モデル全体を全パラメータでファインチューニングする必要はなく、アテンション層のQKV投影行列に対してLoRAを用いた低ランク分解学習を行うだけで済みます。学習目標は自己回帰型の次トークン予測(Next Token Prediction)を採用し、損失関数は交差エントロピー損失(Cross-Entropy Loss)です。
LoRAの軽量ファインチューニングにより、Ligerの線形化プロセスにおいてLLMの事前学習済み知識を十分に保持し、線形化コストを削減し、大部分の性能を迅速に回復させることができます。
ハイブリッドメカニズム:Liger Attention
線形化の性能をさらに向上させるため、本論文ではLiger Attentionハイブリッドアテンションメカニズムを提案しています。これは、スライディングウィンドウアテンション(Sliding Window Attention、SWA)とゲート付きリカレントモデリング(Gated Recurrent Modeling、GRM)を組み合わせることで、層内線形シーケンスモデリング手法とアテンションメカニズムのハイブリッドを実現し、同時に線形計算複雑性の高効率性を維持します。
Ligerは層間ハイブリッドアーキテクチャの効率的な線形化にも使用できます。7層のゲート付きリカレントモジュールの後に1層の標準アテンションモジュールを挿入することで、長距離依存性を捕捉しつつ、局所的なアテンションによって重要な情報の処理を強化し、モデルの適応性をさらに向上させています。
実験分析
著者らは、Ligerと既存の様々なモデルアーキテクチャ線形化手法を実験で比較しました。その結果、Ligerは他の手法よりも訓練コストが低いにもかかわらず、わずか20M訓練トークンのコストで事前学習済みTransformer大規模モデルの93%以上の性能を回復できることが示されました。様々な言語モデリングタスクにおいて、既存のSOTA線形化手法に匹敵するか、それを超える性能を示し、Llama、MistralなどのTransformerアーキテクチャLLMの性能に非常に近い結果を出しています。
線形モデルのアーキテクチャ上の利点により、Ligerの推論時間はシーケンス長に線形に比例して増加します。16Kのシーケンス長での推論はFlash Attentionよりも2倍高速であり、32K長シーケンスを処理する際、LigerのGPUメモリ占有は16.37GBで一定を保ちます。一方、Flash Attentionに基づく元のLlama-3はメモリ不足(OOM)のため推論を完了できませんでした。
Ligerはモデル拡張性の優位性を示し、1Bから8Bのモデルパラメータ規模において、安定した性能回復とモデル拡張能力を実証しました。
同時に、Liger技術は非常に柔軟で汎用性が高く、様々なゲーティングメカニズムを持つ線形リカレントモデルアーキテクチャの線形化に非常に有効であり、これは新しい線形モデルアーキテクチャの有効性を検証するための近道を提供します。
具体的な技術詳細とさらなる結果分析については、元の論文を参照してください。
要するに、Ligerは非常に効率的で簡潔、かつ汎用的な線形化技術であり、ごく少量のファインチューニングコストで事前学習済みTransformerベースLLMをゲート付きリカレント構造に線形化できます。
シーケンスモデリングタスクにおいて、元のTransformerベースの大規模言語モデルに匹敵し、さらにはそれを上回るだけでなく、線形モデルアーキテクチャの効率性を享受でき、線形時間推論と一定のメモリ占有を持つ大規模LLMをより効率的にデプロイするための有望な道筋を提供します。
その他の記事
#投稿チャンネル#
あなたの文章をより多くの人に見てもらいましょう
質の高いコンテンツを読者に短時間で届け、読者が質の高いコンテンツを探す手間を省くにはどうすればよいでしょうか?答えは、「あなたが知らない人」です。
あなたが知らない人の中には、あなたが知りたいことを知っている人が常にいます。PaperWeeklyは、異なる背景や専門分野を持つ研究者や学術的なインスピレーションが互いにぶつかり合い、さらなる可能性を切り開く架け橋となるかもしれません。
📝 投稿の基本要件:
• 記事は個人のオリジナル作品であり、公の場で発表されていないこと。他のプラットフォームで発表済みまたは発表予定の場合は、明確に記載すること。
• 投稿はmarkdown形式で記述することをお勧めします。記事中の画像は添付ファイルとして送付し、画像は鮮明で著作権問題がないことが求められます。
• PaperWeeklyは原著者の署名権を尊重し、採用されたオリジナル初の投稿ごとに、記事の閲覧数と品質に応じて段階的に計算される、業界内で競争力のある原稿料を提供します。
📬 投稿チャンネル:
• 投稿メールアドレス:hr@paperweekly.site
• 投稿の際は、原稿が採用された際に速やかに連絡できるよう、即時連絡先(WeChat)を明記してください。
• 編集者のWeChat(pwbot02)を直接追加して、迅速に投稿することも可能です。備考:氏名-投稿。
△PaperWeekly編集者を追加するには長押し
🔍
今、知乎でも私たちを見つけることができます
知乎のトップページで「PaperWeekly」と検索してください
「フォロー」をクリックして、私たちのコラムを購読しましょう!
·