マイクロソフトらが新パラダイム「モデルチェーン」を提案、Transformerと同等の性能で拡張性と柔軟性が向上

マシンインテリジェンスレポート

編集:ChenChen

大規模言語モデル(LLM)の登場により、Transformerアーキテクチャの拡張は、既存のAI状況を根本的に変革し、数多くの異なるタスクで最高のパフォーマンスを達成するための有望な道筋と見なされてきました。したがって、産業界と学術界の両方で、Transformerモデルをいかに拡張するかを探求することがますますトレンドとなっています。

このような背景のもと、LLMのパラメータ規模は数十億から数兆へと指数関数的に増加しています。その結果、この爆発的なパラメータ増加は、トレーニングに非常に高価な負担をもたらし、異なる展開環境に対して異なる推論用途を提供することができません。

この増大する拡張律を考慮すると、LLMを開発し、様々なシナリオでユーザーの指示を処理するために効果的に利用する方法は、コミュニティ全体が直面する開かれた重要な課題となっています。

現在、LLMアーキテクチャの拡張には以下の問題があります:

  • 人間の知能が新しい知識を段階的に獲得できるのと異なり、既存の拡張戦略は既存の知識規模を維持できず、常にゼロからトレーニングする必要があり、効率が低いです。

  • 既存のLLMアーキテクチャ(密なモデルやMoEなど)は常に固定規模のパラメータを活性化し、問題解決能力に動的に適応するメカニズムを欠いています。

本稿では、マイクロソフト、復旦大学、浙江大学、上海科技大学の研究者らが、CoR(Chain-of-Representation、表現の連鎖)という新しい概念を提案しました。これは、表現パラダイムの範疇をより広範な範囲に一般化するものです。

画像

  • 論文タイトル:Chain-of-Model Learning for Language Model

  • 論文URL:https://arxiv.org/pdf/2505.11820

具体的には、本稿では、任意の表現は常に隠れた次元における複数のサブ表現の組み合わせとして見なすことができることを観察しました。したがって、本稿ではこの組み合わせを表現の連鎖として定義し、各サブ表現が1つの連鎖に対応します。この定義に基づき、異なる数の先行連鎖(preceding chains)を使用することで、対応する特徴が異なる知識(これをスケールと呼びます)を符号化するために使用できることを、図1に示します。

画像

したがって、CoR特徴間で接続を確立し、スケール間の特徴変換を確実にすることは非常に重要です。

この目標を達成するために、本稿ではCoR特徴をモデル化するための「モデルチェーン(Chain-of-Model、CoM)」という新しい学習パラダイムを提案します。

その核心思想は、異なるスケール間に因果関係を導入し、各スケールが先行するスケールの情報のみを使用できるようにすることです。このために、本稿ではCoR特徴に基づいて現在のネットワーク層を再構築するための「連鎖層(Chain-of-Layer、CoL)」を提案しました。

CoMフレームワークに基づき、本稿ではCoLの思想をTransformerの各層に適用し、言語モデルアーキテクチャを再構築し、「言語モデルチェーン(CoLM)」と命名しました。

さらに、CoLの原則に基づき、本稿ではアテンションモジュールにキーバリュー共有メカニズムを導入しました。このメカニズムは、すべてのキーと値が最初のチェーンで計算されることを要求し、これを「CoLM-Air」と命名しました。このメカニズムに基づき、CoLM-Airはより高い拡張性と柔軟性を提供します。

複数のベンチマークテストの実験結果は、CoLMシリーズモデルが同等の性能を達成しつつ、より優れた拡張性と柔軟性を示すことを示しています。

手法紹介

まず、表現の連鎖の定義です:

画像

定義1によると、各連鎖はCoR内の各サブ表現に対応し、最初のいくつかの連鎖を活性化することで、CoRはスケールをエンコードするために使用できます。したがって、CoRは単一の表現でn個の異なるスケールをエンコードすることを可能にします。n=1の場合、CoRは元の表現と同じです。図1はCoRの概念を示しています。

上記の定義に基づくと、現在直面している課題は、CoR入力とCoR出力間の接続を確立し、多尺度特徴変換を実現しつつ、出力特徴が定義1のCoR基準に適合するように層を設計する方法です。

これには、各スケールが先行するすべてのスケールの情報のみを利用できるように保証し、同時にChain-of-Layerを導入してCoRの隠れ状態に因果関係を組み込む必要があります。以下の通りです:

画像

この中で、CoLは普遍性、因果性、組み合わせ可能性の3つの基本属性を持っています。

最も重要なのは、CoLが組み合わせ可能性をサポートしていることであり、これは複数のCoL層を積み重ねてもCoLの特性が保持されることを意味します。この特性により、CoLの範囲を層レベルからモデルレベルにまで広げることができます。

次に、本稿では3番目の定義を示します

画像

定義3によると、あるモデルがCoMの基準を満たす場合、それは普遍性や因果関係といったCoLのすべての属性も継承します。言い換えれば、任意のモデルはCoMの一種(n = 1)と見なすことができます。CoMは異なる規模の複数のサブモデルを1つのモデルに統合でき、既存のモデルを基盤として拡張することを可能にします。この能力は、基盤モデルにより優れた拡張性と柔軟性を直接与えます。

次に、記事ではCoMを言語モデルに適用する方法が詳細に記述されています。これには、線形層、Transformerの各モジュール(埋め込み、自己注意、フィードフォワード、正規化など)、および目的関数が含まれ、これらはCoLM(Chain-of-Language-Model)と呼ばれます。さらに、本稿ではCoLMフレームワークに基づくキーバリュー共有メカニズムを導入し、これをCoLM-Airと呼び、より優れた柔軟性を提供します。

図2は線形層とChain-of-Linear層の比較を示しています。

画像

図3はアテンションとアテンションチェーンの違いを説明しています:

画像

この内容に興味のある読者は、詳細について元の論文を参照してください。

実験結果

表1の結果は、CoLMがベースラインと同等の結果を達成し、同時に高速な事前充填速度と高い柔軟性を提供することを示しています。

画像

CoMの普遍性と因果性を考慮すると、チェーン数が1の場合、どのモデルもCoMの特殊なケースと見なすことができ、多チェーン構造に拡張可能です。したがって、本稿ではチェーン拡張(Chain Expansion)手法を提案します。これは、完全にトレーニングされたモデルを初期チェーンとして、新しいチェーンを追加することで拡張を行うものです。

この見解を検証するために、本稿では2つのLLaMAバリアント(TinyLLaMA-v1.1とLLaMA-3.21B)を拡張の初期チェーンとして選択しました。

表2の結果は、TinyLLaMA-v1.1とLLaMA-3.2-1Bと比較して、それぞれ0.92と0.14の改善を達成したことを示しています。LLaMa-3.2-1Bはより強力なベースラインであるため、顕著な改善を得るにはより多くの計算が必要ですが、本手法は限られた計算量でも改善が可能です。全体として、これらの結果は、リソースが制限された状況でも、本手法がベースラインの改善に依然として有効であることを示しています。

画像

柔軟な推論は、異なる展開シナリオのニーズを満たすために動的な推論能力を提供することを目的としています。表3の結果は、CoLMが柔軟な推論を実現する上での潜在能力をさらに浮き彫りにしています。

画像

図5からわかるように、パラメータ量が近い場合、CoLM-AirはLLaMaと比較してより速い事前充填速度を実現しています。シーケンス長が増加するにつれて、CoLM-Airは事前充填段階でより顕著な速度向上を達成できます。これは、CoLM-Airが事前充填プロセスを効果的に加速できることを十分に証明しています。

画像

CoMアーキテクチャの因果特性のおかげで、CoLMは複数のチェーンモジュールで構成されており、各チェーンは先行するチェーンの能力を継承できます。この特性に基づき、本稿ではチェーンチューニング(Chain Tuning)手法を提案します。これは、最初のいくつかのチェーンを凍結しつつ、後続のチェーンのみを微調整するというものです。この手法は、初期チェーンのパラメータを保持することで、チューニングコストを約42%削減できるだけでなく、壊滅的忘却の問題を効果的に軽減できます。

さらに、CoLM-Air構成を採用し、最初のチェーンを凍結した場合、微調整されたモデルによって生成されたキーバリューペアは、追加の計算なしで元のモデルにシームレスに移行できます。実験結果は、チェーンチューニングがモデルパラメータの約42%のみを微調整するだけで性能を向上させることができ、LoRAなどのパラメータ効率の良い微調整方法と互換性があることを示しています。

画像画像

© 終わり

転載は本公式アカウントに連絡して許可を得てください

投稿または報道依頼:liyazhou@jiqizhixin.com

メインタグ:AIモデル

サブタグ:大規模言語モデル柔軟性拡張性Transformer


前の記事:心の理論を思考に関する思考のための思考言語と見なす:ベイジアンネットワーク/因果文法モデルとプログラミングパターンモデルの利点を統合したDSL

次の記事:AIが「自信」のみで推論を学習、浙江大学出身者がDeepSeekの長思考連鎖の出現を再現、強化学習は外部報酬信号を必要としない

短いURLをシェア