2025年11月13日
研究出版物よりシンプルで追跡可能なステップで考えるようにモデルを訓練しました—それにより、それらがどのように動作するかをより良く理解できます。
論文を読むニューラルネットワークは今日の最も有能なAIシステムを駆動していますが、依然として理解が難しいです。私たちはこれらのモデルを明示的なステップバイステップの指示で書くわけではありません。代わりに、数億の内部接続、つまり「重み」を調整することで学習し、タスクを習得します。私たちは訓練のルールを設計しますが、出現する特定の振る舞いは設計せず、その結果、人間が容易に解読できない密な接続のウェブが生じます。
解釈可能性についての私たちの見解
AIシステムがより有能になり、科学、教育、医療などの決定に現実世界の影響を与えるにつれ、それらがどのように動作するかを理解することが不可欠です。解釈可能性とは、モデルが特定の出力を生成した理由を理解するのを助ける方法を指します。これを達成する方法は多岐にわたります。
例えば、推論モデルは最終回答に至る過程でその作業を説明するよう促されます。思考連鎖解釈可能性は、これらの説明を利用してモデルの振る舞いを監視します。これは即座に有用です:現在の推論モデルの思考連鎖は、欺瞞などの懸念される振る舞いに関して情報提供的に見えます。しかし、この特性に完全に依存するのは脆い戦略であり、時間とともに崩れる可能性があります。
一方、本作業の焦点である機構解釈可能性は、モデルの計算を完全に逆エンジニアリングすることを目指します。これまで即座に有用ではありませんでしたが、原則的にはモデルの振る舞いのより完全な説明を提供できます。最も細かいレベルでモデル振る舞いを説明することで、機構解釈可能性は少ない仮定をし、より高い信頼性を与えます。しかし、低レベル詳細から複雑な振る舞いの説明への道のりははるかに長く困難です。
解釈可能性は、監督の改善や不安全または戦略的に誤った振る舞いの早期警告などのいくつかの重要な目標を支えます。また、スケーラブルな監督、敵対的訓練、レッドチームなどの他の安全努力を補完します。
本作業では、しばしばモデルを解釈しやすくする方法で訓練できることを示します。私たちはこの作業を、密なネットワークの事後分析への有望な補完と見なします。
これは非常に野心的な賭けです。私たちの作業から最強力なモデルの複雑な振る舞いを完全に理解するまでには長い道のりがあります。それでも、簡単な振る舞いに対しては、私たちの方法で訓練された疎なモデルに、小さく解絡された回路が含まれており、それらは理解可能で振る舞いを実行するのに十分です。これは、より大きなシステムを訓練する実行可能な道筋があることを示唆します。
新しいアプローチ:疎なモデルの学習
以前の機構解釈可能性の作業は、密で絡まったネットワークから始め、それらを解きほぐそうとしました。これらのネットワークでは、各個別ニューロンが数千の他のニューロンに接続されています。ほとんどのニューロンが多くの異なる機能を果たすように見え、理解が不可能に見えます。
しかし、多くのニューロンを備えつつ、各ニューロンがわずか数十の接続しか持たない、絡みのないニューラルネットワークを訓練したらどうでしょうか?すると結果のネットワークはシンプルになり、理解しやすくなるかもしれません。これが本作業の中心的な研究賭けです。
この原則を念頭に、私たちはGPT-2のような既存の言語モデルと非常に類似したアーキテクチャの言語モデルを訓練しました。1つの小さな変更:モデルの大部分の重みをゼロに強制します。これにより、ニューロン間の可能な接続のごく一部しか使用できません。これはシンプルな変更ですが、モデルの内部計算を大幅に解絡すると主張します。
通常の密なニューラルネットワークでは、各ニューロンが次の層のすべてのニューロンに接続されます。私たちの疎なモデルでは、各ニューロンが次の層のわずかなニューロンにしか接続されません。これにより、ニューロン自体とネットワーク全体が理解しやすくなると期待します。
解釈可能性の評価
私たちの疎なモデルの計算がどれだけ解絡されているかを測定したいと考えました。さまざまな簡単なモデル振る舞いを検討し、各振る舞いを担うモデルの部分—回路と呼ぶ—を分離できるかを確認しました。
簡単なアルゴリズム課題のスイートを手動でキュレーションしました。各々について、タスクを実行できる最小の回路までモデルをプルーニングし、その回路がどれだけシンプルかを調べました。(詳細は論文を参照。)より大きくより疎なモデルを訓練することで、ますます有能でシンプルな回路を持つモデルを生成できることがわかりました。
モデル横断の解釈可能性対能力をプロット(左下が良い)。固定疎モデルサイズで疎密を増す—重みをゼロに—は能力を減らすが解釈可能性を増す。モデルサイズをスケールアップするとフロンティアが外側にシフトし、有能で解釈可能な大型モデルを構築できることを示唆。
具体的に、Pythonコードで訓練されたモデルが正しい引用符タイプで文字列を完成させるタスクを考えてみましょう。Pythonでは‘hello’は単一引用符で終わり、“hello”は二重引用符で終わる。モデルは文字列を開いた引用符タイプを記憶し、末尾で再現することで解決できます。
最も解釈可能な私たちのモデルは、まさにそのアルゴリズムを実装する解絡回路を含むようです。
文字列を単一または二重引用符で終えるかを予測する疎なトランスフォーマの例回路。この回路は5つの残差チャネル(垂直灰線)、層0の2 MLPニューロン、層10の1注意クエリ-キー・チャネルと1値チャネルを使用。モデルは(1)単一引用符を1残差チャネルに、二重を他にエンコード;(2)MLP層で任意引用符検知チャネルと単二重分類チャネルに変換;(3)注意演算で中間トークン無視、前引用符見つけタイプを最終トークンにコピー;(4)一致する終端引用符を予測。
私たちの定義では、上記の正確な接続がタスク実行に十分—モデル残りを除去してもこの小回路は動作。必要でもあり—これら少数のエッジ削除でモデル失敗。
より複雑な振る舞いも調べました。これらの回路(例下の変数バインディング)は完全に説明しにくい。それでも、モデル振る舞いを予測する相対的にシンプルな部分説明を達成できます。
詳細少なめの別の例回路。変数currentの型決定のため、定義時1注意演算で変数名をset()トークンにコピー、後続演算でset()トークンから型を変数後続使用にコピー、正しい次トークンを推論可能に。
今後の道筋
この作業はモデル計算を理解しやすくするより大きな目標への初期ステップです。しかし、まだ長い道のりがあります。私たちの疎モデルは最先端モデルよりずっと小さく、計算の大部分が未解釈です。
次に、技術を大型モデルにスケールし、モデル振る舞いのより多くを説明することを望みます。有能な疎モデルでの複雑推論の底層回路モチーフを列挙することで、最先端モデル調査をより良く標的にする理解を開発できます。
疎モデル訓練の非効率を克服するため、2つの道を見出します。1つは既存密モデルから疎回路を抽出、ゼロから疎訓練ではなく。密モデルは疎より本質的に展開効率的。他は解釈可能性向けモデル訓練の効率的技術開発、生産投入しやすく。
ここでの発見はこのアプローチがより有能システムに拡張することを保証しないが、初期結果は有望。私たちの目標は信頼解釈可能なモデル部分を徐々に拡大、将来システムを分析・デバッグ・評価しやすくするツール構築。