ByteDance Seedの新作DeltaFormer: 次世代モデルアーキテクチャの試み

图片

MLNLPコミュニティは、国内外で知られる機械学習と自然言語処理のコミュニティであり、国内外のNLP修士・博士課程の学生、大学教員、企業研究者を対象としています。

コミュニティのビジョンは、国内外の自然言語処理、機械学習の学術界、産業界、そして幅広い愛好家の間の交流と進歩、特に初心者の学生の進歩を促進することです。

出典 | Zhihu

著者|シャオミン先生

Seedでの最近の仕事について簡単に紹介し、皆様の議論を喚起できれば幸いです。

https://arxiv.org/pdf/2505.19488

DeltaformerとTransformerのコアコンポーネントの違いの概要。簡単に言えば、標準的なattentionにおけるq、k、vの中のvコンポーネントが修正され、代わりにq、k、uがattentionに使用されます。そして、uはw、k、uを使用してattentionを行い、vと結合して結果を得ます。

DeltaformerとTransformerのコアコンポーネントの違いの概要。簡単に言えば、標準的なattentionにおけるq、k、vの中のvコンポーネントが修正され、代わりにq、k、uがattentionに使用されます。そして、uはw、k、uを使用してattentionを行い、vと結合して結果を得ます。

動機

表現性と非並列性の間には本質的な矛盾がある

ハイレベルな視点から見ると、表現性と並列性の間には相容れない矛盾が存在します。いくつかの問題の正しい結果の出力は、客観的に一定の深さを必要とします。分かりやすく言えば、問題を解く際、一部のステップは並列で実行できますが、一部の重要なステップは一つずつ進める必要があります。これらの重要なステップの最大長がある下限を下回ると、正しい答えを得ることはできません。このため、前世紀に計算複雑度を研究した科学者たちは、並列複雑度にも注目し始めました。彼らはPクラスの問題において、単一ノードが許可する操作の種類、単一ノードが許可するファンイン、そして計算グラフ全体のクリティカルパスの長さに応じて、P問題をいくつかのカテゴリに分類しました。例えば   。

異なる複雑度クラスの概略図。この図の真の包含関係は厳密ではないことに注意してください。現在、AC^0 != TC^0が証明されていますが、他の階層間の真の包含関係はまだ厳密に証明されていません。しかし、一般的にはNC^1 != TC^0であると認識されています。その他、NC^1$ と $NC^2の間にはSL、NLなど多くの小さなクラスが存在します。そして、対数精度のTransformerモデルはTC^0に属すると証明されています。

異なる複雑度クラスの概略図。この図の真の包含関係は厳密ではないことに注意してください。現在、AC^0 != TC^0が証明されていますが、他の階層間の真の包含関係はまだ厳密に証明されていません。しかし、一般的にはNC^1 != TC^0であると認識されています。その他、NC^1$ と $NC^2の間にはSL、NLなど多くの小さなクラスが存在します。そして、対数精度のTransformerモデルはTC^0に属すると証明されています。

LSTMとTransformerの間には、もしかしたら非常に広大な活躍の場があるかもしれない

前世紀末に流行し始めたLSTMは、本質的に並列化不可能なPモデルです。しかし、この10年間でGPUが環境を再定義し、高並列性のTransformerモデルが現在の大規模モデル分野で最も人気のある骨格となりました。同時に、並列性と表現力に関する根本的な矛盾は、大規模モデルの欠陥も引き起こしています。例えば、数を数える能力の欠如や、複雑な問題を解決するためにChain-of-thoughtに依存する必要があるなどです。

では、依然として高度に並列化可能であり、Transformerよりわずかに並列度は劣るものの、より高い表現力を持つアーキテクチャはないのでしょうか?先人たちは、  と  の間にはまだ多くの複雑性クラスが存在すると教えてくれました。これは私たちに想像の余地を与えます。もしかしたら、GPU上で高並列に実現でき、かつTransformerよりも表現力のあるモデルが本当に存在するかもしれません。

複雑度モデルの復活

Transformerや線形Attentionが以前の状態を無視して無意識にキーやバリューを書き込んだり追加したりするのと異なり、Delta ruleは毎回書き込む際に以前の状態に基づいて変更を考慮します。このことは前世紀にSchmidhuber[1]、Sutton[2]、Hinton[3]などによってかなり研究されており、当時は高速重みプログラミングと呼ばれていましたが、核となる部分は同じです。2021年にはSchimidhuber[4]が再び言及しました。しかし、GPUの時代において、GPU上で高度に並列に実装できない方法は次世代モデルにはなり得ません。そうでなければ、LSTMモデルに戻り、ひたすら隠れ層のサイズを大きくすればよいだけです。2024年には、Songlin Yang[5]らがDelta ruleの並列可能性を発見し、DeltaNetをGPU上で並列化することに成功しました。これにより、Delta ruleは復活を遂げました。このモデルは 複雑度を達成できるため、状態追跡関連のタスクで良好なパフォーマンスを示します。

Transformer + Delta rule = Deltaformer

DeltaNetは限られた状態空間に制約されており、その基本的な長文情報検索能力は限定的ですが、Transformerの長文情報検索能力は非常に優れています。両者を有機的に融合し、Transformerアーキテクチャを完全に超えるモデルを追求することが、本研究の目的です。

方法

Deltaformer = Delta rule + カーネルトリック

カーネルトリックも古くからの手法で、SVMの時代からカーネルSVMは一角を占めていました。特徴を暗黙的に無限次元に拡張するこの方法は、記憶容量を増やす良い方法かもしれません。

カーネルの導入:  ここで  は有限次元から無限次元への写像であり、通常は明示的に書きません。それでは、Delta ruleを次のように書き直します。

Delta rule + カーネルトリックのバージョン

Delta rule + カーネルトリックのバージョン

最大の問題は、ここでの  とSが無限次元であるため、コンピュータ上では計算できないことです。

幸い、いくつかの導出を経て、無限に関わる  とSをすべて消去し、  のみを残すことができます。

書き込み方式は次のとおりです。

読み出し方式は次のとおりです。

もちろん、その中に他のことを加えることもできます。例えば、上と下で  を異なるものにしたり、学習可能なパラメータを加えたりすることなどです。

我々はsoftmaxを  として使用します。そうすると、TransformerのDelta ruleのアップグレード版が得られます。

次に、2つの質問に答える必要があります。

• 1) GPUで効率的に実装する方法

• 2)この表現が  タスクを実行できることを証明する方法

チャンクごとのアルゴリズム

  の計算が難しい部分であり、  の計算はFlash attentionを通常通り使用すれば良いです。

デコード段階で  を直接使用することはできますが、モデルの訓練時には、このような再帰的な計算は非線形RNNの方が良いでしょう。

しかし、よりコンパクトな形式で記述することもできます:  ここで

そうすると、  となります。これほど大きな行列の逆行列を直接計算すると、並列度は高いものの、I/Oが対応できません。

cは現在のチャンクの対応する変数を、pは以前の変数を表す添字であり、したがって次のようになります。

それゆえに:

この方法を用いることで、  をチャンクごとに計算することができます。もしシーケンス長が  、チャンクサイズが  、ヘッド次元が  であり、前方代入法で逆行列を求める場合、総FLOPsは 

n個の要素の交換を追跡できる

我々は、このモデルアーキテクチャの上限が  に到達できることを理論的に証明しました。我々はn個の要素の交換を追跡するタスクを研究しました。これは  です。我々は構成的な方法で証明を行いました。具体的な証明は元の論文を参照してください。結論として、  のヘッド次元で  個のオブジェクトの交換を追跡できることが示されました。

Deltaformerがn個の要素の交換を追跡できることを証明する定理。

Deltaformerがn個の要素の交換を追跡できることを証明する定理。

実験

Deltaformerはスワップを追跡できるが、Transformerは難しい

图片

例えば、Transformerが5つの要素の交換を追跡するのはかなり難しいことがわかります。しかし、カーネル関数の選択は  を行う上で非常に重要です。

Deltaformerは有向非巡回グラフの連結性判定が可能

图片

これも非常に理にかなっています。なぜなら、Deltaformer内部の逆行列演算  は、もしiノードとjノードが隣接ノードであるかを符号化していれば、  ノードと  ノードがkステップで到達可能であるかをも符号化します。したがって、iノードとjノードが連結しているかどうかの情報を符号化します。(別の視点から見れば、逆行列演算という  をはるかに超える操作がTransformerの表現力を拡張しているとも言えます。)

より多くのトイモデル実験と興味深い現象については、元の論文を参照してください。

結論

我々はDeltaformerというモデルを提案しました。これはTransformerモデルの記憶力とGPU上で効率的に訓練できる特性を持ち、同時にTransformerの  表現力制限も突破しました。今後のより表現力の高いモデル設計に繋がることを願っています。

参考文献

[1] Schmidhuber: https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=2f0becffd2f44b198d28074d01722e4c7905dae2

[2] Sutton: https://web.cs.umass.edu/publication/docs/1980/UM-CS-1980-018.pdf

[3] Hinton: https://www.cs.toronto.edu/~fritz/absps/fastweights.pdf

[4] Schimidhuber: https://proceedings.neurips.cc/paper_files/paper/2021/file/3f9e3767ef3b10a0de4c256d7ef9805d-Paper.pdf

[5] Songlin Yang: https://arxiv.org/pdf/2406.06484

技術交流グループへのご招待

图片

△アシスタントを追加するには長押ししてください

QRコードをスキャンしてアシスタントのWeChatを追加してください

備考:氏名-学校/会社-研究分野

(例:小張-ハルビン工業大学-対話システム)

で、自然言語処理/Pytorchなどの技術交流グループに参加申請できます

私たちについて

MLNLPコミュニティは、国内外の機械学習および自然言語処理の学者によって共同設立された民間の学術コミュニティです。現在、国内外で有名な機械学習および自然言語処理コミュニティに発展しており、機械学習、自然言語処理の学術界、産業界、および幅広い愛好家の間の進歩を促進することを目指しています。

コミュニティは、関連する実務家がさらなる学習、就職、研究などの面でオープンな交流プラットフォームを提供できます。皆様のフォローと参加を歓迎します。

图片

メインタグ:人工知能

サブタグ:ニューラルネットワーク機械学習計算複雑性Transformerモデル


前の記事:汚いほど安全? ハーバード大学チームの最新研究:10%の毒性訓練で大規模モデルは無敵に

次の記事:世界のプログラマーが騒然!ジェンスン・フアン氏がロンドンで豪語:「プログラミング言語の未来は『Human』だ」

短いURLをシェア