筆者解説!Qwenが発表した新しいスケーリング法則「Parallel Scaling」をアイデア視点から語る

图片

筆者として、この研究をアイデアの源泉という視点から紹介したいと思います。知乎に長年潜っていましたが、最初の回答をこの問題に捧げます。至らない点があれば、どうぞご批判ご指摘ください(お辞儀)。劉忠鑫先生とBinyuan Hui先生のご指導、そして共同研究者の皆様のご協力、特に通義千問のリソース支援に深く感謝いたします。

皆様ご存知の通り、データ量を拡張すること以外に、現在、モデルの計算量を増やして能力を強化するための主要なスケーリング路線が2つあります:

そこで問題です:メモリやレイテンシを著しく増加させることなく、あらゆるシナリオに適用できる新しいスケーリング路線はないのでしょうか?

私たちの核心的なアイデアは、パラメータ数を変えずに、学習と推論の両方の並列計算量を同時に増やすことです。

動機の由来

もともと、ルームメイトが寮でdiffusionモデルを学習していて、彼がdiffusion modelで必ず使われるtrickであるClassifier-Free Guidance(CFG)に困惑していたのがきっかけです。CFGは推論段階で入力xを受け取ると、まず通常のforward passを行ってf(x)を得ます。次に、xを意図的に劣化させ(例えば条件を取り除く)てx'にし、再度forward passを行ってf(x')を得ます。最終的な出力g(x)はf(x)とf(x')の重み付き結合であり、その効果はf(x)よりも優れており、入力条件をよりよく満たします。

この現象は、実は少し直感に反します。f(x)は学習段階と整合していますが、g(x)は明らかに学習段階の目標との間にギャップがあります。常識的には、学習目標と推論目標の形式が同じである場合にのみ、推論は最大の効果を発揮します。さらに、f(x)とg(x)のパラメータ数は同じであり、入力の有効情報量も同じなのに、なぜf(x)はg(x)の能力を学習できないのでしょうか?これは背後にもっと深い理由が存在することを示唆しています。

考え中です

私たちは大胆な推測をしました:CFGが有効な理由は、本質的には並列計算量を2倍に増やしたことであり、それがモデル自体のcapacityを拡大させたということです。

これは私たちに、さらにスケーリングを進めることができるという示唆を与えました。

この方法は非常にシンプルで、あらゆるモデルアーキテクチャ、タスク、データに適用できます。私たちはまず大規模言語モデルでこのアイデアを探索しました。下図の通りです。

入力の変換にはランダムに初期化された異なるprefix(すなわちprefix tuning)を使用し、出力はMLP層を使用して動的に集約された重みになります。実際には、最終的に我々が発見したのは、具体的な戦略の影響は小さく、本当に重要なのはPの値、すなわち並列計算の数であるということでした。いくつかのスケーリング曲線の比較

Parallel Scaling Law

私たちはまず一連の理論分析を行い、パラメータ数NのモデルをP個のストリームで並列化することは、パラメータ数を元の 倍に増やすことと同等であるという結論を得ました(論文の分析を参照)。Diversityは異なるストリーム間の残差相関係数に関連しており、これ以上の分析は困難です。しかし、これは少なくとも、並列計算量とパラメータのスケーリングの間に何らかの関係が存在することを示しています。

したがって、私たちは次に大量の実験を行い、最終的に次の結果を得ました:P個のストリームでの並列化は、パラメータをO(logP)倍に拡大することと同等ですが、パラメータを拡大する場合に比べて非常に顕著な推論効率の利点があります

図一:スケーリング法則;図二:バッチサイズ{1, 2, 4, 8}を平均した結果。フィッティングの詳細。精度は非常に高く:R^2=0.998で、スケーリング法則の魅力を感じました。lossの等高線図。パラメータ量が大きいほど収益が高くなります。なぜならPの増加はNに直接乗算されるからです。reasoningタスクの収益はより大きく(lossの収益を超えて)、general taskよりも大きいです。これは示しています:計算量を増やすことは推論能力を著しく向上させることができます。バッチごとに効率を計算。バッチサイズが小さいほどfree lunchに近いです。これは、ParScaleがエッジデバイスに非常に適していることを示唆しています。これらのシナリオではメモリが少なく、同時にユーザーのqueryも頻繁ではないため、バッチサイズが小さいからです。

また、Scaling Lawの力をより直感的に感じていただくために、HuggingFaceのスペースも提供しています。ぜひお試しください:

2段階学習

これまでの実験は主にpre-trainに焦点を当てていましたが、batchsizeがP倍に拡大するため、学習コストが大きくなります。そこで、後学習戦略を試しました。まず最初の段階で1T token(一定学習率)を学習し、次に第2段階でParScale(アニーリング学習率)を使用して20B tokenを後学習しました。この戦略も非常に有効であることがわかりました。

2段階学習のloss。0.0002 T token経過後、P=2,4,8はP=1を上回ることができます。性能は非常に強く、推論集約的なタスク(数学、コード)で著しい改善が見られます。意外なことに、MMLUの改善も著しいです。

その後、ParScaleをQwen-2.5モデル(すでに12 T token学習済み)に適用しました。これには、全パラメータ継続学習(CPT)とPEFT学習(主要ネットワークを凍結し、導入したprefixパラメータのみをファインチューニング)が含まれます。

図(a,b):全パラメータCPT;図(c):PEFT

特筆すべきは、PEFT学習が動的並列拡張の展望を示したことです。同じモデル重みを使用して、異なる状況で異なるPを使用することで、能力と推論コストを迅速かつ動的に調整できます。これは現在の主流の手法では難しいことです。

まとめ

ParScaleは、LLM Scaling Lawを探求する私たちの新しい試みであり、研究は現在も進行中です。計算量の拡張が知能の創発をもたらすと信じています。今後、より多くのモデルアーキテクチャ(MoEなど)やより大きなデータでさらに試行し、並列計算の拡大がもたらす利益をよりよく理解する計画です。今後のさらなる方向性については、論文で詳しく議論されています。皆様のご批判ご指摘を歓迎いたします!

メインタグ:言語モデルのスケーリング

サブタグ:並列計算機械学習Qwen大規模言語モデル推論大規模言語モデル学習


前の記事:マルチモーダル大規模モデルが軒並み失敗、GPT-4oの安全合格率はわずか50%:SIUOがクロスモーダルな安全盲点を明らかに

次の記事:炸裂!Google I/Oカンファレンス王者帰還:Gemini「世界モデル」初登場、検索は「脳移植」、一言でオリジナル映画を制作

短いURLをシェア