(本文阅读时间:7分钟)
編者按:データは人工知能発展の「動力燃料」ですが、現在、「枯渇」のリスクに直面しており、この「データの壁」が大モデルの性能突破を制約する重要なボトルネックとなっています。このような背景から、合成データ技術が生まれました。最近、マイクロソフトアジア研究所は、多様な合成データを生成し、自然データの不足を効果的に補うことができる拡張可能なSYNTHLLMフレームワークを発表しました。さらに、研究者たちは合成データのスケーリング則を発見し、検証することで、大モデルが合成データを使用して訓練・最適化を行うための科学的根拠を提供しました。
今日の人工知能がこれほど目覚ましい発展を遂げた重要な要因の一つは、大量のデータがモデル訓練に強力な「燃料」を提供していることであり、特に高品質なデータはモデル性能向上の核となります。しかし、インターネット上で訓練に利用できるデータが徐々に枯渇するにつれて、高品質な事前訓練データの入手がますます困難になり、まるで人工知能発展の道に「データの壁(data wall)」が立ちはだかっているかのようです。これにより、現在の大モデルの性能向上はボトルネックに直面し、訓練コストは増加し続け、性能向上の効果は徐々に弱まり、全体的な発展速度も鈍化しています。
データ不足の困難に直面し、合成データは効果的な解決策を提供します。アルゴリズムによって生成された人工データは、現実世界から生まれたものではありませんが、現実世界の法則を正確にシミュレートすることができます。しかし、これまでの研究で事前訓練データのスケーリング則(scaling law)は証明されていますが、合成データが同様の原則に従うかどうかは、長い間系統的な検証が不足していました。
このため、マイクロソフトアジア研究所は、合成データを大規模に生成できる拡張されたSYNTHLLMフレームワークを構築し、多数の実験を通じて合成データのスケーリング則を検証しました。これらの研究結果は、合成データを利用した大モデルの訓練と最適化に科学的根拠を提供します。
Scaling Laws of Synthetic Data for Language Model
論文リンク:
https://arxiv.org/pdf/2503.19551
合成データは修正されたスケーリング則に従う
大言語モデルの性能は、モデルサイズとデータセットサイズの両方に対してべき乗則の関係を示します。このスケーリング則は、モデル性能を推定するための予測フレームワークを提供し、広く研究・検証されています。これらの法則は、計算リソースの拡張に伴う性能の向上を理解するための貴重な洞察を提供し、大言語モデルを事前訓練する際に計算リソースの最適な割り当てについてより賢明な決定を下すのに役立ちます。
しかし、このスケーリング則は主に自然データを使用した事前訓練段階に適用されます。合成データが同様の法則に従うかどうかは、これまで未知数でした。SYNTHLLMフレームワークに基づいた最新の研究では、研究者たちは初めて合成データを使用して言語モデルをファインチューニングする際のスケーリング則の適用可能性を実証的に検証しました。
数学的推論分野での多数の実験を通じて、研究者たちは以下の主要な発見を得ました。
1. SYNTHLLMが生成した合成データは、様々な規模で信頼性の高い修正されたスケーリング則(rectified scaling law)に従います。これは、合成データが予測可能であることを意味し、研究者はスケーリング則を通じてモデル規模と訓練データ量を合理的に選択することで、モデル性能を最大限に向上させることができます。
2. 性能向上は約3000億トークンあたりで安定する傾向があります。つまり、合成データがこの規模に達すると、モデル性能向上への効果は徐々に弱まります。この発見は、研究者がデータ生成とモデル訓練の間の最適なバランスを見つけるのに役立ちます。
3. より大きなモデルは、より少ない訓練トークンで最適な性能に近づくことができます。例えば、80億パラメータのモデルは1兆トークンでピークに達するのに対し、30億パラメータのモデルは4兆トークンが必要です。この発見は、モデルサイズと訓練効率の関係、つまり大きなモデルはより少ない訓練データでより良い性能を達成できるのに対し、小さなモデルは性能向上により多くのデータを必要とすることを示しており、将来の大モデル開発と最適化のための指針を提供します。
図1:SYNTHLLMが生成した合成データは、様々なモデルサイズで常に修正されたスケーリング則に従います。(注:図中の曲線は精度ではなくエラー率を表します)
SYNTHLLM合成データセット:より拡張性と多様性に富む
従来の合成データセット構築方法は、ターゲットドメインの限られた人工アノテーション付きシードサンプルに大きく依存しており、その結果得られるデータセットの多様性と拡張性を根本的に制限していました。これに対し、事前訓練コーパスは膨大で非常に多様であり、スケーラブルな合成データ生成の未開発リソースです。これに基づき、研究者たちはSYNTHLLMフレームワークを開発しました。これは、事前訓練データを高品質な合成データセットに系統的に変換する、拡張可能なウェブスケールの合成データ生成方法です。
SYNTHLLMは以下の3つの段階で合成データの生成を完了します:
まず、SYNTHLLMはターゲットドメインの高品質なウェブ文書を自律的に識別・フィルタリングします。
次に、SYNTHLLMはこれらの高品質な参照文書を利用し、3つの補完的な方法で、オープンソースの大言語モデルの助けを借りて、大規模で多様な質問(またはプロンプト)を生成します。各方法は、質問の多様性を段階的に向上させるように慎重に設計されています。
最後に、SYNTHLLMは再びオープンソースの大言語モデルを使用して、これらの生成された質問に対応する回答(または応答)を生成し、完全な合成データサンプルを形成します。
特筆すべきは、第2段階において、これまでの方法では通常、直接的な質問抽出または文書の逆翻訳を用いて質問を生成していました。しかし、これらの方法は、質問生成が高品質な質問を含む参照文書の数に限定されるか、あるいは専門的な逆翻訳モデルの訓練が必要となるため、拡張性の面で固有の限界がありました。SYNTHLLMフレームワークは、グラフアルゴリズムを使用して複数の文書から高レベルの概念を自動的に抽出・ランダムに組み合わせることで、直接的な抽出を超え、同時に参照文書間に繋がりを構築します。
実験により、SYNTHLLMは知識概念を分解・再結合することで、より多様な質問を生成できることが示されています。図2から、第2段階の方法で生成された質問の類似性が低いことが明確に観察され、同一文書から生成された質問間の多様性が大きいことが示されています。
図2:同一文書内の質問類似性のヒストグラム
さらに、既存の拡張方法と比較して、SYNTHLLMの知識誘導アプローチは限られた参照文書をより効果的に利用し、図3に示すように、より拡張可能な高品質な合成質問生成を実現しました。これは、モデル性能をさらに向上させるためのより効果的な訓練経路を提供します。
図3:(a) MATHベンチマークにおける他の拡張方法の性能; (b) 様々なベンチマークにおける平均性能。(x軸はサンプル数、y軸は精度を表す)
合成データ:モデル訓練データの継続的な供給源
予見可能な未来において、データの壁は人工知能の発展に引き続き伴い、合成データはモデル訓練データの重要な補完となります。合成データにはいくつかの利点があります:まず、高い拡張性があり、需要に応じて大規模なデータセットを迅速に生成できます。次に、コストが低く、データアノテーションに大量の労力を費やす必要がありません。これらの特性により、合成データはデータ不足問題を解決するための理想的な選択肢となります。
異なる分野でも、合成データの応用価値は特に顕著です。例えば、医療分野では、合成症例はプライバシー問題を効果的に回避できます。自動運転分野では、仮想シーンを無限に生成でき、技術開発に豊富なテスト素材を提供します。AI教育分野では、アルゴリズムの組み合わせにより、数百万規模の数学問題を簡単に生成できます。
SYNTHLLMフレームワークは、合成データの利点をさらに増幅させます。数学的推論分野だけでなく、このフレームワークはコード生成、物理・化学、医療健康など、他の下流分野にも容易に拡張でき、異なる分野での応用可能性を探求できます。
将来、研究者たちはさらに効率的な戦略を開発し、SYNTHLLMフレームワークを継続的に最適化・改善し、事前訓練段階における合成データの有効性を探求することで、合成データ生成の効率と品質をさらに向上させ、人工知能の継続的な発展に絶え間ない動力を注入していきます。
人工知能技術の急速な発展に伴い、関連技術が人々に信頼されるようにすることは喫緊の課題です。マイクロソフトは、AI技術がもたらすリスクを予見し、軽減するために一連の積極的な措置を講じてきました。マイクロソフトは、人間中心の倫理原則に従ってAIの発展を推進することに尽力しており、2018年には早くも「公正、包括、信頼性・安全性、透明性、プライバシー・セキュリティ、説明責任」の6つの責任あるAI原則(Responsible AI Principles)を発表し、その後、責任あるAI基準(Responsible AI Standards)を発表して各原則を実装し、各チームが日常業務に各原則と基準を確実に実施するためのガバナンス体制を構築しました。マイクロソフトはまた、世界中の研究者や学術機関と継続的に協力し、責任あるAIの実践と技術を不断に推進しています。