史上最大規模のオープンソース科学推論後学習データセットが登場しました!
上海創智学院と上海交通大学(GAIR Lab)がMegaScienceを発表しました。このデータセットには約125万件の質問と回答のペアおよびその参照解答が含まれ、生物学、化学、コンピュータ科学、経済学、数学、医学、物理学など幅広い学術分野を網羅しており、汎用人工知能システムの科学推論能力の訓練と評価に堅固なデータ基盤を提供することを目指しています。
実験により、MegaScienceで訓練されたモデルは、科学推論タスクにおいて対応する公式Instructモデルを大幅に上回ることが証明されました。さらに、MegaScienceは優れたスケーラビリティを示しており、基盤モデルの規模が拡大するにつれて、MegaScienceによる性能向上がより顕著になります。
現在、同チームはMegaScienceおよび関連する全てのコンポーネントを完全にオープンソース化しました。これには、データ構築プロセスのソースコード、科学推論評価システム、データセット本体、およびこのデータセットで訓練されたモデルが含まれます。研究コミュニティに体系的で高品質なリソースサポートを提供し、科学分野における汎用人工知能の研究と応用をさらに推進することを目指しています。
MegaScienceの回答長は比較的短く、性能は最適であり、効率性と有効性を両立しています。
このデータセットはリリースからわずか1週間でダウンロード数が4.6k回を突破し、HuggingFace Datasets Trendingランキングで4位にランクインしました。学術界および産業界の研究者から幅広い注目と積極的なフィードバックを受けています。
なぜMegaScienceが必要なのか?
o1やDeepSeek-R1といった先進的な推論モデルは、数学やプログラミングタスクにおいて人間の専門家と同等かそれ以上のレベルの性能を示していますが、科学推論分野では大規模で高品質な訓練データサポートが長らく不足しているため、現在の主流モデルの科学推論タスクにおける性能は、数学やコード分野に比べて著しく遅れています。
既存の科学推論後学習データセットには、未解決の課題がいくつか存在します:
信頼性の低いベンチマーク評価:多くのオープンソース科学ベンチマークは選択肢形式を採用しており、これは実装が容易である一方で、科学推論の複雑さを過度に単純化しています。そのため、科学分野の後学習データセットもこの形式を踏襲することが多く、データ分布の一貫性を保っています。しかし、著者らの実験は、このようなデータで訓練されたモデルが選択肢評価では優れた性能を示すものの、計算タスクでは明らかに劣ることを示しており、ベンチマーク評価結果と真の推論能力との間に乖離があることを示唆しています。
不厳密な汚染除去処理:既存の汚染除去技術は、n-gramまたはベクトル類似性を用いて、潜在的なベンチマークデータの漏洩を特定し、除去することが一般的です。これらの方法は本質的に脆弱であり、表現や構造のわずかな変更によって容易に回避されるため、ベンチマーク評価の公正性を真に保証することは困難です。著者らは、既存の科学分野の後学習データセットの多くが評価ベンチマークと著しく重複していることを発見しました。
参照解答の品質の低さ:多くの科学データセットにおける参照解答は信頼性の低い情報源、例えばウェブスクレイピングや大規模言語モデルによる直接生成に由来しています。しかし、ウェブコンテンツがAI生成テキストでますます飽和し、LLM自体が幻覚を起こしやすいことから、これら二つの方法の信頼性は継続的に低下しており、解答の事実正確性や科学的厳密性を確保することが困難になっています。
表層的な知識蒸留:一般的な手法として、大規模推論モデルからデータを蒸留する方法があり、例えばDeepSeek-R1を用いてより長い思考連鎖(CoT)を直接生成します。この方法は直感的で実装も容易ですが、本質的には表層的なものです。生成されたCoTデータは「過剰思考」の問題を抱えることが多く、これは訓練(特に小規模モデルの訓練)および推論効率の面でも課題をもたらします。このような浅い操作は、知識転移の原則性、効率性、および汎化能力のさらなる発展を制限しています。
上記の課題に対応するため、MegaScienceチームは、以下の4つの主要コンポーネントを含む体系的な解決策を提案しました:
科学推論評価システムの構築:チームはまず、科学推論タスク向けの評価フレームワークを開発しました。これには、選択肢問題、計算問題、判断問題、短答問題といった広範なタスクタイプをカバーする15の代表的なベンチマークが含まれており、モデルの科学推論能力を包括的かつ信頼性高く評価することを可能にしています。
大規模モデルに基づくデータ汚染除去処理:データ汚染問題に対処するため、著者らは提案データセットおよび使用されたベースラインデータセットの両方に、厳格な大規模モデルベースの汚染除去プロセスを実施しました。実験結果は、この方法で処理された後、他の既存のオープンソースデータセットが同じベンチマーク下で性能が著しく低下したことを示しており、評価の信頼性を向上させる上でのこの汚染除去戦略の有効性をさらに検証しています。
高品質データソース構築戦略:データ構築に関して、チームは大学レベルの専門教科書を主要な情報源として、質問と回答の内容を体系的に収集しました。従来のウェブベースのQ&Aリソースと比較して、教科書の内容はより高い信頼性と参照解答の正確性を提供し、データ品質の堅固な保証となっています。
最適化されたデータ洗練方法:これまでの推論モデルを用いた蒸留手法とは異なり、著者らはチャットモデルを用いて初期抽出されたデータを洗練することを選択しました。この方法は、データの言語的流暢さと質問応答の論理的一貫性を向上させると同時に、長連鎖推論方法でよく見られる効率のボトルネックを回避し、高品質と高効率の有機的な結合を実現しています。
具体的には:
MegaScienceチームはまずTextbookReasoningを提案しました。これは大学レベルの科学推論に特化したオープンソースの後学習データセットで、信頼性の高い参照解答を含んでいます。データソースは、物理学、生物学、化学、コンピュータ科学、数学、経済学など、様々な分野を網羅する約12万冊の大学教科書から集められ、合計65万件の科学推論問題が構築されました。具体的には、データ構築プロセスには、教科書のデジタル化、二重質問解答ペア抽出、重複排除、質問解答ペアの洗練、フィルタリング、および大規模モデルベースの汚染除去処理が含まれます。このプロセスは完全に自動化されており、大規模言語モデルを活用することで、高品質データセットの拡張可能な取得能力を大幅に向上させました。
科学推論分野におけるオープンソース後学習データ構築をさらに推進するため、同チームは続けてMegaScienceを提案しました。これは、高品質なオープンソースデータセットから構成される大規模な混合データセットであり、125万件のデータを含んでいます。まず、複数の公開データセットを収集し、異なるデータフィルタリング戦略に対して体系的なアブレーション実験を行い、各データセットの最適なサブセットを選定しました。さらに、TextbookReasoningに加えて、すべてのデータセットに対して段階的な解答プロセスを注釈付けしました。
オープンソースコミュニティにおける科学推論能力の発展を支援するため、同チームは広範な分野と多様な問題形式をカバーする評価フレームワークを設計し、オープンソース化しました。このフレームワークには、15の代表的なベンチマークが含まれています。このフレームワークは、実験結果の再現を容易にするだけでなく、統一された評価基準を通じてモデル間の公平な比較を可能にします。また、最終的な評価指標の正確性を確保するために、完全な解答抽出戦略も設計されています。
実験結果は、構築されたデータセットが効率的な訓練と推論プロセスを実現しただけでなく、科学分野でも優れた性能を達成したことを示しています。同チームはさらに、MegaScience上でLlama3.1、Qwen2.5、Qwen3シリーズの基盤モデルを訓練し、それらの平均性能が公式のInstructモデルを上回ることを確認しました。これにより、科学分野におけるオープンソースコミュニティの発展を著しく推進しました。同時に、MegaScienceはより大規模で強力なモデルにおいてより顕著な効果を示し、命令チューニングにおける良好な拡張性のアドバンテージを実証しています。同チームは、データ構築プロセス、評価システム、データセット、および訓練済みモデルのすべてをオープンソース化し、科学推論研究の持続的な発展を支援しています。
TextbookReasoning構築プロセス
この研究チームは、大規模で高品質な科学推論能力を備えたデータセット「TextbookReasoning」を構築するために、大規模言語モデルによって完全に自動化されたデータ構築プロセスを提案しました。このプロセスでは、約12万冊の大学および大学院レベルの教科書から合計65万件の質問と回答のペアを抽出し、洗練しています。全体のプロセスは以下の5つの段階で構成されます:
TextbookReasoningデータセット構築フローチャート
1. 書籍の収集とデジタル化処理
研究者らは、複数の科学分野を網羅する合計12.8万冊の大学およびそれ以上のレベルの教科書を収集し、olmOCRシステムを用いてOCR処理を行い、構造化されたテキストコンテンツに変換しました。著作権法規を厳守するため、研究チームはルールマッチングと大規模言語モデル技術を組み合わせて書籍の著作権情報を包括的に審査し、著作権制限のある書籍を除外しました。さらに、このオープンソースデータセットはすべてCC-BY-NC-SA-4.0ライセンスを採用しており、商業利用を厳しく制限しています。
2. 対偶質問解答ペアの抽出
研究者らはまず、各教科書の内容を4096トークンごとにドキュメント断片に分割し、各学問分野ごとに2種類の抽出テンプレートを設計しました:
高基準抽出:詳細な推論手順と説明を含む質問解答ペアのみを保持する。
低基準抽出:明確な解答を含む質問ペアであれば全て保持する。
Llama3.3-70B-Instructを使用して全ドキュメントに対し質問解答抽出を実行し、最終的に94.5万件のオリジナル質問解答ペアを取得しました。
各学問分野における質問解答ペア抽出数統計
3. 問題の重複排除
冗長な情報を避けるため、研究者らは局所性敏感ハッシュ(Locality-Sensitive Hashing, LSH)とMinHash技術を組み合わせて、すべての問題に対して意味レベルの重複排除処理を行いました。
4. 質問解答ペアの洗練
研究者らはDeepSeek-V3を使用して元のドキュメント内容を参照し、質問解答ペアの内容を洗練しました。さらにLlama3.3-70B-Instructを呼び出して思考連鎖(CoT)が不足している問題を特定し、その後DeepSeek-V3で補完しました。加えて、データ品質を確保するため、Llama3.3-70B-Instructを再度利用し、論理的矛盾や誤った解答を含む低品質な質問解答ペアを自動的にフィルタリングしました。
5. 大規模モデルに基づく問題の汚染除去処理
既存の評価ベンチマークとの重複による訓練汚染を減らすため、研究者らは大規模モデル駆動型の汚染識別メカニズムを設計しました。そのプロセスは以下の通りです:
a. 各問題に対し、まずBGE-large-en-v1.5を用いてベクトル類似度検索を実行し、15の評価システムがカバーする全てのベンチマークから類似度が最も高い上位5つの問題を検索します。
b. 次に、Llama3.3-70B-Instructを用いて候補問題を一つずつ比較し、意味的に高度に類似する汚染項目が存在するかどうかを判断します。いずれかのペアが重複と判断された場合、その問題は汚染サンプルとしてマークされ、訓練セットから除外されます。
MegaScience構築プロセス
オープンソースの科学推論後学習データセットのさらなる発展を促進するため、著者らは複数の既存の公開データソースを体系的に統合し、多様なデータフィルタリング戦略と問題注釈付け方法を深く探求しました。その結果、125万件の高品質な質問解答ペアからなる混合データセットMegaScienceが構築されました。このデータセットの構築プロセスは4つの重要なステップを含み、データの多様性、正確性、適用性を保証しています。
データセット構築フローチャート
1. 公開データセットの収集
著者らは、NaturalReasoning、Nemotron-Science、およびTextbookReasoningの3つのデータセットを初期コーパスソースとして選択し、元のデータセット集合を構築しました。
2. 問題の重複排除と汚染除去
データ品質を向上させるため、著者らはNaturalReasoningおよびNemotron-ScienceデータセットにTextbookReasoningと同じ重複排除戦略と、大規模言語モデルに基づく問題の汚染除去処理を適用し、重複する項目や汚染された問題を除外しました。
3. データフィルタリング
著者らは3種類のデータフィルタリング技術を提案しました:
(1)回答長に基づくフィルタリング:著者らはQwen2.5-72B-Instructを使用して問題に解答を注釈付けし、最も長い回答を生成した問題を保持しました。
(2)問題の難易度に基づくフィルタリング:高難易度の問題はモデルの推論能力向上に重要であるため、著者らは2段階の難易度評価およびフィルタリング方法を提案しました:
a. 参照解答の注釈付け:
TextbookReasoningデータセットについては、著者らはLlama3.3-70B-Instructを用いて各問題に高品質な参照解答を生成しました。
NaturalReasoningについては、公式に提供されている参照解答を直接使用しました。
Nemotron-Scienceについては、DeepSeek-R1のモデル出力の要約段落を参照解答として使用しました。
b. 難易度評価:著者らはQwen2.5-7B-Instructを用いて各問題に16の候補解答を生成し、Qwen2.5-32B-Instructを用いてこれらの解答を、参照解答に基づいて0-10点で採点しました。採点基準は解答の正確性と完全性を測るものです。スコアが低いほど問題の難易度が高いことを示します。著者らは平均スコアが9を超える過度に簡単な問題と、1を下回る高ノイズの問題を除外しました。
(3)ランダムサンプリングフィルタリング:問題をランダムに選択する。
各データセットにおける3つのデータフィルタリング方法の効果
各データセットについて、著者らはまず難易度選択方法でn個のサンプルを抽出し、回答長フィルタリングとランダム選択方法で選択されるサンプル数もnと設定し、公平な比較を確保しました。その後、著者らはQwen2.5-7Bモデルで教師ありファインチューニングを行い、各データセットで最適なデータ選択戦略を選定しました。
NaturalReasoningデータセットではランダム選択が最も良い効果を示し、Nemotron-Scienceでは難易度選択が最適な性能を達成しました。しかし、TextbookReasoning全体を直接使用した場合の効果を超えるデータ選択方法は存在せず、これはこのデータセットに低品質なサンプルが極めて少ないことを示しています。この発見は、TextbookReasoningの全サンプルを保持するという著者らの決定を支持するものです。
4. 解答手順の注釈付け
TextbookReasoningについては、著者らはその洗練された解答を保持しました。NaturalReasoningについては、Llama3.3-70B-Instructが生成した元の解答の品質が低かったため、著者らはDeepSeek-V3を用いて段階的な解答を注釈付けしました。Nemotron-Scienceについては、DeepSeek-R1が比較的単純な問題に対しても過度に冗長な解答を生成し、推論効率を著しく低下させていたため、著者らは同様にDeepSeek-V3を用いて段階的な解答を注釈付けしました。その後、4096トークンを超える解答をフィルタリングし、データセットから約8千件のサンプルを除外しました。
MegaScience構築プロセスの数量変化、DCはデータ汚染除去、DSはデータフィルタリングを示す
MegaScience評価フレームワーク
評価プロセスの信頼性、再現性、公平性を向上させるため、著者らはオープンソースの科学推論評価フレームワーク「Language Model Open Science Evaluation」を提案しました。このフレームワークは、15の代表的な科学推論ベンチマークタスクを網羅し、多様な問題形式に対応しており、言語モデルの科学推論能力を包括的に評価することを目的としています。
MegaScience評価フレームワークが関わるベンチマークリスト
この評価システムには以下の特徴があります:
InstructモデルとBaseモデルの評価をサポートします。
新しい評価ベンチマークと設定の統合が容易です。
複数ノードと複数GPUでの並列実行をサポートし、複数のモデル、ベンチマーク、タスクにわたるスケーラブルな評価を実現します。
包括的なインスタンスレベルの出力データを提供し、モデル予測結果のきめ細かい分析をサポートします。
著者らはまた、解答抽出についても最適化を行いました。解答抽出は評価プロセスにおいて極めて重要であり、抽出の正確性が全体の結果に大きく影響します。多くの科学評価方法では、\boxed{} 内の内容のみを抽出し、この形式を採用していない解答をしばしば無視し、これらの形式エラーを誤って正答率の低下と関連付けていました。抽出精度を向上させるため、著者らは異なるタイプの問題に対応する、包括的なルールベースの解答抽出方法を設計しました。解答抽出方法は2段階のプロセスを採用しています:(1)最終解答の存在を示すプロンプトフレーズを識別する。(2)様々な形式から具体的な解答内容を抽出する。さらに、選択問題については、直接選択肢ラベルを抽出できない場合、システムは選択肢の内容内でマッチングを行い、対応する選択肢ラベルを特定します。
実験結果
著者らはまず、Qwen2.5-7B-Baseモデル上でTextbookReasoningとMegaScienceの2つのデータセットを訓練し、既存の科学推論関連データセットと比較しました。その結果、これら2つのデータセットは複数の評価指標において、現在のオープンソースコミュニティで最高の性能を達成しました。さらに、MegaScienceは科学推論タスクにおいて、Qwen2.5-7Bの公式Instructモデルの性能をも上回りました。
このデータセットの有効性をさらに証明するため、著者らはLlama3.1、Qwen2.5、Qwen3シリーズの基盤モデルに対してMegaScienceを用いてファインチューニングを行い、公式のInstructモデルと比較しました。その結果、以下の興味深い結論が得られました:
科学分野の性能ボトルネックの突破:訓練にMegaScienceを導入することで、異なるモデルファミリーと規模において性能が著しく向上しました。MegaScienceで訓練されたQwen2.5-7B、全てのQwen3シリーズモデル、およびLlama3.1-8Bは、平均性能において公式Instructバージョンを大幅に上回りました。様々な基盤モデルにおけるこの広範な改善は、MegaScienceが科学分野の性能の最前線を効果的に推進できることを示しています。
より大きく強力なモデルのスケーラビリティの利点:MegaScienceは、より大規模で強力なモデルに対してより顕著な効果を示しており、MegaScienceによる命令ファインチューニングがモデルのスケーラビリティにおいて潜在的な利点を持つことを示唆しています。Qwen2.5シリーズでは非単調な変化傾向が見られました。Qwen2.5-1.5B-InstructはQwen2.5-1.5B-MegaScienceよりも2.99%高かったものの、この差は3Bモデルでは0.15%にまで著しく縮小し、Qwen2.5-7Bでは逆転し、MegaScienceバージョンがInstructバージョンに対して2.21%の向上を達成しました。さらに、より高性能なQwen3シリーズでは、全ての規模においてMegaScienceバージョンが公式Instructモデルを上回り、性能差はモデル規模の増加とともに徐々に拡大しています。
数学推論能力はモデル容量に依存:著者らは、数学能力の向上は十分な基盤モデル能力に特に依存することを発見しました。より強力な基盤モデル(例:Qwen2.5-7BおよびQwen3-8B)においてのみ、MegaScienceは数学推論タスクで公式の命令ファインチューニングモデルを上回ることができました。著者らは、この選択的な改善が、データセット内の数学問題の高い難易度特性に起因すると推測しています。これらの問題の多くは、大学学部レベル以上の専門的な数学概念を含んでいます。このような複雑な数学推論タスクは、モデルがこの種の挑戦的な訓練データから効果的に学習し、恩恵を受けるために、ある程度の能力閾値を必要とするようです。
将来の展望
現在の研究は主に教師ありファインチューニングに焦点を当てていますが、強化学習に基づく科学推論研究はまだ含まれていません。特筆すべきは、MegaScienceが高品質で信頼性の高い参照解答を提供していることであり、これらは強化学習フレームワーク内で正確な報酬信号を生成するための監督情報として機能します。この特性は、コミュニティにとって優れた研究基盤を提供し、強化学習が科学推論タスクで既存の教師あり訓練結果をさらに向上させることができるかどうかを探る、さらなる研究を促します。
このデータセットは短い思考連鎖を採用しています。有望な研究方向の一つは、この基盤の上に強化学習を導入し、より複雑で長文の推論連鎖をさらに学習すること、そしてこの戦略が従来の途中訓練段階で得られたモデルの性能をより効率的な方法で超えることができるかを探索することです。もし研究がこの方向が実行可能であることを示した場合、それは言語モデルにおける強化学習の拡張に新たな機会を提供し、MegaScienceに基づく教師ありファインチューニングが途中訓練の効率的な代替経路となる可能性を示唆するでしょう。
計算資源の制約を鑑み、著者らは現時点で連鎖推論圧縮戦略に関する体系的な研究を行っていません。将来的には、より長いCoT推論をより簡潔な形式に圧縮することで、MegaScienceと同等の応答長でより優れた性能が得られるかどうかをさらに検討することが可能です。
論文タイトル:MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning
論文リンク:https://arxiv.org/abs/2507.16812
オープンソースデータセット&モデル:https://huggingface.co/MegaScience
データ処理コード:https://github.com/GAIR-NLP/MegaScience
評価システムコード:https://github.com/GAIR-NLP/lm-open-science-evaluation