有史以來規模最大的開源科學推理後訓練資料集問世了!
上海創智學院、上海交通大學(GAIR Lab)發佈了MegaScience。該資料集包含約125萬條問答對及其參考答案,廣泛涵蓋生物學、化學、電腦科學、經濟學、數學、醫學、物理學等多個學科領域,旨在為通用人工智慧系統的科學推理能力訓練與評估提供堅實的資料基礎。
實驗證明,基於MegaScience訓練的模型在科學推理任務中顯著優於相應的官方Instruct模型。此外,MegaScience展現出良好的可擴展性:隨著基礎模型規模的提升,MegaScience所帶來的性能增益更加顯著。
目前,該團隊已完整開源MegaScience及其所有相關組件,包括資料建構流程原始碼、科學推理評估系統、資料集本身以及基於該資料集訓練的模型,期望為研究社群提供系統化、高品質的資源支持,進一步推動通用人工智慧在科學領域的研究與應用。
MegaScience的回答長度偏低且性能最優,實現了即高效又有效。
該資料集發佈僅一週,下載量已突破4.6k次,並在HuggingFace Datasets Trending榜單中位列第四,受到學術界與工業界研究人員的廣泛關注與積極回饋。
為什麼需要MegaScience?
儘管如o1和DeepSeek-R1等先進推理模型已在數學和程式設計任務上表現出接近甚至超越人類專家的水準,但由於科學推理領域長期缺乏大規模高品質的訓練資料支持,當前主流模型在科學推理任務中的表現仍顯著滯後於數學和程式碼領域。
已有的科學推理後訓練資料集還存在一些未解決的挑戰:
不可靠的基準評估:許多開源科學基準採用選擇題格式,該格式雖然易於實現,卻過度簡化了科學推理的複雜性。因此,科學領域的後訓練資料集常常沿用此格式,以保持資料分佈的一致性。然而,作者的實驗表明,訓練於此類資料的模型在選擇題評估上表現優異,但在涉及計算任務時表現明顯不佳,反映出基準評估結果與真實推理能力之間存在脫節。
去污染處理不嚴謹:現有的去污染技術通常依賴於n-gram或向量相似度來識別並移除可能的基準資料洩露。這些方法本質上較為脆弱,容易被措辭或結構上的細微變動所規避,難以真正保證基準評估的公正性。作者發現,多數已有科學領域的後訓練資料集與評估基準之間存在顯著重合。
參考答案品質低下:許多科學資料集中的參考答案來源不可靠,往往來自網路抓取或由大語言模型直接生成。然而,隨著網路內容日益被AI生成文本充斥,再加上LLM本身容易產生幻覺,這兩種方式的可靠性不斷下降,使得難以確保答案的事實準確性與科學嚴謹性。
表層化的知識蒸餾:一種常見做法是從大型推理模型中蒸餾資料,例如直接採用DeepSeek-R1生成較長的思維鏈。儘管該方法直觀且易於實施,但其本質上仍停留在表層。所生成的CoT資料往往存在“過度思考”問題,這也在訓練(尤其是小模型訓練)和推理效率方面帶來挑戰。這種淺層操作限制了知識遷移的原則性、效率及泛化能力的進一步發展。
為應對上述挑戰,MegaScience團隊提出了一套系統性的解決方案,包括以下四個關鍵部件:
建構科學推理評估體系:團隊首先開發了一個面向科學推理任務的評估框架,涵蓋15個具有代表性的基準測試(Benchmark),題型包括選擇題、計算題、判斷題與簡答題,覆蓋廣泛任務類型,從而實現對模型科學推理能力的全面與可靠評估。
基於大模型的資料去污染處理:針對資料污染問題,作者對所提出的資料集及所採用的baseline資料集均實施了嚴格的大模型去污染流程。實驗表明,經過該方法處理後,其他現有開源資料集在相同基準下性能明顯下降,進一步驗證了該去污染策略在提升評測可信度方面的有效性。
高品質資料源建構策略:在資料建構方面,團隊以大學階段的專業教科書作為主要資訊來源,系統採集問答內容。相比傳統的網路問答資源,教科書內容具有更高的權威性和參考答案的準確性,為資料品質提供了堅實保障。
優化的資料精煉方式:不同於以往使用推理模型進行蒸餾的做法,作者選擇通過聊天模型對初步抽取的資料進行精煉。該方法在提升資料語言流暢性與問答邏輯一致性的同時,避免了長推理鏈方法常見的效率瓶頸問題,從而實現了高品質與高效率的有機結合。
具體來說:
MegaScience團隊首先提出了TextbookReasoning,這是一個面向大學階段科學推理的開源後訓練資料集,包含可靠參考答案,資料源來自近12萬本大學教材,共建構了65萬個涵蓋物理、生物、化學、醫學、電腦科學、數學和經濟學等多個領域的科學推理問題。具體而言,該資料建構流程包括教材數位化、雙重問答對抽取、去重、問答對精煉、過濾與基於大模型的去污染處理。該流程實現了全自動化,借助大語言模型大幅提升了高品質資料集的可擴展獲取能力。
為進一步推動科學推理方向的開源後訓練資料建構,該團隊進而提出了MegaScience,這是一個由高品質開源資料集組成的大規模混合資料集,包含125萬條資料。其首先收集多個公開資料集,並針對不同資料篩選策略進行系統的消融實驗,從而為每個資料集篩選出最優子集。此外,除TextbookReasoning外,還為所有資料集註釋了逐步的解題過程。
為了支持開源社群在科學推理能力上的發展,該團隊設計並開源了一個覆蓋廣泛學科與多種題型的評估框架,涵蓋15個代表性基準。該框架不僅便於重現實驗結果,還通過統一的評測標準實現模型間的公平比較。還設計了完善的答案提取策略,以確保最終評估指標的準確性。
實驗表明,所建構資料集不僅實現了高效的訓練與推理流程,同時也在科學領域取得了領先性能。該團隊進一步在MegaScience上訓練了Llama3.1、Qwen2.5與Qwen3系列基礎模型,其在平均性能上優於官方Instruct模型,顯著推動了開源社群在科學領域的發展。同時,MegaScience在更大、更強模型上的效果更為顯著,顯示出其在指令微調時具備良好的擴展性優勢。該團隊將資料建構流程、評估系統、資料集與訓練模型全部開源,以支持科學推理研究的持續發展。
TextbookReasoning建構流程
該研究團隊提出了一套完全基於大語言模型自動化驅動的資料建構流程,用於建構大規模、具備高品質科學推理能力的資料集——TextbookReasoning。該流程從約12萬本大學及研究生級別的教材中抽取並精煉生成共計65萬條問答對,整體流程包含五個階段:
TextbookReasoning資料集建構流程圖
1、書籍收集與數位化處理
研究者收集了共計12.8萬本涵蓋多個科學領域的大學及以上層級教材,並使用 olmOCR 系統對其進行OCR處理,轉換為結構化文本內容。為嚴格遵守版權法規,研究團隊結合規則匹配和大語言模型技術對書籍版權資訊進行了全面審查,並剔除了存在版權限制的書籍。此外,該開源資料集均採用CC-BY-NC-SA-4.0許可協議,嚴格限制商業化使用。
2、對偶問答對抽取
研究者首先將每本教材內容按4096個tokens切分為文件片段,並針對每一學科設計了兩種抽取模板:
高標準抽取:僅保留包含詳細推理步驟與解釋的問答對;
低標準抽取:保留任何包含明確答案的問題對。
使用Llama3.3-70B-Instruct對所有文件執行問答抽取,最終獲得94.5萬條原始問答對。
每個學科的問答對抽取數量統計
3、問題去重
為了避免冗餘資訊,研究者採用局部敏感雜湊(Locality-Sensitive Hashing, LSH)結合最小雜湊(MinHash)技術,對所有問題進行語義級別的去重處理。
4、問答對精煉
研究者使用DeepSeek-V3參考原始文件內容,對問答對進行內容精煉,並進一步呼叫Llama3.3-70B-Instruct識別缺乏思維鏈的問題,之後使用DeepSeek-V3對其進行補全。此外,為確保資料品質,研究者再次利用Llama3.3-70B-Instruct自動過濾存在邏輯矛盾或答案錯誤的低品質問答對。
5、基於大模型的問題去污染處理
為減少與現有評測基準重疊帶來的訓練污染,研究者設計了一套大模型驅動的污染識別機制,流程如下:
a.對於每個問題,先通過BGE-large-en-v1.5執行向量相似度搜索,從15個評測系統覆蓋的所有基準中檢索出相似度最高的前5個問題;
b.再使用Llama3.3-70B-Instruct對候選問題進行逐一比對,判斷是否存在語義高度相似的污染項;若任一對被判定為重複,則將該問題標記為污染樣本並從訓練集中剔除。
MegaScience建構流程
為進一步促進開源科研推理後訓練資料集的發展,作者系統性地整合了多個已有公開資料源,並深入探索了多種資料篩選策略與解題標註方法。最終建構了一個涵蓋125萬個高品質問答對的混合資料集MegaScience。該資料集的建構流程包括四個關鍵步驟,確保了資料的多樣性、準確性與適用性。
資料集建構流程
1、公開資料集收集
作者選取了NaturalReasoning、Nemotron-Science以及TextbookReasoning三個資料集作為初始語料來源,建構原始資料集合。
2、問題去重與去污染
為提高資料品質,作者在NaturalReasoning和Nemotron-Science資料集上應用了與TextbookReasoning相同的去重策略,以及基於大語言模型的問題去污染處理,從而排除重複項與污染問題。
3、資料篩選
作者提出了3種資料篩選技術:
(1)基於回答長度篩選:作者使用Qwen2.5-72B-Instruct對問題進行答案標註,並保留那些生成回答最長的問題。
(2)基於問題難度篩選:由於高難度問題對於提升模型推理能力具有重要意義,作者提出了一套兩階段的難度評估與篩選方法:
a.參考答案標註:
對於 TextbookReasoning 資料集,作者使用 Llama3.3-70B-Instruct 為每個問題生成高品質的參考答案;
對於 NaturalReasoning,則直接使用其官方提供的參考答案;
對於 Nemotron-Science,則從 DeepSeek-R1 的模型輸出中的總結段落作為參考答案。
b.難度評估:作者採用Qwen2.5-7B-Instruct對每個問題生成 16 個候選回答,並利用Qwen2.5-32B-Instruct對這些回答進行基於參考答案的 0–10 分打分,得分標準衡量回答的準確性與完整性。最終將平均得分作為該問題的難度指標。得分越低代表問題越具挑戰性。作者剔除了平均得分高於 9 的過於簡單問題以及低於 1 的高雜訊問題。
(3)隨機採樣篩選:隨機選擇問題。
3種資料篩選方法在每個資料集上的效果
對於每個資料集,作者首先採用難度選擇方法篩選出n個樣本,並將回答長度篩選與隨機選擇的方法中所選樣本數量也設為n,以確保公平對比。隨後,作者在Qwen2.5-7B模型上進行有監督微調,以選出每個資料集上最優的資料選擇策略。
在NaturalReasoning資料集上,隨機選擇效果最佳;而在Nemotron-Science上,難度選擇取得了最優性能。然而,沒有任何一種資料選擇方法能夠超過直接使用完整TextbookReasoning所達到的效果,這表明該資料集中低品質樣本極少。該發現支持作者保留TextbookReasoning中全部樣本。
4、解題步驟標註
對於TextbookReasoning,作者保留了其精煉後的解答。對於NaturalReasoning,由於Llama3.3-70B-Instruct生成的原始回答品質較低,作者採用DeepSeek-V3對其進行逐步解答的標註。對於Nemotron-Science,DeepSeek-R1即便面對相對簡單的問題也會生成過於冗長的回答,顯著降低了推理效率。為應對這一問題,作者同樣使用DeepSeek-V3對其進行逐步解答的標註。隨後,他們過濾掉超過4096個token的回答,從資料集中剔除了約8千條樣本。
MegaScience建構過程數量變化,DC表示資料去污染,DS表示資料篩選
MegaScience評估框架
為提升評估過程的可靠性、可重現性與公平性,作者提出了一個開源的科學推理評估框架——Language Model Open Science Evaluation。該框架涵蓋了15個具有代表性的科學推理基準任務,涵蓋多種類型的問題形式,旨在全面評估語言模型在科學推理方面的能力。
MegaScience評估框架所涉及基準列表
該評估系統有如下特點:
支持Instruct模型與base模型的評估;
易於整合新的評測基準與配置;
支持多節點與多GPU並行運行,實現對多個模型、基準和任務的可擴展評估;
提供全面的實例級輸出資料,支持對模型預測結果的細粒度分析。
作者還針對答案抽取進行了優化,答案抽取在評估過程中至關重要,因為抽取的準確性會顯著影響整體結果。許多科學評估方法僅提取位於\boxed{} 中的內容,常常忽略未採用該格式的回答,並將這些格式錯誤錯誤地歸因於準確率的下降。為了提升抽取精度,作者設計了一套全面的基於規則的方法,針對不同類型的問題進行答案抽取。答案抽取方法採用兩階段流程:(1)識別表示最終答案存在的提示短語;(2)從各種格式中提取具體的答案內容。此外,對於選擇題,如果無法直接抽取選項標籤,該系統還會在選項內容中進行匹配,以確定對應的選項標籤。
實驗效果
作者首先在Qwen2.5-7B-Base模型上訓練了TextbookReasoning與MegaScience兩個資料集,並將其與現有的科學推理類資料集進行了系統對比。結果表明,這兩個資料集在多個評測指標上均達到了當前開源社群中的最優性能。此外,MegaScience在科學推理任務上的表現也超越了Qwen2.5-7B官方發佈的Instruct模型。
為了進一步證明該資料集的有效性,作者在Llama3.1、Qwen2.5、Qwen3系列基礎模型上採用MegaScience進行了微調,與其官方版instruct模型進行了對比,得出了以下有趣的結論:
突破科學領域的性能瓶頸:在訓練中引入MegaScience顯著提升了不同模型家族和規模下的性能。經過MegaScience訓練的 Qwen2.5-7B、全部 Qwen3 系列模型以及 Llama3.1-8B,在平均性能上均大幅超越其官方Instruct版本。這種在多種基礎模型上的廣泛提升表明,MegaScience能夠有效推動科學領域性能的前沿發展。
更大更強模型的可擴展性優勢:MegaScience對於更大規模和更強能力的模型展現出更顯著的效果,表明MegaScience指令微調在模型擴展性上具有潛在優勢。在 Qwen2.5 系列中,產生了非單調變化趨勢:儘管Qwen2.5-1.5B-Instruct相較於Qwen2.5-1.5B-MegaScience高出 2.99%,但這一差距在 3B 模型上顯著縮小至僅 0.15%,而在 Qwen2.5-7B上則發生反轉,MegaScience版本相較於instruct版本實現了 2.21% 的提升。此外,性能更優的 Qwen3 系列在所有規模下,MegaScience版本均超越官方Instruct模型,且性能差距隨著模型規模的增加而逐漸擴大。
數學推理能力依賴於模型容量:作者發現數學能力的提升尤為依賴於足夠的基座模型能力,只有在更強的基礎模型(如Qwen2.5-7B和Qwen3-8B)中,MegaScience在數學推理任務上才能超越官方指令微調模型。作者推測,這一選擇性提升源於其資料集中數學題目的高難度特徵,其中許多問題涉及大學本科及以上水準的專業數學概念。這類複雜的數學推理任務似乎要求模型具備一定的能力門檻,方能從該類具有挑戰性的訓練資料中有效學習並受益。
未來展望
儘管當前工作主要聚焦於有監督微調,但尚未涉及基於強化學習的科學推理研究。值得一提的是,MegaScience 提供了高品質且可靠的參考答案,這些答案可作為強化學習框架中生成精確獎勵信號的監督依據。這一特性為社群提供了良好的研究基礎,激發進一步探索強化學習在科學推理任務中的潛力,看其是否能在已有有監督訓練成果的基礎上進一步提升模型的推理能力。
該資料集採用了短思維鏈。一個頗具前景的研究方向是,在此基礎上引入強化學習,進一步學習更複雜、篇幅更長的推理鏈條,並探索該策略是否能以更高效的方式超越傳統中間訓練階段所得模型的性能表現。若研究表明這一方向可行,將為強化學習在語言模型中的擴展提供新的契機,也說明基於MegaScience的有監督微調可成為中間訓練的高效替代路徑。
鑒於計算資源的限制,作者目前尚未開展對鏈式推理壓縮策略的系統研究。未來可進一步探討,是否將較長的 CoT 推理壓縮為更為簡潔的形式,能夠在與 MegaScience 相當的響應長度下獲得更優的性能表現。
論文標題:MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning
論文連結:https://arxiv.org/abs/2507.16812
開源資料集&模型:https://huggingface.co/MegaScience
資料處理程式碼:https://github.com/GAIR-NLP/MegaScience
評估系統程式碼:https://github.com/GAIR-NLP/lm-open-science-evaluation