繼ZeroSearch之後,通義最新力作MaskSearch提出推論搜尋預訓練新框架

圖片圖片

前言

現今,深度整合推論與搜尋的模型範式已成為人工智慧研究的前沿熱點。大型模型透過在推論過程中靈活調用搜尋工具,精準獲取關鍵資訊並驅動後續推論,為攻克複雜任務開闢了新路徑。

通義實驗室搜尋團隊先前的 ZeroSearch、OmniSearch 等研究,借助強化學習在特定下游任務中訓練大型模型使用搜尋引擎,但實踐中發現,這種單一任務訓練模式存在明顯局限,模型泛化能力不足,難以應對多樣化場景下的檢索推論需求。

為突破這一瓶頸,通義實驗室基於「預訓練-微調」理念,隆重推出 MaskSearch 通用預訓練框架。該框架創新性地引入檢索增強型遮罩預測任務,受 BERT 遮罩機制啟發,讓模型利用搜尋工具預測文本中被遮蔽的內容,在預訓練階段同步掌握任務分解、推論策略與搜尋引擎操作技巧,為多領域適配奠定堅實基礎。

MaskSearch 相容監督微調與強化學習,經兩階段訓練驗證,相較於傳統訓練方式,在多個開放域問答數據集上實現了性能的大幅躍升。

圖片

論文標題:MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability

論文連結:https://arxiv.org/abs/2505.20285

程式碼連結:https://github.com/Alibaba-NLP/MaskSearch

圖片

MaskSearch

接下來,我們深入探討 MaskSearch 的核心架構與運作機制。

圖片

2.1 任務定義

檢索增強型遮罩預測(RAMP)作為 MaskSearch 的預訓練任務,其核心要義在於:在輸入的文本序列中,對關鍵資訊進行遮罩處理,模型需主動借助外部知識庫,調用搜尋工具來預測這些被遮蓋的文本片段。

為了提升被遮罩部分的難度,除了在過去遮罩預測任務中常被遮蔽的命名實體(如人名、地名、組織名等)、日期和數字,MaskSearch 還考慮了以下幾類關鍵資訊:

1. 本體知識:文本中涉及的分類體系或知識體系中的關鍵概念;

2. 特定術語:針對特定領域或主題的專業術語;

3. 數值:文本中涉及的具體數值,如統計數據、測量值等。

這不僅增加了任務的難度,還促使模型在檢索和推論過程中更加精細化地處理資訊,從而提升其在多領域任務中的適應能力和泛化能力。

2.2 訓練方法

監督微調

為了生成用於監督微調(Supervised Finetuning, SFT)的思維鏈(CoT)數據,作者提出一種結合(1)Agent合成與(2)蒸餾(Distillation)的數據生成方法,具體包括:

Agent 合成:首先,搭建多智能體系統,納入規劃、搜尋改寫、觀察分析等角色,協同進行思維鏈的生成任務。最終由一個大型語言模型(LLM)負責答案判斷,僅保留正確答案的思維鏈。

蒸餾:為了快速擴展數據集並保持高品質,使用已有數據訓練後的教師模型,直接生成推論軌跡,並逐步迭代教師模型,從而逐步提升數據品質。

強化學習

強化學習部分,作者採用了動態採樣策略優化(DAPO)演算法,結合規則驅動的格式獎勵和模型驅動的回答獎勵,建構了混合獎勵系統。格式獎勵檢查模型輸出是否符合指定格式,回答獎勵則評估生成答案與標準答案的一致性。

作者探索了多種回答獎勵函數,最終選擇基於模型的獎勵函數,使用 Qwen2.5-72B-Instruct 模型作為評判,為生成答案和標準答案的一致性進行評分。

課程學習

為了幫助從易到難依序學習,作者提出依據遮罩數量對訓練樣本進行難度分級,讓模型首先透過簡單樣本學習基礎推論技能,然後逐步提升能力以應對更具挑戰性的場景。

圖片

實驗

3.1 主要結果

圖片

作者透過基於不同大小的 Qwen 和 LLaMA 模型實驗證明,兩階段 MaskSearch 訓練框架顯著提升了大型模型的搜尋和推論能力。

遵循以 RAMP 作為預訓練任務,HotpotQA 數據集作為下游任務的訓練流程,MaskSearch 在領域內(in-domain)數據集上穩定提升模型召回率;在 Bamboogle 等領域外數據集上,性能提升更為顯著,小型模型甚至能媲美大型模型表現,驗證了 RAMP 作為可擴展學習訊號的有效性。

實驗進一步驗證了監督學習(SFT)與強化學習(RL)兩種訓練方式與 MaskSearch 框架的相容性。其中,RL 在 RAMP 任務上展現出更高性能上限,尤其在 HotpotQA 等領域內任務中,在所有大小的 Qwen 模型都取得了最佳效果。

這表明 RL 透過動態採樣策略和混合獎勵機制,能更精準地優化模型的多步搜尋與推論流程,為提升檢索增強模型的適應性提供了更強的訓練範式。

3.2 擴展性(Scaling)性能

圖片

在監督學習的場景下,作者透過不同訓練步數實驗驗證 MaskSearch 的可擴展性:小型模型(如 1B)經預訓練後性能提升顯著,而大型模型(如 7B)受限於自進化數據的多樣性,性能增益相對平緩,但召回率分數仍相對僅微調模型有所增長。

這證明 RAMP 對不同規模模型均有持續提升的潛力,也表明數據品質和多樣性是決定 SFT 方法模型性能上限的關鍵因素。

3.3 監督課程學習效果

圖片

此外,實驗驗證了基於遮罩數量設計的課程學習訓練策略。具體方法是訓練時按遮罩數量分層採樣數據,每個數量對應 10K 訓練樣本,配合 6K HotpotQA 數據維持任務平衡。

當遮罩數量從 1 逐步增至 4 時,Qwen2.5-7B 模型在驗證集上的得分明顯增加,且顯著高於將不同數量遮罩的數據混合訓練時的表現。此外,在下游任務上課程學習也有進一步提升模型訓練後表現的效果,驗證了難度梯度設計對推論能力建構的促進作用。

圖片

更多分析

4.1 遮罩策略影響

圖片

遮罩策略是影響 RAMP 預訓練任務難度的另一重要因素。作者對比了隨機遮罩與基於困惑度(PPL)的難度導向遮罩策略,也就是透過計算模型恢復遮罩時的損失值(即困惑度),優先選擇恢復難度高的部分進行遮蔽。

實驗顯示,PPL 策略在 FanoutQA 數據集上提升模型召回率,但在其他數據集中也會因過度追求難度導致性能下降,表明任務難度仍需要與模型當前搜尋和推論能力相匹配。因此,結合課程學習的訓練策略平衡難度,能夠在整體上獲得更佳效果。

4.2 RL 獎勵函數影響

圖片

在強化學習訓練過程中,不同獎勵函數對模型性能影響各異。以 Qwen-7b 模型為例,基於 token 級召回率的獎勵函數促使模型為提升召回率,向答案中堆砌大量無關資訊,導致回答長度大幅增加,相較於其他 RL 獎勵函數實際性能顯著下滑。

儘管引入懲罰項以抑制回答長度,能在一定程度上減少資訊冗餘,但模型仍可在有限長度內透過列舉方式鑽規則漏洞。

相較而言,基於模型的獎勵函數表現出最佳性能,在模型生成的回答長度、token 級召回率以及經 Qwen72b 模型評判的分數上,均優於其他兩種獎勵方法,有效規避獎勵欺騙問題,且強化學習訓練全程表現出卓越的穩定性和高效性。

圖片

結論

MaskSearch 致力於提升大型語言模型(LLM)的智能體推論+搜尋能力。該框架依托檢索增強型遮罩預測(RAMP)預訓練任務,賦能模型自主執行多步搜尋與推論,填補文本中的遮罩空白,實現外部知識的深度整合。

經監督微調(SFT)與強化學習(RL)雙重訓練路徑錘鍊,並引入課程學習策略,MaskSearch 在域內及跨域開放域問答任務上均較基線方法取得顯著性能提升。

更多閱讀

圖片圖片圖片

投 稿 通 道 讓你的文字被更多人看到

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝 稿件基本要求:

• 文章確係個人原創作品,未曾在公開管道發表,如為其他平臺已發表或待發表的文章,請明確標註

• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章品質階梯制結算

📬 投稿通道:

• 投稿信箱:hr@paperweekly.site

• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿

圖片

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點擊「追蹤」訂閱我們的專欄吧

·

圖片

主標籤:大語言模型

次標籤:機器學習搜尋增強預訓練模型自然語言處理


上一篇:35%準確率蒸發!字節跳動與華中科技大學WildDoc揭示多模態文件理解的強韌性短板

下一篇:SFT+RL雙階段訓練突破大型語言模型自我監督!人大DeepCritic實現AI批判自主進化

分享短網址