她如何將「系統二」帶入大型語言模型?—專訪微軟亞洲研究院張麗

量子位智庫 量子位 | 公眾號 QbitAI

2023年,當業界仍在追逐 Scaling Law,不斷突破參數規模和資料規模時,微軟亞洲研究院張麗團隊選擇了一條不同的道路。

早在 OpenAI o1 發布前,張麗團隊就開始探索大型語言模型的深度推理能力。

「系統二」(System2)這個源於認知科學的詞彙,最早由她和她的團隊引入到大型語言模型領域。

最近,她們透過蒙特卡洛搜尋演算法,讓 7B 模型實現了接近 OpenAI o1 等級的數學推理能力。

rStar—Math 的發表引發了學術界內外的廣泛討論。

圖片

△ rStar-Math 論文

在目前以 PPO/GRPO 強化學習路線為主的趨勢下,她們的工作又將帶來哪些新的可能性?

本期「大型模型創新架構」主題訪談,量子位邀請到 rStar-Math 作者、微軟亞洲研究院首席研究員張麗,暢談突破大型模型智商上限、獎勵模型以及「系統二」背後的故事。

張麗,MSRA 系統研究組首席研究員,微軟 LongRoPE 及 rStar 系列專案負責人。

圖片

△ 微軟亞洲研究院系統研究組首席研究員張麗

以下為量子位與 rStar-Math 作者、微軟亞洲研究院首席研究員張麗的對話實錄整理:

智商突破

量子位:能否簡單介紹一下 rStar-Math 的核心工作?當初為什麼選擇這個研究方向?

MSRA 張麗:一直以來,我們主要圍繞如何提升大型語言模型的智商這個大方向持續進行研究,具體分為兩個方向:

一個是讓模型具備無限且持久的記憶能力,另一個是提升模型的深度推理邏輯思考能力。

我們於 2025 年 1 月發布的 rStar-Math 工作,簡單來說是第一個公開透過蒙特卡洛搜尋演算法,讓 7B 模型實現接近 OpenAI o1 等級數學推理能力的研究。

我們當時進行這項工作時,整個產業趨勢仍在追逐 Scaling Law,認為模型規模越大,資料量越多,效果就越好。

但我們發現,儘管每隔一段時間就有新體量的模型推出,實際上模型的數學深度推理能力卻一直沒有顯著提升。

量子位:在 2024 年 o1 尚未發布時,您們就開始研究「系統二」了嗎?

MSRA 張麗:是的,應該是 2023 年 5 月左右。

2022 年 11 月 ChatGPT 問世時,大家都被震驚了,但我們發現它在某些方面仍然表現不足。

作為研究員,我們比較注重邏輯推理思考能力,因此很自然地希望大型語言模型能像我們一樣具備很強的推理能力。

我們最初的思路有兩點:

一是希望模型在解題時能夠利用很長的「草稿紙」,所以我們做了 LongRoPE,拓展大型模型的長文本推理窗口。

圖片

△ LongRoPE 論文於 2024 年 2 月發表

二是要有效利用這張草稿紙,這就需要像人類一樣的深度推理思考方式,於是就有了 rStar 系列工作。

圖片

△ rStar-Math 前身,rStar 論文於 2024 年 8 月發表

量子位:最早將「系統二」這個人腦認知科學詞彙引入大型模型領域的是誰?

MSRA 張麗:可能是我們吧。更準確地說,當我們想定義這種能力時,從人腦認知科學中找到了這個可以類比的詞。

量子位:當時為什麼認為「系統二」會是未來非常重要的研究方向?

MSRA 張麗:我們認為,大型語言模型若要真正落地應用或實現通用性,其他能力或許都比較好說,但智商或推理能力才是最關鍵的因素。

觀察各行各業的頂尖人才,他們的專業領域不同,有人擅長解決數學問題,有人擅長撰寫程式碼,有人善於寫作或口才出眾,但本質上他們都具備很強的推理能力,這就是智商。

大型模型有了這個基礎,再去做其他應用,讓大型模型落地或提高社會生產力,都會變得簡單得多。

圖片

△ 系統一與系統二(快反應與慢思考)區別示意

量子位:rStar-Math 在研究過程中,模型自己湧現出了自我反思(self-reflection)能力,這意味著什麼?

MSRA 張麗:這其實並非刻意為之,而是意外收穫。事後想想,這或許間接驗證了自我反思是提升大型模型智商的關鍵能力。

這種自我修正或自我反思是人類在處理許多事務時都會使用的思維方式,可以說是一種必備能力。

我們確實沒有刻意追求重現「靈光乍現」(aha moment),但在當時這確實是個機會,許多團隊都想重現,最終發現強化學習可以激發出這種能力。

量子位:激發大型模型自我反思能力的關鍵是什麼?

MSRA 張麗:我個人認為,大型模型預訓練資料中本來就包含了人類自我反思過程的資訊。

網際網路上的大量資料會自然地混入一些這樣的內容,因為這是人類基本的高級思考模式。

大型模型經過預訓練記住這些模式後,強化學習或蒙特卡洛搜尋演算法就會將這種能力激發出來。

在解決複雜問題過程中,模型發現用了自我反思後效果更好,蒙特卡洛演算法就會把這些標記為高品質資料;

如果是強化學習,模型發現用了自我反思後能答對,就會給這個策略更高的分數。最終結果都是讓模型湧現出這種能力。

圖片

△ rStar-Math 湧現自我反思能力

蒙特卡洛突破

量子位:rStar-Math 發布後反響很大,有什麼印象深刻的回饋嗎?

MSRA 張麗:確實 rStar-Math 比我們之前的工作受到了更多關注,完全超出了我的預期。

我想可能是因為當時 o1 已經問世好幾個月,但還沒有任何公開報告能清楚說明它是如何實現的。

我知道有許多人也在使用類似的蒙特卡洛搜尋演算法,但都沒有達到 o1 水平的效果。

而我們恰好做到了,而且方法上有一些創新,可能是這個原因會突然受到關注。

感覺有點「破圈」效應。學術圈通常只有做同方向的人才會關注你的工作,但那時許多不做這個方向的同事朋友都傳訊息說某某看了我們的工作想認識一下,這種情況很少見。

還有許多媒體,國內外的,都爭相採訪我們。在 X 上也有大量討論,一些人給予了高度評價,認為用 7B 模型就能達到 OpenAI o1 級別的表現「非常不可思議」。

也有人討論 2025 年會不會是小型模型的時代,還引發了關於 Scaling Law 與其他路線的新一輪辯論。

圖片

△ Keras 創辦人 François Chollet 評價 rStar-Math

量子位:有沒有遇到質疑的聲音?

MSRA 張麗:當然有,大概分為兩個階段。

一開始在 DeepSeek R1 和 Kimi 1.5 問世之前,主要質疑是「小型模型能力怎麼會這麼強」以及「這個方法能否泛化到其他任務」,所以後來我們開放了程式碼和資料。

後來,DeepSeek R1 和 Kimi 1.5 問世了,有人開始討論重現 OpenAI o1 效果到底是否真的需要蒙特卡洛搜尋。這些質疑都很合理,因為每個人的觀點不同。

量子位:蒙特卡洛搜尋演算法的獎勵模型和傳統 Best of N 獎勵模型的根本區別是什麼?

MSRA 張麗:根本區別是蒙特卡洛搜尋演算法的獎勵模型是「步驟級別」的,是「過程獎勵模型」。

Best of N 是「結果獎勵模型」,不關注過程,所以蒙特卡洛搜尋演算法效果更好。

量子位:為什麼蒙特卡洛搜尋演算法在小型模型上表現這麼好?效果會不會僅限於小型模型?

MSRA 張麗:它在小型模型上表現優異,反而說明了它有很大的潛力。

我們於 2024 年 8 月發布初版 rStar 時就發現了蒙特卡洛演算法的巨大潛力。

當時我們沒有進行任何訓練,甚至沒有訓練獎勵模型,只是在小型模型上應用蒙特卡洛搜尋演算法,就發現效果非常好,甚至能與經過特殊微調後的模型效果相當。

因為「系統二」是更高級的思維模式,有一定門檻,策略模型不能太差,而小型模型作為策略模型本身就比較弱。

所以為了解決小型模型效果不理想的問題,例如幻覺等,我們唯一做的就是加入了 code-augmented CoT,盡量讓蒙特卡洛搜尋演算法的效果發揮到極致。

圖片

△ rStar-Math 使用 code-augmented CoT 示例

量子位:在您們的工作發布前,蒙特卡洛搜尋演算法是主流方案嗎?

MSRA 張麗:之前它不是很主流,但學術界確實有一些工作開始關注這個方向。

量子位:o1 及您們的工作發布後,這種方法變得更主流了嗎?

MSRA 張麗:目前還沒看到這種趨勢,大多數人還是朝著強化學習方向發展。不過我知道一些其他領域的人也在嘗試蒙特卡洛搜尋演算法。

由於我們的工作受到關注,有人聯繫我們,希望能將這種方法應用到金融或醫療領域。一些實際情境需要較小的模型,他們可能會考慮我們的方法。

量子位:您們做了 Scaling Law 實驗嗎?有觀察到您們的工作隨著參數量增加效果的變化趨勢嗎?

MSRA 張麗:目前我們最大只做到 7B,然後向下做了 Scaling Down,嘗試了 3.8B 和 1.5B。

總體觀察到的趨勢是參數規模越大,效果越好。

如果模型規模固定,我相信蒙特卡洛搜尋演算法比目前基於強化學習或蒸餾的方法潛力更高。

量子位:rStar-Math 在合成資料方面效果這麼好,背後原因是什麼?

MSRA 張麗:主要有兩點。第一是 code-augmented CoT,雖然最初是為小型模型設計的,但對大型模型也有用。

當然這種方法以前就有,叫做 Tool-Integrity Reasoning(TIR)。

圖片

△ Tool-Integrity Reasoning(TIR)解讀

第二是我們使用了過程獎勵模型配合蒙特卡洛搜尋演算法,會進行許多次 rollout,給不同步驟和每個 trace 打分。

即使在正確的 trace 中,我們也會挑選出更優的步驟,這相當於做了很好的資料篩選。

量子位:您認為獎勵模型的重要性未來會成為共識嗎?對獎勵模型的研究會增加嗎?

MSRA 張麗:我覺得會。現實中有許多任務沒有明確的標準答案,很難用簡單的規則評價。

例如寫作,您幾乎無法用幾條規則判斷好壞,肯定需要一個更強的獎勵模型來評分。

對於複雜的邏輯推理問題,例如數學證明,也很難建立好的獎勵模型,因為它不只是結果對就行,必須每一步證明都正確,需要一個非常嚴格的過程獎勵。

如果只使用基於結果的強化學習,很可能會出現證明結果正確但過程錯誤的情況。

要提升大型模型智商這個方向繼續前進,一個優秀的過程獎勵模型是必不可少的。

量子位:為什麼最佳化策略模型比最佳化獎勵模型更快?

MSRA 張麗:首先,獎勵模型比策略模型更難建立。獎勵模型是強化學習多年來始終未完全解決的問題。

很難找到一個好的獎勵模型或獎勵函數來為動作或策略評分。

其次,獎勵模型在強化學習中容易出現獎勵駭客(reward hacking)問題。策略模型可能會用各種方法欺騙獎勵模型,但實際上輸出的答案並不好。

這導致強化學習無法持續進行,因此許多從事強化學習的研究者會移除獎勵模型,但本質上還是因為獎勵模型目前沒有很好的解決方案。

圖片

△ 前 OpenAI 安全團隊主管翁荔曾發萬字長文解讀獎勵駭客

對於數學這樣的高難度問題,獎勵模型更難建構。

在一般問題中,獎勵模型不那麼準確可能還能接受,但在數學問題中,一步錯誤就會導致最終答案完全錯誤。

量子位:rStar-Math 對數學推理之外的其他任務有泛化性嗎?

MSRA 張麗:我認為它有很強的泛化潛力。

rStar-Math 本質上是一種思路,我只需要知道每次 rollout 的結果是對還是錯就可以應用。

當最終結果正確時,我就認為這次 rollout 中的每個步驟都有貢獻,就會返回給它們評分,然後進行更多 rollout。

如果中間某個節點每次都能導向正確答案,那可能是個正確步驟;如果經常導向錯誤答案,可能就是錯誤步驟。

評分完後,我就能收集資料建構過程獎勵模型,這就是 rStar-Math 的核心思想。

它唯一的門檻是在 rollout 到根節點時需要判斷這次 outcome 是否正確,這個門檻並不高,因此應用場景其實很廣,泛化性沒有問題。

破局與遠見

量子位:rStar-Math 開源後,業界有什麼反響?

MSRA 張麗:我們當然希望它能有更廣泛的應用,或者有人基於我們的程式碼在大型模型上嘗試。

目前有一些第三方聯繫我們,例如有家公司想用這個模型做數學 AI 教育,還有國外一些知名實驗室希望在程式碼類和數學證明方面合作。

有趣的是,還有一家智慧汽車廠商聯繫我們,希望能用我們的演算法在他們的模型上重現,讓我們幫助解答一些問題。

量子位:您看好 rStar-Math 在工業級模型上落地嗎?在通用情境中,蒙特卡洛搜尋演算法的搜尋空間會不會太大?

MSRA 張麗:對於很簡單的問題,確實沒必要用這麼複雜的方法。

蒙特卡洛搜尋演算法最初因 AlphaGo 而聞名,它可能天生更適合複雜任務。

圖片

△ AlphaGo 中的蒙特卡洛搜尋演算法示意

對於通用任務,它可以用但不一定是必要的。普通大型模型一次回答可能就足夠接受,不需要再用「系統二」去多次搜尋。

多搜尋幾次可能找到比一次回答更好的答案,但兩者差距可能不大,從性價比上考慮可能必要性不會特別高。

量子位:下一步的研究會更關注長文本還是深度推理?

MSRA 張麗:關於長文本,我們之前做 LongRoPE 時從演算法層面提供了讓預訓練模型文本窗口可以拓展到無限的方案。

也在微軟的 Phi 系列模型上得到了驗證。

圖片

△ Phi-3 技術報告表明使用 LongRoPE

但要真正擴展到那麼長的長度,還需要解決效率問題以及長文本資料和算力問題,這些不是我當前階段關注的重點。

我們目前更關注推理能力的提升,也就是深度推理這方面。

量子位:會繼續研究獎勵模型嗎?

MSRA 張麗:下一步我們可能會做三件事。

第一是繼續最佳化獎勵模型。

第二是進一步提升策略模型能力,希望它能學會更像人類的高級推理方式,例如主動提問或自我反思之外的其他推理方式。

第三是擴展任務領域,除了數學外,我們還想擴展到高難度的程式碼推理任務,最終實現通用的深度推理能力。

量子位:解決數學問題一定是智商要求最高的任務嗎?

MSRA 張麗:我認為是的。數學推理基本上是大型語言模型中最要求程式執行能力和邏輯嚴謹性的任務類型。

有些證明題數學家需要花幾百年才能證明出來,我個人認為它應該是智慧天花板的一種表現。

量子位:有種說法認為大家對提升數學能力的研究更多是因為它結果唯一、資料完整且易於驗證,數學能力一定代表智商天花板嗎?

MSRA 張麗:數學任務確實更容易著手研究,效果更容易驗證,但要真正提升數學推理能力並不簡單。

例如 FrontierMath 這個高難度數學基準測試,由多名數學家出題,目前最強的模型在上面的準確率也只有 2% 左右。

圖片

△ 主流 SOTA 模型在 FrontierMath 上的表現

當前數學研究更多是因為資料相對豐富,條件比較成熟,判定好壞更明確。

有些非證明題甚至不需要看步驟,看答案對不對就可以了,所以可能給人感覺大型模型數學能力好做。

人類的其他複雜任務可能現在各方面研究條件還不夠成熟,所以感覺大家都在做數學能力。

但真正讓大型模型成為數學家可信賴的助手,這條路還很長。

論文:https://arxiv.org/abs/2501.04519

— 完 —

大型模型創新架構專題系列對話推薦閱讀: 「Transformer 就像燃油車,attention-free 才是新能源」 | 對話 RWKV 創辦人彭博 手機實現 GPT 級智慧,比 MoE 更極致的稀疏技術:省記憶體效果不減|對話面壁 & 清華肖朝軍 MiniMax 押注線性注意力,讓百萬級長文本只用 1/2700 算力|對話 MiniMax-01 架構負責人鍾怡然 樹莓派上流暢運行大型模型!讓終端具備自主學習與記憶能力|對話 RockAI CEO 劉凡平

智庫在研|大型模型創新架構專題研究報告

模型架構層創新正掀起人工智慧深度變革,我們堅信 Transformer 架構創新改進及非 Transformer 架構創新探索是探索 AGI 的重要路徑,本次對話是專題系列對話的第二篇,量子位智庫真誠邀請與產業內其他大型模型架構創新者建立連結,分享前瞻認知及最佳實踐,合作請聯繫。

圖片

主標籤:大型語言模型

次標籤:深度學習認知科學人工智慧研究蒙特卡洛樹搜尋


上一篇:僅用圖像也能思考,強化學習開創推理模型新典範!複雜場景規劃能力極大化

下一篇:微軟發布NLWeb:將任何網站轉化為AI應用程式的秘密武器!

分享短網址