一句话概括,本文提出了一种极具扩展性的「自举(Bootstrapping)」框架,它巧妙地将简单的、已解决的问题链接成具有任意长度和复杂度的「合成推理链」,然后通过课程强化学习,让模型从这些合成数据中学会了超越其原始能力边界的长时程推理技能,并在奥赛级难题上取得了惊人泛化。(原论文题目见文末,点击阅读原文可直接跳转至原文链接,Published on arxiv on 08 Oct 2025, by University of Oxford, Princeton University, Microsoft AI Frontiers)
第一階段:識別核心概念
論文的motivation分析
這篇論文的出發點非常明確和實際:大型語言模型(LLMs)在處理簡短、一步到位的推理任務時表現出色,但一旦任務鏈條變長、需要多步驟、依賴前序結果的「長時程推理」(Long-Horizon Reasoning, LHR),其性能就會急劇下降。這就像一個擅長短跑的選手,卻不適應長途馬拉松。
現有的解決方案存在明顯的瓶頸:
- 複雜的推理時輔助(Inference-time scaffolding):比如思維樹(Tree of Thoughts)等方法,在模型進行推理時提供複雜的搜尋或驗證結構。這雖然能提升效果,但代價是推理速度變得極慢且成本高昂,不適合大規模應用。
- 昂貴的步進式監督(Step-level supervision):即為長任務的每一個中間步驟都提供正確答案作為監督訊號。這種數據標註成本極高,幾乎不可能大規模獲取,限制了模型的訓練。
- 標準強化學習(RL)的困境:直接用最終結果的對錯(獎勵1或0)來訓練長任務,模型會因為任務太難而幾乎總是失敗。這導致獎勵訊號極其稀疏(十步錯一步就算錯),模型很難從中學習到有效資訊,訓練很快就會停滯不前。
因此,作者的核心動機是:能否找到一種可擴展、成本低廉的方法,僅僅利用現有的、大量的「短時程」數據,來教會LLM進行「長時程」推理,從而突破上述瓶頸?
論文主要貢獻點分析
- 列出論文聲稱的主要創新點
1. 一種通用的長時程數據構建方法:通過「鏈接」現有的短時程問題,自動合成出具有依賴關係的、任意長度的長時程推理數據,且無需任何額外的人工或模型標註。
2. 一個有效的強化學習訓練框架:結合了課程學習(Curriculum Learning)和僅基於最終結果的獎勵(Outcome-only rewards),顯著提升了模型的長時程推理性能。
3. 驚人的泛化能力:在簡單的組合數學題(GSM8K)上訓練後,模型在未見過的、難度高得多的奧林匹克競賽級別數學題(如AIME)和長上下文理解任務上取得了巨大性能提升。
4. 理論與實踐的雙重證明:不僅通過實驗證明了方法的有效性,還從理論上分析了課程學習相比於直接訓練在樣本複雜度上實現了指數級的提升。
- 找出支撐這些創新的關鍵技術或方法
1. 數據合成技術:問題鏈(Problem Chaining):這是貢獻1的關鍵。通過一個輕量級的「適配器」(adapter)將前一個問題的答案(output)轉化為後一個問題的輸入(input),從而創造出邏輯上的依賴鏈。
2. 訓練策略:階段式課程強化學習(Stagewise Curriculum RL):這是貢獻2的關鍵。訓練過程不是一蹴而就的,而是像上樓梯一樣:先在長度為1的鏈上訓練,模型掌握後再進入長度為2的鏈,以此類推。這種由易到難的策略是成功的核心。
3. 模型能力的新分解:原子可靠性 vs. 時程依賴可靠性:這是支撐整個方法論的一個核心洞察。作者認為,長時程推理失敗不僅僅是單步錯誤累積的結果,還存在一種專門與「長時程」相關的能力缺失(如狀態追蹤、中間值傳遞)。他們的方法正是為了提升這種特定能力。
- 論文有哪些顯著性的結果
1. 教會模型「新技能」而非「熟能生巧」:論文通過pass@k(即模型嘗試k次內能否成功)實驗,有力地證明了其方法能讓模型解決一些它原本完全無法解決的問題,而不是僅僅提升它解決已知問題的成功率。這是對RL訓練LLM能力邊界的一個重要發現。
2. 跨領域、跨難度的泛化:用六年級水平的數學題訓練,卻能在大學甚至競賽級別的數學題上看到2倍的性能提升。這表明模型學到的不是特定問題的解法,而是一種更通用的、管理複雜推理過程的「元能力」(meta-capability)。
3. 數據與計算的權衡關係:論文發現,即使長時程數據稀少,只要增加在短時程數據上的訓練計算量,也能達到相似的性能。這為現實世界中數據成本高昂的場景提供了極具價值的實踐指導。
理解難點識別
- 分析哪些概念/方法是理解論文的關鍵
1. 「長時程推理」到底難在哪裡? 需要理解作者提出的p(原子可靠性)和σ(時程依賴可靠性)模型,這是理解「為什麼簡單堆砌短問題訓練還不夠」的核心。
2. 課程學習(Curriculum Learning)為何如此關鍵? 需要理解它如何解決強化學習中的「獎勵稀疏」問題,以及為什麼它比混合訓練或只訓練長任務更有效。
3. 數據合成的具體過程是怎樣的? 理解「問題鏈」是如何被技術性地構建出來的。
- 找出這些概念中最具挑戰性的部分 最核心且最具挑戰性的概念是「時程依賴可靠性」(horizon-dependent reliability, σ)。這是一個相對抽象的概念,它試圖將長時程推理中除了單步計算準確性之外的所有挑戰(如記憶、狀態追蹤、抗干擾能力)打包成一個變量。理解了σ,就理解了這篇論文的靈魂。
- 確定需要重點解釋的核心概念 我們將重點解釋長時程推理的雙重能力模型 (p vs. σ),以及課程學習是如何通過逐級提升這兩個能力來最終實現目標的。
概念依賴關係
1. 問題的根源:LLM在長時程推理(LHR)上表現不佳。
2. 問題的深入剖析(核心概念):LHR的成功不僅需要高的單步準確率(原子可靠性p),更需要一種專門處理長鏈條的管理能力(時程依賴可靠性σ)。
針對性的解決方案:
- 為了提供能訓練σ的材料,我們通過問題鏈來合成長時程數據。
- 為了讓模型能在獎勵稀疏的情況下有效學習,我們採用課程學習的強化學習範式,先易後難,逐步提升p和σ。
3. 最終的效果:模型在各種長時程任務上表現優異,並學會了新的推理技能。
切入點:最佳的解釋切入點就是從「長時程推理為什麼難」開始,引入p和σ的分解模型。這為後續介紹所有技術方案的「為什麼這麼做」提供了堅實的理論基礎。
第二階段:深入解釋核心概念
設計生活化比喻
想像一下,我們的目標是訓練一個新手廚師(LLM)來獨立完成一場複雜的五道菜國宴(長時程推理任務)。這場國宴的菜單環環相扣,比如第二道菜的湯底需要用到第一道菜燉煮出的高湯。
- 單個菜品的製作(原子任務):比如「炒一盤宮保雞丁」或「蒸一條鱸魚」。這些是現成的、有明確菜譜(短時程數據)的任務。
- 新手廚師:就是我們的大型語言模型(LLM)。
建立比喻與實際技術的對應關係
- 比喻中的關鍵元素
- 新手廚師——對應大型語言模型(LLM)
- 炒好一道菜的能力——對應原子可靠性(atomic reliability p)。這是指廚師嚴格按照單個菜譜,不出差錯地完成一道菜的能力。比如,油溫控制、火候掌握、調味品配比都準確無誤。
- 統籌整場國宴的能力——對應時程依賴可靠性(horizon-dependent reliability σ)。這是一種更高階的管理能力,與菜品數量(推理長度)直接相關。具體包括:時間管理(知道哪道菜要先準備,哪道菜要後下鍋,保證所有菜品能在恰當的時間上桌);資源調度(記住第一道菜燉出的高湯要留給第二道菜用,不能提前用掉);工作台管理(在處理第三道菜時,不會把第二道菜的調料錯拿到手邊,保持工作台的整潔有序,不會忘記之前步驟的關鍵產物)。
- 一份國宴菜單——對應一個長時程推理問題
- 一本家常菜譜大全——對應已有的短時程數據集(如GSM8K)
- 論文的數據合成方法(問題鏈)——相當於一位經驗豐富的大廚,他並不創造新菜,而是從家常菜譜中挑選幾道菜,巧妙地設計出一份「國宴特訓菜單」。例如,他會標註:「請先製作『紅燒肉』,然後用它的湯汁來燉『馬鈴薯』。」這就人為地創造了菜品之間的依賴關係。
- 論文的訓練方法(課程學習)——相當於廚師的訓練計劃。第一週只練習做單道菜(訓練p),把「宮保雞丁」炒到極致,提升p;第二週練習先做「清燉雞湯」,再用雞湯煮「蔬菜麵」(訓練h=2),開始訓練σ,學習如何傳遞和使用中間產物;第三週挑戰三道菜的組合...以此類推,難度逐步增加,讓廚師在不被壓垮的前提下,穩步提升統籌管理能力σ。
深入技術細節
作者認為,一個h步推理任務成功的概率Ph不僅僅是單步成功率p的h次方。他們提出了一個更精細的模型。
數學公式
設Pj為推理到第j步時,整個推理鏈條仍然正確的概率。
原始數學形式: Pj = p · σj · Pj-1, with P0 = 1
符號替換與解釋
前j道菜都成功的概率 = (做對單道菜的硬實力p) × (在第j步時管理j道菜的統籌能力σj) × (前j-1道菜都成功了的概率 Pj-1)
- Pj-1(前j-1步都正確的概率):在國宴中,這是指前j-1道菜都完美無缺的概率。
- p(原子可靠性):廚師的基本功,即獨立完成任何一道菜的成功率。對應模型解決單個、孤立問題的能力。
- σj(時程依賴可靠性):這是關鍵!這個值依賴於步數j。當j變大時(國宴菜品增多),管理難度急劇上升,σj可能會下降。這代表著廚師在juggling j個任務時的頭腦清晰程度。如果σj遠小於1,即使廚師每道菜都會做(p≈1),整場國宴也可能因為一個協調失誤(比如高湯用錯了地方)而失敗。
- Pj-1(前序步驟正確的條件):這很好理解,要保證第j步正確,前提是前面j-1步沒有出錯。
課程學習如何解決這個問題
直接讓新手廚師挑戰五道菜的國宴(直接在h=5上訓練),他幾乎每次都會失敗(Ph極小),因為他的統籌能力σ太差了。他得到的反饋永遠是「失敗」,卻不知道問題出在哪一步。這就是獎勵稀疏問題。
課程學習的流程(Algorithm 1)如下:
1. 階段一 (h=1):只訓練單步問題。讓廚師反覆練習炒宮保雞丁。這能快速提升他的基本功,即最大化p。
2. 階段二 (h=2):使用合成的兩步問題進行訓練。廚師開始學習「先燉湯,再用湯煮麵」。這時,他會遇到新的挑戰,比如如何保存湯的溫度,如何調味。訓練的目標是開始提升σ。因為p已經很高,且任務只有兩步,所以成功率不會太低,獎勵訊號是密集的,他能有效地學習。
3. 後續階段 (h≥3):逐步增加鏈條的長度,挑戰更複雜的菜單。在每個階段,模型都基於前一階段學到的能力,去攻克更長的依賴鏈,即繼續提升σ。
將技術細節與比喻相互映射
- 技術步驟在比喻中的體現
- 數據合成:大廚設計菜單,「用第一道菜(p1)的湯汁(o1)作為第二道菜(p2)的底料」。
- RL訓練:廚師在廚房裡根據菜單實踐,如果最後一道菜味道正確(outcome-only reward),他就得到了正向激勵,大腦會鞏固這次成功的操作流程。
- 課程學習 for p to σ:廚師的訓練計劃,從「一日一菜」到「一日一宴」,循序漸進。
- 比喻如何幫助理解技術細節
比喻清晰地揭示了p和σ的區別。很多人可能認為,只要每道菜都會做,國宴就沒問題。但這個比喻告訴我們,「會做」和「能統籌」是兩種截然不同的能力。論文的貢獻就在於識別出了σ的重要性,並設計了一套專門的訓練方法來提升它。
- 數學公式在比喻中的對應
Pj這個公式在比喻中就是:一場成功的宴席,不僅要求廚師每道菜的基本功(p)都過硬,還要求他在面對越來越複雜的場面時(j增大),依然能保持清醒的頭腦和高效的管理(σj),並且不能在之前的任何環節(Pj-1)掉鏈子。
- 比喻的局限性
這個比喻非常貼切,但有一個細微的差別:在現實中,廚師的管理能力σ可能是一個通用技能。而在論文的模型中,σ是特定於長度j的。不過,模型在訓練中學習到的σ能力表現出了很好的泛化性,就像一個熟練的廚師在掌握了五道菜的宴席後,再去挑戰六道菜也會得心應手。
總結
- 核心聯繫:長時程推理就像一場國宴,成功不僅需要把每道菜做好的「原子能力p」,更需要一種隨任務複雜度增加而愈發重要的「統籌管理能力σ」。
- 關鍵數學原理:Pj = p · σj · Pj-1 這個公式告訴我們,σj的衰減是導致長時程推理失敗的關鍵瓶頸。
- 方法總結:論文的巧妙之處在於,通過合成「特訓菜單」(數據鏈)並採用「循序漸進」的訓練計劃(課程學習),讓模型在不被早期巨大困難勸退的情況下,系統性地提升了p和σ這兩種核心能力,最終成為能夠駕馭複雜國宴的「大廚」。
第三階段:詳細說明流程步驟
完整流程:從短問題到長時程推理大師
整個方案可以分為兩個核心階段:1. 離線的長時程數據合成 和 2. 在線的階段式課程強化學習。
階段一:合成「國宴特訓菜單」(長時程數據合成)
目標:利用已有的、大量的短問題數據(例如,GSM8K數學題庫),生成一系列具有邏輯依賴關係、且長度從2到H不等的長問題鏈。
- 輸入:
- 一個「原子任務庫」(D),其中包含了大量獨立的、有標準答案的短問題。例如,GSM8K訓練集。
- 一個「適配器函數庫」(A),這是一組簡單的、確定性的轉換函數。例如:x*10, x+100,或者單位轉換等。
- 一個預設的最大任務鏈長度H(例如,H=5)。
- 處理流程:
- 步驟2.1(鏈條起點)——從原子任務庫D中隨機抽取第一個問題p1及其輸入x1,計算出其標準答案o1,這是鏈條的第一個環節。
- 步驟2.2(鏈接中間環節)——進入一個循環,從i=2到h,依次完成以下操作:首先應用適配器(從適配器庫中選擇一個函數a,並將其應用於上一步的答案oi-1,生成新數值xi,作為下一個問題的輸入);然後構建下一個問題(從原子任務庫D中隨機抽取一個新的問題模板pi,將上一步生成的xi填入其中一個數字佔位符,形成一個全新的、具體的長問題);最後重新計算答案(由於問題pi的輸入已經被修改,需要重新計算它的正確答案,得到oi)。
- 步驟2.3(鏈條終點)——循環結束後,我們得到了一系列環環相扣的問題p1...ph和最終的正確答案oh。
1. 初始化:為每個目標長度h(從 2 到H) 創建一個空數據集Dh。
2. 生成一條長度為h的問題鏈:
3. 格式化為單個提示(Prompt):將這一整條問題鏈整合成一個單獨的、對LLM友好的文本提示。這個提示會明確指示模型需要按順序解決這h個子問題,並且後一個問題的某些輸入依賴於前一個問題的答案。例如,文本可能看起來像:「請按順序完成以下任務:(i)任務1:...(答案記為#1)(ii)任務2:...其中某個數值是{#1*10}...(答案記為#2)...(h)任務h:...(答案記為#h)最終答案:#h」
4. 存入數據集:將這個格式化後的長提示和最終答案oh作為一個數據對(prompt, oh),存入對應長度的數據集Dh中。
5. 重複:重複步驟2-4,直到為每個長度h都生成了足夠數量的長問題。
- 輸出:
- 一系列合成的長時程推理數據集{Dh},其中D1就是原始的原子任務集,而Dh (h>1) 包含了所有長度為h的問題鏈。
階段二:訓練「國宴大廚」(階段式課程強化學習)
目標:使用上一階段合成數據集,通過一個由易到難的課程,逐步提升一個預訓練LLM的長時程推理能力。
- 輸入:
- 一個預訓練好的指令微調模型θ0(例如,Qwen-2.5-3B Instruct)。
- 上一階段生成的所有數據集{Dh}。
- RL演算法參數(如學習率、批大小等)。
- 處理流程(Algorithm 1):
- 設定目標——讓模型學會在長度為h的問題鏈上取得高成功率。
- 加載數據——從合成數據集中取出Dh作為本階段的訓練數據。
- RL訓練子循環——進行T步優化,每步包括:採樣與生成(從Dh中取一個長問題prompt,輸入到當前模型θ中,模型自回歸地生成一個完整的解答過程和最終的數值答案y);獎勵計算(獲取該prompt對應的標準最終答案oh,如果y和oh完全匹配則獎勵r=1,否則獎勵r=0,注意這裡完全不關心模型的中間步驟是否正確,只看最終結果);模型參數更新(使用強化學習演算法Dr. GRPO和計算出的獎勵r來更新模型參數,鼓勵模型產生能導向正確最終答案的推理路徑,懲罰那些導向錯誤答案的路徑)。
- 階段結束——在T步訓練後,當前階段h的訓練結束。此時的θh已經比之前更擅長處理長度為h的問題,它將作為下一階段h+1的初始模型。
1. 初始化:設置當前模型θ ← θ0。
2. 進入課程學習循環:開始一個主循環,h從 1 遍歷到H。每個階段包含以下步驟:
3. 課程結束:當h的循環從 1 到H全部完成後,訓練結束。
- 輸出:
- 一個最終模型θH,相比於初始模型θ0,它在長時程推理能力(特別是σ能力)上得到了顯著的、系統性的提升。
這個兩階段流程構成了一個閉環:通過低成本的數據合成創造出「訓練場」,再通過精心設計的課程學習讓模型在這個訓練場中高效地「升級打怪」,最終實現僅用初級材料(短問題)就打造出高級能力(長時程推理)的「自舉」(Bootstrapping)目標。
第四階段:實驗設計與驗證分析
主實驗設計解讀:核心論點的驗證
- 核心主張 論文的核心主張是:通過在合成的長時程數據上進行課程強化學習,可以顯著提升LLM的長時程推理(LHR)能力,並且這種能力可以泛化到更難、更真實的未見任務上。
- 實驗設計與合理性分析
- 數據集選擇——訓練數據源採用GSM8K(一個小學水平的數學應用題數據集,這是一個非常巧妙的選擇:它是公認的基準,問題質量高,答案明確;難度足夠低,使得合成的長鏈條問題在初始階段不至於難到模型完全無法解決;使用如此「簡單」的數據源卻能在「困難」任務上取得成功,極大地凸顯了方法的有效性)。評估數據集包括域內評估(使用合成的、但未在訓練中見過的GSM8K長鏈條問題)和域外泛化評估(MATH-500、AIME奧林匹克數學競賽題、GSM-Symbolic、LongBench-v2等極具挑戰性的基準,選擇這些數據集是為了證明模型學到的一種通用的、可遷移的LHR能力)。
- 評價指標——Pass@k(尤其是Pass@1),這是程式碼生成和數學推理任務的標準評價指標,衡量模型在k次嘗試內給出正確答案的準確率。Pass@1是衡量模型「第一反應」準確率的關鍵指標。
- 基線方法(Baselines)——包括Instruct model(未经任何RL訓練的原始指令微調模型,這是判斷提升起點的「零點」);Standard RL(Only-L1,僅在原始的、單步GSM8K問題上進行RL訓練,用於證明「僅僅提升單步準確率p是不夠的」);Only-Long(僅在最長的h=5合成問題鏈上訓練,用於證明「沒有課程,直接挑戰難題,由於獎勵稀疏會導致訓練失敗」);Uniform-Mix(在所有長度1到5的混合數據上訓練,用於證明「階段式的課程學習比簡單的混合訓練更有效」)。這些基線設置得非常完備,每一個都旨在駁斥一種可能的替代解釋,從而凸顯出論文方法中「合成長數據」和「課程學習」兩個組件的必要性。
- 主實驗結果與結論
- Table 1 (域內性能):結果顯示,隨著課程的進行(從Len-2到Len-5),模型在越來越長的問題鏈上性能持續提升。而所有基線方法在長鏈條上(如L-4, L-5)的性能都非常差。這直接證明了課程學習在提升LHR能力上的有效性。
- Table 2 (域外泛化性能):這是最驚人的結果。在GSM8K上訓練的Len-5模型,在AIME 2024上的準確率達到了10.52%,是原始模型(5.10%)的2.06倍。在MATH-500等其他高難度數據集上也有顯著提升。這強有力地支撐了核心論點:模型學到的LHR能力是通用的,可以遷移到完全不同難度和領域的問題上。
消融實驗分析:內部組件的貢獻
論文中的基線對比本身就是一組設計精良的消融實驗,旨在探究課程策略的有效性。
- 消融「長時程數據」:通過與Standard RL (Only-L1)對比,證明了即使把單步問題的準確率p刷得再高,也無法解決長時程問題。這定量地證明了提升σ能力的必要性,也就是必須要有長鏈條數據來進行訓練。
- 消融「由易到難的課程」:通過與Only-Long對比,其極差的性能驗證了論文的理論假設,即直接在長任務上訓練會因獎勵過於稀疏而失敗。這證明了「課程」這一設計是方法成功的關鍵。
- 消融「階段式」學習:通過與Uniform-Mix對比,其性能遠不如課程學習模型,表明了讓模型在每個難度級別上「專注地」學習,直到掌握,再進入下一階段,是比「大雜燴」式訓練更有效率的学习路徑。
結論:這些消融實驗清晰地表明,論文方法中的「合成長時程數據」和「階段式課程」兩個核心設計都是不可或缺的。它們共同作用,才最終實現了性能的突破。
深度/創新性實驗剖析:洞察方法的內在特性
除了上述實驗,論文還設計了幾個非常巧妙的實驗來提供更深層次的洞見。
- 探究性實驗:pass@k分析 (Figure 3)
- 實驗目的:回答一個非常深刻的問題——RL訓練是在教模型新技能,還是僅僅在「提純」模型已有的、但不穩定的能力?後者認為,如果模型在pass@128(嘗試128次)時都做不出來,那說明這個問題超出了它的能力邊界,RL也教不會。
- 實驗設計:選擇非常長的、模型在pass@1時成功率很低的問題(長度6, 7, 8)。然後,讓原始模型、標準RL模型和論文的課程學習模型都進行多達128次的採樣嘗試,並繪製出pass@k曲線。
- 實驗結論:標準RL模型的pass@k曲線很快就和原始模型重合,表明它只是提升了模型找到已知解的概率。而論文的課程學習模型,其pass@k曲線持續上升,並顯著超越了原始模型的能力上限。這雄辯地證明了,我們的方法確實教會了模型之前完全不具備的、新的推理路徑和能力,這是對RL在LLM能力擴展方面的一個里程碑式的發現。
- 參數敏感性/魯棒性分析:數據成本與計算的權衡 (Section 7)
- 實驗目的:在現實世界中,長時程數據比短時程數據更難獲取(成本更高)。該實驗旨在探究,當長時程訓練數據有限時,我們能否通過其他方式(如增加計算量)來彌補?
- 實驗設計:設計了多種訓練數據分佈,從長短樣本均勻的「高成本」分佈,到短樣本多、長樣本少的「低成本」分佈。然後在這些不同分佈的數據上,將模型訓練至「飽和」(即性能不再提升),並記錄最終性能和總訓練token數(計算成本)。
- 實驗結論:實驗發現,即使使用長樣本較少的「低成本」數據分佈,只要投入更多的訓練計算,最終也能達到與「高成本」數據分佈相似的性能。這揭示了一個非常實用的數據-計算權衡(Data-Compute Trade-off):在LHR任務上,一定程度上可以用更多的計算來替代稀缺的長時程數據。這為訓練更強大的未來模型提供了寶貴的實踐指導。
- 案例研究(Case Study):定性分析 (Appendix E)
- 實驗目的:通過一個具體的長時程問題案例,直觀地展示訓練前後的模型行為差異。
- 實驗設計:給出一個包含9個步驟的長問題。分別展示未经訓練的模型和經過LHR訓練的模型的完整解答過程,並對前者的錯誤進行分析。
- 實驗結論:未经訓練的模型在多個方面都犯了錯誤:狀態追蹤失敗(把上一步的錢數和加侖數搞混)、邏輯錯誤(錯誤地復用中間結果)、不一致的替換。而經過訓練的模型則能清晰、準確地執行每一步,正確地傳遞和使用中間結果,最終得到正確答案。這個案例生動地展示了σ(時程依賴可靠性)在實踐中的具體體現,讓讀者對模型學到的「統籌管理能力」有了直觀的感受。
本文題目:H1: Bootstrapping LLMs to Reason over Longer Horizons via Reinforcement Learning