Qwen團隊發布長上下文推理模型QwenLong-L1,超越o3-mini

大型模型為何難以進行長上下文推理?

你可以簡單這樣想:假設你讓一個學霸讀完一本1000頁的學術報告,然後回答一個複雜的問題。這個學霸可能會抓不住重點,或是在中途分心——這就是目前大型模型處理長文本時所面臨的困境!

現有的GPT、Claude等模型在短文本(例如4千字以內)的數學題、程式設計題上表現出色,但面對長達12萬字的文檔問答時,卻經常「記憶力差」、「邏輯混亂」。論文指出兩大難題:

訓練效率低:長文本導致模型在探索答案時「綁手綁腳」(輸出多樣性下降)。

訓練過程不穩定:長文本生成容易「跑偏」,導致模型參數劇烈波動。

論文:QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

連結:https://arxiv.org/pdf/2505.17667

短上下文模型如何突破長文本限制?

傳統方法仰賴「死背硬記」(監督式學習),但長文本需要模型具備「主動思考」的能力。例如:

從100頁的財報中找出關鍵數據

跨多篇論文推導結論

這就像讓一個只會做選擇題的學生,突然面對開放式研究專題——必須運用強化學習(RL)來激發「主動推理」能力!

QwenLong-L1的三種方法

一 分階段「升級」的強化學習

模型並非一口氣學完長文本,而是像玩遊戲一樣分階段「練級」:

第1關:先學習2萬字以內的文本(熱身)

第2關:挑戰6萬字的「困難模式」

每個階段只專注於當前的難度,避免「貪多嚼不爛」。

二 動態調整難度

系統會主動篩選「歷史難題」,例如之前得分較低的問題,讓模型反覆練習薄弱環節。這種「錯題本」機制,讓學習效率加倍!

三 混合獎勵機制:既要精確,又要靈活

規則獎勵:答案必須嚴格符合標準(例如數字不能出錯)

裁判獎勵:使用另一個小型模型判斷答案語義是否合理(例如「10%」和「0.1」視為正確)

最終獎勵取兩者最大值,兼顧精準與靈活!

實驗:超越o3-mini、比肩Claude

在7個長文本問答基準測試中:

QwenLong-L1-32B 平均得分70.7,超過OpenAI的o3-mini(70.4),直逼Claude-3.7(70.7)!

QwenLong-L1-14B 以68.3分碾壓Gemini-2.0(65.7),甚至比自家32B基礎模型還強!

關鍵結論:

單純監督式學習(SFT)只能提升0.8分,強化學習(RL)直接拉高5.1分!

模型在長文本中學會了「畫重點」、「自我糾錯」。

案例分析

案例一:計算企業融資成本

舊模型:被財務報表細節搞混,算錯利息(答成20.4萬美元)

新模型:主動回溯文件,排除干擾資訊,最終算出正確答案32.4萬美元!

案例二:推斷貸款利息

新模型透過「分步目標」、「自我驗證」,從49頁法律文件中精準提取數據,算出98萬美元利息。

展望:無限長文本處理不再是夢

論文提出三個方向:

任務擴展:自動科研、長影片分析等情境

架構升級:使用線性注意力機制降低計算成本

訓練範式革新:將長文本拆解成「多輪對話」逐步優化

或許未來,AI能幫你讀完一整部《三體》並寫出深度解析!

備註:暱稱-學校/公司-方向/會議(例如ACL),進入技術/投稿群

id:DLNLPer,記得備註喔

主標籤:大型語言模型

次標籤:強化學習人工智慧研究文本推理長上下文處理


上一篇:五大場景實測Manus、Flowith、Lovart:20 美元能否撬動Agent百倍效率?

下一篇:總結!2025年大型語言模型代理強化學習多輪規劃技術

分享短網址