類R1訓練不再只看結果對錯!港中文推出SophiaVL-R1模型

圖片

MLNLP 社群是國內外知名的機器學習與自然語言處理社群,受眾涵蓋國內外自然語言處理碩博士生、大學教師以及企業研究人員。

社群的願景是促進國內外自然語言處理、機器學習學術界、產業界和廣大愛好者之間的交流與進步,特別是初學者同學們的進步。

來源 | 機器之心

DeepSeek-R1 爆紅後,類 R1 的結果獎勵訓練範式在各領域掀起了推理熱潮。基於規則的結果獎勵實現簡單、判斷嚴格。但是,這樣真的足夠嗎?

在推理任務中,如果我們只用「結果對錯」來獎勵模型,那模型就很可能學會「抄捷徑答題」。

這種模式下,模型的「正確思考策略」沒有完全建立起來,它甚至會因為一次「瞎猜對」的獎勵,而在之後反覆強化錯誤策略,越走越偏。

為了解決這個問題,香港中文大學聯合上海人工智慧實驗室團隊發布了多模態推理模型 SophiaVL-R1,它在類 R1 強化學習訓練框架上做了一次關鍵進化:不再只獎勵結果是否正確,而是將「思考過程」也納入獎勵體系。

圖片

論文連結:https://arxiv.org/abs/2505.17018

專案地址:https://github.com/kxfan2002/SophiaVL-R1

這套設計不僅能讓模型學會更通用、更可靠的推理策略,還顯著提升了泛化能力——在多個數學和通用多模態基準測試中,SophiaVL-R1-7B 甚至擊敗了參數量是其 10 倍的 LLaVA-OneVision-72B 模型。目前,研究團隊已將所有模型、資料和程式碼開源。

思考過程也要評分,才是好模型

SophiaVL-R1 的關鍵突破點,就在於它引入了「思考獎勵」機制——不再只看答案對不對,而是開始評估模型整個推理過程是否合理、連貫、可靠。

圖片

研究團隊精心製作了一個思考過程評分資料集,包含多樣化的思考模式和錯誤,並訓練了一個「思考評分模型」,基於多個角度對思考過程輸出一個整體的評分。

舉例來說,某段推理過程答案正確,但中間邏輯跳躍明顯、甚至完全胡扯,那這個過程可能只能得到 0.3 的思考分數;而另一個推理過程最終也選擇了 B,但過程縝密、推導清晰,思考分數可能達到 0.9。就像老師批改考卷,不只是看結果,還會給「過程分」。

圖片

這一招,不僅提升了模型推理品質,更重要的是——它教會模型「怎麼想」,而不是「怎麼猜」。

SophiaVL-R1 的「獎勵改革」

不過,將「過程」納入獎勵機制,並不意味著直接相加就能奏效。

由於模型生成的思考過程是自由文本,容易「偽裝認真」——例如它可能寫了一長段看似合理的「邏輯」,但其實是在重複廢話,甚至是掩蓋思考漏洞。這種獎勵欺騙(Reward Hacking)現象是強化學習中極常見的問題。

圖片

為了解決這個痛點,SophiaVL-R1 引入了一個名為 Trust-GRPO 的訓練演算法,它的核心理念是:基於 GRPO 組內資訊判斷思考獎勵的可信程度。

該方法透過對同一問題中,正確與錯誤答案對應的思維獎勵進行對比,如果發現錯誤答案獲得的思維獎勵異常高,就會自動降低該獎勵的可信度評分,從而提升整體訓練的穩定性與可信性。一個例子如下圖所示。

圖片

實驗結果

在多項常用的評測基準中(MMMU、MME、MathVista 等),SophiaVL-R1-7B 展現出極為強大的推理能力和泛化能力,與 GRPO、SFT+GRPO 和基於 PRM 的方法相比都極具競爭力,在多個多模態數學和通用評測資料集上表現直接對標甚至超越了其參數量 10 倍的 LLaVA-OneVision-72B 模型。

圖片

圖片

這說明了一個非常核心的重點:推理能力,是靠正確的訓練範式培養出來的。SophiaVL-R1 的成功,正是對這一點的最佳註解。

在消融實驗中,也可以發現,SophiaVL-R1 的各個部分都是有效的。

圖片

同時,從訓練曲線來看,SophiaVL-R1 不僅訓練得更好,而且訓練得更快,說明了思考獎勵訊號的有效性與 Trust-GRPO 演算法的重要性。

圖片

一些 SophiaVL-R1 的推理範例如下所示,可以看到,模型能夠輸出高品質的推理過程。

圖片

圖片

更多細節請參考論文原文。

技術交流群邀請函

圖片

△長按新增小助手

掃描 QR Code 新增小助手微信

請備註:姓名-學校/公司-研究方向

(如:小張-哈工大-對話系統)

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合建構的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習、自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平台。歡迎大家關注和加入我們。

圖片

主標籤:多模態人工智慧

次標籤:機器學習模型訓練深度學習強化學習


上一篇:首個多模態專用慢思維框架!超越GPT-o1近7個百分點,強化學習教VLM「三思而後行」

下一篇:華頓商學院教授Ethan:我們真的在使用AI嗎?還是只是讓它填補空缺、節省成本、加速走向滅絕?

分享短網址