最新文章
所有文章

繁體中文

分類：強化學習

LLM 已能自我更新權重，自適應、知識整合能力大幅提升，AI 覺醒了？
SRO 架構賦予 Qwen-2.5-VL 推理能力，效能飆升 16.8%
大模型強化學習新突破——SPO新範式助力大模型推論能力提升！
SFT+RL雙階段訓練突破大型語言模型自我監督！人大DeepCritic實現AI批判自主進化
類R1訓練不再只看結果對錯！港中文推出SophiaVL-R1模型
首個多模態專用慢思維框架！超越GPT-o1近7個百分點，強化學習教VLM「三思而後行」
10行程式碼，AIME24/25提升15%！揭密大型模型強化學習的熵機制
過程監督>結果監督！華為港城重構RAG推論訓練，5k樣本效能超越90k模型
AI僅憑「自信」學會推理，浙大校友復刻DeepSeek長思維鏈湧現，強化學習無需外部獎勵訊號
北京大學校友翁荔最新部落格：Why We Think
LSTM之父22年前構想將成真？AI「自我演化」論文一週內集中發表，新趨勢湧現？
AI數學能力飆升100%，自進化逼近強化學習極限！CMU新作顛覆認知
首次解釋LLM如何推論反思！西北大學、Google新框架：引入貝葉斯自適應強化學習，全面提升數學推論能力
LLM 結合 RL 遭質疑：刻意使用錯誤獎勵，數學基準竟也顯著提升，AI 圈為之震驚
總結！2025年大型語言模型代理強化學習多輪規劃技術
Qwen團隊發布長上下文推理模型QwenLong-L1，超越o3-mini
GRPO = 進階版拒絕取樣？強化學習去魅時刻：負樣本「去蕪存菁」才是關鍵！
僅用圖像也能思考，強化學習開創推理模型新典範！複雜場景規劃能力極大化
How Does Claude 4 Think? Senior Researchers Respond: RLHF Paradigm is Out, RLVR Proven in Programming/Mathematics
大模型首次打破圍棋思維「黑盒」，打通科學發現新路徑！上海AI Lab發布新一代InternThinker
ZeroSearch：<阿里技術> 無需瀏覽器，大型語言模型自己獎勵學習
利用全球閒置算力訓練模型，性能媲美R1，老黃天塌了！Karpathy曾投資它
NVIDIA讓AI更聰明地使用工具：Nemotron-Research-Tool-N1模型深度解析
ZeroSearch：零搜索強化激勵模型潛能，LLM 搜索能力開啟新紀元
史丹佛以弱馭強W4S：用Meta-Agent駕馭更強LLM，準確率提升至95.4%

←
1
2
3
→

2025 AINews. All rights reserved.