分類: 強化學習
- LLM 已能自我更新權重,自適應、知識整合能力大幅提升,AI 覺醒了?
- SRO 架構賦予 Qwen-2.5-VL 推理能力,效能飆升 16.8%
- 大模型強化學習新突破——SPO新範式助力大模型推論能力提升!
- SFT+RL雙階段訓練突破大型語言模型自我監督!人大DeepCritic實現AI批判自主進化
- 類R1訓練不再只看結果對錯!港中文推出SophiaVL-R1模型
- 首個多模態專用慢思維框架!超越GPT-o1近7個百分點,強化學習教VLM「三思而後行」
- 10行程式碼,AIME24/25提升15%!揭密大型模型強化學習的熵機制
- 過程監督>結果監督!華為港城重構RAG推論訓練,5k樣本效能超越90k模型
- AI僅憑「自信」學會推理,浙大校友復刻DeepSeek長思維鏈湧現,強化學習無需外部獎勵訊號
- 北京大學校友翁荔最新部落格:Why We Think
- LSTM之父22年前構想將成真?AI「自我演化」論文一週內集中發表,新趨勢湧現?
- AI數學能力飆升100%,自進化逼近強化學習極限!CMU新作顛覆認知
- 首次解釋LLM如何推論反思!西北大學、Google新框架:引入貝葉斯自適應強化學習,全面提升數學推論能力
- LLM 結合 RL 遭質疑:刻意使用錯誤獎勵,數學基準竟也顯著提升,AI 圈為之震驚
- 總結!2025年大型語言模型代理強化學習多輪規劃技術
- Qwen團隊發布長上下文推理模型QwenLong-L1,超越o3-mini
- GRPO = 進階版拒絕取樣?強化學習去魅時刻:負樣本「去蕪存菁」才是關鍵!
- 僅用圖像也能思考,強化學習開創推理模型新典範!複雜場景規劃能力極大化
- How Does Claude 4 Think? Senior Researchers Respond: RLHF Paradigm is Out, RLVR Proven in Programming/Mathematics
- 大模型首次打破圍棋思維「黑盒」,打通科學發現新路徑!上海AI Lab發布新一代InternThinker
- ZeroSearch:<阿里技術> 無需瀏覽器,大型語言模型自己獎勵學習
- 利用全球閒置算力訓練模型,性能媲美R1,老黃天塌了!Karpathy曾投資它
- NVIDIA讓AI更聰明地使用工具:Nemotron-Research-Tool-N1模型深度解析
- ZeroSearch:零搜索強化激勵模型潛能,LLM 搜索能力開啟新紀元
- 史丹佛以弱馭強W4S:用Meta-Agent駕馭更強LLM,準確率提升至95.4%