分類: 強化學習
- 重磅!DeepSeek 正式發佈 2 個模型
- 美空軍在高階兵棋推演中整合人工智慧
- 什麼?RLVR 竟然不是在學習新知識?而是在學習如何使用知識進行推理!
- 強化學習(RL)記憶更牢固,監督微調(SFT)更容易遺忘?普林斯頓陳丹琦團隊改寫後訓練認知
- 小紅書提出DeepEyesV2,從「看圖思考」到「工具協同」,探索多模態智能新維度
- 微軟提出GAD框架:開源模型也能直接蒸餾黑盒GPT-5
- 強化學習+大模型記憶:Mem-α,讓智能體第一次學會「如何記憶」
- 上海交大博士最新思辨:僅用兩個問題闡明強化學習
- Meta 這兩篇最新的智能體學習 (Agent Learning) 論文,有些意思!
- 錯越多學越快!「軌跡重寫」技術讓 AI 智能體從失敗中創造完美經驗!
- 捨棄人工標註!華人團隊提出多模態大模型自我演化演算法
- 首個多輪LLM路由器問世:Router-R1讓大型模型學會「思考–路由–聚合」
- 普林斯頓陳丹琦組新作:RLHF難支撐,RLVR有邊界?RLMT開闢第三條路
- Agentic Coding表現創新高,全新KAT系列模型強力稱霸SWE-Bench
- 大模型訓練新突破!Meta提出LSP:無數據也能實現能力飛升
- 微軟提出 GRPO-RoC:軌跡品質過濾是代理式強化學習的關鍵
- 破除大型語言模型強化學習訓練中的「熵」詛咒,讓模型學會穩定成長!
- 史丹佛提出新強化學習範式,讓3B模型智能體超越Claude、GPT-4
- 字節 Seed 提出 TreePO:以樹狀結構節省近半 GPU 成本,同時維持更穩定的性能
- 微軟提出rStar2-Agent:「更聰明地思考」遠比單純地「更長時間地思考」更有效率、更高效
- 橫掃數學榜的LLM,卻忘了如何聊天?CMU等揭示SFT與RL的驚人差異!
- 強化學習框架的演進與發展趨勢
- ARPO:智能體強化策略優化,讓Agent在關鍵時刻多探索一步
- RAG 革新!Graph-R1:首個由強化學習驅動的圖推理代理
- 回顧Qwen3廢棄的混合推理模式