分類: 強化學習
- 錯越多學越快!「軌跡重寫」技術讓 AI 智能體從失敗中創造完美經驗!
- 捨棄人工標註!華人團隊提出多模態大模型自我演化演算法
- 首個多輪LLM路由器問世:Router-R1讓大型模型學會「思考–路由–聚合」
- 普林斯頓陳丹琦組新作:RLHF難支撐,RLVR有邊界?RLMT開闢第三條路
- Agentic Coding表現創新高,全新KAT系列模型強力稱霸SWE-Bench
- 大模型訓練新突破!Meta提出LSP:無數據也能實現能力飛升
- 微軟提出 GRPO-RoC:軌跡品質過濾是代理式強化學習的關鍵
- 破除大型語言模型強化學習訓練中的「熵」詛咒,讓模型學會穩定成長!
- 史丹佛提出新強化學習範式,讓3B模型智能體超越Claude、GPT-4
- 字節 Seed 提出 TreePO:以樹狀結構節省近半 GPU 成本,同時維持更穩定的性能
- 微軟提出rStar2-Agent:「更聰明地思考」遠比單純地「更長時間地思考」更有效率、更高效
- 橫掃數學榜的LLM,卻忘了如何聊天?CMU等揭示SFT與RL的驚人差異!
- 強化學習框架的演進與發展趨勢
- ARPO:智能體強化策略優化,讓Agent在關鍵時刻多探索一步
- RAG 革新!Graph-R1:首個由強化學習驅動的圖推理代理
- 回顧Qwen3廢棄的混合推理模式
- 對喔!為什麼語言模型不能直接輸出答案與其置信度呢?
- DeepSeek-GRPO重要性權重設計錯誤?詳解Qwen3新強化學習演算法GSPO
- 阿里巴巴深夜開源「王牌」Agent!硬槓OpenAI,性能全面超越SOTA!
- 強化學習(RL)規模化王牌!DeepSWE 開源 AI 代理登上榜首,訓練方法與權重全面公開
- 清華大學研究:再次翻轉?證實強化學習並未真正提升基礎模型推論能力!
- 清華等提出 Absolute Zero 自博弈大型模型,完全零資料訓練仍登頂多項任務
- AGI理論比較:主動推論、強化學習、控制論、貝氏腦、效用決策、有限理性、情感動機、動態體內平衡
- 大型語言模型(LLM)已能自我更新權重,自適應、知識整合能力大幅提升,AI 醒了?
- NVIDIA(ProRL)|強化學習究竟能否提升大型語言模型的推理上限?