分類: 強化學習
- GRPO = 進階版拒絕取樣?強化學習去魅時刻:負樣本「去蕪存菁」才是關鍵!
- 僅用圖像也能思考,強化學習開創推理模型新典範!複雜場景規劃能力極大化
- How Does Claude 4 Think? Senior Researchers Respond: RLHF Paradigm is Out, RLVR Proven in Programming/Mathematics
- 大模型首次打破圍棋思維「黑盒」,打通科學發現新路徑!上海AI Lab發布新一代InternThinker
- ZeroSearch:<阿里技術> 無需瀏覽器,大型語言模型自己獎勵學習
- 利用全球閒置算力訓練模型,性能媲美R1,老黃天塌了!Karpathy曾投資它
- NVIDIA讓AI更聰明地使用工具:Nemotron-Research-Tool-N1模型深度解析
- ZeroSearch:零搜索強化激勵模型潛能,LLM 搜索能力開啟新紀元
- 史丹佛以弱馭強W4S:用Meta-Agent駕馭更強LLM,準確率提升至95.4%
- 僅需 1 個數據,就能讓大型模型的數學推理效能大大增強?
- 「經驗時代」將在網路上釋放自我學習的 AI 代理 — 如何做好準備
- 強化學習演算法梳理:從 PPO 到 GRPO 再到 DAPO
- 多模態大語言模型基於規則強化微調中的顯式思考研究
- NVIDIA Llama Nemotron 系列模型:關鍵技術解析
- LLM 智能體為何表現欠佳?Google DeepMind 研究發現三大失敗模式,RL 微調可緩解
- 破解AI訓練中「只學不練」與「只練不學」的困境
- AI的下半場:從演算法到效用
- 基於強化學習的多模態大語言模型推理能力研究綜述