AINews
最新文章
所有文章
繁體中文
Light
Dark
System
分類: 強化學習
僅需 1 個數據,就能讓大型模型的數學推理效能大大增強?
「經驗時代」將在網路上釋放自我學習的 AI 代理 — 如何做好準備
強化學習演算法梳理:從 PPO 到 GRPO 再到 DAPO
多模態大語言模型基於規則強化微調中的顯式思考研究
NVIDIA Llama Nemotron 系列模型:關鍵技術解析
LLM 智能體為何表現欠佳?Google DeepMind 研究發現三大失敗模式,RL 微調可緩解
破解AI訓練中「只學不練」與「只練不學」的困境
AI的下半場:從演算法到效用
基於強化學習的多模態大語言模型推理能力研究綜述
←
1
2
3
→