AINews
  • 最新文章
  • 所有文章
  • 繁體中文

    分類: 強化學習

    • 僅需 1 個數據,就能讓大型模型的數學推理效能大大增強?
    • 「經驗時代」將在網路上釋放自我學習的 AI 代理 — 如何做好準備
    • 強化學習演算法梳理:從 PPO 到 GRPO 再到 DAPO
    • 多模態大語言模型基於規則強化微調中的顯式思考研究
    • NVIDIA Llama Nemotron 系列模型:關鍵技術解析
    • LLM 智能體為何表現欠佳?Google DeepMind 研究發現三大失敗模式,RL 微調可緩解
    • 破解AI訓練中「只學不練」與「只練不學」的困境
    • AI的下半場:從演算法到效用
    • 基於強化學習的多模態大語言模型推理能力研究綜述
    • ←
    • 1
    • 2
    • 3
    • →
    2025 AINews. All rights reserved.