最新文章
所有文章

繁體中文

分類：強化學習

GRPO = 進階版拒絕取樣？強化學習去魅時刻：負樣本「去蕪存菁」才是關鍵！
僅用圖像也能思考，強化學習開創推理模型新典範！複雜場景規劃能力極大化
How Does Claude 4 Think? Senior Researchers Respond: RLHF Paradigm is Out, RLVR Proven in Programming/Mathematics
大模型首次打破圍棋思維「黑盒」，打通科學發現新路徑！上海AI Lab發布新一代InternThinker
ZeroSearch：<阿里技術> 無需瀏覽器，大型語言模型自己獎勵學習
利用全球閒置算力訓練模型，性能媲美R1，老黃天塌了！Karpathy曾投資它
NVIDIA讓AI更聰明地使用工具：Nemotron-Research-Tool-N1模型深度解析
ZeroSearch：零搜索強化激勵模型潛能，LLM 搜索能力開啟新紀元
史丹佛以弱馭強W4S：用Meta-Agent駕馭更強LLM，準確率提升至95.4%
僅需 1 個數據，就能讓大型模型的數學推理效能大大增強？
「經驗時代」將在網路上釋放自我學習的 AI 代理 — 如何做好準備
強化學習演算法梳理：從 PPO 到 GRPO 再到 DAPO
多模態大語言模型基於規則強化微調中的顯式思考研究
NVIDIA Llama Nemotron 系列模型：關鍵技術解析
LLM 智能體為何表現欠佳？Google DeepMind 研究發現三大失敗模式，RL 微調可緩解
破解AI訓練中「只學不練」與「只練不學」的困境
AI的下半場：從演算法到效用
基於強化學習的多模態大語言模型推理能力研究綜述

←
1
2
3
→

2025 AINews. All rights reserved.