カテゴリー: 強化学習
- 衝撃!DeepSeekが正式に2つのモデルをリリース
- 米空軍、高度な兵棋演習にAIを統合
- え?RLVRは新しい知識を学んでいるのではなく、知識をどのように使って推論するかを学んでいる!
- NVIDIA、10億ドルをこのAIコーディングスタートアップに投入予定!Copilot技術の重鎮が率い、設立2年で評価額約1兆円
- RLはより記憶を保持、SFTは忘れやすい?プリンストン陳丹琦チームが後訓練の認知を書き換え
- 小紅書がDeepEyesV2を提案、「画像思考」から「ツール協同」へ、多モーダル知能の新次元を探求
- マイクロソフトがGADフレームワークを提案:オープンソースモデルもブラックボックスGPT-5を直接蒸留可能
- 強化学習+大規模モデルの記憶:Mem-α、エージェントが「記憶する方法」を初めて学ぶ
- 上海交通大学博士の最新考察:2つの質問だけで強化学習を明確にする
- Metaの最新エージェント学習論文2編が興味深い!
- 失敗するほど学習が速くなる!軌跡リライティング技術により、エージェントは失敗から完璧な経験を創造する!
- 初のマルチラウンドLLMルーター「Router-R1」が登場、大規模モデルに「思考–ルーティング–集約」を学習させる
- プリンストン大学陳丹琦グループの新作:RLHFでは不十分、RLVRには限界?RLMTが第三の道を切り開く
- MicrosoftがGRPO-RoCを提案:エージェント型強化学習の鍵は軌跡品質フィルタリング
- ByteDance、LLM強化学習における「エントロピー」の呪いを打破し、モデルの確実な成長を可能に!
- スタンフォードが新たな強化学習パラダイムを提案:3BモデルエージェントがClaude、GPT-4を凌駕
- MicrosoftがrStar2-Agentを発表:「より賢く考える」ことは、単に「より長く考える」よりもはるかに効果的で効率的である
- 数学ランキングを席巻するLLM、会話の仕方を忘れる?CMUらがSFTとRLの驚くべき違いを明らかに!
- 強化学習フレームワークの進化と開発トレンド
- ARPO:エージェント型強化学習方策最適化、エージェントが重要な瞬間にさらに一歩探索することを可能に
- RAG革命!Graph-R1、初のRL駆動グラフ推論エージェント
- Qwen3が廃止した混合推論モードを振り返る
- 言語モデルはなぜ解答と確信度を直接出力できないのか?
- DeepSeek-GRPOの重要度重み設計の欠陥?Qwen3の新しい強化学習アルゴリズムGSPOを解説
- RLの直感に反する研究:LLMに直接解答を与える方が、詳細な手順を示すよりも効果的!