カテゴリー: 強化学習
- Claude 4はどのように考えるのか?シニア研究者が回答:RLHFパラダイムは過去のもの、RLVRはプログラミング/数学で実証済み
- 大規模モデルが初めて囲碁AIの「ブラックボックス」を破り、科学的発見の新たな道を開く!上海AI Labが新世代InternThinkerを発表
- ZeroSearch:「Alibaba Technology」ブラウザ不要、大規模言語モデルが自己報酬学習
- 世界中のアイドル計算能力でモデルを学習、性能はR1に匹敵、ジェンセン・ファンの空が崩壊!Karpathyもかつて投資
- NVIDIAがAIをより賢くツール利用可能に:Nemotron-Research-Tool-N1モデルの詳細解析
- ZeroSearch:ゼロ検索でLLMの潜在能力を促進、LLM検索能力の新時代を切り拓く
- たった1つのデータで、大規模言語モデルの数学的推論能力を大幅に向上させられるのか?
- スタンフォードの以弱馭強W4S:Meta-Agentでより強力なLLMを操縦、精度が95.4%に向上 | 最新
- 「経験の時代」は自己学習AIエージェントをウェブ全体に解き放つ — 準備方法はこちら
- 強化学習アルゴリズムの整理:PPOからGRPO、そしてDAPOへ
- ルールベース強化学習ファインチューニングにおける明示的思考の研究
- NVIDIA Llama Nemotronシリーズ:主要技術解説
- LLMエージェントのパフォーマンスが低い理由:Google DeepMindの研究が3つの失敗モードを明らかに、RLファインチューニングで緩和可能
- AI推論の「学ぶだけ」と「実践だけ」の課題を克服する新手法:LUFFY
- AIの後半戦:アルゴリズムから実用性へ
- 強化学習に基づくマルチモーダル大規模言語モデル推論能力に関する研究サーベイ