最新文章
所有文章

繁體中文

分類：語言模型

錯越多學越快！「軌跡重寫」技術讓 AI 智能體從失敗中創造完美經驗！
微軟提出 GRPO-RoC：軌跡品質過濾是代理式強化學習的關鍵
對喔！為什麼語言模型不能直接輸出答案與其置信度呢？
How Does Claude 4 Think? Senior Researchers Respond: RLHF Paradigm is Out, RLVR Proven in Programming/Mathematics
可靠的Agent應該用哪個模型？LLM多輪對話中的「迷失」現象 | 微軟最新
專業醫師遠不如AI模型？OpenAI推出醫療開源測試基準HealthBench，o3表現最強
NVIDIA讓AI更聰明地使用工具：Nemotron-Research-Tool-N1模型深度解析

←
1
→

2025 AINews. All rights reserved.