分類: 語言模型
- 錯越多學越快!「軌跡重寫」技術讓 AI 智能體從失敗中創造完美經驗!
- 微軟提出 GRPO-RoC:軌跡品質過濾是代理式強化學習的關鍵
- 對喔!為什麼語言模型不能直接輸出答案與其置信度呢?
- How Does Claude 4 Think? Senior Researchers Respond: RLHF Paradigm is Out, RLVR Proven in Programming/Mathematics
- 可靠的Agent應該用哪個模型?LLM多輪對話中的「迷失」現象 | 微軟最新
- 專業醫師遠不如AI模型?OpenAI推出醫療開源測試基準HealthBench,o3表現最強
- NVIDIA讓AI更聰明地使用工具:Nemotron-Research-Tool-N1模型深度解析