最新文章
所有文章

繁體中文

分類：監督微調

強化學習（RL）記憶更牢固，監督微調（SFT）更容易遺忘？普林斯頓陳丹琦團隊改寫後訓練認知
SFT+RL雙階段訓練突破大型語言模型自我監督！人大DeepCritic實現AI批判自主進化

←
1
→

2025 AINews. All rights reserved.