AINews
  • 最新文章
  • 所有文章
  • 繁體中文

    分類: 監督微調

    • 強化學習(RL)記憶更牢固,監督微調(SFT)更容易遺忘?普林斯頓陳丹琦團隊改寫後訓練認知
    • SFT+RL雙階段訓練突破大型語言模型自我監督!人大DeepCritic實現AI批判自主進化
    • ←
    • 1
    • →
    2025 AINews. All rights reserved.