AINews
  • 最新文章
  • 所有文章
  • 繁體中文

    分類: 模型訓練

    • 普林斯頓陳丹琦組新作:RLHF難支撐,RLVR有邊界?RLMT開闢第三條路
    • 字節 Seed 提出 TreePO:以樹狀結構節省近半 GPU 成本,同時維持更穩定的性能
    • 橫掃數學榜的LLM,卻忘了如何聊天?CMU等揭示SFT與RL的驚人差異!
    • 回顧Qwen3廢棄的混合推理模式
    • 數學訓練如何「解鎖」大型模型的通用推理能力?最新研究揭示關鍵機制
    • NVIDIA(ProRL)|強化學習究竟能否提升大型語言模型的推理上限?
    • 越髒越安全?哈佛團隊最新研究:10%毒性訓練讓大型模型百毒不侵
    • 類R1訓練不再只看結果對錯!港中文推出SophiaVL-R1模型
    • 整理RL推理的進展
    • 「從零開始,僅需8元+9小時!完整Tiny LLM訓練教程,包含推理、MoE等」
    • AM-Thinking-v1:在32B規模推進推理能力的前沿
    • 中興通訊無線研究院「大模型深潛團隊」發布 LLM 自適應題目難度蒸餾方法,大幅提升小模型推理能力
    • 新書《Reasoning From Scratch》第一章釋出,Sebastian Raschka 談 LLM 推理、模式匹配和基礎訓練
    • ←
    • 1
    • →
    2025 AINews. All rights reserved.