分類: 模型訓練
- 普林斯頓陳丹琦組新作:RLHF難支撐,RLVR有邊界?RLMT開闢第三條路
- 字節 Seed 提出 TreePO:以樹狀結構節省近半 GPU 成本,同時維持更穩定的性能
- 橫掃數學榜的LLM,卻忘了如何聊天?CMU等揭示SFT與RL的驚人差異!
- 回顧Qwen3廢棄的混合推理模式
- 數學訓練如何「解鎖」大型模型的通用推理能力?最新研究揭示關鍵機制
- NVIDIA(ProRL)|強化學習究竟能否提升大型語言模型的推理上限?
- 越髒越安全?哈佛團隊最新研究:10%毒性訓練讓大型模型百毒不侵
- 類R1訓練不再只看結果對錯!港中文推出SophiaVL-R1模型
- 整理RL推理的進展
- 「從零開始,僅需8元+9小時!完整Tiny LLM訓練教程,包含推理、MoE等」
- AM-Thinking-v1:在32B規模推進推理能力的前沿
- 中興通訊無線研究院「大模型深潛團隊」發布 LLM 自適應題目難度蒸餾方法,大幅提升小模型推理能力
- 新書《Reasoning From Scratch》第一章釋出,Sebastian Raschka 談 LLM 推理、模式匹配和基礎訓練