分類: 機器學習
- Meta 發現:RAG 系統過慢是因為做了太多無用功
- 遞迴推理HRM模型再進化!TRM兩層網路(7M參數)擊敗大型語言模型!
- 微軟提出 GRPO-RoC:軌跡品質過濾是代理式強化學習的關鍵
- 破除大型語言模型強化學習訓練中的「熵」詛咒,讓模型學會穩定成長!
- 史丹佛最新研究:最強LLM也搞不定前瞻程式碼!Gemini 2.5 Pro成功率不足40%
- 獎勵模型新革命!SWIFT不讀文本讀「心聲」,打造又快又強又省錢的AI裁判
- GPT-5 等於擴展法則失靈?畢樹超:永遠有效,因為它反映的是資料結構,是客觀規律
- AI 修復錯誤新 SOTA:SWE-Bench Lite 修正率達 60.33%,能像人一樣累積經驗,中科院軟體所出品
- ReaGAN:讓圖中每個節點都成為智能推理專家
- 超越人類標註,Meta 提出 CoT-Self-Instruct:如何用「推理式自進化」重塑大型語言模型訓練
- Dualformer:透過隨機推理軌跡學習實現可控的快速與慢速思考
- 多模態大型語言模型真的「理解」世界嗎?——揭露多模態大型語言模型的核心知識缺陷
- 數學訓練如何「解鎖」大型模型的通用推理能力?最新研究揭示關鍵機制
- 吳恩達推出大型語言模型(LLM)後訓練免費課程,涵蓋三大調優方法:SFT、DPO、RL
- 持續強化學習技術最新綜述
- 阿里巴巴深夜開源「王牌」Agent!硬槓OpenAI,性能全面超越SOTA!
- RAG開發者必看Google新論文MUVERA:讓多向量檢索與單向量搜尋一樣快
- 推理越多,幻覺越重?多模態推理模型的「幻覺悖論」
- 解讀大型推理模型的「思維奧秘」:從「推理圖」視角看模型的「啊哈時刻」
- 邊畫邊想!多模態推理迎來巨大提升!
- 爆肝一篇部落格就拿到 OpenAI Offer!Muon 作者怒揭:幾乎所有優化器論文都是「假的」
- Midjourney 進軍影片生成,圖像模型 V7 持續更新,視覺霸主實至名歸
- 字節跳動Seed新作DeltaFormer:下一世代模型架構的嘗試
- LLM 已能自我更新權重,自適應、知識整合能力大幅提升,AI 覺醒了?
- 何愷明新作:為擴散模型加入正規化,無需預訓練與資料增強,超簡單實現效能提升