分類: 大型語言模型
- 10行程式碼,AIME24/25提升15%!揭密大型模型強化學習的熵機制
- 讓AI也能「權衡利弊」?DecisionFlow讓大型語言模型更理解高風險決策!
- 模型越聰明越「不聽話」?MathIF基準揭示AI服從性漏洞
- 首個基因推理AI橫空出世!準確率飆升至97%,徹底改變基因體學研究
- 過程監督>結果監督!華為港城重構RAG推論訓練,5k樣本效能超越90k模型
- 整理RL推理的進展
- OPA-DPO:多模態大型模型幻覺問題的高效解決方案
- AI僅憑「自信」學會推理,浙大校友復刻DeepSeek長思維鏈湧現,強化學習無需外部獎勵訊號
- 北京大學校友翁荔最新部落格:Why We Think
- LSTM之父22年前構想將成真?AI「自我演化」論文一週內集中發表,新趨勢湧現?
- AI數學能力飆升100%,自進化逼近強化學習極限!CMU新作顛覆認知
- 首次解釋LLM如何推論反思!西北大學、Google新框架:引入貝葉斯自適應強化學習,全面提升數學推論能力
- AI竟會「自己認錯」?破解多智能體協作「羅生門」,斬獲ICML 2025 Spotlight
- 史丹佛華人團隊爆冷門!AI用純CUDA-C編寫核心程式碼,竟然超越PyTorch?
- 大型語言模型數獨解不好?!Transformer 作者新創公司公布排行榜:o3 Mini High「變異數獨」正確率僅 2.9%
- Andrej Karpathy 盛讚!史丹佛團隊新作,讓 Llama-1B 實現毫秒級推論
- 清華大學新RAG架構:DO-RAG 準確率飆升33%!
- LLM 結合 RL 遭質疑:刻意使用錯誤獎勵,數學基準竟也顯著提升,AI 圈為之震驚
- Qwen團隊發布長上下文推理模型QwenLong-L1,超越o3-mini
- All-In Podcast 實錄:Gemini 引領「無限上下文」,AI 正從工具躍升為認知協作者
- Llama 論文作者「出走」,14 人團隊僅剩 3 人,法國獨角獸 Mistral 成最大贏家
- ICML 2025 | 用『人類測驗法』戳破AI泡沫:建構能力導向的自適應評測新範式
- 阿里巴巴開源Qwen新模型,端午節禮物來囉!
- ICML 2025 | 又快又強的獅虎獸!僅20M詞元微調,Transformer秒切線性RNN
- GRPO = 進階版拒絕取樣?強化學習去魅時刻:負樣本「去蕪存菁」才是關鍵!