分類: 大型語言模型
- 復刻 AlphaGo 時刻?Google 推出 LLM 評估新範式 Game Arena:八大模型參賽,棋王擔任裁判
- RAG也能推理思考!徹底解決多源異構知識難題
- 盤點一下!大型模型訓練的時間都花在哪了?
- DeepSeek R2 秘密武器曝光!梁文鋒剛拿下頂級大獎的技術,讓 AI 讀長文速度狂飆 11 倍
- 人工智慧安全與沉思:心靈與通用人工智慧對齊的計算模型
- 凌晨時分,Qwen再次更新,RTX 3090 即可運行,30億參數激活可媲美 GPT-4o
- 多模態大型語言模型真的「理解」世界嗎?——揭露多模態大型語言模型的核心知識缺陷
- 分層推論模型 Hierarchical Reasoning Model
- 對喔!為什麼語言模型不能直接輸出答案與其置信度呢?
- DeepSeek-GRPO重要性權重設計錯誤?詳解Qwen3新強化學習演算法GSPO
- 必讀好文:主流大型語言模型架構深度對比,涵蓋 Llama、Qwen、DeepSeek 等六大模型
- 碾壓DeepSeek V3!阿里巴巴開源新版Qwen-3,榜首級別的斷層領先
- 大模型再爆弱點!舊記憶忘不掉,新記憶分不清,準確度暴跌 | ICML'25
- Transformer終結者!Google DeepMind全新MoR架構問世,新一代魔王來了
- Meta團隊突破:大型模型「幻覺」暴跌至5%!一句話提問竟成關鍵?
- AI進化時間表已現!LLM每7個月能力翻倍,2030年職場不復存在?
- 數學訓練如何「解鎖」大型模型的通用推理能力?最新研究揭示關鍵機制
- 吳恩達推出大型語言模型(LLM)後訓練免費課程,涵蓋三大調優方法:SFT、DPO、RL
- 開發者遭 ChatGPT「趕鴨子上架」!AI 編造假功能,吸引大量用戶,被迫將其開發出來
- Claude Code 四個月內狂攬 11.5 萬開發者,每週重寫 1.95 億行程式碼,正瘋狂搶佔通往 AGI 的關鍵途徑
- AI科學家組團搞科研,爆肝萬字報告震驚醫學家!Nature獨家刊物揭露細節
- Claude 的 AI 含量超越 Cursor 一倍!資深工程主管揭露 AI 編碼真相!Google 謹慎地全面投入自主研發;軟體架構教父:猶如從組合語言時代躍遷至高階語言
- 清華大學研究:再次翻轉?證實強化學習並未真正提升基礎模型推論能力!
- 清華等提出 Absolute Zero 自博弈大型模型,完全零資料訓練仍登頂多項任務
- Bengio親自戳破CoT神話!大型語言模型推論是假象,25%頂尖會議論文遭打臉