最新文章
所有文章

繁體中文

分類：大型語言模型

復刻 AlphaGo 時刻？Google 推出 LLM 評估新範式 Game Arena：八大模型參賽，棋王擔任裁判
RAG也能推理思考！徹底解決多源異構知識難題
盤點一下！大型模型訓練的時間都花在哪了？
DeepSeek R2 秘密武器曝光！梁文鋒剛拿下頂級大獎的技術，讓 AI 讀長文速度狂飆 11 倍
人工智慧安全與沉思：心靈與通用人工智慧對齊的計算模型
凌晨時分，Qwen再次更新，RTX 3090 即可運行，30億參數激活可媲美 GPT-4o
多模態大型語言模型真的「理解」世界嗎？——揭露多模態大型語言模型的核心知識缺陷
分層推論模型 Hierarchical Reasoning Model
對喔！為什麼語言模型不能直接輸出答案與其置信度呢？
DeepSeek-GRPO重要性權重設計錯誤？詳解Qwen3新強化學習演算法GSPO
必讀好文：主流大型語言模型架構深度對比，涵蓋 Llama、Qwen、DeepSeek 等六大模型
碾壓DeepSeek V3！阿里巴巴開源新版Qwen-3，榜首級別的斷層領先
大模型再爆弱點！舊記憶忘不掉，新記憶分不清，準確度暴跌 | ICML'25
Transformer終結者！Google DeepMind全新MoR架構問世，新一代魔王來了
Meta團隊突破：大型模型「幻覺」暴跌至5%！一句話提問竟成關鍵？
AI進化時間表已現！LLM每7個月能力翻倍，2030年職場不復存在？
數學訓練如何「解鎖」大型模型的通用推理能力？最新研究揭示關鍵機制
吳恩達推出大型語言模型（LLM）後訓練免費課程，涵蓋三大調優方法：SFT、DPO、RL
開發者遭 ChatGPT「趕鴨子上架」！AI 編造假功能，吸引大量用戶，被迫將其開發出來
Claude Code 四個月內狂攬 11.5 萬開發者，每週重寫 1.95 億行程式碼，正瘋狂搶佔通往 AGI 的關鍵途徑
AI科學家組團搞科研，爆肝萬字報告震驚醫學家！Nature獨家刊物揭露細節
Claude 的 AI 含量超越 Cursor 一倍！資深工程主管揭露 AI 編碼真相！Google 謹慎地全面投入自主研發；軟體架構教父：猶如從組合語言時代躍遷至高階語言
清華大學研究：再次翻轉？證實強化學習並未真正提升基礎模型推論能力！
清華等提出 Absolute Zero 自博弈大型模型，完全零資料訓練仍登頂多項任務
Bengio親自戳破CoT神話！大型語言模型推論是假象，25％頂尖會議論文遭打臉

←
1
2
3
4
5
6
7
→

2025 AINews. All rights reserved.