AINews
最新文章
所有文章
繁體中文
Light
Dark
System
分類: 注意力機制
硬核解析大型語言模型:從 DeepSeek-V3 到 KimiK2,一篇文看懂主流 LLM 架構
注意力總是發散?人大與清華大學聯合提出LeaF:移除干擾型Token,引導模型學會自主聚焦
必讀好文:主流大型語言模型架構深度對比,涵蓋 Llama、Qwen、DeepSeek 等六大模型
Kimi K2關鍵訓練技術QK-Clip!
【深度學習】Mamba核心作者新發表:取代DeepSeek現行注意力機制,專為推論打造
全局注意力+位置注意力刷新SOTA!精度近乎100%!
←
1
→