AINews
  • 最新文章
  • 所有文章
  • 繁體中文

    分類: 注意力機制

    • 硬核解析大型語言模型:從 DeepSeek-V3 到 KimiK2,一篇文看懂主流 LLM 架構
    • 注意力總是發散?人大與清華大學聯合提出LeaF:移除干擾型Token,引導模型學會自主聚焦
    • 必讀好文:主流大型語言模型架構深度對比,涵蓋 Llama、Qwen、DeepSeek 等六大模型
    • Kimi K2關鍵訓練技術QK-Clip!
    • 【深度學習】Mamba核心作者新發表:取代DeepSeek現行注意力機制,專為推論打造
    • 全局注意力+位置注意力刷新SOTA!精度近乎100%!
    • ←
    • 1
    • →
    2025 AINews. All rights reserved.