カテゴリー: 推論最適化
- Transformerキラー!Google DeepMindの新たなMoRアーキテクチャが登場、新時代の魔王が来た
- KVキャッシュ10%で無損失の数学的推論を実現!推論大規模モデルの「メモリ過負荷」問題を解決するこのオープンソース手法
- SFTもRLも不要、サンプルレベルの推論最適化ツール「SLOT」が登場、精度が楽々+10%向上
- Andrej Karpathy が絶賛!スタンフォード大学チームの新作、Llama-1B でミリ秒級推論を実現
- ICML 2025 | トレーニング不要、大規模モデルの好み即時アラインメント
- Qwenのブレークスルー:「並列計算」で「パラメータの積み重ね」を代替、新手法でメモリ22倍削減、遅延6倍削減