カテゴリー: モデル最適化
- 報酬モデルの新たな革命!SWIFTはテキストではなく「心の声」を読み取り、高速かつ強力で経済的なAI評価者を生み出す
- Attentionが集中しない?中国人民大学と清華大学が「LeaF」を共同提案:妨害トークンを剪定し、モデルの能動的な焦点化を促す
- 「量こそ力」は機能不全?ModelSwitchがサンプリングのブラックホールから脱却し、大規模言語モデルの推論パラダイムを刷新
- Mianbi MiniCPM4:推論速度が3倍、同サイズのQwen3を圧倒、アリババも注目!
- エッジデバイスでの長文処理時代を切り開く!OpenBMBの新アーキテクチャでMiniCPMが最大220倍高速化
- 【深層学習】Mamba主要著者の新作:DeepSeek採用のアテンションメカニズムを置き換え、推論専用に設計