カテゴリー: マルチモーダルAI
- 手動アノテーションを不要に!華人チームがマルチモーダル大規模モデルの自己進化アルゴリズムを提案
- Xiaohongshu、初のマルチモーダル大規模モデルdots.vlm1をオープンソース化、SOTAに迫る性能を発揮!
- マルチモーダル大規模言語モデルは本当に世界を「理解」しているのか?——MLLMの核心知識の欠陥を解き明かす
- 推論が増えるほど幻覚は深刻化するか?マルチモーダル推論モデルの「幻覚のパラドックス」
- 「待つ」を減らし、問題解決を増やす:NoWaitが大規模モデルの推論パスを再構築
- 描きながら考える!マルチモーダル推論が大幅に向上!
- R1型訓練はもはや結果の正誤だけでなく!香港中文大学がSophiaVL-R1モデルを発表
- 初のマルチモーダル専用スローシンキングフレームワーク!GPT-o1を7ポイント近く上回り、強化学習がVLMに「熟考」を促す
- OPA-DPO:マルチモーダル大規模モデルにおける幻覚問題の効率的な解決策
- LSTMの父が22年前に構想したアイデアは実現するのか?AI「自己進化」に関する論文が1週間で集中公開、新たなトレンドが台頭?
- 混合思考フレームワークMoT:モデルが「人間らしい思考」を学ぶことを可能に
- 画像だけで思考可能、強化学習が推論モデルの新パラダイムを創出!複雑なシーンの計画能力を最大化
- Gemini Diffusionよりも万能!初のマルチモーダル拡散型大規模言語モデルMMaDAが発表、強力な推論と高い制御性を両立
- RAG、Agent、マルチモーダルの産業実践と将来のトレンドを徹底解説
- マルチモーダル大規模モデルが軒並み失敗、GPT-4oの安全合格率はわずか50%:SIUOがクロスモーダルな安全盲点を明らかに
- Step Aheadの段楠氏との対話:「Diffusion能力の限界に触れているのかもしれない」
- コスト1/8でClaude 3.7に匹敵、「欧州のOpenAI」Mistral AIがマルチモーダル新モデルを発表