カテゴリー: 大規模言語モデル
- 史上最大規模の高品質科学推論後学習データセットがオープンソース化、Qwen3などを素早く「科学者」に
- 王夢迪チームによる「自己進化エージェント」の総説:静的LLMから汎用人工超知能(ASI)へ
- 大規模モデルの「闇落ち」スイッチ!Anthropicチームの新作:大規模モデルの人格変数がついに人類に発見される!ペルソナドリフトツールチェーンを提案し、モデルを狂わせるブラックボックスを最終的に解明
- Attentionが集中しない?中国人民大学と清華大学が「LeaF」を共同提案:妨害トークンを剪定し、モデルの能動的な焦点化を促す
- モデルは本当に「コードの自己修正」ができるのか?北航がリポジトリレベルの理解生成ベンチマークを発表し、LLM理解評価パラダイムを刷新
- ReaGAN:グラフ内の各ノードをインテリジェントな推論エキスパートにする
- Googleが挑戦状、DeepSeek、Kimiも参戦:初のAI大規模モデル対抗戦が明日開幕
- RAG革命!Graph-R1、初のRL駆動グラフ推論エージェント
- アリババがQwen-Imageをオープンソース化:無料版GPT-4oジブリ、中国語最高モデル
- RAGも推論思考が可能に!多源異種知識の難題を徹底解決
- 人間によるアノテーションを超えて:MetaがCoT-Self-Instructを発表 – 「推論的自己進化」でLLMトレーニングを再構築する方法
- 大規模モデルのトレーニング時間、一体どこに費やされているのか?徹底解説
- Qwen3が廃止した混合推論モードを振り返る
- DeepSeek R2の秘密兵器が明らかに!梁文鋒がトップ賞を受賞した技術で、AIの長文読解速度が11倍に爆速化
- AIの安全性と瞑想、心とAGIアライメントの計算モデル 3万語
- Qwenが深夜に更新:RTX 3090で動作可能、3BパラメータでGPT-4oに匹敵
- マルチモーダル大規模言語モデルは本当に世界を「理解」しているのか?——MLLMの核心知識の欠陥を解き明かす
- 階層的推論モデル Hierarchical Reasoning Model
- 言語モデルはなぜ解答と確信度を直接出力できないのか?
- DeepSeek-GRPOの重要度重み設計の欠陥?Qwen3の新しい強化学習アルゴリズムGSPOを解説
- 必読記事:主要な大規模言語モデルアーキテクチャの詳細比較、Llama、Qwen、DeepSeekなど6大モデルを網羅
- Kimi K2の主要な訓練技術:QK-Clip!
- DeepSeek V3を圧倒!アリババが新版Qwen-3をオープンソース化、ベンチマークで断トツのトップに
- 大規模モデルに新たな弱点!古い記憶を忘れず、新しい記憶を区別できない、精度が急落 | ICML'25
- Transformerキラー!Google DeepMindの新たなMoRアーキテクチャが登場、新時代の魔王が来た