すべての記事
AIモデル
- GPT-5 vs Claude Opus 4.1: コーディング能力評価...
- Xiaohongshu、初のマルチモーダル大規模モデルdots.vlm1をオープンソース化、SOTAに迫る性能を発揮!...
- マイクロソフトらが新パラダイム「モデルチェーン」を提案、Transformerと同等の性能で拡張性と柔軟性が向上...
- 連続思考マシンが登場!Transformer「八子のひとり」のスタートアップが発表、AIが「ワンステップ」で即断することをなくす...
- コスト1/8でClaude 3.7に匹敵、「欧州のOpenAI」Mistral AIがマルチモーダル新モデルを発表...
- DeepSeekが大幅進化!新モデルは数学の定理証明に特化し、複数の高難易度ベンチマークを大幅に更新。...
大規模言語モデル
- GPTは保守的になっているのか?スタンフォード大学ManningチームがVerbalizedSamplingを提案、モデルに「もう少し考える」ように促す...
- 初のマルチラウンドLLMルーター「Router-R1」が登場、大規模モデルに「思考–ルーティング–集約」を学習させる...
- 事前知識と事後検証を組み合わせたLLMは、推論・予測における現実の「逸脱」に対応できるか?...
- NeurIPS'25!AutoPrune:プラグアンドプレイ可能な適応型大規模モデル剪定フレームワーク...
- プリンストン大学陳丹琦グループの新作:RLHFでは不十分、RLVRには限界?RLMTが第三の道を切り開く...
- ByteDance、LLM強化学習における「エントロピー」の呪いを打破し、モデルの確実な成長を可能に!...
- 考えれば考えるほど間違える:CoTの「深く熟考する」ことがLLMの幻覚を促進する触媒に!...
- ファインチューニングなしでLLM推論精度が99%に爆増!軽量推論フレームワーク「DeepConf」を試す|Meta最新...
- なぜ大規模言語モデルはハルシネーションを起こすのか?OpenAIの最新研究がついに解明...
- Metaが「Deep Think with Confidence」を発表:ほぼ何も変更せずに推論の精度と効率を向上...
- 数学ランキングを席巻するLLM、会話の仕方を忘れる?CMUらがSFTとRLの驚くべき違いを明らかに!...
- ハードコア分析大規模言語モデル:DeepSeek-V3からKimiK2まで、主流LLMアーキテクチャを一本で理解する...
- Attentionが集中しない?中国人民大学と清華大学が「LeaF」を共同提案:妨害トークンを剪定し、モデルの能動的な焦点化を促す...
- モデルは本当に「コードの自己修正」ができるのか?北航がリポジトリレベルの理解生成ベンチマークを発表し、LLM理解評価パラダイムを刷新...
- 人間によるアノテーションを超えて:MetaがCoT-Self-Instructを発表 – 「推論的自己進化」でLLMトレーニングを再構築する方法...
- 大規模モデルのトレーニング時間、一体どこに費やされているのか?徹底解説...
- Qwen3が廃止した混合推論モードを振り返る...
- Qwenが深夜に更新:RTX 3090で動作可能、3BパラメータでGPT-4oに匹敵...
- 言語モデルはなぜ解答と確信度を直接出力できないのか?...
- Kimi K2の主要な訓練技術:QK-Clip!...
- DeepSeek V3を圧倒!アリババが新版Qwen-3をオープンソース化、ベンチマークで断トツのトップに...
- 大規模モデルに新たな弱点!古い記憶を忘れず、新しい記憶を区別できない、精度が急落 | ICML'25...
- AI進化のタイムラインが明らかに!LLMは7ヶ月ごとに能力が倍増、2030年には職場が消滅する?...
- アンドリュー・ン氏、LLMの「後学習」無料コースを公開:SFT、DPO、RLの3つの主要なチューニング手法を網羅...
- 「待つ」を減らし、問題解決を増やす:NoWaitが大規模モデルの推論パスを再構築...
- ACL 2025 | 大規模モデルの「誤報伝播」?DRAGの二段階「マルチエージェント討論」が幻覚の重層化問題を解決...
- NVIDIA(ProRL)|RLはLLMの推論上限を本当に引き上げられるのか?...
- 「量こそ力」は機能不全?ModelSwitchがサンプリングのブラックホールから脱却し、大規模言語モデルの推論パラダイムを刷新...
- o3-proが「倉庫番」をクリア、懐かしのレトロゲームが大規模モデルの新たなベンチマークに...
- 汚いほど安全? ハーバード大学チームの最新研究:10%の毒性訓練で大規模モデルは無敵に...
- SFTもRLも不要、サンプルレベルの推論最適化ツール「SLOT」が登場、精度が楽々+10%向上...
- SFT+RL二段階学習でLLMの自己教師あり学習を突破!人民大学DeepCriticがAI批評の自律進化を実現...
- LLMがどのように推論し自己反省するかを初解説!ノースウェスタン大学とGoogleの新フレームワーク:ベイズ適応型強化学習を導入し、数学的推論能力を大幅に向上...
- Qwenチームが長文コンテキスト推論モデルQwenLong-L1を発表、o3-miniを凌駕...
- 長い推論≠高精度!「即答」と「深考」の適応的切り替え:トークン削減と精度向上の二重の利益の哲学...
- 彼女はいかにして「システム2」を大規模言語モデルにもたらしたか | マイクロソフトリサーチアジアの張麗氏との対話...
- AIが賢くなるほど言うことを聞かなくなる!新研究:最強の推論モデルの指示遵守率はわずか50%...
- 思考連鎖推論のボトルネックを打破!「ソフトシンキング」で大規模モデルが人間のような抽象能力を習得、トークン使用量も削減...
- ゼロから完全に構築、わずか8元と9時間でTiny LLMをトレーニング!推論、MoEなどを含む完全チュートリアル...
- ICML 2025 | トレーニング不要、大規模モデルの好み即時アラインメント...
- 大規模言語モデルの推論能力はどこまで強いのか?ある研究がLLMの限界と可能性を明らかにする...
- 推論のブレークスルー:SoftCoT++はいかにLLMに「複数の道を考える」ことを可能にするか?...
- Qwenのブレークスルー:「並列計算」で「パラメータの積み重ね」を代替、新手法でメモリ22倍削減、遅延6倍削減...
- ZeroSearch:「Alibaba Technology」ブラウザ不要、大規模言語モデルが自己報酬学習...
- モデルに自己議論を強制、再帰的思考版CoTが人気急上昇!ネチズン:「これってほとんどの推論モデルの手法じゃない?」...
- たった1つのデータで、大規模言語モデルの数学的推論能力を大幅に向上させられるのか?...
- 北京大学、清華大学、UvA、CMUなどが共同発表:大規模モデルの論理的推論能力に関する最新サーベイ...
- NVIDIA Llama Nemotronシリーズ:主要技術解説...
- LLMエージェントのパフォーマンスが低い理由:Google DeepMindの研究が3つの失敗モードを明らかに、RLファインチューニングで緩和可能...
- ZTEワイヤレス研究所「大規模モデル深潜」チーム、LLM適応型質問難易度蒸留法を発表、小規模モデルの推論能力を大幅に向上...
- ZTEの研究:LLM適応型問題難易度グレーディング蒸留により、小規模モデルも「長連鎖思考」能力を獲得...
- 新刊「Reasoning From Scratch」第1章公開:Sebastian Raschka氏が語るLLMの推論、パターンマッチング、基本学習...
人工知能
- Metaが発見:RAGシステムの遅延は無駄な作業が多すぎることが原因...
- AIは本当に癌を克服しようとしているのか?Googleが2日間で2つのブレークスルーを発表...
- 失敗するほど学習が速くなる!軌跡リライティング技術により、エージェントは失敗から完璧な経験を創造する!...
- OpenAI共同創設者が明かす「苦悩と葛藤」:我々は計算資源が極度に不足する世界に向かっている!社内のGPU割り当てはテトリス、Sora 2は弱体化されたオリジナルモデルだ...
- 再帰的推論HRMモデルがさらなる進化!TRMの2層ネットワーク(7Mモデル)がLLMを凌駕!...
- たった今、GPT-5が「ゲーデルテスト」に初合格!三大数学予想を解明...
- 中国チームが「スパイク大規模モデル」を訓練、推論速度が100倍に向上...
- 初のコードワールドモデルがAI界を席巻、エージェントに「真の推論」を可能に、Metaがオープンソース化...
- DeepSeek、GPT-5が試みる思考速度切り替えに、よりスマートなマルチモーダル版が登場...
- スタンフォード大学の最新研究:最強LLMでさえ最先端コードに苦戦!Gemini 2.5 Proの成功率は40%未満...
- MicrosoftがrStar2-Agentを発表:「より賢く考える」ことは、単に「より長く考える」よりもはるかに効果的で効率的である...
- MCPツールスタッキングは大きな落とし穴!開発者の大物が語る:コマンドラインの「脆さ」がAIを壊滅させた!コード実行環境に一本化すべき:7回の呼び出しが1回に!ネットユーザー:ブラックボックスツールはとっくに捨てるべきだった!...
- 報酬モデルの新たな革命!SWIFTはテキストではなく「心の声」を読み取り、高速かつ強力で経済的なAI評価者を生み出す...
- GPT-5とスケーリング法則の破綻?毕樹超:データ構造と客観的法則を反映しているため、常に有効である...
- アルトマン氏が驚くべき予測を明かす:2035年までにGPT-8が癌を治療!人類は計算能力を巡り第三次世界大戦に突入する可能性...
- 史上最大規模の高品質科学推論後学習データセットがオープンソース化、Qwen3などを素早く「科学者」に...
- AIバグ修正の新たなSOTA:SWE-Bench Liteで60.33%の修正率、人間のように経験を蓄積可能、中国科学院ソフトウェア研究所が開発...
- ReaGAN:グラフ内の各ノードをインテリジェントな推論エキスパートにする...
- アリババがQwen-Imageをオープンソース化:無料版GPT-4oジブリ、中国語最高モデル...
- AlphaGoの瞬間を再現?GoogleがLLM評価の新パラダイムGame Arenaを発表:8つの主要モデルが参加、チェスの王が審判に...
- Dualformer:ランダム化された推論軌跡学習による制御可能な高速思考と低速思考...
- 階層的推論モデル Hierarchical Reasoning Model...
- 新刊紹介『リシャッフル:AIが知識経済を再構築する時、誰が勝利するのか』...
- AIを使ったコード作成で効率が19%低下!246のタスクを16人のベテランプログラマーが実証...
- 数学訓練はどのようにして大規模モデルの汎用推論能力を「解き放つ」のか?最新の研究が鍵となるメカニズムを解明...
- 開発者はChatGPTに「無理やり」新機能開発をさせられる!AIが架空機能を捏造し、多数のユーザーが流入、結果的に開発せざるを得なくなる...
- 清華大学の研究:まさかの逆転か?RLが基盤モデルの推論能力を真に向上させていないことを確認!...
- 清華大学などがAbsolute Zero自己対戦型大規模モデルを提案、データなし学習で多数のタスクで最高性能を達成...
- ベンジオがCoT神話を突き破る!LLMの推論は幻想、トップ会議論文の25%が否定される...
- サム・アルトマン、1万字報告書で裏の顔を徹底暴露。イーロン・マスク激怒:「詐欺師だ!」...
- AIの「二重人格」が露見、OpenAIの最新研究でAIの「善悪スイッチ」を発見、ワンクリックでダークサイドへ切り替え可能に...
- 描きながら考える!マルチモーダル推論が大幅に向上!...
- 今世紀最高のAIインタビューの一つ:AIの安全性、エージェント、OpenAIなど重要テーマ...
- 合格率0%!コード神話の崩壊!LiveCodeBench Proがリリース!...
- 従来のRAGは知識を検索するだけで活用できない?RAG+が推論能力を新たな高みへ!...
- 次世代AIは20ワットで稼働可能か?科学者が狙うニューロモルフィックコンピューティング...
- 4B Qwen3が671B DeepSeekを逆転!ByteDanceのDAPOファインチューニング手法はそんなに強力なのか?...
- Natureが警告:AIの「データ飢餓」が学術サイトの障害を引き起こす!知識ベースの90%が崩壊寸前...
- 徹夜のブログ記事でOpenAIからオファー獲得!Muon開発者が激白:「ほとんどのオプティマイザ論文は“偽物”だ」...
- Midjourney、動画生成に参入、画像モデルV7も継続更新、ビジュアルの覇者確定...
- 世界のプログラマーが騒然!ジェンスン・フアン氏がロンドンで豪語:「プログラミング言語の未来は『Human』だ」...
- ByteDance Seedの新作DeltaFormer: 次世代モデルアーキテクチャの試み...
- LLMは既に自己重み更新が可能に、適応能力と知識統合能力が大幅向上、AIは目覚めたか?...
- マルチエージェントがトークンを「燃焼」!Anthropicが発見したすべて...
- 自律型エージェントの方向性は間違っている!華人学者がLLM-HASを提唱:「自律能力」から「協調知能」へ...
- 速報!Metaが最新のワールドモデルをオープンソース化...
- サム・アルトマン:穏やかなシンギュラリティが到来!AIが最終的に物理世界を掌握、2030年人類の運命が大きく転換...
- OpenAI最強の推論モデルo3-proが誕生!Gemini 2.5 Proを圧倒!...
- 穏やかなる特異点|サム・アルトマン最新の重要論文...
- Mianbi MiniCPM4:推論速度が3倍、同サイズのQwen3を圧倒、アリババも注目!...
- スタンフォードNYU共同研究:AIと人間の思考様式における驚くべき発見 —— なぜ大規模モデルは「賢い」が「賢明」ではないのか?...
- AppleのAI論文が大失敗!テスト方法に大きな問題が指摘され…ネット民「クックは彼らを解雇すべきだ!」...
- LeCunが新たな証拠を提示!大規模モデルの思考と人間の思考には本質的な違いがある...
- AIヘッドライン:OpenAI Codexがインターネットアクセスを追加、Mistralがコーディングアシスタントをリリース...
- ZeroSearchに続き、通義の最新作MaskSearchが推論検索事前学習の新しいフレームワークを提案...
- 35%の精度が蒸発!バイトダンスと華中科技大学のWildDocがマルチモーダル文書理解のロバスト性における課題を明らかに...
- 大変だ!Appleが証明:DeepSeek、o3、Claudeなどの「推論」モデルには推論能力が全くない...
- OpenAIが高度な音声機能をアップグレード:より人間らしく、パーソナル通訳に...
- 世界のトップ数学者30名がAIを秘密裏に包囲し、その場で打ち破られる!「数学の天才に近い」と驚嘆...
- 『サピエンス全史』著者ユヴァル・ノア・ハラリ:AIは台頭する新種である!...
- 世界のトップ数学者が、AIの職務遂行能力に驚愕...
- 李飛飛の最新インタビュー:世界モデルが「到来」する...
- ウォートン・スクール教授イーサン:私たちは本当にAIを使っているのか?それともただ空白を埋めさせ、コストを削減し、絶滅への道を加速させているだけなのか?...
- 聖書成立時期が書き換えられる可能性!AIが「死海文書」をイエス時代以前と発見...
- サム・アルトマン:CodexでAGIを感じた!最新の対談で次世代の「完璧なモデル」を珍しく示唆、エージェントが来年限界を突破すると大胆予測!...
- AIも「損得勘定」ができるように?DecisionFlowで大規模言語モデルが高リスクな意思決定をより深く理解!...
- Agent Zero:学習し進化するオープンソースの無料エージェント...
- 深層研究がコモディティ化?GoogleがGeminiレベルのAI研究能力をオープンソース化...
- モデルが賢くなればなるほど「言うことを聞かなくなる」?MathIFベンチマークがAIの服従性における脆弱性を明らかに...
- OPA-DPO:マルチモーダル大規模モデルにおける幻覚問題の効率的な解決策...
- 2年以内にAIソフトウェアエンジニアを構築!OpenAI Codexの作者が人間とAIのペアプログラミングの新パラダイムを解き明かす...
- LSTMの父が22年前に構想したアイデアは実現するのか?AI「自己進化」に関する論文が1週間で集中公開、新たなトレンドが台頭?...
- 深掘り|評価額2.5億ドルのAIノートGranola創業者:AIの利用習慣が私たちの直感を再構築する;AIの役割は人間を代替するのではなく増強することである...
- AIの数学能力が100%急増、自己進化が強化学習の限界に迫る!CMUの新作が認識を覆す...
- 手動アノテーション不要!AIが自己生成した学習データで、「演繹・帰納・アブダクション」による推論能力を解き放つ...
- インターネットの女王、メアリー・ミーカーの340ページにわたる「AIトレンドレポート」PPT...
- マレー・シャナハンと意識、推論、そしてAIの哲学を語る...
- Sakana AIの新研究:自己符号化改善と自己参照的オープンエンド進化能力を持つダーウィン-ゲーデルマシンの誕生...
- スタンフォードの中国人チームがまさかの番狂わせ!AIが純粋なCUDA-Cでカーネルを記述し、PyTorchを凌駕?...
- AI IDEが正式リリース!通義霊碼はすぐに使えます...
- 大規模モデルは数独が苦手?!Transformer開発者のスタートアップがランキング発表:o3 Mini Highの「変種数独」正答率はわずか2.9%...
- Andrej Karpathy が絶賛!スタンフォード大学チームの新作、Llama-1B でミリ秒級推論を実現...
- LLMとRLの組み合わせに疑問符:意図的な誤った報酬でも数学ベンチマークが大幅向上、AI界に衝撃...
- All-In Podcast 議事録:Geminiが「無限のコンテキスト」を牽引、AIはツールから認知コラボレーターへ昇格...
- Llama論文著者「離脱」、14人のチームはわずか3人に、フランスのユニコーン企業Mistralが最大の勝者に...
- Alibaba、Qwen新モデルをオープンソース化:端午の節句の贈り物!...
- 混合思考フレームワークMoT:モデルが「人間らしい思考」を学ぶことを可能に...
- LLMは数学を理解できるのか?最新の研究が大規模モデルの数学的推論における致命的な欠陥を明らかに...
- 人間はGPT-4に議論で劣るのか?Nature誌子会社が発表:900人実証実験でAIが64.4%の勝率、説得力も向上...
- 深層|AIユニコーンCharacter.AI CEOインタビュー:最高のアプリケーションはまだ発明されていない、AI分野は錬金術に似ており、何が成功するか誰も正確には知らない...
- Microsoft AIが従業員を公に「苦しめる」、バグ修正の唯一の貢献はPRタイトル変更のみ、GitHubコメント欄がお祭り騒ぎに...
- Claude 4はどのように考えるのか?シニア研究者が回答:RLHFパラダイムは過去のもの、RLVRはプログラミング/数学で実証済み...
- クアンタ:ホップフィールドネットワーク:AIを生み出した創発物理学...
- 大規模モデルが初めて囲碁AIの「ブラックボックス」を破り、科学的発見の新たな道を開く!上海AI Labが新世代InternThinkerを発表...
- Seed1.5-VL技術レポートの解説...
- Claude 4ローンチ:AnthropicはAIにプログラミングを教えるのではなく、AI自身にプロジェクトを記述させる...
- Gemini Diffusion:1500トークン/秒、稲妻のような速さ!...
- Gemini Diffusionよりも万能!初のマルチモーダル拡散型大規模言語モデルMMaDAが発表、強力な推論と高い制御性を両立...
- OpenAIが大きく動く!コアAPIがMCPをサポート、一夜にしてエージェント開発を変革...
- AIはいつ"考える"べきかを知っているか?Thinklessが大規模言語モデルに思考のタイミングを教える...
- 覚醒-睡眠ベイズプログラム学習による、汎化可能で解釈可能な知識の成長...
- GitHub Copilot の Agent モードと MCP サポートが JetBrains、Eclipse、Xcode で正式に利用可能に!...
- 学者がAIの誇大広告に人間がいかに抵抗すべきか、そしてそれがなぜ必要かを説明...
- Google AI大爆発:全モデルをアップグレード、Gemini 2.5が両ランキングで首位に!全製品がAIで再構築、OpenAIはどう対応する?...
- 炸裂!Google I/Oカンファレンス王者帰還:Gemini「世界モデル」初登場、検索は「脳移植」、一言でオリジナル映画を制作...
- Nature姉妹誌:人間は再びAIに敗れた、特にそれがあなたが誰であるかを知っているとき...
- 思考が負担になるとき:大規模言語モデルの「思考の落とし穴」を解き明かす...
- Google の自己発見型アルゴリズム AlphaEvolve のオープンソース実装:OpenAplha_Evolve...
- LLMにまた致命的な欠陥が発覚:時計が全く読めない!博士も驚愕、正解率50%以下...
- Jeff Dean氏:1年以内にAIがジュニアエンジニアに取って代わるだろう、ネットユーザー:「Altmanは口約束だけ、Jeff氏の言葉こそ致命的だ」...
- Google | 革命的なコーディングエージェント「AlphaEvolve」を発表、数学の限界を突破!...
- Thoughtworks CTO:AIはこれまで以上に開発者を必要としていることを意味する...
- AM-Thinking-v1:32B規模での推論能力の最前線を推進...
- GPT-5開発の内部情報初公開!OpenAIチーフリサーチオフィサー「AGIはもうすぐそこだ」...
- Anthropic共同創設者ジャック・クラーク氏がAGIを語る:AIはすでに私たちの経済成長に影響を与えている...
- ZeroSearch:ゼロ検索でLLMの潜在能力を促進、LLM検索能力の新時代を切り拓く...
- スタンフォードの以弱馭強W4S:Meta-Agentでより強力なLLMを操縦、精度が95.4%に向上 | 最新...
- 脳神経ダイナミクスに着想を得た斬新なAIモデル...
- 「経験の時代」は自己学習AIエージェントをウェブ全体に解き放つ — 準備方法はこちら...
- プログラマーは消滅する?AIの父Hinton、ノーベル賞受賞者Pissarides、NVIDIA CEOのJensen Huangが一斉に警告...
- JetBrains、コード補完LLM「Mellum」をオープンソース化...
AIプログラミング
- 15年のベテランが深夜に30分間号泣!バイブコーディングの巨大な落とし穴が露呈、プログラマーの95%が「AIベビーシッター」に...
- OpenAIポッドキャスト、再びAIプログラミング戦争を語る!開発者は最も恵まれている:特定のニーズに対応したコードモデルが登場する!司会者がうっかり漏らす:「一番好きなのはClaude!」...
- Traeが有料化、Cursorは焦るべきか?...
- 地上最強のプログラミングAIが誕生!Claude 4が7時間連続で自動プログラミング、実測の細部がプログラマーを驚愕させる...
- GoogleがJulesを強力にローンチ、PRを自動生成、OpenAIのCodexと真っ向勝負!...
- プログラミング革命が本格始動!OpenAI最強エージェントがChatGPTに登場...
- AppleとAnthropic、Xcode向けAIコーディングプラットフォームで協力...
AIエージェント
- エージェントによる長距離検索の二つの主要な問題点が解決!CAS DeepMinerが32kコンテキストで100回近くの試行を達成、オープンソースがクローズドソースに肉薄。...
- GoogleがCUA戦場に参入、Gemini 2.5 Computer Useを発表:AIがブラウザを直接操作可能に...
- アリババが深夜に「切り札」エージェントをオープンソース化!OpenAIに真っ向勝負、性能は全面的にSOTAを達成!...
- RLスケーリングの切り札!DeepSWEオープンソースAIエージェントが首位獲得、学習方法と重みを全面公開...
- AmazonがSOPベンチマークを発表:AIエージェントの究極のテスト。トップエージェントの成績は?...
- RMoA 残差抽出型Mixture-of-Agents:エージェントが新しい発見をし、自己適応的に停止する「ACL2025」...
- 5つのシナリオでManus、Flowith、Lovartを実測:20ドルでAgentの効率を100倍にできるか?...
- Microsoftがブラウザエージェントをオープンソース化、リアルタイム追跡・制御可能、4000以上のスターを獲得...
- 312の軌跡で性能241%向上!上海交通大学とSIIがオープンソースのコンピューターエージェントを開発、Claude 3.7を超える...
- AI AgentsとAgentic AIの違いは何ですか?...
- Google、76ページにわたるAIエージェント白書を発表!あなたの「AIアバター」が登場...
- Minus AIを徹底解説:AGI新時代への一歩か?...