AM-Thinking-v1：32B規模での推論能力の最前線を推進

1、はじめに：AI進化の新里程碑

昨年末、各メーカーが超大規模AIモデルの発表を競い合った光景を覚えていますか？OpenAIのo1、GoogleのGemini 2.5、AnthropicのClaude 3.7...これらのモデルはパラメータ数が数千億に達し、目を見張るものでした。しかし、あなたは考えたことがありますか？卓越した推論能力を得るためには、本当にそれほど膨大なモデルが必要なのか？

最近、研究者たちは「AM-Thinking-v1」という名のモデルを発表しました。わずか32Bパラメータの密集型アーキテクチャでありながら、数学的推論やコード生成などの高難度タスクで驚異的な成績を収め、671Bパラメータを持つDeepSeek-R1やQwen3-235B-A22Bに近い混合エキスパートモデルさえ凌駕しました。この成果にはどのような意義があるのか？そして、どのようにして実現されたのか？詳しく見ていきましょう。

2、ベールを剥ぐ：中規模でも超強力な推論能力を発揮

大規模言語モデルの開発がマラソンだとすれば、ほとんどの企業は「大きいほど良い」という方向へ猛進していますが、AM-Thinking-v1は異なる道を選びました：精緻化を追求し、闇雲な拡張はしない。

このモデルは、数学コンテストレベルのAIME 2024とAIME 2025のテストでそれぞれ85.3と74.4の高得点を獲得し、LiveCodeBenchコードベンチマークでは70.3の成績を収めました。これは何を意味するのか？簡単に言えば、複雑な数学問題を解き、高品質なコードを書く能力において、10倍、あるいは20倍ものパラメータを持つ多くの大規模モデルを超えているのです！

さらに驚くべきことに、研究チームはオープンソースのQwen2.5-32B基盤モデルと公開されている訓練データのみに基づいてこの成果を構築しました。これは、同じ原材料から、洗練された技術によって期待をはるかに超える製品を生み出したようなものです。

3、技術的分解：精巧に設計された後訓練プロセスがいかにゲームを変えるか

AM-Thinking-v1の成功は偶然ではなく、研究者たちが精巧に設計した後訓練プロセスに由来します。このプロセスは主に2つの重要な段階を含んでおり、これらの段階こそが、ごく普通の基盤モデルに超強力な推論能力をもたらしました。

（1）データ処理：量より質

研究チームは大量のデータを闇雲に追求するのではなく、すべての訓練データに対して厳格なスクリーニングと処理を行いました：

1）厳格な重複排除：重複するクエリサンプルを削除

2）品質フィルタリング：URLや画像参照を含むデータを排除

3）データ検証：特に数学データについては、クエリフィルタリングと解答検証を含む完全な処理パイプラインを構築

数学データについては、研究者たちはDeepSeek-R1を使用して複数の回答を生成し、元の解答と比較することさえ行いました。不一致が見つかった場合は、o4-miniモデルに再度問い合わせて代替解答を取得しました。この精緻なデータ検証により、モデルが誤りから学習しないことが保証され、訓練効果が大幅に向上しました。

（2）二段階訓練：SFT + RLの強力な組み合わせ

訓練プロセスは二段階設計を採用しました：

第一段階：教師ありファインチューニング（SFT）

1）数学、プログラミング、科学、指示追従、一般会話の5つの主要カテゴリをカバーする約284万のサンプルを使用

2）比較的高い学習率（8e-5）と大きなバッチサイズ（64）を採用

3）多段対話データについては、推論プロセスを含む最終的な回答のみを訓練ターゲットとして使用

第二段階：強化学習（RL）

1）難易度を考慮したクエリ選択を採用し、通過率が0または1のサンプルをフィルタリングして、訓練データが十分に挑戦的であることを保証

2）KL制約を設けず、グループ化された相対ポリシー最適化（GRPO）アルゴリズムを使用

3）二段階生成と学習率スケジューリング：第一段階では最大応答長を24Kに制限し、学習率は4e-6；第二段階では最大応答長を32Kに増やし、学習率を1e-6に低下

研究者たちは、訓練初期に大きな学習率を使用することで、モデルの収束を速め、全体の訓練コストを大幅に削減できることを発見しました。これは、精巧に設計された訓練戦略がパラメータ規模の不足を補えることを証明しています。

4、結び

AM-Thinking-v1の成功は多重の意義を持ちます：

（1）費用対効果：数千億パラメータのMoEモデルと比較して、32B密集型モデルの推論および展開コストははるかに低く、より多くの機関や開発者が高水準のAI能力を利用できることを意味します

（2）実用性の利点：中規模モデルは展開とファインチューニングが容易で、より広範なアプリケーションシナリオに適しています

（）オープンソースの革新：オープンソースコミュニティもプロプライエタリシステムに匹敵する高性能モデルを構築できることを証明し、AI技術の民主化を促進

研究方向の転換：AI分野の進歩がパラメータ規模の増加だけに依存するのではなく、精緻な後訓練設計も同様に重要であることを示唆

AM-Thinking-v1は印象的な成果を収めましたが、いくつかの限界も残っています：構造化された関数呼び出しやツール使用のサポート不足、マルチモーダル入力能力の欠如、安全アライメントがまだ初期段階であることなどです。

しかし、この研究は間違いなく将来のAI開発に新たな視点を提供します：精巧に設計された訓練プロセスを通じて、中規模モデルでも特定タスクにおいて超大規模モデルの性能に匹敵、あるいはそれを超えることが可能です。

このパラダイムシフトはAI産業全体の発展方向へ影響を与える可能性があり、より多くの研究者や開発者が考え始めるきっかけとなるでしょう：パラメータを単純に積み重ねるのではなく、よりスマートな方法でAIの能力を向上させることは可能か？

AM-Thinking-v1のようなモデルが次々と登場するにつれて、私たちはAIの未来が膨大な計算資源を持つテクノロジー大手だけでなく、限られた資源を巧みに活用して並外れた価値を創造できるイノベーターにも属すると信じるに足る理由があります。

論文タイトル：AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

論文リンク：https://arxiv.org/abs/2505.08311

推奨読書

FloE：MoEモデルを"スリム化"して速度を50倍に！

INTELLECT-2：初の分散型訓練による推論型AIモデル

MiMo：言語モデルの推論ポテンシャルを解放する - 事前訓練から後訓練まで

AM-Thinking-v1：32B規模での推論能力の最前線を推進

短いURLをシェア