コスト8000ドル以下!Sina Weiboの1.5B小型モデルが数千億パラメータモデルを超える

わずか15億パラメータ、訓練コスト8000ドル未満の小型モデルが、トップレベルの数学競技ベンチマークで、その数百倍のパラメータを持つ、ほぼ1兆パラメータのDeepSeek-R1(6710億パラメータ)を打ち破りました。さらにはGemini 2.5 flashやClaude Opus 4にも匹敵します。

画像画像

驚くべきことに、これはSina Weiboが最近発表し、オープンソース化したVibeThinker-1.5Bモデルです。

画像

このわずか15億パラメータの小さなモデルは、賢明なアルゴリズム設計が、単なるパラメータの積み重ねよりも強力であることを証明しました。

核となるのは、まず発散し、次に収束するという知恵

VibeThinker-1.5Bの強力さは、モデルアーキテクチャの革新からではなく、その背後にある「スペクトラムからシグナルへの原則(Spectrum-to-Signal Principle, SSP)」と呼ばれる訓練哲学に由来しています。

画像

従来のモデル訓練、特にファインチューニング段階では、モデルが1回の試行で正解を出す確率(Pass@1)を最大化するという非常に直接的な目標がありました。教師ありファインチューニング(SFT)と強化学習(RL)の両方の段階が、この単一目標を中心に最適化されていました。

SSP原則は、このアプローチには根本的な限界があると指摘しています。

それは、唯一の正解だけを評価し、学生が他の可能な解法を探求する創造性を抑圧する厳格な教師のようなものです。この訓練方法により、モデルの思考は硬直し、狭い問題解決経路に早すぎる段階で収束してしまい、その推論能力の上限を制限してしまいます。

VibeThinker-1.5Bは逆のアプローチを取ります。SFTとRLの2つの段階の目標を完全に分離し、それぞれに全く異なる、しかし補完的な役割を与えています。

第1段階である教師ありファインチューニング(SFT)は、「スペクトラム段階」と定義されます。

その目標は、もはや1回の回答の正確性を追求することではなく、多様で豊富な、様々な合理的な問題解決のアイデアを含むソリューションスペクトラムを生成することです。簡単に言えば、モデルに自由な発想を促し、1つの問題に対して、できるだけ多くの、もっともらしい解決策を考えさせることです。

この段階の評価指標はPass@1ではなくPass@Kです。この指標は、モデルが独立して生成したK個の回答の中に、少なくとも1つ正解があれば合格とみなされます。高いPass@Kは、モデルが広範な思考空間と豊富な問題解決経路の貯蔵庫を持っていることを意味し、その後の最適化のための肥沃な土壌を提供します。

これは、一流のクリエイティブチームがブレインストーミングを行うようなものです。最初のステップは、どのアイデアが最高かを判断することではなく、どれほど奇抜であっても、できるだけ多くのアイデアを提案するように全員を奨励することです。アイデアの量と多様性(スペクトラム)が、最終的に素晴らしいアイデアを生み出す上限を決定します。

第2段階である強化学習(RL)は、「シグナル段階」と定義されます。

SFT段階を通じてモデルが発散的思考を学んだ後、RL段階のタスクは収束的に焦点を当てることになります。これは、経験豊富な編集者や意思決定者のように、SFTが生成した広範なスペクトラムの中から、最も正確で効率的なシグナルを特定し、それを増幅します。

報酬メカニズムを通じて、RLはモデルが多くの可能性の中から最良の回答を生成する確率を高めるように導きます。SFT段階ですでに十分に豊富な候補ソリューションが提供されているため、RL段階の最適化は効率的になります。ゼロから探索する必要はなく、高品質な候補プールの中から選択し、強化するだけです。

SSP原則の真髄は、多様性(Pass@K)を最初に最適化し、次に正確性(Pass@1)を最適化することが、最初から最後まで正確性だけを最適化するよりも高い性能上限を達成できると認識している点にあります。思考が広範で、応用が利くモデルは、固定された経路しかたどれない硬直したモデルよりも、最終的に正しい答えを見つける能力がはるかに優れています。

出力の多様性は、モデルの堅牢性と創造性の核となります。

モデルが多角的に、複数の経路で問題を考えることができる場合、局所最適解に陥りにくく、斬新で複雑な問題に直面した際にも、画期的な解決策を見つける可能性が高まります。SSPフレームワークは、この認識をモデル訓練の全プロセスに体系的に組み込んでいます。

モデルの訓練プロセスは芸術的

理論の優雅さには、それを実現するための巧妙な実践が必要です。VibeThinker-1.5Bは、SSP原則を訓練のあらゆる細部にわたって実行しており、その具体的な方法は、多様性探索蒸留と最大エントロピー誘導ポリシー最適化という2つの核心的なステップに分けられます。

ステップ1:蒸留法による多様性の抽出

SFT(教師ありファインチューニング)段階で可能な限り広範なソリューションスペクトラムを構築するため、チームは巧妙な2段階の多様性探索蒸留プロセスを設計しました。

まず、ドメイン認識型多様性探索です。

彼らはすべての知識を一緒くたにするのではなく、異なるドメインには異なる種類の多様な思考が必要であると認識しました。例えば、数学ドメインでは、代数、幾何、微積分、統計などのN個のサブドメインに細分しました。

次に、強力な大規模言語モデルを利用して、各サブドメイン専用のテスト問題集を自動的に構築しました。SFTの訓練過程で、モデルは一定期間(例えばkステップごと)にチェックポイントを保存します。これらのチェックポイントは、Pass@K指標を用いて各サブドメインの「試験会場」で評価されます。

最終的に、各サブドメインでPass@Kスコアが最も高いチェックポイントが、そのドメインの多様性エキスパートモデルとして認定されます。例えば、M*代数は代数問題を複数の方法で解決することに最も長けたモデルであり、M*幾何は幾何ドメインにおける発散的思考のチャンピオンです。

このプロセスは、何千人ものインターンの中から、各部門で最も革新的な潜在能力を持つ一人を選び出すようなものです。

次に、エキスパートモデルの融合です。

各ドメインのエキスパートを選び出した後、それらの才能を統合し、多様性を最大化した万能SFTモデルを構築する必要があります。ここでは、モデルマージング(Model Merging)と呼ばれる技術が使用されました。

簡単に言えば、これらのエキスパートモデルのパラメータを重み付け平均するものです。式は次のように表せます:

画像

重みwiの合計は1であり、融合後のモデルのパラメータ規模が変化しないことを保証します。VibeThinker-1.5Bの実装では、チームは最もシンプルな等重みスキーム(wi = 1/N)を採用し、各ドメインの多様性能力が最終的なSFTモデルに均等に注入されることを意味します。

すべてのエキスパートの長所を融合したこのモデルMSFT Mergeは、多様性指標Pass@Kでトップレベルの性能を達成しただけでなく、1回の正確性Pass@1でも同様に優れていました。

これは、思考の広さを追求することが、その深さを損なうものではないことを示しています。

むしろ、より広範な認知スペクトラムが、最も正しい答えへの経路を強化しているように見えます。この強力なSFTモデルは、次のRL最適化段階のための比類ない強固な基盤を築きました。

ステップ2:エントロピーを用いてモデルを学習のスイートスポットに誘導

RL(強化学習)のシグナル段階に入った後、チームは新たな問題に直面しました。訓練データをいかに効率的に利用するかです。

従来のRLHF(人間からのフィードバックによる強化学習)は通常、静的なデータセットを使用しますが、これは常に進化するモデルにとっては効率が低いものです。モデルが完全に習得した問題を繰り返し練習しても時間の無駄であり、現在の能力をはるかに超える問題は、モデルを挫折させ、学習を困難にします。

ここで、VibeThinker-1.5Bは最大エントロピー誘導ポリシー最適化(MaxEnt-Guided Policy Optimization, MGPO)フレームワークを導入しました。

この名前は複雑に聞こえますが、その核心的な思想は非常に直感的で、情報理論に由来しています。それは、モデルがその問題について最も不確実なときに、モデル訓練に対する問題の価値が最大化されると主張しています。

ある生徒を想像してみてください。1+1=2について、彼は毎回正解します。100回練習しても新しいことは何も学びません。リーマン予想については全く理解しておらず、100回見ても無駄です。彼が最も速く学ぶのは、自分はできると思っているが、完全にではない、正解したり間違えたりする問題です。

この正解したり間違えたりする状態は、情報理論においてエントロピーが最大の状態です。

ある問題に対して、モデルの回答は正しいか間違っているかの2つの結果しかありません。モデルが複数回の試行の後、正解する確率pc(q)がちょうど50%であるとき、その不確実性はピークに達し、エントロピーが最大になります。この点が、モデルの「学習のスイートスポット」(learning sweet spot)、あるいは重要な学習フロンティアです。

MGPOフレームワークの核心は、モデルが最も苦悩するこれらの問題を動的に特定し、学習リソースをそれらに優先的に投入するようにモデルを誘導することです。

これは、エントロピーバイアス正則化された重み付けスキームを通じて実現されます。このスキームは、モデルの現在のパフォーマンス(正解確率pc(q))と理想的な最大エントロピー状態(p0 = 0.5)との間の距離(KLダイバージェンスを用いて測定)を計算します。

距離が遠いほど(つまり、モデルが問題をよく理解しすぎているか、全く理解していない場合)、割り当てられる重みは低くなります。距離が近いほど(モデルのパフォーマンスが50%の変動状態に近い場合)、割り当てられる重みは高くなります。

モデルは自動的に、突破口を開く可能性が最も高い曖昧な領域に注意を集中させます。

このようにして、MGPOはすべての計算リソースが効果的に使われることを保証し、学習効率を大幅に向上させ、モデルがSFT段階で提供された広範なスペクトラムの中から、最強のシグナルを最速で特定し、増幅できるようにします。

性能は業界の常識に挑戦するに足る

VibeThinker-1.5Bは、数学、コーディング、知識領域をカバーする一連の権威あるベンチマークテストで、画期的な結果を提出しました。

評価ベンチマークには以下が含まれます:

数学:MATH-500、非常に挑戦的なハーバード・MIT数学競技会HMMT 2025、アメリカ数学招待競技会AIME 2024およびAIME 2025。

コーディング:LiveCodeBench V5およびV6、一般的なプログラミング能力を評価。

知識:GPQA-Diamond、生物学、物理学、化学の博士号レベルの問題を含む大学院レベルのテスト。

VibeThinker-1.5Bは、パラメータ数が30億以下の同レベルのモデルと比較されました。

画像

表のデータは、VibeThinker-1.5Bがそのベースモデル(Qwen2.5-Math-1.5B)と比較して、劇的な進化を遂げたことを明確に示しています。

AIME25では、スコアが4.3から74.4に急上昇。HMMT25では0.6から50.4に向上。LiveCodeBench V5では0点から55.9へと飛躍しました。

さらに重要なのは、VibeThinker-1.5Bが同パラメータクラスの競合相手を凌駕しただけでなく、より大規模なモデルをも圧倒したことです。

AIME25でのスコア(74.4)は、30億パラメータのSmolLM(36.7)の2倍以上です。HMMT25(50.4対26.0)とLiveCodeBench V5(55.9対27.6)でも、その優位性は同様に巨大です。これにより、30億パラメータ以下のクラスにおける王者の地位を確立したことは間違いありません。

大規模推論モデル、さらには業界の巨人の専有モデルとも正面から対決しました。これらの競合相手のパラメータ規模は、VibeThinker-1.5Bの10倍から数百倍です。

画像

結果は驚くべきものでした。

非常に挑戦的な数学ベンチマークであるAIME25において、15億パラメータのVibeThinker-1.5B(74.4点)は、6710億パラメータのDeepSeek R1(70.0点)を打ち破り、OpenAIのo3-mini-Medium(74.8点)やMiniMax-M1(74.6点)とほぼ同等の成績を収めました。

HMMT25でも、そのパフォーマンス(50.4点)はDeepSeek R1(41.7点)を上回りました。

この結果は、推論能力とパラメータ規模が強く相関するという業界の基盤を直接揺るがすものです。

それは、精巧なアルゴリズム設計と訓練戦略を通じて、小規模モデルが複雑な論理推論タスクにおいて、その数百倍も巨大なモデルの性能を達成し、あるいはそれを超える可能性を十分に持っていることを雄弁に証明しています。

コーディングタスクにおいては、VibeThinker-1.5Bとトップレベルの大規模モデルとの差はやや大きくなりました。これは主に、そのベースモデルが数学データに重点を置いていたためです。

一方、GPQAのような広範な知識問答では、差はさらに顕著でした。これは、小パラメータモデルが、膨大で百科事典的な一般知識を保存し処理する上で、固有の物理的限界が存在する可能性を示唆しています。

推論領域におけるその集中力と強力さをさらに際立たせるため、VibeThinker-1.5Bは、Kimi K2、Deepseek V3、GPT-4.1などのいくつかのトップレベルの汎用大規模モデルとも比較されました。

これらのモデルは、パラメータ規模が数千億から1兆に及ぶこともあり、数学やコーディングデータで訓練されているものの、その設計目標は汎用的な対話であり、専門的な連鎖的思考(CoT)推論ではありません。

画像

数学ベンチマークでは、これらの1兆パラメータレベルの汎用モデルすべてを圧倒的な差で上回りました。これは、深い論理推論を必要とするタスクにおいて、専門的に最適化された「小さくて美しい」モデルが、汎用的な「大きくて万能な」モデルよりもはるかに効率的であることを強力に示しています。

コストと信頼性が最後のピース

VibeThinker-1.5Bの成果は、性能だけでなく、その極めて高い費用対効果にもあります。

SFTおよびRL段階を含む後訓練プロセス全体で、NVIDIA H800 GPU上で合計約3900GPU時間を費やしただけでした。当時の市場レンタル価格に基づくと、総計算コストは8000ドル未満でした。

画像

8000ドル未満のコストで、30万ドルから50万ドルを費やしてようやく達成できる性能レベルに到達したことは、驚異的な30倍から60倍の費用対効果比を示しています。

このコスト面での巨大な優位性は、強力なAI推論能力がもはや少数の巨大企業の専売特許ではないことを意味します。これにより、より多くの中小企業、研究機関、大学が最先端AIの開発に参加できるようになり、AI研究の民主化を大いに促進しました。

同時に、推論展開コストの面では、15億パラメータのモデルはスマートフォンや自動車などのエッジデバイスで容易に実行でき、そのサービスコストは巨大モデルと比較して20倍から70倍に削減され、AIアプリケーションの広範な普及への道を開きました。

もちろん、驚くべき性能を示すどのモデルに対しても、重要な質問に答えなければなりません。データは汚染されていないか?モデルは単に問題を暗記しただけで、真に解法を学んだわけではないのか?

VibeThinker-1.5Bチームは、これに対して厳格なデータ脱汚染対策を講じ、10-gramマッチングなどの方法を通じて、訓練データと評価テストセット間に意味的な重複がないことを確認しました。

さらに強力な証拠はタイムラインから来ています。

VibeThinker-1.5Bのベースモデルは2024年9月にリリースされました。しかし、優れたパフォーマンスを示したAIME25とHMMT25のベンチマークは、2025年まで公開されていませんでした。これは、これらのテスト問題がベースモデルの訓練データに存在し得なかったことを意味します。

さらに、そのベースモデルはコーディングタスクで0点でしたが、VibeThinker-1.5Bは後訓練を通じてスコアを50点以上に向上させました。これらのゼロからの能力の飛躍は、その性能向上が革新的な訓練方法に由来し、データ漏洩ではないことを強力に証明しています。

VibeThinker-1.5Bは、論理推論という核心的な認知領域において、精巧なアルゴリズム設計が力任せのパラメータ積み重ねを超越できることを証明しました。

参考文献:

https://github.com/WeiboAI/VibeThinker

https://arxiv.org/abs/2511.06221

https://huggingface.co/WeiboAI

https://modelscope.cn/organization/WeiboAI

メインタグ:人工知能

サブタグ:機械学習費用対効果モデルトレーニング大規模言語モデル


前の記事:RLはより記憶を保持、SFTは忘れやすい?プリンストン陳丹琦チームが後訓練の認知を書き換え

次の記事:オックスフォード大学がH1「ブートストラッピング」フレームワークを提案、モデルが自己進化し能力が空から生まれる!

短いURLをシェア