囲碁は、その独特の複雑さと人間知能の深い具現化により、AIの専門能力を測る上で最も代表的なタスクの一つとされています。
現在、AIは棋力、効率性、汎用性などで著しい成果を上げていますが、その具体的な推論プロセスは依然として「ブラックボックス」の中にあり、人間がその思考プロセスや結果を言葉で説明することはできません。
大規模モデルは優れた自然言語インタラクティブ性を備えており、その推論能力を高めて囲碁の専門能力を突破する方法は、研究者にとっての難題です。
この問題に対し、上海人工知能研究所(上海AI Lab)は、新世代の「書生・思客」(InternThinker)を新たに発表しました。
創造的に構築された「加速訓練キャンプ」(InternBootcamp)および一連の基盤技術の新たな進展に基づき、InternThinkerの専門的な推論能力は大幅に向上し、囲碁の専門レベルを持ち、かつ透明な思考連鎖を示すことができる中国初のS大規模モデルとなりました。
李世石の「神の一手」(李世石がAlphaGOとの対局で4局目78手目にL11に置いた手で、「神の一手」と称される)に直面しても、InternThinkerは正しい対応策を提示できます。
囲碁は4000年以上の歴史を持つ知的競技であり、その独特の複雑さと人間知能の深い具現化により、人工知能の専門能力を測る上で最も代表的なタスクの一つとされています。
2016年にAlphaGOが一躍有名になり、その後、AIは棋力、効率性、汎用性などの面で著しく向上しましたが、その具体的な推論プロセスは依然として「ブラックボックス」でした。勝率評価や着手確率を出力できたとしても、人間が「なぜこの一手がいいのか」を言葉で説明することはできませんでした。典型的な例として、AIが人間の直感に反する「奇手」を打つことがあり、後にそれが有効であると証明されても、当時は説明が困難でした。
今回アップグレードされたInternThinkerは、囲碁タスクにおいて強力な専門レベルを持つだけでなく、大規模モデルとしては初めて思考の「ブラックボックス」を破り、自然言語を用いて対局プロセスを解説することを実現しました。
ユーザーがInternThinkerと対局する過程で、大規模モデルは懇切丁寧な「コーチ」となり、現在の局面を包括的に分析し、異なる着手点を判断・比較し、明確な結果を提示します。これにより、ユーザーは各着手の背後にある推論プロセスと意思決定の根拠を理解し、囲碁をより良く理解し学ぶことができます。
李世石がAlphaGOとの対局の4局目78手目でL11に打った手は「神の一手」と呼ばれ、局面を直接逆転させて一局を勝ち取りました。研究者がこの名局を再現する中で、InternThinkerはこの手について「非常に巧妙…この手はL11の脅威を完璧に解決し、中央の支配権を再確立し、その後の攻撃の伏線を張っている」と評価しました。その後、L10への着手という対応策を提示しました。
InternThinkerは多様な「言語」スタイルも備えており、非常に「人間味」があります。例えば、ユーザーが良い手を打った時、それは「この手は非常に強力で、『攻めが守り』の良い手と言えるでしょう」と激励します。
また、辛辣なコメントをすることも:「『棋でない』選択と言えるでしょう。」
棋力面では、InternThinkerには今後も向上する余地があります。
思考プロセスを解説できるAIは初めて見ました。分析が非常に優れていると感じます。布石から見ると棋力はプロ3-5段程度かもしれません。
現在、InternThinkerは公開テストを開始しており、すべてのユーザーがいつでもどこでも対局できます。リンクは記事末尾に記載されています。
InternThinkerの強力な推論能力と囲碁タスクにおけるブレークスルーは、その革新的な訓練環境によるものです。
複雑な論理推論タスクにおいて、プロセスと結果のフィードバックを正確に得ることが特に重要です。このため、研究者たちは大規模で標準化された拡張可能な対話型検証環境InternBootcampを構築しました。これは、モデルが専門スキルを効率的に習得し、迅速に「成長」するための「加速訓練キャンプ」を作り出すことに相当します。
コードエージェントの自動構築に基づき、InternBootCampは1000以上の検証環境を含み、広範な複雑論理推論タスクをカバーしており、大規模モデル分野の研究者が強化学習に基づいて探索を行うのに効果的に役立ちます。
InternBootcampは、オリンピックレベルの数学、科学オブジェクトの理解と推論、アルゴリズムプログラミング、ボードゲーム、知的ななぞなぞなど、難易度を制御できる推論タスクをバッチで標準化して生成し、大規模モデルとの対話とフィードバックを提供できます。異なる専門知識の大規模な構築と混合訓練を通じて、大規模モデルはデータアノテーションに基づいて問題と答えを得るという煩雑なモードから脱却し、従来の報酬モデルの欺瞞を回避し、大規模モデルの推論能力向上という新しいパラダイムを実現します。
囲碁以外にも、InternThinkerは他のタスクでも優れたパフォーマンスを示しています。多様なタスクの混合強化学習を通じて、InternThinkerは数十のタスクを含むテストセットにおいて、o3-mini、DeepSeek-R1、Claude-3.7-Sonnetなどの国内外の主要な推論モデルを平均能力で上回りました。
一部のタスクでは、現在の他の大規模推論モデルをはるかに超える性能を示しています。
例えば、以下の2つのタスクにおいて:
InternThinkerのパフォーマンスはo3-miniよりも優れています:
特筆すべきは、研究者たちがInternBootcampに基づいた多タスク混合訓練の過程で強化学習の「創発的瞬間」を観察したことです。単一タスクでは報酬をうまく推論できなかったモデルが、複数のタスクを混合した強化学習を通じて、訓練過程で報酬をうまく得られるようになり、領域外の専門タスクに対する効果的な強化学習訓練を実現しました。
Tapa、Unicoder25タスクを個別に訓練する以外に、研究者たちは数十種類のタスクを追加で混合訓練に選びました。下図に示すように、Tapaなどのタスクを単独で訓練してもタスクの正のフィードバックをうまく得られませんでしたが、各種InternBootcampタスクを一定ステップまで混合訓練すると、InternThinkerはこれらの推論タスクの思考方法を融合して学習し、異なるタスク間の関連性を確立することで、Tapaのようなタスクの正のフィードバックをうまく獲得し、そのタスクに対する効果的な学習を実現しました。
これは、InternBootcampタスクの数が増え、品質が向上し、難易度が高まるにつれて、大規模モデルが能力の「昇華」を迎え、より多く、より難しく、より実用的な推論タスクを効率的に解決し、大規模モデルの推論能力の汎化を助けつつ、科学的発見を加速させる可能性を秘めていることを意味します。
これらの進展は、上海AI Labが最近、通専融合路線における基盤技術とアーキテクチャの面で達成した一連の革新的なブレークスルーによるものです。大規模モデルの発展過程を見ると、主に専門性と汎用性の二大路線に分かれています。上海AI Labは、大規模モデルの高度な専門性と汎用性が相互に制約し合う発展上の課題を解決するために、「通専融合技術路線」(https://arxiv.org/abs/2407.08642)を先行して提案しました。このパスの鍵は、深層推論能力と専門的な汎化能力を同時に向上させることであり、モデルが広範な複雑なタスクで優れたパフォーマンスを発揮するだけでなく、特定の分野で専門レベルに達することも可能にします。
上海AI Labはさらに、相互依存する基礎モデル層、融合協同層、探索進化層の「三層」技術パスを提案し、「汎用性」「高度な専門性」「タスク持続性」の三者を兼ね備えた汎用人工知能を構築することを目指しています。
第一層は基礎モデル層であり、汎用的な基礎能力と高密度監視による専門能力の構築を目指します。上海AI Labチームは最近、まったく新しい「メモリ+デコーダ」大規模モデルアーキテクチャであるMemory Decoderを提案し、2つの構成要素を異なる事前学習タスクを通じてそれぞれ訓練することを実現しました。すべての情報をデコーダにエンコードする既存のTransformer古典的大規模モデルアーキテクチャとは異なり、このアーキテクチャは通専融合において「知識と推論の分離と自己結合」を実現する新世代の大規模モデルです。その中で、メモリは「専門」の機能を引き受け、異なる領域の知識の信頼できる記憶を担当します。デコーダは「汎用」の機能を引き受け、汎用的な言語構成と論理を担当します。メモリは一度の訓練後に異なる基盤モデルに適用できます。
第二層は融合協同層であり、複数のルート協同を通じて人間専門家に匹敵する通専融合能力を構築します。チームの最近のブレークスルーには以下が含まれます:
強化学習アルゴリズムPRIME(https://arxiv.org/abs/2502.01456)を設計し、高密度監視信号と組み合わせることで、エージェントの専門能力向上効率を効果的に強化し、汎用集団知能の発展への道を開きました。これにより、より迅速な収束が実現し、既存の方法よりも7%高い性能向上が同時に得られます。AIME、MATHなどの競技レベルの数学問題において、少量のオープンソースデータのみを使用することで、7Bモデルの数学能力がOpenAIのGPT-4oを顕著に上回ることを可能にしました。
多タスク強化学習を核とする後訓練技術フレームワークMoRを発表し、多タスク強化学習の実現に焦点を当てています。異なるタイプのタスク(例えば、数学の問題解決と証明、科学のQ&A、推論パズル、主観的対話など)に対してアルゴリズム探索と初期統合検証を行い、多タスク強化学習の混合訓練を実現しました。
結果報酬に基づく強化学習の新しいパラダイムOREAL(https://arxiv.org/abs/2502.06781)を構築し、大規模モデルが現在直面している「希薄な報酬のジレンマ、局所的正確さの罠、規模依存の呪い」という3つの主要な困難を解決することに力を入れています。このアルゴリズムは、現在広く使用されているGRPOなどの方法を超越し、より広範なアルゴリズム設計空間を定義し、PRIME、DAPOなどの方法の利点をアルゴリズムフレームワークに統合することができます。超大規模パラメータモデルを蒸留することなく、軽量から中量級(7B/32B)モデルの推論能力をさらに向上させました。
第三層は探索進化層であり、自律的な探索とフィードバック修正を通じてAIの自己進化閉ループを実現します。チームの最近のブレークスルーには以下が含まれます:
テスト時強化学習(TTRL)フレームワーク(https://arxiv.org/abs/2504.16084)は、人工知能の自律進化の可能性のあるパスを効果的に探索します。TTRLは正確なラベルがない状況で報酬推定を行うことができ、モデルを正しい方向に学習させ、手動アノテーションへの依存を減らす可能性を強力に支持し、強化学習の大規模化と非教師あり方向への継続的な拡張をさらに推進します。
分子逆合成の新手法Retro-R1を構築し、大規模モデル+エージェント+長推論+強化学習のパラダイムに基づいて、多段階逆合成問題においてより正確な合成経路計画能力を示しました。Retro-R1は、SFTデータを一切使用せず、わずか1万件の強化学習データを使用して200ステップの訓練を行うだけで、大規模モデルの逆合成推論能力の向上を実現し、異なる領域のデータにおいても優れた汎化能力を示しました。
今後、上海AI Labは通専融合技術路線の発展と探索を系統的に推進し、通専融合の新しい能力と進展をInternBootcampを通じて継続的に公開し、次世代の通専融合基盤モデルとして具体的な科学的発見における重要な問題を解決することを加速させるとともに、垂直分野のデモンストレーション応用事例の創出を牽引し、科学的発見と産業革新に重要な推進力をもたらすとのことです。
公開テストリンク:https://internlm-chat.intern-ai.org.cn/
オープンソースアドレス:https://github.com/InternLM/InternBootcamp