アリババが深夜に「切り札」エージェントをオープンソース化!OpenAIに真っ向勝負、性能は全面的にSOTAを達成!

過去半年間、AIエージェントには頭を悩ませる問題がありました。なぜオープンソースのエージェントは、本当に複雑な問題を解決する際に、常にOpenAIのDeepResearchに圧倒されてしまうのでしょうか?儘管WebDancerやR1-Searcherなど、数えきれないほどの優れたオープンソースプロジェクトが登場しましたが、OpenAIが提示した極めて難解なBrowseCompベンチマークでは、どのプロジェクトもほぼゼロ点でした。この隔たりは、乗り越えがたいように見えました。昨日、アリババの通義が最新のWebエージェントモデル——WebSailorをオープンソース化しました。モデル、コード、論文をオープンソース化しただけでなく、WebSailorは完全で再現可能な方法論を用いて、皆にこう示しました:オープンソースのエージェントも、超人的な推論を実現し、クローズドソースの覇権に挑戦できるのだと!

画像

まず、なぜ以前のオープンソースエージェントがうまくいかなかったのかを明確にする必要があります。論文は、問題が訓練データの難しさにあると指摘しています。これまでの訓練方法は、主に2種類のタスクに焦点を当てていました:

Level 1: 低不確実性タスク。例えば、一度の検索で答えが見つかるような問題。

Level 2: パスが明確な多段階タスク。例えば、「アリババの現CEOの出身校の最初の中国科学院院士は誰か?」のような問題。複雑ではあるものの、推論パスは固定されており、線形です。

しかし、現実世界の多くの課題は、Level 3:極めて高い不確実性 + 極めて複雑な探索パスに属します。これらには標準的な回答パスがなく、エージェントは真の研究者のように、情報の海の中で絶えず探索し、枝刈りし、統合し、推論する必要があります。Level 1とLevel 2のデータでモデルを訓練し、それをLevel 3の問題解決に適用することは、足し算と引き算だけを教えて微分積分を解かせようとするようなものです。結果は当然、悲惨なものになります。

では、どのようにして十分に難しいLevel 3の訓練データを作成するのでしょうか?WebSailorはSailorFog-QAをオープンソース化しました。その生成方法は非常に巧妙です:

画像

1. 複雑な知識グラフの構築:現実世界のウェブサイトから出発し、ランダムウォーク方式で、多数のエンティティと複雑な関係を含む高度に相互接続された知識グラフを構築します。これにより、問題の源泉が現実のものであり、構造が非線形であることが保証されます。

2. サンプリング+質問生成:この複雑なグラフから、サブグラフをランダムにサンプリングし、そのサブグラフに基づいて質問と回答を生成します。

3. 難易度生成(重要ステップ):質問を生成する際、意図的に情報を曖昧化します。この手法はまさに絶妙です。

正確な日付は「21世紀初頭」に。

明確な名前は「Fで始まる人が設立した機関」に。

具体的な数値は「市場シェア1%未満」に。

このマスキングは、タスクの初期不確実性を直接最大化し、エージェントが単純な検索を実行するのではなく、比較、推論、情報の統合を学ぶことを強制します。

画像

上の図からわかるように、SailorFog-QAが要求するツール呼び出し回数の分布は、BrowseComp-enベンチマーク(オレンジ線)と驚くほど類似しており、他のデータセットをはるかに凌駕しています。このような高難度データで訓練されたモデルは、当然、強力な実戦能力を持っています。

高品質なQAデータがあれば、次のステップは解決プロセスの軌跡を生成し、モデルに学習させることです。

従来の方法では、より強力な専門家モデル(例:QwQ-32B)に完全な思考と行動の軌跡を生成させ、それを我々のモデルが模倣するというものでした。しかし、ここには大きな落とし穴があります。専門家モデルは通常、非常に冗長なのです!彼らの思考プロセスは、冗長でスタイル化された「無駄な情報」で満ちています。これを直接学習することは、我々のモデルの思考スタイルを汚染し、柔軟性を制限するだけでなく、数十ステップものツール呼び出しが必要な長いタスクでは、これらの無駄な情報がすぐにコンテキストウィンドウ(Context)をパンクさせてしまいます!

WebSailorのアプローチは、まさに教科書的な「取捨選択」と言えるでしょう:

1. 専門家モデルに完全な軌跡を生成させますが、アクション-観測シーケンス(action-observation sequence)のみを保持します。これは、達人の操作だけを見て、その独り言を聞かないのと同じです。

2. その後、別の強力な指示追従モデルを用いて、成功した各アクションに対して、簡潔で凝縮され、目標に直結する「思考」を逆生成させます。

このようにして得られた訓練軌跡は、専門家の問題解決の核心ロジックを保持しつつ、クリーンで無駄がなく、長いタスクの訓練に非常に適しています。

最後は訓練段階です。WebSailorは「二段階」戦略を採用しています。

第一段階:RFTコールドスタート。

彼らは、直接RL(強化学習)を適用すると効果が非常に低いことを発見しました。タスクが難しすぎ、報酬が非常にスパースであるため、モデルは最初、どこへ進めばよいか全く分からなかったからです。そこで、まず少量(わずか2k)の厳選された高品質なSFTデータを用いて「コールドスタート」を行い、モデルに基本的なツール使用法と長連鎖推論の「骨格」を習得させる必要がありました。

第二段階:DUPOアルゴリズムによる強化。

これは彼らが提案した、より効率的なRLアルゴリズムです——Duplicating Sampling Policy Optimization (DUPO)。これまでのDAPOなどの方法と比較して、その最大の利点は速さです。エージェントのRL訓練において、環境と相互作用する「ロールアウト」プロセスは非常に時間がかかります。DUPOは巧妙なテクニックを用いています。訓練中、多様性を示す(一部のロールアウトは成功し、一部は失敗した)サンプルを優先的に複製(duplicate)してバッチを満たすことで、環境から新しいサンプルを取得する代わりに、訓練効率を大幅に向上させ、約2〜3倍の加速を実現しました。

画像

上の図からわかるように、RL段階(緑色の部分)は、モデルの性能、特にBrowseCompのような高難度タスクにおいて、大きな向上をもたらしました。

データは依然としてエージェント時代の堀です。真の障壁はモデル構造にあるのではなく、高難度で高不確実性の訓練データを作成する能力にあります。オープンソースエージェントの段階的な探求により、エンジニアリングの負担は一定程度軽減されます。複雑なエージェントタスクにおいて、基盤モデルはトップクラスのクローズドソースシステムに追いつき、あるいは肩を並べることができるでしょう。

オープンソース、未来は明るいです!

paper: https://arxiv.org/pdf/2507.02592

code: https://github.com/Alibaba-NLP/WebAgent

model: https://huggingface.co/Alibaba-NLP/WebDancer-32B

data: https://huggingface.co/datasets/callanwu/WebWalkerQA

メインタグ:AIエージェント

サブタグ:オープンソースAI強化学習深層学習機械学習


前の記事:RAG開発者必見 Googleの新論文MUVERA:多ベクトル検索を単一ベクトル検索と同じ速さで

次の記事:継続強化学習技術に関する最新の調査

短いURLをシェア