マイクロソフト Fara-7B コンピュータ操作モデル、端側インテリジェントエージェントの新時代を切り開く

マイクロソフトは全新の70億パラメータFara-7Bモデルを公開しました。これはコンピュータ操作専用のインテリジェントエージェントで、純視覚認識と合成データによる訓練により、端側でより大規模モデルを上回る高性能と安全性を実現します。

画像

従来のチャットボットとは異なり、コンピュータ使用エージェント(CUA)は言語理解だけでなく、人間のようにマウスやキーボードを操作し、複雑なウェブ環境でタスクを完了する必要があります。

70億パラメータの軽量ボディで、Fara-7Bは大量計算リソースに依存する複雑システムに匹敵または上回る性能を発揮し、より重要なのは、この強力な能力をユーザーのローカルデバイス上で直接実行可能にすることです。

この端側展開は、クラウドモデルの3大課題(応答遅延、プライバシーリスク、高い推論コスト)を直接解決します。

Fara-7Bの登場は新モデルの公開にとどまらず、マイクロソフトの小型言語モデル(SLMs)探求の重要マイルストーンで、高品質データと洗練設計により小モデルでも複雑な実世界タスクを処理可能であることを示します。

純視覚認識が人間-コンピュータ相互作用ロジックを再構築

Fara-7Bの核心設計理念は人間の相互作用を模倣することです。

過去の試みでは、コンピュータエージェントはウェブ背後のコード構造(Accessibility TreesやHTML DOM)に依存して画面内容を理解していました。

この方法は構造化データを取得しますが、ウェブコードの標準化度に制限され、人間の実際の視覚体験と大きく異なります。

Fara-7Bはこれらの補助を排除し、純粋に視覚認識に依存します。

入力はスクリーンショットで、目が見る通り。コード解析せずピクセル分析で操作を予測します。

このモードは極めて強い視覚-言語アライメントを要求します。

Qwen2.5-VL-7Bベースで、最大128kトークンコンテキストを処理し、視覚位置指定に優れます。

タスク実行時、現在指示、操作履歴、直近3枚のスクリーンショットをコンテキストに。

これを処理し、推論を含む思考連鎖を出力後、ツール関数を呼びます。

ツールはPlaywright標準のマウス/キーボード操作(座標クリック、テキスト入力)やブラウザマクロ(検索、特定URLアクセス)。

この観察-思考-行動閉ループで、最も直感的なデジタル世界相互作用を実現。

底层コード非依存の利点は汎用性。

ウェブ技術が進化しても、画面視覚要素が人間認知に合えば理解・操作可能。

特定アーキテクチャ依存を減らし、未見サイトでも高い適応性を発揮。

これを実現するため、マイクロソフトチームはRL試行錯誤を避け、監督ファインチューニング(SFT)を用い、巧妙なデータ生成パイプラインを活用。

合成データで訓練ボトルネックを突破

コンピュータ操作AI訓練の最大障害はデータ。

テキスト生成と異なり、操作データ収集は極めて困難。簡単な航空券予約でも数十ステップ、各々に精密座標・論理判断必要。

手動アノテーションは天文学的コストで、規模・一貫性確保難。

Fara-7B成功はマイクロソフトのMagentic-Oneフレームワークベース合成データシステムのおかげ。

画像

このシステムは手動アノを回避、多剤協働で大量高品質訓練データを自動生成。

データ工場は3厳密段階:まずタスク提案、多様な指示生成。

単調避け、公的ウェブインデックスをシード(ショッピング、旅行、レストラン予約等)。

ページ内容から逆生成、例:映画館ページからダウントン・アビー最終回2枚チケット予約指示。

実環境由来でデータ分布が現実一致、URLランダム抽出で探索タスク拡大。

次タスク解決核心:Magentic-One多剤、Orchestrator(計画・監視)とWebSurfer(実行・フィードバック)、入力必要時ユーザーシミュレータ。

明確分工で複雑多輪をシミュ、観察-思考-行動完全軌跡記録。

最後鍵:軌跡検証。

自動軌跡全て完璧でない;3検証剤厳格審査:一貫性(意図逸脱?)、ルール(完了スコア)、マルチモーダル(最終ショット確認)。

合格のみ訓練集。

最終14.5万厳選軌跡訓練、100万超ステップ、多様なサイト/難度カバー。

性能評価とコスト効率の二重飛躍

エージェント評価はチャットボットより複雑;ネット動的(時間/場所/アンチクロール)。

客観衡量にWebVoyager/Online-Mind2Web/DeepShop既存+新WebTailBench(長尾:求職/価格比較/不動産等)。

印象的結果。

画像

BrowserBase標準環境で同規模UI-TARS-1.5-7B超え、一部GPT-4o+SoM巨大剤上回り。

WebVoyager:73.5% vs OpenAI computer-use-preview 70.9%、GPT-4o(SoM)65.1%。

WebTailBench複雑実タスク:38.4%リード、UI-TARS19.5%遠く。

注目:効率/コストバランス。

端側モデル:正しく速く安く。

画像

同推論価格(100万トークン0.2ドル)で驚異効率、平均16ステップ vs UI-TARS41。

敏捷思考・精密操作:時間/リソース節約。

精度-コスト新均衡で「賢い=高コスト」打破、領域最適小モデルが汎用大モデル挑む証明。

新パレートフロンティア:同コスト最高精度 or 同精度最低コスト。

家庭普及の鍵。

安全機構が信頼基盤構築

AIマウス/キーボード制御は実影響(取引/情報送信)伴う、安全不可妥協。

訓練中Critical Points導入:感操作(支払クリック、PIIメール、予約確認)識別安全ブレーキ。

自動行動せず停止・報告・承認要請、人ループで制御保持。

加レッドチーム/拒否訓練。

111高リスクWebTailBench-Refusals(害/脱獄/プロンプトインジェ)、拒否率82%、安全/敵対サンプル混合訓練。

サンドボックス実行推奨、異常制限。

全操作/推論監査ログ透明。

包括戦略で制御懸念解消、大規模展開路開く。

日常(フォーム/クエリ)自動化や垂直アプリ基盤。

Magentic-UIでページ認識/思考/ステップ視覚化。

複雑/非標準限界・幻覚/誤作動有り、オープンソース好機。

マルチモーダル基礎/RL実・模擬進化で端側エージェント飛躍。

参考資料:

https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/

https://huggingface.co/microsoft/Fara-7B

https://github.com/microsoft/fara

メインタグ:Fara-7B

サブタグ:コンピュータ操作エージェント端側展開合成データ訓練純視覚認識


前の記事:推論速度175%向上!SparseDiTが「時空二重疎化」新パラダイムを提案、DiT効率を再構築

次の記事:【CMU博士論文】「生成ロボット:人機協働創作のための自己監督学習」

短いURLをシェア