今日の早朝、OpenAIがioを完全買収したというニュースが大部分のヘッドラインを占めました。同時に、OpenAIは「ひっそりと」別の重要な発表を行いました。それは、エージェント開発のためのコアAPIであるResponses APIがMCPサービスをサポートするというものです。
従来の方法では、エージェントを開発する際に、関数呼び出しを介して外部サービスとやり取りする必要がありました。各操作には、大規模モデルからバックエンド、さらに外部サービスへのネットワーク転送が伴い、多数のジャンプ、高い遅延を引き起こし、拡張と管理の複雑さを増していました。
現在、Responses APIがMCPをサポートしたため、開発者は各関数呼び出しに対して特定サービスを手動で接続する必要がありません。代わりに、モデルを1つ以上のMCPサービスを指すように構成できます。
Responses APIがMCPをサポート
OpenAIがResponses APIをリリースして以来、何十万もの開発者がこのAPIを通じて数兆ものトークンデータを処理し、Zencoderのコーディングエージェント、プライベートエクイティおよび投資銀行向けReviの市場エージェント、MagicSchool AIの教育エージェントなど、さまざまなインテリジェントエージェントアプリケーションを開発してきました。
エージェント開発をさらに簡素化するため、Responses APIはMCPサービスをサポートし、開発者は数行のコードでエージェントを強力な外部ツールやサービスに接続できるようになりました。
たとえば、わずか9行のコードで、エージェントをeコマースプラットフォームShopifyにリンクできます。
以前は、カスタムのcart_addやcreate_payment_linkラッパーを記述し、独自のリレーサーバーをホストする必要がありました。今ではすべてが簡素化され、1つのポインタで簡単に処理できます。
わずか13行のコードで、エージェントをクラウド通信プラットフォームTwilioに接続しました。以前は、バックエンドで2つのツール呼び出しを統合し、最終的なSMSペイロードを自分でバッチ処理する必要がありました。
MCPサポートのもう1つの利点は、ツールの集中管理が可能になり、エージェントが外部サービスを効率的に呼び出せるようになることです。allowed_toolsパラメータを使用して、エージェントがアクセスできるツールを正確に制御できるため、不要なツール呼び出し、コンテキスト膨張、応答時間の短縮を回避できます。
たとえば、ユーザーからのクエリを処理する際に、エージェントはすべての可能なツールを盲目的に試すのではなく、事前に設定されたルールに基づいて最適なツールを選択して呼び出すことができます。
MCPを使用する際には、正確な権限制御を通じてエージェントのセキュリティを確保することもできます。たとえば、エージェントが特定のツールのみを呼び出すように制限したり、ツールを呼び出す際に明示的な承認を要求したりできます。この権限制御メカニズムは、エージェントによるツールの悪用を防ぐだけでなく、外部サービスのセキュリティも保護します。
各呼び出しで認証キーとサーバーURLを渡すことにより、MCPは認証と認可のセキュリティを確保しつつ、応答オブジェクト内での機密情報の漏洩を防ぎます。
さらに、MCPは動的ツールリストのインポートとキャッシュメカニズムをサポートしています。エージェントがMCPサーバーに初めて接続する際、サーバーからツールリストをインポートし、それをモデルのコンテキストにキャッシュします。その後の呼び出しでは、エージェントはキャッシュされたツールリストを直接使用できるため、サーバーから再度取得する必要がなくなり、遅延が減少し、応答速度が向上します。
もちろん、MCPサポートには他にも多くの利点がありますが、ここでは列挙しません。興味のある方は、ご自身で試してみるか、「AIGCオープンコミュニティ」がオフラインで開催するMCP公開講座に参加して、実際のデモンストレーションをご覧ください。
Responses APIのその他の新機能
MCPサポートに加えて、OpenAIはResponses API内の画像生成、Code Interpreter、ファイル検索ツールに大きな更新を行い、エージェントの機能をさらに強化しました。
画像生成:開発者はResponses API内でOpenAIの最新の画像生成モデル(<gpt-image-1>など)に直接アクセスし、それをツールとして使用できるようになりました。このツールはリアルタイムストリーミングをサポートしており、開発者は画像生成プロセス中にプレビューを表示でき、複数回の編集もサポートしているため、開発者は画像を段階的に微調整できます。
Code Interpreter:Code InterpreterツールがResponses APIで使用できるようになり、データ分析、複雑な数学的およびコーディング問題の解決、さらにはモデルが画像を深く理解し操作するのを支援します。たとえば、数学的問題を処理する際、モデルはCode Interpreterを利用してコードを実行し、答えを導き出すことで、パフォーマンスを大幅に向上させることができます。
ファイル検索:ファイル検索ツールは強化され、開発者がユーザーのクエリに基づいてドキュメントから関連コンテンツブロックをモデルのコンテキストに抽出できるようになりました。さらに、このツールは複数のベクトルストアにわたる検索実行をサポートし、配列を使用した属性フィルタリングも可能です。
同時に、OpenAIはResponses APIに新しい機能も導入しました。
バックグラウンドモード:処理に時間がかかるタスクの場合、開発者はバックグラウンドモードを使用してこれらのタスクを非同期に開始でき、タイムアウトやその他の接続の問題を心配する必要がありません。開発者はこれらのタスクをポーリングして完了を確認したり、必要に応じてイベントのストリーミングを開始したりできます。
推論サマリー:Responses APIは、モデルの内部思考連鎖の簡潔な自然言語サマリーを生成できるようになりました。これにより、開発者はデバッグ、監査、およびより良いエンドユーザーエクスペリエンスの構築が容易になります。
暗号化された推論項目:ゼロデータ保持(ZDR)の対象となる顧客は、OpenAIのサーバーに推論項目を保存することなく、APIリクエスト間で推論項目を再利用できます。これにより、インテリジェンスが向上するだけでなく、トークンの使用量が削減され、コストと遅延が低減されます。
この記事の素材はOpenAIから提供されたものです。著作権侵害がある場合はご連絡ください。
END