4.1K Views
March 27, 25
スライド概要
Azure OpenAIの新機能Responses APIとComputer Useについてのまとめとして生成AIを用いて作成した資料となります。
解説記事:
https://zenn.dev/chips0711/articles/e86e4ea89d04c4
【免責事項】
本資料は生成AIを使用して作成されたものであり、内容の正確性、完全性、最新性、および有用性を保証するものではありません。本資料に記載されている情報、製品仕様、価格、発表内容などは実際のものとは異なる場合があります。公式情報については、必ずMicrosoft社やOpenAI社の公式ウェブサイトまたは公式ドキュメントをご確認ください。本資料の使用によって生じたいかなる損害(直接的、間接的、偶発的、結果的損害を含む)に対しても、作成者は一切の責任を負いません。本資料を業務判断や意思決定の唯一の根拠として使用することはお控えください。実際のビジネス判断を行う際は、必ず公式の情報源からの確認と専門家の助言を得ることをお勧めします。
© 2025 Naoki Matsumoto
某IT企業でデータサイエンティスト/AIアーキテクトをやってます。 最近は生成AIを生業にしてます。Azureを中心にAIだけでなくクラウドエンジニアリング、セキュリティについても発信していきます。Azure系資格17個保有。発言や発信内容は個人の見解であり所属組織とは無関係&代表しません。
Azure OpenAIのResponses APIとComputer Use 次世代AIエージェント構築のための技術基盤 API 技術レポート Azure OpenAI 技術レポート 2025年3月 2025年3月27日 1/12
エグゼクティブサマリー Responses APIとComputer Use機能は、高度なAIエージェント開発を大幅に簡素化する革新的な基 盤技術 主要ポイント Responses APIは状態管理型の対話APIで、ツール使用とマルチターン対話を統合(スライド3) Computer Useはスクリーンショット解析によるUI操作を自動化する特殊機能(スライド4) 多様なユースケースに対応し、企業のRPA・自動化ニーズに応える(スライド5-6) Azure版とOpenAI公式版の両方で提供、但し機能差あり(スライド8) 重要事項 2025-03 APIバージョン GPT-4o 対応モデル UI操作 主要機能 現在はプレビュー版で、APIや機能の仕様が変更される可能性あり 課題: セキュリティ管理、コスト最適化、モデル精度の限界 Azure OpenAI 技術レポート 2025年3月15日 主な機会と課題 機会: 複雑なエージェント開発の簡素化、UI操作の自動化、複合タスクの 統合 2/12
Responses APIとは何か 概要 Responses APIはAzure OpenAIにおける新しいチャットAPIで、状態管理(ステートフル)型の対話を実現する基盤です。従来のChat Completions APIの上位 互換として、高度なエージェント機能を統合しています。 主要機能 サーバ側での会話履歴管理(逐一会話履歴を送信不要) ツール(関数・検索等)の呼び出しを統合的に処理 単一応答で複数のモデルステップを実行可能 マルチモーダル入力と複合出力の統合基盤 現状と対応状況 APIバージョン: 2025-03-01-preview以降 対応モデル: GPT-4o、GPT-4o-mini、computer-use-preview 対応リージョン: 東日本(japaneast)他限定 現時点で未サポート: 構造化出力(JSON)、tool_choice、外部URL画像 Responses APIの位置づけ: チャットボットからエージェントへの進化を実現する橋渡し的APIで、複雑なタスクをモデルが自律的に遂行するための土台となり ます。 Azure OpenAI 技術レポート 2025年3月15日 3/12
Computer Use(コンピュータ操作)とは何か 概要 Computer Useは、Responses APIから利用できる組み込みツールの一つで、AIエージェントがユーザーインターフェース上での操作を行うための機能です。専 用のcomputer-use-previewモデルを使用し、画面のスクリーンショットを解析してUI操作アクションを実行します。 主要能力 自律的な画面操作: ボタンクリック、フォーム入力、ワークフローナビゲーション 動的適応: UI変化に対応し次のアクションを調整 クロスアプリケーション実行: WebからデスクトップまでApp間をまたいだ操作 自然言語インターフェース: 日常言語での指示をUI操作に変換 仕組み スクリーンショット AI解析 操作アクション (クリック・入力等) 実行結果をフィードバック 画面を「見て」→「理解して」→「操作する」ループ 利用条件: 専用モデルcomputer-use-previewのデプロイが必要。現在は事前申請制で、East US 2、Sweden Central、South Indiaなどのリージョンで提供。 Azure OpenAI 技術レポート 2025年3月15日 4/12
主なユースケースと活用例 (1/2) ウェブ検索による最新情報取得 ファイル検索・社内データQ&A Web Searchツールを用いてインターネット検索を行い、最新のニュースや情報を収 File Searchツールでアップロードされたドキュメント内を検索し、必要なテキスト 集できます。 を参照できます。 「今朝の株価動向を教えて」→ モデルが自動でWeb検索を実行し最新情報を回答 「社内ポリシーPDFの中で休暇申請に関する部分を要約して」→ モデルがPDF内検索・要約 組み込みツールにより外部APIやプラグイン統合なしでシンプルに実装可能 社内QAボットや長文PDFの要点抽出・要約など、RAG(検索拡張生成)の実装が容易 外部APIや関数の呼び出し 開発者が独自の関数をツールとして定義し提供することで、モデルが適切なタイミ ングで呼び出します。 tools=[{"type": "function", "name": "get_weather", ...}] マルチステップタスクの自律実行 一度のAPI呼び出しで複数のモデルステップ(ツール使用や思考、回答生成)を実 行できます。 「この商品の在庫を調べ、なければ業者に発注メールを書いて送信して」 Chat CompletionsのFunction Calling機能が統合されており、モデルが関数を実行するパ ターンが標準化 複合タスクを単一ワークフローで完遂できる能力が大幅に向上 Azure OpenAI 技術レポート 2025年3月15日 5/12
主なユースケースと活用例 (2/2): Computer Use UI操作の自動化 (Computer Use) Computer Useエージェントは、人間がGUI上で行う事務作業を代行できる強力な自動化基盤を提供します。これはRPA(Robotic Process Automation)に近い使 い方が可能ですが、自然言語指示で操作できる点でより柔軟性が高いです。 活用例: 従業員入社手続き自動化 複数システムへのデータ入力作業 Webポータルから人事システムまでの横断操作 書類出力や承認フロー処理 複数ページにわたるワークフローの自動ナビゲーション → 人事担当者の作業時間を大幅に削減 Computer Useの特長 クロスアプリケーション対応: WebからWindowsアプリまで UI変化への適応: 画面レイアウトが変わっても対応可能 自然言語指示: コーディングなしで「〜して」で操作を指示 安全チェック機構: リスク操作時に確認を要求 Computer Useの本質的価値: 「LLMに何かをさせる」応用全般で信頼性と開発容易性を向上。特に、反復的なUI操作が必要な業務プロセスの自動化において 威力を発揮します。 Azure OpenAI 技術レポート 2025年3月15日 6/12
技術的アーキテクチャと動作原理 Responses APIの内部動作 チャット履歴・ツール呼び出し・モデル出力を一体管理するアイテムベース設計 Response出力には複数種類の要素が配列で含まれる 会話管理はprevious_response_idパラメータで前回応答IDを指定 サーバ側で履歴を30日間保持(不要なら削除可能) {"type": "tool_call", ...} // ツール実行命令 {"role": "assistant", "content": "...", "type": "message"} // 回答 {"type": "reasoning", "text": "..."} // 推論過程 Computer Useの動作ループ 1. 初回要求: モデル指定、ツール有効化、画面解像度設定 2. アクション出力: モデルがスクリーンショット要求や操作アクションを出力 3. アクション実行: アプリ側でモデル指示の操作を実行 4. 環境更新送信: 操作後のスクリーンショットをモデルに送信 5. 次アクション: 2→4を繰り返し、完了まで継続 安全性チェック: 不審な操作や機密サイトアクセスを検知すると警告を発し、ユーザ ーの明示的確認を要求 Computer Use動作フロー 1. 初回要求 2. アクション出力 3. アクション実行 4. 環境更新 送信 2→4のループをタスク完了まで繰り返し Azure OpenAI 技術レポート 2025年3月15日 7/12
Azure OpenAIとOpenAI公式版の違い 主な相違点 項目 提供形態 リージョン 対応モデル 組み込みツール セキュリティ Azure OpenAI版 Azure上の認証済みリソース経由 (Azureアカウント必要) 限定リージョンでリソース作成 (例: 東日本など) gpt-4o・gpt-4o-mini computer-use-preview専用モデル Computer Useツールをサポート (Web検索・File検索は現時点無し) Azure RBACでアクセス制御 仮想ネットワーク・ファイアウォール対応 OpenAI公式版 OpenAIプラットフォームのAPIに直接リクエスト グローバルサービス (リージョン指定不要) GPT-4 Turboなど最新モデル ツール種別に応じて内部で適切処理 Web Search, File Search, Computer Useの 3種をサポート APIキーで認証 ネットワーク制限は基本なし 選択のポイント: Azure版はセキュリティ・管理機能が充実し企業利用に適している一方、OpenAI公式版は手軽に利用開始でき最新機能への即時アクセスが可 能です。用途に応じて選択すると良いでしょう。 Azure OpenAI 技術レポート 2025年3月15日 8/12
セキュリティとアクセス制御 アクセス管理 データセキュリティ Azure RBAC: ロールベースのきめ細かいアクセス制御が可能 「Cognitive Services OpenAI User」など権限をチーム単位で付与 Azure AD認証: トークンベース認証が可能(APIキー不要) マネージドID対応でコード内に認証情報不要 ネットワークセキュリティ 仮想ネットワーク統合: 社内ネットワーク内からのみアクセス可能に プライベートエンドポイント: インターネット経由でないアクセス 閉域網: 社内システムとのセキュアな直接連携 ※OpenAI公式版では同等のネットワーク制限は実施不可 Computer Use安全対策 入力・出力データはモデル再学習に使用しない方針(Azure・OpenAI共通) 対話内容は暗号化してAzure内部に保存(30日自動削除) 必要に応じてAPI経由で早期削除可能 自社データの機密性を確保 安全チェック機構: UI操作固有のリスクに対処 malicious_instructions: 不正誘導検出 irrelevant_domain: 無関係なドメイン遷移検知 sensitive_domain: 機密サイトアクセス警告 リスク検出時はユーザー確認必須(自動処理不可) Azure OpenAI 技術レポート 2025年3月15日 9/12
Python SDKの使用方法とコード例
基本的な使用例
import os
from openai import AzureOpenAI
# Azure OpenAIリソースの接続設定
client = AzureOpenAI(
api_key=os.getenv("AZURE_OPENAI_API_KEY"),
azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT"),
api_version="2025-03-01-preview"
)
# シンプルなテキスト応答のリクエスト
response = client.responses.create(
model="gpt-4o", # デプロイ時のモデル名
input="こんにちは、調子はどう?"
)
print(response.output_text) # 応答テキストを取得
ツール(関数)定義例
Computer Useの初回リクエスト
# ツール(関数)定義の例
response = client.responses.create(
tools = [{
model="computer-use-preview", # 専用モデル
"type": "function",
tools=[{
"name": "get_weather",
"type": "computer_use_preview",
"description": "指定された緯度経度の現在気温を返す",
"display_width": 1024,
"parameters": {
"type": "object",
"display_height": 768,
"environment": "browser" # "windows"等
"properties": {
}],
"latitude": {"type": "number"},
input=[{"role": "user", "content":
"longitude": {"type": "number"}
"bing.comで最新のAIニュースをチェック"}],
},
truncation="auto"
"required": ["latitude", "longitude"]
)
}
※環境種別と画面サイズの指定が重要
}]
response = client.responses.create(
model="gpt-4o",
input=[{"role": "user", "content": "ロンドンの天気は?"}],
tools=tools
Azure OpenAI 技術レポート
2025年3月15日
10/12
ベストプラクティスと制限事項 注意点 Computer Use最適化 プレビュー機能の扱い: 現在はプレビュー提供であり、API仕様変更が予告なく行われる 可能性あり モデルの限界: OCR性能や画像解釈には限界があり、小さな文字や複雑な画面では誤認 識の可能性 トークンと料金: 複数ステップの推論や長文入出力でトークン数が膨らみ、コストも増 大 OCR精度が低い場合は画像詳細度を高設定にすると改善する場合あり 複雑なUI操作では人間の介入ポイントを設計に組み込む 画面領域を適切に限定し、不要な情報を減らす 明示的な安全チェック確認フローを実装 ベストプラクティス 逐次ステップでのユーザー確認: 重要アクション前にUI上で確認を挟む設計 会話履歴の管理: 機微情報は適切なタイミングでresponses.delete()で削除 ツールの複数登録とモデル誘導: 明確な指示でどのツールを使うべきかヒント提供 max_tokens設定: 無限ループや不要な長文出力を防止 モニタリングと最適化 ログとトレース活用: エージェントの動作を記録・分析 response.usageで入出力トークン数を監視 エラーパターンを蓄積し対策実装 定期的なプロンプト最適化でコスト削減 本番環境への移行計画: 現時点では検証環境での試験を推奨。正式リリース後に本番環境への移行計画を立てることが安全です。機能強化とAPI安定化が進むまで様子を見 ることも一つの選択肢です。 Azure OpenAI 技術レポート 2025年3月15日 11/12
まとめと今後の展望 要点まとめ Responses APIは、チャットからエージェントへの進化を実現する橋渡し的なAPIであり、複雑なタスクをモデルが自律的に遂行するための土台となる Computer Useは、AIがGUI操作を自動化する革新的機能で、企業の業務自動化に大きな可能性をもたらす API間連携、複合タスク実行、UI操作自動化など、次世代エージェント開発が大幅に簡素化される Azure版とOpenAI公式版で機能差があるため、ユースケースに応じた選択が重要 今後の展望 プレビュー版から正式版へ移行し、API仕様が安定化 組み込みツールの拡充(Web検索やFile検索のAzure版対応) モデル精度向上と対応リージョンの拡大 より高度なエージェント開発ツールの登場 参考資料 Azure OpenAI公式ドキュメント Microsoft Learnチュートリアル OpenAI公式ブログ・APIリファレンス 技術専門サイト解説記事 Microsoft公式GitHubサンプルコード Responses APIとComputer Use機能を使いこなせば、従来は複雑だったエージェントシステム開発が格段に効率化されます。 ベストプラクティスを踏まえて活用を検討してみてください。 Azure OpenAI 技術レポート 2025年3月15日 12/12