Azure OpenAI Responses API と Computer Use (プレビュー) 技術レポート

13K Views

March 27, 25

#Azure OpenAI #Responses API #Computer Use #AIエージェント #自動化

スライド概要

Azure OpenAIの新機能Responses APIとComputer Useについてのまとめとして生成AIを用いて作成した資料となります｡

解説記事:
https://zenn.dev/chips0711/articles/e86e4ea89d04c4

【免責事項】
本資料は生成AIを使用して作成されたものであり、内容の正確性、完全性、最新性、および有用性を保証するものではありません。本資料に記載されている情報、製品仕様、価格、発表内容などは実際のものとは異なる場合があります。公式情報については、必ずMicrosoft社やOpenAI社の公式ウェブサイトまたは公式ドキュメントをご確認ください。本資料の使用によって生じたいかなる損害（直接的、間接的、偶発的、結果的損害を含む）に対しても、作成者は一切の責任を負いません。本資料を業務判断や意思決定の唯一の根拠として使用することはお控えください。実際のビジネス判断を行う際は、必ず公式の情報源からの確認と専門家の助言を得ることをお勧めします。

© 2025 Naoki Matsumoto

Naoki Matsumoto

@chips0711

スライド一覧

某IT企業でデータサイエンティスト/AIアーキテクトをやってます。最近は生成AIを生業にしてます。Azureを中心にAIだけでなくクラウドエンジニアリング､セキュリティについても発信していきます。Azure系資格17個保有｡発言や発信内容は個人の見解であり所属組織とは無関係&代表しません｡

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

20250718_AOAIDevDay2025_DSがゼロから学んだAIAgentの守り方with Azure_松本

azure microsoft security セキュリティ脅威モデリングクラウド ccsp 生成ai llm

Naoki Matsumoto 9.8K

NVIDIA GTC 2025 キーノート発表まとめ

Naoki Matsumoto 9.4K

OpenAI2025年3月新発表まとめ

Naoki Matsumoto 5.9K

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.6M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.3M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.1M

各ページのテキスト

 Azure OpenAIのResponses APIとComputer Use 次世代AIエージェント構築のための技術基盤 API 技術レポート Azure OpenAI 技術レポート 2025年3月 2025年3月27日 1/12

 エグゼクティブサマリー Responses APIとComputer Use機能は、高度なAIエージェント開発を大幅に簡素化する革新的な基盤技術  主要ポイント Responses APIは状態管理型の対話APIで、ツール使用とマルチターン対話を統合（スライド3） Computer Useはスクリーンショット解析によるUI操作を自動化する特殊機能（スライド4）多様なユースケースに対応し、企業のRPA・自動化ニーズに応える（スライド5-6） Azure版とOpenAI公式版の両方で提供、但し機能差あり（スライド8）  重要事項 2025-03 APIバージョン GPT-4o 対応モデル UI操作主要機能  現在はプレビュー版で、APIや機能の仕様が変更される可能性あり   課題: セキュリティ管理、コスト最適化、モデル精度の限界 Azure OpenAI 技術レポート 2025年3月15日  主な機会と課題機会: 複雑なエージェント開発の簡素化、UI操作の自動化、複合タスクの統合 2/12

 Responses APIとは何か概要 Responses APIはAzure OpenAIにおける新しいチャットAPIで、状態管理（ステートフル）型の対話を実現する基盤です。従来のChat Completions APIの上位互換として、高度なエージェント機能を統合しています。   主要機能サーバ側での会話履歴管理（逐一会話履歴を送信不要）ツール（関数・検索等）の呼び出しを統合的に処理単一応答で複数のモデルステップを実行可能マルチモーダル入力と複合出力の統合基盤  現状と対応状況 APIバージョン: 2025-03-01-preview以降対応モデル: GPT-4o、GPT-4o-mini、computer-use-preview 対応リージョン: 東日本(japaneast)他限定現時点で未サポート: 構造化出力(JSON)、tool_choice、外部URL画像 Responses APIの位置づけ: チャットボットからエージェントへの進化を実現する橋渡し的APIで、複雑なタスクをモデルが自律的に遂行するための土台となります。 Azure OpenAI 技術レポート 2025年3月15日 3/12

 Computer Use（コンピュータ操作）とは何か概要 Computer Useは、Responses APIから利用できる組み込みツールの一つで、AIエージェントがユーザーインターフェース上での操作を行うための機能です。専用のcomputer-use-previewモデルを使用し、画面のスクリーンショットを解析してUI操作アクションを実行します。   主要能力自律的な画面操作: ボタンクリック、フォーム入力、ワークフローナビゲーション動的適応: UI変化に対応し次のアクションを調整クロスアプリケーション実行: WebからデスクトップまでApp間をまたいだ操作自然言語インターフェース: 日常言語での指示をUI操作に変換  仕組みスクリーンショット AI解析操作アクション (クリック・入力等) 実行結果をフィードバック画面を「見て」→「理解して」→「操作する」ループ利用条件: 専用モデルcomputer-use-previewのデプロイが必要。現在は事前申請制で、East US 2、Sweden Central、South Indiaなどのリージョンで提供。 Azure OpenAI 技術レポート 2025年3月15日 4/12

  主なユースケースと活用例 (1/2) ウェブ検索による最新情報取得ファイル検索・社内データQ&A Web Searchツールを用いてインターネット検索を行い、最新のニュースや情報を収 File Searchツールでアップロードされたドキュメント内を検索し、必要なテキスト集できます。を参照できます。「今朝の株価動向を教えて」→ モデルが自動でWeb検索を実行し最新情報を回答「社内ポリシーPDFの中で休暇申請に関する部分を要約して」→ モデルがPDF内検索・要約組み込みツールにより外部APIやプラグイン統合なしでシンプルに実装可能社内QAボットや長文PDFの要点抽出・要約など、RAG（検索拡張生成）の実装が容易  外部APIや関数の呼び出し開発者が独自の関数をツールとして定義し提供することで、モデルが適切なタイミングで呼び出します。 tools=[{"type": "function", "name": "get_weather", ...}]  マルチステップタスクの自律実行一度のAPI呼び出しで複数のモデルステップ（ツール使用や思考、回答生成）を実行できます。「この商品の在庫を調べ、なければ業者に発注メールを書いて送信して」 Chat CompletionsのFunction Calling機能が統合されており、モデルが関数を実行するパターンが標準化複合タスクを単一ワークフローで完遂できる能力が大幅に向上 Azure OpenAI 技術レポート 2025年3月15日 5/12

 主なユースケースと活用例 (2/2): Computer Use UI操作の自動化 (Computer Use) Computer Useエージェントは、人間がGUI上で行う事務作業を代行できる強力な自動化基盤を提供します。これはRPA(Robotic Process Automation)に近い使い方が可能ですが、自然言語指示で操作できる点でより柔軟性が高いです。   活用例: 従業員入社手続き自動化複数システムへのデータ入力作業 Webポータルから人事システムまでの横断操作書類出力や承認フロー処理複数ページにわたるワークフローの自動ナビゲーション → 人事担当者の作業時間を大幅に削減  Computer Useの特長クロスアプリケーション対応: WebからWindowsアプリまで UI変化への適応: 画面レイアウトが変わっても対応可能自然言語指示: コーディングなしで「〜して」で操作を指示安全チェック機構: リスク操作時に確認を要求 Computer Useの本質的価値: 「LLMに何かをさせる」応用全般で信頼性と開発容易性を向上。特に、反復的なUI操作が必要な業務プロセスの自動化において威力を発揮します。 Azure OpenAI 技術レポート 2025年3月15日 6/12

  技術的アーキテクチャと動作原理 Responses APIの内部動作  チャット履歴・ツール呼び出し・モデル出力を一体管理するアイテムベース設計 Response出力には複数種類の要素が配列で含まれる会話管理はprevious_response_idパラメータで前回応答IDを指定サーバ側で履歴を30日間保持（不要なら削除可能） {"type": "tool_call", ...} // ツール実行命令 {"role": "assistant", "content": "...", "type": "message"} // 回答 {"type": "reasoning", "text": "..."} // 推論過程  Computer Useの動作ループ 1. 初回要求: モデル指定、ツール有効化、画面解像度設定 2. アクション出力: モデルがスクリーンショット要求や操作アクションを出力 3. アクション実行: アプリ側でモデル指示の操作を実行 4. 環境更新送信: 操作後のスクリーンショットをモデルに送信 5. 次アクション: 2→4を繰り返し、完了まで継続  安全性チェック: 不審な操作や機密サイトアクセスを検知すると警告を発し、ユーザーの明示的確認を要求 Computer Use動作フロー 1. 初回要求 2. アクション出力 3. アクション実行 4. 環境更新送信 2→4のループをタスク完了まで繰り返し Azure OpenAI 技術レポート 2025年3月15日 7/12

  Azure OpenAIとOpenAI公式版の違い主な相違点項目提供形態リージョン対応モデル組み込みツールセキュリティ Azure OpenAI版 Azure上の認証済みリソース経由 (Azureアカウント必要) 限定リージョンでリソース作成 (例: 東日本など) gpt-4o・gpt-4o-mini computer-use-preview専用モデル Computer Useツールをサポート (Web検索・File検索は現時点無し) Azure RBACでアクセス制御仮想ネットワーク・ファイアウォール対応 OpenAI公式版 OpenAIプラットフォームのAPIに直接リクエストグローバルサービス (リージョン指定不要) GPT-4 Turboなど最新モデルツール種別に応じて内部で適切処理 Web Search, File Search, Computer Useの 3種をサポート APIキーで認証ネットワーク制限は基本なし選択のポイント: Azure版はセキュリティ・管理機能が充実し企業利用に適している一方、OpenAI公式版は手軽に利用開始でき最新機能への即時アクセスが可能です。用途に応じて選択すると良いでしょう。 Azure OpenAI 技術レポート 2025年3月15日 8/12

  セキュリティとアクセス制御アクセス管理  データセキュリティ  Azure RBAC: ロールベースのきめ細かいアクセス制御が可能「Cognitive Services OpenAI User」など権限をチーム単位で付与 Azure AD認証: トークンベース認証が可能（APIキー不要）マネージドID対応でコード内に認証情報不要  ネットワークセキュリティ仮想ネットワーク統合: 社内ネットワーク内からのみアクセス可能にプライベートエンドポイント: インターネット経由でないアクセス閉域網: 社内システムとのセキュアな直接連携 ※OpenAI公式版では同等のネットワーク制限は実施不可 Computer Use安全対策入力・出力データはモデル再学習に使用しない方針（Azure・OpenAI共通）対話内容は暗号化してAzure内部に保存（30日自動削除）必要に応じてAPI経由で早期削除可能自社データの機密性を確保安全チェック機構: UI操作固有のリスクに対処 malicious_instructions: 不正誘導検出 irrelevant_domain: 無関係なドメイン遷移検知 sensitive_domain: 機密サイトアクセス警告リスク検出時はユーザー確認必須（自動処理不可） Azure OpenAI 技術レポート 2025年3月15日 9/12

10.

[beta]




Python SDKの使用方法とコード例

基本的な使用例

import os
from openai import AzureOpenAI
# Azure OpenAIリソースの接続設定
client = AzureOpenAI(
api_key=os.getenv("AZURE_OPENAI_API_KEY"),
azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT"),
api_version="2025-03-01-preview"
)
# シンプルなテキスト応答のリクエスト
response = client.responses.create(
model="gpt-4o", # デプロイ時のモデル名
input="こんにちは、調子はどう？"
)
print(response.output_text) # 応答テキストを取得



ツール（関数）定義例



Computer Useの初回リクエスト

# ツール（関数）定義の例

response = client.responses.create(

tools = [{

model="computer-use-preview", # 専用モデル

"type": "function",

tools=[{

"name": "get_weather",

"type": "computer_use_preview",

"description": "指定された緯度経度の現在気温を返す",

"display_width": 1024,

"parameters": {
"type": "object",

"display_height": 768,
"environment": "browser" # "windows"等

"properties": {

}],

"latitude": {"type": "number"},

input=[{"role": "user", "content":

"longitude": {"type": "number"}

"bing.comで最新のAIニュースをチェック"}],

},

truncation="auto"

"required": ["latitude", "longitude"]

)

}

※環境種別と画面サイズの指定が重要

}]
response = client.responses.create(
model="gpt-4o",
input=[{"role": "user", "content": "ロンドンの天気は？"}],
tools=tools

Azure OpenAI 技術レポート

2025年3月15日

10/12

11.

  ベストプラクティスと制限事項注意点  Computer Use最適化  プレビュー機能の扱い: 現在はプレビュー提供であり、API仕様変更が予告なく行われる可能性ありモデルの限界: OCR性能や画像解釈には限界があり、小さな文字や複雑な画面では誤認識の可能性トークンと料金: 複数ステップの推論や長文入出力でトークン数が膨らみ、コストも増大  OCR精度が低い場合は画像詳細度を高設定にすると改善する場合あり複雑なUI操作では人間の介入ポイントを設計に組み込む画面領域を適切に限定し、不要な情報を減らす明示的な安全チェック確認フローを実装ベストプラクティス逐次ステップでのユーザー確認: 重要アクション前にUI上で確認を挟む設計会話履歴の管理: 機微情報は適切なタイミングでresponses.delete()で削除ツールの複数登録とモデル誘導: 明確な指示でどのツールを使うべきかヒント提供 max_tokens設定: 無限ループや不要な長文出力を防止モニタリングと最適化ログとトレース活用: エージェントの動作を記録・分析 response.usageで入出力トークン数を監視エラーパターンを蓄積し対策実装定期的なプロンプト最適化でコスト削減本番環境への移行計画: 現時点では検証環境での試験を推奨。正式リリース後に本番環境への移行計画を立てることが安全です。機能強化とAPI安定化が進むまで様子を見ることも一つの選択肢です。 Azure OpenAI 技術レポート 2025年3月15日 11/12

12.

  まとめと今後の展望要点まとめ Responses APIは、チャットからエージェントへの進化を実現する橋渡し的なAPIであり、複雑なタスクをモデルが自律的に遂行するための土台となる Computer Useは、AIがGUI操作を自動化する革新的機能で、企業の業務自動化に大きな可能性をもたらす API間連携、複合タスク実行、UI操作自動化など、次世代エージェント開発が大幅に簡素化される Azure版とOpenAI公式版で機能差があるため、ユースケースに応じた選択が重要  今後の展望  プレビュー版から正式版へ移行し、API仕様が安定化組み込みツールの拡充（Web検索やFile検索のAzure版対応）モデル精度向上と対応リージョンの拡大より高度なエージェント開発ツールの登場参考資料 Azure OpenAI公式ドキュメント Microsoft Learnチュートリアル OpenAI公式ブログ・APIリファレンス技術専門サイト解説記事 Microsoft公式GitHubサンプルコード Responses APIとComputer Use機能を使いこなせば、従来は複雑だったエージェントシステム開発が格段に効率化されます。ベストプラクティスを踏まえて活用を検討してみてください。 Azure OpenAI 技術レポート 2025年3月15日 12/12