-- Views
April 19, 26
スライド概要
2026年4月18日(土)に実施された「Global Azure 2026 @ Tokyo」で登壇した際の資料です。
※デモ動画は削除しております。デモ動画を見たい方は下記URLからセッション動画をご覧ください。
https://youtu.be/p8S11omqAsU?t=11898
Microsoft MVP for Microsoft Azure/ Azure, .NETのWebアプリケーションエンジニア / 技術情報発信・勉強会実況アカ /
SRE初学者が検証した Azure SRE Agent — 運用コスト最適化への道 2026/4/18(土) 「Global Azure 2026 @ Tokyo」 御成門プログラマー(Tomotaka Suzuki)
自己紹介 名前:御成門プログラマー(Tomotaka Suzuki) 技術: Microsoft Azure(コスト周り多め), .NET, Angular X(Twitter) : @onarimonprogram 技術ブログ : onarimon.jp グルメブログ: food.onarimon.jp Microsoft MVP 2023年6月~ ・受賞カテゴリー Microsoft Azure ・技術分野: Azure Cost, Resource & Configuration Management → 名称変更で現在はAzure Operations & Management 失効中
過去のコミュニティ登壇タイトル例 Azure無料リソースだけでアプリ作ってみた Azureコスト値上げ コスト最適化最新情報 Azure Monitor ログコストが気づくと高くなっていた話 Azure コスト超過を防ぐガードレールを設定しよう Azure OpenAI Service PTU のコストに気を付けろ Visual Studio Subscription 1か月分の無償枠を1日で使い果たした話 Azureコストやらかしパターンから学ぶコスト最適化 御成門プログラマー(Tomotaka Suzuki)さんのプロフィール | ドクセル
私の業務とコミュニティ活動における課題 業務 コミュニティ(Azure系が多い) プロダクト開発 勉強会参加 プロダクト企画 勉強会登壇 私 プロダクト保守 ブログ執筆 フルコミット できていない
そうだ「SRE Agent があるじゃないか」 運用業務を自動化できるところはAIに任せたい
システムの可用性を高めたい 運用を自動化したい そんな思いと期待で溢れた Azure SREエージェントを紹介したい
解決したいこと サービスの可用性・信頼性を向上したい システム停止期間をできる限り減らしたい システム停止による損害コストのリスクを減らしたい 運用コストは最適化したい 作る前は忘れがちだけどシステムの運用って大変。コストもかかる コストが減るのはもちろんうれしい。でも可用性・信頼性がなくなるのは避けたい→コスト最適化 障害の監視・調査・修正作業を自動化したい 業務時間外に何かあったときに自動で対応してほしい その分、開発に集中したい
SRE(Site Reliability Engineering)とは Googleが提唱した、ソフトウェアエンジニアリングの考え方を運用に応用し、 サービスの信頼性と開発速度を両立する手法 SREの主な目的 サービスの可用性・信頼性の向上 運用コストの削減(自動化) 開発と運用の橋渡し(DevとOpsの協調) →エンジニアリングの力でスケーラブルで信頼性の高い運用を実現する
Azure SRE エージェントとは 2026/3/10 GA SRE エージェントは、サイトの信頼性エンジニアリング プラクティスに自動化とインテリ ジェンスをもたらすサービスです。 手動作業の削減、システムのアップタイムの向上、一 貫した運用成果の実現に役立ちます。 エージェントは、Azure サービスと外部システム の両方と統合されると、人間の介入を最小限に抑えて運用タスクを実行します。 Azure SRE エージェントの概要 | Microsoft Learn
Azure SRE エージェントで何ができる? Azureリソース全体のインシデント調査 Azure Monitor と Application Insight からログとメトリックを取得し、障害の原因を自動分析 エラーパターンを分析し、解決策を提案 自動的に修復アクションを実施(特権モードで構成時のみ) インシデント対応計画の作成 特殊なシナリオ用のカスタムサブエージェントの作成 ソースコードレポジトリやMCPサーバーなど外部サービスに接続
機能①「インシデント対応」 発生した現象の調査・分析・修復 アラート監視、自動調査開始 インシデント調査 デプロイ履歴の確認 ログの取得・解析 ソースコード検索 調査結果に基づく対応 Azureリソースの修復 GitHubやAzure DevOpsにIssue投稿 やPR作成 インシデント報告書の作成
機能②「チャット」 チャットで質問、依頼をエージェントに投げる Azureリソースに関する質問 Azureリソースの操作 エラー調査の依頼 などなど リソースで発生したインシデント状況を報告させている→
機能③「スケジュールタスク」 自然言語で書いた運用手順を定期実行 毎朝のヘルスチェック Service Health の定期監視 証明書の有効期限チェック 週次セキュリティレポートの作成 コスト・容量のレビュー ↑スケジュールタスク設定画面 ←セキュリティ日時レポート結果抜粋
Azure SRE エージェントなら叶えられる!? 午前3時に発生した障害が 出社したら直ってました 幻の妖精さんが直してくれたが現実に!?
Azure SRE エージェントなら叶えられる!? 発生した不具合のissueが上がっていた あとはCoding Agent に任せるだけ
Azure SRE エージェントなら叶えられる!? 優秀な後輩SRE Agentさん 「インシデント報告書の作成全部やっておきます」 発生日時から対応内容、修正確認までの時系列、発生要因まで報告します
Azure SRE エージェントなら叶えられる!? システムの情報について質問したら答えてくれます リソース構成、ログ、ソースコードまであらゆる情報と連携
Azure SRE エージェントなら叶えられる!? セキュリティの定時チェックを自動的に実行してくれました スケジュールタスクの実行で命令を実行
デモ「インシデント対応」 障害発生!?
Azure SRE エージェントの2つの実行モード 自立モード(デフォルト) レビューモード 動作 エージェントが調査結果をもとにアクションを ”自動実行する” 動作 エージェントが調査結果をもとにアクションを “提案する” 動作する場所 インシデント対応時、スケジュールタスク 動作する場所 インシデント対応時、スケジュールタスク 推奨環境 非運用環境など、 自動で操作されても困らない環境 推奨環境 運用環境など自動で操作されると困る環境 や信頼できるスケジュールタスクの実行 注意事項 勝手に実行されてしまう例外があるので注意 Azure SRE エージェントでの実行モード | Microsoft Learn
レビューモードの注意事項 レビューモードでも操作に対して確認せずに実行されるパターンがあるので注意です。 レビュー モードでは、Azure インフラストラクチャ操作に対してのみ [承認 ] ボタンと [拒 否 ] ボタンが表示されます。 メールの送信、Teams への投稿、外部データ ソースのクエ リなど、その他のアクションは、エージェントの使用可能なツールとアクセス許可に基づい て続行します。 Azure SRE エージェントでの実行モード | Microsoft Learn
Azure SRE エージェント と 他のAIアシスタントの違い 「Azure Copilot と何が違うの?」と質問されたこともありました Azure 監視および監視ツールとの緊密な統合 SRE手法とインシデント対応パターンの理解 Azure リソースに対してアクションを実行する機能(承認されている場合) 調査セッション間のコンテキスト保持 Azureサービスと一般的な障害パターンに関する専門知識 Azure SRE エージェントの一般的な FAQ | Microsoft Learn
SRE エージェントを作成すると作成されるリソース Azure SRE Agent Application Insight Managed Id (Azure SRE エージェント用) Log Analytics ワークスペース (アラートルール) Azure SRE エージェントの概要 | Microsoft Learn
デモ「スケジュールタスクの実行」 Azureコストとセキュリティの定時確認
Azure SRE Agent の課金コスト 気になるコスト
Azure SRE エージェント 利用料金 課金単位 AAU(Azure Agent Units) → 16.015円/AAU (2026/4/8現在) 「エージェント利用”固定費”」 + 「アクティブフロー利用”変動費”」 エージェント利用固定費: エージェント時間あたり4AAU(エージェント停止中も課金発生) 例:1つのエージェント1か月(744時間) = 1エージェント × 744h × 4AAU = 2976AAU = 約47,660円 アクティブフロー利用変動費:トークンベースにAAUが計算される。モデルとタスクによってレートが違う 例:一般的なシナリオのトークン目安が公式で公表されています(あくまで一例なので注意) 出力 トークン キャッシュ 読み取り キャッシュ 書き込み Claude Opus 4.6 AAU Claude Opus GPT 5.3 Codex GPT 5.3 Codex 4.6 AAU AAU 料金 シナリオ 入力 トークン クイック質問 ~20K 約2000 ~15K 約5000 ~3.8 ~\61 ~1.6 インシデント調査 ~200K ~15K ~150K ~50K ~35.5 ~\569 ~13.7 完全修復 ~500K 約40,000 約400キロバイト ~100K 86.5 ~\1385 ~33.9 こちらの価格モデルは2026年4月15日から適用 例 ~\26"最近のアラートを表示する" Azure Monitor からの自動インシ ~\219 デント "失敗したデプロイを診断して修正 ~\543 する" Azure SRE エージェントの価格と課金 | Microsoft Learn
想定されるSREエージェントコストやらかしパターン ログの整理がされていない →意図しないインシデント対応が多発、無駄なアクティブフロー利用費の増.. 高いモデルを何も考えず使い続ける →AAU単価増。(例:Claude Opus 4.6 は GPT 5.3 Codex の3倍のAAUを消費する)... スケジュールタスクの実行頻度が異常に多い →アクティブフロー利用費が継続的に課金され続ける.. 使っていないSREエージェントの放置 →置いていおくだけで月5万円弱の課金が発生
SREエージェントコスト最適化のヒント MS公式Learnページに紹介されていたので転載 戦略 影響 それを行う方法 エージェントにコンテキストを追加する エージェントが簡潔かつ根拠を持った状態を維持できるように、スキル・知識・ 無駄なトークン ドキュメントを追加する。過去の対話を永続的メモリとして活用することで、時 の削減 間経過とともに効率が向上する。 対応計画を使用してインシデントをフィ ルター処理する 不要な作業を 発生させない 応答プランを使用して、重大度・対象サービス・キーワードで Azure Monitor アラートをフィルターする。条件に一致するインシデントのみをエージェントが 調査する。 スケジュールされたタスクのバッチ処理 実行回数を 減らす 継続的なポーリングを行わず、タスクを毎日・毎週などにまとめてスケジュー ル実行する。 自動化する前にチャットでテストする 無駄な実行を 回避する まずはチャットやプレイグラウンドでプロンプトを検証する。誤った自動化が繰 り返し実行されると AAU が無駄に消費される。 アイドルエージェントを停止する アクティブな フローを排除 [設定] > [基本] > [停止] を選択する。 構成は保持されたまま、すべてのアクティブフローが停止する。 ※固定費は削除するまで継続。 未使用のエージェントを削除する すべてのコスト sre.azure.com でエージェントを開き、[設定] > [基本] > [エージェントの削除] を削減 を実行する。課金は即座に停止する。 Azure SRE エージェントの価格と課金 | Microsoft Learn
その他コスト関連機能について AAUはエージェント消費量ページで確認可能 アクティブフローの月間使用AAUを制限可能 →割り当てはいつでも変更可能 →制限に達するとチャットとアクション使用不可 エージェントの停止も可能 固定費は課金され続ける 変動費は発生しなくなる
リアルなコスト 今までピクリとも動かなった日時コストが新価格適用の4/15から変動し始めている
その他気になる仕様関連 データの取り扱い、対応リージョン
Azure SRE エージェント対応リソース Azure CLI と REST API を使用して、すべての Azure サービスを管理できるらしい コンピューティングサービス ストレージサービス ネットワークサービス • 仮想マシン • App Service • Container Apps • Azure Kubernetes Service • Azure Functions 等 • ストレージアカウント • マネージドディスク • 仮想ネットワーク • ロードバランサー • アプリケーションゲートウェイ • ネットワークセキュリティグループ データベースサービス 監視と管理 • Azure SQL Database • Cosmos DB • PostgreSQL • MySQL • Redis • Azure Monitor • Log Analytics • Application Insights • Resource Manager Azure SRE エージェントの概要 | Microsoft Learn
SREエージェントのデータの取り扱い データ保存について データはエージェント作成時に選択したリージョン内で処理、格納される 保存される内容はプロンプト、応答、リソース分析内容 エージェントが管理しているそれぞれのサービスのリージョンに関係なく、 すべてのデータがエージェントのリージョンに保存 データの利用 Microsoft はデータを使用したAIモデルのトレーニングは行わない データはサービスの機能提供や必要に応じたサービスの改善、デバックするためにのみ使用 データはテナントとAzureサブスクリプションの境界で分離される Azure SRE エージェントのデータ所在地とプライバシー | Microsoft Learn
対応リージョン 対応リージョンが2026年4月18日現在3リージョンのみ 米国東部2(eastus2) スウェーデン中部(swedencentral) オーストラリア東部(australiaeast) SREエージェント作成後はリージョンの変更ができない (願い)日本リージョン来てください Azure SRE エージェントでサポートされているリージョン | Microsoft Learn
最後に
Azure SRE Agent の導入効果 項目 導入前 導入後 インシデント 確認 人が稼働している時間のみ アラート発生で自動検知 調査方法 アラートの確認、アプリケーションログの確認、 変更ログの確認、再現性の確認….などなど SRE Agent が必要な調査を自動で実施 ナレッジ エンジニアの頭の中、 膨大なソースコードやドキュメント Agent がソースコードやリソース情報、 ドキュメントの情報をナレッジとして自動利用 インシデント 解決方法 人力で直す Agentが修正方法を案出し インシデント 解決までの時間 対応した人の知識や腕により変わる Agentが対応するので安定した解決速度
SRE Agent 導入で運用コストはどうなる? 定型運用の自動化により、人依存の運用コストを削減し、品質と対応速度が向上 導入前 項目 内容 運用人件費 運用担当2名 導入後 項目 内容 \12,000,000 運用人件費 運用担当者 0.5~1名 \6,000,000 オンコール対応 夜間・休日対 応 \2,000,000 Azure SRE Agent 利用料 AI/SRE関連 サービス \600,000 障害対応ロス \1,500,000 Azureログ・監 視費用 Log/Monitor 等 \700,000 復旧遅延・ 影響 年間コスト(例) 年間コスト(例) \15,500,000 \7,300,000 年間運用コストが50%以上削減!? →浮いた費用や人は改善や設計など高付加価値作業に集中できる ※あくまでAIが算出した机上の空論です
運用を始めるにあたっての課題 アラート設計ができていないと正しく動かない アラートが発火しないとSREエージェントも動かない 無駄なアラートは課金額を増やす要因に 日本リージョンがまだない 企業によってはデータ保管場所要件的に厳しいかも 後からリージョン変更ができない Agentに全任せしていいのか 他のAIエージェントにも言えることだが、「全任せは怖い」というのが現状 本番運用はレビューモード中心になる予感 最終的には人間がどこかで介在する必要は出てきそう 本番利用するときはしっかり検証して自動化していこう
ドキュメント周り Azure SRE エージェントのドキュメント | Microsoft Learn https://learn.microsoft.com/ja-jp/azure/sre-agent/ Azure SRE Agent 専用ドキュメントページ(こっちの方が内容詳しい) https://sre.azure.com/docs ←Azure SRE Agent の専用ページにリンクがあります
ご清聴ありがとうございました
デモ3「チャットからエラー確認」 時間が余っていれば
エラーを確認
SREエージェントのチャットで相談
調査開始、調査結果を返してくれる
修正案を提示してくれるので選択
権限の範囲で実行できるAZコマンドを実行・修復確認
修正対応後に恒久対応策の提案
問題の合ったコード部分のPRを自動作成