3.3K Views
May 24, 25
スライド概要
2025/05/23 に行われた Oracle Developer Days 2025 で用いた資料です。
Slides are just my own.
実践!Datadogで高める OCIのオブザーバビリティ Oracle Developer Days 2025 #oradev25 Shuhei Kawamura / Oracle Groundbreakers Advocate Keisuke Sakasai / Google Developer Experts
前半パート
自己紹介 川村 修平 (Shuhei Kawamura) Senior Solutions Architect Oracle Groundbreakers Advocate – Containers, Microservices & APIs オラクル・デジタル / ISVソリューション本部 日本オラクル株式会社 コミュニティ • OCHa Cafe – Oracle Cloud Hangout Cafe • CloudNative Days – Observabilityチーム @shukawam ひとこと • 山登りが新たな趣味になりつつあります
アジェンダ(前半パート) ● マルチクラウドにおけるオブザーバビリティの重要性 ● マルチクラウド環境におけるオブザーバビリティの獲得
アジェンダ(前半パート) ● マルチクラウドにおけるオブザーバビリティの重要性 ● マルチクラウド環境におけるオブザーバビリティの獲得
ウォーミングアップ オブザーバビリティ、テレメトリーデータ 本発表における前提知識の整理 オブザーバビリティ /Observability(Observe + Ability) • システムの出力を調べることで、システムの内部状態を理解する能力のこと • その事象がなぜ発生するのか?という問いにどれだけ説明できるか?の尺度 テレメトリーデータ • システムの状態や動作を把握するために出力されるデータのこと • e.g. ログ、メトリクス、トレース、プロファイル、ダンプ、etc.
クラウドを用いたシステム開発 要件に応じてさまざまな選択肢がとりえる シングルクラウド ハイブリッドクラウド マルチクラウド 1つのパブリック・クラウド 異なる2つ以上のパブリック・クラウド e.g. OCI & Google Cloud Oracle Cloud Infrastructure Oracle Cloud Infrastructure パブリック・クラウド + オンプレミス Oracle Cloud Infrastructure 専用線 専用線 OCI Kubernetes Engine Oracle Autonomous Database OCI Kubernetes Engine OCI Generative AI OCI Generative AI Google Cloud OCI Kubernetes Engine オンプレミス Oracle Autonomous Database Vertex AI API for Gemini Oracle Database
クラウドを用いたシステム開発 要件に応じてさまざまな選択肢がとりえる シングルクラウド ハイブリッドクラウド マルチクラウド 1つのパブリック・クラウド 異なる2つ以上のパブリック・クラウド e.g. OCI & Google Cloud Oracle Cloud Infrastructure Oracle Cloud Infrastructure パブリック・クラウド + オンプレミス Oracle Cloud Infrastructure 専用線 専用線 OCI Kubernetes Engine Oracle Autonomous Database OCI Kubernetes Engine OCI Generative AI OCI Generative AI Google Cloud OCI Kubernetes Engine オンプレミス Oracle Autonomous Database Vertex AI API for Gemini Oracle Database
マルチクラウドを選択する主な理由 BCP(Business Continuity Plan | 事業継続計画 )対策 • 単一のクラウドベンダーの大規模障害に備える 最適な機能・サービスの活用 • それぞれのクラウドベンダーの得意分野や特徴的なサービスをいいとこ取りする • e.g. OCI – Oracle Database, Heatwave MySQL / Google Cloud – BigQuery, Vertex AI, … コスト最適化 • 特定機能のコストパフォーマンスに優れたクラウドを部分利用し、全体のコストダウンを図る • e.g. OCIでCompute, Storage, Networkなどクラウドサービスに依存しない部分を稼働させる ベンダーロックインの回避 • 特定クラウドベンダーの動向に縛られないために、複数のクラウドベンダーを利用する /利用できる状態 にしておく
マルチクラウド環境における主な課題 運用管理のサイロ化と複雑性の増大 • クラウドベンダー固有の管理コンソールや APIなどの学習コストや運用負荷が増加する テレメトリーデータ [1]や監視ツールの分断化 • クラウド固有の監視ツールは、そのクラウドに最適化されている • 複数クラウドで生成されるテレメトリーデータを統一的に扱おうと思うと多くの場合は工夫が必要( e.g. OCI – カスタムメトリクス) セキュリティやガバナンス維持の複雑化 • 複数ベンダーを使うことにより、システム全体で一貫したセキュリティポリシーを適用することが難しい • クラウドを跨いだ監査対応などは煩雑になる傾向がある ネットワークのパフォーマンス • データセンターが分かれていることにより、システム全体のパフォーマンスが劣化した場合の被疑箇所 が増える [1]: ログ、メトリクス、トレースなど
マルチクラウド環境における主な課題 運用管理のサイロ化と複雑性の増大 • クラウドベンダー固有の管理コンソールや APIなどの学習コストや運用負荷が増加する テレメトリーデータ [1]や監視ツールの断片化 • クラウド固有の監視ツールは、そのクラウドに最適化されている • 複数クラウドで生成されるテレメトリーデータを統一的に扱おうと思うと多くの場合は工夫が必要( e.g. OCI – カスタムメトリクス) セキュリティやガバナンス維持の複雑化 • 複数ベンダーを使うことにより、システム全体で一貫したセキュリティポリシーを適用することが難しい • クラウドを跨いだ監査対応などは煩雑になる傾向がある ネットワークのパフォーマンス • データセンターが分かれていることにより、システム全体のパフォーマンスが劣化した場合の被疑箇所 が増える それってオブザーバビリティの獲得で 解決できることは多いのでは? [1]: ログ、メトリクス、トレースなど
マルチクラウドの課題におけるオブザーバビリティ 復習:そもそも “オブザーバビリティ ”とは… システムの出力を調べることで、システムの内部状態を理解する能力のこと この能力はシングルクラウド特有のものではなく、対象が複雑であればあるほど役立つ オブザーバビリティ という能力を獲得することで、いくつかのマルチクラウド課題は解決可能 • 環境が分かれていることに起因してさまざまな全体像が把握しづらいこと • 障害発生・性能劣化時の原因特定、切り分けが困難なこと • … では、どのようにしてマルチクラウド環境におけるオブザーバビリティを獲得するのか …
アジェンダ(前半パート) ● マルチクラウドにおけるオブザーバビリティの重要性 ● マルチクラウド環境におけるオブザーバビリティの獲得
オブザーバビリティ獲得のためのツール構成例 各クラウドの関連サービスを利用 or どちらかに寄せる サードパーティ or OSSの活用 Oracle Cloud Infrastructure Oracle Cloud Infrastructure Application Performance Monitoring Monitoring ログ メトリクス トレース … Logging Analytics Logging Google Cloud Google Cloud etc. Cloud Trace Cloud Monitoring Cloud Logging
各クラウドサービスを活用する or どちらかに寄せるパターン Oracle Cloud Infrastructure Application Performance Monitoring Monitoring Logging Analytics Logging Google Cloud Cloud Trace Cloud Monitoring Cloud Logging • 各々のクラウドサービスに関するテレメトリーデータは容易に 取得可能 • クラウドを横断したデータの取得や分析は工夫が必要となる • e.g. ログ基盤の統合、メトリクスの集約、 etc. • 各クラウド(もしくは、片方)の監視関連サービスの習熟が必要 • 基本的にはマネージドサービスのため、運用コストは低め • サポート体制は、利用クラウドに準ずる
サードパーティ or OSSを活用するパターン Oracle Cloud Infrastructure ログ メトリクス トレース … Google Cloud • テレメトリーデータの取得は、ツールとクラウド 間の統合などが必要になるケースが多い • Datadog: OCI Integration(Log/Metrics) • Grafana: OCI Plugin(Log/Metrics) • AI等を活用した高度な運用監視機能を備えてい ることもある • Datadog: AIOps • サードパーティや OSSに関する習熟が必要 • ツール自体の運用について • SaaSの場合: 運用コストは低め etc. • OSSの場合: 運用コストは高め • サポート体制について • SaaSの場合: ベンダーに準ずる • OSSの場合: 原則コミュニティサポート
今日扱うのは、 OCI + α ♡ Datadog という選択肢 • 主要なOCIサービスが生成するテレメトリーデータ(ログ、メトリクス)の連携機能を提供 • トレースは、Datadogのライブラリを用いて計装するか OpenTelemetryベースで連携可能 参考: https://www.datadoghq.com/ja/about/latest-news/press-releases/datadog-oci-2024-09/
OCIとDatadogの連携について ※上記はメトリクスの例ですが、ログも大体同じ仕組みです ログの場合:Connector Hub → Functions → Datadog Send logs API 参考: https://docs.datadoghq.com/ja/integrations/oracle_cloud_infrastructure/
前半のまとめ ● クラウドを活用したシステム開発も複数のパターンが存在 ○ シングル / マルチ / ハイブリッドクラウド ● マルチクラウド構成にした場合は、より顕在化しやすい問題がある ○ 全体像の把握が困難 ○ 障害発生時の対応が複雑化 ● オブザーバビリティという能力を獲得することで解決可能なことがある 後半パートでは、マルチクラウド環境におけるオブザーバビリティ を獲得する意義を を添えてさらに深掘ります!
後半パート
逆井 啓佑 (Keisuke SAKASAI) Technical Solutions – Sales Engineer Datadog Japan 合同会社 コミュニティ @k6s4i53rx • OpenTelemetry Meetup • Google Developer Experts (Google Cloud) • OCHa Cafe ( Oracle Cloud Hangout Cafe ) 非公式 Ambassador ☕
逆井 啓佑 (Keisuke SAKASAI) Technical Solutions – Sales Engineer Datadog Japan 合同会社 コミュニティ • OpenTelemetry Meetup • Google Developer Experts (Google Cloud) • OCHa Cafe ( Oracle Cloud Hangout Cafe ) 非公式 Ambassador ☕ ひとこと @k6s4i53rx • DevDay 2024 も参加して 良い写真 (with @higeoyaji さん)を 撮れたので、 今年も撮りたいです!!
アジェンダ(後半パート) ● Datadog とは ● マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 ● マルチクラウド構成におけるオブザーバビリティ統合のデモ(Datadog の例) ● さらにオブザーバビリティを高めるために ● クロージング
アジェンダ(後半パート) ● Datadog とは ● マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 ● 〜 Datadog を添えて 〜 ● マルチクラウド構成におけるオブザーバビリティ統合のデモ(Datadog の例) ● さらにオブザーバビリティを高めるために ● クロージング
オブザーバビリティ &セキュリティ プラットフォーム Company Highlights 企業情報ハイライト Our Scale and Volume ビジネスのスケール 2010 100万台+ 5,000+ 10億件+ ニューヨークにて創業 グローバルの従業員数 サービスバックエンドへのクエリ/ Day 27,000+ 3兆件 + 約20億ドル 15ヶ月+ エンタープライズのお客様社数 2019年9月19日 NASDAQに上場 (DDOG) モニタリングしているホスト数 (対前年比 +31%) サブスクリプションの 年間経常売上(ガイダンス) サービスバックエンドへ送信される システムイベント / Day 取得データ(秒単位)の 標準の完全保持期間
開発からビジネス成長まで網羅的なユースケース Dev コード Business テスト シップ ラン 監視 運用 最適化 セキュア 顧客分析 ユーザー サポート ビジネス 分析 ビジネス 成長 クラウドサービスマネジメント ソフトウェア開発 監視&運用 ・CIビジビリティ ・Intelligent Test Runner ・Continuous Testing ・インフラ監視 ・ネットワーク監視 ・APM ・外形監視 ・ログマネジメント ・ユニバーサル サービス モニタリング ・オブザーバビリティ パイプライン 最適化 セキュリティ ・Continuous Profiler ・データベース モニタリング ・Data Streams Monitoring ・クラウドコスト マネジメント ・クラウドセキュリティ マネジメント ・アプリケーション セキュリティ マネジメント ・クラウド SIEM クラウドサービスマネジメント ・インシデントマネジメント ・ワークフローオートメーション ・サービスカタログ ・ケースマネジメント ・ Appビルダー ・リソースカタログ ビジネス分析 ・Software Composition Analysis ・Sensitive Data Scanner ・リアルユーザー モニタリング ・プロダクト分析 ヒートマップ クリックマップ スクロールマップ ・Mobile App Testing ・セッション リプレイ
OCI 含むクラウドベンダーとのインテグレーション マルチクラウド構成における 統合的なオブザーバビリティツール
OCI 含むクラウドベンダーとのインテグレーション 今日のセッションでは、一般的な マルチクラウド環境 における オブザーバビリティを高める方法や意義 を扱い、 Datadog は統合オブザーバビリティツールの一例として実演する位置付けです。 マルチクラウド構成における 統合的なオブザーバビリティツール
アジェンダ(後半パート) ● Datadog とは ● マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 ● マルチクラウド構成におけるオブザーバビリティ統合のデモ(Datadog の例) ● さらにオブザーバビリティを高めるために ● クロージング
マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 マルチクラウド構成における課題 テレメトリーシグナルの分析や可視化の属人化 、 情報の格差が生まれ 、全体最適なオブザーバビリティ実現が難しい。 ログやメトリクス、トレースなどの テレメトリーシグナルが分断 し、問題が起 きた際の因果関係や、根本原因の迅速な特定 が難しい。 インフラ・サービス全体のコスト構造が見えづらく、 クラウド横断におけるコストの最適化が難しい 場合がある。 アラートや障害対応フロー、エラー情報 がそれぞれのクラウドに分断され てしまい、運用の複雑化やナレッジマネジメント が難しい。 オブザーバビリティ統合の意義 ❶ オブザーバビリティの民主化 ❷ テレメトリーシグナルの相関 ❸ コストガバナンスの統制 ❹ 統合された運用体験 ※ 構成に依らずあり得る課題もあるが、マルチクラウド構成であることでより発生しやすい
マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 マルチクラウド構成における課題 テレメトリーシグナルの分析や可視化の属人化 、 情報の格差が生まれ 、全体最適なオブザーバビリティ実現が難しい。 ログやメトリクス、トレースなどの テレメトリーシグナルが分断 し、問題が起 きた際の因果関係や、根本原因の迅速な特定 が難しい。 インフラ・サービス全体のコスト構造が見えづらく、 クラウド横断におけるコストの最適化が難しい 場合がある。 アラートや障害対応フロー、エラー情報 がそれぞれのクラウドに分断され てしまい、運用の複雑化やナレッジマネジメント が難しい。 オブザーバビリティ統合の意義 ❶ オブザーバビリティの民主化 ❷ テレメトリーシグナルの相関 ❸ コストガバナンスの統制 ❹ 統合された運用体験 ※ 構成に依らずあり得る課題もあるが、マルチクラウド構成であることでより発生しやすい
マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 ❶オブザーバビリティの民主化 ・ 監視データの分析や可視化が、特定の担当者やチームに属人化 ・ ツールの分断により、現場の誰もが必要な情報にアクセスできない ・ 監視におけるノウハウが分散し、 担当者やチーム間にオブザーバビリティの格差 が生じる
マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 ❶オブザーバビリティの民主化 ・ 監視データの分析や可視化が、特定の担当者やチームに属人化 ・ ツールの分断により、現場の誰もが必要な情報にアクセスできない ・ 監視におけるノウハウが分散し、 担当者やチーム間にオブザーバビリティの格差 が生じる Datadog でオブザーバビリティ統合 . ・ 全クラウドのデータを一元的に収集し、可視化 できるビューを実現 ・ ロールベースのアクセス制御で、 サービス運用に関わる全てのメンバーにオブザーバビリティを ・ 統合により監視ツールの運用やメンテナンスにおけるコストを削減
マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 ❷ テレメトリーシグナルの相関 ・ インシデント発生時にログやトレース、 メトリクスを手動で突き合わせ 調査する場合 MTTR の増加 ・ 且つ、クラウドごとに異なるツールを使っている場合、 それぞれのツールを行き来しトラブルシューティングで非効率 ・ 監視データの見方に様々なツールで精通している必要 がある
マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 ❷ テレメトリーシグナルの相関 ・ インシデント発生時にログやトレース、 メトリクスを手動で突き合わせ 調査する場合 MTTR の増加 ・ 且つ、クラウドごとに異なるツールを使っている場合、 それぞれのツールを行き来しトラブルシューティングで非効率 ・ 監視データの見方に様々なツールで精通している必要 がある Datadog でオブザーバビリティ統合 . ・ テレメトリーシグナルを関連付けて収集することで、 問題のあるリクエストから、関連するデータにドリルダウン しながら調査 ・ クラウド間の分断もなく、根本原因に辿りやすくなる
マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 ❸ コストガバナンスの統制 ・ クラウド横断的なリソースの使用状況を統合的に見えにくい ・ コストと監視データが各プラットフォームで個別に保存され、 コスト削減におけるサービス全体への影響を測定しにくい ・ ダッシュボードなどを使った全体可視化や、 定常的なコストモニタリングを文化として根付かせにくい
マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 ❸ コストガバナンスの統制 ・ クラウド横断的なリソースの使用状況を統合的に見えにくい ・ コストと監視データが各プラットフォームで個別に保存され、 コスト削減におけるサービス全体への影響を測定しにくい ・ ダッシュボードなどを使った全体可視化や、 定常的なコストモニタリングを文化として根付かせにくい Datadog でオブザーバビリティ統合 . ・ クラウド間のコストを横並びで見えるような可視化 ・ 例えば複数のクラウドベンダーのLLM モデルを使用してる場合、 それぞれにかかっているコストを一覧で可視化 ・ コスト増加とオブザーバビリティの相関できる ・ アプリケーションパフォーマンスの削減(プロファイラーの使用) によるコスト低下などの施策にも繋げることができる
マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 ❹ 統合された運用体験の実現 ・ それぞれのツールでアラート設計をしているため、 各アラートの優先付けや管理を全体として行いにくい ・ 問題が起きた際の痕跡 (エラーやアラート、インシデント情報) のナレッジやノウハウが管理しにくい ・ プロジェクト横断的なチーム(SRE やプラットフォームチーム)が 運用や管理を持つことが多く、負荷が高まる
マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 ❹ 統合された運用体験の実現 ・ それぞれのツールでアラート設計をしているため、 各アラートの優先付けや管理を全体として行いにくい ・ 問題が起きた際の痕跡 (エラーやアラート、インシデント情報) のナレッジやノウハウが管理しにくい ・ プロジェクト横断的なチーム(SRE やプラットフォームチーム)が 運用や管理を持つことが多く、負荷が高まる Datadog でオブザーバビリティ統合 . ・ インシデントマネジメント により、オブザーバビリティのデータと共に 障害対応に取り組み、管理 することが可能 ・ アラートの設計や、オンコールを含めた通知の設計 を行い運用を効率化 ・ ノートブック機能を使い、障害対応のポストモーテムを 統一プラットフォームで管理し、ナレッジマネジメント できる
アジェンダ(後半パート) ● Datadog とは ● マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 ● マルチクラウド構成におけるオブザーバビリティ統合のデモ( Datadog の例) ● さらにオブザーバビリティを高めるために ● クロージング
マルチクラウド構成におけるオブザーバビリティ統合のデモ( Datadog の例) 例えば、OCI でアプリケーションが運用され、 Google Cloud の LLM モデルも活用されているサービスを考えてみます。 OCI OCI Gen AI LLM アプリ User Google Cloud OKE ADB Vertex AI API
マルチクラウド構成におけるオブザーバビリティ統合のデモ( Datadog の例) オブザーバビリティツールが乖離 監視 ツール A 監視 ツール B 監視 ツール C … アプリケーションのパフォーマンスや、 ❶ LLM 呼び出しのメトリクスの監視、アプリログは、 ❷ OCI OCI 別々の監視ツールを行き来 する。 ❷ クラウドコストや、それぞれの LLM モデルコストもそれ ぞれのコンソール から確認 ❶ Gen AI ❸ LLM アプリ Google Cloud 何か問題が起こりエラーやアラートが生じた際は、 ❸ それぞれのプラットフォームからアラート が飛んでき て、問題によって別のツールの中で問題調査。 必要に応じてツールを行き来する必要がある OKE ADB Vertex AI API
マルチクラウド構成におけるオブザーバビリティ統合のデモ( Datadog の例) オブザーバビリティツールが統合 ❶ ❷ ❸ テレメトリーシグナルを関連付けて、 ❶ 一つのプラットフォーム上で収集、可視化 。 OCI OCI コストも含めた情報を同じダッシュボード作成。 Gen AI アラートやインシデントを同じプラットフォームの上で ❷ 管理しながら、且つ同じツール上で問題解析を行うこと LLM アプリ ができ、さらにそのノウハウを含め同一ツール上に蓄 Google Cloud 積することができる。 OKE ❸ Datadog だけ使えばよく、認知負荷の低下。 ADB Vertex AI API
マルチクラウド構成におけるオブザーバビリティ統合のデモ( Datadog の例) オブザーバビリティツールが統合 ❶ ❷ ❸ オブザーバビリティの統合プラットフォームとして、 テレメトリーシグナルを関連付けて、 ❶ 一つのプラットフォーム上で収集、可視化 。 OCI OCI Datadog を活用して、どのようなオブザーバビリティを実現できるかをデモ します。 コストも含めた情報を同じダッシュボード作成。 Gen AI アラートやインシデントを同じプラットフォームの上で ❷ 管理しながら、且つ同じツール上で問題解析を行うこと LLM アプリ ができ、さらにそのノウハウを含め同一ツール上に蓄 Google Cloud 積することができる。 OKE ❸ Datadog だけ使えばよく、認知負荷の低下。 ADB Vertex AI API
マルチクラウド構成におけるオブザーバビリティ統合のデモ( Datadog の例) マルチクラウド構成 において、 オブザーバビリティ統合 することによる メリットをデモしました。
アジェンダ(後半パート) ● Datadog とは ● マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 ● マルチクラウド構成におけるオブザーバビリティ統合のデモ(Datadog の例) ● さらにオブザーバビリティを高めるために ● クロージング
さらにオブザーバビリティを高めるために “ オブザーバビリティツールの導入・統合は、オブザーバビリティ獲得のはじめの一歩 ” • 一見するとコストに見える領域への投資理解 • ビジネスにおけるシステムの影響を定量的に把握し、改善に役立てる • コンバージョン率、ユーザー体験、顧客満足度の改善 • 把握するために必要なテレメトリーデータは足りているか? • システム全体の信頼性を高めるための指標として活用する • SLI / SLOの策定 オブザーバビリティ を 継続的に活用するための組織づくり が重要
アジェンダ(後半パート) ● Datadog とは ● マルチクラウド構成における課題に対する、オブザーバビリティ統合の意義 〜 Datadog を添えて 〜 ● マルチクラウド構成におけるオブザーバビリティ統合のデモ(Datadog の例) ● さらにオブザーバビリティを高めるために ● クロージング
クロージング ● マルチクラウド構成における オブザーバビリティ統合をする意義 について解説 ● OCI と Google Cloud という一般的になりつつある マルチクラウド構成において、Datadog を使ってオブザーバビリティ統合 する実例 ● オブザーバビリティを高めるためには、ツールの導入や統合だけではなく、 運用に実装し活用していく組織的な取り組みも重要 である
最後に、宣伝をさせてください!
こんな本書いてます。技術書典プラットフォームでお買い求めできます!
記載されている会社名、商品名、 またはサービス名は、各社の商標登録または商標です。