observability_vs_monitoring_20250702162657

-- Views

July 03, 25

スライド概要

profile-image

IT界隈に生息してるよ!★

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

オブザーバビリティ vs モニタリング エンジニアコミュニティ向け解説 2025年7月2日 発表者名 Genspark で作成

2.

目次 1. タイトル 2. 目次 3. モニタリングとは 4. オブザーバビリティとは 5. 歴史的背景と進化 6. 技術的アプローチの違い 7. データ収集方法の違い 8. 運用面での違い 9. 目的と価値の違い 10. Three Pillars of Observability 11. 代表的なモニタリングツール 12. 代表的なオブザーバビリティツール 13. Kubernetesでのモニタリング 14. Kubernetesでのオブザーバビリティ 15. AWS/Azure/GCPでの実装 16. 移行戦略とベストプラクティス 17. まとめ 18. 参考資料・コミュニティ Genspark で作成 2

3.

モニタリングとは - 基本概念 モニタリングの定義: システムやサービスの状態を継続的に監視し、予め設定された閾値に基 づいて異常を検知するための手法 主な特徴: 既知の問題を中心に監視し、事前に定義された指標を追跡 閾値ベースのアラート機能で即時検知と通知を実現 定期的なデータ収集と時系列での分析が基本 特定のメトリクスに焦点を当てた受動的な監視 一般的なモニタリング対象: CPU・メモリ使用率、ディスク容量 ネットワークスループット、レイテンシ レスポンスタイム、エラーレート 典型的なモニタリングフロー: システムからメトリクス収集 閾値と比較・分析 異常検知とアラート通知 Genspark で作成 3

4.

オブザーバビリティとは - 基本概念 オブザーバビリティの定義: システム内部の状態を外部から観測可能にし、未知の問題を含む障害の 原因を特定しやすくする能力 主な特徴: 未知の問題に対しても原因を特定できる探索的アプローチ システムの複雑な相互依存関係を可視化 複数のデータソースを組み合わせた包括的な分析 「なぜ問題が発生したか」を解明する能動的な調査 収集するデータ: メトリクス:数値指標(CPU使用率など) ログ:システムイベントの詳細記録 トレース:リクエストの分散システム内での経路 モニタリングとの違い: モニタリング:何が起きているかを知る(現象把握) オブザーバビリティ:なぜ起きているかを知る(原因特定) モニタリングは既知の状態を監視、オブザーバビリティは未知の状 態も探索可能 Genspark で作成 4

5.

歴史的背景と進化 モニタリングは従来のモノリシックアーキテクチャに最適化されたアプローチとして発展してきました。しかし、近年のクラウド、マ イクロサービス、コンテナなどの分散システムへの移行により、複雑さが飛躍的に増大しました。 このような背景から、従来のモニタリングだけでは対応しきれない複雑な問題に対処するため、オブザーバビリティという概念が注目 されるようになりました。単なる監視から、システム内部の状態を包括的に可視化する方向へと進化しています。 2000年代初頭 2010年頃 2015年頃 2020年以降 従来のモニタリング クラウド化 マイクロサービス化 オブザーバビリティの台 頭 単一サーバー監視 基本的なメトリクス収集 分散システムの登場 メトリクスの複雑化 サービス間の依存関係 複雑なトラブルシューティン グ 包括的な可視性 予測分析と自己修復 Genspark で作成 5

6.

技術的アプローチの違い モニタリング オブザーバビリティ 定義的アプローチ 探索的アプローチ 事前に定義されたルールとメトリクスに基づく監視 既知の異常パターンを閾値で検知 症状に焦点を当てた監視 定期的なポーリングによるデータ収集 技術的特徴 システムの内部状態を外部から推測できる能力 VS 未知の問題にも対応可能な探索性 根本原因の特定に焦点 高カーディナリティデータの収集 技術的特徴 特定のメトリクスに絞った調査 マルチディメンショナルな分析 単一システムの独立監視 分散システム全体の連携監視 過去データとの比較分析 動的クエリと対話的探索 Genspark で作成 6

7.

データ収集方法の違い モニタリング:メトリクス中心 事前定義された指標のみを定期的に収集 主に数値メトリクス(CPU, メモリ, レイテンシ等) 時系列データベースに一定間隔で保存 CPU使用率 典型的なデータポイント ディスクI/O 制限: 予期せぬ問題の検知が困難 制限: メトリクス間の相関関係が見えにくい オブザーバビリティ:包括的データ収集 多角的なデータを自動的かつ継続的に収集 高次元データ:メトリクス + ログ + トレース コンテキスト情報を含むリッチなデータを保持 3つの柱(Three Pillars) メモリ使用量 メトリクス: 数値指標に加え、ヒストグラム・パーセンタイル ネットワーク ログ: 構造化ログ、コンテキスト情報、イベントデータ トレース: 分散トレーシング、サービス間の依存関係 利点: 予期せぬ問題も原因特定が可能 利点: データ間の相関分析で深い洞察を得られる Genspark で作成 7

8.

運用面での違い - アラート・対応 モニタリングの運用アプローチ オブザーバビリティの運用アプローチ 1 閾値ベースのアラート検知 2 即時通知と初期対応 3 既知の解決策適用 1 異常検知(メトリクス、ログ、トレース) 2 根本原因分析と因果関係の特定 3 適切な解決策と再発防止 特徴: 事前定義された問題に素早く反応 シンプルな問題は素早く解決 システム単位の独立した対応 複雑な問題では原因特定に時間がかかる 特徴: 未知の問題にも対応可能 サービス間の相関関係を把握 複雑な分散システムでのトレース 予防的な分析と改善の促進 VS Genspark で作成 8

9.

目的と価値の違い モニタリングの目的 オブザーバビリティの目的 システムの安定性と可用性の確保を目的としたインシデント対応に重点 障害の早期検知と通知 サービス稼働状態のリアルタイム把握 SLAの遵守とダウンタイム最小化 即時対応可能なアラート体制の維持 モニタリングの価値 運用コストの削減 明確な判断基準による素早い対処 予測可能な問題に対する効率的な監視 システムの複雑な動作を理解し品質向上を実現するための深い洞察の獲 得 VS 未知の問題に対する根本原因分析 サービス間の関連性と依存関係の把握 パフォーマンスの継続的な最適化 イノベーションのための洞察 オブザーバビリティの価値 複雑な分散システムでの問題解決能力向上 開発と運用の連携強化(DevOps) ユーザー体験の継続的改善 Genspark で作成 9

10.

Three Pillars of Observability オブザーバビリティはメトリクス、ログ、トレースの3つの柱(Three Pillars)で構成され、それぞれが連携することで強力なシステム可視化 を実現します。 メトリクス 数値指標の時系列データ システム全体の傾向把握 ヒストグラム、パーセンタイル 長期保存に最適 代表的ツール: Prometheus, Datadog, CloudWatch ログ イベントの詳細記録 完全な 構造化ログで検索性向上 オブザーバビリテ ィ エラーやシステム状態の記録 コンテキスト情報の保持 代表的ツール: ELK Stack, Loki, Fluent Bit トレース リクエストのエンドツーエンド追跡 分散システムの可視化 ボトルネックの特定 サービス間の関係性把握 代表的ツール: Jaeger, Zipkin, OpenTelemetry Genspark で作成 10

11.

代表的なモニタリングツール Prom Prometheus Logo オープンソースの時系列監視ツール メトリクスの収集・可視化・アラートを一元管理 強力なクエリ言語 PromQL による柔軟な分析 Kubernetes連携が強力(Prometheus Operator) 主なユーザー: SoundCloud、Docker、Kubernetes Zabbix エンタープライズ向け統合監視プラットフォーム エージェント/エージェントレス両方での監視に対応 強力な自動検出機能によるリソース監視 複雑なイベント相関とルートコーズ分析 主なユーザー: Dell、Fujitsu、楽天 Nagio Nagios Logo 老舗のインフラ監視ツール サーバー・ネットワーク機器の総合監視に強み 豊富なプラグインエコシステムによる拡張性 複雑な依存関係の把握と監視が可能 主なユーザー: Yahoo!、Cisco、NASA Datadog クラウドネイティブなSaaS監視ソリューション 幅広いインテグレーション(450種類以上) オブザーバビリティ機能も備えたハイブリッド性 使いやすいダッシュボードとアラート機能 主なユーザー: Airbnb、Samsung、Adobe 各ツールの選定は環境の規模・複雑さ、既存インフラ、 運用リソースなどを考慮して行うことが重要です Genspark で作成 11

12.

代表的なオブザーバビリティツール Grafana New Relic Elastic Stack OpenTelemetry データ可視化とダッシュボード作成に特化したオープンソー スプラットフォーム 複数データソースの統合可視化 カスタマイズ可能なダッシュボード アラート機能とプラグイン拡張性 ログ、メトリクス、APMを統合したオープンソースのオブザ ーバビリティスイート 強力な全文検索とログ分析 Kibanaによるデータ可視化 APMによるトランザクション追跡 フルスタックオブザーバビリティプラットフォームとAI分析 を提供 リアルタイムパフォーマンス監視 AIによる異常検知と根本原因分析 ユーザー体験とビジネス指標の統合 ベンダーに依存しない標準化されたテレメトリーデータ収集 フレームワーク 標準化されたAPI・SDKの提供 複数バックエンドへの転送対応 自動計装による低コード導入 Genspark で作成 12

13.

Kubernetesでのモニタリング実装例 Prometheus Operatorとは KubernetesネイティブなPrometheusの導入・管理ツール Custom Resource Definitionを活用した宣言的な管理 ServiceMonitorリソースによる監視設定自動化 PrometheusRuleによるアラート設定の一元管理 導入方法 経由で簡単に導入可能 $ helm repo add prometheus-community # Helm \ https://prometheus-community.github.io/helm-charts $ helm install prometheus prometheus-community/kube-prometheus-stack \ --namespace monitoring --create-namespace 監視の具体例 Pod Node kube-statemetrics ServiceMonitor Prometheus 主要メトリクス例 リソース使用率: CPU、メモリ、ディスクI/O Pod: 稼働状況、再起動回数、レプリカ数 ネットワーク: スループット、エラー率 クラスタ: Node状態、PV使用率、Namespace割当 Genspark で作成 13

14.

Kubernetesでのオブザーバビリティ実装例 OpenTelemetry Collector Jaeger分散トレーシング Kubernetes上での構築 分散トレーシングの実現 実装例: Jaeger Architecture DaemonSetとして各ノードに配置 ConfigMapでテレメトリパイプラインを設定 複数バックエンドへのデータ転送 サービス間の呼び出し関係を可視化 レイテンシボトルネックの特定 障害箇所の迅速な特定 apiVersion: apps/v1 kind: Deployment metadata: name: otel-collector spec: selector: matchLabels: app: otel-collector replicas: 1 template: spec: containers: - name: collector image: otel/opentelemetry-collector 主な利点: リアルタイムなパフォーマンス監視 詳細なコンテキスト情報の取得 Genspark で作成 14

15.

AWS/Azure/GCPでの実装 Amazon AWS CloudWatch AWS Logo メトリクス、ログの収集・可視化・アラート Cloud Trace 分散トレーシングとサービス間依存関係の可視化 リクエスト潜時データの収集と分析 CloudWatch Logs Insights Error Reporting ログデータの詳細分析とクエリ Azure Monitor 包括的な監視とアラートプラットフォーム Application Insights アプリケーションパフォーマンス監視とトレース Log Analytics ログデータの収集・検索・視覚化 Cloud Monitoring GCP Logo メトリクス監視・アラート・ダッシュボード X-Ray Microsoft Azure Google Cloud Platform 例外の集約と分析 Cloud Logging Azu Logo ログ収集・保存・分析 クラウドサービス連携例 クラウドネイティブな導入とサードパーティ連携 オープンソースツール(Prometheus、Grafana)との統合 マルチクラウド対応の一元管理コンソール構築 OpenTelemetryによるベンダー非依存のデータ収集 Genspark で作成 15

16.

移行戦略とベストプラクティス 1 段階的な移行ロードマップ ベストプラクティス 現状評価 組織的アプローチ 専門チーム(オブザーバビリティCoE)の設立 開発チームへの教育・トレーニングを実施 既存モニタリング環境の分析とギャップの特定 2 パイロット導入 重要度の高い一部サービスにトレース収集を導入 3 基盤構築 テレメトリーデータの統合基盤を実装 4 完全展開 全サービスへの展開と既存モニタリングとの統合 5 最適化 継続的な改善サイクルの確立 技術的考慮事項 標準化された計装フレームワークの採用 データ収集の自動化と既存システムへの統合 注意点・リスク データ量増加によるストレージコストの上昇 過剰な情報によるノイズ増加のリスク ポイント: 一度にすべてを変更するのではなく、 価値を確認しながら反復的に進めるアプローチが効果的 Genspark で作成 16

17.

まとめ:どちらを選ぶべきか モニタリングが適切なケース シンプルなシステム構成 既知の問題パターンが明確 明確な閾値設定が可能 リソースやコストに制約がある オブザーバビリティが適切なケース 複雑なマイクロサービス構成 予測不能な障害パターンの存在 詳細な原因分析が必要 ビジネスクリティカルなサービス ハイブリッドアプローチ:段階的導入の推奨 多くの組織では、既存のモニタリング基盤を活かしながらオブザーバビリティ機能を段階的に追加する戦略が効果的です。 短期的なステップ 既存モニタリングの改善・整理 分散トレーシング導入(一部サービス) 中長期的なステップ 包括的なオブザーバビリティプラットフォーム導入 AIによる異常検知の活用 モニタリングとオブザーバビリティは対立概念ではなく補完的な関係 - ビジネスニーズに合わせて最適な組み合わせを選択 Genspark で作成 17

18.

参考資料/コミュニティ 公式ドキュメント Prometheus Documentation Elastic Observability コミュニティリソース CNCF Slack (#observability) KubeCon + CloudNativeCon 学習リソース 「Distributed Systems Observability」 New Relicブログ OpenTelemetry Docs Jaeger Tracing Docs Grafana Documentation CNCF Observability Report Observability Meetups r/devops コミュニティ OpenTelemetry Community Observability Discord Prometheus Certified Associate CNCF YouTubeチャンネル Google SREワークブック Observy McObservfaceポッドキャスト この資料と共に、ぜひコミュニティに参加してオブザーバビリティの実践を深めましょう! Genspark で作成 18