observability_vs_monitoring_20250702162657

351 Views

July 03, 25

#モニタリング #オブザーバビリティ #メトリクス #ログ #トレース

スライド概要

yamapan

@aktsmm

スライド一覧

IT界隈に生息してるよ！★

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

LT_07_俺的GitHub Copilot for Non-deve

yamapan 4.1K

20260531_PLUG_GitHub Copilot 育成のススメ_やまぱん！

yamapan 2.5K

Office Agent_AzureVPN

yamapan 2.2K

Office Agent_Office Agent

yamapan 1.6K

LT_市民開発ツールとしてのGitHub Copilot

yamapan 1.2K

LT05_EasyDocsFixRequest

yamapan 786

各ページのテキスト

オブザーバビリティ vs モニタリングエンジニアコミュニティ向け解説 2025年7月2日発表者名 Genspark で作成

目次 1. タイトル 2. 目次 3. モニタリングとは 4. オブザーバビリティとは 5. 歴史的背景と進化 6. 技術的アプローチの違い 7. データ収集方法の違い 8. 運用面での違い 9. 目的と価値の違い 10. Three Pillars of Observability 11. 代表的なモニタリングツール 12. 代表的なオブザーバビリティツール 13. Kubernetesでのモニタリング 14. Kubernetesでのオブザーバビリティ 15. AWS/Azure/GCPでの実装 16. 移行戦略とベストプラクティス 17. まとめ 18. 参考資料・コミュニティ Genspark で作成 2

モニタリングとは - 基本概念モニタリングの定義：システムやサービスの状態を継続的に監視し、予め設定された閾値に基づいて異常を検知するための手法主な特徴: 既知の問題を中心に監視し、事前に定義された指標を追跡閾値ベースのアラート機能で即時検知と通知を実現定期的なデータ収集と時系列での分析が基本特定のメトリクスに焦点を当てた受動的な監視一般的なモニタリング対象: CPU・メモリ使用率、ディスク容量ネットワークスループット、レイテンシレスポンスタイム、エラーレート典型的なモニタリングフロー: システムからメトリクス収集閾値と比較・分析異常検知とアラート通知 Genspark で作成 3

オブザーバビリティとは - 基本概念オブザーバビリティの定義：システム内部の状態を外部から観測可能にし、未知の問題を含む障害の原因を特定しやすくする能力主な特徴: 未知の問題に対しても原因を特定できる探索的アプローチシステムの複雑な相互依存関係を可視化複数のデータソースを組み合わせた包括的な分析「なぜ問題が発生したか」を解明する能動的な調査収集するデータ: メトリクス：数値指標（CPU使用率など）ログ：システムイベントの詳細記録トレース：リクエストの分散システム内での経路モニタリングとの違い: モニタリング：何が起きているかを知る（現象把握）オブザーバビリティ：なぜ起きているかを知る（原因特定）モニタリングは既知の状態を監視、オブザーバビリティは未知の状態も探索可能 Genspark で作成 4

歴史的背景と進化モニタリングは従来のモノリシックアーキテクチャに最適化されたアプローチとして発展してきました。しかし、近年のクラウド、マイクロサービス、コンテナなどの分散システムへの移行により、複雑さが飛躍的に増大しました。このような背景から、従来のモニタリングだけでは対応しきれない複雑な問題に対処するため、オブザーバビリティという概念が注目されるようになりました。単なる監視から、システム内部の状態を包括的に可視化する方向へと進化しています。 2000年代初頭 2010年頃 2015年頃 2020年以降従来のモニタリングクラウド化マイクロサービス化オブザーバビリティの台頭単一サーバー監視基本的なメトリクス収集分散システムの登場メトリクスの複雑化サービス間の依存関係複雑なトラブルシューティング包括的な可視性予測分析と自己修復 Genspark で作成 5

技術的アプローチの違いモニタリングオブザーバビリティ定義的アプローチ探索的アプローチ事前に定義されたルールとメトリクスに基づく監視既知の異常パターンを閾値で検知症状に焦点を当てた監視定期的なポーリングによるデータ収集技術的特徴システムの内部状態を外部から推測できる能力 VS 未知の問題にも対応可能な探索性根本原因の特定に焦点高カーディナリティデータの収集技術的特徴特定のメトリクスに絞った調査マルチディメンショナルな分析単一システムの独立監視分散システム全体の連携監視過去データとの比較分析動的クエリと対話的探索 Genspark で作成 6

データ収集方法の違いモニタリング：メトリクス中心事前定義された指標のみを定期的に収集主に数値メトリクス（CPU, メモリ, レイテンシ等）時系列データベースに一定間隔で保存 CPU使用率典型的なデータポイントディスクI/O 制限: 予期せぬ問題の検知が困難制限: メトリクス間の相関関係が見えにくいオブザーバビリティ：包括的データ収集多角的なデータを自動的かつ継続的に収集高次元データ：メトリクス + ログ + トレースコンテキスト情報を含むリッチなデータを保持 3つの柱（Three Pillars）メモリ使用量メトリクス: 数値指標に加え、ヒストグラム・パーセンタイルネットワークログ: 構造化ログ、コンテキスト情報、イベントデータトレース: 分散トレーシング、サービス間の依存関係利点: 予期せぬ問題も原因特定が可能利点: データ間の相関分析で深い洞察を得られる Genspark で作成 7

運用面での違い - アラート・対応モニタリングの運用アプローチオブザーバビリティの運用アプローチ 1 閾値ベースのアラート検知 2 即時通知と初期対応 3 既知の解決策適用 1 異常検知（メトリクス、ログ、トレース） 2 根本原因分析と因果関係の特定 3 適切な解決策と再発防止特徴: 事前定義された問題に素早く反応シンプルな問題は素早く解決システム単位の独立した対応複雑な問題では原因特定に時間がかかる特徴: 未知の問題にも対応可能サービス間の相関関係を把握複雑な分散システムでのトレース予防的な分析と改善の促進 VS Genspark で作成 8

目的と価値の違いモニタリングの目的オブザーバビリティの目的システムの安定性と可用性の確保を目的としたインシデント対応に重点障害の早期検知と通知サービス稼働状態のリアルタイム把握 SLAの遵守とダウンタイム最小化即時対応可能なアラート体制の維持モニタリングの価値運用コストの削減明確な判断基準による素早い対処予測可能な問題に対する効率的な監視システムの複雑な動作を理解し品質向上を実現するための深い洞察の獲得 VS 未知の問題に対する根本原因分析サービス間の関連性と依存関係の把握パフォーマンスの継続的な最適化イノベーションのための洞察オブザーバビリティの価値複雑な分散システムでの問題解決能力向上開発と運用の連携強化（DevOps）ユーザー体験の継続的改善 Genspark で作成 9

10.

Three Pillars of Observability オブザーバビリティはメトリクス、ログ、トレースの3つの柱（Three Pillars）で構成され、それぞれが連携することで強力なシステム可視化を実現します。メトリクス数値指標の時系列データシステム全体の傾向把握ヒストグラム、パーセンタイル長期保存に最適代表的ツール： Prometheus, Datadog, CloudWatch ログイベントの詳細記録完全な構造化ログで検索性向上オブザーバビリティエラーやシステム状態の記録コンテキスト情報の保持代表的ツール： ELK Stack, Loki, Fluent Bit トレースリクエストのエンドツーエンド追跡分散システムの可視化ボトルネックの特定サービス間の関係性把握代表的ツール： Jaeger, Zipkin, OpenTelemetry Genspark で作成 10

11.

代表的なモニタリングツール Prom Prometheus Logo オープンソースの時系列監視ツールメトリクスの収集・可視化・アラートを一元管理強力なクエリ言語 PromQL による柔軟な分析 Kubernetes連携が強力（Prometheus Operator）主なユーザー: SoundCloud、Docker、Kubernetes Zabbix エンタープライズ向け統合監視プラットフォームエージェント/エージェントレス両方での監視に対応強力な自動検出機能によるリソース監視複雑なイベント相関とルートコーズ分析主なユーザー: Dell、Fujitsu、楽天 Nagio Nagios Logo 老舗のインフラ監視ツールサーバー・ネットワーク機器の総合監視に強み豊富なプラグインエコシステムによる拡張性複雑な依存関係の把握と監視が可能主なユーザー: Yahoo!、Cisco、NASA Datadog クラウドネイティブなSaaS監視ソリューション幅広いインテグレーション（450種類以上）オブザーバビリティ機能も備えたハイブリッド性使いやすいダッシュボードとアラート機能主なユーザー: Airbnb、Samsung、Adobe 各ツールの選定は環境の規模・複雑さ、既存インフラ、運用リソースなどを考慮して行うことが重要です Genspark で作成 11

12.

代表的なオブザーバビリティツール Grafana New Relic Elastic Stack OpenTelemetry データ可視化とダッシュボード作成に特化したオープンソースプラットフォーム複数データソースの統合可視化カスタマイズ可能なダッシュボードアラート機能とプラグイン拡張性ログ、メトリクス、APMを統合したオープンソースのオブザーバビリティスイート強力な全文検索とログ分析 Kibanaによるデータ可視化 APMによるトランザクション追跡フルスタックオブザーバビリティプラットフォームとAI分析を提供リアルタイムパフォーマンス監視 AIによる異常検知と根本原因分析ユーザー体験とビジネス指標の統合ベンダーに依存しない標準化されたテレメトリーデータ収集フレームワーク標準化されたAPI・SDKの提供複数バックエンドへの転送対応自動計装による低コード導入 Genspark で作成 12

13.

Kubernetesでのモニタリング実装例 Prometheus Operatorとは KubernetesネイティブなPrometheusの導入・管理ツール Custom Resource Definitionを活用した宣言的な管理 ServiceMonitorリソースによる監視設定自動化 PrometheusRuleによるアラート設定の一元管理導入方法経由で簡単に導入可能 $ helm repo add prometheus-community # Helm \ https://prometheus-community.github.io/helm-charts $ helm install prometheus prometheus-community/kube-prometheus-stack \ --namespace monitoring --create-namespace 監視の具体例 Pod Node kube-statemetrics ServiceMonitor Prometheus 主要メトリクス例リソース使用率: CPU、メモリ、ディスクI/O Pod: 稼働状況、再起動回数、レプリカ数ネットワーク: スループット、エラー率クラスタ: Node状態、PV使用率、Namespace割当 Genspark で作成 13

14.

Kubernetesでのオブザーバビリティ実装例 OpenTelemetry Collector Jaeger分散トレーシング Kubernetes上での構築分散トレーシングの実現実装例： Jaeger Architecture DaemonSetとして各ノードに配置 ConfigMapでテレメトリパイプラインを設定複数バックエンドへのデータ転送サービス間の呼び出し関係を可視化レイテンシボトルネックの特定障害箇所の迅速な特定 apiVersion: apps/v1 kind: Deployment metadata: name: otel-collector spec: selector: matchLabels: app: otel-collector replicas: 1 template: spec: containers: - name: collector image: otel/opentelemetry-collector 主な利点：リアルタイムなパフォーマンス監視詳細なコンテキスト情報の取得 Genspark で作成 14

15.

AWS/Azure/GCPでの実装 Amazon AWS CloudWatch AWS Logo メトリクス、ログの収集・可視化・アラート Cloud Trace 分散トレーシングとサービス間依存関係の可視化リクエスト潜時データの収集と分析 CloudWatch Logs Insights Error Reporting ログデータの詳細分析とクエリ Azure Monitor 包括的な監視とアラートプラットフォーム Application Insights アプリケーションパフォーマンス監視とトレース Log Analytics ログデータの収集・検索・視覚化 Cloud Monitoring GCP Logo メトリクス監視・アラート・ダッシュボード X-Ray Microsoft Azure Google Cloud Platform 例外の集約と分析 Cloud Logging Azu Logo ログ収集・保存・分析クラウドサービス連携例クラウドネイティブな導入とサードパーティ連携オープンソースツール（Prometheus、Grafana）との統合マルチクラウド対応の一元管理コンソール構築 OpenTelemetryによるベンダー非依存のデータ収集 Genspark で作成 15

16.

移行戦略とベストプラクティス 1 段階的な移行ロードマップベストプラクティス現状評価組織的アプローチ専門チーム（オブザーバビリティCoE）の設立開発チームへの教育・トレーニングを実施既存モニタリング環境の分析とギャップの特定 2 パイロット導入重要度の高い一部サービスにトレース収集を導入 3 基盤構築テレメトリーデータの統合基盤を実装 4 完全展開全サービスへの展開と既存モニタリングとの統合 5 最適化継続的な改善サイクルの確立技術的考慮事項標準化された計装フレームワークの採用データ収集の自動化と既存システムへの統合注意点・リスクデータ量増加によるストレージコストの上昇過剰な情報によるノイズ増加のリスクポイント：一度にすべてを変更するのではなく、価値を確認しながら反復的に進めるアプローチが効果的 Genspark で作成 16

17.

まとめ：どちらを選ぶべきかモニタリングが適切なケースシンプルなシステム構成既知の問題パターンが明確明確な閾値設定が可能リソースやコストに制約があるオブザーバビリティが適切なケース複雑なマイクロサービス構成予測不能な障害パターンの存在詳細な原因分析が必要ビジネスクリティカルなサービスハイブリッドアプローチ：段階的導入の推奨多くの組織では、既存のモニタリング基盤を活かしながらオブザーバビリティ機能を段階的に追加する戦略が効果的です。短期的なステップ既存モニタリングの改善・整理分散トレーシング導入（一部サービス）中長期的なステップ包括的なオブザーバビリティプラットフォーム導入 AIによる異常検知の活用モニタリングとオブザーバビリティは対立概念ではなく補完的な関係 - ビジネスニーズに合わせて最適な組み合わせを選択 Genspark で作成 17

18.

参考資料／コミュニティ公式ドキュメント Prometheus Documentation Elastic Observability コミュニティリソース CNCF Slack (#observability) KubeCon + CloudNativeCon 学習リソース「Distributed Systems Observability」 New Relicブログ OpenTelemetry Docs Jaeger Tracing Docs Grafana Documentation CNCF Observability Report Observability Meetups r/devops コミュニティ OpenTelemetry Community Observability Discord Prometheus Certified Associate CNCF YouTubeチャンネル Google SREワークブック Observy McObservfaceポッドキャストこの資料と共に、ぜひコミュニティに参加してオブザーバビリティの実践を深めましょう！ Genspark で作成 18