Platformの可用性確保に向けてChaos engineering & GameDayやってみた

698 Views

December 23, 24

#tieriv #自動運転 #autoware #Chaos Engineering #GameDay #Web.Auto #システム信頼性 #インシデント対応

スライド概要

ティアフォーでは、知識の共有とネットワーキングの促進を目的とし、定期的にテックトークを開催しています。第2回目となる今回は、ウェブサービスプラットフォーム「Web.Auto」を支えるSREチームの取り組みを紹介しました。社内におけるSREの立ち位置、一般的なウェブサービスと異なる要件、システムアーキテクチャ、求められる信頼性や、最近取り組んだ活動などについて話しました。

アーカイブ映像はこちら！
https://www.youtube.com/watch?v=hnekk11Likg

TIER IV

@TIER_IV

スライド一覧

TIER IV（ティアフォー）は、「自動運転の民主化」をビジョンとし、Autowareを活用したソフトウェアプラットフォームと統合開発環境を提供しています。 #Autoware #opensource #AutonomousDriving #deeptech

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

Edge AIのためのDNN推論処理の最適化

tieriv 自動運転 computing tierivmeetup

TIER IV 127K

Hailo-8上の低消費電力Edge AI

tieriv 自動運転 computing hailo edgeai autoware dnn

TIER IV 59.8K

Openな資産とFPGAを活用して、領域特化型のProcessorを作ろう！

自動運転 tieriv fpga rtl autoware riscv llvm

TIER IV 49.2K

小さく始める Blue/Green Deployment

tieriv sre cicd

TIER IV 43.3K

Autoware紹介と自動運転ハードウェアアーキテクチャ

自動運転 autoware tieriv fpga rtl

TIER IV 37.3K

Webエンジニアが自動運転企業でやっていること

web 自動運転

TIER IV 31.5K

各ページのテキスト

TIER IV MARCH TIER /IV 2022 2024 / 12 / 19 TITLE Platformの可用性確保に向けて Chaos engineering & GameDayやってみた

Who am I? ● ● 名前：重光俊亮職歴 ○ SIerで自動車関連のプロジェクトに携わってきました ○ 2022/10〜 TIER IVにジョイン ● 最近の趣味 ○ 庭いじり ○ ポーカー始めてみました

Index Why Chaos Engineering? 1. Purposes in general 2. In TIER IV… Our approach 1. Process 2. Target environment 3. Tools 4. Targets Results & Impacts 1. Feedback 2. Lessons Learned

Why we did Chaos Engineering 01

Chaos Engineering? Principles of chaos engineering Chaos Engineering is the discipline of experimenting on a system in order to build confidence in the system’s capability to withstand turbulent conditions in production. カオスエンジニアリングは、システムが本番環境における不安定な状態に耐える能力へ自信を持つためにシステム上で実験を行う訓練方法です。

https://principlesofchaos.org

Why? Why do we need it now? TIER IVでは… - Web.Autoの利用が増えてきており、今まで以上に回復性・信頼性を高めていくフェーズに入っている従来のテストでの検出では限界があり、Chaos Engineeringで組織として・継続的に回復力を高めていきたいマイクロサービスで構築された分散アーキテクチャ 1 様々なユースケースでの利用増加2 1. https://www.docswell.com/s/TIER_IV/K1J6W3-TIERIVMeetupWeb.Auto 2. https://tier4.jp/media/detail/?sys_id=2EhHTVUBKMswFNFBOJWYVn&category=BLOG

Our approach 02

Our approach - Process TIER IVでの進め方設計の改善・定期的な訓練定常状態の定義仮説の設定変数の注入非同期な実験 Game Dayの開催 Web.Autoを構成する各サービスに実験対象の事象が発生したときのついて、アプリケーションチーム挙動についての仮説を定義するの協力を得て、定常状態を整理し e.g., 特定のAZでのネットワーク障害がていく実際に現実世界で発生しうるイベントを起こして、挙動を確認する e.g., AWS FISを用いて、特定AZの通発生しALB→ECS間の接続ができない場信を遮断する e.g., 認証認可基盤において、トークンの合、5分後にALBから問題のあるAZ内の Taskのヘルスチェックが失敗、ALBから権限の検証が行えている (Token Serviceの5xxエラーが0.1％未満( 切り離されるタイムスケール 1分間隔))

Our approach - Process TIER IVでの進め方 - Tips 設計の改善・定期的な訓練定常状態の定義仮説の設定変数の注入非同期な実験インシデント対応訓練現状のTIER IVでは、SREは各アプリチームに所属しているわけではないため、ドメイン知識が要求される部分はアプリチームの協力が欠かせない →Chaos Engineering自体・進め方の説明会を開催して、定常状態（の一部）を定義してもらう Game Dayの開催システム的な堅牢さを見るために非同期的なカオスの注入 + インシデント対応プロセス含めた組織としての回復力を見るためのGame Day Game Dayに先立って、参加者がトラブルシューティングに注力できるよう、インシデント対応プロセスだけに絞った訓練を別で実施

10.

Our approach - Game Day Game Dayの取り組み - Game Day開催にあたって、SREチーム+アプリチームから1⃣名で運営チームを結成注入対象の障害の検討、事前の段取りを調整アプリチームからの協力者は、当日はオブザーバーとして参加当日は段取り説明→Game Day自体の実施→振返り、で2⃣時間枠で実施 SRE App 運営チーム App Game Day 参加チーム

11.

Our approach - Target environment 実験対象の環境 Production environment/本番環境本番環境で検証を実行する Staging environment/ ≠ いきなり本番環境で実施するステージング環境現状は本番環境での試験は未実施本番環境と極力構成を合わせた、検証用の環境。こちらをメインの環境として実験を行う Development environment/開発環境開発者が日々の開発・テストで利用する環境。主にツール類の動作 Staging環境でそれなりに実験するためのTips ➔ 実験中のトラフィック生成 ➔ モニタリング用のDashboardをStaging環境にも準備しておく ➔ アラートをStaging環境からも発報する確認で利用

12.

Our approach - Tools 実験に利用したツール - - Chaosの注入にあたっては、基本的にAWS FISを利用 - Kubernetesを利用しているサービス向けには、一部Litmusも導入各環境のモニタリングはDatadog→Slack で開発者に通知されている Game Day開催のタイミングでは+αでstg 環境のOpsGenieの通知も開発者に通知するよう変更

13.

Our approach - Target hypothesis 実際に注入してみた障害（の一例）各サービスでアーキテクチャ & 仮説が異なることから、Game Dayでは以下のような各種の障害を注入 - 車両とやり取りをするLambdaの関数群のうち一つに遅延を注入 - Lambda Layerを導入し、エントリーポイントを切替えることで実現特定AZでDynamoDBとの通信を遮断特定のECS Taskにネットワーク遅延を注入 (GameDayとは別で) 他にも試したもの: - 特定のSubnet (≠AZ)の通信を遮断。具体的にはALB → ECSの通信を特定のPublic Subnetだけ遮断 CPU使用率を高騰させる Kubernetes上のNodeやkubeletをkillしてしまう

14.

Results & Impacts 03

15.

Results & Impact フィードバック & そこからの改善 Availability - 単純なAZ障害であれば、基本的には数十秒〜数分で復旧することが確認できたリソース消費に応じたスケールアウトも想定通り - 一方、スケーリングのポリシーが誤っており、リソース消費が落ち着いた後にスケールインしないという問題を発見できた Observability - 特定のAZで発生した障害の場合、サービス横串のDashboardでは事象を調査しづらかった - → ECS Task単位のパネルをDatadog Dashboardに追加アラートを受けて参照するPlaybookが陳腐化しており、新規メンバーの調査に支障が出る - → Playbookの棚卸し/最新化特にLambda Layerを注入するような実験では、関数のデプロイの可観測性が現状不足している

16.

Results & Impact フィードバック & そこからの改善 Incident Management - チームによっては人数が少なく、インシデント対応フローで定義した役割を回すのが困難インシデント対応時の利用ツールが散逸しており、分かりづらい … - →利用ツール含めた、インシデント対応プロセスの見直し実施中 Culture - チームによっては自律的に(SREの関与無く)Chaos Engineeringを実施し始めている（すごい）

17.

Lessons Learned これからの取り組み - Staging環境と本番環境は（当たり前だが）異なる - →Staging環境で本番相当の負荷をかけたところ、単一IPアドレスからの大量アクセスがあり、チームがそちらに気を取られてしまう... etc - とはいえ、本番環境で実施できるだけの自信をつけるにはまだまだ取り組みが必要 - 継続可能な仕組みにしていくことが必須 - 現状はSRE、アプリチームともにそれなりに時間を割いてGame Dayを実施している - まだまだ拡張していくべき領域がある - 例えばIoT部分のChaos Engineeringはこれからカオスエンジニアリングの原則

https://principlesofchaos.org/ja/

18.

https://tier4.jp/careers/

19.

https://tier4.jp/