826 Views
April 01, 21
スライド概要
2021/03/31に行われました「自動運転の自動運転以外のこと(Web/SRE/AI教習所)」ミートアップの資料です。
自動運転業界のSREが今後どのような活動を目論んでいるかをご紹介しています。
自動運転業界のSRE 活動 Dai Utsui Mar 31st, 2021 1
Profile Dai Utsui * SRE, Tech Lead * これから息子が生きていく社会をより良いものに…との想い でJoin GitHub: @utsuidai Twitter: @utsuidai 2
CONTENTS Introduction SRE journey Autonomous driving-specific feature Remote Driving Simulation & CI/CD Pipeline Future work Multi-region Ultra-low latency Multi-cloud On-Call & Support 3
1. Introduction SRE journey 4
SRE journey (in Tier IV) 2019.0 - Baseline approach risk 9 assessment - SRE strategy planning - (Corporate site renewal) 2020.first half 2021.first half - Multi tenancy - Reference implementation - Technology selection - Operation verification in Asia - (Office relocation) - (Postmortem) - Security - Fix point observation - SLA - Multi region - Operation verification in EU - Multi cloud - Low latency - (Product strategy) - (Requirement definition) - ... 2019.4Q - Security - Monitoring - Log menagement - SRE study group - Reference implementation Tech blog: https://tech.tier4.jp/entry/2021/01/20/160000 2020.second half - SLI / SLO study group - Incident management - On-Call - Static code analysis - (Autoware.Online) 5
Issues that should have been resolved Typical Issue Solutions セキュリティ AWSマルチアカウントの 認証/認可が煩雑 AWS Organizations / リスクアセスメン ト / CIS対応 信頼性 バックアップが取れてい るか不明 AWS Backupでタグベースのバックアッ プポリシーを適用 モニタリング未整備 Datadog / Sentryでシステムを統合監視 コスト最適化 開発者があまり気にかけ ていない SREがコストに責任を持ち、月次定例で 毎月レポート / 技術選定 運用性 正常に動いているのか不 明 SLI/SLOの制定 / Incident Management / On-Call パフォーマンス
2. Autonomous driving-specific feature 7
Autonomous driving-specific feature Remote driving Media streaming ● 車両のカメラ映像をリアルタイムに監視 ● 本当に映像が配信できているかをどう監視する? ① ② ①EC2からDummy映像を配信 ②WebRTCサーバーから少なくとも Dummy映像分の配信トラフィックが出 ているかを監視 8
Autonomous driving-specific feature Simulation & CI Pipeline Simulator pipeline ● 数百にのぼるシナリオを自動実行 ● シミュレーター自体も何をシミュレートするかに よって複数存在 ①Autowareの修正がリポジトリにPush ②WebhookをAPI Gatewayで受け取る ③AWS StepFunctionの動作状態を Cloudwatch metricsで監視 ExecutionsStarted ExecutionsSucceeded ExecutionsFailed ExecutionsAborted 9 Tech blog: https://tech.tier4.jp/entry/2020/09/09/160000
3. Future work 10
Future work Multi-region Global展開を視野に ● 各種規制、遅延対応のためインフラを車両の近く に置きたい ● 特定のコンポーネントを複数のリージョンに同時 展開 ● Localizationの他、One-source Multiregionで実現するためのCI/CD環境の 構築が急務 11
Future work Multi-region (IaC, Deployment) Cloud Formation Terraform Stacksets Provider alias / workspace Codepipeline Terraform Cloud / GitHub Actions / etc... CloudFormation レジストリ - Pros 最新機能への追随が早い 元々Multi-Cloudを扱える / 管理対象 リソースを制御可能 Cons 管理対象リソースを操作で きない(importが不十分) 最新機能への追随はコミュニティ頼 り 複製 CI/CD 3rd party resource 12
Future work Multi-region Kubernetes ● 理論上はマルチクラウド、オンプレミスへの展開 も可能 ● マネージドサービスを放棄することによる運用コ ストの増大、開発スピードの遅延とのバランスが 重要 ● アーキテクチャ検討から実装までの移 行コスト(人月)だけでも3倍以上の 開きを確認 ● 現時点でのk8s化は得策ではないと判 断 13
Future work Multi-region (BCP Active-Standby) AWSマルチリージョンアプリケーションアーキテクチャ https://aws.amazon.com/jp/solutions/implementations/multi-region-application-architecture/ 14
Future work Multi-cloud (BCP Multi-site) 可用性の追求 ● クラウド側にトラブルがあっても安全に走行(停 止)できる事が最低限 単一のパブリッククラウドに問題が生 じても自動運転が継続できる事 15
Future work Ultra-low latency 安全な遠隔操縦とは ● 10km/hで走行時100msの遅延が0.28m走行して いる事になる ● 複数方向のカメラ映像を同時配信 ● 映像と制御両面で低遅延が求められる AWS Wavelengthの様なエッジ寄りへの オフロード? 16
Future work On-Call & Support Follow the sun ● 必要なタイムゾーンに必要な人材を配置 ● 夜間・変則的勤務の回避 ● 地域によってはネイティブ言語サポートも可能に 内製に限らずあらゆる選択肢を視野に 17
© 2021 Tier IV, Inc. 18