2.9K Views
September 05, 24
スライド概要
TIER IV SRE Team
SRE Team
Contents 01 About Our Team 02 What We Do 03 Technology Stack
About Our Team 01
TIER IV Team objectives 安全かつ持続的なシステムを提供することで 世界で自動運転の社会実装を実現させる グローバルで 活 用 可 能 なアーキテクチャに 基 づく Web.Autoを顧客に提供する 横断的な課題を発見し、解決する ソフトウェアの開発・管理効率を高め、適切なコストで 運用する ソフトウェアのセキュリティと安全性を高め、信頼性の 高い自動運転サービスを提供する
TIER IV Team culture オーナーシップを大切にする 関連チームがオーナーシップを発揮できる仕組み を作る ソフトウェアの力で課題を解決する リスクを適切に管理し、現実的かつ迅速に実装す る 思慮深く、徹底的に探求する
TIER IV About Us Tech Blog Presentation SRE Team Our People
What We Do 02
TIER IV Web.Autoの信頼性の確保 高い可用性を求められる自動運転向けSaaSへの 対応 SLI/SLOを活用した信頼性の管理と向上 技術的な信頼性の確保 セキュリティ対策 各国の法規制、標準、AWS Well-Architected frameworkへの準拠 SRE Team
TIER IV 開発 自動運転における信頼性 ブラウザ上でのシミュレーションの試行 自 動 運 転で使 用する地 図の編 集とアップ データ収集 ロード 全 車 両の走 行データ(テキスト /バイナリ)の 収集、保存、検索、閲覧 構築 気象情報データとの統合 自動運転車両専用の監視システム 自動運転に関わる大規模なシステムイメー ジの構築 認証・認可 テスト ほぼ全ての工程で発生する認証認可 多 量 のシナリオを 並 列 実 行 したシミュレー ション 実 際のハードウェアを利 用したベンチマーク 運用 テスト 全 車 両 の 現 在 地 、 走 行 経 路 、 運 行 スケ ランダムに挙 動する物 体を利 用した安 全な ジュール、走行映像などをリアルタイム管理 走行の確認 シミュレーターで 走 行 したシーンのテスト 結 V2I(Vehicle-to-Infrastructure)とV2V (Vehicle-to-Vehicle)を含む V2X(Vehicle-to-Everything)を利用したデバイ 実装 帯域が限られた環境での Over-the-air (OTA)による車両のソフトウェア更新 ス、車両とのコミュニケーション SRE Team 果を映像で確認
TIER IV SREチームの役割 可用性 システムパフォーマンス 効率性・コスト管理 管理効率 変更管理 監視 緊急対応 キャパシティプランニング セキュリティ システムアーキテクチャ SRE Team
可用性 Web.Autoを安定的に顧客に提供するため、以 下の活動に取り組む。 ビジネスの視点を考慮して言語化・数値化した指標に 基づくSLIとSLOの設定 事業継続計画の策定と実行方法の実装 データの完全性、再実行性、回復性の確保 バックアップと復元の基盤の提供と復元試験の推 進 カオスエンジニアリングの推進 Well-Architected frameworkに準拠た信頼性の向上
システムパフォーマンス 各システムのパフォーマンスに問題がないこと を確認し、課題がある場合は対応とサポートを 行う。 定点観測会の実施 ボトルネックの解析、パフォーマンスのチューニン グ
効率性・コスト管理 投資対効果の高い開発やサービス提供ができ るよう、開発効率と運用コストの最適化を図 る。 トイルの削減による開発効率の向上 コストの監視および管理 精密なコスト配分
管理効率 チームやサービスの拡大に対応できるよう、人 とシステムを含む運用コストを継続的に改善す る。 メンテナンスしやすい状態の維持 コードによるシステムへの変更 レビューしやすいコード 迅速なCI/CDのパイプライン 変更しやすいコード トイルの削減
変更管理 効率的・安全にソフトウェアを変更できるよう、 ガバナンスを徹底し、変更時のリスクを管理し ながら、正しい管理の下各種変更がリリースさ れている状態を確保する。 CI/CDパイプラインの整備 リリース時のダウンタイム削減 レディネスチェック
監視 導入 監視対象の整理 監視基盤の導入 各種ダッシュボード作成などを通したシステムの可 視化 実施 SLOの監視 コスト監視 システム状態の通知 監視基盤のシステム運用 改善 可観測性の向上 不要なアラートの削減
緊急対応 オンコール体制の整備 インシデント管理基盤の整備 インシデント対応の推進 事後分析の実施と推進
キャパシティプランニング 拡張性を意識したシステムアーキテクチャ の採用 サービス利用制限の管理 DynamoDBのProvisioned Capacityの設計 中長期的なアーキテクチャの再構築 コストの見積り
セキュリティ クラウドベンダーやSaaSにおける、権限を含むアカ ウントの管理と運用 サプライチェーンの管理 静的解析・動的解析による脆弱性の管理 危険な設定・行為を予防するガードレール の整備 ベストプラクティスに沿ったセキュリティ の向上 脆弱性試験の実施 監査対応
システムアーキテクチャ SLO/SLAを満たすためのシステム設計 クラウドアーキテクチャのレビュー ライブラリ、フレームワーク、 設 計 ガイドライン、 チェックリストなど、再利用可能なアーキテクチャと モジュールの提供 海外を含む他地域への展開
Technology Stack 03
TIER IV 技術スタック 開発環境/言語/MW Back-end AWS CloudFormation/Terraform Go Front-end Python TypeScript React Kubernetes CodePipeline/GitHub Actions/ ArgoCD Datadog/Sentry/SonarCloud/ OpsGenie CI/CD Infrastructure Logging / Monitoring Go/Python IoT GitHub Actions SRE Team argo aws Data Dog Sentry
TIER IV Contact us https://tier4.jp/careers/ Thank you SRE Team