>100 Views
February 21, 25
スライド概要
ティアフォーでは、知識の共有とネットワーキングの促進を目的として、定期的にTech Talkを開催しています。第3回目となる今回は、自動運転におけるMLOps(Machine Learning Operations)の課題と、それを解決するためのティアフォーの取り組みについてご紹介しました。
アーカイブ映像はこちら!
https://www.youtube.com/watch?v=yIzdz2BQVTo&t=2008s
TIER IV TIER IV Information Disclosure Classification: PUBLIC TIER IV TALKS #3 走れば走るほど賢くなるを実現する自動運転のMLOps基盤 大規模車両データの収集基盤 Feb 20, 2025 Autoware はThe Autoware Foundation の商標です。 1
TIER IV 自己紹介 経歴 1999/03 - 2018/12 株式会社シーイーシ SIとして、自動車会社のシステム開発にも携わる 2019/03 - 現在 株式会社ティアフォー 松本 悟志 入社当初 Fleet Management Systemを担当 その後、データ基盤を担当 Data Engieer & Data/ML Manager ティアフォーに入社して印象深い出来事 運転手がいないバスの走行動画をメディアで見たこと
TIER IV Web.Auto Overview Simulation CI/CD Pipeline 自動運転ログからの現実的な事象の再生、シナリ オベースのシミュレーション、仮想センサーを用い たシミュレーション 自動運転ソフトウェアの構築と、シナリオやマップ編集を含むシミュレー ションによる広範なテストケースの実行をサポートするクラウドベース のインフラと編集ツール Build Test Dataset, ML Models Development Maps, Scenarios Autonomous Driving Dev. Cycle Vehicle Data Firmware Images Data Collection Operation Data Management 自動運転車両からの効率的なデータ収集、および学習 やテストのデータ検索 Deployment Fleet Management Remote Operation 遠隔運転と車両状態の監視 自動運転車両の管理とスケジューリング、データ 分析、OTAアップデート
TIER IV Data/ML Components Operator FMS 大規模車両データの収集基盤で話す領域 自動運転のMLOpsワークフローで話す 領域 Data Collection Data Platform Data Processing Vehicle Telemetry Data Log File (rosbag etc) t4dataset Annotation Integration BI Tool Mobility Observer ML Model Training Pipeline Annotation Tool Data/ML User (Autonomous Driving Developer) Data Platform Team CI/CD Pipeline Evaluator Scope of development Control lines Out of scope Data lines
TIER IV どんなデータを集めているのか ● ● 走行状況を把握するためのテキストデータ ○ 位置や速度といった数値 ○ 自動運転の状態やログといった文字列 カメラ映像やセンサーデータ ○ bagファイルに出力し、全体の 80%程度を閉めている rosbag size ( total: 13726 MiB ) 収集しているbagファイル1minで10GB以上といったデータサイズになっている
TIER IV どうやってデータを集めているのか ● 車両からニアリアルタイムに収集する pipelineを構築 ○ 運行でも必要な位置や速度、自動運転の状態(走行できていないエラーの発生や立ち往生 の発生など)といったデータを収集 ○ ログ、メトリクスといった自動運転の状態を解析するためのデータを収集 Web.Auto Autoware / WebAuto Agent Operation PC ● FMS Console ● MobilityObserver Console → 大きいデータを車両の無線回線を使って収集すると通信制限で走行ルートが配信できなくなってし まう、無線回線の通信状況が悪い場合もある
TIER IV どうやってデータを集めているのか ● 車両から直接アップロードするのが難しい大きいデータをバッチ処理で収集する pipelineを構築 Web.Auto Upload PC Autoware Operation PC SSD SSD ● FMS Console ● MobilityObserver Console Vehicle Data Uploader → 車両が稼働しているとリムーバブルディスクが取り外せずログの収集ができない
TIER IV Data Pipeline System Architecture Telemetry Upload Row Data Metrics Streaming Log Record Upload Event Data Data Saerch Log File Upload Vehicle Data Uploader Log File Metadata
TIER IV Data Pipeline System Architecture 車両からアップロードされてくる位置や 速度データをDBに格納 走行距離といった期間を考慮する必要があ る集計は定期的に実施 Telemetry Upload Row Data Metrics Event Data 走行できていない自動運転エラーの発生や立ち往生の発生などと いった必要なイベント(開始、終了)を集計 Streaming Log Record Upload ・自動運転の状態を解析するためのログ、メトリクスを DBに格納 ・必要な車両、地図情報も同時に収集 Data Saerch
TIER IV Data Pipeline System Architecture ● 考慮した点 ○ 車両が増加しても耐えうるデータ処理、 DBになっているか ○ どのようなデータ検索方法が考えられるか、対応できる DBになっているか ■ レコード数が増加すると検索性能が劣化するのであれば retention periodを設定 ■ rehydrate可能なようにS3へ出力 ○ 車両からのデータ通信量と必要なデータの収集のタイミング ■ 車両からログを収集する際に解析で必要な車両、地図情報を FMSから取得すると データ通信量は削減できる ■ ログがアップロードされる前に FMSにデータがアップロードされないと不整合が発生 する ○ データ重複した場合の処理 ■ Kinesis Data Streams、S3 Event Notificationsのような重複は起こりうる (At Least Once) サービスを利用する場合の後続処理で重複排除し余計なレコードは作らない ○ 同じデータで何度集計しても同じ結果になるか ■ 時刻順序が逆転しても問題ない集計処理になっているか
TIER IV Data Pipeline System Architecture ○ データの信頼性に関する監視( DRE) ■ データの生成プロセスの観測可能性 ■ 鮮度 (Freshness)をKinesis Data Streamの後続Lambda関数のIterator Ageを計測
TIER IV Log File Pipeline System Architecture ・ファイルをアップロードするためのcredentialをAPIで発行 ・車両からの場合はログファイルの上限を設定 Data Saerch Vehicle Data Uploader ● 出力したログファイルのメタデータ生成やログを出力し た車両情報との紐付けし、DBに格納 Log File Metadata 考慮した点 ○ ログファイルのメタデータ作成箇所 ■ bagファイルのデータ保持期間など抽出する処理を端末側で実施 ○ credentialのキャッシュ機構
TIER IV 自動運転車両の可観測性 ログの出力時刻や出力量を表示 ログの一覧も表示 ログの出力位置を探索的に探すことが可能
TIER IV これから取り組んでいきたいこと ● ● ● ● ● Mobility Observer 機能開発 ○ カメラ映像、点群データ(非構造化データ)の可視化 ○ 今は注力している走行環境に自動運転開発者をアサインするなどで監視できているが車両 が増えた時、自動運転ができていない状況にある車両を通知 データの信頼性に関する監視強化 ○ 鮮度 (Freshness)、完全性 (Completeness)、整合性 (Integrity) の組み合わせ ■ XX 秒以内にZZ %のデータが保存されていること 個人情報を考慮した動画や画像の収集方法 ○ データ利用を考慮したマスキング ○ セキュリティと導入コストを考慮した pipelineの最適化 非構造化データの活用 ○ データの検索、探索をするためにカメラ映像からシーン抽出 データ容量 ○ Simulation環境が現実世界を再現できるようになったら、飛躍的にデータ量が増大 ○ いつまでも不要なデータを保持するとコストがかかる ○ ”必要な”データの分類を自動化
TIER IV Team Introduction Web.Auto https://www.docswell.com/s/TIER_IV/K1J6W3-TIERIVMeetupWeb.Auto Data Engineer https://www.docswell.com/s/TIER_IV/5L1J67-2024-10-29-112244
TIER IV チームの取り組み ● Architectural Decision Record (ADR) の導入 ○ アーキテクチャ設計に関する意思決定を文書化するための手法 ○ 導入背景 ■ メンバーによって入社年次などの違いにより背景知識が異なる ● 「考慮した点」の網羅性が属人的 ■ 設計レビューに携わったメンバーでも時が経つと経緯が曖昧になりがち ○ 主に以下の項目を記載 ■ コンテキスト ● 背景 ■ レビュー ● 誰がどんなコメントをしたか ■ 決定事項 ● 選定理由 ● 検討された代替案( pros/cons) ■ 影響 ■ ステータス
TIER IV CONTACT US https://careers.tier4.jp/ Data Engineer https://herp.careers/v1/tier4/ZGd431vHI-Mp THANKS AGAIN !