202 Views
March 31, 23
スライド概要
2023/3/31
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023) Hiromu Taketsugu, Ukita Lab B4 http://deeplearning.jp/ 1
書誌情報 • タイトル:Decoupling Human and Camera Motion from Videos in the Wild • Project Page:https://vye16.github.io/slahmr/ • arXiv: https://arxiv.org/abs/2302.12827 • Github: https://github.com/vye16/slahmr • 著者: Vickie Ye Georgios Pavlakos Jitendra Malik Angjoo Kanazawa – カリフォルニア大学バークレー校 – PixelNeRF等の著者陣(Ye, Kanazawa) • CVPR2023採択論文 • 選定理由:定性結果のインパクト◎ 2
概要 • 人物を写した動画から人物とカメラの世界座標系での軌跡を同時に推定する SLAHMR (Simultaneous Localization and Human Mesh Recovery)を提案(右上) 3
概要 • SLAHMR (Simultaneous Localization And Human Mesh Recovery) – Not SLAM (Simlutaneous Localization And Mapping) – 新規性:Human Mesh Recoveryをカメラ位置を推定しながら行えるようにした • HMR (Human Mesh Recovery): – 単眼カメラで撮影した2D画像から3Dモデル(人物姿勢+形状)を復元するタスク 4
概要 • 全体的な流れ(入力:動画,出力:人物とカメラの軌跡) – Initialization: SfMでカメラ位置,Pose Trackingで人物姿勢とIDを推定 – Minimize (Optimization): 動作の自然さなどを基にエネルギー関数を最小化 5
概要 • 全体的な流れ(入力:動画,出力:人物とカメラの軌跡) – Initialization: SfMでカメラ位置,Pose Trackingで人物姿勢とIDを推定 – Minimize (Optimization): 動作の自然さなどを基にエネルギー関数を最小化 6
手法(Initializationフェーズ) • カメラモーションの取得(Localization): – VSLAM手法のDROID-SLAM (NeurIPS2021)を用いてLocalizationし,動画 全体にわたる相対的なカメラ位置を取得 7
手法(Initializationフェーズ) • 3次元人物追跡(Human Mesh Recovery): – Pose Tracking手法のPHALP (CVPR2022Oral) を用い,入力動画から各人物 を識別しつつ3次元人体姿勢を推定 8
概要 • 全体的な流れ(入力:動画,出力:人物とカメラの軌跡) – Initialization: SfMでカメラ位置,Pose Trackingで人物姿勢とIDを推定 – Minimize (Optimization): 動作の自然さなどを基にエネルギー関数を最小化 9
手法(Optimizationフェーズ) • Optimizationフェーズでは,InitializationフェーズでのVSLAM (DROID-SLAM)とPose Tracking (PHALP) による出力結果から – カメラのグローバル軌跡 – 人物のグローバル軌跡 を同時に最適化していく • メインの最適化の前に, – 初期化:推定した人物姿勢の座標を世界座標系に変換し人物を配置 • その後画像平面上に再投影し,元の推定キーポイント位置との再投影誤差を取る – 平滑化:隣接フレーム間でのキーポイント位置変化をエネルギーに加味 • 動画内で人間の姿勢は滑らかに変化する 10
手法(Optimizationフェーズ) • Human motion priorsの利用: – 自然な動きになるように事前知識をエネルギー関数に盛り込む – HuMoR (ICCV2021Oral) を利用:人物動作で学習済みのConditional VAE – HuMoR: t-1の姿勢と動作遷移の確率分布を基にtの姿勢を修正する. 11
手法(Optimizationフェーズ) • Human motion priorsの利用: – 自然な動きになるように事前知識をエネルギー関数に盛り込む – HuMoR (ICCV2021Oral) を利用:人物動作で学習済みのConditional VAE – HuMoR: t-1の姿勢と動作遷移の確率分布を基にtの姿勢を修正する. – HuMoRで事前学習済みの分布を利用して以下の項をエネルギー関数に追加 • 学習済みの分布においてt-1の状態から確率の低い動作遷移をするとエネルギーが増加 • 「人間動作としてより自然な動作遷移(→ 軌道)に近づけるよう最適化する 12
手法(Optimizationフェーズ) • Human motion priorsの利用: – HuMoRでは同時に床面の推定を行い,地面との接触確率cを推定している 13
手法(Optimizationフェーズ) • Human motion priorsの利用: – HuMoRでは同時に床面の推定を行い,地面との接触確率cを推定している – これを利用し,以下の項をエネルギー関数に追加: – 「地面と接触しているキーポイントの位置が変化すると不自然」 – 「キーポイントの高さが地面から閾値以上離れていると不自然」 – Last stageでは,前述の再投影誤差𝑬𝒑𝒐𝒔𝒆 などと併せてこれらの項を足し合わせ たエネルギー関数を最小化する. 14
実験結果 • EgoBodyでの定量評価(左:ablation,右:他手法比較): – Optimizationのlast stage ()が良く効いている – ベースラインのPHALPや他手法を大きく上回る性能を示した 15
概要 • 全体的な流れ(入力:動画,出力:人物とカメラの軌跡) – Initialization: SfMでカメラ位置,Pose Trackingで人物姿勢とIDを推定 – Minimize (Optimization): 動作の自然さなどを基にエネルギー関数を最小化 16
実験結果 17
今後の課題 • Optimizationの所要時間の長さ: – 「4人の人物を含む100フレームの動画を最適化するのに40分を要する」 – 人数,フレーム数ともに実応用ではより大規模な状況も想定され,速度面では まだ大きな課題が残る • 単眼カメラの限界?: – カメラの動きによっては軌跡を正しく取り出せない • 例えば,カメラと人物が同方向に動き続けている場合に実行結果ではカメラと人物ともに その場に留まり続けてしまうなど – 背景の深度を入力/推定することでより良くなる? 18
まとめ・所感 • まとめ: – 単眼カメラで撮影した動画から3次元メッシュ復元しつつ人物とカメラのグ ローバル軌跡を推定するSLAHMRを提案 – 定量結果ではOptimizationのlast stage (motion prior等)がよく効いている • 所感: – 単眼カメラでの撮影にもかかわらず,PoseTrackのようなチャレンジングな データセットでここまでの結果が得られているのはすごい • 従来手法との一番の違いはやはりカメラモーションを明示的に考慮したこと • smoothingやfloor plane推定もベースラインとの印象の違いに寄与していそう – ただし,速度の遅さは気になる • Human-awareなシステムにするには速度の追求が必要そう 19