309 Views
January 24, 20
スライド概要
2020/01/24
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Seminar] LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking Koichiro Tamura ACES, Inc. https://deeplearning.jp
Overview • • Guanghan Ning, Heng Huang – Submitted to arXiv on 2019/7 – https://arxiv.org/abs/1905.02822 – Accepted as a CVPR 2019 paper GitHub – • https://github.com/Guanghan/lighttrack Human Pose Tracking – 動画内の複数の人物における同定を行うタスク • 特にオンライン(各フレームで過去の予測結果を元に逐次マッチングを行う)で精度・速度ともにSOTA – mAP 63.8~66.5, MOTA 52.3~55.1 – fps: 47~48 2
今回のサーベイの目的 1. Object Trackingを含めたTrackingの研究の潮流を理解する – 【問】Object trackingはPose Trackingのタスクを内包するか – 【問】Pose TrackingとObject Trackingは共存するか 2. Top-Down/Bottom-Up アプローチの研究と実活用の潮流を理解する – 【問】実運用において今後どちらが進展するか 3. Trackingにおける現状課題を理解する – 【問】pose trackingが実活用できない条件/サーベイするべき課題はなにか 3
Tracking Survey
Object Trackingについて • 動画像において初期フレームの物体の位置が与えられ、次フレーム以降の同一物体の位置を検出するタスク • サーベイ論文 • – [Ciaparrone+ 19.11]DEEP LEARNING IN VIDEO MULTI-OBJECT TRACKING: A SURVEY – https://arxiv.org/pdf/1907.12740.pdf Single vs Multiple – 一つの物体を追跡するSOTと、複数の物体を追跡するMOTは、似て非なるタスク – MOTは目標画像が既知ではなく、オクルージョンやインテラクションの問題が発生するタスクであり、単にSOTのモデルを適用すると、 目標を見失ったり、IDがごちゃごちゃになる • Online vs offline (batch) – 過去データのみを用いるonlineと、未来のデータも用いるoffline(batch)に大別 5
Object TrackingとDeep Learning 1. Detection Stage – Faster R-CNN/SSD/YOLOなど – Detectionとtrackingを一気通貫してend-to-endで学習するモデルも 2. Feature Extraction /Motion Prediction Stage – CNNやSiamese CNNで特徴量を抽出する手法が主流 3. Affinity Stage – 抽出した特徴量に対して、距離を算出 4. Association Stage – IDを割り振る 6
Introduction
Introduction • 既存のPose Trackingのアルゴリズムの多くははオフライン – 計算速度(FPS)よりも、追跡精度(MOTA)がより重要視されている – オフラインのアルゴリズムは、未来のフレームのposeを推定・計算する必要がある(少なくとも、ある程度の範囲の framesで計算される必要がある) • 既存のPose Trackingでオンラインのアルゴリズムは(全て)Bottom-Up型 – Bottom-up型アプローチは、互換性にかける(end-to-endのネットワークのため) • LightTrackは、初のTop-Down型かつオンライン型のPose Trackingアルゴリズム – 精度・速度ともにSOTA 8
Introduction • LightTrackは、人の姿勢という明示的な特徴を用いたTrackingのアルゴリズムである – Visual Object Tracking(VOT)は、特徴量空間における暗黙的な処理 1. 解釈可能性が高い 2. 先にKeypointsを推定しているので、ROI(画像における対象領域)を集中・効率的に処理できる 3. 候補者のIDが計算過程で自然に付与・保持されるため、関連付けの負担が軽減される • 本研究では、以下の貢献 1. Top-Down型かつオンライン型のPose Trackingにおける一般的なフレームワークを提案した 2. 人の関節点をもとにしたPose TrackingにおけるRe-ID(見失った時の再特定)を提案 3. 様々な設定で検証実験を行った 9
Related Works
Pose Estimation and Tracking • Pose Estimationには、2つのアプローチがある 1. 2. • Bottom-Up • 画像内における関節点を推定した後、人を再構成する • 複数人の推定において、計算時間が人数に比例しない(つまり早い) • OpenPoseなど Top-Down • 人をObject Detectionアルゴリズムで検知した後に、single person Pose Estimation(SPPE)を行う • タスクが分解できて、シンプル • RMPE、AlphaPoseなど Pose Trackingの研究は、以下のデータセットが構築されたことによって進展 – Pose Track Dataset • – ([Andriluka+ 17.10] PoseTrack: A Benchmark for Human Pose Estimation and Tracking), https://arxiv.org/abs/1612.01465 MPII Video Pose Dataset • [Insafutdinov+ CVPR'17] ArtTrack: Articulated Multi-person Tracking in the Wild, https://arxiv.org/abs/1612.01465 11
Single Pose Tracking vs Multi Pose Tracking • Multi (Pose/Object) TrackingをSingle (Pose/Object) Trackingの延長として捉えることはできない – 特定のフレームにおいて、2つの異なるIDが同一人物に割り振られたり、異なる人間が1つのIDを共有することはでき ないという制約条件は、想像以上に難しい – 単にSOTモデルを当てはめると、目標を見失ったり、IDがごちゃごちゃになったりしてしまう 1. 画角から消えたり、隠れたりする 2. 新しい候補者や、一度消えた人物が再出現する 3. 交差する 4. カメラ自体が移動・ズームする – 複数のPose/Objectを同時に追跡し、別モジュールとしてRe-IDモジュールを実装しIDを保持管理することが必須 12
Proposed Method
Proposal method 1. Object Detection(Human Detection) 2. Single Person Pose Estimation(SPPE) 3. 人物のTracking状態の判定 (Lost or tracked) 4. Lost の場合、 Object Detectionを再度用いて、候補者を検出し、Pose の類似性からターゲットを関連づける 14
ターゲットの状態判定 • Tracked or Lost – Jointsのconfidence scoreの平均が𝜏𝑠 未満である場合、lost と判定する • Lostと判定された場合、以下の2つのアプローチがある 1. Fixed Keyframe Interval(KFI): 次の特定フレームまで、ターゲットを無視する=>安定 2. Adaptive Keyframe Interval(AKI): 候補の再検出と関連付けですぐさまtrackingする=>高フレームレート対応 – 本研究では、ターゲットが失われた瞬間にObject Detectionを呼び出しつつ、固定間隔のキーフレームで補正 15
IDの関連付け • 本研究では、以下の2つの一貫性を利用して、時系列に おけるIdentificationを行う 1. 空間的な一貫性: BboxのIoUで閾値判定 -> これだけだと、カメラ シフトやズームに弱い 2. Poseの一貫性: 視覚的な一貫性を、Pose Estimationから確認する -> New Points: – 視覚的な一貫性を確認するシステムは、特にオンラインの Trackingにおいては、計算時間を要するため、難しい – そこで本研究は、関節点のグラフィカルな情報を利用することに よって次元を削減(Pose Matchingと呼ぶ) – visual featureを使うことで視覚的に似た人物を同一人物と判定し てしまわないようにする(例:スポーツにおけるユニフォーム) カメラシフトやズームでは、 空間的な一貫性だけでは対応できない 16
Siamese Graph Convolution Networksを用いた類似判定 • • Siamese CNN – 2つの画像において、類似性を表す距離を学習するCNNを利用したニューラルネットワーク – 2つのCNNの重みは共有される Siamese Graph Convolution Networks – Siamese CNNのGCN版 17
Siamese Graph Convolution Networksを用いた類似判定 • Siamese NetworksのLoss関数 2 – 𝐷 = 𝑓 𝑝𝑗 − 𝑓(𝑝𝑘 ) – 𝑦𝑗𝑘 ∈ {0,1}, 𝑝𝑗と𝑝𝑘が同じposeかどうかを表すBoolean値 – 𝜖: poseが異なる場合において、満たすべき最小マージン , GCNで畳み込まれた特徴量空間における距離 18
Siamese Graph Convolution Networksを用いた類似判定 • Graph Convolution – [Yan+ AAAI’18]Spatial temporal graph convolutional networks for skeleton-based action recognitionに基づいて畳込み – 各nodeにおいて、poseにおける隣接noteのみサンプリングされる – 𝐵(𝑣𝑖 ) : node 𝑣𝑖 の隣接nodeの集合 – 𝒑: sampling function. ここでは結局node 𝑣𝑗 – 𝒘: 重心からの距離に応じた重み 19
Experiments
Dataset • Pose Track – [Andriluka+ 17.10] PoseTrack: A Benchmark for Human Pose Estimation and Tracking • – データセット • – https://arxiv.org/abs/1710.10000 https://posetrack.net/ ICCV’17, ECCV’18 workshopのベンチマークを利用 • 68,000 frames for ICCV’17, 68,000*2 frames ECCV’18 • 593 training videos, 74 validation videos, and 375 testing videos 21
Evaluation Metrics • Pose Estimation: mAP • Pose Tracking: MOTA(multiple object tracking accuracy) – [Bernardin+ 08.01] Evaluating multiple object tracking performance: the clear mot metrics. • http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.367.6279&rep=rep1&type=pdf 𝑀𝑂𝑇𝐴 = 1 − • • • • 𝐹𝑁 + 𝐹𝑃 + 𝐼𝐷𝑆𝑊 ∈ (−𝑖𝑛𝑓, 1] 𝐺𝑇 FN: ground truth BBがどの予測BBにも当てはまらないとき FP: 予測BBがどのground truth BBとも当てはまらないとき IDSW: id switch, ground truth BBのIDが誤ったものに切り替わったとき GT: 全フレームでのground truth BBの数 22
Implementation Details • Object Detection – • • Single Person Pose Estimation – CPN101: [Chen+ CVPR’18] Cascaded Pyramid Network for Multi-Person Pose Estimation – MSRA152: [Xiao+ ECCV’18] Simple baselines for human pose estimation and tracking Siamese Graph Convolution Networks – • ImageNetとCOCOでpre-trainedされたResnet101をbackboneにしたDeformable FPN 2つのGraph convolution networksでoutputの次元が128 それぞれのアーキテクチャにおいて、異なるモデルに代替可能 – コメント*: top-downのアルゴリズムであれば、すぐに利用可能 – HRNetなど • [Sum+ CVPR’19] Deep High-Resolution Representation Learning for Human Pose Estimation • https://arxiv.org/abs/1902.09212 23
Offline vs Online 精度はOfflineの方が高い 24
GCN vs Spatial Consistency(or Euclidean Distance) (*ユーグリット距離はGCNの85~92%) 25
Performance Comparison Offlineであれば、HRNetがやはり強い Fpsが圧倒的*(pose estimationの時間を除く) 26
Conclusion
まとめ • 初のTop-Down型かつオンライン型のPose Trackingアルゴリズム 1. それぞれの機能において代替性・拡張性を持つ • より優れたObject Detection • より優れたsingle person pose estimation • より優れたSiamese Graph Convolution Networks 2. ユーザーの状態を定義し、必要な場合に応じてRe-Identificationをすることによって、速度を担保 3. GCNを用いてencodeすることで、人の位置や角度に対してロバスト 28
サーベイの結論 1. Object Trackingを含めたTrackingの研究の潮流を理解する – 【問】Object trackingはPose Trackingのタスクを内包するか – 【答】 pose trackingは動作の一貫性というよりは、Object Trackingと同様にidentificationの一貫性を目的にしている。 top-downのアプローチであ れば、似たようなフレームワークであるが、人の関節情報を用いることができるという観点から、 Pose Trackingの方がタスク的に容易。 – 【問】Pose TrackingとObject Trackingは共存するか – 【答】 top-downのアプローチでかつ、online/offlineのアーキテクチャが同じであれば、同一のアーキテクチャで、実装可能。つまり、物体と人 の両方をトラッキングする必要があるタスクでは、top-downのpose estimationのアルゴリズム選定が重要 2. Top-Down/Bottom-Up アプローチの研究と実活用の潮流を理解する – 【問】実運用において今後どちらが進展するか – 【答】 bottom-upのアルゴリズムの推論速度は魅力だが、代替性と拡張性にかける。個々に強力なアルゴリズムを組み合わせて実現するtopdownのアーキテクチャの方が優勢か 3. Trackingにおける現状課題を理解する – 【問】pose trackingが実活用できない条件/サーベイするべき課題はなにか – 【答】 GCNを用いることで、センサについてロバスト(カメラの移動とズームにはある程度対応)できるが、複数視点でのtrackingは難しい。ま た、死角に入って一定時間が経ってから出てくる場合などは、服装や顔などといった視覚的特徴量をベースに同定を行う必要がある 29