1.3K Views
August 04, 20
スライド概要
2020/07/31
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Whole-Body Human Pose Estimation in the Wild Shizuma Kubo, ACES.Inc http://deeplearning.jp/ 1
書誌情報 • 書誌情報 ➢ Whole-Body Human Pose Estimation in the Wild ➢ 著者: Sheng Jin, Lumin Xu, Jin Xu, Can Wang, Wentao Liu, Chen Qian, Wanli Ouyang, Ping Luo ➢ 所属: The University of Hong Kong / SenseTime Research 中心 ➢ ECCV’20 Poster (2020/07/23 on arXiv) ➢ データセット: https://github.com/jin-s13/COCO-WholeBody 2
概要 データセットの作成 モデルの提案 ✓ 顔、手、身体、足の2次元特徴点のアノテーショ ンをCOCOデータセットに施したCOCOWholeBodyを作成 (全て含まれるのは初) ✓ これらの2次元特徴点推定をend-to-endで学習さ れるネットワークで一度に行うZoomNetを提案 ✓ VR、AR、行動認識へのアプリケーション応用を 想定 ✓ このように全身のキーポイントを推定するタスク をWhole-body Pose Estimationと呼ぶ ✓ Whole-body Pose Estimationで既存手法に対し て、大きく精度向上 3
目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 4
目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 5
既存の2次元特徴点データセット • Body Pose Estimation: COCO (17点の身体キーポイント)、Body25 (足のアノテーション付) • Hand Keypoint: Panoptic (Lab環境での撮影)、Hand10K (in the wildだが、数が少ない) • Face Keypoint: 300W (複数のデータセットの組み合わせ、68点キーポイント) • DensePose: 3D表現に対応するアノテーション。関節点の情報が不足していたり、顔や手の キーポイントが少ない。今回のアノテーションには含まれない Body Hand Face DensePose Foot 画像引用: https://github.com/facebookresearch/DensePose 6
既存の2次元特徴点データセットの課題 課題 1. In-the-wildな環境のHand Poseのデータセットがそもそも少ない 2. 光の当たり具合、姿勢、スケールの分散が各データセットごとに異なるため、全てを一緒 に学習することが難しい Body Hand Face COCO-WholeBody Datasetはこ の問題を解決するために、COCOに face、hand、footのアノテーショ ンを追加した (All-in-One) Foot 7
既存のWhole-Body Pose Estimation • OpenPose [Cao CVPR’17, Simon CVPR’17]: 身体と足のキーポイントの検知と手と顔の位 置をまず検出。その後、顔と手の推定を追加のネットワークで行う。複数のネットワークに依 存するため、学習が面倒、実行速度・計算量が増加してしまう • SN [Hidalgo CVPR’19]: 基本構造はOpenPoseと同じだが、全身のキーポイントを一気に出力 し、グルーピング。全身のデータセットはなかったため学習時のサンプリングを工夫 問題点 1. スケールの分散をうまく扱えていないことを指摘 (つまり、手と顔のサイズが身体に対して 小さいため、同一に扱うと学習がうまくいかない) 2. 特に、Bottom-Upアプローチであることに起因することを指摘 (提案手法はTop-Down) 8
目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 9
2次元姿勢推定のパラダイム Bottom-Upアプローチ Top-Downアプローチ 1. まず、画像中のキーポイントを全て検出する 2. そのキーポイントを人物ごとにグルーピング する 1. まず、人物のbounding boxを検出する 2. そのbounding boxをboxごとにリサイズ、ク ロップして、キーポイントの検出を行う ➢ 人物に関係なくキーポイントの推論を行うた め、人物が増えても推論速度があまり変わら ない ➢ 人物のサイズを揃えることができるので精度 が高く出しやすい (SOTA論文はこのアプロー チから出る) キーポイント検出 グルーピング 物体検出 キーポイント検出 10
Whole-Body Pose Estimation のポイント • Whole-body Pose Estimationには2段階のTop-Down/Bottom-Upの選択がある 1. 人物単位 (姿勢推定一般的な議論点) 2. 身体のパーツ単位 (Whole-body Pose Estimation特有の議論点) 物体検出 (Top-Down 1) ZOOM-in (Top-Down 2) キーポイント推論 ポイント パーツのキーポイント推論を人物画像に対して1度に行う (Bottom-Up)か、注目パーツごとに 分割して行う機構を取り入れて推論する(Top-Down)かの姿勢推定の際に人物ごとに分割する かどうか(Top-Down/Bottom-Up)と同様の議論が生じる 11
目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 12
COCO-WholeBody Dataset • 人物ごとにBounding BoxとKeypointsのアノテーション • Bounding Box (person box、face box、left-hand box、right-hand box) • 133 Keypoints (body: 17、feet: 6、face: 68、hands: 42) Whole Face Statistics of COCO-WholeBody Hand 13
データセットの比較 14
データセットの詳細情報 スケールの違い ➢ 図はキーポイント同士の距離 の分布を表す ➢ Bodyとhand/faceでは分布が 大きく違う (当然の結果では ある) ➢ これらのスケールの違うキー ポイントを推論するところに タスクの難しさがある ぼやけ度 (Blurriness) Gesture Variance ➢ 画像のblurinessを一般的な Faceのデータセットである 300Wと比較 (Blurinessは Laplacian methodによる) ➢ 300Wよりも広く分布してお り、blurinessが1よりも小さ いようなチャレンジングなも のを含まれる ➢ 手の形をfist、palm、others の3つのパターンに分類 ➢ 一般的なデータセットである Panopticと比較 ➢ In-the-wildなデータセットで、 何かを掴んでいる手の画像が 多い 15
アノテーションの仕方 アノテーションステップ 1. 人物ごとにface/left-hand/right-handのbboxとvalid/invalidのラベルをアノテーション 2. 複数のアノテーターグループによる厳しい品質チェック 3. Validラベルのbboxにキーポイントのアノテーション HRNetv2ベースの学習済みモデルで 推論した結果を利用し、その結果を修正するようにしてアノテーション 4. 結果的に、handが約28%、faceが約6%だけが修正対象。この節約によって約89%の時間を 節約できたと推察 • 最低限Keypointができる程度の見え方のbboxにvalidのラベルを振り、そのbboxに対して keypointのアノテーションを行った (画質が悪すぎる、オクルージョンが強すぎるものが invalid) • アノテーション時間目安 10 min/face、1.5min/hand、10 sec/box (by professional annotator) 16
目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 17
ZoomNetの全体像 • 既存のFaster-RCNNで人物を検出し、以下のモジュールでその人物のキーポイントを推論する • FeatureNet: 2つの畳み込み層とbottleneck blockから成る。 ➢ 入力サイズ: 384x288 -> F1: 192x144 -> F2: 96x72 • BodyNet: body/footのキーポイント予測とface/handのbbox予測を行う • HandHead/FaceHead: BodyNetから得られるface/handのbbox中のキーポイントを予測する 18
BodyNet • CornerNet[Law+ ECCV’18]にインスパイアされた方法 (とはいえ、やり方は違う) • Bbox(face/left-hand/right-hand)をboxのコーナーの4点と中心点で表す • このbboxと身体のキーポイント (body/foot)を2次元のヒートマップとして予測する • 推論時には最も距離が近くなるboxのコーナー4点をbboxとみなす • 出力は38チャンネル (bbox 5点x3種=15, keypoint 17(body)+6(foot)=23) でbackboneはHRNet-W32 19
HandHead/FaceHead • BodyNetのbboxの出力を用いて、ROI Alignを行い、F1/F2からface/handに対応する特徴量を取 得する • この特徴量からface/handそれぞれでキーポイントを推論する • BackboneはそれぞれHRNet-18を使用 20
目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 21
定量評価 • Whole-Body Pose Estimationとして提案されているOpenPoseとSNに加えて、Bottom-Up手法の PAFとAE、Top-Down手法のHRNetを比較手法として追加 • COCO-WholeBodyで全てのモデルを学習させ、single-scaleでテストを実行 • ”-body”がつくものは17点の身体のキーポイントだけを使ったもの (他のキーポイントと一緒に 学習させてしまうと精度が悪化する) 22
定性評価 23
Face/Handのデータセットの評価 • 左下図は顔の2次元特徴点抽出の手法比較 (300Wデータセットでの評価) ➢ *HR-OursはWhole-Body Face (WBF)で学習して300Wでテスト、HR-Oursは300Wで学習して 300Wでテスト、extra付きはWBFで事前学習 ➢ 事前学習の効果が出ている • 右下図は手の2次元特徴点抽出の実験 (Panoptic (Pano.)とWhole-Body Hand (WBH)) ➢ #1と#2の比較から事前学習効果が分かる ➢ #1と#3の結果からWBHはスケールが小さく、チャレンジング 24
その他分析結果 ① • Bboxの精度の影響①: Ground Truthのbboxを使った 場合 (Oracle)、精度が大幅に向上 • 人物のスケールの影響②: Bottom-Upの手法は mediumサイズ(小さいサイズ)に弱く、精度が悪い ② • Faceのblurrinessとposeの影響③: blurrinessには影 響を受けやすいが、poseには影響を受けにくい • Handのposeの影響④: fistが比較的簡単 ③ ④ 25
目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 26
まとめ • データセットの作成 ➢ Face/hand/footのkeypointアノテーションを加えたCOCO-WholeBodyの作成 ➢ これによって、Whole-body Pose Estimationを同一のデータセットで学習が可能になった ➢ 各パーツごとに見ても、in-the-wildで大規模なデータであり、有用 • モデルの提案 ➢ パーツごとのスケールの分散の問題に取り組んだZoomNetを提案 ➢ 既存の手法・モデルに対して高い精度を達成 • 気になったこと ➢ 既存手法として比較されるOpenPose、SNに精度で勝ることは納得感はあるが、HRNetはもう 少し真面目にチューニングすれば論文で言及しているよりは精度出そう 27