[DL輪読会]CVPR2019:Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation

>100 Views

July 22, 19

スライド概要

2019/07/5
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

EP LEARNING JP [DL Papers] Weakly-Supervised Discovery of Geometry-Aware Representa<on for 3D Human Pose Es<ma<on Koichiro Tamura, Matsuo L http://deeplearn

2.

PAPER INFORMATION Weakly-Supervised Discovery of Geometry-Aware �epresentation for 3D Human Pose Estimation� – Xipeng Chen, Kwan-Yee Lin, Wentao Liu, Chen Qian, Xiaogang Wang, Liang Lin� – Submitted on 21 Mar 2019 (arxiv�� – https://arxiv.org/abs/1903.08839� – Accepted as a C�P� 2019 oral paper� 3D Pose Estimation� – Multi View の 2D Pose Estimationを⽤いて,特定の画⾓から他の画⾓への 換を⾏うauto-encoderを学習し、幾何学的な意味合いを持つメタ的なヒトの 次元構造の潜在表現を得る� 2

3.

. . . . . Outline イントロ� 既存⼿法の整理と新規性� 提案⼿法� 実験� まとめ� 3

4.

イントロ 動画像から3D Pose Estimationを⾏う研究� – ⽤途: action recognition, human-computer interaction, autonomous driving, (A�/��)� – 研究/実⽤におけるボトルネック: annotationが難しい� – 本研究のモチベーション: 3Dのannotationが(事実上)必要なく,2DのPose Estimationのannotationのみで3D推 をしたい� – 類似研究� • ⼤量の2Dのannotationを⽤いて3D annotationを作成する⽅法 => ドメイン変換が悩みのタネ� • 事前に定義された3Dモデルに対して適⽤する⽅法 => ヒトの多種多様な動きに対して対応できない� • 複数視点から3Dモデルを得る⽅法 => 固形物はそこそこできるが、ヒトの多種多様な動きに対して対応できない� Mul$ View の 2D Pose Es$ma$onを⽤いて,特定の画⾓から他の画⾓への 変換を⾏うauto-encoderを学習し、幾何学的な意味合いを持つメタ的な ヒトの3次元構造の潜在表現を得るモデルを提案 4

5.

既存手法の整理と新規性 Geometry-Aware �epresentations� 1. あらかじめ定義された構造情報に当てはめるような⼿法� 2. 複数の視点を利⽤した⼿法� – 固形物や顔/⼿などに適⽤されることが多かったが,関節点と可動域が⼤きい ⾝体の場合,少ないデータセットでかつsimpleな制約条件でどうするかとい ことは,未解決問題だった� 3D Human Pose Estimation� – Fully-supervised: データセットに様々な条件や制約� – Weakly-supervised=> 今回はこれ� 本研究は,2D Pose Estimationのannotationだけを⽤いて,� 幾何学的意味を持つ汎⽤的な潜在表現を獲得することが新規性� 5

6.

提案手法 6

7.
[beta]
提案手法
1. Image Skelton Mapping
•
•
•
•
•
•

Mul< Viewにおけるencoder-decoder frameworkでは,
⽣画像でなく2D skeleton informa<onで⼗分
画⾓iと画⾓jから獲得した画像​𝐼𝐼𝐼𝐼𝐼𝐼, ​𝐼𝐼𝐼𝐼𝐼𝐼に対して,
2D Pose Es<ma<onの推論を⾏い,K個の関節点の
Heatmaps(1channelに対して1関節点の画像)を得る
Heatmapsから,2D skeleton maps ​𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆, ​𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆∈​{0,
1}↑(𝐾𝐾−1)∗𝑊𝑊∗𝐻𝐻𝐻を⽣成する
(多分Pose Es<ma<onの推論できればなんでもよし)
しかし,まだ2つの問題がある
•
•

画⾓は有限である
画⾓の分布が不均⼀

•
•

Pose Sample Simulator => これを使う(これがすごい説)
上記論⽂では2D-3Dのpairを⽣成していたが,ただ
random samplingするだけ
3Dのground truthを持つデータに対して,ある画⾓か
ら正射影することで2DPoseを得る
(だから今回Weakly-Supervised)

Learning Pose Grammar to Encode Human Body
Configura<on for 3D Pose Es<ma<on(AAAI2018)

•
•

�

8.

提案手法 Geometry representa<on via view synthesis • ​𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 -> (encoder) -> ​𝐺𝐺𝐺𝐺𝐺𝐺-> (回 転⾏列​𝑅𝑅𝑅𝑅𝑅→𝑗𝑗𝑗) -> ​𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 > (decoder) -> ​𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 • • 変換(⽣成)後の​𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆と​𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 で誤差を取る ​𝑅𝑅𝑅𝑅𝑅→𝑗𝑗𝑗は(多分)固定 潜在表現� loss� 回転⾏列� loss� 8

9.

提案手法 Representa<on consistency constraint • • 「ヒト」としてありえない構造 をとることに対して,制約を加 えたい ​𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺と​𝐺𝐺𝐺𝐺𝐺𝐺の差分をloss関数 回転⾏列� 潜在表現� に加える loss� 9

10.

提案手法 損失関数� – 今までのお話をまとめると,損失関数は��の通�� 1� 2� 2� 3� 1� 3� 10

11.

実験 データセット� – Human3.6M: 3Dデータセットで⼀番⼤きい, 3.6million,11actors, 15da activities, from 4camera� – MPI-INF-3DHP: 3d benchmark dataset, indoor(制約付き) & outdoor(⾮ 約)� – MPII: 2D human Pose� 評価⽅法� – 3つの形式的な評価プロトコルで⽐較� 11

12.

実験 検証1� – (Human3.6におけるMPJPE, PMPJPE評価法にて)� – まずは,潜在表現Gを⽤いることの有⽤性を検証� • Gをneural networkの⼊⼒として,3D Pose を推論� • Gを⽤いず,2Dをneural networkの⼊⼒として,3D Poseを推論� � 学習データセットの規模を⼤きくするほど,Gは良い潜在表現を獲得し, また潜在表現Gを⽤いる有⽤性が⽰された� 12

13.

実験 検証2� – 他⼿法との⽐較� – MPJPEの場合� • Martinez et al. の⼿法に,潜在表現Gを利⽤した場合: 62.9 => 56.3� • Sun et al.の⼿法に,潜在表現Gを利⽤した場合: 49.8 => 46.3� • Integral human pose regression + 本研究がS��A� – (2Fc layersだと,普通に性能が悪い)� 13

14.

実験 潜在表現について� – 潜在表現は,constraint lossを加えたことによって,point cloudの形式の幾 何学的意味を持つヒトの3次元構造をなす� – 潜在表現を⽤いていることで,よ�ドメイン��性能が⾼い� 14

15.

実験 �⼒� 15

16.

まとめ どんなもの? multi viewの2D Pose Estimationのannotationだけを⽤ いて、auto-encoderでヒトの3次元的幾何学的意味を持つ 潜在表現を獲得� どうやって有効だと証明した? 潜在表現を⽤いた推論とそうでない場合を,Human3.6M などで,先⾏研究などと⽐較&組み合��ながら検証� 先行研究との差分は? 1. multi viewの2D Pose Estimationのannotationだけ� 2. 幾何学的意味を持つ潜在表現� � 技術や手法のキモは? 議論点 • 2D annotationだけでいけること,既存⼿法のフレーム ワークに組み込める点で実⽤性が⾼いか� • 2D Pose Estimationの����に⼤きく�存しそう� 次に読むべき論文は? 1. 3D annotation-> 2d annotationに無限サンプリング� 1. Learning Pose Grammar to Encode Human Body Con�guration for 3D Pose Estimation(AAAI2018)� 2. Auto-encoderにおいて,潜在表現間におけるlossも考 �� 2. Integral human pose regression� 16