[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation

678 Views

May 17, 19

#deep learning #Deep Learning #Pose Estimation #HRNet #Computer Vision #Deep High-Resolution Representation

スライド概要

2019/05/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91.1K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 68.1K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 48.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Deep High-Resolution Representation Learning for Human Pose Estimation” Matsuo Lab, Ryo Okada/岡田領 http://deeplearning.jp/ 1

http://deeplearning.jp/

Outline 1. 2. 3. 4. 5. 6. 7. 書誌情報論文の概要姿勢推定問題とは先行研究提案手法実験まとめ 2

書誌情報 • タイトル – Deep High-Resolution Representation Learning for Human Pose Estimation • 著者 – Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang – University of Science and Technology of China, Microsoft Research Asia • CVPR’19 3

概要 4

本論文の概要 • Deep High-Resolution Representation Learning for Human Pose Estimation – ネットワーク全体で高解像度を維持する一方で、複数スケールを繰り返しフィージョンする姿勢推定のためのhigh resolution network（HRNet）を提案 – 異なるスケールのインタラクションを密にして高精度出した 5

姿勢推定とは 6

Human Pose Estimation - 姿勢推定 • • • 姿勢推定とは – 画像や動画から肩や手首といった人間の関節部分（キーポイント）を推定する問題種類 – 2D姿勢推定 • 画像から関節部分の２次元(x, y)の位置を推定する – 3D姿勢推定 • 画像から関節部分の３次元(x, y, z)の位置を推定する利用例 – 行動認識、アニメーション、ゲーム – Homecourt（バスケのシュートの分析アプリ） 7

Human Pose Estimation - 姿勢推定 • 姿勢推定モデルのアプローチ – トップダウンアプローチ • まず人物を検知する。その後、それぞれの人物について姿勢推定(Single Person Pose Estimation)を行う。 • 人数に比例して計算量が増加する – ボトムアップアプローチ • 画像中のキーポイントを全て洗い出したあと、人物ごとにマッチングさせて繋ぎ合わせていく。 • トップダウンに比べ、計算量が少ないが、部位間のつなぎ合わせの精度が低い 8

先行研究 9

10.

姿勢推定の先行研究 Hourglass • • 対照的な高->低、低->高解像度のネットワーク(Hourglass)を直列に８つつ繋ぐ。それぞれのhourglass ではIntermediate supervisionを用いる。 Skip connection使ってフュージョンする。 Cascaded pyramid network • • トップダウンアプローチ（人物検知->姿勢推定）左側の GlobalNetで単純明瞭なキーポイントを見つける。右部分のRefineNetが複数スケールの特徴をアップサンプリング・統合することで、抽象度の高く、見つけづらいキーポイントの推定を行う。 Simple Baseline • • • • ResNetで高->低解像度、Hourglass ではアップサンプリングであったが、deconv layerでスケールを戻す。シンプルなネットワークで高性能を示した。 ECCV Posetrack challenge 2018で優勝著者らの前作 10

11.

既存研究のポイントと提案手法の着想既存研究提案手法並列に高->低解像度ネットワークネットワーク構成直列に高->低解像度へ落とす複数スケールの加算方段階的に異なるスケールを加えていくものが多い複数スケールを一気に繰り返しフュージョン Intermediate supervision Intermediate supervisionを使用 (Hourglassなど) intermediate supervisionを使用しないため、計算量小。 (分類やセグメンテーションのmulti scale network から着想. Ex. Convolutional neural fabric, interlinked CNN) (Deep fusionから着想) 11

12.

提案手法 12

13.

HRNetのアーキテクチャ並列マルチ解像度サブネットワーク Exchange Unit s: stage, r: resolution index • サブネットワーク間で情報を繰り • 高解像度から始め徐々に低解像度返しフュージョンするのサブネットワークを加えていく。 • 異なるスケールのfeature mapは • 後段のステージの並列ネットワーアップサンプリング (nearest クの解像度は前段のステージのも neighbor サンプリング + 1x1 convolution) またはダウンサンプのに加え、より解像度の低いものリング (strided 3x3 convolution) で構成される。して加算。 13

14.

HRNetのアーキテクチャ HRNet全体イメージ • • ４ステージ、４並列サブネットワーク実験では２サイズのネットワークを用意 • • HRNet-W32（チャンネル幅32,64,128,256） HRNet-W48（チャンネル幅48,96,192,384）出力 • 最終層では1x, 2x, 4x, 8xの4スケールが出力される。このうち最も精度の高い 1xの出力のみが用いられる。 • 損失関数はground truthのキーポイントヒートマップに対するmean square error。 14

15.

実験 15

16.

実験 • 以下データセットで検証。それぞれSoTAを達成。 – MSCOCO • 物体検知・セグメンテーション・人物姿勢を含むデータセット – MPII Human Pose Estimation, PoseTrack • 人物2D姿勢データセット • 評価指標（COCOでの検証の際） – Object Keypoint Similarity – 物体認識におけるIoUと似た役割 – OKS閾値でのStandard Average precisionとrecall scoresで評価 http://imagenet.org/challenges/talks/2016/ECCV2016_workshop_presentation_keypo int.pdf 16

http://image-net.org/challenges/talks/2016/ECCV2016_workshop_presentation_keypoint.pdf

17.

COCO test-devでの性能比較結果 • • • AP: OKSを10段階に変えた時のAverage Precisionの平均値 AP50, AP75: OKSの閾値0.5, 0.75 APM, APL: 中サイズ、大サイズ人物に対するAP 提案手法が高精度を示している 17

18.

分解検証 18

19.

分解検証 • 以下３点について分解検証 1. 2. 3. 4. フュージョン回数による効果ネットワーク内での解像度の扱いの影響ヒートマップ推定に利用するfeature mapの解像度入力サイズの影響 19

20.

分解検証 ①フュージョンの繰り返しによる効果 ②ネットワーク内での解像度の扱いの影響最初から４つのサブネットワークを繋いだネットワークと提案手法とを検証(variant of the HRNet)。ネットワークの深さやフュージョンについては同じ。 - 結果 Variant of the HRNet: 72.5AP HRNet-W32:73.4 AP マルチスケールのフュージョンは効果的であり、回数を増やすほど高い性能に提案手法（HRNet-W32）のほうが高性能となった。徐々にスケール/サブネットワークを増やしていくのが性能向上につながると言える。 20

21.

分解検証 ③ヒートマップ推定に利用する feature mapの解像度 ④入力サイズの影響ネットワーク最後で利用するfeature mapの解像度の精度への影響を検証。解像度は予測精度に大きく影響することがわかる。小さいサイズにおける変化の方が性能の改善幅が大きい。ある程度の解像度を利用すれば精度の高い結果につながる。 21

22.

まとめ • 姿勢推定のためのhigh resolution network（HRNet）を提案した – プロセス全体で高解像度を維持し、解像度を復元する必要がない、 – 複数の解像度を繰り返しフュージョンし、高い精度を得た • Future work – HRNetの他のタスクでの効果検証（すでにいくつか検証している） • 物体検知 – High-Resolution Representation Learning for Object Detection • セグメンテーション – High-Resolution Representations for Labeling Pixels and Regions • 画像分類 – High-Resolution Representation Learning for ImageNet Classification • 顔認識 – 未 22

23.

THANK YOU. 23