>100 Views
June 29, 18
スライド概要
2018/06/29
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
1 2018/4/27 DEEP LEARNING JP [DL Papers] Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors (CVPR’18) http://deeplearning.jp/
• • • Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors Xuanyi Dong, Shoou-I Yu, Xinshuo Weng, Shih-En Wei, Yi Yang, Yaser Sheikh University of Technology Sydney, Facebook Reality Labs • CVPR’18 (Poster) • http://xuanyidong.com/publication/supervision-by-registration/ • https://github.com/facebookresearch/supervision-by-registration 2
3 • 顔のランドマーク検出の精度を向上させるため,Unlabeledな動画に対 し,Optical Flow (Lucas-Kanade) で予測した結果を利用する CNN (frame t-1) (frame t) ( ) CNN Lucas-Kanade ※ CNNとLucas-Kanadeの組み合わせは既にあった • CLKN: Cascaded Lucas-Kanade Networks for Image Alignment (CVPR’17) (frame t)
4 Image Registration https://stackoverflow.com/a/46609001
5 Optical Flow • 画像中の物体の動きをベクトルで表したもの (x,y) • このときの (u,v) を求めたい (x+u,y+v)
Optical Flow 6 • 以下の仮定を置く (I: 画像1, T: 画像2) ( ) ( • これより, (Constraint Equation) /)
Lucas-Kanade • 空間的整合性を仮定 • 周辺の点は同じように動く • この方程式は最小二乗法で解ける 7
• 以下の最小化を考える • Wはワープ関数 (e.g., W(x;p) = [x + p1, y + p2]) • ここで,初期値 p は既知だとして,Δp を利用して逐次的に解く • つまり以下を最小化 • Gauss-Newton method 8
$ 9 (cont’d) ( #) (0) -1 (Gauss-Newton Hessian) NOTE: ∇IW(x;p), ∂W/∂pp" → !
10 Inverse Compositional • 以下の最小化問題を考える • ワープ関数を以下で更新する • 先ほど同様テイラー近似して解くと -1 2 (T(W(x;0)) = T(x) ) ∂W/∂p(x;0) → OK!
11 2xCN 2x2 CN x 1 CN x 2 Cx2 Cx2 2x2
12 • xはNNで求める • 現在主流な座標推定方法は,Heatmapを用いるもの CNN Argmax • しかし,Argmaxは微分不可能.このままでは勾配を流せない • そこで,Soft-argmaxを利用する (End-to-End Training of Deep Visuomotor Policies (2015))
(cont’d) 13 • I(W(x;p))として,ここではSpatial Transformer Network (2015) を利用 • アフィン変換に対応 • bilinearで補間して,sub-pixel単位での切り出しができる • cudnnに実装がある
Lucas-Kanade 14
• 最初はlabelありデータのみで学習 • その後,unlabeledなデータを組み合わせて学習 • このとき,Registration Lossを利用する • 実験では連続した3フレームを利用 • 5フレーム利用したら悪くなったという実験結果 15
• Lucas-Kanadeは失敗する(大きくはずれる)ことがある • forward-backward checkで正しいと予測された結果のみ使用する 16
17 NME ()
Self-Training • Self-Trainingの方法 • training set で学習 • unlabeled dataを予測 • 高い確信度で予測した結果を擬似ラベルとして使って学習 • Self-Trainingの場合,擬似ラベルは正しいものとして扱われる • 仮に間違っていても何のフィードバックもない • 今回の手法では,擬似ラベル側 (LK予測側)にも勾配が流れる • LK方向に誤差を流さなかった場合 • NME 4.74 → 5.45 (YouTube Celebrities) 18
• Lucas-Kanadeを利用したsemi-supervisedな学習方法の提案 • • • LK操作側にも勾配が流れることが通常のSelf-Trainingとの最大の違い 時間的に一貫性のある出力がされるように学習される アノテーションのずれに対してロバストになる • (局所的には)人間よりもOptical Flowで追跡した方がよっぽど精度が高い • 座標をsoftmaxで出して他の手法と組み合わせて最適化するのは最近増えてい る印象 • • 2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning (CVPR’18) Improving Landmark Localization with Semi-Supervised Learning (CVPR’18) • 他のOptical Flowの手法との組み合わせは? 19
• Xuanyi Dong et al., Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors, CVPR’18. • Che-Han Chang et al., CLKN: Cascaded Lucas-Kanade Networks for Image Alignment, CVPR’17. • Lukas-Kanadeの計算方法はこちらの方が若干詳しい • Simon Baker et al., Lucas-Kanade 20 Years On: A Unifying Framework, IJCV’04. 20