【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation (CVPR 2022)”

133 Views

August 09, 22

スライド概要

2022/8/5
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP “PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation [DL Papers] (CVPR 2022)” Yoshifumi Seki http://deeplearning.jp/

2.

書誌情報 ● 投稿先 ○ CVPR 2022 ● 投稿者 ○ 後で ● 選定理由 ○ 最近画像認識周りを転職先の仕事も あって勉強し始めていて Panoptic Segmentation周りを今掘っていたとこ ろだった ○

3.

● 深さの推定とPanoptic Segmentationを同時にやることで全体のパフォーマンス向 上を狙う。

4.

フレームワークの全体像

5.

フレームワークは3つのsub-networkからなる ● Kernel Producer ○ ● Panoptic Segmentation ○ ● instance classification, instance-specific mask, depth convolution kernelを生み出すところ Panoptic Segmentationをやるところ Instance-wise depth map generator ○ インスタンスごとの深さ推定をやるところ

6.

Kernel Producer ● PanopticFCNで作られている ○ ● Panoptic SegmentationのSOTA (CVPR2021) Dynamic Convolution Techniqueを採用 ○ 訓練時間もGPUのメモリも他の新しいモデルと比較して少なく抑えられる

7.

● Kernel Weight Map Gとtwo position mapをthingsとstuffそれぞれで出力する ○ ● thingsはinstanceのcenter, stuffはregionにそれぞれ対応する 出力したこの2つをKernel FusionによりマージしてInstance Classification, Mask Kernel, Depth Kernelを生成する ○ ここのfusion方法は具体的な記述がない

8.

Panoptic Segmentation ここもPanopticFCNのまま

9.

PanopticFCN (再掲)

10.

Instance-wise Depth Estimation ● ● Depth Kernelをdepth Embeddingに適用して、 instanceごとのdepth mapを生成 する Panoptic Segmentationを用い てそれぞれのmapを統合する

11.

Depth Map Generator ● ● depth Kernelとdepth Embeddingによってdepth mapを生成 各instance maskにおいて、depthの分布を正規化する ○ ○ ○ ● ● dmaxは今回の実験データセットでは 88にこてい d_r: depth range: N+1次元 d_s: depth shift: N+1次元 ニュアンスとしては、depthのbiasとvarianceを表現している このように生成したDとMを掛け合わせて統合

12.

Depth Loss ● logarithmic errorとRSEの組み合わせ ● Pixel LevelのLossとInstance LevelのLossを組み合わせる

13.

実装上の工夫 ● Adaptive Kernel Fusion (AKS) ○ ● Kernel Fusionのタイミングにおける Average Clusterの改良 Full Scale Fine Tuning (FSFT) ○ ○ ○ 距離が離れたインスタンス同士が融合してしまうことを発見 ■ image cloppingによっておこる 類似の問題が怒っている他の研究では、 original imageで訓練することで対応するが、 GPUメモリ をめちゃめちゃに使ってしまう Fine tuningの時のみFull Imageを使ったfine-tuningを小さなbatch sizeで行うことで、この問題に対 応

14.

評価指標 Panoptic Quality Depth-awareなPanoptic Quality λはしきい値、Pλはλよりerrorが小さいピクセルのみを考慮する λの値を{0.1, 0.25, 0.5}でそれぞれ計算した時の平均を取る

16.

Experience: Panoptic Segmentation

17.

● ● ViP-DeepLabは現在公開されている唯一のDepth-awareなPanoptic Segmentationなモデル 精度は及ばなかったが、Vip-DeepLabは大規模な追加データセット、半教師、 AutoAug, Test-time segmentationというテクニックが採用されている ○ こういうのを採用すれば伸びるのでは?

18.

Monocular Depth Estimation ● ● ● シンプルな単眼画像による深さ 推定では、提案手法が最も良い 結果となった 深さを推定するのにinstan

19.

Ablation Study ● ● ● A vs Bはあまり変化がない C vs Dも同じぐらい、AとBに比べると改善 E vs FではFがよく、Eが悪化している ○ T2が改善していて、 T1が悪化するのは、 ground truthのdepthがnoisyなことに起因すると予想

21.

まとめ ● ● おそらく単眼深度における精度向上が工夫されての採択? 数式が省略されているところが多くて追い辛い ○ ○ ○ ● ● 特にkernelの部分、これで通すのかぁというカルチャーショック 実装は公開されている arxivにappendixとかあるのかな、と思ったけどなかった 精度の改善ポイントとしては局所的なnormalizedが一番効いているのは面白い Boundaryがなめらかになってるでしょ?と言われてもよくわからなかった ○ 画像処理に精通するとわかるようになるのか