341 Views
November 24, 21
スライド概要
2021/11/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Unpaired Image Super-Resolution Using Pseudo-Supervision Presenter: Yuki Kondo https://yuki-11.github.io/ 2021. 11. 19 (Toyota Technological Institute, Intelligent Information Media Lab) http://deeplearning.jp/ Yuki Kondo @ TTI-J 1
Section 1.論⽂情報・概要 2.導⼊・先⾏研究 3.提案⼿法 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 2
Section 1.論⽂情報・概要 2.導⼊・先⾏研究 3.提案⼿法 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 3
論⽂情報 • 論⽂名 Unpaired Image Super-Resolution Using Pseudo-Supervision(CVPR2020) • 著者 Shunta Maeda (Navier Inc.) • URL 論⽂※︓ https://openaccess.thecvf.com/content_CVPR_2020/html/Maed a_Unpaired_Image_Super-Resolution_Using_PseudoSupervision_CVPR_2020_paper.html コード︓公式コードは⾮公開 (⾮公式コード︓https://github.com/yoon28/pseudo-sr ) ※出典が明記されていない図表は当論⽂より引⽤ Yuki Kondo @ TTI-J 4
論⽂概要 [ タスク ] • Unpaired Super-Resolution(SR)︓ 低解像(LR)画像と⾼解像(HR)画像がアンペアなデータセットを⽤いたSR ⇒ モデル化が困難な多様な劣化要因を持つ現実世界のLR画像に対応したSRを実現 Paired dataset Bicubic等の ダウンスケーリング 疑似LR (リアル)HR Yuki Kondo @ TTI-J リアルLR ドメイン ギャップ Unpaired dataset 5
論⽂概要 [ 提案⼿法 ] • GANを⽤いた2つのネットワークから成るUnpaired SR法を提案 • 補正ネットワーク︓Real LR ⇒ Clean LRへ変換 • SRネットワーク︓Clean LR ⇒ HR へ超解像 ・・ [ 結果 ] • 多様なデータセットを⽤いた実験により,従来⼿法よりも 優れた結果を獲得 ・⾃然画像を模擬した合成劣化画像データセット 2種 ・実世界の顔画像データセット ・実世界の航空写真データセット Yuki Kondo @ TTI-J 6
論⽂概要 [ 補⾜情報 ] • 提案⼿法がシャープの最新スマホ 「AQUOS R6」に搭載. ⇒ 論⽂投稿から約1年半で実⽤化 (スピード感がすごい) [1] (@shunk031さんより掲載了承済み) [1] @shunk031. https://twitter.com/shunk031/status/1422116148691099649?s=20. (最終参照⽇ 2021/11/18) [2] PRETIMES. “シャープの最新スマホ「AQUOS R6」に画像処理のAIスタートアップNavierのAI技術が搭載”. https://prtimes.jp/main/html/rd/p/000000004.000060134.html. (最終参照⽇ 2021/11/18) Yuki Kondo @ TTI-J [2] 7
Section 1.論⽂情報・概要 2.導⼊・先⾏研究 3.提案⼿法 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 8
Super Resolution (SR) • LR画像をHR化する技術 • 不良設定問題 (1つのLRに対し,複数のHRが存在する) • ⼀般的な(paired) SRの学習法: • ⾃⼰教師あり学習 (ダウンスケーリングで学習ペア獲得) ダウン スケーリング 超解像 [1 ] LR画像(ILR) HR画像(IHR) SR画像(ISR) ダウンスケーリングが現実的ではない [1] Set5: Marco Bevilacqua et al. in Low-Complexity Single-Image Super-Resolution based on Nonnegative Neighbor Embedding Yuki Kondo @ TTI-J 9
現実に則したSRへのアプローチ • 特殊なハードウェア + 補正プロセス • 実世界のLR, HRペアを撮影から⽣成可能 • デバイスが特殊で実⽤が難しい(拡張しづらい) • Blind SR (過去の輪読会で紹介した論⽂︓KOALAnet) • 劣化がブラインドされたLRから,劣化要因を 推定し,SRを⾏う • 主にブラーに焦点を当てており,複合的な 劣化を扱った⼿法がほとんどない J. Cai + ICCV2019 S. Bell-Kligler + NeurIPS 2019 • Unpaired SR • UnpairedなLRとHRを⽤いて,SRを⾏う • LRドメインが持つ任意の劣化への対応に焦点を当てている Yuki Kondo @ TTI-J 10
直接法 [Y. Yuan+ CVPR(WS)2018 ] • HR⽣成器︓ソースLR画像からターゲットHRとだますよう, アップスケーリングされたHRを⽣成 • HR識別機︓アップスケーリングされたHRとターゲットHRを識別 [ 問題 ] ⽣成器に対し,歪み抑制・知覚的品質担保に重要なHR再構成の損失が取れない Yuki Kondo @ TTI-J 11
間接法 [A. Bulat+ ECCV2018, A. Lugmayr+ arXiv2019] • LR⽣成器︓ソースHR画像からターゲットLRとだますよう, ダウンスケールされたLRを⽣成 • LR識別機︓ダウンスケールされたLRとターゲットLRを識別 [ 問題 ] ⽣成されるLR分布と真のLR分布にギャップが⽣じる ⇒ テスト時の性能低下 Yuki Kondo @ TTI-J 12
Section 1.論⽂情報・概要 2.導⼊・先⾏研究 3.提案⼿法 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 13
アーキテクチャ概要 • Unpaierd 補正ネットワークとPaierd SRネットワークに分離 • 直接法と間接法の⽋点を同時に克服 Yuki Kondo @ TTI-J 14
Unpaierd 補正ネットワーク- LRドメイン適応 • CycleGAN[J. Y. Zhu+ ICCV2017]ベースのモデルを利⽤ • Real LRドメインをClean LRドメインにサイクル機構によって,適応させる Yuki Kondo @ TTI-J 15
LRドメイン適応 (Loss) • 複数のlossの制約から, ドメイン間のマッピングを学習 Real LR Clean LR 𝐺!"↓ の loss︓ : Adversarial loss [3] (𝐷!↓ も最適化) : Identity mapping loss [4] : ⾊のばらつきを抑制 : Cycle consistency loss [4] : この論⽂では⽚側サイクルの みに制約をかけることで,1対多のマッピングを許容. ⇒ 多様な劣化への対応を𝑮𝑿𝒀↓ に学習させる. : Geometric ensemble loss [5] : ⼊⼒画像へのフリップや 回転に対して,幾何学的整合性を担保させるloss. 𝑇% ,𝑇%&'はそれぞれ画像へ与える変換と逆変換. 𝐺"↓! の loss︓ : Adversarial loss (𝐷( も最適化) [3] I. J. Goodfellow +. NeurIPS2014. [4] J. Y. Zhu +. ICCV2017. [5] H. Fu +. CVPR2019. Yuki Kondo @ TTI-J Cycle consistency loss : 16
LRドメイン適応 (モデル) • PatchGAN [1, 2]で局所的構造を担保. • Real LR→Clean LRは⾮常に深いSRネットワークのRCANを利⽤(Upscale省略). : PatchGAN [6, 7] 5 conv layers , Batch norm Conv5 Conv1 ・・・ LeakeyReLU Clean LR LeakeyReLU Real LR , • • • • 5×5ConvのResBlock 1×1 Conv Batch norm LeakyReLU から構成. RGB画像と歪みを模擬した1chランダム ノイズの特徴を抽出し,Real LRを⽣成. : RCAN [8]ベース(RCAB: 10個,RG: 5個, Upscale省略) [6] C. Isola +. CVPR2017. [7] C. Li +. ECCV2016. [8] Y. Zhang +. ECCV2018. Yuki Kondo @ TTI-J 17
Paierd SRネットワーク • 疑似clean-LRを𝑈!↓! でアップスケーリング • HR画像をペアとして再構成するように学習 Yuki Kondo @ TTI-J 18
Paierd SRネットワーク ( Loss ・ モデル ) • ペアで学習させるため,ピクセル単位の任意のlossを利⽤可能 • 既存のPaird SRモデルの転移利⽤可(ネットワークを分離しているため) 𝑈"↓" の loss︓ : L1 loss * 𝐷!↑ の学習時は敵対的 学習と共同で更新(後述). Perceptual loss, texture loss 等の ピクセル単位のlossに代替可能 : RCAN ベース(RCAB: 20個,RG: 5個) Yuki Kondo @ TTI-J 19
Unpaierd 補正ネットワーク- HR識別器による補正 • 直接法のように,HR画像空間からドメインギャップを解消 (再構成誤差は取れる) • 𝑈!↓! は𝐷#↑ によって,局所特徴が改善される. Yuki Kondo @ TTI-J 20
HR識別器による補正 (Loss・モデル) • 𝐷#↑ を⽤いた敵対的学習により, • ドメインギャップのさらなる解消 • SRの⾼周波成分の保証 を実現. 𝐷!↑ の loss︓ : Adversarial loss: ・𝐺(!↓ , 𝐺!↓( , 𝑈!↓! の3つの⽣成器が更新される (𝐺!#↓ , 𝐺#↓! ︓ドメイン適応の保証 , 𝑈#↓# ︓⾼周波成分の保証) : PatchGAN Batch norm LeakeyReLU Conv5 LeakeyReLU Conv1 Yuki Kondo @ TTI-J ・・・ 5 conv layers ・拡⼤倍率ごとのConvについて ・x2のとき,conv1のストライドは2 ・x2のとき,conv1, 2のストライドは2 21
Section 1.論⽂情報・概要 2.導⼊・先⾏研究 3.提案⼿法 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 22
実験条件 [ データセット ] データセット DIV2K realistic-wild set (Track 4) 特徴 DIV2Kにモーションブラーやピ クセルシフト,ノイズを付与 ⇒ ⾃然なLRを模擬 Test 拡⼤倍率 LR/HR画像 100枚 4 Train LR画像 3200枚 HR画像 800枚 複数の顔画像データセットから LR画像 5万枚以上 LR画像 HR画像とLR画像をサンプリング HR画像 182,866枚 3,000枚 4* 実世界HR/LR航空写真 データセット 撮影⾼度の異なる2つの航空写真 LR画像 3200枚 データセットからHR画像とLR画 HR画像 800枚 像をサンプリング LR画像 数枚︖ 2 AIM 2019 Real-World Super-Resolution Challenge dataset (Track 2) Flickr2K, DIV2Kにあらかじめ 定義された⾮公開の劣化を付与, LR画像 2650枚 HR画像 800枚 unpairedなSource LRとTarget (Flickr2Kより⽣成) HRを提供. LR/HR画像 100枚 4 実世界HR/LR顔画像 データセット (定性評価のみ) (DIV2Kより⽣成) *︓画像サイズが⼩さすぎる(16x16)ため,Bicubicで2倍拡⼤させた画像をLRとして,さらに2倍に提案⼿法で拡⼤. Yuki Kondo @ TTI-J 23
DIV2K realistic-wild set ︓既存ブラインドSRとの⽐較 [ 定量評価 ] ・最先端のブラインドSRの組み合わせと検証し,SOTAを達成 ・注︓⽐較モデルは本データセットで学習をさせていないため,公平な実験ではない. ※ ※ Yuki Kondo @ TTI-J 24
DIV2K realistic-wild set ︓既存ブラインドSRとの⽐較 [ 定性評価 ] ・定性的にも最も鮮明なSRを出⼒していることを確認 【提案⼿法のLR ドメイン変換の結果】 真のリアルLRと偽の ・注︓⽐較モデルは本データセットで学習をさせていないため, リアルLRの劣化を 公平な実験ではない. うまく除去 Yuki Kondo @ TTI-J 25
DIV2K realistic-wild set ︓NTIRE2018ベースラインとの⽐較 [ 定量評価 ] ・同様の条件で学習・テストを⾏ったNTIRE2018のベースラインと⽐較. ・ただし,NTIRE2018ではpairedで学習されている(提案⼿法はunpairedで学習) ・PSNRは劣るものの,より知覚的品質を評価できるSSIMでは,SOTAに匹敵. ※ IKC last : 最終反復回数7回⽬の結果, IKC max : 反復中に最もPSNRが⾼くなった時のスコア Yuki Kondo @ TTI-J 26
DIV2K realistic-wild set ︓その他の実験 [ Ablation study ] [ Perception-oriented training ] ・提案⼿法の有効性を⽰す ・Paired SRネットワークの𝐿%&' を ・特に” Ours - trained on 𝐺"↓! ”との差から, 知覚指向のloss [9]に変更.知覚品質が向上 Real LR ⇒ clean LRへの変換の有効性は (⽑の質感がリアルになっている) ⾼い. [9] X. Wang +. ECCV workshop 2017. Yuki Kondo @ TTI-J 27
実世界HR/LR顔画像データセット︓SOTA⼿法との⽐較 [ 定量評価 ] ・Unpaired SRやPaired SR,face SR,デブラー⼿法と⽐較. ・GT画像がないため,FID(Frechet inception distance)で 真の分布と⽣成分布の距離を評価(⼩さいほど良い). ・提案⼿法はFIDでSOTAを達成. [ 定性評価 ] ・論⽂では具体的な⾔及なし. ・若⼲提案⼿法の⽅がリアルっぽい︖ ・⼈によって,意⾒が分かれそう. Yuki Kondo @ TTI-J 28
実世界HR/LR顔画像データセット︓ノイズの多様性 ・Cycle consistency lossの⽚側サイクル整合性の制約により,𝐺_(𝑌↓𝑋)の マッピングを1対多としたことで,様々なノイズを持つリアルLRを⽣成. Yuki Kondo @ TTI-J 29
実世界HR/LR航空写真データセット︓定性評価 [ 最新の既存⼿法との⽐較 ] [ Geometric ensemble lossの効果 ] ・ブラインドデノイズ⼿法のRL-restoreは, ・ Geometric ensemble loss アーティファクトを除去できたが, ディティールまで除去された. ・提案⼿法はディテールをさらに鮮鋭化させながら, アーティファクトの除去に成功. のablation studyを実施. ・ により幾何学的整合性を確保 ⇒ ⼊⼒LR画像の幾何学的構造を保持した より合理的なマッピングに成功. Yuki Kondo @ TTI-J 30
AIM 2019 Real-World Super-Resolution Challenge dataset︓定量・定性評価 [ 定量評価 ] [ 定性評価 ] ・PSNR, SSIM, そして知覚的品質評価指標 ・ZSSRと⽐較し,劣化を除去し,鮮明なSRを であるLPIPSの全評価指標において, 実現. SOTAを達成. Yuki Kondo @ TTI-J 31
Section 1.論⽂情報・概要 2.導⼊・先⾏研究 3.提案⼿法 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 32
結論・後続研究 [ 結論 ] ・HRとLRのペアが利⽤できないunpairedなSRにおいて,疑似的なclean LRを利⽤する⼿法を提案. ⇒ ・ペアを⽤いることを前提に発展したSR⼿法の活⽤ ・ペアがない現実世界のSRの課題 ギャップを解消 ・多様なデータセットを⽤いた検証で,有効性を確認 ・ただし,ケースごとにハイパーパラメータチューニングが必要. ⇒ 今後,ネットワークのハイパーパラメータに対するロバスト性の向上が必要. [ 後続の研究 ] † W. Wang et al. “Unsupervised Real-World SuperResolution: A Domain Adaptation Perspective”. ICCV2021 疑似LRを⽤いつつ,Source LRとtarget LRを画像空間ではなく, 特徴量空間上でドメイン適応させる⼿法を提案. Yuki Kondo @ TTI-J † 33