109 Views
October 30, 20
スライド概要
2020/10/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
Blind Video Temporal Consistency via Deep Video Prior 岩隈 啓悟 / Keigo Iwakuma 1
タイトル:Blind Video Temporal Consistecy via Deep Video Prior 著者:Chenyang Lei, Yazhou Xing, Qifeng Chen 所属:The Hong Kong University of Science and Technology (HKUST) 書誌情報:NeurIPS 2020 プロジェクト:https://chenyanglei.github.io/DVP/index.html 論文:https://arxiv.org/abs/2010.11838 実装:https://github.com/ChenyangLEI/deep-video-prior (TensorFlow 1) 2
タイトル:Blind Video Temporal Consistecy via Deep Video Prior 目次: 1. 2. 3. 4. 5. 6. 概要 タスク 関連研究 提案手法 実験・結果 まとめ・感想 3
1.概要 動画に対して画像処理を適用する場合、フレームごとに処理を行うことによって動画の持つ時 間方向への一貫性(Temporal Consistency)が失われてしまうことがある 本研究ではCNNが持つDeep Image Priorに着目し、これを時間方向への一貫性を保つため の正則化として利用することで、従来に比べてシンプルな定式化でかつより客観的にも主観的 にも優れた結果が得られた 4
2.タスク
2.タスク Blind Video Temporal Consistency: 動画の各フレームに対して個別に画像処理を行うことで 時間的な一貫性が失われる問題(flickeringなど)をどうにかしたい 背景(モチベーション): スタイル変換や固有画像分解など様々な画像処理が成果を挙げている しかし、それをそのまま動画に拡張すると上記のような問題が生じる また、処理ごとに特有の拡張方法を考えるのは大変で時間もかかる ⇒ 処理内容はブラックボックスとして(=blind)これを解決したい 6
2.タスク Blind Video Temporal Consistency: オリジナルフレーム (一貫性がある) Goal 最終的なフレーム 画像処理 (処理内容を残しつつ 一貫性を持たせる) 処理されたフレーム (一貫性がない) 7
2.タスク Blind Video Temporal Consistency: 入力 オリジナルフレーム (一貫性がある) Goal(出力 ) 最終的なフレーム Blind 画像処理 入力 (処理内容を残しつつ 一貫性を持たせる) 処理されたフレーム (一貫性がない) 8
2.タスク Blind Video Temporal Consistency: 入力 時間的な一貫性を持たせるための損失または正則化 オリジナルフレーム (一貫性がある) Goal(出力 ) 最終的なフレーム Blind 画像処理 入力 (処理内容を残しつつ 一貫性を持たせる) 処理されたフレーム (一貫性がない) 処理内容を保つための損失または正則化 9
3.関連研究
3.関連研究1 Blind Video Temporal Consistency (SIGGRAPH 2015, Bonneel et al.) 最終的なフレームを求めるパラメータとした、 Scene Dynamics(処理内容)と Temporal Consistency(一貫 性)の2つのエネルギーの同時最適化問題をオイラー・ラグランジュ方程式を利用して解く 最初のフレームはレファレンスとして、2番目の出力から順に解いていく(結果を伝播させる) 11
3.関連研究1 Blind Video Temporal Consistency (SIGGRAPH 2015, Bonneel et al.) 最終的なフレームを求めるパラメータとした、 Scene Dynamics(処理内容)と Temporal Consistency(一貫 性)の2つのエネルギーの同時最適化問題をオイラー・ラグランジュ方程式を利用して解く 勾配(エッジ)情報を近づけることで処理内 容を保持させる ワープにはオリジナルのoptical flow or PatchMatchの情 報を利用し、連続するフレームの一貫性を持たせる そもそもオリジナルのワープが上手くいかない場合はその重 みを小さくする(※V = I) 最初のフレームはレファレンスとして、2番目の出力から順に解いていく(結果を伝播させる) 12
3.関連研究1 Blind Video Temporal Consistency (SIGGRAPH 2015, Bonneel et al.) 最終的なフレームを求めるパラメータとした、 Scene Dynamics(処理内容)と Temporal Consistency(一貫 性)の2つのエネルギーの同時最適化問題をオイラー・ラグランジュ方程式を利用して解く 勾配(エッジ)情報を近づけることで処理内 容を保持させる ワープにはオリジナルのoptical flow or PatchMatchの情 報を利用し、連続するフレームの一貫性を持たせる 短所: ● 勾配情報だけでは複雑な処理内容を保持させることが難しい(例:画風のスタイル変換) ● 結果を伝播させる過程で誤差が積もるため徐々に処理内容が薄れていく 13
3.関連研究2 Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.) 処理内容と一貫性に関する損失を用いて直接最終的なフレームを出力するモデルを作る 14
3.関連研究2 Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.) テスト時はRNNを用いて逐次的に4枚の入力から最終的なフレーム(の残差)を出力する 前の論文と異なり最適化に長期的な一貫性も考慮した損失を用意 RNNを利用することでどんな長さの動画でも構造的に時系列情報を扱える 15
3.関連研究2 Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.) モデルは以下のような、 skip connectionとResBlockとConv LSTMを利用したFullConvNet オリジナルと最終的なフレームは見た目が大きく異なる場合があるため skip connectionは設けない 出力フレームは隣同士ほとんど同じなので細かい差異に注意が向くように残差を出力させている 16
3.関連研究2 Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.) 一貫性に関する損失は、前の出力フレームをワープさせたものとの L1損失を使用 オリジナルフレームのoptical flow: 短期的な一貫性の損失: 長期的な一貫性の損失: (最大で10フレーム間) visibility mask: (オリジナルフレームのワープがずれている部分は小さくなる) T:総フレーム数、N:総ピクセル数 オリジナルフレームのoptical flow を利用して、 前の出力フレームをワープさせたもの 17
3.関連研究2 Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.) 処理内容に関する損失は、処理されたフレームとの特徴マップでの L1損失を使用 処理内容の損失: Content Perceptual Loss VGG19の l 層目の特徴マップ(’relu4-3’を使用) 最終的な損失: T:総フレーム数、N:総ピクセル数 18
3.関連研究2 Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.) 短所: ● 訓練データを準備する必要がある ● 逐次的に最終的なフレームを求める以上、誤差が積もりやすく処理内容が薄れやすい 長所: ● 推論時の動作は速い( 418FPS on Nvidia Titan X with a resolution of 1280x720) ● シングルモデルで学習時になかった画像処理パターンにも対応可能 19
3.関連研究3 Deep Image Prior (CVPR 2018, Ulyanov) CNNの構造自体が低次元な統計量から学習しやすいという特性を利用して、 画像のノイズ除去、補完、超解像など様々なタスクを行えることを実験的に示した論文 何らかの値で固定した画像 (Input) JPEG圧縮で劣化した画像 (Target) CNN 損失最小化 Inputを通したときの出力とTargetとの損失(MSEなど)が小さくなるように、ランダムに初期化したCNNのパラメータを学習していくと 劣化部分のような局所的な部分より大域的な部分を先に復元していくのがわかる、 CNNが持つこの正則化効果をDeep Image Priorとしている 20
4.提案手法
4.提案手法 Blind Video Temporal Consistency via Deep Video Prior ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ1で入力し、出力が処理されたフ レームに近づくようにパラメータを学習していけば、 flickeringのような入力によってばらつく部分より入力に共 通する部分(時間方向に一貫している部分)が先に学習され、処理内容を保ちつつ一貫性を持ったフレーム が手に入るのではないかという提案 以下の最適化でCNNのパラメータを学習し、特定のepochs(25−50程度)で学習をとめる そのときのCNN出力を最終的なフレームとして使用する 初期化した CNN 画像処理 処理内容の損失のみ、明示的に一貫性については設けない CNNを使うことで暗黙的に課される正則化のことを 論文ではDeep Video Priorと呼んでいる 22
4.提案手法 Blind Video Temporal Consistency via Deep Video Prior ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ1で入力し、出力が処理されたフ レームに近づくようにパラメータを学習していけば、 flickeringのような入力によってばらつく部分より入力に共 通する部分(時間方向に一貫している部分)が先に学習され、処理内容を保ちつつ一貫性を持ったフレーム が手に入るのではないかという提案 ※ 著者らの動機に対する自分の解釈としては 初期化した CNN 画像処理 ・学習初期のCNNは似た入力に対して同じような出力をする(経験則) (最終的には似た入力に対してもその差異を復元できるようになる) ⇒ 似た入力に対しては共通部分から徐々に差異を学習していきそう( Deep Image Prior) ・動画は基本的には連続していて時間方向に一貫性があり各フレームが似ている ⇒ 一連の動画フレームに対しては上記の経験則が当てはまりそう ということかなと思っています 23
4.提案手法 Blind Video Temporal Consistency via Deep Video Prior ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ1で入力し、出力が処理されたフ レームに近づくようにパラメータを学習させていけば、 flickeringのような入力によってばらつく部分より入力に 共通する部分(時間方向に一貫している部分)が先に学習できて処理内容を保ちつつ一貫性を持ったフレー ムが手に入るのではないかという提案 従来手法 処理内容 一貫性 前のフレームの結果に依存する ⇒長期の一貫性を保つのが難しい 24
4.提案手法 Blind Video Temporal Consistency via Deep Video Prior ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ1で入力し、出力が処理されたフ レームに近づくようにパラメータを学習させていけば、 flickeringのような入力によってばらつく部分より入力に 共通する部分(時間方向に一貫している部分)が先に学習できて処理内容を保ちつつ一貫性を持ったフレー ムが手に入るのではないかという提案 提案手法 処理内容 一貫性 Deep Video Priorによる 暗黙的な一貫性に関する正則化 ⇒前フレームの結果に依存しない 25
4.提案手法 2種類のTemporal Inconsistencyについて ● Unimodal inconsistency:flickeringのような単一モードの中で生じる比較的小さな不安定さ ● Multimodal inconsistency:colorizationタスク(gray=>rgb)で対象の色がフレームごとに変わってしまう ようなタスクの不良設定によって生じる比較的大きな不安定さ 26
4.提案手法 2種類のTemporal Inconsistencyに対するDeep Video Prior トイ実験:ある連続する画像にノイズを加えて 2種類のTemporal Inconsistencyを用意する ⇒ Multimodal incosistencyに関しては適切な処理内容を保てないまま一貫性も失ってしまう Unimodal Inconsistency Multimodal Inconsistency ⇒ 上手く行く! ⇒ 上手くいかない Iteratively Reweighted Trainingの提案 Multimodal Inconsistency ⇒ 上手く行く! 27
4.提案手法 Multimodal Inconsistencyに対するIteratively Reweighted Training 1つのメインモードを選んでくるような confidence mapと、そのメインモードとその他のモードに対応する 2枚の 画像を出力するモデルを設計し、以下の最適化問題でパラメータを学習するように変更する Confidence map: 出力のメインモード 出力のその他のモード 単一モードしか持たない対象に対しては閾値によって 処理されたフレームと出力のメインモードが近づくようにする 最適化問題: confidence mapの値によってそれぞれのモードと近い部分がより近づくようになる (メインモードはいずれかのモードに近づく、実際は最初に渡す学習フレームがメインモードとなる) 28
5.実験・結果
5.実験・結果 実験の設定: Architecture: U-Net Loss: Perceptual Loss IRT distance: L1 Dataset: DAIVS, the test set collected by Bonneel et al. Optimizer: Adam, lr=0.0001 for all task Epochs: 25 (Dehazing, spatial white balancing, and image enhancement) or 50 (Intrinsic decomposition, colorization, style transfer, and CycleGAN) Batchsize: 1 30
5.実験・結果 Multimodal タスク: Multimodal 31
5.実験・結果 評価指標: 1.Temporal Inconsistency … 最終的なフレームをoptical flowでワープしたときのL1誤差 ※Occlusion判定された部分は評価から外す、各フレームは最初と隣合うフレームのペアで評価が行われる 2.Performance degradation (data fidelity) … 処理されたフレームと最終的なフレームの平均PSNR 比較手法: 関連手法1(表記 [3])、 関連手法2(表記 [19]) 32
5.実験・結果 定量評価: 関連手法1では一貫性はあるが処理内容が劣化している一方、関連手法2では処理内容を保てているが 一貫性で低い評価となった 提案手法はいずれの評価でも良い結果となっている 33
5.実験・結果 定性評価: 左の図はMultimodal Inconsistencyが生じる場合の結果である、提案手法が処理内容、一貫性ともに最 も維持できていることが分かる 右のグラフは別タスクでのフレームごとの輝度平均であり、提案手法が安定していることが分かる 34
5.実験・結果 主観評価(User Study): 20人の被験者に時間方向への一貫性と処理内容の類似度の両方で最も優れたものを選んでもらった結 果が以下である(計 107動画を使用) ほとんどのタスクで提案手法が最も良く評価されており、特に Multimodal Inconsistencyが生じる場合で圧 倒的な結果となった 35
5.実験・結果 Ablation Study: 1. IRTの有無による最終的なフレームの比較である、定量評価である PSNRではIRTを使わない手法 が上回ったが、見た目は明らかに IRTを使った方が良い 2. 異なるCNN Architectureを用いた最終的なフレームの比較である、それぞれで細かい差はあるが、 どれも安定した結果が得られた 36
5.実験・結果 学習を止めるタイミング: 動画の長さやモーションの大きさによってまちまちだが基本的には 25か50epochsでよい 以下のようにTemporal inconsistencyがしばらく変動しないタイミングがあるため、タスクによって validation dataを用意しそのようなタイミングを選べばいい ただし、flickeringなどを再現するにはそれより遥かに多い回数学習を行う必要があるのであまり慎重にな る必要もない 37
6.まとめ・感想 まとめ ● ● 動画フレームを個々に画像処理することで時間方向の一貫性が失われてしまう問題に対して CNN の持つ特性を活かすことで暗黙的に正則化を行うことができ、従来では難しかったケースに対しても シンプルな方法で優れた結果を示せた 学習データが必要ない一方で、テスト時に学習を行う必要があり実用上のボトルネックとなっている 感想 ● ● ● ● シンプルなアイデアで従来より大幅な改善が出来ている印象ですごかった 一方で、正解となるデータがなくタスクに対する良い評価指標がないのが難しいと感じた 今の所見え方に関しての一貫性を重視している印象だが、後段のタスクのための画像処理などに 対してその用途での一貫性が保てるようになると応用が広そうだなと思った。 multi-camera consistencyに対する効果もこれから検討したいとのことだったのですが、そういった 動向にも期待したい 38