【DL輪読会】FreeU: Free Lunch in Diffusion U-Net

4.5K Views

October 13, 23

#Deep Learning #DL Papers #FreeU #Diffusion U-Net #Tsukuba University

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] FreeU: Free Lunch in Diffusion U-Net Yuki SATO, University of Tsukuba http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 FreeU: Free Lunch in Diffusion U-Net Chenyang Si, Ziqi Huang, Yuming Jiang, Ziwei Liu S-Lab, Nanyang Technological University • 投稿先: arXiv • プロジェクトページ: https://chenyangsi.top/FreeU/ • 選定理由 – 学習済みU-Netに対する重みづけのみで生成品質向上を可能としており、解析方法含め Diffusion ModelだけでなくU-Netを用いたアルゴリズムに広く応用できる可能性があると考えたため ※出典が明記されていない限り限り本資料の図表は論文から引用する 2

https://chenyangsi.top/FreeU/

概要 • 著者らは拡散モデルにおけるノイズ除去において、U-Netのbackboneが主にノイズ除去を行い、 skip-connectionが高周波の特徴を保存しており、画像内の高周波成分を軽減することで生成画像の品質が向上することを実験より明らかにした。 • 推論時、U-Netのbackboneとskip-connectionの特徴量に適切な重みを付けるのみで生成画像の品質向上を達成した。 3

DDPM • DDPM[1]ではサンプリングデータに対して𝑇回ガウスノイズを付与してノイズを生成し (拡散過程)、生成されたノイズをニューラルネットを用いて𝑇回ノイズ除去することで元のデータを復元する (逆拡散過程)。 • ノイズ除去のニューラルネットにはU-Net[2]が使用される。U-NetはEncoderの各層での出力を対応するDecoder層に与え、backboneの特徴量と結合して入力とするモデルである。 [2]より引用 [1]より引用 1. 2. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851. Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18. Springer International Publishing, 2015. 4

逆拡散過程におけるU-Netの挙動 • ノイズ除去の過程におけるU-Netの出力から低周波・高周波成分を可視化・分析した。 • その結果、低周波成分は滑らかに変化しているのに対し高周波成分は同じstep間でも比較的大きく変化しており以下のような仮説を提唱した。 – 画像の大域的な構造や特徴(レイアウト,色合い)を表す低周波成分は画像全体の構成を担うため急激な変化は品質低下につながる。 – 画像の細かい情報(エッジ,テクスチャ)を表す高周波成分はノイズに敏感であり、一部のノイズも高周波成分として現れるため急激に変化する。 5

逆拡散過程におけるU-Netの挙動 • U-Net内部での挙動を調査するためbackboneとskip-connectionの特徴量にそれぞれ異なる重みを付与し生成画像の変化を調べた。 • backboneに対しては定数倍、skip-connectionの特徴量に対してはフーリエ変換後の周波数空間で定数倍する。 6

逆拡散過程におけるU-Netの挙動 • backboneに対する重み𝑏の変化は生成画像の品質に大きく影響している一方、skip-connectionに対する重み𝑠は目に見える変化を引き起こさないことが分かった。 • 解析結果より著者らは以下のように考察した。 – 生成画像の周波数特性の解析より𝑏を大きくすることで画像の高周波成分の抑制につながり、これがノイズ除去効果を強め生成画像の品質向上につながったと考えられる。 – 一方、重み𝑠の変化が生成画像に与える影響は限定的であり、解析よりskip-connectionの特徴量は高周波成分を多く含んでおりノイズ除去効果を低下させる可能性も考えられる。 7

FreeU • 実験より著者らはbackboneの特徴量とskip-connectionの特徴量への重みづけを行う手法を提案した。 backboneの重みづけにより生成画像の品質を向上させ、skip-connectionへの重みづけで過度な平滑化を抑制した。 • U-Netの𝑙番目のブロックにおけるbackboneからの特徴量を𝑥𝑙 , 𝑥𝑙 のチャンネル数を𝐶, 重みを𝑏𝑙 とすると重みづけした特徴量𝑥𝑙′ は以下のように表せる。 𝑏𝑙 ∗ 𝑥𝑙,𝑖 if 𝑖 < 𝐶/2, ′ 𝑥𝑙,𝑖 = ൝ 𝑥𝑙,𝑖 otherwise • backboneへの重みづけは全てのチャンネルで行うと強い平滑化がかかるため半分のチャンネル数に抑えている。 • U-Netの𝑙番目のブロックにおけるskip-connectionの特徴量をℎ𝑙 , 重みを𝑠𝑙 とすると重みづけした特徴量ℎ′𝑙 は以下のように表せる。 𝑠𝑙 if 𝑟 < 𝑟𝑡ℎ𝑟𝑒𝑠ℎ, 1 otherwise • 𝛼𝑙,𝑖 はマスクであり、 𝑟𝑡ℎ𝑟𝑒𝑠ℎは閾値である。この処理により低周波成分にのみ重みづけを行っている。 • GitHubを見ている限り1 ≤ 𝑏 ≤ 1.6, 𝑠 ≤ 1で実装されている。 8 ℎ′𝑙,𝑖 = IFFT FFT ℎ𝑙,𝑖 ⊙ 𝛼𝑙,𝑖 , 𝛼𝑙,𝑖 𝑟 = ቊ

実験設定 • 実験タスクごとに学習済みDiffusion Modelを用意し比較した。 3. 4. 5. 6. 7. Diffusion Model タスク評価方法 Stable Diffusion[3] Text-to-image 35人に、画像品質とtextとの整合性を評価。 ModelScope[4] Text-to-video 人によって、動画品質とtextとの整合性を評価。 DreamBooth[5] 入力画像を反映させた画像を事後学習により生成 - ReVersion[6] 画像内の物体間の関係を事後学習し画像を生成 - Rerender[7] Zero-shot text guided video-to-video translation - Robin Rombach, et al. High-resolution image syn- ¨ thesis with latent diffusion models. In CVPR, 2022. Zhengxiong Luoet al. VideoFusion: Decomposed diffusion models for high-quality video generation. In CVPR, 2023. Nataniel Ruiz, et al. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In CVPR, 2023. Ziqi Huang, et al. ReVersion: Diffusion-based relation inversion from images. arXiv preprint arXiv:2303.13495, 2023. Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. Rerender a video: Zero-shot text-guided video-to-video translation. arXiv preprint arXiv:2306.07954, 2023. 9

10.

実験結果 • Stable Diffusionを用いた実験結果より、多くの画像でtextに忠実な画像をアーチファクトを小さくして生成できており、生成画像の品質向上に寄与していた。 • また、人による評価において、画像品質、textへの忠実性の両方でStable Diffusion単体を上回った。 10

11.

実験結果 • ModelScopeを用いた実験結果より、ModelScopeの出力をよりtextに忠実にしアーチファクトを軽減したframeを生成できている。 • また、人による評価において動画品質、textへの忠実性の両方でModelScope単体を上回った。 11

12.

実験結果 • DreamBoothを用いた実験結果より、FreeUを加えることで画像内の不自然な描写が改善され自然な画像を生成可能であった。 • ReVersionを用いた実験結果より、アーチファクトを軽減した自然な画像を生成可能であった。 • Rerenderを用いた実験でも同様にアーチファクトを軽減できており自然なframeを生成できていた。 12

13.

Ablation study • FreeUの効果の検証: Stable Diffusionを用いてFreeUの有無で周波数成分と特徴マップの変化を検証した。結果よりFreeUにより高周波成分を抑制できており、可視化された特徴マップにおいても鮮明に物体の構造が含まれていた。 • FreeUにおける各重みの効果の検証: Stable Diffusionを用いて検証した結果より、backboneへの重みづけによりtextに沿った自然な画像を生成する一方でテクスチャの過度な平滑化がみられる。これに対してskip-connectionへの重みづけにより低周波成分を削減することでより自然な画像が得れられた。 13

14.

まとめ • FreeUは推論時にU-Netの特徴量に重みづけするシンプルな手法であり、計算コストを増やすことなく効果的に生成画像の品質を向上させることができた。 • 本研究の実験より、Diffusion ModelにおけるU-Netはbackboneの特徴量がノイズ除去に寄与しskipconnectionの特徴量が高周波特徴量をDecoderに伝達する役割を担っており、学習の過程でbackbone の情報が失われていることが分かった。 • FreeUはシンプルな手法であるため様々なDiffusion Modelとその下流タスクで使用可能であり、生成データの品質を向上させる汎用的な手法である。 14

15.

感想 • 学習済みモデルに対する手法であるため応用が容易。 – Hugging faceでの実装も公開されており既に多くの生成モデルで使用されている。 • FreeUの実験結果よりskip-connectionが生成画像に与える影響が小さく有効に利用できるように学習できないか。 – 学習可能パラメータを設定してその値をskip-connectionにかけるなど。 • この研究ではDiffusion Modelを対象にしているがU-Netを用いる多くの研究で同様の解析・実験が可能であると考えられる。 – 医療分野における深層学習の研究の多くはU-Netを使用しており、セグメンテーション等で同様の解析を行いどのような結果となるか。 15