5.9K Views
October 25, 23
スライド概要
Data Augmentation with Diffusion Models Overview - Diffusion Modelを使ったデータ拡張手法 Motivation - 少数データから識別器を学習させたい - 大規模Diffusion Modelの生成画像は転移学習に利用できる ? 1
Data Augmentation with Diffusion Models Is synthetic data from generative models ready for image recognition? R. He, S. Sun, X. Yu, C. Xue, W. Zhang, P. Torr, S. Bai, X. QI [ICLR’23] AN IMAGE IS WORTH ONE WORD: PERSONALIZING TEXT-TO-IMAGE GENERATION USING TEXTUAL INVERSION R. Gal, Y. Alaluf, Y. Atzmon, O. patashnik, A. H. Bermano, G. Chechik, D. Cohen-Or [ICLR’23] Effective Data Augmentation With Diffusion Models B. Trabucco, K. Doherty, M. Gurinas, R. Salakhutdinov [arxiv’23] 2
Is synthetic data from generative models ready for image recognition? R. He, S. Sun, X. Yu, C. Xue, W. Zhang, P. Torr, S. Bai, X. QI [ICLR’23] Motivation - 識別タスクにおけるzero-shot, few-shotの実験設定を Diffusion Modelの生成画像で補填したい Novelty - 従来のGANを使った手法は小規模で限定的であったが, - text-to-imageの生成によって様々な識別タスクへの応用が可能 3
Method: text-to-imageの生成によるデータ拡張手法 Basic strategy (B) - ラベルをプロンプトとする (例 Language Enhancement (LE) - ラベルからプロンプトをword-to-sentenceモデルで生成 -> 生成の多様性を確保 (例 CLIP Filter strategy (CF) - CLIPのconfidenceスコアが低い生成画像を取り除く 4
生成したデータをどのように使う? -> CLIPのチューニング Method: Classifier Tuning [Wortsman+, 2022] - k-クラス分類の問題で - プロンプトを生成し - CLIPのtext-encoderに入力 - 識別器の重み - 固定のimage-encoderと合わせて 識別器 を構築する を得る 5
Experience (zero-shot) Setup - 17のデータセットで実験 - 1クラスにつき2000枚の画像を生成 - 1クラスにつき200個のプロンプトを生成 (LE) - ablationで最も良かったLE + CF + (SCE)を採用 Model - GLIDE (Diffusion Model), CLIP-RN50, CLIP-ViT-B/16 6
Result (zero-shot) 7
AN IMAGE IS WORTH ONE WORD: PERSONALIZING TEXT-TO-IMAGE GENERATION USING TEXTUAL INVERSION R. Gal, Y. Alaluf, Y. Atzmon, O. patashnik, A. H. Bermano, G. Chechik, D. Cohen-Or [ICLR’23] Method: Textual Inversion - 4~5枚の画像からコンセプト を抽出 をプロンプトに組み込んで画像生成が可能 8
Effective Data Augmentation With Diffusion Models B. Trabucco, K. Doherty, M. Gurinas, R. Salakhutdinov [arxiv’23] Motivation - 回転や反転によるデータ拡張はセマンティクスを無視している - 画像変換でセマンティクスを保持したデータ拡張がしたい 9
Effective Data Augmentation With Diffusion Models B. Trabucco, K. Doherty, M. Gurinas, R. Salakhutdinov [arxiv’23] Novelty: セマンティクスを維持した画像変換手法を提案 10
Method 11
Result 12
まとめ - zero-shot, few-shotの環境下でDiffusion Modelの生成画像は有効 - text-to-imageの生成モデルのおかげで多様なデータ拡張が可能 課題 - プロンプトをどうやって用意する? - 生成画像を利用するのは本当に適切? 13