-- Views
July 02, 25
スライド概要
DL輪読会資料
Memories of Forgotten Concepts Matsuo Lab 1
書誌情報 Memories of Forgotten Concepts 著者 Matan Rusanovsky, Shimon Malnick, Amir Jevnisek, Ohad Fried, Shai Avidan 出典 ・CVPR 2025 Highlight ・https://matanr.github.io/Memories_of_Forgotten_Concepts/ 拡散モデルの「記憶」と「忘却」についての論文
背景 • 拡散モデルは学習データに類似した画像や不適切な画像を出力しうる → 特定の概念を「忘却」させる研究が行われてきた ここでの「忘却」とは、学習時のキャプション(例:” Van Goah, starry night”)を 入力した時に、その概念の画像(”Van Goah”)の画像が生成されないことを意味す る → 真に忘却したと言えるのか? 従来の「忘却」 ゴッホの『星月夜』
概要 ・仮説 忘却した概念の画像を生成可能なシードがモデル内に高い確率で存在し続けている のではないか? → 忘却した概念の画像を逆過程でノイズ𝑧𝑇 にした時、その尤度やどのような画像 が生成されるかを分析
準備 • 概念c を消去したLDM 𝜀 – モデルはホワイトボックス(内部にアクセスできる)と想定 • E (erase) :消去した概念の画像を含むデータセット(画像・キャプ ション) • R (reference): 消去した概念の画像を含まないデータセット(画 像・キャプション)
定式化 • 概念の「忘却」度合いをどのようにして定量化するか? Naïveな方法 • データセットE, R の画像を逆過程で潜在シード 𝑧𝑇 にして負の対数尤度 (NLL)を計算する(NLL→𝑍𝑇 (・)) 詳細な計算は付録D → これだけでは分からない(NLL(N)との”近さ”を定量化する必要)
定式化 • 概念を忘却させたのなら、その画像の𝑧𝑇 の尤度は小さくなるはず → E, R の画像の尤度を正規分布と比較 → 密度関数の類似度を計る Earth Mover's Distance(EMD)を採用 理想:参照セットR は 𝑧𝑇 の概念を含まない(定義) → 忘却の影響を受けない → R の方が正規分布N に近くなる → d𝑁 は大きくなる
定式化 • • 異なる二つの概念を消去した時の例 この場合、𝑑𝑁 が大きい 𝐸1 の方が概念を良く消去できている
実験 忘却した概念の情報がモデルに残存しているかを分析 比較対象:EraseDiff, ESDなど9つの忘却手法 データセット:COCO 分析内容 1. 忘却した概念の画像を生成できる潜在シードがあるか 2. その画像を生成する潜在シードが複数あるか
実験1 • 忘却した概念画像の集合 – • 𝐼𝑖 ∶ 画像, 𝑝𝑖 ∶ プロンプト 𝐸 = 𝐼𝑖 , 𝑝𝑖 𝑛 𝑖=1 𝑞 (𝐼𝑞 , 𝑝𝑞 ) ∈ 𝐸 に対して逆過程で潜在シード 𝑧𝑇 を生成 これを使って再構成画像 𝐼𝑞 を生成する パラシュートの画像
結果 • • 各概念についての結果:Vanillaとほとんど変わらない PSNR:2つの画像の画質の一致度を示す指標 高品質で復元可能 忘却度合いが低い → 忘却した概念の画像を生成できる潜在シードが存在する
実験2 • 他の概念のシードから忘却した概念の画像を生成可能か? 𝑞 = 忘却した概念画像 𝐼𝑞 のシード 𝑧𝑇 は他の概念の画像 𝐼𝑠1 , … , 𝐼𝑠𝑘 から得られるか?
実験2 1. サポート画像(忘却していない概念の画像)𝐼𝑠𝑖 をデコードして潜在ベクト (𝑠 ) ル 𝑧0 𝑖 を得る。 2. 𝑧0(𝑠𝑖) を初期値として、クエリ画像 𝐼𝑞 に近い 𝑧 を探索 3. 逆過程でノイズにし( 𝑧0(𝑠𝑖→𝑞) → 𝑧T(𝑠𝑖→𝑞) )、画像を生成
結果 • サポート画像から忘却したはずの概念の画像を生成可能 上:“Van Goah” 下:“Tench” 尤度が大きい
議論 • (𝑠 →𝑞) (𝑠 →𝑞) サポート画像の潜在シード 𝑧T 1 , 𝑧T 2 … 間の関係を分析 – コサイン類似度は小さい(=向きが異なる) 𝑞 – 𝑧T とのユークリッド距離はほぼ同じ → 幾何学的に解釈すると、 「記憶(シード)は、元のシードを中心とする球の表面上に分布している」
議論 • 他の関係ない画像から、忘却した概念の画像が生成できてしまう • 𝑧T 1 , 𝑧T 2 …を𝑧T 以外に再マッピングすることが「忘却」に必 要十分なのか? (𝑠 →𝑞) (𝑠 →𝑞) 𝑞
まとめ • 「真の」意味で拡散モデルから特定の概念を「忘却」させることは難し い – 忘却した概念の画像をノイズにしたもの、他の概念の画像から最適 化したノイズで生成できてしまう • 実用上は従来「忘却」のようにtext to imageで学習データに近いものが 出力されなければ十分なのでは? – クローズドモデルなら今回のように自分で初期値ノイズを用意する ことはできない