【Diffusion勉強会】Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space

3.4K Views

January 08, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space Gouki Minegishi, Matsuo Lab, M2 http://deeplearning.jp/ 1

2.

書誌情報 • Neurips2024 Spotlight • モダンな生成モデルの概念獲得に関する研究 • 以前読んだ論文(Compositional Abilities Emerge Multiplicatively)の続きというわけではないが似たよう な問題設定,著者も被っている • より訓練ダイナミクス/相転移に着目している印象 2

3.

背景 • 最近の生成モデルはすごい – ロボット応用,天気予測...と幅広いモダリティで活躍している • これらの素晴らしい生成能力の背後には“概念の獲得”がある – 訓練データにない「馬に乗る宇宙飛行士」を生成するためには 「宇宙飛行士」「馬」「乗る」の概念を獲得して組み合わせる必要がある – 訓練データにない「青くて四角いりんご」を生成するためには 「青」「四角」「りんご」の概念を獲得して組み合わせる必要がある RQs モデルは何を概念として捉えその操作をどう学習するのか? 全ての概念は同時に獲得されるのか? 概念の獲得の順序はあるか? 例えば右の例は「りんご→青→四角」の順番に概念を獲得しているように見える 3

4.

先行研究 • 概念学習 (concept learning) – この「概念」という言葉はdisentanglement研究の「factor」と同じ • 概念(concept)という言葉使いは認知科学からインスパイア – この論文では概念獲得の訓練ダイナミクスに特に着目する • 解釈性 – LLMだけじゃなく拡散モデルも解釈性の研究が注目されている • Objectと背景が分離されて表現されている[]など – モデルが獲得した概念を特定することは,解釈性研究の流れに合っている • Competence vs. Performance – 認知科学では能力(Competence)とパフォーマンス(Performance)は別 – 例えばバイリンガルの人は2つの言語を話す”能力”を持っていても,その言語を話す状況にな らないとそれぞれの言語の”パフォーマンス”は測れない – DNNでもモデルが”能力”を持っていても,ベンチマークが適切でなければ”パフォーマンス”を 図ることはできない(過小評価されてしまう) – 例えば,LLMはreasoningができないと言われたがCotの設定だとパフォーマンスが上がる 4

5.

論文の構成 • 概念空間 – 概念学習の訓練ダイナミクスを分析するフレームワークの提案 • 概念空間における訓練ダイナミクス – 概念信号が概念獲得速度を決定する • 不完全な条件付け学習ダイナミクスへの影響 5

6.

概念空間 • データ生成過程 – あるベクトル空間Zからzをサンプリングし( ),観測空間Xにマッピングする – 事前分布が因子化可能 – Zの各次元は何か意味のある概念に対応しているとする • 概念空間 – あらゆる可能性のコンセプトzの集合 • 混合関数 – 条件情報hを生成する関数Mを定義する 7

7.

能力と概念信号 • 概念クラス C – 概念ベクトルzの特定の次元が決まった値ベクトルz_cの集合 – z_cに含まれる全てのzに対してz[k]≠z’[k]かつz[i]=z’[i] for i≠k を満たすz’を含むz_c’が存在す る時 「CとC’はk番目の概念が異なる」という • 能力 – 訓練中に見た全てのクラスCに対してモデルがC’からのサンプルを生成できたら 「このモデルはk番目の概念を変える能力がある」という – つまり訓練中に観測した概念を柔軟に操作して観測していない概念の組み合わせ(OOD)を生成 できる能力のこと • 概念信号 𝜎 – ある概念(𝑧𝑖 )に関する概念信号(𝜎𝑖 )は概念の値に対してデータ生成過程がどれほど鋭敏かを測る – つまりその概念を学習することでどれくらい利益を得られるかを表す – 例えばMSEロスで拡散モデル学習するときに色と形の変化どちらの方がロスに影響を与えるか 8

8.

実験設定 • 概念の種類 – 色 : 赤 or 青 – 大きさ:大きい or 小さい – 形:円 or 三角 • データセット – 3*32*32 – Objectの場所をランダムにしてこれらのすべてのペアそれぞれ2048枚の画像を用意 • モデル – Variational Diffusion Model – Time embeddingに条件付けされる • 評価方法 – 全部のデータでクラス分類headを学習させ,モデルの生成画像のクラス分類精度で評価する – 下の例だと4クラス分類 形が円のみの例 青線が訓練データでピンクがOOD 9

9.

概念信号と概念獲得速度 • 学習速度 – 概念クラスが11のデータのクラス分類精度が80%になるstepの逆数 – 大きいほど早く11を生成できている • 色と大きさの概念のみで学習 – 概念信号の強さ • 色:赤と青のRGBコントラストを調整 – {赤:(0.9, 0.1, 0.1), 青:(0.1, 0.1, 0.9)} → {赤:(0.6, 0.4, 0.4), 青:(0.4, 0.4, 0.6)} • 大きさ:サイズ差で調整 概念信号が大きいほど個々の概念が学習されやすい 色の信号が強い 大きさの信号が強い 10

10.

概念信号による汎化ダイナミクスへの影響 (a) In-Distribution(ID)である00の精度の変化と色の概念信号の影響 - 概念信号を強くすると初期値が赤色に寄るがどの概念信号も最終的には同じような精度になる (b) Out-Of-Distribution(OOD)である11の精度の変化と色の概念信号の影響 - 概念信号の変化でダイナミクスが大きく変わる 概念の記憶現象:OODのサンプルの条件hによる生成が訓練中の最も強い信号の概念に偏る (b)で青線(色の信号が弱く,相対的に大きさの信号が強い)訓練データの場合,OOD(11)の生成は01に偏る (なぜなら01と11は大きさが同じ,大きさという概念を共有している,ので) 逆に赤線(色の信号が強く,相対的に大きさの信号が弱い)訓練データの場合,OOD(11)の生成は10に偏る (なぜなら01と10は色が同じ,色という概念を共有している,ので) つまり学習を早期停止した生成モデルはOODサンプルに対して類似の既知概念に単純に関連づける(LLMの例) 学習を続けていると概念が分解されOODがちゃんと生成できるよう見える 11

11.

学習ダイナミクスの地形理論(landscape) 前ページ(b)の緑線など概念の記憶現象からODDの汎化へ急激な変化が起こっている この学習軌道の幾何学特性をトイモデルで実験できないか? • 動態方程式: – z^は学習が目指すべきターゲット(今回は(1,1)) – z~はバイアスがかかったターゲット(大きさの概念信号が強めだったら(0,1), 色の概念信号が強めだったら(1,0)) • 以下のエネルギー関数最小化のダイナミクスを考える(導出が分からなかった..) – 𝑎 = 𝜎1 − 𝜎2 , 𝑡1Ƹ , 𝑡Ƹ2 はそれぞれ概念𝑧1 , 𝑧2 を学習する時間 前ページの結果を良くシミュレートできている(青色:時計回り,赤色:半時計回り) 学習ダイナミクスは2段階に正確に分解できる(概念の記憶→OOD汎化) 12

12.

概念学習ダイナミクスの相転移 概念学習ダイナミクスは2段階に分けられる 緑の線の概念信号を扱う • 1段階:概念の記憶現象(初期値→星) • 2段階:OOD汎化(星→(1,1)) 仮説:1段階目が経た時点で,すでに概念の学習はできていてプロンプト 次第でちゃんと生成できるのでは? つまり能力はあるけど,パフォーマンスが引き出せていない状態 これを検証するために2つの工夫 1. 活性化空間に線形介入:条件付けベクトルの色に該当する部分を強める 2. 過剰プロンプト:色の条件付けを強化する(より高い値にする) (a)何もしない(b)1の工夫(c)2の工夫 (b,c)はシードに依存せず概念獲得の能力を 引き出せている. よって以下の仮説が導かれる 「生成モデルは訓練中に突然隠れた能力を獲得している しかし単純なプロンプトではこの能力を引き出せないためその有能さが隠されることがある」 (逆に言うと2段階目に突入する前にどんなにプロンプト頑張っても能力引き出せない) 13

13.

不完全な条件付けと概念空間 今までの実験はデータ生成過程を完全に特定できる条件情報を使っていた(h=z) 実際には学習に使われるプロンプトは不完全な場合が多く概念間の相関が生じている (例えば,いちごの画像は赤と強く相関しているので,いちごという文字に赤の情報が含まれる. そのため「赤いいちご」や「赤くないいちご」というプロンプトをつかはないと「いちご」と「赤」は明示的に分離されないのでは?) 実験設定 • 色(赤/青)と形(丸/三角)を概念として使用 • 訓練サンプルからランダムに条件付けの概念をマスクする(赤い三角形→三角形) 結果 • マスク率が高いと学習に時間がかかる(左) • マスク率が上がるにつれて色が紫になり,最終的には赤になってしまう(右b) 不完全な条件付け学習は概念学習の障壁になりうる 14

14.

議論 • 概念空間を研究する意義 – 生成モデルのベンチマークは難しい(多くの場合人間の介入が必要) – 概念空間フレームワークの学習軌道の可視化が使えないか • Grokking – 類似点:テストデータのパフォーマンスが訓練に遅れてみられること – 相違点:grokkingは算術タスクだが,この研究はOOD.また隠れた潜在能力に注目している • 概念学習は本当に相転移なのか – 2段階目に突入する前にどんなプロンプト入れてもOOD汎化はできなかった – またモデルの初期化に依存せずほぼ同じタイミングで相転移する – よって,概念学習は相転移である • Limitation – 実際の概念は階層的である(今回のように独立でflatではない) – 現実データでの適応 15

15.

その他の載せれていない結果 • CFGの影響 – CFGも過剰プロンプトと同様の効果 • リアルなデータ – celebAとかでも同様の傾向 • 不完全なプロンプトと過剰プロンプト – 不完全なデータで学習した場合でも 過剰プロンプトで能力が引き出せる 16

16.

感想 • あのエネルギー関数はどうやったら思いつくのか知りたい • 以前の論文(Compositional Abilities Emerge Multiplicatively)より 不完全な条件付けの設定などより実用的/本質的に感じた • 実際に使われているモデルとの大きなギャップは,概念の独立性(平 坦性)の仮定の気がする – 階層的な概念はトイモデルでどう表すのが筋が良いのか気になる • 一般的な生成モデルに応用できるので,今回の実験がLLMだとどうい うことなのかとかを考えても研究になりそう – その場合fine-tuningとか重要になりそう – あと時系列の扱いとか 17