370 Views
June 01, 25
スライド概要
立教大学人工知能科学研究科 瀧雅人研究室
M2の梅澤優花さんが論文「Vision-Language Models Create Cross-Modal Task Representations」の紹介を担当しました。本論文は、VLMがどのようにタスク情報を内部処理するのか、また、どのように異なるモダリティを共通のタスクの意味的表現にマッピングするのかを明らかにしました。実験では、あるモダリティで抽出したタスクベクトルが、別のモダリティに再利用が可能かどうか、プロンプトよりも中間層で抽出したタスクベクトル、さらに指示を追加したタスクベクトルが有効であることなどを明らかにしています。今回の論文紹介資料はこちらから閲覧できます。
立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。 最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。 また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。 研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。 ご興味をお持ちの方は、HPをご確認ください。
JC 20250531 研究紹介 Vision-Language Models Create Cross-Modal Task Representations 梅澤優花
アジェンダ 以下のアジェンダでご説明します ICLの前提知識 ICLの関連研究 タスクベクトルの関連研究 JCの論文紹介 1
アジェンダ ICLの前提知識 ICLの関連研究 タスクベクトルの関連研究 JCの論文紹介 2
A Survey on In-context Learning Dong et al. ‘23(EMNLP2024) LLMのIn-Context Learningとは ◼ In-Context Learning(ICL):プロンプトに含まれるいくつかの例から学習する能力 ◼ パラメータ更新を行わずに、例のパターンを学習し、これに応じて予測する Review: The food is awful Sentiment: Negative Review: Terrible dishes! Sentiment: Negative input LLM Review: Delicious food! Sentiment: Positive output Positive アンサー Review: Good meal! Sentiment: クエリ In-Context Learningの入出力 3
A Survey on In-context Learning Dong et al. ‘23(EMNLP2024) In-Context Learningのメリット① ◼ In-Context Learningのメリット ◼ 人間が解釈可能なLLMとのコミュニケーションができるため、 デモを変更することで、人間の知識をLLMに簡単に組み込むことができる Review: The food is awful Count: 4 Review: Terrible dishes Count : 2 input LLM output 2 Review: Good meal Count : In-Context Learningの入出力 4
In-Context Learningのメリット② ◼ A Survey on In-context Learning Dong et al. ‘23(EMNLP2024) In-Context Learningのメリット ◼ 類推から学習よる人間の意思決定プロセスと類似している パスタ作りたい ラーメン茹でたときと同じように、 お湯を沸かして麺を入れればい いのかな? 人間の意思決定プロセス In-Context Learning 5
A Survey on In-context Learning Dong et al. ‘23(EMNLP2024) In-Context Learningのメリット③ ◼ In-Context Learningのメリット ◼ 教師あり学習と比較して、学習不要の学習フレームワークのため、 新しいタスクに適応させるための計算コストを大幅に削減できる データ収集 デモを修正する アノテーション 学習 機械学習 In-Context Learning 新たなタスクへの適応の違い 6
アジェンダ ICLの前提知識 ICLの関連研究 タスクベクトルの関連研究 JCの論文紹介 7
In-Context Learningに関する研究 ◼ A Survey on In-context Learning Dong et al. ‘23(EMNLP2024) ICLは様々な観点から、より精度を上げるための研究が行われている Pre-training Warmup Training Inference Analysis 推論前の専門的な訓練によって、 ICL能力を強化 Demonstration Instruction Scoring Function Influencing Factors Learning Mechanism 推論時の最適なデモの構成、指示のフォーマット によって、 ICL能力を強化 何がICL能力に影響を与えるのか なぜICLが機能するのか 根本的な分析により、ICL能力を強化 8
In-Context Learningの性能を上げるための関連研究 ◼ 推論前の専門的な訓練によって、ICL能力をさらに強化できることが明らかになっている ◼ Pre-Training ◼ In-Context Learningに特化した事前学習(MEND) デモの条件を蒸留させ、蒸留した条件とInputから本質パターンを学習 Training Inference Analysis MEND: Meta dEmonstratioN Distillation for Efficient and Effective In-Context Learning Li et al. ‘24(ICLR 2024) ◼ Warmup ◼ 事前学習と推論の間に学習ステップを追加する ◼ デモの正解ラベルを、記号にしてファインチューニング(symbol tuning) 自然言語ラベルの表面的な意味に惑わされず本質的なパターンを学習 Review: The food is awful Sentiment: B Review: Terrible dishes! Sentiment: B Review: Delicious food! Sentiment: A Review: Good meal! Sentiment: input output LLM ひらがなにせよ Symbol tuning improves in-context learning in language models Wei et al. '22(EMNLP 2023) 9
In-Context Learningの性能を上げるための関連研究 ◼ 最適なデモの構成、指示のフォーマットによってICL能力を強化 ◼ Demonstration ◼ 大規模デモセットからクエリを検索し、取得したものをデモとして出力 プロンプトにデモなしでICLを実現可能 Training Inference Analysis ◼ Instruction ◼ デモから最適な指示を生成し、ICL能力を向上 友達に指示を出したら以下の結果になりました。 指示は何でしたか? 入力: 猫 出力: ねこ 入力: 犬 出力: いぬ 指示は何でしたか? Learning To Retrieve Prompts for In-Context Learning Rubin et al. ‘22(NAACL 2022) output input LLM ひらがなにせよ Instruction Induction: From Few Examples to Natural Language Task Descriptions Honovich et al. '22 10 (ACL 2023)
In-Context Learningの性能を上げるための関連研究 ◼ ICL能力に影響を与えているもの、仕組みの解明により本質的なICL向上を目指す ◼ Influencing Factors ◼ 事前学習で精度に影響与える因子 データの多様性<ドメイン Training Inference Analysis Shin et al. (EMNLP 2022); Yadlowsky et al. (ICML 2023); Raventós et al. (NeurIPS 2023) モデルサイズが大きさにより突然ICL出現 Wei et al. (TMLR 2022); Brown et al. (NeurIPS 2020) ◼ 推論フェーズで精度に影響与える因子 入力とラベルのマッピング デモの多様性、順序、類似性 Min et al. (EMNLP 2022); Yoo et al. (EMNLP 2022); Pan et al. (NeurIPS 2023) An et al. (ICLR 2023); Lu et al. (NeurIPS 2022); Liu et al. (ACL 2022) 11
In-Context Learningの性能を上げるための関連研究 ◼ ICL能力に影響を与えているもの、仕組みの解明により本質的なICL向上を目指す ◼ Learning Mechanism ◼ モジュール 特定のHeadが有効 Training Inference Analysis Olsson et al. (TMLR 2022) Wang et al. (NeurIPS 2023) 浅いレイヤーで情報集約 深いレイヤーで最終回答 Bietti et al. (ICML 2023) Dai et al. (ACL 2023) 既知のタスクパターンから推定 Xie et al. (ICLR 2022) ◼ 理論的解釈 認識フェーズと実行フェーズ Pan et al. (NeurIPS 2023) 複数アルゴリズムから選択 Akyürek et al. (ICLR 2023) 効率的圧縮方法の選択による副産物 Bietti et al. (ICML 2023) Dai et al. (ACL 2023) 12
アジェンダ ICLの前提知識 ICLの関連研究 タスクベクトルの関連研究 JCの論文紹介 13
Editing Models with Task Arithmetic Ilharco et al. ’22 (ICLR 2023) Task Arithmeticとは Task Arithmetic: Fine-tuningで得られたパラメータの単純な足し引き算により、モデルを編集する手法 事前学習モデル 𝑓(𝑥, 𝜃0 ) 𝑓:モデル関数 𝑥:学習データ 𝜃0 :事前学習済みモデルの重み タスクベクトル 𝜏𝑖 = 𝜃𝑖 − 𝜃0 翻訳 事前学習モデル 算数 差別的 言換 𝐷𝑖 :各微調整データ 𝜃𝑖 :𝐹𝑖𝑛𝑒 − 𝑡𝑢𝑛𝑖𝑛𝑔後重み タスク1とタスク2が解けるモデルが欲しい 𝜃 = 𝜃0 + 𝜆𝜏1 + 𝜆𝜏2 タスク3を忘却したモデルが欲しい 𝜃 = 𝜃0 − 𝜆𝜏3 𝜆:スケーリング 14
Task Arithmeticから着想を得て、ICLの解明 In-Context Learning Creates Task Vectors Hendel et al. '24 ◼ タスクベクトルが重み空間に存在している考え方から着想を得て、 ICLの活性化空間においてタスクベクトルが存在する仮設に基づき In-Context Learningメカニズムの解明が盛り上がっている 色回答タスクであることが、タスクベクトルに入っている? (a) (b) Large Language Model (T) T Yellow Output layer Apple → Red Lime-> Green input TV抽出 output LLM Corn-> Yellow クエリにパッチ Task Vector 入出力 Intermediate layer 𝐹 𝜃 𝜃 Α Apple-> Red “Color” Input layer Lime Demonstrations(S) → Green Plum x′ → Corn → Query(x) 15
アジェンダ ICLの前提知識 ICLの関連研究 タスクベクトルの関連研究 JCの論文紹介 16
本JCで紹介する論文 Vision-Language Models Create Cross-Modal Task Representations Grace Luo Trevor Darrell Amir Bar UC Berkeley 「Task Vectors are Cross-Modal」:ICLR2025でreject 「Vision-Language Models Create Cross-Modal Task Representations」:ICML2025で採択 17
概要 目的 ◼ VLMが異なるモダリティ(テキスト、画像)やフォーマット(例、指示)からの入力を どのようにタスクにマッピングするかを明らかにする 結果 ◼ VLMは、入力のモダリティ(テキスト、画像)やフォーマット(例、指示)に関わらず、共有のタスクベクトルにマッピ ングすることがわかった ◼ あるモダリティ(テキスト)で抽出したタスクベクトルを別のモダリティ(画像)に転送できることがわかった ◼ テキスト例だけでなく、より簡潔なテキスト指示からも効果的に導出 ◼ LLMからFTされたVLMへ転送可能であり、LLMで学習された知識がVLMで再利用されている可能性 18
背景 ◼ VLMは、各タスクを異なるモダリティで定義することができる ◼ 各モダリティごとに定義が異なる場合にはすべてのバリデーションを記憶することは非現実的 ◼ VLM内部で何らかの圧縮または表現共有のメカニズムが存在するのでは? 19
VLMとは? ◼ VLM(Vision-Language Model)は視覚情報と言語情報を統合的に処理するモデル ◼ 大量の「画像とテキストのペア」で事前学習したCLIPをより複雑なタスク(対話、詳細な説明、推論)を実 行できるようにした統合的なモデル https://www.slideshare.net/slideshow/deeplearning-transformer-3-transformer/273664122%C3%AF%C2%BC%C2%89 20
VLMとは? ◼ 本論文では、LlaVA-v1.5、Mantis-Fuyu、Idefics2を利用して検証している ◼ VLMのアーキテクチャには、early-fusionとlate-fusionがある LlaVA-v1.5 (late-fusion):視覚的encodeからと言語encodeそれぞれ処理し、最後に統合する後期融合モデル Visual Instruction Tuning Liu et al. ’23 (NeurIPS 2023) Mantis-Fuyu (early-fusion):画像とテキストの入力をゼロから共同で扱うように訓練された早期融合モデル Mantis: Interleaved Multi-Image Instruction Tuning Jiang et al. ‘24(TMLR 2024) 21
Promptのバリエーション ◼ タスクのバリエーション ◼ 国の首都を回答するタスク ◼ 食べ物の色を回答するタスクなど6種類 ◼ プロンプトのバリエーション ◼ テキスト例(日本:東京) ◼ テキスト指示(国の首都を回答せよ:) ◼ イメージ例( :東京) ギリシャの首都:アテネ VLM 東京 日本の首都: 22
PatchingとFew-Shot Prompting ◼ クロスモーダルパッチ ◼ テキストのFew-shotを入力 ◼ Few-shotの最後の「:」の位置にあるベクトルを抽出 ◼ クエリは画像を入力 ◼ クエリ最後の「:」の位置にあるベクトルに移植 ◼ ギリシャの首都:アテネ VLM 東京 日本の首都: クロスモーダルFew-shot Prompting ◼ Few-shotを入力 ◼ クエリは画像を入力 23
組み合わせ ◼ プロンプト:テキスト例、イメージ例、指示 ギリシャの首都:アテネ ◼ プロンプト入力方法:Few-shot prompting、Patching プロンプト 入力方法 入力クエリ モダリティ Few-shot Prompting Image Text → Image ギリシャ :アテネ : Text Example Patching Text Text → Text ギリシャ:アテネ イタリア: Text Example Patching Image Text → Image ギリシャ :アテネ : Image Example Few-shot Prompting Image Image → Image Image Example Patching Text Image → Text Image Example Patching Image Image → Image Instruction Patching Image Instruction → Image 国の首都を答えよ: : Mixed → Image 国の首都を答えよ: :アテネ : Patching Image 東京 具体例 Text Example Ensemblling VLM 日本の首都: :アテネ : :アテネ イタリア: :アテネ : 24
実験内容 ① テキスト例から画像クエリへのクロスモーダルな転送は有効か ② LLMから抽出したタスクベクトルは、VLMの転送は可能か ③ 例以外(指示)にもタスクベクトルは存在するか ④ 1の続きで、複雑な画像解説タスクでも有効か ⑤ タスクベクトルは、上書き可能か 25
実験①テキスト例から画像クエリへの転送 ◼ 実験目的:テキスト例から画像クエリへのクロスモーダル転送が可能か ギリシャの首都:アテネ ◼ 実験内容:同じ画像クエリに対して、4手法の入力で結果を比較 プロンプト 入力方法 入力クエリ モダリティ Few-shot Prompting Image Text → Image ギリシャ :アテネ : Text Example Patching Text Text → Text ギリシャ:アテネ イタリア: Text Example Patching Image Text → Image ギリシャ :アテネ : Image Example Few-shot Prompting Image Image → Image Image Example Patching Text Image → Text Image Example Patching Image Image → Image Instruction Patching Image Instruction → Image 国の首都を答えよ: : Mixed → Image 国の首都を答えよ: :アテネ : Patching Image 東京 具体例 Text Example Ensembling VLM 日本の首都: :アテネ : :アテネ イタリア: :アテネ : 26
実験①テキスト例から画像クエリへの転送の結果 ◼ テキスト例→画像クエリが最も正解率が高かった ◼ テキスト例のPatchingはPromptを14-33%上回った ◼ テキスト例のPromptは、ほとんどNo Contextと同様で精度が低い ◼ 画像例→画像クエリのユニモーダル(Patching、Prompt)よりも精度が良い ◼ s クエリを反復して国名を出力 27
実験①テキスト例から画像クエリへの転送の結果 ◼ なぜユニモーダルは精度が下がるのか? ◼ 画像の例は、テキストの例に比べてタスクを理解するために追加のステップが存在する可能性 ◼ 追加のステップによりタスク表現にノイズが加わっているのでは ギリシャの首都:アテネ VLM : 国旗から首都を答える タスクかな ローマ :アテネ VLM ローマ : ギリシャの国旗っぽい な 国旗から首都を答える タスクかな 梅澤の感想 28
実験①まとめ ◼ 実験目的 ◼ テキスト例から画像クエリへのクロスモーダル転送が可能か ◼ 実験結果 ◼ テキストの例から画像クエリへのクロスモーダル転送は可能 ◼ Patchingはユニモーダルよりもクロスモーダルのほうが精度が高い ◼ 考察 ◼ Promptは異なるモダリティ間で表現の断絶が起きている可能性がある 29
実験②LLM→VLMへの転送 ◼ 実験目的:LLMで抽出したタスクベクトルを、FT後のVLMにパッチしても有効な結果が得られるか ◼ 実験内容:LLMのタスクベクトルを抽出し、VLMにパッチする LLM VLM 30
実験②LLM→VLMへの転送の結果 ◼ LLMとVLMのタスクベクトル間のコサイン類似度は0.89、0.95と非常に大きい ◼ クロスモーダルパッチングの性能は、VLM-VLMよりもLLM-VLM精度の方が僅かに良かった ◼ なぜVLM-VLMよりもLLM-VLMのタスクベクトルのほうが精度が高いのか? ◼ VLMはLLMのタスク表現を保持していると考えられる ◼ 自然言語のみで事前学習した機能を再利用でき、LLMのタスク表現はある程度保持されている 31
実験②まとめ ◼ 実験目的 ◼ LLMで抽出したタスクベクトルを、FT後のVLMにパッチしても有効な結果が得られるか ◼ 実験結果 ◼ LLMのタスクベクトルとFT後のVLMのタスクベクトルのコサイン類似度は非常に大きい ◼ LLM-LLMのパッチングよりも、LLM-VLMのパッチングのほうが精度が僅かに良かった ◼ 考察 ◼ 自然言語のみで事前学習した機能を再利用でき、LLMのタスク表現はある程度保持されている LLM VLM 32
実験③指示からのタスクベクトル抽出 ◼ 実験目的:指示文のみから抽出したタスクベクトルは有効か?(例無しでタスクベクトルを扱いたい) ◼ 実験内容:指示文「:」ベクトルのみ抽出した正解率を算出する 指示文「:」ベクトル+画像クエリ「:」ベクトルの平均値によるタスクベクトルで正解率を算出する プロンプト 入力方法 入力クエリ モダリティ 具体例 Instruction Patching Image Instruction → Image 国の首都を答えよ: : Ensembling Patching Image Mixed → Image 国の首都を答えよ: :アテネ : output input 国の首都を答えよ: : VLM ローマ Apple: Red input Lime: Green : output VLM ローマ 「:」平均値 インストラクションパッチング 国の首都を答えよ: アンサンブルパッチング 33
実験③指示からのタスクベクトル抽出の結果 ◼ 指示のみは、例無しにもかかわらず正解率38% ◼ 例のパッチは、デモ数に応じて正解率は上がるが、アンサンブルほどではない ◼ アンサンブル(テキスト例+指示)は、少ない例でも53%の正解率 ◼ なぜ指示を入れると上がる? ◼ 例は出力形式を明確にすることはできるが、選択により偏りがある可能性 ◼ 指示を入れることで、偏りの少ない一般的なタスクを定義できている可能性 34
実験③まとめ ◼ 実験目的 ◼ 指示文のみから抽出したタスクベクトルは有効か? ◼ 実験結果 ◼ 指示のみからタスクベクトルは定義できる ◼ アンサンブル(テキスト例+指示)は、少ない例でも53%と最も高い正解率 ◼ 考察 ◼ 例を入れることは、出力形式を明確にすることはできるが、例の選択により偏りが生じる可能性がある output input 国の首都を答えよ: : VLM ローマ Apple: Red input Lime: Green : output VLM ローマ 「:」平均値 インストラクションパッチング 国の首都を答えよ: アンサンブルパッチング 35
実験④拡張VQAのクロスモーダル転送 ◼ 実験目的 ◼ 少し複雑なタスクも、クロスモーダル転送が可能か 赤くて丸いフルーツ:りんご : VLM オレンジ ◼ 実験結果 ◼ テキスト例を画像クエリにパッチする手法が最も精度が高かった(実験①から想像つく) ◼ 考察 ◼ 自然言語により詳細なタスク情報をタスクベクトルが表現している 36
実験⑤タスクの上書き ◼ 実験目的:既存タスクを新しいタスクで上書き可能かを検証 ◼ 実験内容 (1)プロンプト内の元タスクのみで入力 (2)システムプロンプト+上書きしたユーザプロンプトを入力 (3)タスクを上書きしたタスクベクトルを、画像クエリの「:」ベクトルにパッチ output input 元タスク:国名を答えよ 上書きタスク:首都を答えよ 国名を答えよ: : VLM イタリア (0)ベースライン [system] 国名を答えよ。 VLM output input output input イタリア 国名を答えよ: : VLM ローマ 首都を答えよ: [user] 首都を答えよ。 (1)システムプロンプト (2)インストラクションパッチング 37
実験⑤タスクの上書きの実験結果 ◼ 上書きの例 ◼ Semantic:画像内容に関する意味的な競合 ◼ Syntax:出力フォーマット ◼ Creative Generation:画像生成 ◼ Factual Recall:ナレッジ ◼ 結果 ◼ システムプロンプトと比較して、インストラクションパッチは大幅に精度が高かった ◼ 考察 ◼ 表面上の指示よりも、内部表現への介入が効果的である 38
実験⑤まとめ ◼ 実験目的 ◼ 既存タスクを新しいタスクで上書き可能かを検証 ◼ 実験結果 ◼ システムプロンプトと比較して、インストラクションパッチは大幅に精度が高かった ◼ 考察 ◼ 表面上の指示よりも、内部表現への介入が効果的である [system] 国名を答えよ。 VLM イタリア 国名を答えよ: : VLM ローマ 首都を答えよ: [user] 首都を答えよ。 (1)システムプロンプト (2)インストラクションパッチング 39
時間軸のタスク表現を分析 ◼ 分析目的:実験①により、クロスモーダル転送が可能であることがわかったが、なぜ可能なのかを分析する ◼ 手法:Logit lensを用いて、すべてのトークンに対する確率分布を生成し、 レイヤーごとに上位5つの単語を出力し、どのフェーズであるかを分類する ◼ 結果: ◼ モダリティにかかわらず、input→task→answerのプロセスで処理していることがわかった ◼ タスクの表現は中間レイヤーが最も相対確率が高く、パッチに有効である ◼ イメージはノイズが多いことが多く、クロスモーダルパッチのほうが端的なタスク表現をもつ 40
タスク表現の空間的分析 ◼ 分析目的:実験①により、クロスモーダル転送が可能であることがわかったが、なぜ可能なのかを分析する ◼ 手法:t-SNEを用いて、中間層のタスクベクトルを2次元空間にプロットし、可視化する ◼ 結果: ◼ 初期層では、モダリティごとのクラスタ(▲と●)を形成する ◼ 中間層では、テキストとイメージにかかわらず、タスクごとにクラスタに分かれる ◼ テキスト例と画像例が交換可能であることが説明される ◼ タスク間の意味的関係も表現されている(Food-Color, Food-Flavorが混ざっている) 41
まとめ ◼ 研究背景 ◼ VLMは異なるモダリティによらずタスク表現は共有されているのか ◼ 実験 ◼ クロスモーダル転送により、異なるモダリティ間で共有のタスクベクトルの存在を確認 ◼ タスクベクトルのパッチングはプロンプトより有効 ◼ LLM-VLMへの転送が可能であり、LLMの事前学習した関数を再利用している可能性 ◼ タスクベクトルは指示でも定義可能 ◼ 今後 ◼ なぜクロスモーダルなタスク表現を学習するのか、決定的なメカニズムの説明が必要 42
参考資料 44
(参考)VLMリスト 45
(参考)Logit lensによる中間層での出力の例 46
(参考)Pre-training:MEND MEND: Meta dEmonstratioN Distillation for Efficient and Effective In-Context Learning Li et al. ‘24(ICLR2024) デモの条件を蒸留(MEND)させ、蒸留した条件とInputから正解できるよう学習 デモ蒸留のメタ知識を捉えるために、MENDはメタ蒸留の事前学習とFTの2段階で学習 タスク難易度によりβは更新 タスク条件をPlaceholder デモ+Placeholder入力した際の予測値と正解ラベルで学習する デモの蒸留から、In-Context Learningまでの入出力の流れ 47
(参考)指示例、テキスト例、イメージ例 48
(参考)Task arithmeticとは Task Arithmetic can Mitigate Synthetic-to-Real Gap in Automatic Speech Recognition Su et al. ‘23(EMNLP 2024) Task Arithmetic: Fine-tuningで得られたパラメータ(タスクベクトル)の単純な足し引き算により、モデルを編集する手法 タスクベクトル 否定による忘却 →タスク除去 加算による学習 →マルチタスクモデル タスク類推 →AとBの関係をCに適応 49