245 Views
June 19, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Towards Understanding How Knowledge Evolves in Large Vision-Language Models Hiroto Osaka, Matsuo Iwasawa Lab, M1 http://deeplearning.jp/
Paper Information Towards Understanding How Knowledge Evolves in Large Vision-Language Models ▍ Conference CVPR 2025 ▍ Authors [1] Towards Understanding How Knowledge Evolves in Large Vision-Language Models Sudong Wang, Yunjian Zhang, Yao Zhu, Jianing Li, Zizhe Wang, Yanwei Liu, Xiangyang Ji https://github.com/XIAO4579/Vlm-interpretability 2
Motivation ▍ 個⼈的な研究の流れ ▸ 学部(B4) ▸ 画像生成モデル(拡散モデル) ▸ 修士(M1〜) ▸ Vision Language Model ▍ この論⽂との関連性 ▸ VLM 内部のマルチモーダル知識の変化を 体系的に分析 ▸ マルチモーダル情報のフローについての アプローチ 3
Background: Vision Language Model ▍ VLM の基本構造 ▸ 画像を視覚エンコーダにより特徴量に 変換し、言語特徴空間に射影 ▸ Transformer 構造の LM に読み込ませる ▍ VLM の内部メカニズムの解釈 ▸ ハルシネーション対策 ▸ 効率化 ▸ 性能向上 [2] Imp: Highly Capable Large Multimodal Models for Mobile Devices 4
Research Question Q マルチモーダル特徴はどのように⾃然⾔語に変換されるのか? ▍ 従来の研究の限界 ▍ 本研究のアプローチ ▸ LLM 研究 ▸ 逆方向エンジニアリング ▸ 知識ニューロン、層間の表現変化 ▸ VLM 研究 ▸ 解釈系の研究がそもそも多くない ▸ 単一トークンの確率変化 ▸ トークン確率分布の変化 ▸ 特徴エンコーディングの変化 ▸ ギャップ ▸ 視覚 x 言語の相互メカニズムは未解明 5
Approarch: Three levels of analysis ▍ 単⼀トークン確率分析 ▍ 特徴エンコーディング分析 ▸ 個々のトークンの確率が層を通じてどう ▸ 高次元特徴空間での知識表現の可視化 変化するか ▸ 各層で 𝑷 token context) を計算 ▍ トークン確率分布分析 ▸ 隣接する層間の知識の変化を定量化 ▸ トークン確率分布を見ることで知識変化の どのフェーズかを分析 [1] Towards Understanding How Knowledge Evolves in Large Vision-Language Models 6
Experiment: Token Probability Analyses ▍ 実験設定 ▸ LLaVA-1.5 を使用 ▸ AMBER, MSCOCO dataset で分析 ▸ 画像を詳細に説明させるタスク ▸ Early Exit を使用して各 transformer ブロックの 予測トークンの確率を計算している 7
Insights: Critical Layers & Mutation Layers ▍ 臨界層(Critical Layers)- 20層⽬あたり ▸ トークン確率がいきなり跳ね上がる ▍ 変異層(Mutation Layers)- 25層⽬あたり ▸ 正常なトークン ▸ 確率が安定 ▸ ハルシネーショントークン ▸ 確率が急変 ▸ ハルシネーションが起こる場合は変異層で 変化している 8
Relationship to Hallusination ▍ 観察結果 ▸ ハルシネーションを起こす全トークン が変異層で変化 ▸ camera(正):確率急減 ▸ water(誤):確率急上昇 ▸ VLM では言語モデルの能力が支配的 ▸ Vision Model からの知識が安定 ▸ 言語モデルが事前知識を注入 ▸ 知識の進化を継続している 9
Experiment: Token Probability Analyses ▍ 実験⽅法 ▸ 各層で語彙セット内の全てのトークン確率を計算 ▸ 隣接する層間の確率分布の JS ダイバージェンスを 計算 10
Experiment: Token Probability Analyses ▍ 観察結果 ▸ JS ダイバージェンスの階層現象 ▸ 浅い層では値が比較的高く、隣接層間でトークン分布が大きく変化している ▸ 知識が急速に進化していることを示す ▸ 中間層(18層〜)では値が急激に減少してほぼゼロに安定 ▸ 急速な進化フェーズから安定フェーズに移行 11
Experiment: Token Probability Analyses ▍ スキップ接続 ▸ 安定化段階のスキップ(2列目) ▸ 元のハルシネーションが維持される ▸ 変異層のみスキップ(3列目) ▸ 元の意味を保持しつつハルシネーションが 修正される ▸ 過度なスキップ(4列目) ▸ 元の記述とほとんど類似性のない出力 12
Experiment: Feature Encoding Analyses ▍ 実験⽅法 ▸ 高次元の特徴ベクトルを t-SNE で 2D に次元削減 ▸ 各層の隠れ空間における特徴ベクトルの変化を追跡 ▍ 観察結果 ▸ 初期層では、すべての予測トークンの特徴エンコー ディングが密接にクラスター化 ▸ 初期段階では異なるトークンでも特徴が類似 ▸ 層が深くなると、特徴は明確に発散し、最終層では 広範囲に分散する ▸ 層が深くなるについて、トークン固有の特性が現れる 13
Experiment: Feature Encoding Analyses ▍ 観察結果 ▸ 異なる画像でも検証した ▸ ギターのような形状を示すことがわかった ▸ 浅い層は密接にクラスター化 ▸ 深い層の特徴は異なる方向に発散 ▸ 臨界層が境界と一致している ▸ 一部の特徴は最終層で再度クラスタリング する傾向 14
Discussion ▍ LVLM vs LLM ▍ 3段階の知識進化 ▸ 観察された知識進化は VLM 固有のもの ▸ 急速な進化 ▸ 純粋なテキスト入力の LLM では観察されて いない ▍ 応⽤可能性 ▸ モデル圧縮 ▸ 安定化段階の一部層は skip ▸ ハルシネーション対策 ▸ 知識が迅速に更新される ▸ 安定化 ▸ トークン固有の特性を示すように ▸ 進化のスピードが遅くなる ▸ 変異 ▸ 外部知識が注入され2次的な進化が促進される ▸ ここでの影響は出力まで影響する ▸ 効率的な Fine-tuning ▸ 深い層のパラメータのみで汎化できる可能性 15
Summary ▍ 研究概要 ▸ LVLM 内での知識進化過程の調査 ▸ Early Exit と次元削減を活用して3つの分析レベルで観察 ▸ 単一トークン確率、トークン確率分布、特徴エンコーディング ▍ 主な貢献 ▸ 臨界層と変異層の発見 ▸ 知識進化プロセスに関する新しい洞察 ▸ 応用可能性 ▸ モデル圧縮、ハルシネーション除去への新しいアプローチ 16
Appendix 17
Experiment: Token Probability Analyses 18
Experiment: Token Probability Analyses 19