【人工知能・深層学習】論文紹介：Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models

1.1K Views

November 02, 24

#論文紹介 #deeplearning #深層学習 #大規模言語モデル #視覚言語モデル #安全性 #クロスモーダル #Transformer

スライド概要

M2の中村圭佑さんが「Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models」の紹介を担当しました。本論文ではLVLMs(Large Vision-Language Models)がLLMs(Large Language Models)の有害な出力を制限するためのSafety Mechanismを、視覚情報に関して十分に適用できていないことを指摘しています。その原因はTransformerのLayerレベルで、言語情報と視覚情報のアライメントが取れていないことにあります。論文では、層レベルでアライメントを改善する手法を提案しており、LVLMsがLLMsのSafety Mechanismを視覚情報にも効果的に転移できるようになることが報告されています。

Taki lab.

@8328889256

スライド一覧

立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。ご興味をお持ちの方は、HPをご確認ください。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【人工知能・深層学習】レビュー：モダリティギャップの研究紹介

論文紹介 deeplearning 深層学習人工知能マルチモーダルモダリティギャップ

Taki lab. 7.1K

【人工知能・深層学習】論文紹介：Vision-Language Models Create Cross-Modal Task Representations

deeplearning 論文紹介深層学習人工知能 llm in-context learning task vector vlm

Taki lab. 6.2K

【人工知能・深層学習】論文紹介：Towards Modular LLMs by Building and Reusing a Library of LoRAs

論文紹介 deeplearning 人工知能深層学習 lora

Taki lab. 2.2K

【人工知能・深層学習】論文紹介：DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration

論文紹介 deeplearning 人工知能深層学習 vlm

Taki lab. 2.1K

【人工知能・深層学習】論文紹介：You Only Need Less Attention at Each Stage in Vision Transformers

論文紹介 deeplearning 人工知能深層学習 vision transformer

Taki lab. 1.9K

【人工知能・深層学習】論文紹介：Nested Learning: The Illusion of Deep Learning Architectures

deeplearning 論文紹介深層学習人工知能 optimizer llm in-context learning

Taki lab. 1.8K

各ページのテキスト

CROSS-MODAL SAFETY CROSS-MODAL SAFETY MECHANISM TRANSFER MECHANISM TRANSFER IN LARGE IN LARGE VISION-LANGUAGE MODELS VISION-LANGUAGE MODELS JC 資料 23VR004P 中村圭佑 2024/10/26 中村圭佑

Abstract • Large Vision-Language Models（LVLMs）における視覚と言語のアラインメントは、LLMが視覚入力を理解することを可能にしている • しかし、既存の視覚言語アラインメント手法では、LLMのテキストに対する Safety Mechanismが視覚に転移できず、toxicのある画像に対して脆弱性が残ることが判明した • そこで、LVLMsのSafety Mechanismがどこで、どのように機能しているかを説明し、テキストと視覚の比較分析を行った • 解析の結果、特定のTransformer Layersにおける隠れ状態が、Safety Mechanismに重要な役割を果たしていることがわかった • 現在の手法では、隠れ状態レベルでの視覚と言語のアラインメントが不十分であり、これがテキストに対して視覚入力における意味的なずれを引き起こし、Safety Mechanismを誤作動させる原因となっている • これに対処するために、Text-Guided vision-language Alignment（TGA）手法を提案している • TGAは、入力された視覚情報に関連するテキストを取得し、それを用いて視覚の隠れ状態空間への投影をガイドする • 実験では、TGAが視覚モダリティに対してsafety ne-tuningを行わずに、LLMのテキストに対するSafety Mechanismを視覚にうまく転移できることが示された fi • また、TGAは様々な視覚タスクにおいて、一般的な性能を維持することも確認された

Introduction 視覚と言語のSafety Mechanismの非対称性 • LVLMsの視覚言語アラインメント手法では、LLMs、軽量な視覚エンコーダ(CLIPなど)、プロジェクタを使用して、比較的低いトレーニングコストで視覚入力の理解を効率的に実現している • また、最近の研究ではLVLMsの安全性が注目されている • LVLMsでは、視覚と言語が共通の空間にアラインされているため、 Safety Mechanismも両者で共有されるべきである • しかし、実際にはそうではなく、toxicのあるテキスト入力と比較して、LVLMsは毒性のある視覚入力に対してより脆弱であることが判明した • 既存の研究では、toxicのある視覚データを使用して、safety ne-tuningを行うことでLVLMsの安全性を向上させている • しかし、根本的な疑問が残っている fi → “Why can’t the safety mechanism for text be shared by vision after vision-language alignment?”

Introduction 引用：CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure1

https://arxiv.org/pdf/2410.12662

本論文の実験本論文では三つの実験を行なっている 1. LVLMsにおけるクロスモーダルなSafety Mechanismの移転 • LLMsにおけるSafety Mechanismを、LVLMsにどのように拡張できるかを探る • Safety Mechanismが異なるモダリティ間の移行をどのように扱うかに焦点を当て、視覚モダリティ上で特定のsafety netuningを行うことなく、テキストから視覚へSafety Mechanismを移行する際の課題を明らかにする 2. Transformer layersとSafety Mechanismの関係 • Safety Mechanismの活性化を担う特定のTransformer layersを特定する。toxicなテキストに対するSafety Mechanismの作動にどの層が関与しているかを調査し、テキストを処理する場合と画像を処理する場合のSafety Mechanismの作動方法の違いを分析する 3. 視覚のsafety ne-tuningを伴わない視覚と言語のアライメント • 視覚モダリティのsafety ne-tuningを追加することなく、テキストから視覚へSafety Mechanismを転送する方法を提示する • TGAは、テキストベースのSafety Mechanismが、LVLMsにおける視覚入力のアライメントをどのようにガイドできるかを示 fi fi fi す

SAFETY MECHANISM CANNOT BE CROSS-MODAL TRANSFERRED 問題設定と実験詳細１問題設定: • LVLMとそれに用いられているLLMに、同じ意味を持つが異なるモダリティのtoxic入力を与え、異なるモダリティでの安全性能力を評価し、クロスモーダルなSafety Mechanism転移の評価を行う実験詳細: • データ構築： • オープンソースのデータセットから実際のtoxic画像を収集。各画像に対してLLaVA-NEXT (Liu et al., 2024b) を使用してキャプションを生成し、toxicテキスト-画像ペアを作成 • データセットには、アルコール、タバコ、銃、侮辱的なジェスチャー、ナイフを含む毒性画像（10,631枚）のHOD（Ha et al., 2023）や、血まみれやポルノ画像（9,900枚）のToViLaG（Wang et al., 2023）が含まれる • これにより、20,531の毒性テキスト-画像ペアを実験用に作成

SAFETY MECHANISM CANNOT BE CROSS-MODAL TRANSFERRED 実験詳細２ • 評価指標: • 通常の安全テスト手法（Wang et al., 2023）に従い、モデルにtoxicコンテンツを記述させ、toxic反応を拒否できるかどうかを表す「防御成功率（DSR）」を使用 • LLaMA-2-7Bを使用して生成された応答がtoxicであるかを判断し、防御の成功を評価（Chakraborty et al., 2024） • 実験設定: • 使用モデル • LVLMs(ℳ)とLLMs(ℒ) • LLaVA-1.6-Mistral7BとMistral-7B-Instruct-v0.2 • InstructBlipとVicuna-7B-v1.5 • Qwen-VL-ChatとQwen-7B-Chat。 • GPT-4-vなどのクローズドソースモデルは、詳細な解析ができないため対象外

SAFETY MECHANISM CANNOT BE CROSS-MODAL TRANSFERRED 実験詳細3 • 実験設定: • 使用するLVLMs(ℳ)とLLMs(ℒ) • LLaVA-1.6-Mistral7BとMistral-7B-Instruct-v0.2 • InstructBlipとVicuna-7B-v1.5 • Qwen-VL-ChatとQwen-7B-Chat • 次の三つの方法でSafety MechanismのDSRを比較。 *１に関してはモーダルが異なるのでtoxicなテキスト入力と比較して、 T検定でp値が0.05以下の場合に有意差があるとみなす 1. ℳに毒性画像を入力 2. ℳに毒性テキストを入力 3. ℒに毒性テキストを入力

SAFETY MECHANISM CANNOT BE CROSS-MODAL TRANSFORRED 結果 • LVLMとLLMは、toxicテキストに対するDSRが近く、LLMのテキストに対する Safety MechanismがLVLMの視覚言語アラインメントトレーニングで引き継がれていることがわかる • 同じSemanticを持つtoxic情報であっても、モダリティが異なる場合、LVLMsの安全性能力に大きな差が見られ、視覚モダリティにおける toxic防御がほとんどできていないことが示された →テキスト向けのSafety Mechanismが視覚に効果的に転移されていないことを意味する引用：CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Table1

https://arxiv.org/pdf/2410.12662

10.

CAUSE OF FAILURE IN CROSS-MODAL TRANSFERRING SAFETY テキストから視覚へのSafety Mechanism転移の失敗原因を二部構成で分析する 1. Safety Mechanism is Activated at Speci c Layers by Hidden States • Safety Mechanismがどの層で活性化されるのかを明らかにする。特定のTransformer layersがSafety Mechanismの発動に重要な役割を果たしていることを示す • テキスト入力におけるtoxicコンテンツに対してSafety Mechanismがどのように作動するかを分析します 2. Insu cient Alignment at Hidden States Misleads Safety Mechanism • 視覚と言語間の隠れ状態の不十分な整合性が原因で、Safety Mechanismが視覚データに対して正確に機能しないことを説明している • テキストと画像のSemanticに同一性がある場合でも、隠れ状態レベルでの不整合があると、Safety Mechanismがtoxic fi ffi な画像を正しく検出できなくなることを示す

11.

SAFETY MECHANISM IS ACTIVATED AT SPECIFIC LAYERS BY HIDDEN STATES 問題設定問題設定 • 先行研究（Tenney, 2019; Dai et al., 2021; Meng et al., 2022）では、LLMsの異なるTransformer layerが、語彙、意味、知識などの異なる機能を持つことが示されている • 本論文では、LVLMsにおけるSafety Mechanismの活性化に関与するTransformer layersを特定し、これらの層でのtoxicトークンに対するAttention patternを分析する • テキストにおけるLVLMsのSafety Mechanismがどこでどのように活性化されるかについて検証する • それにより、視覚でのSafety Mechanismの破綻の原因を理解する

12.

SAFETY MECHANISM IS ACTIVATED AT SPECIFIC LAYERS BY HIDDEN STATES 実験詳細１どのlayerで活性化されるか: • Toxic入力に対して、Safety Mechanismが活性化されると、言語モデルは指示に従わず、ユーザーに”謝罪”する応答を生成する（例:「申し訳ありませんが、私は…できません」） • このため、”謝罪”の応答はSafety Mechanismの活性化の重要な信号とされる • 本論文では、層ごとの”謝罪”に関する語彙分布の変化を検出することで、Safety Mechanismがどこで活性化されるかを特定する • 具体的には、toxicテキストtと指示sをLVLMsに入力し、次のトークン予測に基づいて”謝罪”関連(“sorry”や”apologize”など)の語彙分布変化を計算する • 各層における語彙分布の変化を計算し、 “謝罪”に関連するトークンが、分布変化のトップ1にランクインする層を特定する • “謝罪”トークンが語彙全体の中で最も顕著な割合を示す層は、入力がtoxicであることを認識し、指示に従わないよう語彙分布を更新しようとする層であり、Safety Mechanismの活性化を示すとする

13.

SAFETY MECHANISM IS ACTIVATED AT SPECIFIC LAYERS BY HIDDEN STATES 実験詳細2 手順 • テキスト入力として、toxicな内容と指示をLLMに入力する • その後、次のトークンの予測を行う。この予測は、softmax関数で計算される語彙分布に基づいて行われ、各層の隠れ状態からどの単語が選ばれるかが決定される P(x | t, s) = softmax(WH′), x ∈ • ここで、Wは語彙を表す行列、H′は最終的な隠れ状態である • 次に、各Transformer層で “謝罪”に関連する単語の分布がどのように変化するかを観察する Pj(x | t, s) = softmax(WHj), x ∈ • ここで、Pj(x | t, s)は層jにおける”謝罪”関連の単語の分布を示し、層間の分布変化を以下の式とする Dj(x | t, s) = log Pj(x | t, s) Pj−1(x | t, s) • この分布変化に基づいて、”謝罪”に関連する単語が上位に出現し始める層を探す。この層が、Safety Mechanismが活性化される層である 𝒳 𝒳 • Dj(x | t, s)が最大の層がSafety Mechanismが活性化される層となる

14.

実験詳細3 どのように活性化されるか: 毒性トークンに対するアテンションパターンの分析 • 一つ目の実験で構築したデータのtoxicテキストごとに、GPT-4 APIを使用して特定のtoxic単語を抽出し、これをtocixトークン（セットC）とする • j層における語彙分布予測のアテンションマップ jを使い、最後のトークンからtoxicトークンセットCへのAttention Scoreの割合 Rを計算。 j = softmax ( QjKj⊤ , dk ) R= ∑ i∈C i j • Toxicテキスト入力に対してSafety Mechanismがうまく作動したサンプルを選び、活性化場所とAttention patternを分析 𝒜 𝒜 𝒜 SAFETY MECHANISM IS ACTIVATED AT SPECIFIC LAYERS BY HIDDEN STATES

15.

SAFETY MECHANISM IS ACTIVATED AT SPECIFIC LAYERS BY HIDDEN STATES 結果1 • Sefety Mechanismの活性化がtoxicトークンの隠れ状態へのアテンションのピークと一致していることを示している • Safety Mechanismは特定のTransformer layersでのtoxicトークンの隠れ状態の情報によって活性化されることわかる引用：CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure2

https://arxiv.org/pdf/2410.12662

16.

SAFETY MECHANISM IS ACTIVATED AT SPECIFIC LAYERS BY HIDDEN STATES 結果2 • さらにtoxicトークンの情報を異なる層でマスクし、LVLMsの安全能力に対する影響をテストする実験を実施 • 特定の層におけるアテンションマップでtoxicトークンにマスクを追加し、7つのシーンでの平均DSRを指標として使用 • Safety Mechanismが活性化されると特定された層を遮断すると、他の層に比べて安全メカニズムが大きく阻害されることを示している引用：CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure3

https://arxiv.org/pdf/2410.12662

17.

INSUFFICIENT ALIGNMENT AT HIDDEN STATES MISLEAD DAFETY MECHANISM 問題設定問題設定 • LVLMにおいてテキストから視覚へのSafety Mechanism転移が失敗する原因についての分析を行う • 先ほどの実験に基づき、特定のTransformer layersにおける入力トークンの隠れ状態が、Safety Mechanismの成功した活性化に重要な役割を果たしていることがわかった • 同じSemanticを持つテキストと画像の入力隠れ状態を比較分析し、クロスモーダルSafety Mechanism転移が失敗する根本的な理由を明らかにする

18.

INSUFFICIENT ALIGNMENT AT HIDDEN STATES MISLEAD DAFETY MECHANISM 検証検証 • テキストと画像の比較分析 • 同じSemanticを持つテキストと画像の隠れ状態の平均プールベクトル間のコサイン類似度を比較する • 結果 • Safety Mechanismが活性化される層において、Clipスコアがテキストと画像の意味的類似性を示すのに対し、LVLMsのテキストと画像の隠れ状態間のコサイン類似度は大幅に低い • 隠れ状態レベルでのテキストと画像のアラインメントが不十分であり、Transformer layersが画像の意味を正しく把握できないため、toxicを正しく評価できないことが示唆された引用：CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure4

https://arxiv.org/pdf/2410.12662

19.

𝕀 𝕋 𝕀 𝕋 𝕀𝕋 INSUFFICIENT ALIGNMENT AT HIDDEN STATES MISLEAD DAFETY MECHANISM Safety Mechanismの再構築背景 • 先ほどの分析から視覚と言語の隠れ状態のアラインメントが不十分であることが、視覚におけるSafety Mechanism崩壊の原因である可能性が示された。実験 • Safety Mechanism再構築実験を実施 • 入力画像の j 番目のTransformer layersにおける画像トークンの隠れ状態を j = {I1j , I2j , . . . , Inj }と表し、テキストの隠れ状態を j j j = {T , T , . . . , T j m}とする。 1 2 • 画像の隠れ状態にテキストの平均プール隠れ状態を追加し、次の層に入力することで、画像の隠れ状態をテキストに強制的にアラインさせる。 ℐj = {Ikj + mean(Tj) ∣ Ikj ∈ ℐj}, mean( ⋅ ) is mean pooling. • この操作を異なるTransformer layersで実行し、toxic画像入力に対する安全能力を示す。

20.

INSUFFICIENT ALIGNMENT AT HIDDEN STATES MISLEAD DAFETY MECHANISM Safety Mechanismの再構築結果 • テキストの隠れ状態を画像の隠れ状態に直接追加することで、toxic画像に対するLVLMsの安全能力が大幅に向上したことがわかった。 • Safety Mechanismの活性化層で操作することで顕著な効果がある • 視覚と言語の隠れ状態レベルでのアラインメントが、テキストから視覚へのSafety Mechanism転移において重要な役割を果たしていることが示された。引用：CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure5

https://arxiv.org/pdf/2410.12662

21.

CAUSE OF FAILURE IN CROSS-MODAL TRANSFERRING SAFETY まとめテキストから視覚へのSafety Mechanism転移の破綻の説明 1. Safety Mechanismは、特定のTransformer layersで活性化される。 2. 特定のTransformer layersにおける隠れ状態が、Safety Mechanismの活性化に重要な役割を果たしている。 3. 現在のLVLMの視覚言語アラインメント手法では、特にSafety Mechanismの活性化に関与するTransformer layersにおいて、視覚の隠れ状態が対応するテキストの隠れ状態とアラインできていない。 4. このアラインメントの不十分さにより、Safety Mechanismを活性化するTransformer layersが画像の意味を正しく捉えることができず、画像のtoxicを正確に評価できないため、視覚におけるSafety Mechanismが崩壊してしまう。

22.

TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL • 先ほどの実験の結果より、 Safety Mechanismが活性化される層において、視覚と言語の隠れ状態のアラインメントが不十分であることが、テキストから視覚へのSafety Mechanism転移の破綻の主な原因であるとわかった • この問題を解決するために、隠れ状態レベルで視覚と言語を効果的にアラインさせる新しい”text-guided visionlanguage alignment”を実施する

23.

TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 動機と概要 • 従来のLVLMsにおける視覚アラインメント手法 (”input-to-output alignment”) • 画像-指示-出力の三組をトレーニングデータとして構築 • 言語モデルのクロスエントロピーを損失関数として使用 • LLMが視覚入力を理解できるようにすることで、視覚と言語のアラインメントを達成 • 視覚入力に対してテキスト出力をアラインする非対称的な方法 ← 著者の主張 • この方法の根本的な欠点 • LLMをブラックボックス化した出力のみに焦点を当てている • 視覚入力の内部表現（隠れ状態）がテキストモダリティの隠れ状態とアラインしているかどうかを無視している • この問題への対処 • 隠れ状態レベルでの”text-guided visionlanguage alignment: TGA”を提案 • 入力画像に対して、TGAは意味的に関連するテキストをテンプレートとして取得し、隠れ状態レベルで視覚を言語にアラインさせる。

24.

TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 手法 1: XcaptionをLVLMsに入力し、各Transformer layerにおけるXcaptionの隠れ状態を取得する。 *勾配計算は無効化されている。 ℂj = {C1j , C2j , …, Cm j }, j = 1,2,3,…, N, • ℂjはj層目のTransformer layerにおけるXcaptionのトークンの隠れ状態のシーケンス、mはXcaption内のトークン数、NはLLMのTransformer layerの数を表す。 2: Xretrieval,Ximage,Xinstを入力として、視覚指示チューニングを行う。この過程で、各レイヤーでXretrievalとXimageの隠れ状態ℛとℐを取得。 *勾配計算を有効にする。 • 入力は(Xretrieval,Ximage,Xinst)であり、Self AttentionによりℐはXretrievalとXimageの融合された隠れ状態となる。 Xretrievalは、LLMがXimageの隠れ状態をXcaptionの隠れ状態とアラインするようガイドする。これをペアワイズ損失関数で実現。 𝕀 ℒguide = 𝕀 • N ∑ j=1 − cos(¯j, ℂ̄j) + log [1 + exp[ − (cos(¯j, ℂ̄j) − cos(ℝ̄j, ℂ̄j))]],

25.

𝕀 𝕀 𝕀 𝕀 𝕀 𝕀 TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 手法 ℒguide = N ∑ j=1 − cos(¯j, ℂ̄j) + log [1 + exp[ − (cos(¯j, ℂ̄j) − cos(ℝ̄j, ℂ̄j))]], • ¯j、ℂ̄j、ℝ̄jはそれぞれ、j層目のTransformer layerにおけるXimage,Xcaption,Xretrievalの隠れ状態の平均プールベクトルを表す。 • ペアワイズ損失の直感は、XimageがXretrievalの意味を単にコピーするのではなく、Xretrievalを部分的に類似した意味を持つテンプレートとして使用し、 jがℂjとテキストモダリティの隠れ状態にアラインすることを促すこと。 • 成功したアラインメントは、 jがℂjに近く、ℝjよりもℂjに近い状態を達成する。これにより、 j、ℂj、ℝjは共通の空間にアラインされ、ℂjと jが一貫した意味を持つ。 • cos(ℝ̄j, ℂ̄j)は、視覚 ¯jと言語ℂ̄jのアラインメントに対するthe lower bound supervisionとして使用される。 • 総損失関数Lは、ℒguideと言語モデリングのためのクロスエントロピー損失の組み合わせとなる 𝕀 𝕀 1 N ℒ = ℒguide − log P (Xa,i ∣ Xretrieval, Ximage, Xinst, Xa,<i), Xa is the answer for Xinst . ∑ N i=1

26.

TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 実験詳細：データセットデータ構築の構築 • トレーニングデータは、LLaVA (Liu et al., 2024c) から収集されたもので、558Kの画像が事前トレーニング用、665Kの画像が指示チューニング用に含まれている。 q q 1 1 2 2 (X , X − X , X − X , . . . , X − X 各データサンプルは、マルチターンの会話テンプレート形式で表される: image r r r )。 inst inst • inst • ここで、Ximageは入力画像、Xinst − Xrペアは1回の会話ターンを表し、指示 Xinst とその応答 Xr で構成される。 • トレーニングセット内の各画像 Ximage に対して、BEIT-3 (Wang et al., 2022) という画像-テキスト検索モデルを使用し、大規模なコーパスから関連するテキスト Xretrievalを取得。このコーパスはLAION/CC/SBU (Schuhmann et al., 2021; Changpinyo et al., 2021) データセットから得られた 1,153Kのテキストキャプションを含み、毒性はほとんどない。 • LLaVA-1.5-13Bを使用して、Ximageに対するテキストキャプション Xcaption を生成し、これをテキストモダリティにおける画像の意味の説明とみなす。 • 視覚の安全性評価に使用するデータセットはアルコール、タバコ、銃、侮辱的なジェスチャー、ナイフ、血まみれ、ポルノに関する20,531のtoxic画像

27.

TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 実験詳細：アーキテクチャ • LLMとしてMistral-7B-Instruct-v0.2 (Jiang et al., 2023)、Vision towerとしてclip-vit-large-patch14-336 (Radford et al., 2021)、プロジェクタとして2層のMLPを使用 • 事前トレーニング • LLMを固定し、プロジェクタのみを1エポックトレーニング • 指示チューニング • すべてのパラメータを学習可能にし1エポックトレーニング引用：CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure6

https://arxiv.org/pdf/2410.12662

28.

TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 実験結果: Safety MechanismのVisionへの拡張 • TGAは、視覚に対して追加のsafety ne-tuningを行わずに、主流の視覚言語アラインメント手法よりもtoxic画像に対する LVLMsの安全性能力を大幅に向上させた • TGAが隠れ状態レベルで視覚と言語のアラインメントを改善することで、LLMに存在するテキスト向けのSafety Mechanism を視覚にうまく転移できたためである • TGAは、toxic領域に対するtoxicな文脈を回避するためにテキストのアンラーニングをLLMからLVLMsに転移するUnlearnFigSよりも優れている。これは、TGAによるSafety Mechanismの直接的な転移がより効果的な手法であることを示している fi 引用：CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Table2

https://arxiv.org/pdf/2410.12662

29.

TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 実験結果:一般的なLVLMsとしての能力 • TGAが様々な視覚タスクで比較可能な性能を示していることがわかる • TGAはLVLMのトレーニングにおいてsafetyかつ高性能な視覚言語アラインメント手法であることがわかる。TGAは、テキストから視覚へのSafety Mechanismを転移するだけでなく、様々な視覚タスクでの一般的な性能も維持している *LLaVA-1.6のトレーニングデータは公開されていないが、我々が使用したLLaVA-1.5のデータよりも効果的である。そのため、公平な比較を保つために、LLaVA-1.5をMistralで再現して代用している引用：CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Table3

https://arxiv.org/pdf/2410.12662

30.

TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 実験詳細：Ablation Study 引用：CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure7

https://arxiv.org/pdf/2410.12662

31.

結論 • 本論文では、”Cross-Modal Safety Mechanism Transfer”という新しい視点を提案し、LVLMがtoxicテキストに比べて toxic視覚に対して脆弱である問題を再考し、説明し、解決を図る • 詳細な分析により、現在の視覚言語アラインメント手法が効果的なCross-Modal Safety Mechanism Transferを達成できていないことが示された。その理由は、隠れ状態レベルでの視覚と言語のアラインメントが不十分であるためである • この問題を解決するために、新しい視覚言語アラインメント手法を提案している。この手法は、LLMにおけるtoxicテキストに対するSafety Mechanismを視覚に転移するだけでなく、既存の最先端LVLMと比較して様々な視覚タスクにおける一般的な性能を維持できる