【DL輪読会】COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability (ICML2024)

1.2K Views

August 01, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability (ICML2024)” Takeshi Kojima, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 • COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability – University of Illinois, University of California San Diego, Allen Institute for AI – URL • (GitHub) https://github.com/Yu-Fangxu/COLD-Attack?tab=readme-ov-file • (arXiv) https://arxiv.org/abs/2402.08679 • (ICML2024 papge) https://icml.cc/virtual/2024/poster/32666 – Jailbreakの新しい手法を提案した研究 2

3.

Jailbreakとは • Jailbreak = 脱獄 • IT分野におけるJailbreak https://eset-info.canonits.jp/malware_info/term/detail/00183.html • 大規模言語モデル(LLM)におけるJailbreak – Instruction TuningされたLLMに不適切なコンテンツを生成させる行為 • 文章でLLMに攻撃を仕掛ける • 例)爆弾の作り方を聞き出す • 目的: LLMの安全な運用を実現するための脆弱性チェック 3

4.

Jailbreakとは • Jailbreakの例(なぜか過去形で聞くと成功する) – 失敗例 – 成功例 https://arxiv.org/abs/2407.11969 4

5.

Jailbreakとは • 良いJailbreak文とは? – ① 攻撃力が高い • ちゃんと脱獄できる – ② 流暢な言葉遣い = ステルス性 • Perplexityが高い文章だと攻撃とバレてしまう(フィルタリングされてしまう) – https://arxiv.org/abs/2309.00614 – ③ LLMの出力文をコントロールすることができる • 例)特定のキーワードを含める,JSONフォーマットで出力する – 上記のような複数のクライテリアを同時にクリアする必要がある。 – マニュアルでプロンプト文を作るのは大変。 5

6.

本研究の概要 • 操作性が高くステルス性の高いJailbreak文を自動生成する手法を提案 – 操作性の高い文章生成技術をJailbreakに転用 • Energy-based Constrained Decoding with Langevin Dynamics (COLD) • Logitsの連続空間上で最適化できる勾配ベースのサンプリング – 以下の要件を同時に満たすJailbreak文を自動生成 • 流暢でステルス性が高い • 感情表現 • 文の一貫性 – 先行研究よりも高いパフォーマンスを発揮することを実証 6

7.

本研究の概要 • White-box アプローチ – モデルの内部知識を活用した攻撃 今回の研究はこちら に属するアプローチ • Llama3, Geminiといったパラメータが公開されているモデルが攻撃対象。 – 見つかった最適なプロンプトをGPT-4などにも試して有用性を確認することもできる (Transferability)。 • 勾配をとる目的でモデルを使うケースが多い。 • Jailbreak文だとバレにくい攻撃を自動生成することができる。 • Black-box アプローチ – いわゆる試行錯誤による手作りプロンプト • GPT-4, ClaudeといったAPI経由でアクセスするモデルが攻撃対象。 • モデルの内部アクセスが不要 • パターン化されたプロンプトになる傾向がある 7

8.

関連研究 • Jailbreakの先行研究 – UAT (Wallace et al., 2019) Lossのテイラー展開の一次項 e_adv:現在選択されているwordの embedding e_i:次のword候補のembedding ``Universal Adversarial Triggers for Attacking and Analyzing NLP’’ https://arxiv.org/abs/1908.07125 8

9.

関連研究 • Jailbreakの先行研究 – GBDA (Guo et al., 2021) ガンベル Softmaxで 連続化 Gradient based adversarial attacks against text transformers https://arxiv.org/abs/2104.13733 9

10.

関連研究 • Jailbreakの先行研究 – PEZ (Wen et al., 2023) Prompt tuning をイメージすればよ い。 最後は一番距離の近 いword embeddingの トークンでハードプ ロンプト化。 Hard prompts made easy: Gradientbased discrete optimization for prompt tuning and discovery https://arxiv.org/abs/2302.03668 10

11.

関連研究 • Jailbreakの先行研究 – GCG (Zou et al., 2023) テキスト中の各トークンインデックスにおいて、 置き換え候補のトークンをランダムに選択して 勾配を計算して保持しておく。 テキストの中から1トークンピック アップして、そのトークンを一番勾 配の大きいトークンに置き換える。 Universal and transferable adversarial attacks on aligned language models https://arxiv.org/abs/2307.15043 11

12.

関連研究 • Jailbreakの先行研究 – AutoDAN-Zhu (Zhu et al., 2023) 攻撃力だけでなく流暢性も考慮 Autodan: Automatic and interpretable adversarial attacks on large language models https://arxiv.org/abs/2310.15140 12

13.

関連研究 • Jailbreakの先行研究 – AutoDAN-Liu (Liu et al., 2023) 遺伝的アルゴリズム のコンセプト Autodan: Generating stealthy jailbreak prompts on aligned large language models https://arxiv.org/abs/2310.04451 13

14.

関連研究 • Jailbreakの先行研究(まとめ) 操作性 ステル ス性 計算 効率 攻撃力 見つかった最 適なプロンプ トの他モデル への転用性 14

15.

提案手法 • 概要 – Step1. エネルギー関数を定義 – Step2. エネルギー関数に基づいてトークンのロジット列(連続空間)を Langevin Dynamicsで最適化 – Step3. ロジット列をトークンにデコード(離散化) 15

16.

提案手法 • Step1. エネルギー関数を定義 – ここで定義するエネルギー関数が操作性の指標となる。 • エネルギー関数①:攻撃成功度合い • エネルギー関数②:流暢性 • エネルギー関数③:文の意味的類似度 • エネルギー関数④:出てきてほしい単語 y : 攻撃プロンプト z : 攻撃が成功した場合のLLM の望ましい出力 単語の生起確率を LLMとアラインさせる x : 最適化する前のプロンプ ト文(初期値) K_list : 出てきてほしい単語 (n-gram)リスト 16

17.

提案手法 • Step2. エネルギー関数に基づいてトークンのロジット列(連続空間) をLangevin Dynamicsで最適化 – エネルギー関数は微分可能(前頁) n : 最適化の回数 y : トークンのロジット列 y_i : iトークン目のlogit( Vocabulary数分の dimensionを持つ学習パラメータ) n : 最適化対象のトークン数(最初にn個の トークンでプロンプトを作る) 17

18.

提案手法 • Step3.ロジット列をトークンにデコード(離散化) – COLD(Qin et al., 2022)というデコード手法を用いる • argmaxではない • Without the novel decoding method from COLD, the resultant y is typically not fluent. – considering the presence of multiple competing energy functions, the resulting text may still suffer from fluency issues, even if the fluency energy function (3) is taken into account. • i番目のトークンを生成するプロセス LLMでトップkのトークンを絞り込んだ後、 その中から一番尤度の高いトークンを学習したlogitを使って選択する。 18

19.

提案手法 • アルゴリズム Step1. エネルギー 関数を定義 Step2. エネルギー関数に基 づいてトークンのロジット 列(連続空間)をLangevin Dynamicsで最適化 Step3. ロジット列 をトークンにデ コード(離散化) 19

20.

実験 • 実験設定 – モデル – データセット • AdvBench(有害なコンテンツを引き出す指示プロンプト50個) – 評価指標 • Attack Success Rate (ASR):有害な出力を引き出せた指示文の割合 – Rejection phrase(e.g. ``I can’t assist’’)が含まれているかどうかでルールベースで判断 • GPT-4-based ASR(ASR-G):GPT-4で成功を判断 • perplexity (PPL):calculated with Vicuna-7b 20

21.

実験 • 実験結果 – 他のベースライン手法に比べて、提案手法(COLD-Attack)が性能優位 – 提案手法が一番流暢性が高い 21

22.

実験 • 実験結果 – 高い操作性を実現 • Sentiment – 出力文の感情 • Lexical – 出力文に含まれ る単語 • Format – 出力文のフォー マット(e.g. JSON or Markdown) • Style – 出力文のスタイ ル(e.g. Twitter or Instagram) 22

23.

実験 • オープンモデルからGPT-3.5, GPT-4へのプロンプトの転移評価 23

24.

実験 • 生成プロンプト文 – プロンプトの書き出し(青文字)は人間が書いて、続き(赤文字)を自動生成 24

25.

実験 • 生成プロンプト文 – 人間が書いたプロンプト(青文字)を自動編集(赤文字) 25

26.

実験 • 生成プロンプト文 – 人間が書いたプロンプト(青文字,緑文字)の間の文(赤文字)を自動生成。 – JSONフォーマットで出力するように誘導する。 26

27.

まとめ • 本研究は、コントロール可能でステルス性の高い敵対的プロンプトを 自動生成するCOLD-Attackを提案した。 • 先行研究と比較して高い性能を発揮することを実証。 • 様々な制御したい特徴を攻撃に埋め込む強力な能力を持つことを実証。 • 今後、LLMの脱獄(Jailbreak)とコントロール可能なテキスト生成を 結びつける統一した視点が、LLM攻撃の多様化に関するより多くの研 究を刺激することを期待。 27

28.

感想 • ものすごい実験量(論文メイン+Appendix参照) • テキスト生成に難儀している(本提案も先行研究も) – 今こそNAR(Non AutoRegressive)? – Diffusionベースの文章生成との相性は? • 攻撃と防御は表裏一体? – 防御に関する研究は意外と少ないかも(企業秘密?) • Prompt Attack + Defenseは終わりなき旅。 – 社会的に超重要な領域&いたちごっこ 28