【DL輪読会】Backtracking Improves Generation Safety

1.5K Views

May 08, 25

#LLM #安全性 #Backtracking #生成モデル #敵対的攻撃

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.9K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 43.7K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 42.2K

各ページのテキスト

Backtracking Improves Generation Safety（ICLR 2025） Toru Fujino 1

書誌情報 ● Backtracking Improves Generation Safety ○ ICLR 2025 (Oral) ■ ○ スコア：8、8、8、8 Metaの研究グループ ● LLMの生成文の安全性を向上させる手法を提案 ● スライド中の図・表は断りがない限り論文中からの引用 2

概要 ● LLMの安全性を向上させるための手法"Backtracking"を提案 ○ 有害な文が生成されていると判断した段階で[RESET]トークンを生成する ○ [RESET]トークン以前の文は破棄、新たに文を生成し直す（コンテキストは共有） ○ [RESET]の生成タイミングはSFT+DPOで学習 ● ベースラインモデルからの大幅な安全性の向上を複数のデータセットで確認 3

関連研究：LLMの安全性を向上させる手法 ● 学習を通して有害な応答が出力されないようにする予防的な手法が主流 ○ Supervised fine-tuningによる手法：[Ouyang+ 2022] ○ RLHFによる手法：[Bai+ 2022] ● 予防的な手法は非常に有効だが、予防には限界がある ○ パターンが無限にあり、全てをカバーできない ● 今回の手法は、「LLMが有害な応答をしてしまうものだと認めた上で、それをできるだけ検知し、安全な応答に切り替える」というアプローチをとっている ○ 一方で他手法とは補完的（Complementary）であるとも言っており、組み合わせることも可能と思われる 4

提案手法：学習の流れ ● 学習の手順は通常のLLM（の事後学習）と同じ ○ Supervised fine-tuning（SFT） ○ Direct preference optimization（DPO） ● 用意するデータセットのみ一部変わる 5

提案手法：Supervised fine-tuning（SFT） ● 既存のデータセットから2種類のサンプルを作成 ○ ①：プロンプト（x）と安全な応答文（y+）のペア ○ ②：プロンプト（x）、安全な応答文（y+）、有害な応答文（y-）の組 ■ 学習データ生成時の安全/有害の分類にはLlama Guard 2を使用 ②「プロンプト+有害な応答文」に対して「[RESET]+安全な文」を生成させるよう促す ①通常のInstruction tuningの学習項 ● 学習データには①と②を9:1の割合でブレンド 6

提案手法：Preference tuning ● 各プロンプトに対し、Backtrackすべきか、すべきでないかの2種類のペアを作成しデータセットを構築 ○ 構築されたデータセットをDirect preference optimization（DPO）により学習 ● Backtrackすべきペア ● Backtrackすべきでないペア 7

実験 ● 次の2点に着目して実験 1. Backtracking手法が安全性を向上させるか 2. Backtracking手法の安全性と生成効率（= Latency）のトレードオフ 8

実験 ● モデル ○ Gemma-2-2B ○ Llama-3-8B ○ いずれもBase（Instruction-tuneが行われていない）モデル ● 評価データセット（上4つは安全性検証、最後の1つは有益性の検証） ○ AdvBench ○ MaliciousInstructions ○ SimpleSafetyTests ○ StrongREJECT ○ MT-Bench 9

10.

実験：生成文の安全性の向上についての検証 ● Backtrackingにより生成文の安全性が向上 ○ SFTとDPOを組み合わせることで効果が出る ■ SFTのみでは有効性は薄い ○ 特にLlamaにおいては改善幅が顕著 ○ 生成文の有益性（MT-Bench）はモデルによっては低下が見られる 10

11.

実験：安全性と生成効率（Latency）とのトレードオフ ● [RESET]の生成確率を制御するためにマイナスのLogit biasを導入 ○ 安全なのに誤って[RESET]を生成してしまうこと（False positive）を防ぐ ■ 偽陽性はレイテンシーの上昇につながる ● Logit biasを大きくするとレイテンシーは改善されるが安全性は低下 ○ 一方で安全性検証のデータセットには有害なサンプルが現実よりも多く含まれ [RESET]が出やすく（レイテンシーに反映されやすく）なっているのはある 11

12.

実験：Adversarial attackに対する安全性 ● 静的な評価データに対しては、複数のデータセットにおいて安全性の向上が確認できた。 ● Adversarialな攻撃やJailbreakingに対してはどうか？ ● 極端な例を想定 ○ 攻撃者は言語モデルのAPIの裏にあるアーキテクチャ、重み、Backtracking手法についての情報を持っていると仮定（white-box access） ○ この条件の下で、有害な生成文を引き出すためのプロンプトを探索する ○ オープンソースの言語モデルの利用状況に近い ● Backtrackingを狙ったAdversarial attackも想定すべき 12

13.

実験：Adversarial attackに対する安全性 ● 使用するAdversarial手法 ○ Prefilling ■ ○ GCG ■ ○ 有害な応答文の尤度が高くなるようなプロンプトを探索する AutoDAN ■ ○ 肯定的な文（e.g. "Sure, I'm happy to help with that."）を挿入して有害な応答を引き出す。遺伝的アルゴリズムにより有害な応答文の尤度が高くなるプロンプトを探索する AdaptiveGCG（Backtrackingを狙ったAdversarial attack） ■ 有害な応答文（t）の尤度を上げ、かつ[reset]の尤度が低くなるプロンプトを探索する 13

14.

実験：Adversarial attackに対する安全性 ● Backtrackingにより、Adversarial attachの成功確率が大幅に低下 ○ BaselineのままではJailbreakingに対して非常に脆いことも確認 ■ 全ての攻撃で50%以上の成功率 ■ 単純な手法であるPrefillingに対しても ○ Backtrackingは、prefillingに対して効果的に[RESET]を生成しているように思える ○ 一方でAutoDANに対しては弱く、十分安全とは言えない 14

15.

Future work：LLMの他の問題への応用は可能か？ ● Backtrackingの手法自体は、他のLLMの生成に関わる問題（e.g. ハルシネーション）にも、原理的には応用可能 ○ 生成文が安全か否かの判断は生成文を見ればできる一方、ハルシネーションなどの他のエラーはよりチャレンジング（判断が難しい） 15

16.

まとめ ● [RESET]トークンの出力により有害な生成文を破棄し、生成をやり直す Backtrackingを提案した ● Backtrackingは、生成文の有益性を保ちつつ、安全性の向上につながることが、複数の評価データセットにおいて確認できた。 ● 敵対的な攻撃に対しても、既存手法と比較して高い堅牢性が示された。 ● 問題の難しさにもよるが、LLMの生成に関わる他の問題への応用も可能 16

17.

参考文献 ● L. Ouyang et al. Training language models to follow instructions with human feedback. NeurIPS. 2022. ● Y. Bai et al. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. 2022. 17