180 Views
July 17, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] SAFECHAIN: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities Presenter: Sayaka Yamashita, Matsuo-Iwasawa Lab http://deeplearning.jp/ 1
書誌情報 • 論文名 – SAFECHAIN: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities (2025) • 著者 – Fengqing Jiang, Zhangchen Xu, Yuetai Li, Luyao Niu, Zhen Xiang, Bo Li, Bill Yuchen Lin, Radha Poovendran • 発表学会 – ICLR 2025 Workshop on Bidirectional Human-AI Alignment (BiAlign) • リンク – https://arxiv.org/pdf/2502.12025 – https://safe-chain.github.io/ 2
論文を選んだきっかけ 1. Chain-of-Thought(CoT)推論の実用拡大に対する関心 • CoTは数学やコーディングのような高難度タスクにおいて大きな効果を持つ推論モデルが、Deep Seekやo1、Geminiなどとかなり普及する中でCoTを使ったモデル構築に関心があり、“高性能”と “安全性”のトレードオフに疑問を感じた。 2. LLMの社会実装における「安全性」への問題意識 • 強力なLLMは倫理的に問題のある出力を生成してしまうことがあり、それが社会的信用を損なう リスクになっていると感じており、特にCoTは思考過程が長く、途中で有害なロジックを含む可 能性が高いとされるためその安全性の解決に興味があった。 3. 他領域からの興味 • Web AI Agentに関する研究をしている中で社会実装のために現状の技術における壁を乗り越える 様子などに通じるものを感じて関心を持った。また、社会実装や倫理的責任にも関心があり、ど うすれば安全かつ説明可能なAIが構築できるかに興味がある。 3
概要 • Chain-of-Thought(CoT)を使う大規模言語モデル(LRMs)の安全性に焦点を 当てた初の体系的研究 • 課題:CoTは推論精度を高めるが、安全性が保証されず、有害な思考過程や回答 を生成するリスクがある。 • 貢献: – Llama-Guardなどを用いた新しい安全性評価指標を提案。 – 各種LRMをStrongReject/WildJailbreakデータセットで評価し、モデルサイズ と温度設定が安全性に影響することを示す。 – 安全性向上のための思考制御戦略(ZeroThink, LessThink, MoreThink)を提 案し、ZeroThinkが最も効果的と判明。 – 世界初のCoTスタイル安全学習データセット「SAFECHAIN」を構築し、Finetuningにより安全性を大幅に改善しつつ推論性能も維持できることを実証。 4
Introduction 背景: LLMsが高度な推論能力を発揮する中、Chain-of-Thought(CoT)を用いた大型推論モデル (LRMs)が登場しており、特に数学やコーディングなど複雑なタスクに有効である。 問題提起: CoTによって推論能力は向上するが、安全性は必ずしも担保されない。途中の思考過程に 有害情報やポリシー違反が含まれる恐れがある。 目的: CoTに基づいた長文出力に対応した新しい安全性評価手法の提案 安全性と推論性能の両立を可能にするデータセット「SAFECHAIN」の構築と評価
Preliminary: LRMs with Long CoT 定義: x: 指示 (推論の思考過程) (最終回答) 特徴:LRMは複数の思考分岐を試行可能で、誤り修正も含む。OpenAIのoシリーズのように思考を 隠すモデルと、DeepSeekのように表示するモデルがある。
Safety Evaluation of LRMs Safety Evaluatorsのパイロット調査 ・評価基準:Accuracy, F1スコア, Pearson相関係数 ・結果:Llama-Guardが最も一貫性のある性能を発揮 実験設定 ・モデル:DeepSeek-R1-8、Gemini-Thinking、Kimi-k1.5など ・データセット: StrongReject:ポリシー違反の質問310件 WildJailbreak:実際のやり取りから生成された脱獄プロンプト 評価指標: 各質問に対しK個生成し 安全性を測る
Safety Evaluation of LRMs • 発見1:最先端のLRMの安全性性能は改善されるべきである (Finding 1: Safety performance of SOTA LRMs should be improved.) すべての構成におけるSafe@1、Safe@K、ConsSafe@Kを使用して評価された最先端のLRMの安全性 性能をまとめたものである。StrongRejectとWildJailbreakの両方のデータセットで、どのモデルも強 力な安全性性能を示していないことが観察され、LRMは安全性のためにさらなるアライメントが必 要であることが示唆される。
Safety Evaluation of LRMs • 発見1:最先端のLRMの安全性性能は改善されるべきである (Finding 1: Safety performance of SOTA LRMs should be improved.) StrongRejectとWildJailbreakの両方のデータセットで、どのモデルも強力な安全性性能を示していな いことが観察され、LRMは安全性のためにさらなるアライメントが必要であることが示唆される。 • 発見2:モデルがスケーリングするにつれて安全性性能は向上する (Finding 2: Safety performance improves as model scales.) 同じモデルファミリー内(DeepSeek-R1-1.5BからR1まで)では、モデルサイズが大きくなるにつれ て安全性が向上することが観察された。
Safety Evaluation of LRMs • 発見3:LRMからの安全でない応答は安全な応答よりも長くなる傾向がある (Finding 3: Unsafe responses from LRMs are likely to be longer than safe ones.) 安全でない応答はより多くのトークンを使用する傾向があり、したがって安全な応答よりも長くな る傾向が見られる。
Safety Evaluation of LRMs • 発見4:長いCoTを学習しても必ずしも安全性が向上するわけではない (Finding 4: Learning long CoT does not necessarily enhance safety.) ・R1-70BはLlama-Baseを上回り、76.6%のクエリに対して安全な応答を生成した。R1-70BがLlama-3Instructをベースモデルとして使用して安全性ファインチューニングを受けているためと推測される。 ・ 長いCoTでファインチューニングされた後(R1-70BとLlama-3-Instructの比較で)安全性性能が低 下する。特に、Llama-3-Instructは安全な応答の生成において45.7%の勝率を示し、長いCoTでのファ インチューニングが必ずしも安全性性能を向上させないことを示唆している。
Safety Evaluation of LRMs • 発見5:温度が安全性に影響する (Finding 5: Temperature affects safety.) 異なるデコーディング設定下でのLRMの安全性を見た際に、温度が上昇するにつれて、LRMの安全 性性能は低下するとわかる。 例えば、R1-7BのSafe@Kは、温度が1.2に上昇すると30%から20%未満に低下する。ただし、top-pデ コーディングのp値とtop-kデコーディングのk値は、安全性にそれほど大きな影響を与えてない。
Safety of LRMs’ Thought and Answer Fine-grained Safety Analysis 結果: 「思考」「回答」両方が安全:41.1% unsafeな思考→unsafeな回答になる可能性が高い Thinking戦略による比較 ZeroThink:CoTなし(<think></think>)→ 最も安全 LessThink:最小限のCoT(短い文)→ 中程度の効果 MoreThink:長く思考させる(反省を促す)→ 一部有効 • 発見6:ZeroThinkはモデルトレーニングなしで最も効果的にモデルの安全性を向上させる (Finding 6: ZeroThink enhances model safety most effectively without model training.) すべてのデコーディング戦略は、デフォルト設定よりも安全性が向上することが観察された。 特に、ZeroThinkが最高の安全性性能を達成した。ZeroThinkとLessThinkはモデルの思考プロセスを 無効にして、安全でない思考プロセス生成を防ぎ、本能的な安全意識に基づき応答を生成する。 MoreThinkも推論パスを探求する際に、長いコンテキストがモデルに推論過程で特に安全でない応答 につながる可能性のあるものを反省させて、安全でない挙動を軽減できる。
Safety of LRMs’ Thought and Answer
SAFECHAIN Dataset データセット構築 目的:LRMの思考込み出力に対応した安全なデータセット 手法:WildJailbreakから指示文50K件選出 → R1-70Bで5つずつ応答生成 → Llama-Guardで全応答が安 全なものだけ採用 → 40KペアのSAFECHAINを構築 5.2 実験設定 モデル:R1-7B(Qwen系列)およびR1-8B(LLaMA系列) 評価項目: Math:GSM8K, MATH-500, AIME 2024 Coding:HumanEval, MBPP, LiveCodeBench Safety:StrongReject, WildJailbreak 精度:pass@1、安全性:Safe@1 5.3 結果 SAFECHAIN: 安全性向上 + 数学・コーディング性能の維持 WJ-40K(GPT-3.5応答ベース): 安全性は高いが、推論性能が大幅に低下
Related Work Wei et al. (2022) Chain-of-Thought(CoT)プロンプティングがLLMsの複雑な推論能力を向上させることを初めて示した。 Kojima et al. (2022) Zero-shot設定でも「Let’s think step by step」といった簡単なプロンプトでCoTを引き出せることを示した。 Muennighoff et al. (2025) 長いCoTを生成するテスト時思考制御アルゴリズム(minimum-forcingなど)を提案した。 Guan et al. (2024) LLMに対するalignment強化手法(deliberative alignment)を提案し事後的な安全性改善の効果と限界を議論した。 Jiang et al. (2024c) 「WildJailbreak」データセットを提案し、脱獄プロンプトを用いた実践的な安全性評価を可能にした。 Mazeika et al. (2024) HarmBenchを導入しRed-teamingや拒否性能に基づくLLMの安全性評価フレームワークを提供した。 Inan et al. (2023) Llama-Guardを開発し、入力と出力の両方に対する安全性フィルタリングを可能にする実用的なツールを提示。 SAFECHAINでは最も信頼性の高い評価器として利用された。 Xiang et al. (2024) CoTが逆に「有害な論理展開」を助長する可能性を示し、Backdoor Chain-of-Thought攻撃という新リスクを提起した Zou et al. (2023) 脱獄プロンプトに対してRefusal String Matchingなどの防御がいかに簡単に回避され得るかを明らかにした。 Jaech et al. (2024) OpenAIのo1モデルのシステムカードを通じ、CoTによる強力な推論能力の実装と安全性管理の難しさを解説した。
Conclusion • 最先端のLRMが採用している思考連鎖CoTは、推論能力を高めるが、 安全性は保証されない。 • 推論能力を維持しながらLRMをファインチューニングするデータセッ トであるSAFECHAINを使えば、安全性と性能の両立が可能。 DeepSeek-R 1-1.5BやDeepSeek -R 1-7Bにおいて既存データセット を上回ることを示した • 将来的には、多言語対応やマルチターン評価に拡張予定。 17