【AAAI論文読みLT会】Black-Box型Backdoor攻撃の検出

117 Views

August 12, 24

スライド概要

2024年8月10日に実施した、KaiRA×スクラムサイン共催の「AAAI論文読みLT会」の発表資料

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

AAAI論文読みLT会 2024/08/10 Black-Box型Backdoor攻撃の検出 京都大学 理学部 理学科 B1 栗岡 幸作 0

2.

自己紹介 くりおか こうさく 栗岡 幸作 • 京都大学理学部理学科B1 • 純粋応用問わず、数学に興味があります。 • 奈良県出身 • 中高:陸上部 大学:ランニングサークル • ドストエフスキーが好きです。 1

3.

書誌情報 今回する紹介する論文 論文:Inspecting Prediction Confidence for Detecting Black-Box Backdoor Attacks 著者:Wang, T., Yao, Y., Xu, F., Xu, M., An, S., & Wang, T DOI:https://doi.org/10.1609/aaai.v38i1.27780 画像分類モデルに対するブラックボックス型バックドア攻撃のモデル検知の新手法の提案 2

4.

アジェンダ n タスクの内容 n 従来の手法 n 提案手法: DTINSPECTOR n 実験結果 n まとめ 3

5.

アジェンダ n タスクの内容 n 従来の手法 n 提案手法: DTINSPECTOR n 実験結果 n まとめ 4

6.

タスクの内容 ディープラーニングモデルに対するバックドア攻撃は脅威的である 訓練時 推論時 訓練データに攻撃者がトリガーを埋め込み 標的ラベルへ分類させるようにする “止まれ” オリジナルラベル 推論時に攻撃者はトリガーを注入することで モデルの誤作動を誘発させる 時速80km で前進 “時速80km で前進” ポイズンデータ トリガー 標的ラベル 5

7.

タスクの内容 ディープラーニングモデルに対するバックドア攻撃は脅威的である • 訓練データを汚染することで画像認識モデルの誤作動を誘発 • Backdoor攻撃の脅威 1)ステルス性:攻撃は標的ラベル以外への分類の精度は低下させない 2)攻撃の効率性:汚染された入力を高確率で標的ラベルに分類する →Backdoor攻撃の検出が問題 https://doi.org/10.48550/arXiv.1708.06733 6

8.

アジェンダ n タスクの内容 n 従来の手法 n 提案手法: DTINSPECTOR n 実験結果 n まとめ 7

9.

従来の手法 Backdoor攻撃の検出手法として様々な手法が提案されてきた。 • しかし、そのそれぞれに弱点があり、さらに最新の攻撃手法は巧妙化 今までの手法;NC(2019); トリガーサイズに精度が依存 ABS(2019);複数トリガーによる複数ラベルへの攻撃(MTMT)に脆弱 ULP(2020) MNTD(2021) ; 見えないトリガーによる攻撃に脆弱 最新の攻撃手法 → • ピクセル領域への攻撃ではなく、周波数領域への攻撃[FTROJAN(2022)] 今までの防御策では対応できない! 新たな手法;DTINSPECTORの提案 8

10.

アジェンダ n タスクの内容 n 従来の手法 n 提案手法: DTINSPECTOR n 実験結果 n まとめ 9

11.

提案手法 〜Key Observation バックドア攻撃が有効であるためには、ポイズンデータの予測信頼度が高くなってしまう。 • (b)において、ポイズンデータの予測信頼度の分布がクリーンデータに比べて小さいのもポイント 10

12.

提案手法 〜手法概説 トリガーを無効化させたら、ポイズンデータは元のラベルに分類される Step 1 ラベル毎に高信頼度と低信頼度のデータ を同数サンプリング Step Step 2 2 高信頼度のデータをラベルが別のものに 変わるようにパッチを最適化 Step 3 Step2でのパッチを低信頼度のものに 適用させて学習させ、ラベル変化率を計算 Step 4 ラベル変化率を元に異常指数を計算 その値が閾値より高かったならば バックドアモデルである。 学習済みパッチをターゲットラベルのサンプルに適用して、異なるラベルに分類されるものは トリガー画像なので除去して、再訓練することでバックドアの影響を軽減することもできる(後述) 11

13.

提案手法 〜手法概説 標的ラベルの学習済みパッチはポイズンデータのラベルだけを変化させる Step 2 オリジナルラベル ポイズンデータ 標的ラベル 良性データ トリガー領域を破壊するだけ→良性データには作用しない https://doi.org/10.48550/arXiv.1708.06733 12

14.

提案手法 〜パッチの最適化 別のラベルへ分類されるようにパッチを最適化する • パッチとして順序対(𝑀, 𝑃)と定義する。 𝑀は2Dマスク、 𝑃は3Dパッチピクセル • この時以下の最適化問題としてStep2は定式化される。 max $ 𝑓(𝑔 𝑥 ' , 𝑒 ( ) − 𝜆 𝑀 ) !,# • 𝑠. 𝑡. Step 2 𝑥' = 1 − 𝑀 ⊙ 𝑥 + 𝑀 ⊙ 𝑃 (式1) $∈&! 攻撃されていないラベル→学習済みパッチは低信頼度のデータにとってノイズ →低信頼度のデータもラベルが変化する ターゲットラベル→トリガー領域を破壊するだけでラベルは変わる(元々分類されるラベル) →トリガー領域を破壊しただけの学習済みパッチは良性データには影響しない 13

15.

アジェンダ n タスクの内容 n 従来の手法 n 提案手法: DTINSPECTOR n 実験結果 n まとめ 14

16.

実験結果 実験に用いられたデータセット、アーキテクチャ、攻撃手法、防御手法は以下の通り Step 2 比較する防御手法;NC,ABS,ULP,MNTD DTINSPECTORのハイパーパラメータは(式1)のλ、高信頼度、低信頼度のデータサンプル数 15

17.

実験結果 バックドア攻撃に対する防御は殆どのケースで提案手法が有効であった。 Step 2 実験結果の中で有効でなかったケースはPubFigに対するREFOOLによる攻撃であった。 REFOOL攻撃のトリガー領域は画像の中心など顔画像にとって重要な領域であることが理由として挙げられる。 画像修復技術を用いた更なる改良が今後の課題 16

18.

実験結果 学習済みパッチは画像のトリガー領域を特定できる BADNET SIG Step 2 TROJANNN REFOOL CL FTROJAN 補足:学習済みパッチはトリガー全体を消去する必要はなく、別のラベル(元々のラベル)に分類されるようにだけ消去すれば良い 17

19.

実験結果 高度なバックドア攻撃に対しては提案手法が従来の手法を凌駕する結果であった。 Step 2 DTIは全ての攻撃を検出できた。 また、MTOT攻撃に対してNCがトリガーを一つしか検出 できていないのに対して、DTIは全てのトリガーの検出に 成功した 今回は時間の制約上紹介できませんが、原論文では攻撃のトリガーの大きさなどに対しても提案手法は頑強であることが 述べられていました。 18

20.

実験結果 DTIを用いてバックドアの影響を軽減することが多くのケースで有効であった Step 2 MTMT攻撃に対しては再訓練時の正確度が大幅に低下している。理由として、ポイズンデータが多くなってしまうのでそれを 除去すると訓練データ全体のサイズが縮小してしまったことが挙げられる。 単純に汚染サンプルを除去しないようにする手法の開発が今後の課題。 19

21.

アジェンダ n タスクの内容 n 従来の手法 n 提案手法: DTINSPECTOR n 実験結果 n まとめ 20

22.

まとめ まとめ1 まとめ2 まとめ3 有効なバックドア攻撃を実現するためには、攻撃者はポイズンデータの高い 予測信頼度を達成しなければならない。 DTINSPECTORは 1)攻撃されたモデルと標的ラベルを正確に検出できる 2)高度な攻撃などに対する有効性の点で従来の手法を凌駕する 3)バックドアの影響を軽減することができる 筆者の今後の課題:同じアイデアを自然言語モデルなどに拡張すること 21