【AAAI論文読みLT会】Black-Box型Backdoor攻撃の検出

664 Views

August 12, 24

#aaai論文読みlt会 #Deep Learning #Backdoor Attack #Model Detection #Machine Learning Security #Adversarial Machine Learning

スライド概要

2024年8月10日に実施した、KaiRA×スクラムサイン共催の「AAAI論文読みLT会」の発表資料

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 22.2K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.2K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 12.7K

各ページのテキスト

AAAI論文読みLT会 2024/08/10 Black-Box型Backdoor攻撃の検出京都大学理学部理学科 B1 栗岡幸作 0

自己紹介くりおかこうさく栗岡幸作 • 京都大学理学部理学科B1 • 純粋応用問わず、数学に興味があります。 • 奈良県出身 • 中高：陸上部大学：ランニングサークル • ドストエフスキーが好きです。 1

書誌情報今回する紹介する論文論文：Inspecting Prediction Confidence for Detecting Black-Box Backdoor Attacks 著者：Wang, T., Yao, Y., Xu, F., Xu, M., An, S., & Wang, T DOI：https://doi.org/10.1609/aaai.v38i1.27780 画像分類モデルに対するブラックボックス型バックドア攻撃のモデル検知の新手法の提案 2

https://doi.org/10.1609/aaai.v38i1.27780

アジェンダ n タスクの内容 n 従来の手法 n 提案手法： DTINSPECTOR n 実験結果 n まとめ 3

アジェンダ n タスクの内容 n 従来の手法 n 提案手法： DTINSPECTOR n 実験結果 n まとめ 4

タスクの内容ディープラーニングモデルに対するバックドア攻撃は脅威的である訓練時推論時訓練データに攻撃者がトリガーを埋め込み標的ラベルへ分類させるようにする “止まれ” オリジナルラベル推論時に攻撃者はトリガーを注入することでモデルの誤作動を誘発させる時速80km で前進 “時速80km で前進” ポイズンデータトリガー標的ラベル 5

タスクの内容ディープラーニングモデルに対するバックドア攻撃は脅威的である • 訓練データを汚染することで画像認識モデルの誤作動を誘発 • Backdoor攻撃の脅威 1)ステルス性：攻撃は標的ラベル以外への分類の精度は低下させない 2)攻撃の効率性：汚染された入力を高確率で標的ラベルに分類する →Backdoor攻撃の検出が問題 https://doi.org/10.48550/arXiv.1708.06733 6

https://doi.org/10.48550/arXiv.1708.06733

アジェンダ n タスクの内容 n 従来の手法 n 提案手法： DTINSPECTOR n 実験結果 n まとめ 7

従来の手法 Backdoor攻撃の検出手法として様々な手法が提案されてきた。 • しかし、そのそれぞれに弱点があり、さらに最新の攻撃手法は巧妙化今までの手法；NC(2019); トリガーサイズに精度が依存 ABS(2019)；複数トリガーによる複数ラベルへの攻撃(MTMT)に脆弱 ULP(2020) MNTD(2021) ；見えないトリガーによる攻撃に脆弱最新の攻撃手法 → • ピクセル領域への攻撃ではなく、周波数領域への攻撃[FTROJAN(2022)] 今までの防御策では対応できない！新たな手法；DTINSPECTORの提案 8

10.

アジェンダ n タスクの内容 n 従来の手法 n 提案手法： DTINSPECTOR n 実験結果 n まとめ 9

11.

提案手法〜Key Observation バックドア攻撃が有効であるためには、ポイズンデータの予測信頼度が高くなってしまう。 • (b)において、ポイズンデータの予測信頼度の分布がクリーンデータに比べて小さいのもポイント 10

12.

提案手法〜手法概説トリガーを無効化させたら、ポイズンデータは元のラベルに分類される Step 1 ラベル毎に高信頼度と低信頼度のデータを同数サンプリング Step Step 2 2 高信頼度のデータをラベルが別のものに変わるようにパッチを最適化 Step 3 Step2でのパッチを低信頼度のものに適用させて学習させ、ラベル変化率を計算 Step 4 ラベル変化率を元に異常指数を計算その値が閾値より高かったならばバックドアモデルである。学習済みパッチをターゲットラベルのサンプルに適用して、異なるラベルに分類されるものはトリガー画像なので除去して、再訓練することでバックドアの影響を軽減することもできる（後述） 11

13.

提案手法〜手法概説標的ラベルの学習済みパッチはポイズンデータのラベルだけを変化させる Step 2 オリジナルラベルポイズンデータ標的ラベル良性データトリガー領域を破壊するだけ→良性データには作用しない https://doi.org/10.48550/arXiv.1708.06733 12

https://doi.org/10.48550/arXiv.1708.06733

14.

提案手法〜パッチの最適化別のラベルへ分類されるようにパッチを最適化する • パッチとして順序対(𝑀, 𝑃)と定義する。 𝑀は2Dマスク、 𝑃は3Dパッチピクセル • この時以下の最適化問題としてStep2は定式化される。 max $ 𝑓(𝑔 𝑥 ' , 𝑒 ( ) − 𝜆 𝑀 ) !,# • 𝑠. 𝑡. Step 2 𝑥' = 1 − 𝑀 ⊙ 𝑥 + 𝑀 ⊙ 𝑃 (式１) $∈&! 攻撃されていないラベル→学習済みパッチは低信頼度のデータにとってノイズ →低信頼度のデータもラベルが変化するターゲットラベル→トリガー領域を破壊するだけでラベルは変わる（元々分類されるラベル） →トリガー領域を破壊しただけの学習済みパッチは良性データには影響しない 13

15.

アジェンダ n タスクの内容 n 従来の手法 n 提案手法： DTINSPECTOR n 実験結果 n まとめ 14

16.

実験結果実験に用いられたデータセット、アーキテクチャ、攻撃手法、防御手法は以下の通り Step 2 比較する防御手法；NC,ABS,ULP,MNTD DTINSPECTORのハイパーパラメータは（式1）のλ、高信頼度、低信頼度のデータサンプル数 15

17.

実験結果バックドア攻撃に対する防御は殆どのケースで提案手法が有効であった。 Step 2 実験結果の中で有効でなかったケースはPubFigに対するREFOOLによる攻撃であった。 REFOOL攻撃のトリガー領域は画像の中心など顔画像にとって重要な領域であることが理由として挙げられる。画像修復技術を用いた更なる改良が今後の課題 16

18.

実験結果学習済みパッチは画像のトリガー領域を特定できる BADNET SIG Step 2 TROJANNN REFOOL CL FTROJAN 補足：学習済みパッチはトリガー全体を消去する必要はなく、別のラベル（元々のラベル）に分類されるようにだけ消去すれば良い 17

19.

実験結果高度なバックドア攻撃に対しては提案手法が従来の手法を凌駕する結果であった。 Step 2 DTIは全ての攻撃を検出できた。また、MTOT攻撃に対してNCがトリガーを一つしか検出できていないのに対して、DTIは全てのトリガーの検出に成功した今回は時間の制約上紹介できませんが、原論文では攻撃のトリガーの大きさなどに対しても提案手法は頑強であることが述べられていました。 18

20.

実験結果 DTIを用いてバックドアの影響を軽減することが多くのケースで有効であった Step 2 MTMT攻撃に対しては再訓練時の正確度が大幅に低下している。理由として、ポイズンデータが多くなってしまうのでそれを除去すると訓練データ全体のサイズが縮小してしまったことが挙げられる。単純に汚染サンプルを除去しないようにする手法の開発が今後の課題。 19

21.

アジェンダ n タスクの内容 n 従来の手法 n 提案手法： DTINSPECTOR n 実験結果 n まとめ 20

22.

まとめまとめ１まとめ２まとめ３有効なバックドア攻撃を実現するためには、攻撃者はポイズンデータの高い予測信頼度を達成しなければならない。 DTINSPECTORは１）攻撃されたモデルと標的ラベルを正確に検出できる２）高度な攻撃などに対する有効性の点で従来の手法を凌駕する３）バックドアの影響を軽減することができる筆者の今後の課題：同じアイデアを自然言語モデルなどに拡張すること 21