【人工知能・深層学習】論文紹介:DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration

267 Views

August 27, 24

スライド概要

M2の宮坂優樹さんが論文「DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration」の紹介を担当しました。本論文は、特に事前トレーニングされたVLMの解釈を改善するための新しい手法を提案しています。特異値分解を用いて、クラス識別アクティベーションマップをよりシンプルで独立したサリエンシーマップに分割し、ターゲットコンセプトへの貢献度に基づいて統合することで、より正確で解釈可能なサリエンシーマップを生成できたことを報告しています。

profile-image

立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。 最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。 また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。 研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。 ご興味をお持ちの方は、HPをご確認ください。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration

2.

目次 1. 2. 3. 4. 論文概要 研究背景 提案手法 実験 5.1 実験設定 5.2 データセット 5.3 評価メトリック 5. 6. 7. 8. 9. ゼロショット位置解釈 因果解釈 属性分析 まとめ 参考文献 1

3.

論文概要 タイトル: DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration 目標: 既存のCAM手法の限界を克服し、より解釈性の高い注目領域マップを生成する。 成果: 特異値分解(SVD)を用いて注目領域マップを複数の独立した成分に分解。分解した注 目領域マップを統合して総合的な注目領域マップを作成することで、各メトリックスで既存 の手法よりも良い結果が得られた。 2

4.

研究背景 1)ノイズの問題 VLMの進化により、 DLモデルのパラメータとデータの規模が拡大。これにより、活性 化マップにはより豊富な視覚概念が含まれるようになり、モデルの性能が向上。 →一方、注目領域マップを使用した信頼性のある視覚的解釈には課題があり、モデル 解釈においてノイズの影響を慎重に考慮する必要がある。 3

5.

研究背景 2)重要な要素の絡み合いの問題 従来の方法では、活性化マップに重み付け集計操作を使用して最終的な注目領域 マップを生成する。しかし、この直接的な集計アプローチには統計解析が欠けてお り、モデルが学習した重要な要素の絡み合いを引き起こす可能性がある。 →モデルが予測する際に考慮する複数の重要な特徴が相互に影響し合い、その結果、 個々の特徴の寄与度が不明確になり、解釈が難しくなる。 4

6.

提案手法 5

7.

提案手法 分解パート 6

8.

提案手法 Step1:クラス活性化マップの生成 クラスcに対するクラス活性化マップ を作成。これにより、入力画像xに対するク ラス識別活性化マップ が得られる。 7

9.

提案手法 Step2:重要なチャンネルの選択 ノイズを含む可能性のある、重要ではない チャンネルを除外する。具体的には、各チャ ンネルの勾配値に基づいて、チャンネルを ソートし、トップPの重要なチャンネルを選択 する。 8

10.

提案手法 Step3:チャンネルのベクトル化 選択されたトップPのチャンネル をベクトル化して行列 を構成。 ここで、各チャンネル はフラット化され、 ベクトル として表される。これにより、行 列 が構築される。 9

11.

提案手法 Step4:特異値分解の適用 構築された行列 に対して特異値分解を 適用。これによって共通のパターンを抽出 し、ノイズのある特徴を除去。 特異値分解の結果として、行列 は左特 異ベクトル 、対角行列 、および右特異ベ クトル に分解される。 10

12.

提案手法 Step5:再構成とアップサンプリング 再構成された特徴マップ を元の空間次元 に戻して、特徴マップ を得る。そして、各特徴マップ を入力のサイズにアップサンプルする。 ここで、アップサンプリング操作up(・)と Min-Max正規化関数s(・)を適用し、OSSMs を得る。 11

13.

提案手法 統合パート 12

14.

提案手法 Step1:OSSMの重み付け 各OSSM に対してガウシアンブラーを適用し て新しい画像 を生成。 この操作は、ガウシアンブラー操作g(・)と要素ご との最大操作max(・)を用いて、画像の一部をぼ かしている。 13

15.

提案手法 Step2:スコア差の計算 ぼかし画像 と参照画像g(I)のモデルの予測 スコアを比較して各OSSMの属性値(各 OSSMapがモデルの予測にどれだけ貢献して いるかを示すスコア)を計算。 ここでスコア差 は、ぼかし画像と参照画像 のモデルの予測スコアの差。 モデル:CLIP-ResNet50 14

16.

提案手法 Step3:ソフトマックス正規化 スコア差 に対してソフトマックス正規化 を適用し、最終的な重み を得る。 15

17.

提案手法 Step4:最終サリエンシーマップの生成 OSSMとその重みを線形結合して、最終的なサ リンシーマップ を生成。 16

18.

実験 DecomCAMの有効性を検証するために 1. ゼロショット位置解釈 モデルが事前に見たことのない画像に対してどのように反応するかを評価するた めの手法。この評価方法を採用する理由は、モデルの一般化能力と未知のデー タに対する適応力を確認するため。 2. 因果解釈 モデルの予測結果に対して特定の入力特徴がどのように寄与しているかを評価 するための手法。この評価方法を採用する理由は、モデルの内部動作と予測に 対する各特徴の因果関係を明らかにするため。 17

19.

実験設定 ・DecomCAMのハイパーパラメータを P = 100およびQ = 10に設定 𝑃:クラス識別活性化マップの中から選択されるトップ𝑃チャンネルの数を表す。勾配値の 降順に基づいてチャンネルをソートし、上位𝑃個のチャンネルを選択。 𝑄:特異値分解によって選択された主要な成分の数を表す。上位𝑄個の成分を使用するこ とで、ノイズを削減し、重要な特徴を強調。 ・CLIPのstage-4アーキテクチャの最終畳み込み層を選択 CAMベースのアプローチに類似した方法論に従い、解釈可能な視覚化を生成するために、 CLIPのstage-4アーキテクチャの最終畳み込み層を選択 18

20.

データセット ● ● ● ● ● ● ImageNet-v2 Pascal VOC 2012 MSCOCO 2017 PartImageNet PS-ImageNet PASCAL-Part 19

21.

評価メトリック ● BoxAcc: バウンディングボックスの一致度を評価。 ○ 予測ボックスと実際のボックスのIoUを計算し、一定の閾値を超える場合を正解とする。 ● MaxBoxAccV2: バウンディングボックスの位置精度の改良版。 ○ 複数のIoU閾値を使用し、各閾値での精度を平均化して評価。 ● KAM(Keep Absolute Metric): 注目領域の保持による予測スコアの変動。 ○ 注目領域が保持された場合の予測スコアの変動を測定。 ● RAM(Remove Absolute Metric): 注目領域の削除による予測スコアの変動。 ○ 注目領域が削除された場合の予測スコアの変動を測定。 ● PG-ACC(Pointing Game Accuracy): 注目領域の最も高いスコアのピクセルが実際の オブジェクトの位置に一致するかを評価。 ○ 注目領域のピークピクセルがグラウンドトゥルースのオブジェクト領域内にあるかを確認。 20

22.

ゼロショット位置解釈 さまざまな勾配ベースの CAM の顕著性マップの視覚化。 DecomCAM は一貫して他の方法よりも優れており、ノイズが少なくターゲット コンセプトに重点を置 いた顕著性マップを生成している。 結果は CLIP-ResNet50x4 バックボーンから取得されます。 21

23.

ゼロショット位置解釈 ImageNetV2:単一オブジェクトの位置特定 MSCOCO:複数オブジェクトの位置特定 PartImageNet:オブジェクト部分の位置特定 22

24.

ゼロショット位置解釈 23

25.

因果解釈 24

26.

因果解釈 PS-ImageNetにおける因果解釈可能性実験の比較結果。 CLIP-ResNet50モデルでテストパフォーマンス指標。 DecomCAMのパラメータ:P=100, Q=10 A5000 GPU and Intel(R) Core(TM) i9-10900X @ 3.70GHZ CPU. 25

27.

属性分析 これまでの実験を経て 分解プロセス中に生成されるOSSM の恩恵を受け、これにより活性化マップから重 要な要素を抽出し、正確な顕著性マップを作成できた。 疑問 →これらの要素は、飛行機の車輪、エンジン、翼など、ターゲットコンセプトのコン ポーネントに直接対応できるか?つまりOSSMが、視覚的な概念の中で具体的な物 理的構造を正確に反映しているかどうか。 26

28.

属性分析 PASCAL-Part データセットにおける OSSM のリコール率。 この棒グラフは、評価に CLIP-ResNet50x4 を使用して、上位 i 個の特異値に対す る OSSM のリコール率を示す。x軸は特異値のインデックス i を表し、各 OSSM に 割り当てられた重要度のランクを示している。 27

29.

属性分析 OSSM を使用した視覚概念のローカリゼーション。 28

30.

属性分析 29

31.

属性分析 30

32.

まとめ 分解による解釈可能性の向上 ● 特異値分解により、活性化マップから重要な要素を抽出し、ノイズを削減。 ● DecomCAMは、より正確なサリエンシーマップを生成。 カテゴリレベルの解釈 ● DecomCAMは、モデルがどの属性に基づいて予測しているかを解釈可能に。 ● カテゴリの属性ごとの寄与を定量化し、モデルの認識基準を評価。 倫理的配慮とモデルの透明性 ● DecomCAMは、モデルが偏った特徴に依存していないかを検出。 ● 公平で倫理的なAIシステムの開発に貢献。 課題 ● ピクセルレベルのパターン抽出の必要性。 ● データセット全体での適用の研究が必要。 31

33.

参考文献 DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration Yuguang Yang, Runtang Guo, Sheng Wu, Yimi Wang, Linlin Yang, Bo Fan, Jilong Zhong, Juan Zhang, Baochang Zhang https://arxiv.org/abs/2405.18882 32

35.

Appendix 34