[DL輪読会]Attention is not Explanation (NAACL2019)

332 Views

April 22, 19

#deep learning #Deep Learning #Attention #Explanation #NLP #Japanese Content

スライド概要

2019/04/12
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 36.9K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 36.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Attention is not Explanation (NAACL2019)” Yoshifumi Seki, Gunosy http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ● タイトル: Attention is not Explanation ● 著者:Sarthank Jain, Byron C. Wallace ○ Northeastern University ● 投稿先 ○ NAACL2019 ● 選定理由 ○ Twitter等で話題になっていた ○ Attentionの結果がExplanationだと解釈して利用するシステムを研究開発しており、クリティカルだった 2

大まかな概要 ● 言語処理タスクにおいてAttentionの重みは、モデルの説明性と関連すると言われているが明確な証明はない ● ３つのNLPタスクでAttentionを意味を検証してみる ● Gradient、Leave-One-Outで相関をみた ○ ぜんぜん相関してないから、あかんのでは？ ● 異なるAttentionをあててみた ○ 並び替える -> 結果があまり変わらない ○ Attentionを大きく変えつつ、結果をあまり変えないようにAdversarial Attentionしてみる -> できた！ ● AttentionのHeatmapは解釈性として使うのはほとんど意味ないのでは？ 3

モデル: Bi-RNN ● input x \in R^{T × |V| } ○ composed one hot encoded word each position ● x_e \in R^{T × d} ○ embedding matrix Eによる埋め込み(次元d) ● h = Enc(x_e) \in R^{T × m} ○ 隠れ層 ● y = σ(θ, h_α) \in R^|y| ○ h_α = Σ α_t h_t 5

タスクとデータセット 6

AttentionとFeature Importanceの相関 ● AttentionとGradientの順序をKendall距離で比較 ○ Kendall距離: 2つのリストの不一致なものの数 ● Leave one out => 単語を系列から覗いたときの精度を比較する ○ 7

結果=> 相関係数低め 8

結果 => 分布全体、これでも低いことがわかる 9

10.

疑問点 ● AttentionってSoftmaxかかっているから、全部の位置関係見るKendall距離ってどうなの？ ○ 小さいところのごちゃごちゃした順番の違いに過剰反応しそう ● Averageの相関係数高いの当たり前だよね？MLPのWeightだから実質一緒だし ○ averageはaxivの[v1]にはない => つまり投稿バージョンにはない ■ 多分査読で、相関係数をなにかと比較すべきみたいなコメントにより追加された？ ○ Attentionの相関係数が何と比べて低いのかという議論は不十分 ● LLO、RNNでやったら順序情報なくなるからAttentionの意味めっちゃ変わるのでは、、、？ ● 例えば一番高いのだけ一致しているとか見てみるといいのかな ○ コード公開されているので、時間見つけてやってみたい 10

11.

Counterfactual Attention Weight ● Attention Permutation ● Adversarial Attention 11

12.

Permuting Attention Weight ● Attentionをランダムにシャッフルして結果を求める ○ hは変えない ● 出力結果の差のMedianを求める 12

13.

結果 => Attentionによって結果は大きく変化しない 13

14.

Adversarial Attention ● 結果が大きく変化しないようにAttentionを変化させる 14

15.

16.

17.

18.

19.

Discussion and Conclusion ● AttentionのHeatmapがモデルの解釈性に与える意味はあまりないと言える ● Limitation ○ Gradientが解釈性として正しいと主張するつもりはない ○ 今回の実験は一部のAttention機構のみが対象である。次はSeq2seqをやるつもり 19

20.

お気持ち ● 言わんとすることはわからんでもないけど主張が強いのでは？と思った ○ そもそもAttentionはそこまで結果に強い影響与えないのはよく言われていて、補正としての意味合いが強い ○ 補正なんだから、Gradientとの相関強くないのはそうだし、相関のとり方もうーん ○ permutationは、hを固定してAttentionを変化させても結果があまり変わらないということだけど、これは解釈性ではなく、Attentionがタスクの精度に与える影響の議論 ■ タスク依存、もしくは小さな改善という話なのでは ○ Adversarialはhとθ固定してそのように学習してるんだから、都合よく影響少ないとこ探せばいいよね、という感じ。 ■ 0.69てイプシロンとして適切なの？ ■ そもそも学習してるけど、どんぐらいAttention変えられたの？ ● とはいえ、簡単に解釈性とかいうのはよくないのはそうだねという気持ち 20