[DL輪読会]Attention InterpretabilityAcross NLPTasks

395 Views

September 27, 19

#deep learning #Deep Learning #Attention Interpretability #NLP #BERT #Experiment

スライド概要

2019/09/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Attention Interpretability Across NLP Tasks Masaki Tashiro, Keio University http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • Attention Interpretability Across NLP Tasks • https://arxiv.org/abs/1909.11218 • Shikhar Vashishth, Shyam Upadhyay, Gaurav Singh Tomar, Manaal Faruqui 選んだ理由 • Attentionの解釈性について興味があったから＊断りのない限り, 図は論文より引用 2

概要背景・課題 • Attentionの解釈可能性については議論があり、意味のある説明を提供しないという説としているという説がある提案 • NLPの複数のタスクにおけるAttentionの役割を実験することでAttentionが意味のある説明をもたらす条件を提案結論 • Gating unitとして解釈できるsingle sequence taskにおいてはattentionは説明を提供しない 3

背景 Attentionの解釈について • BERT rediscovers the classical NLP pipeline(ACL 2019) • Analyzing the structure of attention in a transformer language model(BlackBoxNLP, 2019) • What does BERT look at? an analysis of bertʼs attention(BlackBoxNLP, 2019) 4

背景 Attentionによる説明に対する疑問 • Attention is not Explaination(NAACL 2019) ØAttentionの変化が結果に変化を与えないことがある ØAttentionとgradientベースの⼿法の相関の低さ • Is Attention Interpretable?(ACL 2019) ØAttentionが⾼い部分を低くしても影響が⼩さい Attentionに対する疑問に対する反論 • Attention is not not explanation(EMNLP, 2019) 5

課題 • Attentionによる解釈が可能になれば、先⾏研究のように多くの情報をモデルから読み取れる可能性 • Attentionの解釈可能性に関する議論が進んでおらず説明として信頼できるか不明 • Attentionの解釈可能性について実験をしたタスクが少なく⼀般化できるのか不明 6

結論 • Attentionが単にgating unitの役割になってしまっている場合 attentionの説明は意味をなさない Attention Gating unit 7

実験したタスク⼤きく分けて三つのタスク • Single Sequence tasks (1) SST (2) IMDB (3) Yelp 2017 • Pair Sequence tasks (1) SNLI (2) MNLI (3) CNN News Articles (4) babI • Generation tasks (1) Multi 30k (2) En-De News Commentary (3) WMT13 8

実験に利⽤したモデル Single Sequence Models • Encoder : Glove + Bi-RNN • Attention • Decode : Dense layer 9

10.

実験に利⽤したモデル Single Sequence Models • Hierarchical attention model[Yang+ 16] 10

11.

実験に利⽤したモデル Pair Sequence Models • Encoder : Separate RNN • Attention • Decode : Dense layer 11

12.

実験に利⽤したモデル Pair Sequence Models • Rocktaschelらによって提案されたモデル • Premise部分とHypothesis部分のencode時に独⽴のlstmを使うのをやめる出典 : https://arxiv.org/abs/1509.06664 12

https://arxiv.org/abs/1509.06664

13.

実験に利⽤したモデル Generation Models • Encoder : Globe + Bi-RNN • Attention (1) (2) • Decode : RNN 13

14.

実験に利⽤したモデル • Attentionの掛け⽅の違いについても考えるためにそれぞれのタスクにおいて self-attentionベースのモデルついても試している • Single-Headed Attention 出典 : https://arxiv.org/abs/1706.03762 14

15.

実験に利⽤したモデル • BERT (Bidirectional Encoder Representations from Transformers) • 汎⽤的な⾔語表現モデルで総合的な⾔語理解能⼒を試す GLUEにおいて⾶躍的なスコアの向上を達成詳しくはこちらを参考 • https://qiita.com/KosukeSzk/items/4b74b5cce84f423b7125 出典 : https://arxiv.org/abs/1810.04805 15

16.

実験に利⽤したモデル Transformer • 2017年にAttention Is All You Need にて提案されたモデル • 機械翻訳において主流であった RNNやLSTMを⽤いずにSOTAを達成した出典 : https://arxiv.org/abs/1706.03762 16

https://arxiv.org/abs/1706.03762

17.

実験1 : attentionのかけ⽅の変化と性能の関係 • Attentionのweightを①uniform②random③permuteした結果性能がどのように変化するのか調べた • 条件としてattentionをtrain/infer両⽅で固定するものとinfer 時のみ固定するものを試し⽐較した 17

18.

実験1 : attentionのかけ⽅の変化と性能の関係タスク : Single Sequence tasks 結果 : 1. train/inferで固定するとweightの変化に頑健なモデルができる 2. Permuteによるスコアの減少は4.2あたりでattentionの変化が与える影響は⼩さいといえる 18

19.

実験1 : attentionのかけ⽅の変化と性能の関係タスク : pair sequence tasks, generation tasks 結果 : 全体的に⼤きくスコアが減少 19

20.

実験1 : attentionのかけ⽅の変化と性能の関係オリジナルのモデルとPermuteモデルのTVD distanceと Max attentionの関係 TVD distance … 出⼒がどの程度変わったか 20

21.

実験1 : attentionのかけ⽅の変化と性能の関係オリジナルのモデルとPermuteモデルのTVD distanceと Max attentionの関係 • Singleは影響が⼩さい • Max attentionが⼤きい時に影響が⼤きい 21

22.

実験2 : attentionの重みとfeature importanceの関係 • Attentionの重みがmaxのものを取り除いた時とrandomに選んで取り除いた時の予測の違いを⾒たい • オリジナルの予測をp, maxのものを除いた予測をq(i*), randomに選んで取り除いたものの予測をq(r)として JS(p, q(i*))とJS(p, q(r))の差をみる 22

23.

実験3 : self-attentionベースのモデルにおける影響 • Self-attentionベースのモデルにおいて同様の傾向が⾒られるのか確認した • 結果を⾒てみるとsingle sentence task(IMDB)においてもスコアの減少が⾒られた • Self-attentionが命題 4.1の条件を満たしていなかったから 23

24.

実験4 : Attentionによる説明の⼈⼿評価 • Attentionが最も⾼い3つを根拠として提⽰し、それが意味を持っているかどうかを⼈⼿で評価した • その際に100個の例では上記の⽅法で根拠を選び、残りの100 個ではattentionをPermuteさせて根拠部を選んだ • どちらの例でもpermuteしてない場合は⾼いスコア 24

25.

まとめ • Attentionが単にgating unitの役割になってしまっている場合 attentionの説明は意味をなさない • AdversarialなAttentionは試さない？ 25