[DL輪読会]Are Sixteen Heads Really Better than One?

168 Views

June 28, 19

#deep learning #Deep Learning #NLP #BERT #Multi-head attention #Model Efficiency

スライド概要

2019/06/28
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.1K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 59K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 38K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Are Sixteen Heads Really Better than One? Masaki Tashiro, Keio University http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • Are Sixteen Heads Really Better than One? • https://arxiv.org/abs/1905.10650 • Paul Michel, Omer Levy, Graham Neubig. 選んだ理由 • BERT等のattentionの挙動について興味があったから＊断りのない限り, 図は論文より引用 2

概要背景・課題 • 近年のNLPで流行のmulti-head attention(MHA)を用いたモデルはメモリを大量に消費し時間もかかる提案 • Multi-headで訓練したモデルの中のheadの多くは精度を落とさずに取り去ることができる結論 • MHAは学習初期段階の相互作用のために重要であるが、一度学習できたら推論時にはいらないことがある 3

背景 • BERT (Bidirectional Encoder Representations from Transformers) • 汎用的な言語表現モデルで総合的な言語理解能力を試す GLUEにおいて飛躍的なスコアの向上を達成詳しくはこちらを参考 • https://qiita.com/KosukeSzk/items/4b74b5cce84f423b7125 出典 : https://arxiv.org/abs/1810.04805 4

背景 Transformer • 2017年にAttention Is All You Need にて提案されたモデル • 機械翻訳において主流であった RNNやLSTMを用いずにSOTAを達成した出典 : https://arxiv.org/abs/1706.03762 5

https://arxiv.org/abs/1706.03762

背景 • Single-Headed Attention 出典 : https://arxiv.org/abs/1706.03762 6

背景 • Multi-headed Attention • Masking Attention Heads 出典 : https://arxiv.org/abs/1706.03762 7

課題 • MHAが具体的にどのような役割を果たしているかわかってない • MHAによってモデルのパラメータは大きく増大する。それに伴ってメモリを大量に消費し推論に時間がかかる 8

関連研究 • Elena Voita, David Talbot, Fedor Moiseev, Rico Sennrich, Ivan Titov. Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned. In ACL, 2019. • Kevin Clark, Urvashi Khandelwal, Omer Levy, Christopher D. Manning. What Does BERT Look At? An Analysis of BERT's Attention. In BlackBoxNLP, 2019 9

10.

実験基本的には二つのタスク • WMT2014 English to French corpusで訓練したlarge transformerのnewstest2013 test setでの評価 • MultiNLIデータにおいてfinetuningをしたBERTの”baseuncased”モデルの”matched” validation setにおける評価 10

11.

実験1 : 一つの層からheadを削除する条件1 : 削除したheadは一つ結果 : ほとんどのheadは削除しても統計的に優位な差を見せなかった 11

12.

実験1 : 一つの層からheadを削除する条件2 : 一つのhead以外を削除結果 : 多くの層で一つのheadは十分なスコアを出せるただ、層によっての複数のheadが必要な層もある 12

13.

実験1 : 一つの層からheadを削除する条件3 : 違うデータセットでheadを削除したモデルを試す結果 : データセット間でスコアには正の相関が見られ、重要であると考えられたheadはデータセットに関わらず重要であると考えられる 13

14.

実験2 : 複数の層からheadを削除する目的 • 複数の層のheadによる複合効果があるかを検証する方向性 • Importance scoreによって全てのattention head をソートし重要でないものから貪欲的に枝刈りしていく 14

15.

実験2 : 複数の層からheadを削除する Head Importance score for Pruning • 勾配ベースで重要度を決定 • 重要度は層別にnormalizeする 15

16.

実験2 : 複数の層からheadを削除する Pruningと精度(BLEU/Accuracy)の関係 • 実験1で求めたaccuracyベースのもの(緑)と勾配ベース(青)のものを比較 • 勾配ベースの方が良い • 一定までは精度の低下が小さいが一定以上で大きく減少 16

17.

実験2 : 複数の層からheadを削除する Pruningと推論効率の関係 • 約3分の1のパラメータがMHAに使われている • 時間に関してはsingle exampleの推論において大きな速度向上をもたらした 17

18.

層の種類によるhead削減の効果 • 実験1で層によって必要なheadの数が異なることがわかった • Enc-Dec間ではmulti-headsがより重要であると考えられる 18

19.

Headの重要性の変化 • 各epochでのheadの削減率とscoreの減少度を比較した • 初期段階ではheadの削減が与える影響が大きいが学習が進むにつれて影響が小さくなる • 初期段階で重要なheadは決定される 19

20.

結論 • MHAは常にモデルの表現力を上げるという訳ではない • 層によって削除できるheadの割合は変わっている • 学習の初期段階で重要なheadは決まってくる 20

21.

Appendix 著者のTwitterより • Lottery ticket hypothesisとの関係について • 重要なheadは単に初期値が良かった訳ではないことを主張 21

22.

Appendix 重要であると考えられたheadについて • 同様の研究がAnalyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned. でも行われていて具体的に重要なheadがどのような役割をしているのかを調べた • Syntax的な役割, positionalな役割, rare wordへの対処に関する役割などが観察された 22

https://arxiv.org/abs/1905.09418

23.

Appendix Headの役割に関して • より具体的なheadの役割(文法的)についてはWhat Does BERT Look At? An Analysis of BERT‘s Attention で研究されていた 23

https://arxiv.org/abs/1906.04341