154 Views
June 28, 19
スライド概要
2019/06/28
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Are Sixteen Heads Really Better than One? Masaki Tashiro, Keio University http://deeplearning.jp/ 1
書誌情報 • Are Sixteen Heads Really Better than One? • https://arxiv.org/abs/1905.10650 • Paul Michel, Omer Levy, Graham Neubig. 選んだ理由 • BERT等のattentionの挙動について興味があったから *断りのない限り, 図は論文より引用 2
概要 背景・課題 • 近年のNLPで流行のmulti-head attention(MHA)を用いたモ デルはメモリを大量に消費し時間もかかる 提案 • Multi-headで訓練したモデルの中のheadの多くは精度を落 とさずに取り去ることができる 結論 • MHAは学習初期段階の相互作用のために重要であるが、一度 学習できたら推論時にはいらないことがある 3
背景 • BERT (Bidirectional Encoder Representations from Transformers) • 汎用的な言語表現モデルで総合的な言語理解能力を試す GLUEにおいて飛躍的なスコアの向上を達成 詳しくはこちらを参考 • https://qiita.com/KosukeSzk/items/4b74b5cce84f423b7125 出典 : https://arxiv.org/abs/1810.04805 4
背景 Transformer • 2017年にAttention Is All You Need にて 提案されたモデル • 機械翻訳において主流であった RNNやLSTMを用いずにSOTAを達成した 出典 : https://arxiv.org/abs/1706.03762 5
背景 • Single-Headed Attention 出典 : https://arxiv.org/abs/1706.03762 6
背景 • Multi-headed Attention • Masking Attention Heads 出典 : https://arxiv.org/abs/1706.03762 7
課題 • MHAが具体的にどのような役割を果たしているかわかってな い • MHAによってモデルのパラメータは大きく増大する。それに 伴ってメモリを大量に消費し推論に時間がかかる 8
関連研究 • Elena Voita, David Talbot, Fedor Moiseev, Rico Sennrich, Ivan Titov. Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned. In ACL, 2019. • Kevin Clark, Urvashi Khandelwal, Omer Levy, Christopher D. Manning. What Does BERT Look At? An Analysis of BERT's Attention. In BlackBoxNLP, 2019 9
実験 基本的には二つのタスク • WMT2014 English to French corpusで訓練したlarge transformerのnewstest2013 test setでの評価 • MultiNLIデータにおいてfinetuningをしたBERTの”baseuncased”モデルの”matched” validation setにおける評価 10
実験1 : 一つの層からheadを削除する 条件1 : 削除したheadは一つ 結果 : ほとんどのheadは削除しても 統計的に優位な差を見せなかった 11
実験1 : 一つの層からheadを削除する 条件2 : 一つのhead以外を削除 結果 : 多くの層で一つのheadは十分なスコアを出せる ただ、層によっての複数のheadが必要な層もある 12
実験1 : 一つの層からheadを削除する 条件3 : 違うデータセットでheadを削除したモデルを試す 結果 : データセット間でスコアには正の相関が見られ、 重要であると考えられたheadはデータセットに 関わらず重要であると考えられる 13
実験2 : 複数の層からheadを削除する 目的 • 複数の層のheadによる複合効果があるかを検証する 方向性 • Importance scoreによって全てのattention head をソートし 重要でないものから貪欲的に枝刈りしていく 14
実験2 : 複数の層からheadを削除する Head Importance score for Pruning • 勾配ベースで重要度を決定 • 重要度は層別にnormalizeする 15
実験2 : 複数の層からheadを削除する Pruningと精度(BLEU/Accuracy)の関係 • 実験1で求めたaccuracyベースのもの(緑)と勾配ベース(青)の ものを比較 • 勾配ベースの方が良い • 一定までは精度の低下が小さいが一定以上で大きく減少 16
実験2 : 複数の層からheadを削除する Pruningと推論効率の関係 • 約3分の1のパラメータがMHAに使われている • 時間に関してはsingle exampleの推論において大きな速度向 上をもたらした 17
層の種類によるhead削減の効果 • 実験1で層によって必要なheadの数が異なることがわかった • Enc-Dec間ではmulti-headsがより重要であると考えられる 18
Headの重要性の変化 • 各epochでのheadの削減率とscoreの減少度を比較した • 初期段階ではheadの削減が与える影響が大きいが学習が進む につれて影響が小さくなる • 初期段階で重要なheadは決定される 19
結論 • MHAは常にモデルの表現力を上げるという訳ではない • 層によって削除できるheadの割合は変わっている • 学習の初期段階で重要なheadは決まってくる 20
Appendix 著者のTwitterより • Lottery ticket hypothesisとの関係について • 重要なheadは単に初期値が良かった訳ではないことを主張 21
Appendix 重要であると考えられたheadについて • 同様の研究がAnalyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned. でも行われていて具体的に重要なheadがどのような 役割をしているのかを調べた • Syntax的な役割, positionalな役割, rare wordへの対処に関す る役割などが観察された 22
Appendix Headの役割に関して • より具体的なheadの役割(文法的)についてはWhat Does BERT Look At? An Analysis of BERT‘s Attention で研究され ていた 23