>100 Views
April 20, 18
スライド概要
2018/04/20
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] “Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning (CVPR 2017)” Yoshifumi Seki, Gunosy http://deeplearning.jp/
書誌情報 ● タイトル: Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning ● 著者: Jiasen Lu, Caiming Xiong, Devi Parikh, Richard Socher ● 投稿先 ○ CVPR 2017 ■ arxivには2016年末にでてた、古い論文ですみません。。。 ● 選定理由 ○ Caption生成に興味があって追っている ■ 2017/07/07でも発表している ○ Caption生成のState-of-the-artのはず 2
Caption生成 ● 画像の説明文を生成するタスク ● [Xu 15]から引用 3
論文の概要 ● ● ● ● CNN - LSTMのEncoder-DecoderにAttentionを導入したものが知られている isとかofとか、そういう単語生成するときって画像のこと考えなくてよくない? なので、単語を生成するときに画像を参照するかどうかという機構を導入した State-of-the-art 4
Show and Tell [Vinyals 15] 次に出る語の確率を出力するLSTM cell
Show, Attend and Tell[Xu 15] ● ● Zの部分がattention要素 Eはembedding layer ○ ● 単語をベクトル化 h_tが系列的に伝搬していく Decoder
Context vector[Xu 15] ● ● 画像ベクタの重み付け 画像のどの部分にどのぐらい注目するかという
Stochastic Hard Attention[Xu 15] ● ● Sは画像の区分数の次元をもつone-hotな vector α_{t, i}の確率でその次元が1になる ○ ● 多項分布 zは、注目する区分の画像ベクタになる
生成結果とattention[Xu 15]
attentionの位置によって結果が解釈できる[Xu 15]
提案する手法 ● Spatial Attention Model ● Adaptive Attention Model 11
Spatial Attention Model ● Context Vectorの生成タイミングをずらす ○ ResNetにインスパイアされている 12
Spatial Attention Model h_{t-1}がh_tになる 13
Context vector[Xu 15] ● ● 画像ベクタの重み付け 画像のどの部分にどのぐらい注目するかという
Adaptive Attention Model Attentionがどこに着目するかを決めるのだから、着目しないという選択肢を考える 15
Adaptive Attention Model 16
Training Detail ● ● ● ● ● ● LSTMの隠れ層は512 Adamを言語モデルは学習率5e-4で、CNNは学習率1e-5で利用 momentum: 0.8, weight decay: 0.999 CNNは20 epoch後にfinetune batch sizeは80epochで50epoch以降はearly stoppingの対象にする 学習時間はTitanXで30時間 17
Experiment Settings ● データセット ○ Flicker30k ○ COCO ● 前処理 ○ captionがCOCOは18文字以下のものに, Flickerは22文字以下のものに制限 ○ vocabularyはCOCOが5回以上, Flickerが3回以上出現した語に限定 ● 18
19
20
1-βの値、つまり画像から生成する割合をPlotしたものであり、ofやonなどが小さくなって いる。これをvisual grounding probabilityと呼ぶことにする 文頭のaは比較的大きく、後半のaが小さいのは、後半のほうが数が自明だから? 21
22
● AttentionがCOCOのカテゴリと一致しているか? ○ Spatialが0.362, Adaptiveが0.373だったので、Adaptiveにすると精度あがっている ○ 一方でトレンドに大きな変化はない ● 特に小さいobjectで精度が低いが、これは領域の切り方が大雑把のためであると考 えられる 23
まとめ ● Caption生成において、画像に着目するかどうかを生成する際に判断する機構を導 入した ○ isやa, ofなどは文法的な必然だから画像はいらないのでは? ● これによってstate-of-the-artを達成 ● 分析によって提案したコンセプトが達成されていることが確かめられた 24