[DL輪読会]Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

>100 Views

April 20, 18

#deep learning #Deep Learning #Adaptive Attention #Image Captioning #CNN-LSTM #Visual Sentinel

スライド概要

2018/04/20
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.7K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning (CVPR 2017)” Yoshifumi Seki, Gunosy http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ● タイトル: Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning ● 著者: Jiasen Lu, Caiming Xiong, Devi Parikh, Richard Socher ● 投稿先 ○ CVPR 2017 ■ arxivには2016年末にでてた、古い論文ですみません。。。 ● 選定理由 ○ Caption生成に興味があって追っている ■ 2017/07/07でも発表している ○ Caption生成のState-of-the-artのはず 2

Caption生成 ● 画像の説明文を生成するタスク ● [Xu 15]から引用 3

論文の概要 ● ● ● ● CNN - LSTMのEncoder-DecoderにAttentionを導入したものが知られている isとかofとか、そういう単語生成するときって画像のこと考えなくてよくない？なので、単語を生成するときに画像を参照するかどうかという機構を導入した State-of-the-art 4

Show and Tell [Vinyals 15] 次に出る語の確率を出力するLSTM cell

Show, Attend and Tell[Xu 15] ● ● Zの部分がattention要素 Eはembedding layer ○ ● 単語をベクトル化 h_tが系列的に伝搬していく Decoder

Context vector[Xu 15] ● ● 画像ベクタの重み付け画像のどの部分にどのぐらい注目するかという

Stochastic Hard Attention[Xu 15] ● ● Sは画像の区分数の次元をもつone-hotな vector α_{t, i}の確率でその次元が1になる ○ ● 多項分布 zは、注目する区分の画像ベクタになる

生成結果とattention[Xu 15]

10.

attentionの位置によって結果が解釈できる[Xu 15]

11.

提案する手法 ● Spatial Attention Model ● Adaptive Attention Model 11

12.

Spatial Attention Model ● Context Vectorの生成タイミングをずらす ○ ResNetにインスパイアされている 12

13.

Spatial Attention Model h_{t-1}がh_tになる 13

14.

Context vector[Xu 15] ● ● 画像ベクタの重み付け画像のどの部分にどのぐらい注目するかという

15.

Adaptive Attention Model Attentionがどこに着目するかを決めるのだから、着目しないという選択肢を考える 15

16.

Adaptive Attention Model 16

17.

Training Detail ● ● ● ● ● ● LSTMの隠れ層は512 Adamを言語モデルは学習率5e-4で、CNNは学習率1e-5で利用 momentum: 0.8, weight decay: 0.999 CNNは20 epoch後にfinetune batch sizeは80epochで50epoch以降はearly stoppingの対象にする学習時間はTitanXで30時間 17

18.

Experiment Settings ● データセット ○ Flicker30k ○ COCO ● 前処理 ○ captionがCOCOは18文字以下のものに, Flickerは22文字以下のものに制限 ○ vocabularyはCOCOが5回以上, Flickerが3回以上出現した語に限定 ● 18

19.

20.

21.

1-βの値、つまり画像から生成する割合をPlotしたものであり、ofやonなどが小さくなっている。これをvisual grounding probabilityと呼ぶことにする文頭のaは比較的大きく、後半のaが小さいのは、後半のほうが数が自明だから？ 21

22.

23.

● AttentionがCOCOのカテゴリと一致しているか？ ○ Spatialが0.362, Adaptiveが0.373だったので、Adaptiveにすると精度あがっている ○ 一方でトレンドに大きな変化はない ● 特に小さいobjectで精度が低いが、これは領域の切り方が大雑把のためであると考えられる 23

24.

まとめ ● Caption生成において、画像に着目するかどうかを生成する際に判断する機構を導入した ○ isやa, ofなどは文法的な必然だから画像はいらないのでは？ ● これによってstate-of-the-artを達成 ● 分析によって提案したコンセプトが達成されていることが確かめられた 24