>100 Views
February 21, 20
スライド概要
2020/02/21
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP “MSCap: Multi-Style Image Captioning With Unpaired Stylized Text (CVPR2019)” [DL Papers] Yoshifumi Seki, Gunosy http://deeplearning.jp/
書誌情報 ● タイトル: MSCap: Multi-Style Image Captioning With Unpaired Stylized Text ● 著者:Longteng Guo, Jing Liu, Peng Yao, Jiangwei Li, Hanqing Lu ○ 第一, 第二, 最終著者が中国科学院(日本で言う理研とか?)の機械学習チーム ○ WeChatのチーム ● 投稿先 ○ CVPR2019 ● 選定理由 ○ Caption生成研究は継続的に読んでいるので、以前StyleのあるCaption生成の研究を紹介したことあ り ■ https://deeplearning.jp/stylenet-generating-attractive-visual-captions-with-styles/ ○ 2
概要 ● スタイルのあるCaptionを生成する ○ ユーモラスなCaption、ロマンティックなCaptionなど ● 複数スタイルのCaptionを1つのモデルで生成できることを目指す ○ 過去の研究はあるスタイルのCaptionを生成するために一つのモデルを作っている ○ つまりユーモラスなCaptionを生成するモデルはユーモラスなCaptionしか生成できない ○ これは非効率であり、k個のスタイルを生成できるモデルを作るぞ〜!というのが今回の目的 ● Unpaired Styled Textを用いる ○ 画像とペアになっているStyled Textがあればよいが、それをアノテーションするのは大変だし拡張性 がない ○ StyleのあるテキストのみでStyleを学習する ● Adversarial Learning Networkを用いる 3
Show and Tell [Vinyals 15] 次に出る語の確率を出力するLSTM cell
Show, Attend and Tell[Xu 15] ● ● Zの部分がattention要素 Eはembedding layer ○ ● 単語をベクトル化 h_tが系列的に伝搬していく Decoder
Context vector[Xu 15] ● ● 画像ベクタの重み付け 画像のどの部分にどのぐらい注目するかという
Stochastic Hard Attention[Xu 15] ● ● Sは画像の区分数の次元をもつone-hotな vector α_{t, i}の確率でその次元が1になる ○ ● 多項分布 zは、注目する区分の画像ベクタになる
生成結果とattention[Xu 15]
attentionの位置によって結果が解釈できる[Xu 15]
Adaptive Attention Model [Lu+ CVPR2017] Attentionがどこに着目するかを決めるのだから、着目しないという選択肢を考える 10
Adaptive Attention Model [Lu+ CVPR2017] 11
12
1-βの値、つまり画像から生成する割合をPlotしたものであり、ofやonなどが小さくなって いる。これをvisual grounding probabilityと呼ぶことにする 文頭のaは比較的大きく、後半のaが小さいのは、後半のほうが数が自明だから? 13
StyleNet [Gan+ CVPR2017] ● 魅力的なキャプションを生成したい ○ ● LSTMのseq2seqのマルチタスクにインス パイアされている ○ ● ユーモア、ロマンティックという 転移学習感ある感じ ちなみにStyleNetというプロジェクトは他に もある… 14
Factored LSTM module ●
概要 (再掲) ● スタイルのあるCaptionを生成する ○ ユーモラスなCaption、ロマンティックなCaptionなど ● 複数スタイルのCaptionを1つのモデルで生成できることを目指す ○ 過去の研究はあるスタイルのCaptionを生成するために一つのモデルを作っている ○ つまりユーモラスなCaptionを生成するモデルはユーモラスなCaptionしか生成できない ○ これは非効率であり、k個のスタイルを生成できるモデルを作るぞ〜!というのが今回の目的 ● Unpaired Styled Textを用いる ○ 画像とペアになっているStyled Textがあればよいが、それをアノテーションするのは大変だし拡張性 がない ○ StyleのあるテキストのみでStyleを学習する ● Adversarial Learning Networkを用いる 17
Framework Overview 18
Framework Overview 普通のCNN baseなモデル 19
Framework Overview 20
Caption Generation Module ● Caption生成で使われるのは(a)のinjecting mode ○ 画像とテキストのペアへの依存が大きく、unpairの学習には向い ていない ● (B)のmerging modeを用いる ○ まずは画像無しでテキストのみでLSTMを学習し、その後 Multimodalな学習を行う ○ [Lu+, CVPR2017]` にインスパイアされている ○ 昔輪読会で読んでた ■ https://www.slideshare.net/DeepLearningJP2016/dlkno wing-when-to-look-adaptive-attention-via-a-visual-sentin el-for-image-captioning ○ 画像に注目するときとそうでないときを考えて画像に注目するか どうかのGateベクトルをつくる ■ is とか a とか of とか画像関係ないよね 21
Caption Generation Module ● w_t: styleベクトルと単語ベクトルを結合したもの ○ 個人的にはもっとStyleを明示的に入れたほうがいい気もする (DeepFMとかの文脈で) ● m_t: LSTMのMemory cell state 22
Caption Generation Module ● 最初にunpair textを学習するときはg_t=0とする ○ 普通のAttention付LSTM ● まずCaption付データPと、unpaired text P^uを使ってpretainする 23
Framework Overview 24
学習には3種類のLossを使う ● Adversarial Loss: 普通の ● Classification Loss: 生成したCaptionがスタイルに近づいているか? ● Back-Translation Loss ○ Cycle GANっぽいアプローチ ○ minimizing the two losses along does not guarantee that generated captions accurately describe the content of its input images ■ それっぽい文になるけど、画像を表現しているかを考慮できていないよね ○ T(y, s) -> \hat{y_f}となるTransaction Modelを考える ■ TはNMTで実装する 25
Framework Overview Adversarial Loss Classification Loss Back-Translation Loss 26
学習には3種類のLossを使う 27
実験 28
● MSCapはStyleNetに全勝してる ○ 同じ半教師ありモデルとの比較 ● BLEU-nでは教師ありモデルに勝てていない ○ BLEUはn-gramベースなので、長いフレーズを当てるところでは勝てないのでは ● Positive/NegatibeはBLEU以外MSCapが一番いい ● Romantic/Humorousは長い文が多く、よりFlexibleである ○ 教師ありモデルのほうが評価がよくなりやすい ● PPL ○ Fluencyの判定基準 ○ 一番強い、良い文が生成できてる ● CLS:TextCNNをつかう, 97%の精度 ○ 圧倒的に強い ○ よいStyleが学習できている 29
● TransはずすとPerxlexityとStyleが改善するがCiderがめっちゃ悪くなる ○ Cider : CVPR2015で提案された画像Caption生成専用の手法 ○ 画像との関連性がめっちゃ悪くなる ○ TransLossの目的に一致してる 30
● 人手の比較 ○ 0 ~ 3でスコアをつけてもらう ○ 50画像に4つのCaption ○ 1つのCaptionに4人の評価者 ● 最高3だからいいよね ● 他の手法との比較はしてない 31
32
感想 ● Styleを考慮したCaption生成 ● TransLossはなるほど〜という感じ ○ 昔読んだ論文と関連するところが多くて、アハ体験あった ● 同時に複数スタイルできる!って強調してたけど、その意味というか強さはよくわか らんかった ● 人手の評価、さすがに比較しないといみなくない?という気持ち 33