>100 Views
September 12, 16
スライド概要
2016/9/9
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
輪読 : MULTILINGUAL IMAGE DESCRIPTION WITH NEURAL SEQUENCE MODELS h6p://arxiv.org/abs/1510.04709
書誌情報 Title: MULTILINGUAL IMAGE DESCRIPTION WITH NEURAL SEQUENCE MODELS • Author: Desmond Ellio6, Stella Frank, Eva Hasler • AffiliaTon: University of Amsterdam, Cambridge • URL: h6p://arxiv.org/abs/1510.04709 • • ICLR’16 不採録 • 概要 : MulTlingual Image DescripTon – ある画像に対して言語Aのキャプションを生成するとき,言語Bの情報も使う
MoTvaTon • 関連研究 : キャプション生成 – 入力画像に対して,その画像の説明文を生成する – 画像とその画像に対するキャプションのデータを利用して学習 • この論文の主題 – ある画像に対して,言語Bでキャプションを生成するとき,言語Aでのキャプションを生か すことができるか? – MulTlingual Image DescripTon
Approach • MulTlingual mulTmodal language model • ターゲットのキャプションを生成するのに,以下の2つの特徴量を使う – monolingual source-language image descripTon model – visual features from an object recogniTon model
モデル : Recurrent Language Model (LM) • RNNである単語を入力したとき,次の単語を予測するように訓練 – 入力 w_i (あるステップiにおいて)
モデル : MulTmodal Language Model (MLM) • 画像の情報をLMに組み込む – 画像特徴量で条件付ければ良い – 一つの方法 : h_0 の計算をする際に画像特徴量を入れる • 各タイムステップで画像特徴量を入れると, overfidng するという研究報告が複数ある
モデル : TranslaTon Model (Source-LM → Target-LM) • 画像の情報をの代わりに,source language modelで条件付
モデル : MulTlingual MulTmodal Model (Source-MLM → Target-MLM) • 画像とsource language model両方使う
NMT (Neural Machine TranslaTon) モデルとの違い • NMT – (翻訳元言語, 翻訳先言語) のペアで学習 • このモデル – データセットの扱いがより柔軟 (言語のペアを用意しなくても良い) – source-language modelとtarget-language modelは別々のものでも良い • e.g. sequense-to-sequense, encoder-decode, …
実験 : 使用したデータ • データ : IAPR-TC12 – – 画像数 : 20000 英語のキャプションと,対応するドイツ語訳 – – – 17,665枚を訓練に利用 英語 : 272,172 トークン (語彙数 1763) (出現頻度3以下は除去) ドイツ語: 223,147 トークン (語彙数2374) – 画像特徴量はVGG-16を利用して抽出
実験 : 結果 • Baselin MLM : Monolingual Language Model (MulTmodal Language Model without source language features) LM → LM : no image MLM よりも LM→LMの方が良い ドイツ語のキャプション生成結果 (全体的に英語より難しい) sourceに画像特徴量を入れた方 (sourceでMLMを使う) が効果的
t-SNEによる隠れ層初期値の可視化 ドイツ語のキャプション生成結果 (全体的に英語より難しい) sourceに画像特徴量を入れた方 (sourceでMLMを使う) が効果的 (左) MLM (右) De MLM → En MLM
source language modelを加えたことによるスコアの変動 元々スコアが高かったものは,source language modelを入れると スコアが下がる傾向にある
まとめ • 画像キャプショニングをする際に,別の言語のキャプションを利用する方 法の提案 • マルチモーダルな翻訳の一つ • 単純に画像と言語を組み合わせるだけだと,なかなかスコアが上がらな い • (ドイツ語のキャプション生成の実施) – 英語より難しい
ACL’16でのMulTmodal Machine TranslaTon • • • h6p://www.statmt.org/wmt16/mulTmodal-task.html 今回の著者らがオーガナイザー データセット: flickr30k – 英語のキャプションと,それに対応するドイツ語訳 • タスク • 1. MulTmodal Machine TranslaTon 2. Mulilingual Image DescripTon 結論を言うと,あんまり良いのは無かった
結果 : タスク1 (下線がベースライン; 灰色は外部データの利用) Result
結果 : タスク2 (下線がベースライン; 灰色は外部データの利用)
優勝チームの手法