[輪読会]Multilingual Image Description with Neural Sequence Models

>100 Views

September 12, 16

#deep learning #Neural Sequence Models #Multilingual Image Description #Translation Model #Recurrent Language Model #Cross-Lingual Captioning

スライド概要

2016/9/9
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.2K

各ページのテキスト

輪読 : MULTILINGUAL IMAGE DESCRIPTION WITH NEURAL SEQUENCE MODELS h6p://arxiv.org/abs/1510.04709

書誌情報 Title: MULTILINGUAL IMAGE DESCRIPTION WITH NEURAL SEQUENCE MODELS • Author: Desmond Ellio6, Stella Frank, Eva Hasler • AﬃliaTon: University of Amsterdam, Cambridge • URL: h6p://arxiv.org/abs/1510.04709 • • ICLR’16 不採録 • 概要 : MulTlingual Image DescripTon – ある画像に対して言語Aのキャプションを生成するとき，言語Bの情報も使う

MoTvaTon • 関連研究 : キャプション生成 – 入力画像に対して，その画像の説明文を生成する – 画像とその画像に対するキャプションのデータを利用して学習 • この論文の主題 – ある画像に対して，言語Bでキャプションを生成するとき，言語Aでのキャプションを生かすことができるか? – MulTlingual Image DescripTon

Approach • MulTlingual mulTmodal language model • ターゲットのキャプションを生成するのに，以下の2つの特徴量を使う – monolingual source-language image descripTon model – visual features from an object recogniTon model

モデル : Recurrent Language Model (LM) • RNNである単語を入力したとき，次の単語を予測するように訓練 – 入力 w_i (あるステップiにおいて)

モデル : MulTmodal Language Model (MLM) • 画像の情報をLMに組み込む – 画像特徴量で条件付ければ良い – 一つの方法 : h_0 の計算をする際に画像特徴量を入れる • 各タイムステップで画像特徴量を入れると， overﬁdng するという研究報告が複数ある

モデル : TranslaTon Model (Source-LM → Target-LM) • 画像の情報をの代わりに，source language modelで条件付

モデル : MulTlingual MulTmodal Model (Source-MLM → Target-MLM) • 画像とsource language model両方使う

NMT (Neural Machine TranslaTon) モデルとの違い • NMT – (翻訳元言語, 翻訳先言語) のペアで学習 • このモデル – データセットの扱いがより柔軟 (言語のペアを用意しなくても良い) – source-language modelとtarget-language modelは別々のものでも良い • e.g. sequense-to-sequense, encoder-decode, …

10.

実験 : 使用したデータ • データ : IAPR-TC12 – – 画像数 : 20000 英語のキャプションと，対応するドイツ語訳 – – – 17,665枚を訓練に利用英語 : 272,172 トークン (語彙数 1763) (出現頻度3以下は除去) ドイツ語: 223,147 トークン (語彙数2374) – 画像特徴量はVGG-16を利用して抽出

11.

実験 : 結果 • Baselin MLM : Monolingual Language Model (MulTmodal Language Model without source language features) LM → LM : no image MLM よりも LM→LMの方が良いドイツ語のキャプション生成結果 (全体的に英語より難しい) sourceに画像特徴量を入れた方 (sourceでMLMを使う) が効果的

12.

13.

t-SNEによる隠れ層初期値の可視化ドイツ語のキャプション生成結果 (全体的に英語より難しい) sourceに画像特徴量を入れた方 (sourceでMLMを使う) が効果的 (左) MLM (右) De MLM → En MLM

14.

source language modelを加えたことによるスコアの変動元々スコアが高かったものは，source language modelを入れるとスコアが下がる傾向にある

15.

まとめ • 画像キャプショニングをする際に，別の言語のキャプションを利用する方法の提案 • マルチモーダルな翻訳の一つ • 単純に画像と言語を組み合わせるだけだと，なかなかスコアが上がらない • (ドイツ語のキャプション生成の実施) – 英語より難しい

16.

17.

ACL’16でのMulTmodal Machine TranslaTon • • • h6p://www.statmt.org/wmt16/mulTmodal-task.html 今回の著者らがオーガナイザーデータセット: ﬂickr30k – 英語のキャプションと，それに対応するドイツ語訳 • タスク • 1. MulTmodal Machine TranslaTon 2. Mulilingual Image DescripTon 結論を言うと，あんまり良いのは無かった

18.

結果 : タスク1 (下線がベースライン; 灰色は外部データの利用) Result

19.

結果 : タスク2 (下線がベースライン; 灰色は外部データの利用)

20.

優勝チームの手法