[DL輪読会]Phrase-Based & Neural Unsupervised Machine Translation

101 Views

October 19, 18

#deep learning #Deep Learning #Machine Translation #Unsupervised Learning #Neural Networks #Phrase-Based Translation

スライド概要

2018/10/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.1K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Phrase-Based & Neural Unsupervised Machine Translation (EMNLP2018 best paper) Hiroshiba Kazuyuki (DwangoMediaVillage) http://deeplearning.jp/ 1

http://deeplearning.jp/

Phrase-Based & Neural Unsupervised Machine Translation 一言で言うと教師なし機械翻訳のSoTAを大幅に更新著者 EMNLP2018 best paper 選択理由自然言語のCycleGANみたいなのがどんなのか気になった URL: https://arxiv.org/abs/1804.07755 2

目次概要背景教師なし機械翻訳の既存手法手法 Unsupervised NMT (Neural Machine Translation) Unsupervised PBSMT (Phrase Based Statistical Machine Translation) 実験・評価 3

概要教師あり機械翻訳は人間と同じくらいの性能しかし大量の教師ペアデータが必要なため、マイナーな言語では難しいペアではないデータは大量にあるこれを使って教師なし学習したい既存手法で、教師なしタスクを教師あり学習に落とし込んだ手法がある BLEUで15ポイントぐらい既存手法をlossの種類を少なくして簡単にしたフェーズベースの機械翻訳手法を教師なしタスクに落とし込んだこれら２種を組み合わせると既存手法より12ポイント精度が上がった 4

Unsupervised machine translation using monolingual corpora only ICLR2018、著者一緒２つの言語を教師無しで相互変換オートエンコーダ＋ドメイン判別器再合成loss ドメイン判別loss ドメイン不変な潜在表現獲得クロスドメインloss 言語Sを言語Tに変換し、また言語Sに変換、その差をlossにする https://arxiv.org/pdf/1711.00043.pdf 5

https://arxiv.org/pdf/1711.00043.pdf

Unsupervised neural machine translation ICLR2018 ２つの言語を教師無しで相互変換２つの言語でエンコーダを共有ドメイン不変な潜在表現の獲得のため denoisingも同時に学習入力単語をスワップクロスドメインloss 言語Sを言語Tに変換し、また言語Sに変換、その差をlossにする。 https://arxiv.org/pdf/1710.11041.pdf 6

https://arxiv.org/pdf/1710.11041.pdf

提案手法：Unsupervised Neural Machine Translation さっきのUnsupervised neural machine translationの改良単語トークン以外にも、byte-pair encodings (BPE) トークンを使用頻出するn-gram文字列を記号に変える。未知語に強くなる。ソース・ターゲット言語で分けず、ひとまとめにして単語embeddings作成よりドメイン不変な潜在表現２つの言語でデコーダも共有言語の違いは、単語embeddingsから単語へのデコードが吸収する 7

提案手法：Unsupervised Phrase Based Statistical Machine Translation Phrase Based Statistical Machine Translation（PBSMT）２言語の翻訳ペアデータから、フレーズごとに言語変換テーブルを作成し、翻訳時は、変換スコアの最大化問題を解く手法教師なしタスクを教師ありに落とし込む単語辞書をもとにフレーズ辞書を作成し、言語S→言語T変換テーブルの初期値を作成変換テーブルを用いて言語Sを言語Tに変換し、仮のペアデータを作成仮のペアデータを用いて言語T→言語S変換テーブルを作成変換テーブルを用いて言語Tを言語Sに変換し、仮のペアデータを作成これを繰り返す 8

実験条件データセット English-French, English-German, English-Romanian, English-Russian, English-Urdu 後ろ３つはペアデータ数が少ない NMTでの単語embedding トークン数は60000 ウィンドウサイズ5のFastTextを使用 PBSMTでのフレーズテーブルフレーズ数はMUSE libraryを使って30万ターゲットに対して各々200ずつテーブルを作成 9

10.

実験条件学習 NMT LSTMとTransformerのCell（Attention Is All You Needのネットワーク） Transformerはエンコーダ・デコーダで4層ずつ生成時はgreedy PBSMT Mosesスクリプトを使用毎イテレーションに500万文フレーズ長は4 数分で終わる 10

11.

教師なし機械翻訳の既存手法よりも良い性能指標はBLEU 単語ごとにn-gram内で正解があった割合既存手法よりも性能が上回った英語→フランス語ではPBSMTが一番良かったそれ以外ではPBSMT+NMTが一番良かった PBSMTの変換結果をNMTの逆変換結果にadd よくわからなかった 11

12.

PBSMTは何回も反復すると良い 12

13.

100000ペアデータでの教師あり機械翻訳と同程度の精度ペアデータ数が少ない言語では、教師あり学習よりも良い性能になった 13

14.

その他の比較実験結果一番上が最も良かった手法ソース・ターゲット言語で分けて単語embeddingsを作ると、3ポイントほど落ちる byte-pair encodings無しだと、 4ポイントほど落ちるデコーダを共通化してもあまり変わらない？言及はされていなかった 14

15.

まとめ Unsupervised Neural Machine Translation提案 byte-pair encodingsトークンを追加言語共通の単語embeddings デコーダも共通化 Unsupervised Phrase Based Statistical Machine Translation提案フェーズベースの教師あり機械翻訳手法を、ペアデータなしで適用可能に２つの手法を合わせると既存手法の性能を大きく上回った 15