150 Views
November 18, 19
スライド概要
2019/11/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] DurIAN: Duration Informed Attention Multimodal Synthesis Yoshine Hayashi, AlgoAge http://deeplearning.jp/ 1
Agenda • 書誌情報 • 概要 • 提案手法 • 実験結果 • デモ • 考察
書誌情報 • 論文名:DurIAN: Duration Attention Multimodal Synthesis • 著者:Chengzhu Yu, Heng Lu, Na Hu, Meng Yu, Chao Weng, Kun Xu, Peng Liu, Deyi Tuo, Shiyin Kang, Guangzhi Lei, Dan Su, Dong Yu • 所属:Tencent AI Lab • 公開日:4 Sept. 2019 • デモ:Sound and Video demo ※ 特に明記していない場合は上記論文、デモから引用。
概要 表情と声を同時に生成するマルチモーダルの自己回帰モデル
概要 従来手法の問題点 • TTSのモデルについて - NNを用いない手法はロバストだが音声の自然さに欠ける - NNを用いたend-to-endの手法は音声は自然だがロバスト性に欠ける →調査した結果end-to-endのAttention機構が原因だった • 顔と表情の同期について - 音声と表情がペアのデータを用意するのが大変
概要 何をしたか • Tacotron2のAttention機構をalignment modelで置き換える →従来のTacotron2と同時間で、より自然な音声を生成可能 • 音素と韻律構造のエンコードにSkip encoderを使用 → Out-of-domainのテキストにもロバストに対応可能
概要 何をしたか • Style-control手法の提案 →教師ありのスタイル変換で細かな表現の調節が可能 • Multi-band synchronized WaveRNNの提案(今回は割愛) →WaveRNNの計算コスト削減、単一CPUで実時間の6倍で生成
提案手法 全体図
提案手法 ① Skip encoderで音素と韻律構造をエンコード ② Alignment modelで入力の音素とラベル音声の対応づけをする ③自己回帰モデルで音声と表情を生成 ④ Post-netで③でとらえきれなかった部分を予測
提案手法 Skip Encoder ー Tacotron1のエンコーダがベース 役割:音素と韻律構造を隠れ状態にエンコードする out-of-domainのテキストにもロバストにする より自然な音声を生成する
提案手法 Skip Encoder ①入力されたテキストを音素に変換 • 韻律構造に合わせて境界を追加 • #Sが音節、#1が韻律語(?)など ② 音素と韻律をベクトルにembedding
提案手法 Skip Encoder ③ Pre-netでエンコード(全結合層*2) 学習時、確率0.5でDropout ④ CBHGモジュールでエンコード (Conv1D + highway network + bidirectional GRU)
提案手法 Alignment Model ー従来のAttention機構の代わり 役割:音素とラベル音声間の対応づけをする ロバスト性を高める (skipやrepeatの問題を解消する)
提案手法 Alignment Model ① 音素の間隔を予測するモデルで対応関係を取得 学習時:音声認識でよく使われるforced alignmentという手法を使い取得 予測時:別のモデル(図右下)で対応を取得 ↑pre-trained(forced alignmentから得られたものとMSE) ② 隠れ状態を複製し長さを合わせる ③ 各音素の音声との対応位置を取得
提案手法 Decoder ーTacotron1のDecoderがベース 役割:音声と表情を同時に出力する
提案手法 Decoder • Post-netの前後のMel-spectrogramそれぞれについてL1Lossをとる • 表情の同時生成の手法は以下の2つがある ① マルチタスクのモデルとして学習する →音声と顔のペアのデータが必要で大変 ② duration-modelを使い、音声と顔を独立に学習させる (詳しくは記載なし) →提案手法はこちらを使用
提案手法 Decoder • 表情の生成については以下がベース • face warehouse • Deep Video Portraits • Text-based editing of talking-head video
提案手法 Style Control 役割:声と表情に感情をつける • 教師なし学習だと調節が大変 ー 潜在空間のどこが何に対応するか分からないので • 教師あり学習で、Angry, Happyといった具体的なラベルを渡す → しかしこれだと微調整は難しい
提案手法 Style Control • style embeddingが潜在空間上のベクトルに対応すると仮定 →Control Scaleを調節することで細かなスタイル変換を実現 (学習時は1.0で固定、推論時に変更可能)
提案手法 Style Control • 音素の間隔はstyleに影響しそう →① Skip encoder後の隠れ層にconcat ② 音素をembeddingした後にconcat
提案手法 Style Control • 音声のデータセット • • • • ゲーム実況者風音声合成用の男性話者の4時間分の音声データ 内0.5時間にexcitingのラベルをつける 内1時間に実況者のラベルをつける 残り2.5時間はnormalとして扱う • 表情のデータセット • face warehouse
実験 音声の自然さの検証 • Male: プロの中国語話者の18hのデータを学習(16KHz) 学習データに含まれない40文の生成結果を実験に使用 • Female: プロの中国語話者の7hのデータを学習(16kHz) 比較的長い、out-of-domainの20文の生成結果を使用 • それぞれ20人の中国語話者に評価してもらう
実験結果 • Male, FemaleともTacotron2とほぼ同じ精度 評価指標:Mean Opinion Score(MOS)と呼ばれる、人間に自然さを1~5で評価させ平均したもの 高いほど良く、最低1で最高5
実験結果 音声のロバスト性の検証 • 1000発話中skipとrepeatが何%で起きたか • 実験内ではerrorがなく、提案手法の方がロバストだという主張
デモ スタイルコントロールと表情生成の結果のデモ • 左からNeutral, Joyful
デモ スタイルコントロールと表情生成の結果のデモ • 左からAngry, Sad
デモ スタイルコントロールでscaleを調節した音声のデモ (表情のデモはなかった) • ラベルはexcitingで、左から*0.5, *1.0, *1.5, *2.0 • 声の高さと話す勢いに顕著に違いあり • W杯の実況者風
考察 • デモを見る限りスタイル変換はかなり良くできている • Exciting以外のstyleラベルのデータについての記述は見当たらなかった • スタイル変換の評価指標がないのでどれだけ良いか分かりづらい →既存の教師あり・なしスタイル変換について近日中にまとめたい • 声と表情の同期については社外秘だったのが残念 • 表情生成のモデルも詳しくは見当たらなかった • なぜパラレルデータなしで同期できるのか知りたかった