[DL輪読会]Wavenet a generative model for raw audio

248 Views

September 20, 16

スライド概要

2016/9/16
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

WAVENET A GENERATIVE MODEL FOR RAW AUDIO 中山研究室修士一年 横田匡史

2.

書誌情報 • Aaron et al (Deep Mind) • arxiv • 2016/9/12

3.

従来の音声生成 ・concatenative Text to Speech(TTS) データベースから該当する音をつなぎあわせて音声を作っていく 音をつなぎ合わせているだけなので、強調・声色変更などができない ・parametric TTS 生成モデルを用いて単語や発話者の特徴量を抽出し音声を生成する。 単語毎に音の特徴量に変換していたので、英語のようなリエゾンのある 言語の音声生成は難しかった。 →WaveNetでは、生の波形から音声を生成する

4.

WaveNet

5.

入力 生の音声波形から、一次元の音のベクトルを入力とする。 しかし、16,000 samples/secとサンプル数が非常に多い。 →より多くの時系列データを高速に処理できるモデルが必要

6.

波形データ変換 μ-law companding transformation 生の波形のデータはint16で表現されているため、とりうる値は65,536 個ある。 そのため、上式を用いて値を256個の値に量子化する。

7.

出力の確率分布 𝑥𝑡 : 時刻tでの音声波形の値 WaveNetでは全ての過去データから次の音声の値を予測をする

8.

WaveNetの学習の流れ 1サンプル分 波形データ入力 出力と入力から パラメータ更新 モデルを用いて 音声波形を出力

9.

dilated causal convolutional layers Dilationの大きさ毎に入力を飛ばしていくことで層が深くなるにつれてinputの 数を指数関数的に大きくすることができる。また、Dilationの上限を超えたら 次の層でDilationを1に戻すことで、計算の効率化している。 e.g.) 1,2,4,...,512,1,2,4,...,512,1,2,4,...,512.

10.

なぜ、RNNではダメなのか? dilated causal convolutional layersでは、 全ての出力を一度に計算することができる →学習時間が短くすることができる RNNでは、時系列に追ってデータを見ていく 必要があるので、1つのサンプルを見るのに 時間がかかってしまう。 →学習に非常に時間がかかる

11.

WaveNetのモデル構造 各層にResnetの構造を持っている。また、skip-connectionのそれぞれの コネクションには重みづけされている。

12.

Conditional WaveNetのモデル構造 声色特徴 全てのレイヤーに対して、人の声色の特徴量を入力することで 出力の声色を変化させることができる。

13.

音声の生成(概略図)

14.

実験

15.

MULTI-SPEAKER SPEECH GENERATION ・データセット VCTK :109人 計44時間の音声データ ・入力 音声の波形データ 話者のID ・出力 音声の波形データ ・receptive field size (入力データサイズ) およそ0.3sec(おそらく15〜16層)

16.

MULTI-SPEAKER SPEECH GENERATION US parametric US concatenate US wavenet CH parametric CH concatenate CH wavenet 従来手法(parametric、concatenate)と比べてかなり自然に聞こえる。

17.

TEXT-TO-SPEECH ・データセット Google’s North American English(24.6時間) Mandarin Chinese TTS systems(34.8時間) のそれぞれの単一話者のスピーチ ・入力 基本周波数 (log F0 ) →信号を正弦波の合成(例えばフーリエ級数)で 表したときの最も低い周波数成分の周波数(wikipediaより) 単語の言語特徴量(音節・発音etc) ・出力 基本周波数 (log F0 ) 音節の長さ ・receptive field size (入力データサイズ) およそ0.24sec(おそらく16層)

18.

TEXT-TO-SPEECH MOSとは… ”1: Bad, 2: Poor, 3: Fair, 4: Good, 5: Excellent” それぞれのサンプルに対して人間が上記のスコアを付け そのスコアを平均したもの

19.

TEXT-TO-SPEECH 各モデルについて、人にどの音源が良いか選択してもらったもの。 No preferenceは、どれも気に入らなかった場合。

20.

TEXT-TO-SPEECH ・Sample1 ・Sample2 それぞれのサンプルで人間の発話に近い自然な音声が生成されている。 また、左のサンプルでは人間の息遣いまで生成されている!ただ、逆に 若干な感じが残っているという印象。

21.

MUSIC ・データセット MagnaTagATune datasets: 約200時間分の音楽データ それぞれのデータにタグ(ジャンルetc) モデル構成・評価などがなかったので、詳細は割愛します。 論文中ではMagnaTagATune datasetsに関してはタグで条件付けて音 を変化できたらしい(生成された音声のサンプル無し)。

22.

MUSIC ・データセット YouTube piano dataset: 60時間のピアノ音楽データ ・生成音声 これも同様にモデル構成などが記載されていなかったので詳細は割愛します。 しかし、生成された音源データは公開されていました。

23.

まとめ・感想 • 時系列データに対してRNNでなくCNNを用い、並列に計算する ことで、学習時間を短くしている(面白い!) • 各層に対し、話者の特徴量を入れることで、生成する音声を変 化させる事ができる。 • 生成した音源も人の息遣いなどリアルに再現できている。 • ただ、詳しいモデル構成が書かれていないのが残念。。