[DL輪読会]Wavenet a generative model for raw audio

584 Views

September 20, 16

#deep learning #Speech Generation #WaveNet #Audio Processing #Machine Learning #Convolutional Neural Networks

スライド概要

2016/9/16
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.4K

各ページのテキスト

WAVENET A GENERATIVE MODEL FOR RAW AUDIO 中山研究室修士一年横田匡史

書誌情報 • Aaron et al (Deep Mind) • arxiv • 2016/9/12

従来の音声生成・concatenative Text to Speech(TTS) データベースから該当する音をつなぎあわせて音声を作っていく音をつなぎ合わせているだけなので、強調・声色変更などができない・parametric TTS 生成モデルを用いて単語や発話者の特徴量を抽出し音声を生成する。単語毎に音の特徴量に変換していたので、英語のようなリエゾンのある言語の音声生成は難しかった。 →WaveNetでは、生の波形から音声を生成する

WaveNet

入力生の音声波形から、一次元の音のベクトルを入力とする。しかし、16,000 samples/secとサンプル数が非常に多い。 →より多くの時系列データを高速に処理できるモデルが必要

波形データ変換 μ-law companding transformation 生の波形のデータはint16で表現されているため、とりうる値は65,536 個ある。そのため、上式を用いて値を256個の値に量子化する。

出力の確率分布 𝑥𝑡 : 時刻tでの音声波形の値 WaveNetでは全ての過去データから次の音声の値を予測をする

WaveNetの学習の流れ 1サンプル分波形データ入力出力と入力からパラメータ更新モデルを用いて音声波形を出力

dilated causal convolutional layers Dilationの大きさ毎に入力を飛ばしていくことで層が深くなるにつれてinputの数を指数関数的に大きくすることができる。また、Dilationの上限を超えたら次の層でDilationを1に戻すことで、計算の効率化している。 e.g.) 1,2,4,...,512,1,2,4,...,512,1,2,4,...,512.

10.

なぜ、RNNではダメなのか？ dilated causal convolutional layersでは、全ての出力を一度に計算することができる →学習時間が短くすることができる RNNでは、時系列に追ってデータを見ていく必要があるので、1つのサンプルを見るのに時間がかかってしまう。 →学習に非常に時間がかかる

11.

WaveNetのモデル構造各層にResnetの構造を持っている。また、skip-connectionのそれぞれのコネクションには重みづけされている。

12.

Conditional WaveNetのモデル構造声色特徴全てのレイヤーに対して、人の声色の特徴量を入力することで出力の声色を変化させることができる。

13.

音声の生成(概略図)

14.

実験

15.

MULTI-SPEAKER SPEECH GENERATION ・データセット VCTK ：109人計44時間の音声データ・入力音声の波形データ話者のID ・出力音声の波形データ・receptive field size (入力データサイズ) およそ0.3sec(おそらく15〜16層)

16.

MULTI-SPEAKER SPEECH GENERATION US parametric US concatenate US wavenet CH parametric CH concatenate CH wavenet 従来手法(parametric、concatenate)と比べてかなり自然に聞こえる。

17.

TEXT-TO-SPEECH ・データセット Google’s North American English(24.6時間) Mandarin Chinese TTS systems(34.8時間) のそれぞれの単一話者のスピーチ・入力基本周波数 (log F0 ) →信号を正弦波の合成（例えばフーリエ級数）で表したときの最も低い周波数成分の周波数(wikipediaより) 単語の言語特徴量(音節・発音etc) ・出力基本周波数 (log F0 ) 音節の長さ・receptive field size (入力データサイズ) およそ0.24sec(おそらく16層)

18.

TEXT-TO-SPEECH MOSとは… ”1: Bad, 2: Poor, 3: Fair, 4: Good, 5: Excellent” それぞれのサンプルに対して人間が上記のスコアを付けそのスコアを平均したもの

19.

TEXT-TO-SPEECH 各モデルについて、人にどの音源が良いか選択してもらったもの。 No preferenceは、どれも気に入らなかった場合。

20.

TEXT-TO-SPEECH ・Sample1 ・Sample2 それぞれのサンプルで人間の発話に近い自然な音声が生成されている。また、左のサンプルでは人間の息遣いまで生成されている！ただ、逆に若干な感じが残っているという印象。

21.

MUSIC ・データセット MagnaTagATune datasets: 約200時間分の音楽データそれぞれのデータにタグ(ジャンルetc) モデル構成・評価などがなかったので、詳細は割愛します。論文中ではMagnaTagATune datasetsに関してはタグで条件付けて音を変化できたらしい(生成された音声のサンプル無し)。

22.

MUSIC ・データセット YouTube piano dataset: 60時間のピアノ音楽データ・生成音声これも同様にモデル構成などが記載されていなかったので詳細は割愛します。しかし、生成された音源データは公開されていました。

23.

まとめ・感想 • 時系列データに対してRNNでなくCNNを用い、並列に計算することで、学習時間を短くしている(面白い！) • 各層に対し、話者の特徴量を入れることで、生成する音声を変化させる事ができる。 • 生成した音源も人の息遣いなどリアルに再現できている。 • ただ、詳しいモデル構成が書かれていないのが残念。。