[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis

>100 Views

March 15, 19

#deep learning #Deep Learning #Audio Synthesis #JPGAN #WaveNet #WaveGan

スライド概要

2019/03/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 86.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 57.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 40.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 35.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 35.3K

各ページのテキスト

DEEP LEARNING JPGANSYNTH: ADVERSATIAL NEURAL AUDIO SYNTHESIS [DL Papers] Rei Mizuta, Graduate School of Mathematical Sciences, UT http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 著者:Jesse Engel, Kumar Krishna Agrawal, Shuo Chen, Ishaan Gulrajani, Chris Donahue, Adam Roberts • Google AIの方々 • ICLR 2019 waiting review • openreview.netでの査読コメントを見る限りacceptされそう? 2

目的 • audio(=波形データ)で曲を学習、合成したい。 – ピアノの曲をヴァイオリンで再生するなど。 • audioデータは1秒に数万サンプリングされているが、周期的という特徴をうまく捉えて学習したい。具体的には次のいずれかの戦略を使いたい – Dilatedもしくは様々なスケールで畳み込む – (窓)フーリエ変換後のベクトルをinputにする • 既存手法より上手に合成したい – 音程が変わっても、音色に一貫性を持たせたい 3

要点 (1)GANを使ってaudioを合成する手法で既存手法(WaveNet,WaveGAN)と比べて実験でいい評価を得た。特に既存手法の改善点として合成後の音声データはスペクトルに偏りがあることを明らかにした。 (2)技術的な新規性は、周波数の位相の代わりに位相のずれを測るInstantaneous Frequencyという量に注目したことである。これによってより画像データに近いベクトルを生成した。 4

目次 1. 既存手法 1. WaveNet 2. WaveGan 3. 各手法の評価 1. データセットと評価指標 2. アーキテクチャ 3. 結果 2. 提案手法 1. Instantaneous Frequency 4. まとめと感想 5

1.1 WaveNet Speech Synthesisに使われている既存手法としてWaveNet(Oord et al. ‘16)がある。 .wav形式だと最高で65536(16bit) このネットワークの特徴は • 入力がaudio、出力がaudio*256(本来は65536通りだが減らす)の確率値 • 固定長 • Dilationを使う 6

1.1 WaveNet Speech Synthesisに使われている既存手法としてWaveNet(Oord et al. ‘16)がある。このネットワークの特徴は • 入力がaudio、出力がaudioサイズの確率 • 固定長 • Dilationを使う hが特徴に関わるベクトルとして、Vで特徴を学習 7

1.2 WaveGan • Audioデータに対してDCGANの手法を使って学習する。画像と音声データの違いとして、周期的であることを考慮して、畳み込み層のレイヤーをDCGANより増やす。 DCGANでの5*5の畳み込み層の代わりにWaveGANでは25*1の畳み込みをする 8

目次 1. 既存手法 1. WaveNet 2. WaveGan 3. 各手法の評価 1. データセットと評価指標 2. アーキテクチャ 3. 結果 2. 提案手法 1. Instantaneous Frequency 4. まとめと感想 9

10.

2.1 Instantaneous Frequency • (上)曲の一部をフーリエ変換した後の位相およびIFの表。(下)位相及びIFを各周波数ごとに並べた「画像」 – IFの方が時間方向に周期的な要素が少なくより画像データに近いベクトルになっていると考えられる 10

11.

目次 1. 既存手法 1. WaveNet 2. WaveGan 3. 各手法の評価 1. データセットと評価指標 2. アーキテクチャ 3. 結果 2. 提案手法 1. Instantaneous Frequency 4. まとめと感想 11

12.

3.1. データセットと評価指標 • 300000曲のデータセット（NSynth）。1曲は1000個の異なる楽器のうち一つのみの演奏からなり、4秒間を64000箇所サンプリングする。 • このうちacoustic instrumentのみ、32~1000Hzの間にある70370曲で8割を学習、2割をtestに使う • 評価指標について、6種類あるが論文中で可視化されている2つのみ紹介する – (Human Evaluation) 二つ聞かせてどちらが良いか答えさせる – (Number of Different Bins;NDB) （Richardson & Weiss ‘18)で論じられている。画像をボロノイ図にしてクラスタリングしたのちカテゴリに入った数の差を測る 12

13.

3.2. アーキテクチャ • magendaのデータ1曲が64000サンプルサイズであるのに対し、まず1024サイズの窓で256箇所(窓)フーリエ変換する。周波数は512通りとる。結果的に (256,512,2)サイズの「画像」が得られる。さらにオプションとして次のものを試す。 – (Phase) 最後の2サイズは(log振幅、位相) – (IF) 最後の2サイズは(log振幅、位相のInstantaneous Frequency) • (IF-Mel) log振幅、位相のInstantaneous Frequency共にMel尺度にする Mel尺度算出式 – (H) 2048サイズの窓で128箇所のFTをし(128,1024,2)サイズの画像を得る • 「画像」から曲に変換するのは”the approximate inverse linear transformation”を使うらしい(実装を見ないとわからない)。 13

14.

3.3. 結果提案手法に様々なオプションを付けて実験。ほとんどの場合で既存手法を上回る既存手法(青色)はスペクトルに大きな偏りがある。元データのスペクトル(のクラスタ)の分布は折れ線 14

15.

3.3. 結果赤色:既存手法、スペクトルに大きな偏りがある 15

16.

3.3. 結果 • 論文より抜粋 • 実際に聞いてみましょう(スライドの最後にリンク有) 16

17.

目次 1. 既存手法 1. WaveNet 2. WaveGan 3. 各手法の評価 1. データセットと評価指標 2. アーキテクチャ 3. 結果 2. 提案手法 1. Instantaneous Frequency 4. まとめと感想 17

18.

まとめと感想 (1)audioデータを窓フーリエ変換したあと位相成分の微分を取ることで周期的でない(=画像に近い)ベクトルを生み出すことができた。 (2)GANSynthでは(1)で生み出したベクトルに対してGANを使うことにより曲の合成を行った。 [感想] - SpecGAN(WaveGANの論文にある別手法)との比較がない。特にスペクトルの分布が気になる。 18

19.

参考文献等 • WaveNetのデモ – https://magenta.tensorflow.org/nsynth-fastgen, 19/3/15閲覧 • WaveGAN – http://createwith.ai/paper/20180216/1192, 解説 19/3/15閲覧 – https://chrisdonahue.com/wavegan_examples/, デモ 19/3/15閲覧 • GANSYNTH – https://openreview.net/forum?id=H1xQVn09FX, 論文 – https://goo.gl/magenta/gansynth-demo, デモ 19