【DL輪読会】Unsupervised Representation Disentanglement Using Cross Domain Features and Adversarial Learning in Variational Autoencoder Based Voice Conversion

154 Views

February 19, 21

#deep learning #Voice Conversion #Variational Autoencoder #Deep Learning #Adversarial Learning #Speech Processing

スライド概要

2020/04/24
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.7K

各ページのテキスト

Unsupervised Representation Disentanglement Using Cross DEEP LEARNING JP Domain Features and Adversarial Learning in Variational [DL Papers] Autoencoder Based Voice Conversion Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報-1 • “Unsupervised Representation Disentanglement Using Cross Domain Features and Adversarial Learning in Variational Autoencoder Based Voice Conversion”, IEEE TRANSACTIONS ON EMERGING TOPICS IN COMPUTATIONAL INTELLIGENCE 2020, Wen-Chin Huang , etc The Institute of Information Science, Academia, Sinica, Taipei • 概要： – Voice Conversion(VC)：ある話者の音響情報（スペクトル等）の内、話者情報は別の話者情報に変え、言語依存情報は変えずに、音響情報を新たに生成する技術 – 変換音声の音質および了解度の改善：潜在空間で、言語依存情報と話者情報の分離(disentanglement)を向上させる – 本論文の新規性：Variational Autoencoderの潜在表現能力に、敵対的学習(GAN)と話者識別を追加して、変換音声の音質および了解度を改善した • 動機 – Variational Autoencoderによる音声の話者情報に依存する潜在表現の作り方を調査 2

書誌情報-2 • 音声デモ：https://unilight.github.io/CDVAE-GAN-CLS-Demo/ • コード：https://github.com/unilight/cdvae-vc – フレームワーク：tensorflow 3

アジェンダ • Voice Conversion(VC)とは – 問題設定（筆者） • Variational Autoencoderによる解法（筆者ら先行研究） – VAE-VC(Variational Autoencoder for VC) – CDVAE-VC(Cross Domain Variational Autoencoder for VC) • • • • CDVAE-VCの課題と解決策 CDVAE-CLS-GAN（新規提案）評価データ・評価尺度・評価結果まとめ・感想 – （Appendix) 問題設定（統計的モデルからの解釈-私見） 4

Voice Conversion(VC)とは＜問題設定＞ – 元話者(original)の音響情報（スペクトラムフレーム）𝑋𝑜𝑟𝑖 = [𝑥𝑜𝑟𝑖,1 , ⋯ 𝑥𝑜𝑟𝑖,𝑗 , ⋯ 𝑥𝑜𝑟𝑖,𝑁 ]、𝑗:時間フレームインデックスとした時、言語情報（音韻等）は変えずに、目標話者(target)が発生した音響情報𝑋𝑡𝑎𝑟𝑔𝑒𝑡 = [𝑥𝑡𝑎𝑟,1 , ⋯ 𝑥𝑡𝑎𝑟𝑖,𝑗 , ⋯ 𝑥𝑡𝑎𝑟,𝑁 ]に対し、conversion function 𝑓を求めること 𝑥ො𝑡𝑎𝑟,𝑗 = 𝑓(𝑥𝑜𝑟𝑖,𝑗 ) 「元気ですか？」元話者 Peter 「元気ですか？」 5

Voice Conversion(VC)：音声統計モデルからの解釈(私見）-1 ＜前提＞ – 音声の音響情報（スペクトラムフレーム）𝑋 = [𝑥1 , ⋯ 𝑥𝑁 ]は、2つの潜在情報である、言語情報（音韻情報フレーム）W = [𝑧1 , ⋯ 𝑧𝑁 ]と話者情報（音質フレーム）y = [𝑦1 , ⋯ 𝑦𝑁 ]に依存する – 音声を統計モデル𝑝 𝑥, 𝑧, 𝑦 で記述できるとする – 言語情報𝑧𝑖 と話者情報𝑦𝑖 は独立 𝑝 𝑧𝑖 𝑦𝑖 ≅ 𝑝 𝑧𝑖 以下、添え字𝑖は省略＜問題設定＞ VCは、「ある統計モデル𝑝 𝑥, 𝑧, 𝑦 から、音響情報𝑥とその話者（情報）yのペアー群{(𝑥 (𝑖) , 𝑦 (𝑖) )}𝑁 𝑖=1 がデータとして用意されている。その統計モデルからサンプリングしたペアー(𝑥 (𝑖) , 𝑦 (𝑖) )に対して、 𝑥 (𝑖) のみから𝑥 (𝑖) に含まれる言語情報 𝑧 (𝑖) を𝑝(𝑧 (𝑖) |𝑥 (𝑖) )で推定し、そこで推定した𝑧 (𝑖) と、別の話者（情報）𝑦 (𝑗) とを用いて、話者𝑦 (𝑗) の言語情報𝑧 (𝑖) に対応した音響情報𝑥 (𝑗) を予測すること」である 6

Voice Conversion(VC)：音声統計モデルからの解釈(私見）-2 Voice Conversionシステム＜問題設定＞ – これは、観測音響𝑥, 話者𝑦, 言語情報𝑧の時音声の統計モデル𝑝 𝑥, 𝑧, 𝑦 – VCは、 𝑔𝑖𝑣𝑒𝑛 𝑥 (𝑖) , 𝑦 (𝑗) で、 𝑥 (𝑗) ← max 𝑝 𝑥 𝑧 (𝑖) , 𝑦 (𝑗) , 𝑝(𝑧|𝑥) <生成器＞ where 𝑧 (𝑖) ~𝑝(𝑧 |𝑥 (𝑖) ) ＜推定器＞から 𝑥 (𝑗) を予測すること 7

Variational Autoencoderによる解法-1 (VAE-VC) • Variational AutoEncoderのメリット – 教師あり学習データが不要。 – 音響情報𝑥 を潜在空間にマップし、理想的には言語情報𝑧を獲得（実際は、 𝑍に話者情報 𝑦が滲みこんでしまう) – 別途、話者情報の潜在空間にマップしカテゴリカル変数yとして獲得 – 低次元 𝑦, 𝑧の獲得 • VAE-VC(Variational Autoencoder for VC) VAEマッピング VAE部 – 学習: 𝑧,ҧ 𝑥ҧ は、𝑥のVAE-VCによる潜在変数と再構成音声 • 𝑥ҧ = 𝐺Φ 𝑧,ҧ 𝑦 = 𝐺Φ 𝐸θ (𝑥), 𝑦 • 𝐿𝑣𝑎𝑐 θ, Φ, 𝑥, 𝑦 = 𝐿𝑟𝑒𝑐𝑜𝑛 𝑥, 𝑦 + 𝐿𝑙𝑎𝑡 (𝑥) ҧ 𝑦)] 𝐿𝑟𝑒𝑐𝑜𝑛 𝑥, 𝑦 = 𝐸𝑧~𝑞θ(𝑧|𝑥) ҧ [log 𝑝Φ (𝑥|𝑧, 𝐿𝑙𝑎𝑡 𝑥 = −𝐷𝐾𝐿 (𝑞θ 𝑧ҧ 𝑥)||𝑝 𝑧 ) – 音声変換（推論）: • 𝑥ො = 𝑓 𝑥, 𝑦ො = 𝐺Φ 𝑧,Ƹ 𝑦ො = 𝐺Φ 𝐸θ (𝑥), 𝑦ො VAE-VCの構成図 8

Variational Autoencoderによる解法-2 (CDVAE-VC) • CDVAE-VC(Cross Domain Variational Autoencoder for VC) – 𝑥の2種類(SP, MCC)の特徴量𝑥𝑆𝑃 , 𝑥𝑚𝑐𝑐 をねじれ無、ねじれ有の計４パスのAEに通す。4つの再構成音二乗誤差と、2つの潜在空間変数距離を損失関数に加える。→2つのencoderは1 つの時よりロバストな潜在変数𝑧を学習する CDVAE-VCの構成図 CDVAE部の構成図入れ替える 9

10.

CDVAE-VCの課題と解決策 • Variationa Autoencoderでの課題 – ①音響情報𝑥の言語依存情報zを𝑝 𝑧 𝑥 から推定した時に、zと話者情報yの独立性の実現可否→言語依存情報zに話者情報yがにじみ込むことを防止可能か – ②Voice Conversion後の音響情報𝑥が平滑し過ぎで音がこもる • Variational AutoEncoderの誤差関数は二乗再生誤差なので平滑化の効果が大きすぎる • 解決策 – ①は→話者潜在変数𝑦分類器𝐶ψ を追加： 𝐶ψ ：言語依存情報潜在変数𝑧は、どの話者𝑦からのデータかを判別する分類器 𝑦：話者のone-hotベクトル：クロスエントロピー損失 ∗ – ②は→CDVAEで得た再構成音𝑥の周辺確率密度分布𝑝 ҧ 𝑥ҧ を真の𝑝 (𝑥)に近づける 𝑝𝑥ҧ が𝑝∗ (𝑥)並みの複雑度を持ってほしい Wasserstein GAN 10

11.

CDVAE-CLS-GAN • CDVAE-GAN with CLS (CDVAE-CLS-GAN) – CDVAE-VCに解決策①と②を加えたNetwork – 学習は、Phase-1→2→｛3A(1回)⇔3B(5回)} – 損失関数は以下：α(=50)、λはハイパーパラメータ(=1000) • CDVAE-GAN – CDVAE-VCに解決策②のみを加えたNetwork 11

12.

CDVAE-CLS-GAN • NetworkはCNNベース 12

13.

評価データ • 音声データ：Voice Conversion Challenge(VCC) 2018 – – – – 話者：12名言語：英語サンプリング周波数：22.050KHz 学習データ： • 70発声/話者ｘ12話者 – Validationデータ： • 11発声/話者 x 12話者 – テストデータ（音声変換データ）： • 35発声/話者 x 12話者 – WORLD vocoder: 音声特徴量 𝑥𝑆𝑃 ∈ 513次元、𝑥𝑀𝑐𝑐 ∈ 35次元、AP、F0を抽出 13

14.

評価尺度-1 • 客観的評価 – Mel-Cepstrum Distortion(MCD)： • パラレル音声での評価 – パラレル音声：元話者からの変換音声(c)と目的話者の音声(t)がある場合を意味する • 発声音全体を通した(c)と(t)の二乗差平均 – Global Variance(GV)： • 元話者からの変換音声(c)のみを使う • 次元ごとに発声全体を通して変換音声の平滑化度合いを評価する→スペクトル分散を評価 – Modulation Spectrum Distortion(MSD)： • Modulation Frequency毎の歪率→スペクトル分散を評価 – Disentanglement Measurement • パラレル音声での評価 • 各フレーム毎の(c)における潜在変数𝑧𝑐 と(t)の潜在変数𝑧𝑡 のコサイン距離の全発声での平均 14

15.

評価尺度-2 • 主観評価 – Mean Opinion Score(MOS): • 被験者は(c)と(t)を聞き、自然性を5段階で評価する。 – VCC style test on similarity: • 被験者による(c)と(t)は同じ話者からの発声か？Agree-disagreeの4段階評価 15

16.

評価結果-1 • GANと音声特徴の関係 – MCD結果では、2つの特徴量を使ったもの（Both）が良いが、 GVとMCDはMCCがTargetに近く良い。 – 既存の研究でも、MCDはGVや MCDと矛盾する結果が報告有。 MCD結果 – Subjective Evaluationでは、 MCCが他を凌駕 – 結論：特徴量はMCC＞SP、Both である。 MSD結果 16

17.

評価結果-2 • GANの効果 – VC結果、MS結果から、 Targetに近い方が良い GAN付きが良い。 • CDVAE-GAN＞CDVAE • CDVAE-CLS-GAV＞ CDVAE-CLS – GANは再構成音のスペクトラムの分散を大きくしており、スペクトルの平滑化を軽減している→効果あり VC結果 • CLSの効果 – VC結果、MS結果、MSD 結果、 Subjective Evaluationから、CLS付は性能が良い→効果あり MS結果 17

18.

評価結果-3 • Disentanglement evaluation(DEM) – 特徴量SPがMCCよりも良いが、次元数がSP=513>MCC=35と多いためで、分解能が高いとDEM は高くなる。 – GANとCLSの効果あり 18

19.

まとめ・感想 • まとめ、 – Cross Domain Variational Autoencoderに、話者潜在変数𝑦分類器𝐶ψ (CLS)と Wasserstein GANを追加し、以下の良好な結果をえた。 – Wasserstein GANは、客観評価、主観評価、Disentanglement評価ともに、効果があった。スペクトルの平滑化を軽減できたと考える – 𝐶ψ (CLS)は、客観評価、主観評価、Disentanglement評価ともに、効果があった。(t) の潜在空間変数と、(c)の潜在空間変数のコサイン距離は、CLSありの方が小さかった。よって、CLSは、潜在空間変数を真の値に集める効果がある。 • 感想 – 「VAEにおけるVCの問題設定を統計的モデルから解釈しようと試みたが、要領を得ているのか不明である。→ご意見、誤りの指摘があれば、お願いします。 – 今後、サンプルコードを解析してみる。 19

20.

END 20