503 Views
March 22, 22
スライド概要
2022/03/18
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Di usion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme 発表者: 阿久澤圭 (松尾研D3) ff http://deeplearning.jp/
書誌情報 著者:Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Sergeevich Kudinov, Jiansheng Wei(所属: Huawei Noahʼs Ark Lab) • 発表:ICLR2022 (oral) • 概要:深層生成モデルの一種であるDi usion Modelを音声変換に利用 • 発表理由:Di usion-based 生成モデルの勉強,VCへの興味 ff • ff タイトル:Di usion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme ff •
研究背景:音声変換(Voice Conversion, VC) Model (e.g., DNN) ソース話者 ターゲット話者 • Voice conversion (VC): ある発話の言語内容を保ったまま,声質を特定の人物に変換する • One-shot VC: one-shotで任意話者に適応 => ソース話者の音声を訓練に利用できない => モデルが特定の話者に依存してはいけない => 既存研究は入力から話者非依存の特徴量を抽出(VAE,Vector Quantization,PPG)
論文の概要 • 現状のVCの課題:品質と高速化 • 本研究の提案: • 高品質な音声変換が可能なエンコーダー・デコーダーモデルを提案 • エンコーダー:「平均声」を出力する(≈ 新たな話者非依存の特徴量の提案) • デコーダー:Di usion Probabilistic Model (DPM)を採用 加えて,DPMの推論の高速化のための新しい手法を提案 • VC以外でも利用できる,汎用的な手法 ff •
手法の全体像 • 図の見方:実線がVC時のデータフロー,破線が訓練時のデータフロー • VC時のデータフローは普通のエンコーダー・デコーダーモデルと大体同じ
エンコーダー • エンコーダーは「平均声」を予測するようにMSEで訓練 • 「平均声」:特定の音素(a, i, u, e, oなど)に対応する音声データをたくさん集めて,それらの 音声データを平均化したもの.平均化しているので話者に非依存 • この枠組の新規性について: • 従来手法:音素予測タスクや情報ボトルネック等を利用して,話者非依存の特徴量を抽出 • 提案手法:平均声は,音素(≈PPG)よりもリッチな情報を持つ表現
デコーダー ff • Di usion Probabilistic Model (DPM) のReverse Processを利用
デコーダーの理解に必要な知識 Score-based 生成モデル Sohl-Dickstein+2015, Ho+2020 Denoting di usion probabilistic modeling ff Song. et. al. 2019 Score-matching with Langevin dynamics Song. et. al. 2021 Score-based 生成モデルの 連続時間化(≈Neural ODE化) Popov. et. al. 2022 本論文
離散版 Di usion Probabilistic Model (DPM) Ho et al. 2020 • Forward Process:データからノイズを生成.既知・簡単. • Reverse Process:ノイズからデータを生成.未知・扱うのが困難 ff => DNNで近似する
連続版のDPM Song et al. 2021 • Song et. al. 2021 は先ほどのDPMを連続時間の場合に拡張 • • • メリット1: Forward, BackwardのPassは確率微分方程式 => 任意のSolver (e.g., Euler-Maruyama)で計算可能 メリット2: パラメータの効率性が良い(論文中に記載はないがNeural ODE一般にメリット) しかし,Reverse SDE に登場するスコア関数 ∇log pt(x) が未知なので,Reverse SDEの計算はナイーブには困難 => DNN sθ(x(t), t) で近似する(時刻 t を入力にとる関数であり,Neural ODEとアイデアを共有)
本研究のデコーダー • 基本的にSong et. al. 2021と同じ • 特殊な点:PriorがData dependentである • エンコーダーの出力 X̄ を,終端分布 p(XT ) の平均として採用(普通は標準ガウス分布) => ソース音声による条件付き生成を可能に
サンプリング手法の提案 • 背景: • • • VCではリアルタイム性が重視される しかしSDEの数値計算に利用される手法(Euler-Maruyama Solver 等)は反復計算を必要とするため,そのIteration数がボトルネック 提案手法:Maximum Likelihood SDE solver • 更新式: • • ̂ = 0, ω̂ t,h = 0, σt,h ̂ = NOTE: Euler-Maruyama法の一般化(κt,h ざっくりとしたメリット:提案手法で得たパス X = テップ数Nにおいて尤度を最大化 N {Xkh}k=0 βth ) は任意のス
実験 既存手法との比較 提案手法:Di -VCTK-ML-N(Nは推論時のIterationの数) 評価基準:Naturalness(自然さ),Similarity(ターゲット話者っぽく聞こえるか) 評価指標:MOS; Mean Opinion Score (人間による1~5点の評価) ff 音声デモあり:https://di vc-fast-ml-solver.github.io ff • • • •
実験 推論手法の比較 • • 推論手法:EM(Euler-Maruyama), PF(Song+2021),ML(提案) EMはiteration数6だとほとんど性能が出ない
まとめと発表者感想 • まとめ • Di usion-modelを利用したVC手法の提案 • 高速化のための推論手法も同時に提案 • 実験ではかなり高いMOSを達成(3.5以上は自分の知る限りSoTA) • 発表者感想 • サーベイ中Di usion Probabilistic Modelは品質・速度ともに数年でかなり進歩した印象をうけた • エンコーダーとデコーダーの貢献,どちらが大きいのか知りたい ff ff • エンコーダーの出力を音素事後確率(PPG)にしたらどうなる?
References • Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising di usion probabilistic models. Advances in Neural Information Processing Systems, 33, 2020. • Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the data distribution. In Advances in Neural Information Processing Systems, pp. 11895‒ 11907, 2019. • Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-Based Generative Modeling through Stochastic Di erential Equations. In International Conference on Learning Representations, 2021. ff Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning, pp. 2256‒2265, 2015. ff •