[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders

>100 Views

July 19, 19

#deep learning #Deep Learning #Audio Processing #Variational Autoencoders #Signal Separation #Speech Technology

スライド概要

2019/07/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.1K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Monaural Audio Source Separation using Variational Autoencoders Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • “Monaural Audio Source Separation using Variational Autoencoders” (Interspeech 2018) • Author: Laxmi Pandey, Anurendra Kumar, Vinay Namboodiri Indian Institute of Technology Kanpur • 概要： – モノラル信号における重畳音声をVAEで分離する • 動機 – 研究関連分野の論文レビュー – 生成モデルによる多音源分離 2

アジェンダ • • • • 音源分離の既存研究と本研究の位置づけ Variational Autoencoder (VAE)による音源分離実験条件・項目・結果まとめ・感想 3

音源分離の既存研究と本研究の位置づけ • Discriminative training – DNN Learning with Ideal Binary Mask/Ideal Ratio Mask（Soft Mask) • メリット：性能が出ている • デメリット：訓練データの労力大 • Generative model – Non-negative matrix factorization(NMF): • メリット：シンプルで計算コスト小、音源数に足してスケーラブル • デメリット：線形であるため表現力が弱い – Denoising Autoencoders • メリット：非線形のため表現力が豊富 • デメリット：係数の数が多い→計算コスト大 – VAE 本論文の対象!! • 構成がシンプル • 計算コストが低い • 潜在空間で、各音源がどの程度区別して表現できているかの信頼レベルを数値化 4

音源分離の既存研究(2): Discriminative DNN Learning • 不特定な複数話者の重畳音声を分離する – テスト時：DNNでMask Rateを推定し 𝑠1𝑒𝑠𝑡 𝑡 = 𝑀1𝑒𝑠𝑡 ・Y から目的音声を得る – 学習時：DNNはMask Rateを教師あり学習 (方法例） መ Y=S1+S2 𝑆1 DNN min ( | 𝑆1 − 𝑆መ1 |2 𝑅𝑁𝑁 𝐶𝑜𝑒𝑓 𝑆መ2 𝑀1𝑒𝑠𝑡 = + | 𝑆2 − 𝑆መ2 |2) 𝑆1 𝑆2 𝑆መ1 𝑆መ1 + 𝑆መ2 5

音源分離の既存研究(3): Generative modelの例 : NMF • Give non-negative element matrix Y, any Y can be decomposed to; Y= B＊W, where B is non-negative base matrix with smaller dimension than Y, W is non-negative coefficients matrix between Y and B. Condition; Elements of Y and B are based on probabilistic generative model with real number extended poison distribution and gamma distribution respectively. • Applying NMF to CASA scenario, • In training pre-trained matrix y1 (multiple train vector s of y1) can be decomposed to y1 = By1＊ Wy1, where By1 is Base of y1 sound and Wy1 is coefficient matrix. y2= By2 ＊ Wy2 likewise. Base matrix By1 represents sound signal y1’s base feature and assumed to be fix. Ŵ • In Test mode, given non-negative matrix x, x can be decomposed to x= [B y1 By2 ]＊ y1 . Ŵy2 • Therefore, ӯ1= By1 ＊ Ŵy1 , ӯ2= = By2 ＊ Ŵy12 ；Note that • → Put them to Wiener Filter to get final ෝ𝑦1 and ෝ𝑦2 . • One paper result : 5dB SNR (ratio of voice signal y1 to music interference signal y2 ) gain from 0dB SNR mixture x reported. (Training Data TIMIT 1000 utterances, multiple male speakers, testing data 20 utterances 20 male speakers, music piano, Frequency input =257 , the basic vectors 32 for B)) 6

Variational Autoencoder • • • • • 𝑥:目的音声データ、𝑧: 𝑥の潜在変数、𝑛:背景ノイズ（障害音声を含む）目的音声𝑥がノイズ背景𝑛下に埋もれて観測されたとき、𝑥だけを得たい。 𝑥の潜在変数𝑧の事後確率𝑝(𝑧|𝑥) ≈ 𝑝(𝑧|𝑥 + 𝑛)とする。（ 𝑛は無視可能と仮定） 𝑥は尤度 𝑝θ 𝑥 = ‫𝑝 ׬‬θ 𝑥 𝑧 𝑝 𝑧 𝑑𝑧から求まる: θは𝑑𝑒𝑐𝑜𝑑𝑒𝑟 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟 変分法により、尤度最大化する – 事前分布𝑝 𝑧 = 𝑁 𝑧; 0, 𝐼 ガウシアン分布を前提にする – 𝑝(𝑧|𝑥)をparametric分布𝑞Φ 𝑧 𝑥 で近似：Φは𝑒𝑛𝑐𝑜𝑑𝑒𝑟 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟 • max 𝑙𝑜𝑔 𝑝θ 𝑥 = 𝐸𝑞Φ(𝑧|𝑥) [log 𝑝θ(𝑥|𝑧)] − 𝐾𝐿(𝑞Φ(𝑧|𝑥)||𝑝θ 𝑧 ) qΦ,θ • Φ, θ = 𝑎𝑟𝑔𝑚𝑎𝑥 Φ,θ σ𝐿𝑙 log 𝑝θ 𝑥 𝑧 𝑙 − 𝐾𝐿(𝑞Φ(𝑧|𝑥)||𝑝θ 𝑧 ) ここで、 𝑧 𝑙 ~𝑞Φ(𝑧|𝑥)でサンプリング qΦ, 𝑝θはneural network、隠れ層一層あるいは多層のFCN (+𝑛) 7

Variational Autoencoderによる音源分離 • • • • 𝐹∗ 𝑠𝑖 𝑡 𝑖: 1,2 ⋯ 𝑁: 個別音声𝑖 →𝑆𝑖 τ ∈ 𝑅 : 𝑠𝑖 𝑡 の時間フレームτでのSTFT**の振幅 𝑦 𝑡 : 重畳音声→ Y(τ): 𝑦 𝑡 の時間フレームτでのSTFTの振幅 𝑦(𝑡)にある個別音声の個数分（ 𝑖: 1,2 ⋯ 𝑁 )VAEを用意する。 𝑖 番目VAEのencoder入力を𝑌 = 𝑌 τ ∗ 𝐵 Decoderの出力を𝑆𝑖 = 𝑆𝑖 τ ∗ 𝐵にして 𝑦 𝑡 : 重畳音声 𝑠𝑖 𝑡 ∶個別音声𝑖 各VAEを各個別音声用に学習 𝐵: Batch size(フレーム数） 𝑌(τ)*B: STFT 𝑆𝑖 τ *B: STFT Φ, θ = 𝑎𝑟𝑔𝑚𝑎𝑥Φ,θ σ𝐿𝑙=1 log 𝑃θ (𝑆𝑖 |𝑧 𝑙 ) +𝐷𝐾𝐿 [𝑞Φ (𝑧 𝑙 |𝑌)||𝑝 𝑧 ] 𝐿: サンプリング回数（１回でOK) • 各VAEは目的音声𝑠𝑖 𝑡 以外は全てノイズ（𝑛）と見なす。 *F: FFTの有効周波数ビン数 **STFT：Short-Time Fourie Transform 個別音声1 識別用のVAE μ, σ2 f μ + σz 𝑧: 𝑁(0, 𝐼) 個別音声2 識別用のVAE 8

実験条件 • 音声コーパス：TIMIT（英語文章） • 話者10名（男性5名、女性5名） • サンプリング周波数𝑓𝑠 = 16𝐾𝐻𝑧、STFTの窓長＝64𝑚𝑠𝑒𝑐、窓オーバラップ= 16𝑚𝑠𝑒𝑐、 𝐹𝐹𝑇 = 1024𝑝𝑜𝑖𝑛𝑡 → 有効周波数ビン = 513𝑝𝑜𝑖𝑛𝑡 • ２名の重畳音声：男女各一名、𝑆𝑁𝑅 = 0𝑑𝐵、25通り – 学習のための重畳音声20通り（4通り/各人）→10人分のVAEをこの2名の重畳音声２０通りで学習 – テストのための重畳音声５通り（１通り/各人）→学習した10人分のVAEに、テスト用重畳音声5通りを入力して、音質を評価する • 評価指標→分離後の個別音声の音質で評価 – 𝑆መ𝑖 = 𝑆𝑖 + 𝑒𝑖𝑡𝑒𝑟𝑓 + 𝑒𝑛𝑜𝑖𝑠𝑒 + 𝑒𝑎𝑟𝑡𝑖𝑓 – 𝑆𝐷𝑅 𝑆𝑖𝑔𝑛𝑎𝑙 𝑡𝑜 𝐷𝑖𝑠𝑡𝑜𝑟𝑡𝑖𝑜𝑛 𝑅𝑎𝑡𝑖𝑜 = 10 log10 𝑆𝑖 目的音声以外のすべてのノイズ 2 𝑆መ 𝑖 −𝑆𝑖 – 𝑆𝐼𝑅 𝑆𝑖𝑔𝑛𝑎𝑙 𝑡𝑜 𝐼𝑛𝑡𝑒𝑟𝑓𝑒𝑟𝑒𝑛𝑐𝑒 𝑅𝑎𝑡𝑖𝑜 = 10 log10 – 𝑆𝐴𝑅 𝑠𝑖𝑔𝑛𝑎𝑙 𝑡𝑜 𝐴𝑟𝑡𝑖𝑓𝑎𝑐𝑡𝑠 𝑅𝑎𝑡𝑖𝑜 = 10 log10 2 𝑆𝑖 2 𝑒𝑖𝑡𝑒𝑟𝑓 目的音声以外の話者音声に起因するノイズ 2 𝑆𝑖 +𝑒𝑖𝑡𝑒𝑟𝑓 +𝑒𝑛𝑜𝑖𝑠𝑒 𝑒𝑎𝑟𝑡𝑖𝑓 2 2 アルゴリズム等に起因するノイズ 9

10.

実験項目 • VAEの最適パラメータ決定 – 最適な潜在変数𝑧の次元数 – 最適なBatchサイズ： – 最適なEncoderとDecoder層数： • VAEのConfident Score • ベースラインとの分離性能比較 – ベースライン • • • • Non-mask Binary-mask Soft-mask AutoEncoder – 提案手法 • VAE • Deep-VAE 10

11.

実験結果(1) • 最適な潜在変数𝑧の次元数 • 最適なEncoder/Decoder層数→5層が良い →64次元が最適 • 最適なBatchサイズ→17が最適 • VAEのConfident Score 重畳音のSNRが悪いと、潜在変数のVarianceの平均が大きくなり、よって音源間の区別が付かなくなる。分離性能が悪くなる。 11

12.

実験結果(2) • ベースラインとの性能比較 Deep VAEが、他の方法比べて、２～３ dBよい。特に、総括的な尺度であるSDRが、他に比べて特に良い。→VAEが潜在空間で、目的音声以外のノイズをより旨く除去する能力がある。 12

13.

まとめ・感想 • まとめ、 – – – – VAEを音源分離に使って、ベースラインを凌駕する性能を出した。 VAEはAutoencoderに比較しても分離性能が良い。 VAEで各個人の潜在表現を抽出することができていそう。事前に、どの話者が重畳音声に含まれており、その話者に対応したVAEを使うかを知る方が性能が上がる。 • 感想 – 音声分離におけるVAEの使い方はAutoencoderでの方法と似た使い方をしており、参考になった。 – 重畳音声の話者数に対してスケーラブルな構成だが、３人以上での性能はどうなるか。→学習は追加学習だけで済むのか、サラから３人で学習し直しか？ – 将来は、日本人などのグループであれば、一本の共通のVAEを学習するのがよさそう。 13

14.

END 14