[DL輪読会]IMPROVING VOICE SEPARATION BY INCORPORATING END-TO-END SPEECH RECOGNITION

365 Views

June 04, 21

#deep learning #Deep Learning #End-to-End Speech Recognition #Voice Separation #Neural Networks #Transfer Learning

スライド概要

2021/06/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47K

各ページのテキスト

IMPROVING VOICE SEPARATION BY INCORPORATING DEEP LEARNING JP END-TO-END SPEECH RECOGNITION [DL Papers] Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • “IMPROVING VOICE SEPARATION BY INCORPORATING ENDTO-END SPEECH RECOGNITION”, Naoya Takahashi1,2, Mayank Kumar Singh3, Sakya Basak4, Parthasaarathy Sudarsanam5, Sriram Ganapathy4, Yuki Mitsufuji1 1Sony Corporation, Japan, 2University of Tsukuba, Japan 3Indian Institute of Technology Bombay, India, 4Indian Institute of Science, India 5Sony India Software Centre, India ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 41-45, doi: 10.1109/ICASSP40776.2020.9053845. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 29, 2021 https://ieeexplore.ieee.org/document/9053845 2

https://ieeexplore.ieee.org/document/9053845

概要 • 大規模な音声データで学習させたEnd –to-End音声認識Neural Network(E2EASR)を転移させて、重畳音声分離の性能を向上させる • E2EASRが学習した音声データの音韻と言語情報が、重畳音声分離に効果がある • E2EARは、fine-tuningにおいて、用意できる学習データが少量の場合の転移学習で、下流のタスクの性能向上が実現可能 3

モティベーション • 従来の重畳音声分離技術は、音響信号レベルの特徴量（例えば、スペクトラム情報）を利用する手法だが、音韻や言語レベルの情報を利用することの効果に関心があった • 聴覚の分離機能は、音韻や言語情報も使って次に来るセマンティック情報を予測していると考えられるので興味を持った 4

アジェンダ • • • • • 背景提案手法評価まとめ感想 5

背景-1 • Speech enhancement(音声強調）の分野 – – – – 重畳音声分離（Voice separation）声楽音声の分離（Singing voice separation) 背景雑音除去部屋の反響除去 • 従来の重畳音声分離法 → 音響レベルの特徴量を処理して分離 – – – – スペクトラムクラスタリング Computational auditory scena analysis(聴覚物体分析モデル） Non-negative matrix factorization(NMF) 深層学習 • 分離性能向上が必要な利用シーン – ノイズがシビアなシーン – 学習のための音声データが少量に限るドメインのシーン 6

背景-2 • 新しいトレンド：音響レベルに追加して、別の情報を使ってノイズ除去性能を上げる – 唇の動き（ビデオ情報）との併用→システムが高価、occlusion問題 – 目的音声の音韻や言語情報を使う → 本論文で扱うテーマ学習済み音声認識＋転移学習 → 重畳音声分離のドメインで、分離性能向上 7

提案手法 • 音声認識Neural Networkを音声分離への転移学習 – 転移元ドメインの音声と転移先のドメインの音声の質が大きく異なるケース • 音声分離（転移先ドメイン）は、非コントロール環境下の録音音声（背景雑音あり） cf．音声認識(転移元ドメイン）は、コントロール環境下の録音音声（スタジオ内） • 厳しいノイズ環境でも音声分離性能が向上する – 学習データが少ないドメインの音声分離のケース：例）声楽の歌声分離 • 少ない学習データドメインでも転移学習が良好な分離性能をもたらす教師あり学習教師あり学習大規模音声データ E2EASR 転移元ドメイン単語文章重畳音声データ Networkを転移 E2EASR 目的音声音声分離転移先ドメイン 8

End-to-End音声認識(E2EASR) • • • • E2EASR：Hybrid CTC/attention-based E2E architectureを使用したESPnet 入力：音響特徴量出力：文字系列転移元Deep features: BLSTM encoderの出力ℎ𝑡 – 音韻や言語特徴量 connectionist temporal classification E2ESR概要ブロック図 E2ESR詳細ブロック図 9

10.

音声分離への転移学習 • 音声分離は実績があるConv-TasNetを使用: – Loss関数: Scaled Invariant SDR • E2EASRのDeep Features出力を、音声分離部で活用する – Domain Translation • E2EASR出力と音声分離Encoder出力のタイミングとformat整合 • 6 x 1-D Conv with 256 filters c : concatenate Domain translation c c E2EASRを転移し音声分離で活用 Domain translation 音声分離（Conv-TasNet） 10

11.

音声分離への転移学習 • • 音声分離部の学習時： ① 学習済E2EASRにClean音声入力 ② Clean音声のE2EASR特徴出力をオラクル出力とし、音声分離部のDomain translationへ入力 ③ 上記と同時に、ノイジーな音声データを音声分離部に入力 ④ 分離部出力と、clean音声のSDRをloss関数にして、 Backpropagationで分離部のNetwork係数を学習音声分離のテスト時： ① Clean音声は無く、重畳音声のみが存在するので、重畳音声を別の音声分離システムで分離し、暫定的な clean音声を暫定予測する ② この時の別の音声分離システムとは、Conv-TasNet 分離ブロックのDomain translationの入力をゼロにしたもので代用→もともとdeep featureはスパースなので、ゼロに設定しても、近似の誤差は少ない ③ 別の音声分離システムの出力をE2EASRに入力し、暫定的に分離した音声に対応したdeep featuresを得る ④ 音声分離部の音声入力に重畳音声を入れて、分離後音声を得る ① ② ④ ③ ② ③ ① ④ ⑤ ⑤ E2EASRからの音韻言語特徴量（Deep features）は、学習時はオラクルなcleanデータのものだが、テスト時は別の音声分離システムで予測しただけの擬似cleanデータのものなので、分離音声の予測に誤りが含まれる →このgapを埋めるために、E2EASRでの Deep features抽出と音声分離を繰り返す 11

12.

声楽の歌声分離への転移 • 声楽の歌声分離はMulti-scale MDenseNetを使用 c : concatenate c c Mel spectrogram • E2EASRのDeep Features出力を声楽の歌声分離部で活用する Domain translation Mel spectrogram – Loss関数：MSE in Mel spectrogram c MDenseNet E2EASRを転移し声楽の歌声分離で活用声楽の歌声分離（Multi-scale MDenseNet） 12

13.

評価方法 • ２つのタスクで評価 ① 重畳音声（複数話者音声）＋ノイズから目的の音声を分離：激烈な背景ノイズ ② 声楽から歌声を分離：学習データが少量であるドメインへの転移学習 • データーセット ① 音声認識学習 ◼ 音声データ： ◼ ◼ LibriSpeechデータセット：960時間の音声コントロール環境下での録音音声 ② 重畳音声（複数話者音声）＋ノイズから目的の音声を分離 ◼ 音声データ ◼ ◼ ◼ ◼ ノイズデータ ◼ ◼ AVSpeechデータセット：4700時間のYouTubeビデオ音声の一部を使用非コントロール環境下での録音音声学習データ： 100時間、テストデータ：15時間 AudioSetデータセット：YouTubeビデオの10秒のノイズクリップ重畳音声生成＋ノイズ付加： ◼ AVSpeechから複数話者音声をランダム選択して重畳＋AudioSetノイズ（エネルギー比率3:1） ③ 声楽から歌声を分離 ◼ 声楽データ ◼ ◼ MUSDBデータセット：学習 100曲(6.7時間：少量データ）、テスト 50曲 3つのデータ：声楽（楽曲＋歌声）、楽曲のみ、歌声のみ、 13

14.

評価方法 • ベースライン ① 重畳音声（複数話者音声）＋ノイズから目的の音声を分離：激烈な背景ノイズ ◼ ◼ Conv-TasNet オリジナル： loss関数は、Permutation Invariant Training(PIT) 唇の動きの学習結果を付加したConv-TasNet: ◼ ◼ ◼ 唇の動きの学習Network：Autoencoder:3 conv層+2 linear層+3 transposed conv層唇の動きの学習データ：唇の領域を種々96x96ピクセルのpatchにcrop 唇の動きのdeep features: Autoencoderのbottleneck層のactivation ② 声楽から歌声を分離：小学習データのドメインへの転移学習 ◼ Conv-TasNet オリジナル ◼ ただし、E2EASR特徴量が持つ有効性を示す→SOTA達成が目的ではない 14

15.

評価結果 • 重畳音声（複数話者音声）＋ノイズから目的の音声を分離：激烈な背景ノイズ • 結果 – 重畳音声＋背景ノイズという悪環境でもE2EASR特徴量を用いることで、劣悪な障害音にロバストな分離性能が得られた – 提案方法は唇の動画クリップで学習した特徴量を付加した Conv-TasNetをも凌駕した本提案 – Test時に、本来は手に入らない clean音声（Oracle)をE2ESDR に入れた場合（Oracle E2EASR features)と比較しても、0.2dBの差しかない → E2EASR特徴量を組み入れが、重畳音声の分離において、目的音声以外の障害音に対してロバストである 15

16.

評価結果 • 声楽から歌声を分離 • 結果 – 本提案法で、ベースラインを凌駕する性能を得る本提案 • E2EASRの学習は、声楽の歌声とは異なる音声で学習したにもかかわらず、ベースラインを凌駕できた – Test時に、本来は手に入らない clean音声（Oracle)をE2ESDR に入れた場合（Oracle E2EASR features)と比較しても、0.2dBの差しかない → E2EASR特徴量を組み入れが、歌声の分離において、背景の楽音に対してロバストである 16

17.

まとめ • End-to-Endの音声認識Network（E2EASR)を音声分離に活用するための転移学習手法を提案 • E2EASR特徴量を用いることで、音声分離と音声強調（ノイズ削減）を同時に行うことがシミュレーションで確認できた • 唇の動きを追加するAV法をも凌駕する性能を得た • 学習データが少ないドメインのfine-tuningで有効な性能を出すことできる 17

18.

感想 • 聴覚は既に構築したセマンティックな知識を用いて次に来る語彙を予測して分離に活用しているだろうとする説がある。これを、機械学習の分野で実現する一方法を見た気がした。音声認識で得た音韻や言語などのセマンティックな特徴量を、転移学習を用いて音声分離の改善に繋げる点が感心した点。 • 音声認識Networkのどの特徴マップをdeep featuresとするべきかは、面白い課題。 18

19.

END 19