【DL輪読会】Gated Recurrent Fusion With Joint Training Framework for Robust End-to-End Speech Recognition

>100 Views

February 26, 21

スライド概要

2021/02/26
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Gated Recurrent Fusion With Joint Training DEEP LEARNING JP Framework for Robust End-to-End Speech Recognition [DL Papers] Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

2.

書誌情報 • “Gated Recurrent Fusion With Joint Training Framework for Robust Endto-End Speech Recognition”, – C. Fan, J. Yi, J. Tao, Z. Tian, B. Liu and Z. Wen, 中国科学院大学, 北京 IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 29, 2021 • 概要: – Speech Enhancement(ノイズ除去等)とSpeech Recognitionの2つのモデルを 直列に接続する際、単にspeech enhancement出力をspeech recognitionに入 力するだけでは、ノイズ削減に伴う音声歪のために、音声認識性能は向 上しない – 両モデルの間に、Speech Enhancement出力とオリジナルノイジー音声と を融合するモデル(Gated Recurrent Fusion)を追加し、3モデルをEnd-to-End で同時に学習することで、音声歪が軽減し、音声認識性能が改善する • モティベーション: – 複数のモデルから成るシステムの学習方法は? かない? 何故、単純接続では上手く行 2

3.

アジェンダ • • • • • 背景・目的 先行研究 提案手法 評価 まとめ 図表は、論文から抜粋した 3

4.

背景・目的 • <背景> – Speech Enhancementとspeech recognitionを直列接続して、雑音下の音声認識の認 識性能はある程度の向上が認められてきた – しかし、speech enhancementは、ノイズ削減にともなう目的音声の歪みが生じ るため、一定以上になると認識性能の向上が頭打ちする • <目的>Speech enhancementによる音声の歪を低減する方法を提案 – Speech Enhancement出力とオリジナルノイジー音声とを融合するモデル(Gated Recurrent Fusion: GRF)を追加 – Speech enhancement, GRF, speech recognitionの3つのモデルをEnd-to-endで学習 4

5.

先行研究ーその1 • <方法1> Speech enhancement + speech Recognitionの単純直列接続 – 2つのモデルを個別に学習 – (問題点)単独で最適化したspeech enhancementは必ずしも単独で最適化した speech recognitionに取って最良のノイズ除去 にならず • Speech enhancement出力音声に歪が生じる (SNRが悪い部分は音声情報が欠落する) • Speech enhancement出力はスペクトラムが平坦化 される(詳細時間情報が喪失する) Speech enhancement出力 ノイジー 音声 Speech enhancement Speech Recognition 個別に学習 ノイジー音声 Speech enhancement出力 クリーン音声 認識結果 (文字、音韻、単語) 5

6.

先行研究ーその2 • <方法2> Speech recognitionにMulti-condition Training (MCT) – 多くの異なるSNRのノイズ音を学習データとする – (問題点)学習コスト、未知のノイズに対処不可、ノイズに因る目的音声の歪 – Li, Feipeng, Phani S. Nidadavolu, and Hynek Hermansky. "A long, deep and wide artificial neural net for robust speech recognition in unknown noise." Fifteenth Annual Conference of the International Speech Communication Association. 2014. • <方法3> SpecAugment法 – 入力音声をaugumentationし、学習データを増やす • 音声スペクトログラムを変形する:time warping, time-frequency masking, – (問題点)クリーン音声の認識率は改善、ノイジーな音声の認識率が上がらない – Park, Daniel S., et al. "Specaugment: A simple data augmentation method for automatic speech recognition." arXiv preprint arXiv:1904.08779 (2019) • <方法4>2つのモデルのEnd-to-End学習 – 2つモデルを同時に学習 – (問題)依然として、speech enhancement出力に目的音声の歪が残り、認識性能は一 定以上は改善しない – H. Bu, J. Du, X. Na, B. Wu, and H. Zheng, “Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline,” in Proc. 20th Conf. Oriental Chapter Int. Coordinating Committee Speech Databases Speech I/O Syst. Assessment., 2017, pp. 1–5. 6

7.

提案方法-その1 • 従来方法:先行研究<4> – 𝑥 𝑡 : クリーン音声、𝑛 𝑡 : ノイズ、𝑦 𝑡 : ノイジー音声 – 𝑦 𝑡 = 𝑥 𝑡 + 𝑛 𝑡 : Time signal – 𝑌 𝑡, 𝑓 = 𝑋 𝑡, 𝑓 + 𝑁(𝑡, 𝑓): Short time Fourier Transform 2 – 𝐿𝑒𝑛𝑐 = 𝑋෨ − 𝑋 (独立タスク1) – 𝑋෨ = 𝐸𝑛ℎ𝑎𝑛𝑐𝑒𝑚𝑒𝑛𝑡 𝑌 – 𝑂෨𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 = 𝐹𝑏𝑎𝑛𝑘( 𝑋෨ ) – 𝐿𝐴𝑆𝑅 = − ln 𝑃 (𝑆 ∗ |𝑂෨𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 )(独立タスク2) • 提案方法: Speech recognition Cepstrum bank計算 Speech enhancement 従来方法 新規追加 部分 – Gated Recurrent Fusion (GRF): speech enhancement出力 𝑋෨ とノ イジー音声 𝑌 の融合を行い、融合した信号をASRに入力する – Speech enhancement:マスク学習予測法(既存手法) – Speech recognition:Transformer ASR (既存手法) 提案方法 7

8.

提案方法-その2 • 提案方法:続き – Speech Enhancement: Ideal amplitude mask(IAM)学習予測法 • 𝑀𝐼𝐴𝑀 = 𝑋 Τ 𝑌 • 𝐿𝑒𝑛ℎ = 1 σ 𝑇𝐹 ෩⊙ 𝑌 − 𝑋 𝑀 ෩ ⊙ 𝑌 (テスト) • 𝑋෨ = 𝑀 2 (学習) 𝐹 – Fbank: Mel-ceptrum計算 • 𝑂෨𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 = log 𝑀𝑒𝑙( 𝑋෨ 提案方法 Gated Recurrent Fusion • 𝑂𝑛𝑜𝑖𝑠𝑦 = log 𝑀𝑒𝑙( 𝑌 – Gated Recurrent Fusion • β𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 = 𝐵 𝑂෨𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 • β𝑛𝑜𝑖𝑠𝑦 = 𝐵 𝑂𝑛𝑜𝑖𝑠𝑦 • Enhancement出力とノイジ音声を動 的に融合してRecognitionに入力する GRF Block 8

9.

提案方法-その3 • 提案方法:続き – GRF Block:左右2つのGRUを直列に結合 • Reset gate: 𝑟 = σ 𝑊𝑟 β𝑛𝑜𝑖𝑠𝑦 , ℎ𝑝 • Update gate: 𝑧 = σ 𝑊𝑧 βnoisy , ℎ𝑝 • ℎ𝑝′ = 𝑟 ⊙ ℎ𝑝 • ℎ𝑝𝑐 = tanh 𝑊ℎ βnoisy , ℎ𝑝′ • Selective fusion: ℎ𝑞 = 𝑧 ⊙ ℎ𝑝 + 1 − 𝑧 ⊙ ℎ𝑝𝑐 • 右側のGRUでは、左側のGRUの係数をcopy • β𝑛𝑜𝑖𝑠𝑦 をβ𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑、 ℎ𝑝 をℎ𝑞 に置き換えて計算 Gated Recurrent Fusion • O𝐺𝑅𝐹 = Concat(β𝑛𝑜𝑖𝑠𝑦, , 𝑓 𝐺𝑅𝐸 , β𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 ) – Speech recognition • 4-head (6-block self-attention encoder 6-block Making decoder) Transformer ASR • 𝐿𝐴𝑆𝑅 = − ln 𝑃 (𝑆 ∗ |𝑂𝐺𝑅𝐹 ) – Loss function: • 𝐿 = 𝐿𝐴𝑆𝑅 + α𝐿𝑒𝑛ℎ (統合タスク)α:hyper-parameter GRF Block 9

10.

評価の観点 • Speech RecognitionとSpeech Enhancementを個別に最適化のために学習し た場合に、認識性能が向上しない理由はなにか?(Base1)と(Base2) → 理由は、 Speech enhancement出力の音声データが歪んでいる、詳細構造が損 失していると思われる • Speech enhancementを低減する方法でうまい手は何か – 個別学習のまま、テスト時に、recognitionの入力に、Speech enhancement出 力とノイジー音声を加算することで融合し、改善を図る(Base3)→失敗 – 同時学習にして、融合方法を種々変えてみる(Orignal)→ 上手く行った • 評価の指標 – 認識性能(CER: Character error rate) 10

11.

音声データ • • • • • 音声コーパス:AISHELL-1 中国マンダリン:400話者、170時間音声 ノイズコーパス:NonspeechNoiseとNOISE-92を使用 サンプリング周波数:16KHz 学習データ:音声コーパスとノイズコーパスのSNRはランダム(0~20dB) テストデータと検証(development)データは、音声コーパスとノイズコー パスのSNRを0, 5, 10, 15, 20dBとした • 音声データ:短時間フーリエ変換 スペクトラム振幅:257次元 32msec hamming窓、16msecシフト 11

12.

評価方法・結果-その1 • ベースライン(Base1)Speech recognitionのみ – speech enhancementなし – 学習方法によるspeech recognitionモデルの種類 • • • • E2E_ASR_clean:クリーンな音声のみを使用 E2E_ASR_SpecAugment:音声のAugmentationを追加 E2E_ASR_MCT:種々のSNRのノイジー音声(MCT)を使用 E2E_ASR_MCT_SpecAugment:MCTと音声のAugmentを使用 認識結果 認識結果 Recognition Recognition 学習データ テストデータ <テスト時> <学習時> (Base1) – テスト音声の種類 • クリーンな音声 • ノイジー音声(SNR:0, 5, 10, 15, 20dB) • Development datasetとtest datasetの両方 – 評価結果 Test Dataset MCTの効果! Development Dataset • MCTが対ノイズ効果あり。特にSNRが悪い時に。 12

13.

評価方法・結果-その2 • (Base2) Speech recognition +Speech enhancement – 2モデルは個別学習 – Speech recognitionの学習:(Base1)と同じ – Speech enhancementの学習: • 学習データ:ノイジー音声 • Enhance方式: Ideal amplitude mask学習予測法(既存) – 評価結果 • ノイジーTest音声:ノイズ対策が無い/少ない Recognitionモデルでは、enhancementの効果 がある.しかし、ノイズ対策した recognitionモデルでは、逆に悪くなっている。 →ノイズ対策したrecognitionモデルでは、 Enhancementが、逆に、歪の生成や詳細情報 の欠落が主要因で、性能悪化する • クリーンTest音声:(Base1)より性能悪い → Enhancementがrecognitionに有害な 歪を生成している (Base1)よりも良好 (Base1)よりも悪化 13

14.

評価方法・結果-その3 • (Base3) Speech recognition +Speech enhancement – – – – 2モデルは個別学習 Speech recognitionの学習:(Base1)と同じ Speech enhancementの学習:(Base2)と同じ テスト時のみに、接続を変更し、Recognitionの入力に SNR Fusionデータを使用←enhancementの効果をノイ ジー音声の1/10にする.(Base1)と(Base2)の中庸を とる • SNR Fusionデータ:Enhancementデータ ෪ 𝑋と ノイジー音声 𝑌 を加算で𝑓𝑆𝑁𝑅 = 20 log 𝑌 Τ ෪ 𝑋 が20𝑑𝐵 – 評価結果 • クリーンTest音声:全モデルで(Base1)とほぼ 同じの良い性能 • ノイジーTest音声:ノイズ対策が無い/少ない Recognitionモデルでは、(Base1)並みに悪化. →Enhancementがノイズ削減に役立っていない ノイズ対策ありモデルで(Base1)と同じ性能 →MCTの効果であり、Enhancementの貢献ではない (Base1)並みに悪化 14

15.

評価方法・結果-その4 • 提案方法:Speech recognition + speech enhancement – 2モデルを同時学習 – 学習時/テスト時ともに、speech enhancement出力とノイ ズー音声の融合してrecognitionへ入力する方法を以下から一つ 選択 • Joint-Enhancement-E2E_ASR: 融合せずにenhancement出力のみ (①) • Joint-Enhancement-E2E_ASR-concat: 融合をconcatenate(②) • Joint-Enhancement-E2E_ASR-GRF: 融合をGRFを用いる(③) – 評価結果 • 同時学習のみでも(①)ノイジTest音声で,(Base1) のMCTを超える性能を出すがMCT-SpecAugmentに は劣る →同時学習はある程度enhancementの未知の歪も recognitionが学習するので効果あり.しかし、未だ enhancement歪は存在するので、 MCT-SpecAugment には劣る. • 融合方法②、③を採用すると、①も(Base1)も凌駕する 性能がでる。→融合の効果で、ノイジー音声の 詳細情報が認識率の向上に貢献しているのと、 Enhancement出力の歪低減に役に立っていると推測 (Base1)より悪化 全てでベストな性能 15

16.

GRFの緒言 • モデルのパラメータ数 – 2層BLSTMx2のパラメータ数が大きい – GRFのパラメータ数は1Mil個 標準のSpeech Transformer 標準のSpeech Transformer+2層BLSTMx2 Speech Transformer(concat) + GRF • GRFの計算複雑性 – Joint-Enhancement-E2E_ASR-Concat(②):0.622sec/発声音声 – Joint-Enhancement-E2E_ASR-GRF(③):0.746sec/発声音声 12.0%増 16

17.

まとめ • Speech enhancementとSpeech recognitionの同時学習は、個別学習よりも性能 が良い – この2つのタスクは、独立なタスクではない、互いに正の相関があるタスク – 個別タスクの個々の最適解の組み合わせよりも、2つのタスクを統一したloss関数で 大局的な最適解の方が、認識率は向上する • 同時学習は、enhancementが生成する歪をある程度は軽減するが、それでも 残る • 残ったenhancement歪は、Gated Recurrent Fusion(GRF)で、Enhancemnet出力 とノイズ音声を融合することで、軽減する。 • ここで、GRFの効果は、以下の2つで – ①ノイズ音声を使ってenhancement出力の歪を補正軽減し、かつ、 – ②ノイズ音声の生のスペクトラム詳細情報を取り込むことで、 認識性能の向上に貢献する 17

18.

感想 • Speech enhancementとspeech recognitionは、Transformerが出てくる前 までは、後者のモデルが大きいので、統合して扱うことが難しかった が、Transformerの出現で、統一して扱うことが可能なった→統一して 扱うことが多くなる傾向か • 一方、本論文は、speech enhancementとspeech recognitionは、既存 のSOTAのモデルを使い、新規性は結合して性能を出すための方法にあ る。地味なテーマだが、このような隙間をねらう研究もあり • GRFの貢献が、enhancement出力の音声歪が軽減すると主張している が、認識率が向上したことが唯一の根拠。歪が軽減する過程を可視化 し、accountabilityをあげたい 18

19.

END 19