[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Assessment Score

>100 Views

August 31, 18

スライド概要

2018/08/31
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] DNN-based Source Enhancement to Increase Objective Sound Quality Assessment Score Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

2.

書誌情報 • “DNN-based Source Enhancement to Increase Objective Sound Quality Assessment Score” (IEEE Transaction on Audio Speech and Language Processing, 2017) • Author: Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, Y. Haneda NTT Media Intelligence Laboratories, NTT Corporation 2

3.

アジェンダ • 論文概要 • 音声エンハンスメントとは • 既存手法:MLを目的関数に使ったDNN • 提案手法:OSQA客観的音品評価ベースの目的関数を使ったDNN • 評価結果 • まとめ 3

4.

論文概要 • DNNを利用した音声エンハンスメントに,聴覚音質特性を反映した Objective Sound Quality Assessment Score(OSQA*: 客観的音品評価)をベース にした目的関数を用いて,ノイズ除去後の音質や明瞭度を向上させた. * OSQAの代表例は以下の2つがある.本報告では、これらを使用する. PESQ: Perceptual Evaluation of Speech Quality, ITU-T P.862 STOI: Short-time Intelligibility Measure (短時間明瞭度測定) – 従来:目的関数はMean Square Error(平均二乗誤差)やMaximum Likelihood(ML): 微分可能 ⇒Back Propagation(BP)利用可能 – 問題点:分離再構成音の音質評価はOSQAであるPESQやSTOIを使っている – 要求:目的関数をPESQやSTOIなどのOSQAにしたい:微分不可(∵Black Box関数) – 解決策:RLで実績のある 方策勾配法を使い微分係数をサンプリングで近似 ⇒BP利用可能 4

5.

音源エンハンスメントとは • 雑音に紛れた音声から背景雑音(雑音、他の音声)を除去すること – 学習時:DNNはMask Rateを教師あり学習 – テスト時:DNNでMask Rateを推定し 𝑠1𝑒𝑠𝑡 𝑡 = 𝑀1𝑒𝑠𝑡 ・Y から雑音除去済みの音声を得る 5

6.

既存手法:Maximum Likelihood(ML)法(1) • Phase Sensitive Maskの定義 – 目的音声フーリエ変換: – ノイズ込み音声: 背景ノイズ: ω={1,2,…,Ω}:周波数,τ={1,2,…,T}:時間 T-F Mask: ノイズ削減音声 虚数 Sω,τ – ここでは、T-F MaskとしてPhase Sensitive Mask Xω,τ (𝑠) θω,τ (𝑋) θω,τ 実数 を使う.位相を考慮したMask. 6

7.

既存手法:Maximum Likelihood(ML)法(2) – 𝑝(𝑆τ |𝑋τ , θ): 観測信号𝑋τ が与えられた時の目的音声Sτ の条件付確率 θ:DNNのパラメータ – 目的関数はLog-最尤度𝐽𝑀𝐿 (θ):ES,X ln 𝑝 𝑆τ 𝑋τ , 𝜃 – この目的関数のθに対する微分は、解析的には求まらない ⇒この計算を、学習データの平均求めよう – このθでの微分は, – 𝑝 𝑆τ 𝑋τ , θ を, 𝑆ω,τ − 𝐺෠ω,τ ・𝑋ω,τ の誤差はすべての周波数binで独立な平均が0で分散がσ2ω,τ のgaussian ノイズと見なせる. 7

8.

既存手法:Maximum Likelihood(ML)法(3) – よって、DNNの学習は、𝐺ω,τ とσ2ω.τ が 出力になる. – すなわち – と定義して、以下が3本のDNNがあることになる。これを教師有り学習する. 𝑧τ1 = 𝑥τ – DNNのパラメータθは𝑊 (・) ,𝑏(・) である.Φ𝑔 : sigmoid, Φσ : 𝑒𝑥𝑝𝑜𝑛𝑒𝑛𝑡𝑖𝑎𝑙 – (11)に求まった𝐺ω,τ とσ2ω.τ と教師データ𝑆ω,τ を代入して,(12)から微分を得る. 8

9.

提案手法 • 目的: Objective Sound Quality Assessment Score(OSQA: 客観的音品評価)の EM(Expectation Maximization)をDNNの目的関数に使い、ノイズ除去システ ムの性能を良くしたい。 • 現方法の問題点 – 現方法:目的関数は、二乗誤差,ML最尤度など – ノイズ除去システム性能評価:聴覚性能評価である OSQAが使われている DNNの最適解が聴 覚評価上の最適解 にならず • OSQAのEMを使った目的関数の課題 – 目的関数がBlack-Box関数なので、DNNのパラメータに関する微分が求まらず • 解決の方策 – 方策勾配法を適用して,OSQAのEMを使った目的関数の微分をサンプリングアル ゴリズムに基づいて計算する 9

10.

OSQAの例:PESQ • 電話回線の聴覚に基づく音質評価の客観的評価法 – 2つの音声信号の相対的な音質の差を数値で表す ノイズ音声𝑋 ノイズ除去音声𝑆መ • 主観的評価ではなく客観的評価が望ましいのか: – 主観評価は、評価者が必要で人的リソースの負担がかかる – DNNの目的関数の計算は膨大な回数である – 目的関数に聴覚に基づく計算を適用した場合,毎回、人を使った主観的評価を行うことは不可 能. – 主観評価をシミュレートする客観的評価法がある. – DNNの目的関数の計算に客観的評価を使いたい 10

11.

OSQA Scoreと目的関数の定義 መ • 𝐵(𝑆,X): OSQA Score関数と呼ぶ መ – 観測値𝑋の時、ノイズ除去後音声𝑆の音質を数量化する関数 መ • 分離の性能評価指標: 𝐵(𝑆,X)のEM(Expectation Maximization) • ベイズの定理から、 • そして、DNNの目的関数 𝐽(θ)を分離の性能評価指標とする መ とする. 𝐵(𝑆,X)はθでは微分不可能なので、解析的にBPが使えない. 11

12.

方策勾配法による微分の求め方(1) • どうすればよいか? ⇒ 方策勾配法を用いる:Black-box関数の微分を求めることができる。 መ መ መ に関して微分可能 – 前提: 𝐵(𝑆,X) は𝑆,Xの連続関数,で 𝑆,X 𝑝(𝑆τ |𝑋τ , θ)はθに関して微分可能 この時, は, が成立することから 12

13.

方策勾配法による微分の求め方(2) – (22)は期待値であるが,解析的には解けないので መ • Xの期待値は平均で表現し, 𝑆の平均はサンプリングアルゴリズムで求めた • OSQAスコアは、たくさんの時間点で図る方式だが,すべての時間点で測れないので,τの平 均をやめて発声を複数回行いその発声の回数の平均を採用する。 i番目の発声の観測値を i番目の発声を行った時のk番目のサンプリング出力を 13

14.

OSQA Scoreの安定化の方策 • OSQA Score関数の安定化のための方策: – 微分の分散は小さい方が安定して学習する.しかし(25)(26)から、微分をサンプ リングで求めるで、微分の分散は大きくなり、不安定になりやすい. መ – 微分の分散が大きい理由のひとつは、 𝐵(𝑆,X)の分散が大きいこと⇒正規化する መ – もう一つの理由は、OSQA Scoreの入力𝑆にノイズがあること⇒入力に依存する OSQA Scoreの平均を引き去る – 生のOSQA Score: መ – 安定化のために定義するOSQA Score: 𝐵(𝑆,X) 14

15.

T-F Maskのサンプリング時の補正 (𝑖,𝑘) (𝑖) መ • (24)のサンプリングアルゴリズムで得た𝑆ω,τ は,観測値𝑋ω,τ との比であ るT-F Maskが,必ずしも本来あるべき実数でないことが起こる. • これは、 𝑝 𝑆τ 𝑋τ , 𝜃 が複素数だからで実数への補正必要. • そこで、以下の方法で補正して正しT-F Maskを得る. (𝑖) – まず、 DNNで𝑝 𝑆τ 𝑋τ , 𝜃 の出力として𝐺෠ω,τ を得る (𝑖,𝑘) – (24)に基づいてサンプリングして𝑆ሚω,τ を得る(k=1,…,K) (𝑖,𝑘) ෡ ω,τ を計算し、 – そこで、各サンプル点から以下のG (𝑖,𝑘) 𝑆መω,τ を得る. 15

16.

今回の提案手法:全体ブロック 16

17.

提案手法の学習全容(1) (𝑖) (𝑖) (𝑖) ①観測データ(ノイジー音声):𝑋ω,τ = 𝑆ω,τ + 𝑁ω,τ 𝑖 𝑖 ②DNNのforwardでT-F Mask𝐺(𝑥τ )と分散σ(𝑥τ )を求める: ① Φ𝑔 : sigmoid, Φσ : 𝑒𝑥𝑝𝑜𝑛𝑒𝑛𝑡𝑖𝑎𝑙 ② 𝑧τ1 = 𝑥τ 17

18.

提案手法の学習全容(2) 𝑖,𝑘 ③ T-Fサンプリングして𝐺෠ω,τ を求める – DNN出力の𝐺 𝑥τ𝑖 𝑖 (= 𝐺෠ω,τ : 右図参照)を利用して (𝑖,𝑘) – 以下のサンプリング手法で𝑆ሚω,τ を生成 𝑖,𝑘 – 以下の方法で𝐺෠ω,τ を求める ③ ④ 𝑖,𝑘 ෠ ④ Sω,τ を求める 18

19.

提案手法の学習全容(3) መ መ ⑤𝑍(𝑆,X)と𝐵( 𝑆,X)を計算 ⑥目的関数𝐽(θ)の微分∇θ 𝐽(θ)を求める ⑦ ⑦BPでDNNの係数を更新 ⑥ ⑤ 19

20.

評価:目的(1) ① 提案手法がOSQA Scoreを向上するように学習できているか? ② 提案手法と従来手法の性能比較をSDRとOSQAの指標で評価 • 7つの手法を比較 • • • • • • • PSA MMSEの目的関数を使う手法:MMSE MLベースの目的関数を使う手法:ML PESQのEMを目的関数に使うがGがテンプレート選択である手法:C-PESQ STOIのEMを目的関数に使うがGがテンプレート選択である手法:C-STOI PESQのEMを目的関数に使った手法:P-PESQ STOIのEMを目的関数に使った手法:P-STOI PESQのEMとSTOIのEMの寄与を50%ずつにした目的関数を使った手法:P-MIX መ • テストデータを上記7つ手法に入力して得られた出力𝑆を2つのOSQAで評価 • PESQ • STOI • テストデータに混入するノイズ4つ • 空港,アミューズメントパーク,事務所,宴会部屋 20

21.

評価:目的(2) ③人的な主観的評価をOSQAベース手法のテスト出力に適用 主観評価でOSQAベース手法は既存手法(MLなど)と比較して優秀か? • 音質評価:ノイズ性など全体の印象を評価 • 評価指標 • Speech mean-opinion-score (S-MOS):音声部分の音質を5段階で評価 • Subjective-noise mean-opinion-score (N-MOS):ノイズ部分が存在するかを5段階で評価 • Overall mean-opinion-score (G-MOS):音質全体を5段階で評価 • 評価人数: 16名 • 対象手法:ML, P-PESQ,P-STOI • 明瞭度評価:単語の音韻の明瞭度を評価 • 指標: 単語明瞭度 • 単語数 • 低頻出単語50語 • 日本語4モーラ語 • 評価人数: 16名 21

22.

評価:データセットと実験条件 • データセット – 学習及びValidation用 • ATR日本語データベース: – 全体:6640発声, 男性11名,女性11名 – 学習データ:5976発声, Validationデータ:664発声, • CHiME-3 ノイズデータベース: – 背景ノイズ4種類:カフェ,交差点,公共交通機関,歩道 • 日本語発声ファイルとノイズファイルをランダムに選択 • 両者のSNRを振る(-6dB, 0dB, 6dB, 12dB) – テスト用 • 日本データベース: – 300発声,男性3名,女性3名 • ノイズデータベース: – 背景ノイズ4種類:空港,アミューズメントパーク,事務所, 宴会部屋 • 実験条件:右表 22

23.

①提案手法がOSQA Scoreを向上するように学習できているか? • 右図: P-PESQあるいはP-STOI手法で学 習したシステムにテストデータを入 力しPSEQあるいはSTOI指標で評価 – 上段 • 縦軸:テストデータにおける評価指標 (PESQあるいはSTOI)の改善度 • 横軸:指標の更新回数 ⇒指標の更新回数とともに指標は改善して いる.本手法は,PESQあるいはSTOI指標 を改善している – 下段 • 縦軸 (a) P-PESQ手法でMSEを測定, (b)P-STOI手法でMSEを測定 • 横軸:指標の更新回数 ⇒MSEは更新回数の増加と一致せず. • 下図 :P-PESQあるいはSTOI手法で学 習したシステムにテストデータを入 力.PSEQあるいはSTOI指標で評価し た結果とMSE指標の結果は相関無し ⇒MSE指標で評価しても聴覚評価と一 致しない 23

24.

②提案手法と従来手法の性能比較をSDRとOSQA指標で評価 • 指標がPESQあるいはSTOIで はその指標のEMを目的関 数にした手法かP-MIXが従 来手法より性能が良い. • 指標がSDRではSNRが低い 場合に従来手法が本手法よ り性能がよいことがある. 24

25.

②提案手法と従来手法の性能比較をSDRとOSQA指標で評価 • P-PESQは音声 部を歪ませて でも残雑音を 除去しようと する. • P-STOIは音声 部に歪を起こ さないように するため無音 部の雑音の削 除が控えめ. • P-MIXは上記 の良いとこ取 り. 𝑋ω,τ 𝑆ω,τ S෠ ω,τ 𝐺ω,τ MMSE ML P-PESQ P-STOI P-MIX 25

26.

③人的な主観的評価をOSQAベース手法のテスト出力に適用 • 主観評価 – 主観的音質評価指標S-MOS,N-MOS,G-MOSではP-PESQやP-STOIなどOSQA をベースにした手法がスコアーが良い⇒ OSQAベースの手法の方が非OSQAベー スの手法よりも高音質のノイズ削減を実現. – 明瞭度評価ではP-STOI手法が最も良く,続いてP-PESQ,P-STOIの順.明瞭度に 焦点をあてたP-STOIベースの手法が明瞭度性能が良いのは妥当である. 26

27.

まとめ • PESQやSTOIなどのOSQA Scoreベースの目的関数を持つDNNベースの音声 エンハンスメントを学習する手法を提案した • OSQA Scoreベースの目的関数では,直接はDNNパラメータに関する微分 が求まらないが、方策勾配法によるサンプリングで微分を求めることが できる. • 方策勾配法で微分を求めたOSQA Scoreベース目的関数を持つ音声エンハ ンスメントはMMSEやMLなどの従来の目的関数をもつエンハンスメント よりも良い音質や明瞭度を提供する. 27

28.

END 28

29.

C-PESQ, C-STOI手法(筆者らの一世代前の手法) • T-F Maskの選択が128個のテンプレートから選ぶ方式 P-PESQ,PSTOIとの 差異部分 29