>100 Views
May 08, 18
スライド概要
2018/05/07
Deep Learning JP:
http://deeplearning.jp/hacks/
DL輪読会資料
Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition 東京大学工学部システム創成学科Cコース B3 中村泰貴
自己紹介 ・東京大学工学部システム創成学科Cコース B3 中村泰貴 ・音声(深層学習を絡めた)や信号処理の技術に興味あります ・今回が初回発表です...
書誌情報 ・論文名 ・Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition ・著者 ・Chanwoo Kim(Google) ・Richard M Stern(Carnegie Mellon University) ・公開日 ・2016/06/24 ・論文URL ・http://www.cs.cmu.edu/~robust/Papers/ OnlinePNCC̲V25.pdf
背景 ・音声認識で用いられる特徴抽出 ・MFCCかmelspectrogramがほとんど ・別な特徴抽出方法はないのか... ・Robust性も欲しい!! ・試してみる価値はある PNCC!!! deep speech2
PNCCとは ・主な特徴 ・MFCCなどは対数を用いているのに対し、 PNCCは冪乗則を用いる ・雑音低減させるasymmetric filtering ・従来の特徴抽出との差異 ・様々なタイプの雑音環境下、エコーがかかる環境下で MFCCやPLPより認識精度が向上 ・計算コストがよりかかる ・clean音声でも認識精度が落ちない
まずは結果から... LibriSpeech dev-cleanの音声に SNR=4[db]ほどのノイズを環境雑音を付加
まずは結果から... mel spectrogram PNCC
まずは結果から...
PNCCの機構
Gammatone Frequency Integration ・Filtabank http://aidiary.hatenablog.com/ entry/20120225/1330179868
Medium-Time Power Calculation ・Pの移動平均 ・M = 2 ・ガウスノイズに効果的
Asymmetric Noise Suppression floor level noise を検出
Asymmetric Noise Suppression 有声音などの励起関数によって 駆動されていないと思われる 信号にlowpass filteringを 適用すると認識精度が向上する この動作は複数回のローパスフィルタに なるため音声のパワー係数をぼかし、 認識精度を低下させるため、音声セグメントに 対して適用しない
Asymmetric Noise Suppression 信号がそれ自身の下側崩落線の定数倍より 小さいならばそれは励起されていないもの と考える c= 2 がホワイトノイズに対して もっとも効果的
Temporal masking 最終的なR[m, l]の値は... R[m, l] = Rsp[m, l] (excitation) R[m, l] = Qf[m, l] (non-excitaion) となる
Weight Smoothing
Mean power normalization
Power Function nonlinearity MFCCによる処理 PNCCによる処理
EXPERIMENTAL RESULTS (a)white noise (b)street noise (c) background music (d) interfering speech (e) artificial reverberation
Computational Complexity