独立深層学習行列分析に基づく多チャネル音源分離の実験的評価（Experimental evaluation of multichannel audio source separation based on IDLMA）

3.5K Views

March 16, 18

#nmf #source separation #music #bss #ica #ilrma #deep neural network #idlma #音響学 #独立深層学習行列分析 #音源分離 #日本音響学会 #実験的評価

スライド概要

北村大地, 角野隼斗, 高宗典玄, 高道慎之介, 猿渡洋, 猿渡洋, 小野順貴, "独立深層学習行列分析に基づく多チャネル音源分離の実験的評価," IEICE Technical Report, EA2017-104, vol. 117, no. 515, pp. 13–20, Okinawa, March 2018.
Daichi Kitamura, Hayato Sumino, Norihiro Takamune, Shinnosuke Takamichi, Hiroshi Saruwatari, and Nobutaka Ono, "Experimental evaluation of multichannel audio source separation based on IDLMA," IEICE Technical Report, EA2017-104, vol. 117, no. 515, pp. 13–20, Okinawa, March 2018 (in Japanese)

Daichi Kitamura

@d-kitamura

スライド一覧

http://d-kitamura.net/links_en.html

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

source separation nmf music bss ica ilrma direction of arrivals deep neural network audio signal processing deep learning

Daichi Kitamura 170.6K

音源分離における音響モデリング（Acoustic modeling in audio source separation）

nmf source separation music bss ica ilrma optimization audio signal processing model

Daichi Kitamura 59K

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

python install jupyter visual studio code pipenv

Daichi Kitamura 44.7K

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

nmf source separation music bss ica ilrma idlma deep neural network spectrogram consistency

Daichi Kitamura 39.5K

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

nmf source separation music bss ica ilrma

Daichi Kitamura 15K

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

nmf source separation bss ica

Daichi Kitamura 13.9K

各ページのテキスト

日本音響学会2018年春季研究発表会 2018年3月19日10:00–11:40 午前EA/SPオーガナイズドセッション（音声音響信号処理研究における機械学習技術の研究と応用） EA-3. 独立深層学習行列分析に基づく多チャネル音源分離の実験的評価 Experimental evaluation of multichannel audio source separation based on IDLMA 北村大地, 角野隼斗，高宗典玄, 高道慎之介, 猿渡洋（東大）小野順貴（首都大東京）

背景 • ブラインド音源分離（blind source separation: BSS） – 混合系（マイクや音源位置の部屋の形状等）が未知混合系分離系 • 優決定条件（マイク数≧音源数）のBSS – 音源間の独立性に基づく分離系の推定 • 独立成分分析（ICA）[P. Comon, 1994] • 周波数領域ICA（FDICA）[P. Smaragdis, 1998], [H. Saruwatari+, 2000], [H. Sawada+, 2004], ・・・ • 独立ベクトル分析（IVA）[A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007] • 劣決定条件（マイク数＜音源数）のBSS – 混合系の推定（時間周波数マスク） • Sparse coding [P. Bofill+, 2001], [S. Araki+, 2007] • Duong法 [N. Q. K. Duong+, 2010] 2

音源分離の歴史と発展（関連手法のみ掲載）多チャネル信号優決定条件 1994 単一チャネル信号劣決定条件独立成分分析(ICA) [Comon]，[Bell and Sejnowski], [Cardoso], [Amari], [Cichocki], … 1998 1999 周波数領域ICA(FDICA) [Smaragdis] 非負値行列因子分解 (NMF) パーミュテーション問題の解決法 [Saruwatari], [Murata], [Lee] [Morgan], [Sawada], … 2006 数理モデルの拡張生成モデル的解釈の発見独立ベクトル分析(IVA) [Virtanen], [Smaragdis], [Kameoka], [Ozerov], … [Hiroe], [Kim] 2009 2010 2011 2012 2013 板倉斎藤擬距離NMF (ISNMF) Duong法補助関数IVA(AuxIVA) [Duong] [Ono] 時変複素ガウスIVA [Ono] 多チャネルNMF [Sawada] 2016 独立低ランク行列分析 (ILRMA) [Kitamura] 2018 [Févotte] Duong+DNN法深層ニューラルネットワーク (DNN) [Hinton], … [Nugraha] 独立深層学習行列分析 (IDLMA) [Kitamura] 3

本発表の概要 • 優決定条件（マイク数≧音源数）が対象 – 混合系の逆系（分離系推定対象）が存在分離系 • BSSで活用されるモデル – 空間モデル：分離系推定の仮定 • 音源間の独立性と種は数領域での瞬時混合（ICA，IVA，ILRMA） – 音源モデル：分離信号の時間周波数構造の仮定 • グループスパース性（IVA），低ランク性（ILRMA） – 不適切な音源モデルによる性能の劣化 • パーミュテーション問題 • 独立深層学習行列分析（IDLMA） – ICA由来の「独立性に基づく分離系推定」 • 空間モデル（分離系）はブラインド推定 – DNNで構築する「教師あり音源モデル」 • 音源モデルは学習データ（教師）より獲得ブラインド音源モデル教師あり ICA IVA ILRMA IDLMA 4

記号の定義と定式化 • 音源数，マイク数（チャネル数） – 決定系条件を考える • 短時間フーリエ変換（STFT）して得られる各信号 – 多チャネル観測信号ただし周波数時間時不変混合行列 – 混合行列の逆行列多チャネル分離信号が存在するとき，とおくと • 時間周波数行列としての表記音源スペクトログラム観測スペクトログラム – 要素毎の絶対値および指数演算を • 例：分離スペクトログラムで表すチャネルの観測パワースペクトログラム 5

音源の生成モデル • 時間周波数分散変動型複素ガウス分布 [Févotte, 2009] – 時間周波数の各成分が平均0分散ガウス分布に従うの独立な原点対称複素分散（パワーの期待値） Frequency bin : パワースペクトログラム濃淡がパワーの大きさを示す Time frame パワーが小＝分散が小 0付近の複素数しか生成しないパワーが大＝分散が大大振幅の複素数も生成しうる 6

音源の生成モデル • 時間周波数分散変動型複素ガウス分布 [Févotte, 2009] – 時間周波数の各成分が平均0分散ガウス分布に従うの独立な原点対称複素分散（パワーの期待値） • 分散の最尤推定は板倉斎藤擬距離の最小化と等価板倉斎藤擬距離での偏微分は同じ 7

独立性に基づく最適化 • 多チャネル観測信号の負対数尤度独立性仮定音源の生成モデル • 原点対称複素ガウス分布独立性に基づく分離行列（空間モデル）の推定のとき生成モデルに基づく分散行列（音源モデル）の推定 8

音源モデル：分散の構造的仮定 • 分離信号や分散に何も仮定をおかない（FDICA） – 分離行列が周波数に関して非依存（separable）パーミュテーション問題を引き起こす分離信号1 音源1 観測1 分離行列音源2 Time パーミュテーション分離信号2 の整合観測2 9

10.

音源モデル：分散の構造的仮定 • 分離信号のパワースペクトログラムグループスパース性を仮定 Frequency に対して – 同時に生起する周波数成分は同じ音源 Time としてまとまるパーミュテーション問題の回避 – 独立ベクトル分析（IVA） [A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007] に対して低ランク構造を仮定 NMFによる表現（ランク） Frequency • 生成モデルの分散行列 – 各音源の低ランク構造（）を推定パーミュテーション問題を回避 – 低ランクな音源が混ざるとランクは増える低ランクに誘導することで音源が分離される – 独立低ランク行列分析（ILRMA） [D. Kitamura, 2016] Time 10

11.

提案手法：動機 • 不適切な音源モデルを仮定してしまうと分離精度が劣化 – 例：ボーカルや音声は楽器音ほど低ランクではない（ダイナミックにピッチが変動するため） Vocals Drums Guitar • 音源モデルの教師あり学習 – DNNに基づく単一チャネルの音源分離モデル • 音楽や音声など「ソロ音源の学習データ」は利用可能な時代 • 空間モデルは学習可能？ – 部屋の形状，残響時間，マイクロホン位置，音源位置，音速等膨大な物理要因に依存非現実的！ – 独立性に基づくブラインドな推定は有用 11

12.

提案手法：独立深層学習行列分析 • 独立低ランク行列分析（ILRMA） NMFによる低ランク近似分離信号周波数毎の分離行列 STFT 分離信号が「互いに独立」かつ「低ランクな時間周波数構造」を持つように分離行列を更新 Frequency Frequency 観測信号 Time Time 音源モデルを教師あり化 • 独立深層学習行列分析（independent deeply learned matrix analysis: IDLMA） – 統計的独立性と教師ありDNN音源モデルに基づく音源分離周波数毎の分離行列 STFT 分離信号が「互いに独立」かつ「学習済みの DNNで表現されるような時間周波数構造」を持つように分離行列を更新 Time Time Frequency Frequency DNN音源モデルによる分散推定分離信号 Frequency Frequency 観測信号 Time Time 12

13.

提案手法：DNN音源モデルの学習 • DNNの特徴量混合ベクトル推定ベクトル Frequency 音源1（学習データ）音源1を分離するDNN Time ランダムな振幅値を乗じて混合（） Frequency 最小化損失関数音源2を分離するDNN 音源2（学習データ）正解ベクトル最小化損失関数 Time • DNNの損失関数板倉斎藤擬距離を使うことで複素ガウス分布生成モデルの最尤推定となる正解推定微小値 13

14.

提案手法：分離行列と分散行列の最適化 • 原点対称複素ガウス分布の負対数尤度空間モデルの更新音源モデルの更新 ILRMAと同様に反復射影法（IP）を適用し分離行列を更新することで最小化可能現在の分離信号を学習済の DNN音源モデルに入力して分散を更新することで最小化可能 14

15.

提案手法：分離行列と分散行列の最適化 • 原点対称複素ガウス分布の負対数尤度空間モデルの更新音源モデルの更新 ILRMAと同様に反復射影法（IP）を適用し分離行列を更新することで最小化可能現在の分離信号を学習済の DNN音源モデルに入力して分散を更新することで最小化可能 • 反復射影法（iterative projection: IP） [N. Ono, 2011] – 分離行列を行毎（毎）に更新更新固定固定固定更新固定 … … … 固定固定分散番目の要素が1，他が0の縦ベクトルの更新更新 15

16.

提案手法：分離行列と分散行列の最適化 • 原点対称複素ガウス分布の負対数尤度空間モデルの更新音源モデルの更新 ILRMAと同様に反復射影法（IP）を適用し分離行列を更新することで最小化可能現在の分離信号を学習済の DNN音源モデルに入力して分散を更新することで最小化可能 • 学習済DNN音源モデルの適用 Time 要素毎のmax演算を施した行列を返すフロア処理 Time 微小フロアリング値 Frequency Frequency Frequency – 分離信号を入力し分散を推定 – IPの数値安定性向上のためフロア処理 Time 16

17.

評価実験：条件（1/2）学習信号 SiSEC2016 DSD100音楽データセット開発データ50曲（Ba., Vo., Dr.の3音源）評価信号 SiSEC2016 DSD100音楽データセットテストデータ25曲のBa./Vo.及びDr./Vo.をRWCPデータベース収録のE2Aインパルス応答で畳み込んで観測した信号サンプリング周波数 8 kHzにダウンサンプリング STFTの設定窓長128, 256, 512, 1024 msのハミング窓シフト長は常に窓長の半分評価指標信号対歪み比（signal-to-distortion ratio: SDR）の改善量 RWCP収録 E2Aインパルス応答 Vo. Ba. or Dr. T60 = 300 ms 2m 40 40 5.66 cm 17

18.

評価実験：条件（2/2） DNNの構造全結合型フィードフォワード隠れ層4層，各層のユニット数1024 活性化関数 ReLU（隠れ層及び出力層）比較手法 ILRMA（ブラインド），DNN+WF， Duong+DNN，提案手法（IDLMA） ILRMA：ブラインド多チャネル分離分離行列をIPで推定 DNN+WF：音源モデル教師あり単一チャネル分離， [S. Uhlich+, 2015] 各音源のDNN出力からWienerフィルタを構築・適用 Duong+DNN：音源モデル教師あり多チャネル分離， [A. A. Nagraha+, 2016] 音源モデルにDNNを活用，混合系（フルランク空間相関行列）をEMで推定 IDLMA：音源モデル教師あり多チャネル分離提案手法音源モデルにDNNを活用分離行列をIPで推定 18 [D. Kitamura+, 2016]

19.

評価実験：結果（1/4）真の分散（Ba.）真の分散（Vo.） DNN推定分散（Ba.） DNN推定分散（Vo.） 19

20.

評価実験：結果（2/4） • 様々な窓長に対する性能比較（25曲の平均） Ba./Vo.の分離結果 14 IDLMA 10 8 Duong+DNN DNN+WF（単一チャネル） 6 4 ILRMA（ブラインド） 12 SDR improvement [dB] SDR improvement [dB] 12 8 6 Duong+DNN ILRMA（ブラインド） 4 2 0 0 256 512 1024 Window length in STFT [ms] IDLMA 10 2 128 Dr./Vo.の分離結果 14 DNN+WF（単一チャネル） 128 256 512 1024 Window length in STFT [ms] 20

21.

評価実験：結果（3/4） • 反復回数に対する性能比較（25曲の平均） Ba./Vo.の分離結果（512 ms窓） IDLMA 10 Duong+DNN 8 DNN+WF 6 ILRMA 4 2 0 14 ILRMA DNN+WF Duong+DNN IDLMA 0 10 20 30 40 50 60 70 80 90 100 Iteration step 12 SDR improvement [dB] SDR improvement [dB] 14 DNNによる性能改善 12 Dr./Vo.の分離結果（256 ms窓） 10 8 6 DNNによる性能改善 IDLMA Duong+DNN ILRMA ILRMA DNN+WF Duong+DNN IDLMA 4 DNN+WF 2 0 0 10 20 30 40 50 60 70 80 90 100 21 Iteration step

22.

評価実験：結果（4/4） • 100回更新時の計算時間例比較（30秒の観測信号） Computational time [s] – Python 3.5.2＋Chainer 2.1.0環境 – Intel Core i7-6850K（3.60 GHz，6コア） – DNN音源モデルによる分散推定はGeForce GTX 1080 Ti 350 287.06 s 300 250 200 150 100 50 23.31 s 26.56 s 0 ILRMA Duong+DNN IDLMA 22

23.

IP最適化の性能不安定性 • 分離行列の最適化（IP）は分離フィルタの更新順に依存 – 例：2音源の場合音源インデクスの昇順更新固定固定更新分散 IPによる分離フィルタ分離行列の更新式推定分散の更新音源インデクスの降順固定更新更新固定分散の更新よりよい分離行列の推定の為には分散行列が高精度に推定できた音源を先に更新すべき • 今回はグリーディに全通り（通り）の更新順を試行 – DNN音源モデルを用いた推定SN比を算出し高い結果を採用 23

24.

IPの更新順の選択基準 • DNN音源モデルに基づく推定SN比 – 現在の分離信号を音源モデルに入力した際の出力 – 現在の分離信号中の音源の成分と残留する他音源の成分をDNN音源モデルより推定しSN比を算出 • 全時間周波数の総パワーによる推定SN比全音源に関して平均 • 各時間周波数グリッドの推定SN比の時間周波数平均全音源に関して平均 – IPの更新順の全通りの結果について上記を算出 • 推定SN比が高くなる結果を採用 24

25.

評価実験：IPの更新順選択実験 • 条件は先の評価実験と同様 14 Ba./Vo.の分離結果 12 11 12 11 10 9 8 7 Ascending order Descending order -based order -based order 0 10 20 30 40 50 60 70 80 90 100 Iteration step SDR improvement [dB] SDR improvement [dB] 13 Dr./Vo.の分離結果 10 9 8 7 6 Ascending order Descending order -based order -based order 0 10 20 30 40 50 60 70 80 90 100 25 Iteration step

26.

まとめ • 独立深層学習行列分析（IDLMA，アイドルエムエー） – – – – – 分離系を高速・安定・高精度に推定する多チャネル音源分離音源モデル：DNNを用いた教師あり推定空間モデル：統計的独立性に基づくブラインド推定フルランク空間相関行列を推定するDuong+DNN（低速）分離行列を推定するIDLMA（高精度・高速） • IPによる分離フィルタの更新順の問題 – DNN音源モデルに基づく選択基準を提案 Sound Demo: http://d-kitamura.net/demo_idlma.htm 26

http://d-kitamura.net/demo_idlma.htm