統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on statistical independence and low-rank matrix decomposition –Independent low-rank matrix analysis–

1.

2016年9月26日（月）筑波大学システム情報工学研究科マルチメディア研究室招待講演統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on statistical independence and low-rank matrix decomposition –Independent low-rank matrix analysis– 総合研究大学院大学複合科学研究科情報学専攻博士後期課程3年北村大地

2.

講演概要 • 研究の背景 – 音源分離，前提条件，音楽信号の特徴，非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA，IVA，ISNMF，ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 2

3.

講演概要 • 研究の背景 – 音源分離，前提条件，音楽信号の特徴，非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA，IVA，ISNMF，ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 3

4.

研究の背景（1/4）：音源分離 • 音源分離（audio source separation） – 複数の音源が混合された信号を音源毎に分離する信号処理 – 音声認識，雑音抑圧，補聴器，会議アーカイブ etc. • 音楽信号の音源分離音楽CD 音源分離実演奏の録音 – ユーザによる既存音楽の再編集，自動採譜技術，楽器演奏における教育支援，超臨場感音場再現の制御等 • 観測信号から有意な因子を抽出する技術 – 知能情報学の一大トピック 4

5.

研究の背景（2/4）：前提条件 • 混合される音源数と観測チャンネル数の関係 – 優決定条件（音源数音源信号観測チャンネル数）における音源分離観測信号混合系 – 劣決定条件（音源数分離信号マイクロホンアレイ分離系録音マイク数）における音源分離 L-ch 1-ch R-ch 音楽CD ステレオ信号（2-ch）モノラル録音モノラル信号（1-ch） – 「ブラインド」及び「教師あり」の2条件にも大別可能問題の条件ブラインド教師あり優決定 FDICA, IVA, ILRMA 各手法の応用劣決定多チャネルNMF TFマスク等教師ありNMF ハイブリッド法 5

6.

研究の背景（3/4）：音楽信号の特徴 • 音楽信号の音源分離の特徴 – 芸術的作品高品質かつ高精度な分離技術が必要 • 従来の音源分離手法では精度が不十分で芸術性を損なう – ハーモニースペクトルの重なりや時間的な同期が頻発 • 話者混合信号等と比較して音源間の統計的独立性が弱まる – 離散的構造限られた数の音高（ピッチ）の重ね合わせ • 重なり合った音をパーツ単位に分割しその線形結合で表現できる限られた数の音価（音の長さ）限られた数の音高（音の高さ）離散的なパーツの重ね合わせで構成されている • 離散的構造を持つ信号の適切な表現 – 非負値行列因子分解の応用を考える 6

7.

研究の背景（4/4）：非負値行列因子分解 • 非負値行列因子分解（nonnegative matrix factorization: NMF） [Lee, 1999], [Lee, 2000], etc. – 非負制約付き低ランク近似分解（データの次元圧縮） • 頻出するスペクトルパターン群を本の基底ベクトルとして抽出 – 限られた数のパーツで時間周波数構造を表現 • 離散的な構造を持つ音楽信号の表現によく適合 Amplitude 基底行列アクティベーション行列 (スペクトルパターン) (時間的強度変化) Frequency Frequency 混合された観測行列 (パワースペクトログラム) Time Amplitude Time 基底 : 周波数ビン数 : 時間フレーム数 : 基底数 7

8.

講演概要 • 研究の背景 – 音源分離，前提条件，音楽信号の特徴，非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA，IVA，ISNMF，ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 8

9.

優決定条件ブラインド音源分離 • ブラインド音源分離（blind source separation: BSS） – 混合系が未知の条件で分離系を推定混合系分離系 BSS – マイク位置，マイク間隔，音源位置等の情報が不要 • 優決定条件BSS – 統計的独立性に基づく手法が代表的 • 独立成分分析（ICA）[Comon, 1994] • 独立ベクトル分析（IVA）[Hiroe, 2006], [Kim, 2006] State-of-the-art • BSSに利用可能な性質 – 音源毎の空間特徴の違い（音源位置の違い）：空間モデル – 音源毎の音色特徴の違い（スペクトルの違い）：音源モデル 9

10.

FDICAとパーミュテーション解法 • 周波数領域ICA（frequency-domain ICA: FDICA） [Smaragdis, 1998], [Sawada, 2004], [Saruwatari, 2006], etc. – スペクトログラムの周波数ビン毎に独立なICAを適用 – 音源及び空間モデルはパーミュテーション解決法に依存分離信号1 音源1 観測1 ICA Time 音源2 Permutation Solver 分離信号2 観測2 全て時間周波数領域の信号 10

11.

FDICAとDOAを用いた古典的なBSS（～2006） • FDICA+DOAクラスタリング [Saruwatari, 2006] DOA クラスタリング左正面到来方向（DOA）右推定された音源成分の頻度推定された音源成分の頻度 – 推定分離フィルタからステアリングベクトルを逆算し音源の到来方向（DOA）でクラスタリングすることでパーミュテーションを解く Source 1 Source 2 左正面右到来方向（DOA） – 音源モデル • 具体的なモデルスペクトログラムは無し（ICAの非ガウス性制約のみ） – 空間モデル • 混合系はDOAクラスタリングで解決できるという仮定（制約） 11

12.

ICAによる信号源分離の音響学的なメカニズム • FDICAで推定される分離フィルタとは？ – 周波数領域での瞬時混合を仮定 – 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ音源1 混合系音源1の空間分離フィルタ音源1 音源2 但し，分離フィルタのタップ長はフーリエ変換の窓長と同じ – 適応ビームフォーマ（ABF）と本質的に等価 [Araki, 2003] • ABF：妨害音のみがアクティブな時間の出力二乗誤差最小化 • 妨害音に対してヌル（感度0）を打つような空間分離 • ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要 – FDICAはブラインドな音源分離手法 • 混合系未知，アクティビティ検出不要 • 厳密な音源位置とマイク位置が既知の場合のビームフォーマがFDICA の上限性能といえる 12

13.

FDICAの分離フィルタとABFの分離フィルタ • 図は [Araki, 2003] より引用 BSSの空間分離フィルタ TR = 0 ms TR = 300 ms TR = 0 ms TR = 300 ms ABFの空間分離フィルタ 13

14.

周波数成分間の高次相関を用いたBSS（2006～） • 独立ベクトル分析（independent vector analysis: IVA） [Hiroe, 2006], [Kim, 2006], [Kim, 2007] – FDICAの多変量拡張手法，パーミュテーション問題を回避 – 球対称な多変量（多次元）分布モデルの最尤推定 • ICAにおける音源の事前分布を多次元分布に拡張 • 球対称性：無相関な周波数成分間で同じ分散を持つ多変量分布互いに独立音源信号混合行列分離行列分離信号 … … … … … 周波数成分間共通の分散を持つは無相関だが依存性をもつ観測信号 14

15.

IVAの仮定する周波数成分間の依存性 • FDICAとIVAの違いはscore functionのみ – Score function: パラメタの対数尤度のgradient – 「音源の事前分布が一次元か多次元か」のみ • IVAの仮定する音源の事前分布 – ラプラス分布の例（音声信号のモデルとして一般的）周波数毎に独立な事前分布周波数間で高次相関をもつ事前分布分散共分散行列 – 後者は（互いに無相関）の場合でも，が互いに依存 15

16.

IVAの仮定する周波数成分間の依存性 • 図は [Kim, 2007] より引用球対称ラプラス分布 x1とx2は互いに独立なラプラス分布（条件付き分布はラプラス分布） x1とx2は互いに無相関だが依存関係がある Higher-order correlation Higher-order dependency 16

17.

IVAの仮定する周波数成分間の依存性 • IVAの音源事前分布の分散に関して – 分散はその周波数ビンの信号のスケールに対応 – 独立性基準では結局スケールは推定できない – 分散を全周波数で1にしても問題ない共通分散（球対称） • どのみちプロジェクションバックで復元できるので問題にはならない零平均，零共分散，共通分散とすると • 球対称事前分布の（かなりざっくりとした）定性的な説明 – 周波数間で同じアクティベーションを持つ成分を一つの音源としてまとめる傾向にあるパーミュテーション問題の回避 17

18.

IVAとNMFを融合した新しいBSS（2016～） • 独立低ランク行列分析（independent low-rank matrix analysis: ILRMA） [Kitamura, 2015], [Kitamura, 2016] – 独立音源の詳細な時間周波数構造（のパワー）を低ランク行列として捉えながら線形分離フィルタを学習濃淡は分散値 Time 全周波数で共通の分散をもつ音源モデル Frequency IVAの音源モデル Frequency （信号のパワー） Time ILRMAの音源モデル Basis Time 時間周波数で分散が変動する音源モデル Frequency Basis Frequency 基底数は任意 – 板倉斎藤擬距離基準NMFの事前分布を活用 Time 18

19.

板倉斎藤擬距離基準NMFにおける生成モデル • 従来のNMF分解の問題点 – データ行列（非負実数）は1本の基底と1本のアクティベーションからなるランク1行列の線形結合として表現 – は振幅スペクトログラムなのか？あるいはパワーなのか？ – いずれにしても線形結合（加法性）は成り立たない • 理論的には複素スペクトログラムの加法モデルが正しい – 位相スペクトログラムはどうするのか？ • 板倉斎藤擬距離基準NMFでは下記のように解決される – 複素スペクトログラムに対する生成モデルを与えられる – 複素数成分の線形結合なので理論的に正しいモデル – 位相は無情報な形（一様分布）で保持される 19

20.

板倉斎藤擬距離基準NMFにおける生成モデル • 板倉斎藤擬距離基準NMF（Itakura-Saito NMF: ISNMF） [Févotte, 2009] 最小化は等価複素球対称ガウス分布（零平均）観測の複素数値複素ガウスの分散 • この生成モデルはガウス分布の再生性を用いて分解可 – とおくと 20

21.

板倉斎藤擬距離基準NMFにおける生成モデル • を複素スペクトログラムとする（STFTしたそのもの） – 各時間周波数要素は複素要素とある時間周波数要素を個足し合わせたもの平均0，分散の複素球対称ガウス分布これらの複素ガウス分布は互いに独立（i.i.d.） – 複素ガウス分布の線形結合なのでも複素ガウス分布 • ガウス分布の再生性 • の複素ガウス分布の分散は – 分散が時間周波数で変動する複素ガウス分布が生成モデル 21

22.

板倉斎藤擬距離基準NMFにおける生成モデル • パワースペクトログラムは複素ガウスの分散に対応パワーが小＝分散が小殆ど0付近の複素数しか生成しない Frequency bin : パワースペクトログラム但し濃淡が濃い方が大きなパワーを示す Time frame パワーが大＝分散が大大きな振幅の複素数も生成しうる各時間周波数で分散が変動する複素ガウス分布巨視的（マクロ）に考えると分散が逐一変動する為，スペクトログラム全体の密度分布はスーパーガウシアン（カートシスがガウス分布より大）な分布になっている 22

23.

IVAとNMFを融合した新しいBSS（2016～） • 独立低ランク行列分析（independent low-rank matrix analysis: ILRMA）（再掲）濃淡は分散値 Time 全周波数で共通の分散をもつ音源モデル Frequency IVAの音源モデル Frequency （信号のパワー） Time ILRMAの音源モデル Basis Time 時間周波数で分散が変動する音源モデル Frequency Basis Frequency 基底数は任意 Time – 但し，IVAは共通分散だがスケールは周波数毎に不定なので，フラットなスペクトルだけではなく任意の形状を表現可能 23

24.

ILRMAのコスト関数と更新則 • ILRMAのコスト（対数尤度）関数分離信号： ISNMFのコスト関数（音源モデルの推定に寄与） IVAのコスト関数（空間モデルの推定に寄与） • ILRMAはIVAを特種形として含む – 基底数のILRMAは本質的にIVAと等価 – 但し，一般的なIVAが球対称ラプラス分布の事前モデルであるのに対し，基底1本のILRMAは複素ガウス分布の事前モデル – この違いはコスト関数の凸性の違いも導く • 球対称ラプラス分布IVAはコスト関数が分離行列に対して凸 • 基底1本のILRMAは（NMF変数がgivenでも）分離行列に対して非凸 24

25.

ILRMAのコスト関数と更新則 • 独立低ランク行列分析（ILRMA） [Kitamura, 2016] – NMF変数の最適化は補助関数法に基づく乗法更新式分離フィルタと分離信号の更新音源モデルと推定分散の更新但し， , は番目の要素のみ1で他が0の縦ベクトル：音源毎の推定分散 – 反復で尤度が単調増加することが保証されている • 必ずどこかの解（局所解含む）へ収束 25

26.

ILRMAのコスト関数と更新則 • 音源毎の空間的な違い（空間モデル）と各音源の音色構造（音源モデル）を交互に学習音色構造の学習空間的な違いの学習音源モデル NMF IVA NMF 混合信号分離信号 – 音源毎の時間周波数構造を正確に捉えることで，独立性基準での線形時不変な空間分離の性能向上が期待できる 26

27.

講演概要 • 研究の背景 – 音源分離，前提条件，音楽信号の特徴，非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA，IVA，ISNMF，ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 27

28.

NMFの多チャネル信号への拡張 • 全音源の時間周波数構造をNMFでモデル化し，音源毎の空間伝達特性（空間相関行列）を用いてクラスタリング – 「NMFモデル」と「音源毎の空間相関行列」は同時に推定提案者と年代 Ozerov and Fevotte, 2010 Arberet et al., 2010 Ozerov et al., 2011 Sawada et al., 2013 Kitamura et al., 2016 空間的な混合系と音源モデル各音源の音源のスペ空間相関行列クトログラムはランク１はフルランクももフルランクはランク１はフルランクフルランクのランク1の各変数の最適化手法 EMで , NMF変数を推定 EMで , NMF NMF変数を推定 , 分割関数付き EMでのNMF NMF変数を推定分割関数付き乗算更新式で , NMF変数を推定のNMF 反復射影で分離 , 分割関数付き行列のNMF 乗算更新式で NMF変数を推定 NMF 28

29.

NMFの多チャネル信号への拡張 • 最も一般化された多チャネルNMF [Sawada, 2013] 多チャネルベクトル時間周波数毎の観測チャンネル間相関瞬時空間（チャネル間）相関行列音源周波数毎のクラスタリング関数チャンネル間相関基底行列アクティベーション行列強度変化スペクトルパターン多チャネル観測信号空間モデル音源モデル音源毎の空間的な違い全音源の音色構造 29

30.

空間相関行列とは • 空間相関行列又は空間共分散行列 [Duong, 2010] – – – – Duong modelとも呼ばれる音源とマイク間の伝達系と音響的拡散度合を含む特徴量 Source image ステアリングベクトルの拡張観測信号中の番目の音源成分のみをと表すとき音源毎の空間共分散時変な音源の分散（パワースペクトログラム）観測の空間共分散マイクロホンへの伝達系に寄与する時不変な成分（空間相関行列）時間周波数で分散共分散が変動する多変量ガウス分布観測の生成モデル多チャネル Wiener filter 時変分散と音源毎の空間共分散から音源分離が可能（劣決定も可） 30

31.

空間相関行列のランク • 空間相関行列は瞬時空間相関の期待値音源毎の空間共分散 – 「瞬時相関の期待値」のランクが1 伝達系が時不変な一つの空間基底でモデル化できる – 時不変な空間基底：ステアリングベクトルランク1 空間モデル – 「瞬時相関の期待値」のランクが1より大きい（フルランク）音響信号の拡散，音響放射特性の変動，残響 – ステアリングベクトルのような空間基底ではもはや表現不可 • 複数本の空間基底になる（空間基底の数＝空間相関行列のランク） – 周波数領域での瞬時混合仮定が成り立たない 31

32.

ランク1空間モデル • 音源毎の空間相関行列のランクが1 – 時間周波数領域において1つの音源の伝達系が1本の時不変なステアリングベクトルで表現可能 : 周波数インデクス : 時間インデクス音源マイクアレイ観測信号ステアリングベクトルステアリングベクトル – 時間周波数領域における時不変複素瞬時混合モデル時不変混合行列 – 音源・マイク位置が時不変かつ残響時間がフーリエ変換の窓長より短い 32

33.

多チャネルNMFとしてのILRMAのアナロジー • 多チャネルNMFの目的関数にランク1空間モデルを導入 1. ランク1チャンネル間相関を導入（ 2. 混合行列を用いて表現しなおす 3. 分離行列と分離信号）に変数変換 ILRMAのコスト関数 – ランク1空間モデル制約付き多チャネルNMFとILRMAは等価 33

34.

IVAと多チャネルNMFの両理論をつなぐILRMA • 独立に誕生したIVAと多チャネルNMFは実は深く関連 – IVAの音源モデルの基底数拡張 • 音源モデルの推定にNMFによる分解表現を導入 – 多チャネルNMFの空間モデルの自由度の制約 • フルランクで推定される音源毎の空間相関にランク1制約を導入空間モデル限定的柔軟 – 「独立性に基づく高速な空間モデルの最適化」と「NMFに基づく柔軟な音源モデル」の両立を実現 – IVAと多チャネルNMFの関連性を世界で初めて示す多チャネル NMF 空間モデルの自由度を制限 IVA 提案手法 NMFの音源モデルを導入限定的音源モデル柔軟 34

35.

各手法のモデルの比較手法 FDICA 空間モデル音源モデル推定対象ランク1空間モデルなし（時系列の非ガウス性制約のみ）周波数毎に独立な ICAによる分離行列基底1本での表現分離行列パーミュテーションソルバ依存 IVA ランク1空間モデル球対称多変量ラプラス分布音源毎の周波数共通分散多チャネル NMF フルランク空間モデル（周波数領域の瞬時混合仮定は不要）任意基底数のNMF 音源毎の空間相関行列時間周波数分散変動型複素ガウス分布任意基底数のNMF ILRMA ランク1空間モデル時間周波数分散変動型複素ガウス分布全音源のNMF表現分離行列全音源のNMF表現 35

36.

講演概要 • 研究の背景 – 音源分離，前提条件，音楽信号の特徴，非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA，IVA，ISNMF，ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 36

37.

従来手法とILRMAの比較による性能評価 • ILRMAへの期待 – NMF音源モデルの導入による性能向上（IVAと比して） – ランク1空間モデルの導入による安定性の向上（多チャネル NMFと比して） • ランク1空間モデルが成立する条件での実験 – マイク位置時不変混合系（多チャネルNMFを含む全手法での必須条件） – 残響時間が窓長より短い（ランク1空間モデル） – 特異な音響放射特性などがない（ランク1空間モデル） • インパルス応答の畳み込みによるシミュレーション混合 – 残響時間が短ければランク1空間モデルが完全に成立 • 実際のライブ録音による混合観測 – より現実的な条件での実験 37

38.

音楽音源分離実験の条件 • 実験条件音源信号窓長（FFT長）シフト長基底数主観評価値 SiSECのプロ音楽信号に，RWCP収録のマイクアレーインパルス応答で畳み込んで作成，2チャンネルで2音源の混合信号 512 ms，ハニング窓 128 ms (1/4シフト) 1音源につき30本（ILRMA1），全音源で60本（ILRMA2） SDR改善値（音質と分離度合いを含む総合的な分離性能） Impulse response E2A (reverberation time: 300 ms) Source 1 Source 2 Impulse response JR2 (reverberation time: 470 ms) Source 1 Source 2 2m 50 50 5.66 cm 2m 60 60 5.66 cm 38

39.

実験結果： fort_minor-remember_the_name E2A （300ms） SDR improvement [dB] 16 Violin synth. Vocals 12 8 4 0 -4 -8 Directional clustering IVA Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method JR2 （470ms） SDR improvement [dB] 16 Violin synth. Vocals 12 8 4 0 -4 -8 Directional clustering IVA Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 39

40.

実験結果： ultimate_nz_tour E2A （300ms） SDR improvement [dB] 20 Guitar Synth. 15 10 5 0 -5 Directional clustering IVA Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method JR2 （470ms） SDR improvement [dB] 20 Guitar Synth. 15 10 5 0 -5 Directional clustering IVA Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 40

41.

Ozerov’s MNMF Ozerov’s MNMF with random initialization Guitar Sawada’s MNMF Proposed method w/o partitioning function Proposed method with partitioning function SDR improvement [dB] IVA 20 SDR improvement [dB] 実験結果： ultimate_nz_tour（収束の様子） 14 12 10 8 6 4 2 0 -2 -4 16 12 8 4 0 -4 Sawada’s MNMF initialized by proposed method Synth. 高速，頑健，高精度な音源分離を達成 0 50 100 150 200 Iteration step 250 300 0 50 100 150 200 Iteration step 250 300 41

42.

音声音源分離実験の条件 • 実験条件音源信号窓長（FFT長）シフト長基底数主観評価値 SiSECのライブ録音音声信号，2チャンネルで2話者の混合信号 256 ms，ハニング窓 128 ms (1/4シフト) 1音源につき2本（ILRMA1），全音源で4本（ILRMA2） SDR改善値（音質と分離度合いを含む総合的な分離性能） – 予備実験より，音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認 16 12 Speaker 1 8 4 0 -4 1 2 3 4 5 6 7 8 9 10 Number of bases for each source ( ) SDR improvement [dB] SDR improvement [dB] • 音声信号の時間周波数構造がNMF表現に不向き？ 16 12 Speaker 2 8 4 0 -4 1 2 3 4 5 6 7 8 9 10 Number of bases for each source ( ) 42

43.

250ms SDR improvement [dB] 130ms SDR improvement [dB] 実験結果： female3_liverec_1m 16 14 12 10 8 6 4 2 0 -2 -4 16 14 12 10 8 6 4 2 0 -2 -4 Speaker 1 Directional clustering IVA Speaker 1 Directional clustering IVA Speaker 2 Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method Speaker 2 Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 43

44.

130ms SDR improvement [dB] 実験結果： male3_liverec_1m 14 12 10 8 6 4 2 0 -2 -4 Speaker 1 Directional clustering IVA Speaker 2 Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 250ms SDR improvement [dB] (a) 14 12 10 8 6 4 2 0 -2 -4 Speaker 1 Directional clustering IVA Speaker 2 Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 44

45.

考察 • ほぼすべての場合で高速，高精度，安定な分離を達成 – 多チャネルNMFと比較するとモデルの自由度に優位性はない – 精度向上はランク1空間モデルの導入による空間モデル変数の最適化が容易になったことに起因 • 音声信号に対しては基底数を増加できない – 基底数が増加すると性能が不安定 – 音声の時間周波数構造は音楽信号ほど低ランクではない 45

46.

各手法の計算量の比較 • SiSECデータベース収録のプロ音楽信号ファイル名: bearlin-roads__snip_85_99，14 s（16 kHzサンプル）音源: acoustic_guit_main, bass, vocalsの3音源実行環境: MATLAB 8.3, Intel Core i7-4790 (3.6 GHz) 更新回数: 200回（単位は全てs） IVA MNMF ILRMA (音源毎に基底数を固定) ILRMA (音源毎に基底数を可変) 91.6 4498.4 121.0 173.4 200回更新時（MNMF以外は十分収束） SDR improvement [dB] – – – – 12 10 8 6 4 2 0 -2 IVA MNMF Rank-1 MNMF （基底数固定） Rank-1 MNMF （基底数可変） 0 100 200 Iteration steps 300 400 46

47.

高残響下における応用手法 • 高残響下では短時間フーリエ変換の窓長よりも長い残響が生じる – 残響成分が次の時間フレームに漏れるため複素瞬時混合では表現できなくなる – チャンネル間相関がランク1で無くなる分離性能が劣化周波数観測パワースペクトログラム音源信号観測信号前フレームから漏れ出た残響成分時間 47

48.

高残響下における応用手法 • 応用として余剰な観測チャンネルを用いることを提案 [Kitamura, 2015] – 音源数の倍の観測チャンネルがある状況を仮定 • 通常のBSSでは事前に主成分分析（PCA）を用いて次元圧縮 • 提案手法ではPCAを用いずにそのままランク1多チャネルNMFで分離 – 各音源の直接音成分及び残響成分を別の独立成分として分離 – 分離後に同じ音源に属する成分同士を足し合わせて復元例: 音源数，観測チャンネル数直接音残響 Mixing ）分離された成分観測信号音源信号（推定信号 BSS 直接音残響再構成 48

49.

高残響下における応用手法 • 分離された各成分のクラスタリング問題 – 各成分が音源毎に自動的にまとまる手法として基底共有型ランク1多チャンネルNMFを提案 – 複数の分離成分においてNMFによる音源モデルの基底行列（スペクトルパターン）を共有して推定する例: 音源数，観測チャンネル数複数の成分で基底行列を共有させた音源モデル音源1の為の共有基底行列音源2の為の共有基底行列（）分離された成分音源1の直接音成分推定信号音源1の残響成分音源2の直接音成分音源2の残響成分再構成 49

50.

高残響下における音源分離実験 • 実験条件音源信号比較手法窓長（FFT長）シフト長基底数主観評価値 SiSECのプロ音楽信号に，RWCP収録のマイクアレーインパルス応答で畳み込んで作成，2チャンネルで2音源の混合信号 PCAを適用してIVA, PCAを適用してランク1多チャンネルNMF，多チャンネルNMF，基底共有型ランク1多チャンネルNMF 128 ms，ハニング窓 64 ms (1/2シフト) 1音源につき30本 SDR改善値（音質と分離度合いを含む総合的な分離性能） JR2インパルス応答（残響時間: 470 ms）音源1 音源2 2m 80 60 2.83 cm 50

51.

高残響下における音源分離実験 – 初期値を変えて10回試行した際の平均と標準偏差を示したグラフ – 各音源の残響成分を含んだ状態での音源分離を達成 – 実計算時間の比較においても効率的な最適化を保っていることが確認できる SDR improvement [dB] • 実験結果（曲名: ultimate nz tour, guitar and vocal） 16 14 12 10 8 6 4 2 0 PCA + 2ch IVA 53.8 s Source 1 Source 2 PCA + 2ch IVA PCA + 4ch 4ch proposed 2ch proposed multichannel method with method NMF basis sharing 4ch 4ch proposed PCA + 2ch multichannel method with proposed method NMF basis sharing 67.6 s 8307.1 s 330.97 s 注: 全て200回反復した場合の計算時間 51

52.

講演概要 • 研究の背景 – 音源分離，前提条件，音楽信号の特徴，非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA，IVA，ISNMF，ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 52

53.

まとめと今後 • IVAとNMFを融合した新しいブラインド音源分離：ILRMA – FDICA（時系列スカラーの生成モデル） – IVA（周波数ベクトルの多変量生成モデル） – ILRMA（時間周波数の低ランク分解の生成モデル） • 多チャネルNMFはILRMAやIVAを包含 – 多チャネルNMF＋ランク1空間モデル＝ILRMA – 基底数1本のILRMA＝IVA • 今後の課題 – 音声信号に対する分離精度の安定化 – スパース正則化の検討 – 教師あり手法への活用 53

54.

参考文献（1/3） • [Lee, 1999]: D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative matrix factorization,” Nature, vol. 401, pp. 788–791, 1999. • [Lee, 2000]: D. D. Lee and H. S. Seung, “Algorithms for non-negative matrix factorization,” in Proc. Adv. Neural Inform. Process. Syst., 2000, vol. 13, pp. 556–562. • [Smaragdis, 1998]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, vol. 22, pp. 21–34, 1998. • [Sawada, 2004]: H. Sawada, R. Mukai, S. Araki, and S.Makino, “Convolutive blind source separation for more than two sources in the frequency domain,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2004, pp. III-885–III-888. • [Saruwatari, 2006]: H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, and K. Shikano, “Blind source separation based on a fast-convergence algorithm combining ICA and beamforming,” IEEE Trans. Audio, Speech, Lang. Process., vol. 14, no. 2, pp. 666–678, Mar. 2006. • [Araki, 2003]: S. Araki, S. Makino, Y. Hinamoto, R. Mukai, T. Nishikawa, and H. Saruwatari, “Equivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixtures,” EURASIP Journal on Advances in Signal Process., vol. 2003, no. 11, pp. 1–10, 2003. • [Hiroe, 2006]: A. Hiroe, “Solution of permutation problem in frequency domain ICA using multivariate probability density functions,” in Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 601–608. 54

55.

参考文献（2/3） • [Kim, 2006]: T. Kim, T. Eltoft, and T.-W. Lee, “Independent vector analysis: An extension of ICA to multivariate components,” in Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 165–172. • [Kim, 2007]: T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 1, pp. 70–79, 2007. • [Kitamura, 2015]: D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Efficient multichannel nonnegative matrix factorization exploiting rank-1 spatial model,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2015, pp. 276–280. • [Kitamura, 2016]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo and S. Nakamura, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24, no. 9, pp. 1626–1641, Spt. 2016. • [Févotte, 2009]: C. Févotte, N. Bertin, and J.-L.Durrieu, “Nonnegative matrix factorization with the Itakura-Saito divergence. With application to music analysis,” Neural Comput., vol. 21, no. 3, pp. 793–830, 2009. • [Sawada, 2013]: H. Sawada, H.Kameoka, S.Araki, and N. Ueda, “Multichannel extensions of non-negative matrix factorization with complex-valued data,” IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 5, pp. 971–982, May 2013. 55

56.

参考文献（3/3） • [Duong, 2010]: N. Q. K. Duong, E. Vincent, and R. Gribonval, “Under-determined reverberant audio source separation using a full-rank spatial covariance model,” IEEE Trans. Audio, Speech, Lang. Process., vol. 18, no. 7, pp. 1830–1840, Sep. 2010. • [Kitamura, 2015]: D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Relaxation of rank-1 spatial constraint in overdetermined blind source separation,” in Proc. Eur. Signal Process. Conf., 2015, pp. 1271–1275. 56

統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on statistical independence and low-rank matrix decomposition –Independent low-rank matrix analysis–

Daichi Kitamura

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

音源分離における音響モデリング（Acoustic modeling in audio source separation）

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

各ページのテキスト