450 Views
September 29, 16
スライド概要
北村大地, "統計的独立性と低ランク行列分解理論に基づく
ブラインド音源分離 –独立低ランク行列分析–," 筑波大学システム情報工学研究科マルチメディア研究室 招待講演, Ibaraki, September 26th, 2016.
Daichi Kitamura, "Blind source separation based on statistical independence and low-rank matrix decomposition
–Independent low-rank matrix analysis–," University of Tsukuba, Graduate School of Systems and Information Engineering, Multimedia Laboratory, Invited Talk, Ibaraki, September 26th, 2016.
http://d-kitamura.net/links_en.html
2016年9月26日(月) 筑波大学 システム情報工学研究科 マルチメディア研究室 招待講演 統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on statistical independence and low-rank matrix decomposition –Independent low-rank matrix analysis– 総合研究大学院大学 複合科学研究科 情報学専攻 博士後期課程3年 北村大地
講演概要 • 研究の背景 – 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA,IVA,ISNMF,ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 2
講演概要 • 研究の背景 – 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA,IVA,ISNMF,ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 3
研究の背景(1/4):音源分離 • 音源分離(audio source separation) – 複数の音源が混合された信号を音源毎に分離する信号処理 – 音声認識,雑音抑圧,補聴器,会議アーカイブ etc. • 音楽信号の音源分離 音楽CD 音源分離 実演奏の録音 – ユーザによる既存音楽の再編集,自動採譜技術, 楽器演奏における教育支援,超臨場感音場再現の制御 等 • 観測信号から有意な因子を抽出する技術 – 知能情報学の一大トピック 4
研究の背景(2/4):前提条件 • 混合される音源数と観測チャンネル数の関係 – 優決定条件(音源数 音源信号 観測チャンネル数)における音源分離 観測信号 混合系 – 劣決定条件(音源数 分離信号 マイクロホンアレイ 分離系 録音マイク数)における音源分離 L-ch 1-ch R-ch 音楽CD ステレオ信号(2-ch) モノラル録音 モノラル信号(1-ch) – 「ブラインド」及び「教師あり」の2条件にも大別可能 問題の条件 ブラインド 教師あり 優決定 FDICA, IVA, ILRMA 各手法の応用 劣決定 多チャネルNMF TFマスク 等 教師ありNMF ハイブリッド法 5
研究の背景(3/4):音楽信号の特徴 • 音楽信号の音源分離の特徴 – 芸術的作品 高品質かつ高精度な分離技術が必要 • 従来の音源分離手法では精度が不十分で芸術性を損なう – ハーモニー スペクトルの重なりや時間的な同期が頻発 • 話者混合信号等と比較して音源間の統計的独立性が弱まる – 離散的構造 限られた数の音高(ピッチ)の重ね合わせ • 重なり合った音をパーツ単位に分割しその線形結合で表現できる 限られた数の音価(音の長さ) 限られた数の音高(音の高さ) 離散的なパーツの重ね合 わせで構成されている • 離散的構造を持つ信号の適切な表現 – 非負値行列因子分解の応用を考える 6
研究の背景(4/4):非負値行列因子分解 • 非負値行列因子分解(nonnegative matrix factorization: NMF) [Lee, 1999], [Lee, 2000], etc. – 非負制約付き低ランク近似分解(データの次元圧縮) • 頻出するスペクトルパターン群を 本の基底ベクトルとして抽出 – 限られた数のパーツで時間周波数構造を表現 • 離散的な構造を持つ音楽信号の表現によく適合 Amplitude 基底行列 アクティベーション行列 (スペクトルパターン) (時間的強度変化) Frequency Frequency 混合された観測行列 (パワースペクトログラム) Time Amplitude Time 基底 : 周波数ビン数 : 時間フレーム数 : 基底数 7
講演概要 • 研究の背景 – 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA,IVA,ISNMF,ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 8
優決定条件ブラインド音源分離 • ブラインド音源分離(blind source separation: BSS) – 混合系 が未知の条件で分離系 を推定 混合系 分離系 BSS – マイク位置,マイク間隔,音源位置等の情報が不要 • 優決定条件BSS – 統計的独立性に基づく手法が代表的 • 独立成分分析(ICA)[Comon, 1994] • 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006] State-of-the-art • BSSに利用可能な性質 – 音源毎の空間特徴の違い(音源位置の違い):空間モデル – 音源毎の音色特徴の違い(スペクトルの違い):音源モデル 9
FDICAとパーミュテーション解法 • 周波数領域ICA(frequency-domain ICA: FDICA) [Smaragdis, 1998], [Sawada, 2004], [Saruwatari, 2006], etc. – スペクトログラムの周波数ビン毎に独立なICAを適用 – 音源及び空間モデルはパーミュテーション解決法に依存 分離信号1 音源1 観測1 ICA Time 音源2 Permutation Solver 分離信号2 観測2 全て時間周波数 領域の信号 10
FDICAとDOAを用いた古典的なBSS(~2006) • FDICA+DOAクラスタリング [Saruwatari, 2006] DOA クラスタリング 左 正面 到来方向(DOA) 右 推定された 音源成分の頻度 推定された 音源成分の頻度 – 推定分離フィルタからステアリングベクトルを逆算し音源の到来 方向(DOA)でクラスタリングすることでパーミュテーションを解く Source 1 Source 2 左 正面 右 到来方向(DOA) – 音源モデル • 具体的なモデルスペクトログラムは無し(ICAの非ガウス性制約のみ) – 空間モデル • 混合系はDOAクラスタリングで解決できるという仮定(制約) 11
ICAによる信号源分離の音響学的なメカニズム • FDICAで推定される分離フィルタとは? – 周波数領域での瞬時混合を仮定 – 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ 音源1 混合系 音源1の空間 分離フィルタ 音源1 音源2 但し,分離フィルタの タップ長はフーリエ変換 の窓長と同じ – 適応ビームフォーマ(ABF)と本質的に等価 [Araki, 2003] • ABF:妨害音のみがアクティブな時間の出力二乗誤差最小化 • 妨害音に対してヌル(感度0)を打つような空間分離 • ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要 – FDICAはブラインドな音源分離手法 • 混合系未知,アクティビティ検出不要 • 厳密な音源位置とマイク位置が既知の場合のビームフォーマがFDICA の上限性能といえる 12
FDICAの分離フィルタとABFの分離フィルタ • 図は [Araki, 2003] より引用 BSSの 空間分離 フィルタ TR = 0 ms TR = 300 ms TR = 0 ms TR = 300 ms ABFの 空間分離 フィルタ 13
周波数成分間の高次相関を用いたBSS(2006~) • 独立ベクトル分析(independent vector analysis: IVA) [Hiroe, 2006], [Kim, 2006], [Kim, 2007] – FDICAの多変量拡張手法,パーミュテーション問題を回避 – 球対称な多変量(多次元)分布モデルの最尤推定 • ICAにおける音源の事前分布 を多次元分布 に拡張 • 球対称性:無相関な周波数成分間で同じ分散を持つ多変量分布 互いに 独立 音源信号 混合行列 分離行列 分離信号 … … … … … 周波数成分間 共通の分散 を持つ は無相関だが 依存性をもつ 観測信号 14
IVAの仮定する周波数成分間の依存性 • FDICAとIVAの違いはscore functionのみ – Score function: パラメタの対数尤度のgradient – 「音源の事前分布が一次元か多次元か」のみ • IVAの仮定する音源の事前分布 – ラプラス分布の例(音声信号のモデルとして一般的) 周波数毎に独立な 事前分布 周波数間で高次相 関をもつ事前分布 分散共分散行列 – 後者は (互いに無相関)の場合でも, が互いに依存 15
IVAの仮定する周波数成分間の依存性 • 図は [Kim, 2007] より引用 球対称 ラプラス分布 x1とx2は互いに独立なラプラス分布 (条件付き分布はラプラス分布) x1とx2は互いに無相関だが 依存関係がある Higher-order correlation Higher-order dependency 16
IVAの仮定する周波数成分間の依存性 • IVAの音源事前分布の分散に関して – 分散はその周波数ビンの信号のスケールに対応 – 独立性基準では結局スケールは推定できない – 分散を全周波数で1にしても問題ない 共通分散(球対称) • どのみちプロジェクションバックで復元できるので問題にはならない 零平均,零共分散,共通分散とすると • 球対称事前分布の(かなりざっくりとした)定性的な説明 – 周波数間で同じアクティベーションを持つ成分を一つの音源とし てまとめる傾向にある パーミュテーション問題の回避 17
IVAとNMFを融合した新しいBSS(2016~) • 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA) [Kitamura, 2015], [Kitamura, 2016] – 独立音源の詳細な時間周波数構造(のパワー)を低ランク行列 として捉えながら線形分離フィルタを学習 濃淡は分散値 Time 全周波数で共通の 分散をもつ音源モデル Frequency IVAの 音源モデル Frequency (信号のパワー) Time ILRMAの 音源モデル Basis Time 時間周波数で分散が 変動する音源モデル Frequency Basis Frequency 基底数は任意 – 板倉斎藤擬距離基準NMFの事前分布を活用 Time 18
板倉斎藤擬距離基準NMFにおける生成モデル • 従来のNMF分解の問題点 – データ行列(非負実数)は1本の基底と1本のアクティベーション からなるランク1行列の線形結合として表現 – は振幅スペクトログラムなのか?あるいはパワーなのか? – いずれにしても線形結合(加法性)は成り立たない • 理論的には複素スペクトログラムの加法モデルが正しい – 位相スペクトログラムはどうするのか? • 板倉斎藤擬距離基準NMFでは下記のように解決される – 複素スペクトログラムに対する生成モデルを与えられる – 複素数成分の線形結合なので理論的に正しいモデル – 位相は無情報な形(一様分布)で保持される 19
板倉斎藤擬距離基準NMFにおける生成モデル • 板倉斎藤擬距離基準NMF(Itakura-Saito NMF: ISNMF) [Févotte, 2009] 最小化は等価 複素球対称ガウス分布(零平均) 観測の複素数値 複素ガウスの分散 • この生成モデルはガウス分布の再生性を用いて分解可 – とおくと 20
板倉斎藤擬距離基準NMFにおける生成モデル • を複素スペクトログラムとする(STFTしたそのもの) – 各時間周波数要素は複素要素 とある時間 周波数要素 を 個足し合わせたもの 平均0,分散 の複素球対称ガウス分布 これらの複素ガウス分布は互いに独立(i.i.d.) – 複素ガウス分布の線形結合なので も複素ガウス分布 • ガウス分布の再生性 • の複素ガウス分布の分散は – 分散が時間周波数で変動する複素ガウス分布が生成モデル 21
板倉斎藤擬距離基準NMFにおける生成モデル • パワースペクトログラムは複素ガウスの分散に対応 パワーが小=分散が小 殆ど0付近の複素数しか 生成しない Frequency bin : パワースペクトログラム 但し濃淡が濃い方が 大きなパワーを示す Time frame パワーが大=分散が大 大きな振幅の複素数も 生成しうる 各時間周波数で分散が変動する複素ガウス分布 巨視的(マクロ)に考えると分散が逐一変動する為,ス ペクトログラム全体の密度分布はスーパーガウシアン (カートシスがガウス分布より大)な分布になっている 22
IVAとNMFを融合した新しいBSS(2016~) • 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA) (再掲) 濃淡は分散値 Time 全周波数で共通の 分散をもつ音源モデル Frequency IVAの 音源モデル Frequency (信号のパワー) Time ILRMAの 音源モデル Basis Time 時間周波数で分散が 変動する音源モデル Frequency Basis Frequency 基底数は任意 Time – 但し,IVAは共通分散だがスケールは周波数毎に不定なので, フラットなスペクトルだけではなく任意の形状を表現可能 23
ILRMAのコスト関数と更新則 • ILRMAのコスト(対数尤度)関数 分離信号: ISNMFのコスト関数 (音源モデルの推定に寄与) IVAのコスト関数 (空間モデルの推定に寄与) • ILRMAはIVAを特種形として含む – 基底数 のILRMAは本質的にIVAと等価 – 但し,一般的なIVAが球対称ラプラス分布の事前モデルである のに対し,基底1本のILRMAは複素ガウス分布の事前モデル – この違いはコスト関数の凸性の違いも導く • 球対称ラプラス分布IVAはコスト関数が分離行列に対して凸 • 基底1本のILRMAは(NMF変数がgivenでも)分離行列に対して非凸 24
ILRMAのコスト関数と更新則 • 独立低ランク行列分析(ILRMA) [Kitamura, 2016] – NMF変数の最適化は補助関数法に基づく乗法更新式 分離フィルタと分離信号の更新 音源モデルと推定分散の更新 但し, , は 番目の要素のみ1で 他が0の縦ベクトル :音源毎の推定分散 – 反復で尤度が単調増加することが保証されている • 必ずどこかの解(局所解含む)へ収束 25
ILRMAのコスト関数と更新則 • 音源毎の空間的な違い(空間モデル)と各音源の音色構 造(音源モデル)を交互に学習 音色構造の 学習 空間的な違い の学習 音源モデル NMF IVA NMF 混合信号 分離信号 – 音源毎の時間周波数構造を正確に捉えることで,独立性基準 での線形時不変な空間分離の性能向上が期待できる 26
講演概要 • 研究の背景 – 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA,IVA,ISNMF,ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 27
NMFの多チャネル信号への拡張 • 全音源の時間周波数構造をNMFでモデル化し,音源毎 の空間伝達特性(空間相関行列)を用いてクラスタリング – 「NMFモデル」と「音源毎の空間相関行列」は同時に推定 提案者と年代 Ozerov and Fevotte, 2010 Arberet et al., 2010 Ozerov et al., 2011 Sawada et al., 2013 Kitamura et al., 2016 空間的な混合系と 音源モデル 各音源の 音源のスペ 空間相関行列 クトログラム はランク1 はフルランク も もフル ランク はランク1 はフルランク フルランクの ランク1の 各変数の 最適化手法 EMで , NMF変数を推定 EMで , NMF NMF変数を推定 , 分割関数付き EMで のNMF NMF変数を推定 分割関数付き 乗算更新式で , NMF変数を推定 のNMF 反復射影で分離 , 分割関数付き 行列 のNMF 乗算更新式で NMF変数を推定 NMF 28
NMFの多チャネル信号への拡張 • 最も一般化された多チャネルNMF [Sawada, 2013] 多チャネル ベクトル 時間周波数毎の 観測チャンネル間相関 瞬時空間(チャネル間)相関行列 音源周波数毎の クラスタリング関数 チャンネル間相関 基底行列 アクティベーション行列 強度変化 スペクトルパターン 多チャネル観測信号 空間モデル 音源モデル 音源毎の空間的な違い 全音源の音色構造 29
空間相関行列とは • 空間相関行列 又は 空間共分散行列 [Duong, 2010] – – – – Duong modelとも呼ばれる 音源とマイク間の伝達系と音響的拡散度合を含む特徴量 Source image ステアリングベクトルの拡張 観測信号 中の 番目の音源成分のみを と表すとき 音源毎の 空間共分散 時変な音源の分散(パワースペクトログラム) 観測の 空間共分散 マイクロホンへの伝達系 に寄与する時不変な成分 (空間相関行列) 時間周波数で分散共分散が 変動する多変量ガウス分布 観測の 生成モデル 多チャネル Wiener filter 時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可) 30
空間相関行列のランク • 空間相関行列は瞬時空間相関の期待値 音源毎の 空間共分散 – 「瞬時相関の期待値」のランクが1 伝達系が時不変な一つの空間基底でモデル化できる – 時不変な空間基底:ステアリングベクトル ランク1 空間モデル – 「瞬時相関の期待値」のランクが1より大きい(フルランク) 音響信号の拡散,音響放射特性の変動,残響 – ステアリングベクトルのような空間基底ではもはや表現不可 • 複数本の空間基底になる(空間基底の数=空間相関行列のランク) – 周波数領域での瞬時混合仮定が成り立たない 31
ランク1空間モデル • 音源毎の空間相関行列のランクが1 – 時間周波数領域において1つの音源の伝達系が1本の時不変 なステアリングベクトルで表現可能 : 周波数インデクス : 時間インデクス 音源 マイク アレイ 観測 信号 ステアリング ベクトル ステアリング ベクトル – 時間周波数領域における時不変複素瞬時混合モデル 時不変混合行列 – 音源・マイク位置が時不変かつ残響時間がフーリエ変換の窓 長より短い 32
多チャネルNMFとしてのILRMAのアナロジー • 多チャネルNMFの目的関数にランク1空間モデルを導入 1. ランク1チャンネル間相関を導入( 2. 混合行列 を用いて表現しなおす 3. 分離行列 と分離信号 ) に変数変換 ILRMAのコスト関数 – ランク1空間モデル制約付き多チャネルNMFとILRMAは等価 33
IVAと多チャネルNMFの両理論をつなぐILRMA • 独立に誕生したIVAと多チャネルNMFは実は深く関連 – IVAの音源モデルの基底数拡張 • 音源モデルの推定にNMFによる分解表現を導入 – 多チャネルNMFの空間モデルの自由度の制約 • フルランクで推定される音源毎の空間相関にランク1制約を導入 空間モデル 限定的 柔軟 – 「独立性に基づく高速な空間モデルの最適化」と「NMFに基づく 柔軟な音源モデル」の両立を実現 – IVAと多チャネルNMFの関連性を世界で初めて示す 多チャネル NMF 空間モデルの 自由度を制限 IVA 提案手法 NMFの音源 モデルを導入 限定的 音源モデル 柔軟 34
各手法のモデルの比較 手法 FDICA 空間モデル 音源モデル 推定対象 ランク1空間モデル なし (時系列の非ガウス性 制約のみ) 周波数毎に独立な ICAによる分離行列 基底1本での表現 分離行列 パーミュテーション ソルバ依存 IVA ランク1空間モデル 球対称多変量 ラプラス分布 音源毎の 周波数共通分散 多チャネル NMF フルランク空間モデル (周波数領域の瞬時 混合仮定は不要) 任意基底数のNMF 音源毎の 空間相関行列 時間周波数分散変動 型複素ガウス分布 任意基底数のNMF ILRMA ランク1空間モデル 時間周波数分散変動 型複素ガウス分布 全音源のNMF表現 分離行列 全音源のNMF表現 35
講演概要 • 研究の背景 – 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA,IVA,ISNMF,ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 36
従来手法とILRMAの比較による性能評価 • ILRMAへの期待 – NMF音源モデルの導入による性能向上(IVAと比して) – ランク1空間モデルの導入による安定性の向上(多チャネル NMFと比して) • ランク1空間モデルが成立する条件での実験 – マイク位置時不変混合系(多チャネルNMFを含む全手法での 必須条件) – 残響時間が窓長より短い(ランク1空間モデル) – 特異な音響放射特性などがない(ランク1空間モデル) • インパルス応答の畳み込みによるシミュレーション混合 – 残響時間が短ければランク1空間モデルが完全に成立 • 実際のライブ録音による混合観測 – より現実的な条件での実験 37
音楽音源分離実験の条件 • 実験条件 音源信号 窓長(FFT長) シフト長 基底数 主観評価値 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2チャンネルで2音源の混合信号 512 ms,ハニング窓 128 ms (1/4シフト) 1音源につき30本(ILRMA1),全音源で60本(ILRMA2) SDR改善値(音質と分離度合いを含む総合的な分離性能) Impulse response E2A (reverberation time: 300 ms) Source 1 Source 2 Impulse response JR2 (reverberation time: 470 ms) Source 1 Source 2 2m 50 50 5.66 cm 2m 60 60 5.66 cm 38
実験結果: fort_minor-remember_the_name E2A (300ms) SDR improvement [dB] 16 Violin synth. Vocals 12 8 4 0 -4 -8 Directional clustering IVA Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method JR2 (470ms) SDR improvement [dB] 16 Violin synth. Vocals 12 8 4 0 -4 -8 Directional clustering IVA Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 39
実験結果: ultimate_nz_tour E2A (300ms) SDR improvement [dB] 20 Guitar Synth. 15 10 5 0 -5 Directional clustering IVA Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method JR2 (470ms) SDR improvement [dB] 20 Guitar Synth. 15 10 5 0 -5 Directional clustering IVA Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 40
Ozerov’s MNMF Ozerov’s MNMF with random initialization Guitar Sawada’s MNMF Proposed method w/o partitioning function Proposed method with partitioning function SDR improvement [dB] IVA 20 SDR improvement [dB] 実験結果: ultimate_nz_tour(収束の様子) 14 12 10 8 6 4 2 0 -2 -4 16 12 8 4 0 -4 Sawada’s MNMF initialized by proposed method Synth. 高速,頑健,高精度 な音源分離を達成 0 50 100 150 200 Iteration step 250 300 0 50 100 150 200 Iteration step 250 300 41
音声音源分離実験の条件 • 実験条件 音源信号 窓長(FFT長) シフト長 基底数 主観評価値 SiSECのライブ録音音声信号,2チャンネルで2話者の混合信号 256 ms,ハニング窓 128 ms (1/4シフト) 1音源につき2本(ILRMA1),全音源で4本(ILRMA2) SDR改善値(音質と分離度合いを含む総合的な分離性能) – 予備実験より,音声信号に対しては基底数を大きくすると音源 分離に失敗する事実を確認 16 12 Speaker 1 8 4 0 -4 1 2 3 4 5 6 7 8 9 10 Number of bases for each source ( ) SDR improvement [dB] SDR improvement [dB] • 音声信号の時間周波数構造がNMF表現に不向き? 16 12 Speaker 2 8 4 0 -4 1 2 3 4 5 6 7 8 9 10 Number of bases for each source ( ) 42
250ms SDR improvement [dB] 130ms SDR improvement [dB] 実験結果: female3_liverec_1m 16 14 12 10 8 6 4 2 0 -2 -4 16 14 12 10 8 6 4 2 0 -2 -4 Speaker 1 Directional clustering IVA Speaker 1 Directional clustering IVA Speaker 2 Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method Speaker 2 Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 43
130ms SDR improvement [dB] 実験結果: male3_liverec_1m 14 12 10 8 6 4 2 0 -2 -4 Speaker 1 Directional clustering IVA Speaker 2 Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 250ms SDR improvement [dB] (a) 14 12 10 8 6 4 2 0 -2 -4 Speaker 1 Directional clustering IVA Speaker 2 Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 44
考察 • ほぼすべての場合で高速,高精度,安定な分離を達成 – 多チャネルNMFと比較するとモデルの自由度に優位性はない – 精度向上はランク1空間モデルの導入による空間モデル変数 の最適化が容易になったことに起因 • 音声信号に対しては基底数を増加できない – 基底数が増加すると性能が不安定 – 音声の時間周波数構造は音楽信号ほど低ランクではない 45
各手法の計算量の比較 • SiSECデータベース収録のプロ音楽信号 ファイル名: bearlin-roads__snip_85_99,14 s(16 kHzサンプル) 音源: acoustic_guit_main, bass, vocalsの3音源 実行環境: MATLAB 8.3, Intel Core i7-4790 (3.6 GHz) 更新回数: 200回 (単位は全てs) IVA MNMF ILRMA (音源毎に基底数を固定) ILRMA (音源毎に基底数を可変) 91.6 4498.4 121.0 173.4 200回更新時(MNMF以外は十分収束) SDR improvement [dB] – – – – 12 10 8 6 4 2 0 -2 IVA MNMF Rank-1 MNMF (基底数固定) Rank-1 MNMF (基底数可変) 0 100 200 Iteration steps 300 400 46
高残響下における応用手法 • 高残響下では短時間フーリエ変換の窓長よりも長い残響 が生じる – 残響成分が次の時間フレームに漏れるため複素瞬時混合では 表現できなくなる – チャンネル間相関がランク1で無くなる 分離性能が劣化 周波数 観測パワースペクトログラム 音源信号 観測信号 前フレームから 漏れ出た残響成分 時間 47
高残響下における応用手法 • 応用として余剰な観測チャンネルを用いることを提案 [Kitamura, 2015] – 音源数 の 倍の観測チャンネルがある状況を仮定 • 通常のBSSでは事前に主成分分析(PCA)を用いて次元圧縮 • 提案手法ではPCAを用いずにそのままランク1多チャネルNMFで分離 – 各音源の直接音成分及び残響成分を別の独立成分として分離 – 分離後に同じ音源に属する成分同士を足し合わせて復元 例: 音源数 ,観測チャンネル数 直接音 残響 Mixing ) 分離された成分 観測信号 音源信号 ( 推定信号 BSS 直接音 残響 再構成 48
高残響下における応用手法 • 分離された各成分のクラスタリング問題 – 各成分が音源毎に自動的にまとまる手法として基底共有型ラ ンク1多チャンネルNMFを提案 – 複数の分離成分においてNMFによる音源モデルの基底行列 (スペクトルパターン)を共有して推定する 例: 音源数 ,観測チャンネル数 複数の成分で基底行列を 共有させた音源モデル 音源1の為の 共有基底行列 音源2の為の 共有基底行列 ( ) 分離された成分 音源1の直接音成分 推定信号 音源1の残響成分 音源2の直接音成分 音源2の残響成分 再構成 49
高残響下における音源分離実験 • 実験条件 音源信号 比較手法 窓長(FFT長) シフト長 基底数 主観評価値 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2チャンネルで2音源の混合信号 PCAを適用してIVA, PCAを適用してランク1多チャンネルNMF, 多チャンネルNMF,基底共有型ランク1多チャンネルNMF 128 ms,ハニング窓 64 ms (1/2シフト) 1音源につき30本 SDR改善値(音質と分離度合いを含む総合的な分離性能) JR2インパルス応答 (残響時間: 470 ms) 音源1 音源2 2m 80 60 2.83 cm 50
高残響下における音源分離実験 – 初期値を変えて10回試 行した際の平均と標準 偏差を示したグラフ – 各音源の残響成分を 含んだ状態での音源 分離を達成 – 実計算時間の比較に おいても効率的な最適 化を保っていることが 確認できる SDR improvement [dB] • 実験結果(曲名: ultimate nz tour, guitar and vocal) 16 14 12 10 8 6 4 2 0 PCA + 2ch IVA 53.8 s Source 1 Source 2 PCA + 2ch IVA PCA + 4ch 4ch proposed 2ch proposed multichannel method with method NMF basis sharing 4ch 4ch proposed PCA + 2ch multichannel method with proposed method NMF basis sharing 67.6 s 8307.1 s 330.97 s 注: 全て200回反復した場合の計算時間 51
講演概要 • 研究の背景 – 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA,IVA,ISNMF,ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 52
まとめと今後 • IVAとNMFを融合した新しいブラインド音源分離:ILRMA – FDICA(時系列スカラーの生成モデル) – IVA(周波数ベクトルの多変量生成モデル) – ILRMA(時間周波数の低ランク分解の生成モデル) • 多チャネルNMFはILRMAやIVAを包含 – 多チャネルNMF+ランク1空間モデル=ILRMA – 基底数1本のILRMA=IVA • 今後の課題 – 音声信号に対する分離精度の安定化 – スパース正則化の検討 – 教師あり手法への活用 53
参考文献(1/3) • [Lee, 1999]: D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative matrix factorization,” Nature, vol. 401, pp. 788–791, 1999. • [Lee, 2000]: D. D. Lee and H. S. Seung, “Algorithms for non-negative matrix factorization,” in Proc. Adv. Neural Inform. Process. Syst., 2000, vol. 13, pp. 556–562. • [Smaragdis, 1998]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, vol. 22, pp. 21–34, 1998. • [Sawada, 2004]: H. Sawada, R. Mukai, S. Araki, and S.Makino, “Convolutive blind source separation for more than two sources in the frequency domain,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2004, pp. III-885–III-888. • [Saruwatari, 2006]: H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, and K. Shikano, “Blind source separation based on a fast-convergence algorithm combining ICA and beamforming,” IEEE Trans. Audio, Speech, Lang. Process., vol. 14, no. 2, pp. 666–678, Mar. 2006. • [Araki, 2003]: S. Araki, S. Makino, Y. Hinamoto, R. Mukai, T. Nishikawa, and H. Saruwatari, “Equivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixtures,” EURASIP Journal on Advances in Signal Process., vol. 2003, no. 11, pp. 1–10, 2003. • [Hiroe, 2006]: A. Hiroe, “Solution of permutation problem in frequency domain ICA using multivariate probability density functions,” in Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 601–608. 54
参考文献(2/3) • [Kim, 2006]: T. Kim, T. Eltoft, and T.-W. Lee, “Independent vector analysis: An extension of ICA to multivariate components,” in Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 165–172. • [Kim, 2007]: T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 1, pp. 70–79, 2007. • [Kitamura, 2015]: D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Efficient multichannel nonnegative matrix factorization exploiting rank-1 spatial model,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2015, pp. 276–280. • [Kitamura, 2016]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo and S. Nakamura, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24, no. 9, pp. 1626–1641, Spt. 2016. • [Févotte, 2009]: C. Févotte, N. Bertin, and J.-L.Durrieu, “Nonnegative matrix factorization with the Itakura-Saito divergence. With application to music analysis,” Neural Comput., vol. 21, no. 3, pp. 793–830, 2009. • [Sawada, 2013]: H. Sawada, H.Kameoka, S.Araki, and N. Ueda, “Multichannel extensions of non-negative matrix factorization with complex-valued data,” IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 5, pp. 971–982, May 2013. 55
参考文献(3/3) • [Duong, 2010]: N. Q. K. Duong, E. Vincent, and R. Gribonval, “Under-determined reverberant audio source separation using a full-rank spatial covariance model,” IEEE Trans. Audio, Speech, Lang. Process., vol. 18, no. 7, pp. 1830–1840, Sep. 2010. • [Kitamura, 2015]: D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Relaxation of rank-1 spatial constraint in overdetermined blind source separation,” in Proc. Eur. Signal Process. Conf., 2015, pp. 1271–1275. 56