229 Views
March 18, 15
スライド概要
Presented at 2015 Spring Meeting of Acoustical Society of Japan (domestic conference)
北村大地, 小野順貴, 澤田宏, 亀岡弘和, 猿渡洋, "過決定条件BSS におけるランク1 空間制約の緩和," 日本音響学会 2015年春季研究発表会, 3-10-11, pp.629-632, Tokyo, March 2015.
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, Hiroshi Saruwatari, "Relaxation of rank-1 spatial model in overdetermined BSS," Proceedings of 2015 Spring Meeting of Acoustical Society of Japan, 3-10-11, Tokyo, March 2015 (in Japanese).
http://d-kitamura.net/links_en.html
過決定条件BSSにおける ランク1空間制約の緩和 Relaxation of Rank-1 Spatial Model in Overdetermined BSS 総合研究大学院大学 博士課程1年 国立情報学研究所 / 総合研究大学院大学 NTTコミュニケーション科学基礎研究所 東京大学 / NTTコミュニケーション科学基礎研究所 東京大学 北村大地 小野順貴 澤田宏 亀岡弘和 猿渡洋
研究背景 • ブラインド音源分離 (blind source separation: BSS) – 観測信号のみ (混合系は未知) から音源信号を推定する技術 音源信号 観測信号 混合系 – 過決定条件 (音源数 分離信号 分離系 録音マイク数) におけるBSS • 独立成分分析 (ICA),独立ベクトル分析 (IVA) 等 – 劣決定条件 (音源数 録音マイク数) におけるBSS • スペクトログラムマスキング,非負値行列因子分解 (NMF) 等 • BSSの応用 – 話者分離,雑音抑圧,音楽信号解析,音場再現の前処理 etc. 2
従来手法 (1/3) • 多チャネル非負値行列因子分解 (NMF) [H. Sawada, 2013] 観測信号の時間&周波数毎の 周波数&音源毎の スペクトル基底 アクティベーション チャネル間相関行列 空間相関行列 潜在変数 (頻出パターン) (時間強度変化) 多チャネル観測信号 空間モデル : 0~1の実数値 基底 Time アクティベーション Amplitude : 複素数値 スペクトログラム Frequency : 実数値(非負) 参考: 単一チャネルNMF Frequency : 要素毎の積 音源モデル Time Amplitude 3
従来手法 (2/3) • 独立ベクトル分析 (IVA) [T. Kim, 2007] 音源信号 混合行列 観測信号 分離行列 分離信号 … … … … … – 周波数をまとめた音源ベクトル間の独立性を仮定 • ベクトル内では高次統計量の相関を考慮 • 周波数領域ICAのパーミュテーション問題を解決 – 各フレームで時不変の複素瞬時混合系を仮定 – 安定かつ高速に分離行列が推定可能 4
従来手法 (3/3) • ランク1空間制約付き多チャネルNMF [D. Kitamura, 2014] 多チャネル観測信号 空間モデル 音源モデル 全空間相関行列をランク1で近似 – 空間モデル: IVAの分離行列の推定問題に帰着 – 音源モデル: 単一チャネルNMFの基底とアクティベーションの 推定問題に帰着 IVAとNMFの更新式の交互反復により 高速かつ安定に多チャネルNMFが解ける 5
ランク1空間モデル • 空間相関行列のランク1近似とは? – 時間周波数領域での時不変の複素瞬時混合仮定と等価 – 周波数領域ICAやIVAでもおなじみ Frequency 観測信号の スペクトログラム 音源信号 観測信号 時不変 複素混合行列 Time 1. 音源が点音源性を持つ 2. 残響が短時間フーリエ変換の窓長より短い 6
ランク1空間モデルの問題点 • 収録環境の残響が長い場合 – 音源とマイク間のインパルス応答が窓長より長くなる – 残響成分が前の時間フレームから漏れる Frequency 観測信号の スペクトログラム 音源信号 観測信号 前フレームから 漏れた成分 Time 混合系が時不変瞬時混合では表現できない 従来の分離手法(IVA等)では精度が著しく劣化 7
問題点のまとめとモチベーション • 多チャネルNMF [H. Sawada, 2013] – フルランクの空間相関行列を推定可能 • 残響にも多少頑健 – 計算コストが極めて高い – 初期値依存性が強い • IVA [T. Kim, 2007] & ランク1多チャネルNMF [D. Kitamura, 2014] – 空間モデルのランク1空間制約あり (時不変瞬時混合を仮定) – 残響が窓長より長いと精度が劣化 高残響下でも 音源を分離する為には 高い計算効率を保ったまま ランク1空間制約を緩和したい 8
提案法
アプローチ • 余剰チャネルの存在する過決定条件を想定 – 個の音源に対して 倍の録音マイク がある ( 例: 音源2個,マイク4個の場合 ( 観測信号 音源信号 混合 ) 次元削減された 観測信号 主成分 分析 ) 分離信号 BSS • 主成分分析 (PCA) を用いた次元削減 – 観測信号中の弱い成分(各音源の残響成分)の除去を期待 – パワーがアンバランスな混合には不向き • パワーの弱い音源の主成分が除去される危険がある 10
アプローチ • 余剰チャネルの存在する過決定条件を想定 – 個の音源に対して 倍の録音マイク がある ( 例: 音源2個,マイク4個の場合 ( 観測信号 音源信号 混合 ) ) 仮想的な分離信号 直接音 分離信号 残響 BSS 直接音 残響 再構成 • 各音源の直接音成分と残響成分を分けて推定 – 直接音成分と残響成分の間の独立性を仮定 – 同一音源の直接音と残響を足し合わせて分離信号を再構成 11
仮想分離信号のクラスタリング • 推定信号の順番の不定性 – どの仮想分離信号がどの音源の直接音or残響音に対応する かが不明 仮想分離信号を音源毎にまとめるクラスタリングが必要 推定した 仮想分離信号 クラスタリングされた 仮想分離信号 クラスタリング 音源1の直接音 分離信号 音源1の残響音 音源2の直接音 音源2の残響音 再構成 12
仮想分離信号のクラスタリング法 • 同一音源の直接音成分と残響成分はパワースペクトロ グラムが高い相関を持つ のパワースペクトログラム のパワースペクトログラム ・・・ • 数フレームの遅れを考慮した相互相関値 – 仮想分離信号の全組み合わせの相関値を計算 – 高い順に信号をマージ 13
基底共有型ランク1多チャネルNMF • 同一音源の直接音成分と残響成分は同じスペクトル基 底で表現できる • 複数の音源で共有するスペクトル基底を与えて推定 ランク1多チャネル NMFの音源モデル 共有基底 仮想分離信号 (音源1の直接音) 分離信号 (音源1の残響音) 共有基底 (音源2の直接音) (音源2の残響音) 再構成 – ランク1多チャネルNMF限定の手法 (IVAでは不可能) – あらかじめスペクトル基底を共有してモデル化することで音源 毎にグルーピングしつつ仮想分離信号を推定 14
実験
分離精度の比較実験 • 実験条件 音源信号 サンプリング周波数 FFT窓長 シフト長 基底数 反復回数 試行回数 主観評価値 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2音源4チャネルの混合信号 44.1 kHz から 16 kHz へダウンサンプル 8192 点 (128 ms, Hamming窓) 2048 点 (64 ms) 各音源につき15本 (トータルで30本) 200 回 初期値を変えて10 回 平均SDR改善値とその標準偏差 (総合分離性能) – JR2インパルス応答 音源1 残響時間: 470 ms マイク間隔: 2.83 cm 音源2 2m 80 60 16
分離精度の比較実験 • 比較手法(計7手法) 従 来 手 法 – PCA + 2ch IVA MNMF: 多チャネルNMF BF: ビームフォーマ • PCAをかけて2チャネルに圧縮した後,IVAで分離 – PCA + 2ch Rank1MNMF • PCAをかけて2チャネルに圧縮した後,ランク1多チャネルNMFで分離 – 4ch IVA + クラスタリング 提 案 手 法 • 4チャネルのままIVAを適用後,クラスタリングし分離信号を再構成 – 4ch 基底共有型Rank1MNMF • 4チャネルのまま基底共有型ランク1MNMFを適用後,分離信号を再構成 – 4ch MNMF + BF 従 来 手 法 参 考 値 • 4チャネルのまま推定した空間相関(フルランク)でBFを適用(時不変フィルタ) – 4ch MNMF • 4チャネルのまま推定した空間相関(フルランク)と音源モデルで多チャネル Wienerフィルタを適用(時変フィルタ) – 真の空間情報を用いた理想的なBF • 各音源の真の空間相関の時間平均を用いた時不変分離フィルタの限界性能 17
分離精度の比較実験 • 分離性能の比較1 (ultimate_nz_tour__snip_43_61) – Source 1: Guitar – Source 2: Vocals ランク1空間制約 SDR improvement [dB] 16 14 12 10 8 6 4 2 0 フルランクモデル 時変フィルタ 時不変フィルタ 時不変フィルタ(2個/音源) (1個/音源)の 限界性能 フルランクモデル ランク1空間制約 時不変フィルタ 時不変フィルタ(1個/音源) (1個/音源) PCA+ 2ch IVA PCA+ 4ch IVA+ 4ch 4ch MNMF+ 4ch MNMF 真の空間情報 2ch Rank1 クラスタリング 基底共有型 BF を用いた MNMF Rank1MNMF 理想的なBF : Source 1 : Source 2 18
分離精度の比較実験 • 分離性能の比較2 (bearlin-roads__snip_85_99) – Source 1: Acoustic guitar – Source 2: Piano SDR improvement [dB] 12 10 8 6 4 2 0 -2 -4 PCA+ 2ch IVA PCA+ 4ch IVA+ 4ch 4ch MNMF+ 4ch MNMF 真の空間情報 2ch Rank1 クラスタリング 基底共有型 BF を用いた MNMF Rank1MNMF 理想的なBF : Source 1 : Source 2 19
分離精度の比較実験 • 分離性能の比較3 (fort_minor-remember_the_name__snip_54_78) – Source 1: Drums – Source 2: Vocals SDR improvement [dB] 12 10 8 6 4 2 0 -2 -4 PCA+ 2ch IVA PCA+ 4ch IVA+ 4ch 4ch MNMF+ 4ch MNMF 真の空間情報 2ch Rank1 クラスタリング 基底共有型 BF を用いた MNMF Rank1MNMF 理想的なBF : Source 1 : Source 2 20
分離精度の比較実験 • 計算時間の比較 – 条件 • CPU: Intel Core i7-4790 (3.60GHz) • 環境: MATLAB 8.3 (64-bit) • 楽曲: ultimate_nz_tour__snip_43_61 (18 s, 16 kHzサンプル) PCA + 2ch IVA PCA + 2ch Rank1MNMF 4ch IVA+ クラスタリング 4ch Rank1 MNMF+ クラスタリング MNMF 23.4 s 29.4 s 60.1 s 143.9 s 3611.8 s 高残響下で高い計算効率を保ったまま 多チャネルNMFと同程度の分離性能を実現 21
まとめ • 残響時間が窓長を超える長さの観測信号を対象 – 高い計算効率と十分な分離性能の両立 • 音源の数の2倍以上の観測マイク数があれば適用可能 な分離アルゴリズムを提案 – 従来はPCAで観測信号の次元圧縮を行うことが一般的だった • 余剰な観測チャネルを用いて各音源の直接音成分と残 響成分を別々に推定 – ランク1空間制約が緩和可能 – 高残響下での分離精度向上 • 実験結果は良好な性能を示した – 時不変線形分離フィルタの限界性能を超える場合も確認 22