286 Views
March 18, 15
スライド概要
Presented at 2014 Autumn Meeting of Acoustical Society of Japan (domestic conference)
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, Hiroshi Saruwatari, "Efficient multichannel nonnegative matrix factorization with rank-1 spatial model," Proceedings of 2014 Autumn Meeting of Acoustical Society of Japan, 2-1-11, pp.579-582, Hokkaido, September 2014 (in Japanese, 粟屋 潔学術奨励賞受賞)
http://d-kitamura.net/links_en.html
Efficient multichannel NMF with rank-1 spatial model ランク1空間モデルを用いた効率的な 多チャネル非負値行列因子分解 総合研究大学院大学 博士課程1年 国立情報学研究所 / 総合研究大学院大学 NTTコミュニケーション科学基礎研究所 東京大学 / NTTコミュニケーション科学基礎研究所 東京大学 北村大地 小野順貴 澤田宏 亀岡弘和 猿渡洋
研究背景 • ブラインド音源分離 (blind source separation: BSS) – 混合信号のみ (混合系は未知) から分離信号を推定する技術 音源信号 観測信号 混合系 – 過決定条件 (音源数 分離信号 分離系 録音マイク数) におけるBSS • 独立成分分析 (ICA),独立ベクトル分析 (IVA) 等 – 劣決定条件 (音源数 録音マイク数) におけるBSS • 非負値行列因子分解 (NMF) の拡張手法等 • 話者分離や雑音抑圧等,様々な用途がある 2
従来手法 • 多チャネルNMF [H. Sawada, et al., 2013] – 音源の混合系を空間相関行列として推定 – 劣決定条件にも対応し自由度が高いが,最適化が難しい • 独立ベクトル分析 (IVA) [T. Kim, et al., 2007] – 音源間 (ベクトル間) の独立性を仮定し分離行列を推定 – 混合行列の逆行列を仮定する為,過決定条件下の技術 – 安定で高速な最適化が可能 音源信号 観測信号 混合系 分離信号 分離系 3
本研究の目的と位置づけ • 容易に最適化できる多チャネルNMFの提案 最適化の容易さ – IVAと多チャネルNMFを統一的に捉える枠組みを確立 IVA 提案手法 分離性能 Bad 分離性能 Good! 多チャネル NMF モデルの自由度 4
提案手法のコンセプト • 従来の多チャネルNMFは混合行列を推定していた – 劣決定条件にも対応 – しかし最適化が難しい 解決するアイデア • 分離行列を推定する多チャネルNMFを考える – 逆行列が存在しなければならない – 決定的な混合系でなければならない 過決定条件に限定 混合のランク1近似 • 提案手法は過決定条件で各音源が点音源に近い状況に 限定 – 一般的な会議や音楽演奏の収録環境では実用的な条件設定 5
提案手法: 定式化 • 従来の多チャネルNMFにおける定式化 複素数 : 周波数ビン数 : 時間フレーム数 : チャネル数 各 グリッドが全てベクトルとなる 対角成分が グリッドにおける各 チャネルの観測パワー (非負値) 非対角成分はチャネル間相関を 示す複素数 6
提案手法: 定式化 • 多チャネルNMFの分解モデル ( の例 ) 要素毎の積 灰色は非負の実数 赤色は複素数 • 参考: 単一チャネルNMFの分解モデル Amplitude 基底 アクティベーション Frequency Frequency スペクトログラム Time Time Amplitude 7
提案手法: 定式化 • 多チャネルNMFの分解モデル ( の例 ) 要素毎の積 灰色は非負の実数 赤色は複素数 提案手法 分離行列を推定する問題にするために, 空間相関行列が全てランク1の行列となる ような制約条件を導入 8
提案手法: ランク1空間相関行列とは • ランク1近似: 各時間フレームでの複素瞬時混合を仮定 時不変の複素 混合行列 で 表現できる 音源信号 観測信号 複素混合行列 – 音源ができるだけ点音源に近く,残響などの拡散が時間周波 数解析の時間フレーム内に収まるという条件に対応 • ランク1空間相関行列は各音源のステアリングベクトルの 外積で表現できる ( のランク1行列) • ステアリングベクトルは混合行列の列成分 9
提案手法: コスト関数の変形と変数変換 • 従来の多チャネルNMFのコスト関数 (板倉斎藤擬距離) 1. ランク1空間相関行列を導入 ( 2. 混合行列 を用いて表現しなおす , 3. 分離行列 ) を用いて と分離信号 に変数変換 • 提案手法のコスト関数 (板倉斎藤擬距離) 10
提案手法: IVA及びNMFとの関係 • 提案手法のコスト関数 (板倉斎藤擬距離) • IVAのコスト関数 (球状ラプラス分布仮定) • 単一チャネルNMFのコスト関数 (板倉斎藤擬距離) 11
提案手法: IVA及びNMFとの関係 • 提案手法のコスト関数 (板倉斎藤擬距離) • IVAと単一チャネルNMFの各コスト関数の組み合わせ – IVAと多チャネルNMFの関係を明らかにする 低 モデルの自由度 IVA 提案手法 スペクトル基底 の数を拡張 高 多チャネル NMF 混合系のランク1 近似を導入 12
提案手法: 潜在変数無し • 提案手法1 – 各音源は同じ数の基底で表現される 基底とアクティベーション 音源信号 観測信号 空間相関 分離信号 行列 4個の基底 混合行列 分離行列 全部で8個 の基底 ランク1行列 4個の基底 同じ数の基底で各音源を表現する • 利点: 単一チャネルNMFの更新式とIVAの更新式を交互 に回すだけで全変数の最適化が可能 • 欠点: 全ての音源に適切な数の基底を与えられない 13
提案手法: 潜在変数導入 • 提案手法2 – トータルの基底数を与え,適応的に各音源に割り当てる 基底とアクティベーション 音源信号 観測信号 空間相関 分離信号 行列 潜在変数 3個の基底 混合行列 分離行列 ランク1行列 全部で8個 の基底 5個の基底 各音源に適切な基底数が適応的に決定される • 利点: 最適な基底数が学習されるため,分離精度が向上 • 欠点: 潜在変数の最適化も必要なため頑健性が劣化 – 潜在変数の更新式は補助関数法で導出可能 14
分離精度の比較実験 • 実験条件 音源信号 比較手法 サンプリング周波数 FFT長 窓関数長 初期値 基底数 反復回数 試行回数 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2チャネルで2音源の混合信号 IVA, 提案手法1 (潜在変数なし), 提案手法2 (潜在変数あり) 44.1 kHz から 16 kHz へダウンサンプル 8192 点 (512 ms) 2048 点 (128 ms, ハニング窓) 分離行列 : 単位行列, その他の変数: 非負値乱数 提案手法1: 各音源につき20個 (トータルは40個) 提案手法2: トータルで40個 200 回 初期値を変えて10 回 平均SDR改善値とその標準偏差 (総合分離性能) 主観評価値 平均SIR改善値とその標準偏差 (非目的音の除去性能) 平均SAR値とその標準偏差 (人工歪みの少なさ) 15
分離精度の比較実験 • 実験結果1 (Another_dreamer_The_ones_we_love_Snip_69-94) – Source 1: Guitar – Source 2: Vocal : Source 1 12 10 8 6 4 2 0 (a) IVA Proposed Proposed method 1 method 2 24 16 (b) 14 16 12 8 10 8 6 4 4 0 (c) 12 20 SAR [dB] 14 28 SIR improvement [dB] SDR improvement [dB] 16 : Source 2 2 IVA Proposed Proposed method 1 method 2 0 IVA Proposed Proposed method 1 method 2 16
分離精度の比較実験 • 実験結果2 (Tamy_Que_pena_tanto_faz_Snip_6-19) – Source 1: Guitar – Source 2: Vocal : Source 1 2 1 0 -1 -2 -3 IVA Proposed Proposed method 1 method 2 12 12 (b) 10 8 6 4 2 8 6 4 2 0 -2 (c) 10 SAR [dB] 3 (a) 14 SIR improvement [dB] SDR improvement [dB] 4 : Source 2 IVA Proposed Proposed method 1 method 2 0 IVA Proposed Proposed method 1 method 2 17
分離精度の比較実験 • 実験結果3 (Fort_minor_Remember_the_name_Snip_54-78) – Source 1: Violins_synth – Source 2: Vocal 20 IVA Proposed Proposed method 1 method 2 : Source 2 16 (b) 14 16 12 8 10 8 6 4 4 0 (c) 12 SAR [dB] 14 (a) 12 10 8 6 4 2 0 -2 -4 SIR improvement [dB] SDR improvement [dB] : Source 1 2 IVA Proposed Proposed method 1 method 2 0 IVA Proposed Proposed method 1 method 2 18
まとめ • 混合系ではなく分離行列を求める多チャネルNMFを新た に提案した – 空間相関行列がランク1となる近似を導入 – IVAと単一チャネルNMFの組み合わせとなり,最適化が容易 • IVAと従来の多チャネルNMFの関係を明らかにした – 「IVAに基底分解を導入したモデル」と「ランク1近似を導入した 多チャネルNMF」は本質的に等価 • 客観評価実験の結果,提案手法はIVAよりも高精度な分 離を達成した • 今後は従来の多チャネルNMFと頑健性の比較を行う 19