102 Views
March 18, 15
スライド概要
Presented at 2013 Autumn Meeting of Acoustical Society of Japan (domestic conference)
Daichi Kitamura, Hiroshi Saruwatari, Satoshi Nakamura, Kazunobu Kondo, Yu Takahashi, "Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization," Proceedings of 2013 Autumn Meeting of Acoustical Society of Japan, 1-1-6, pp.583-586, Aichi, September 2013 (学生優秀発表賞受賞).
http://d-kitamura.net/links_en.html
Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization 超解像型非負値行列因子分解における分離性能と外挿能力の トレードオフに基づく最適なダイバージェンスの検討 ☆北村大地, 猿渡洋, 中村哲 (奈良先端科学技術大学院大学) 高橋祐, 近藤多伸 (ヤマハ株式会社)
背景: 非負値行列因子分解による音源分離 • 音源分離: 複数の音源から成る混合音から特定の音源を分離 • 非負値行列因子分解(nonnegative matrix factorization: NMF)[Lee, 2001] Amplitude Frequency Frequency – スパース分解表現による特徴量抽出手法 Time 観測スペクトログラム Time Amplitude アクティベーション行列 基底スペクトル行列 Ω: 周波数ビン数 𝑇: 時間フレーム数 𝐾: 基底数 • 一般に各音源毎に基底を選別することは困難 • 目的音源の基底を学習する教師ありNMF [Smaragdis, 2010], [Yagi, 2012] 2
本発表における目的 • 頑健なマルチチャネル信号分離手法として,超解像型教師あり NMF及びそのハイブリッド手法を提案 [Kitamura, 2013] 方位に関 する分解 L 超解像型 教師ありNMF R ⚫ 超解像型教師ありNMFに関して,コスト関数をパラメトリックに 拡張した一般化アルゴリズムを提案する ⚫ 「スパース分解表現」と「教師による超解像処理」が統合された 技術において,最適なコスト関数がどのようなメカニズムで決 まるかを明らかにする 3
従来法:教師ありNMFによる音源分離 • 分離したい目的音の教師(サンプル)音を事前に学習 • 学習プロセスで教師スペクトル基底(dictionary) を作成 • 分離プロセスで目的音 と,非目的音 に分離 学習プロセス 分離目的音の教師音 教師音から作成した教師スペクトル基底 教師基底 を固定し,他の変数を最適化 分離プロセス 無相関にする罰則条件 最適化 4
提案法:超解像型NMF及びハイブリッド手法 • 方位クラスタリング [Araki, 2007], [Miyabe, 2009] – ステレオ信号による方位情報のクラスタリングを用いた分解手法 L R • ハイブリッド手法 [Kitamura, 2013] 方位クラス タリング L :音源成分 :重心ベクトル L-ch amplitude Center cluster Left cluster Right cluster R-ch amplitude 超解像型 教師ありNMF R 方位情報を用いた分解 スペクトル情報を用いた分解 5
提案法:超解像型NMF及びハイブリッド手法 • 前段: 方位クラスタリング – スペクトログラム上でのハードクラスタリング 目的 方位成分 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 0 0 0 0 0 0 分離された目的クラスタ Frequency 非目的 方位成分 バイナリマスク Frequency Frequency 入力スペクトログラム : 欠落 1 1 1 0 1 1 0 Time 要素毎の積 Time Time • 後段: 超解像型教師ありNMF [Kitamura, 2013] – – – – 前段処理によって生成されるバイナリマスク を用いる 欠落したグリッドを無視し,残った成分だけに教師ありNMFを適用 欠落した目的音源成分は教師スペクトルによって外挿され復元 同一方位に存在する非目的音源成分を分離 6
方位クラス タリング Time Frequency 分離された目的クラスタ バイナリ マスク : 欠落 Time Frequency 復元された目的成分 超解像型 教師ありNMF 外挿して復元 Time 教師スペクトル 基底 目的音源 (a) Input signal Left Frequency of source component 目的 方位成分 非目的 方位成分 Right Center Direction (b) After directional clustering z Left Frequency of source component Frequency 入力スペクトログラム Frequency of source component 提案法:超解像型NMF及びハイブリッド手法 Center Direction Right (c) After superresolutionbased SNMF Left Center Direction 外挿された 目的音源成分 Right 7
教師基底外挿における正則化 • 欠落が極端に多いフレームでは外挿誤りを起こす危険がある • 超解像処理としての正則化が必要 外挿誤りの例 : 欠落 Time 4 Frequency [kHz] Frequency 分離された目的クラスタ 3 2 1 0 0 1 2 3 Time [s] 4 目的成分がほぼ欠落したフレーム フロベニウスノルム最小化による正則化 : それぞれ行列 の要素, : フロベニウスノルム : 論理反転, 8
分解モデルとコスト関数 分解モデル: 教師スペクトル基底(固定) コスト関数(ユークリッド距離規準): 正則化項 : 論理反転, : それぞれ行列 : 正則化項と罰則項の重み係数, 罰則項 の要素, : フロベニウスノルム • 従来は「ユークリッド距離」と「一般化KLダイバージェンス」規準 のみが検討されていた 9
コスト関数の一般化 一般化コスト関数: 罰則項 正則化項 • : -divergence関数 [Eguchi, 2001] – パラメータ の値に応じてダイバージェンスが変化 – 特に, の時にユークリッド距離, の時に一般化KLダイバー ジェンス, の時に板倉-斎藤擬距離に対応 – 振幅ドメインのNMFによる 音源分離では, 程度が高精度 10
一般化コスト関数に基づく更新式 • コスト関数 を最小化することで変数 の反復型更新式 が得られる • 最小化問題は補助関数法を用いて解くことができる 更新式: 11
最適距離規範の確認実験 実験条件 • 4つのメロディからなるステレオの混合音源を作成 • 中央に2つ,左右15°に1つずつ音源を配置 • 3種の楽器編成のMIDI信号を用意,計36パターンの平均評価値 Left Center 2 Dataset No. 1 No. 2 No. 3 Melody 1 Oboe Trumpet Horn Melody 2 Midrange Bass Flute Piano Trombone Violin Harpsichord Fagotto Clarinet Piano Cello 4 1 目的音源 Right 3 教師用 音源信号 目的音源の音域をカバーする2オクターブの24音階 12
最適距離規範の確認実験 実験条件 • その他の実験条件 観測信号 教師信号 分解ドメイン 基底数 重み係数 比較手法 3種のデータセット,合計36パターンのステレオMIDI信号 目的音源と同じMIDI信号で音域をカバーする2オクターブ の24音階からなる信号 振幅スペクトログラム 教師基底: 100, その他の基底: 30 実験的に調整して定めた値 モノラルにミックスダウンした信号に罰則条件付き教師あり NMF (PSNMF)を適用 • NMFコストのダイバージェンス と正則化コストのダ イバージェンス のすべての組み合わせ(16通り)で 実験を行い,最適な を検討 – は教師基底学習時と超解像時で常に統一 • 評価値はSDR, SIR, SARを用いる [Vincent, 2006] SDR :分離した目的音の品質 総合的な分離精度 SIR :目的音と非目的音の分離度合 SAR :一連の処理で生じた歪みの少なさ 13
最適距離規範の確認実験 実験結果 • 各手法における評価値の平均を算出 0 Good PSNMF Proposed hybrid method (reg = 0) Proposed hybrid method (reg = 2) 12 8 6 4 15 SAR [dB] SIR [dB] SDR [dB] 8 10 5 2 0 10 20 10 Bad Proposed hybrid method (reg = 1) Proposed hybrid method (reg = 3) 0 1 2 Value of NMF 3 0 6 4 2 0 1 2 Value of NMF 3 0 0 1 2 Value of NMF 3 • 従来の教師ありNMFでは が最適だったが,超解像型教 師ありNMF及びそのハイブリッド手法では が最適 – 最適なダイバージェンスがシフトしている • 正則化コストのダイバージェンスは 他の値はほとんど差が無い が極端に性能が悪く, 14
最適ダイバージェンスシフトの原因の仮説 • 超解像型教師ありNMFには2つのタスクがある 超解像型 教師ありNMF 音源の分離 教師基底を用いた外挿 • 仮説: 音源分離と基底外挿のそれぞれのタスクにおいて最適な NMFコストのダイバージェンス が異なるのではないか? • 正味の外挿能力を測る実験 目的音源のみの信号 成分が欠落した信号 バイナリ マスク – 正則化コストの 復元された信号 超解像 NMF は最適値であった1に固定して実験 15
外挿能力の確認実験結果 • 正則化コストのダイバージェンス Good は最適値の1に固定 20 SAR [dB] 15 10 5 Bad 0 0 1 2 3 Value of NMF 4 • NMFコストのダイバージェンス は1よりも少し高い方が,外 挿能力が高くなる • ダイバージェンス が0に近づくと,学習された教師基底がスパー スになる傾向がある 0 -2 -4 -6 -8 -10 0 Amplitude [dB] Amplitude [dB] 0 -2 -4 -6 -8 -10 0 1 2 3 4 Frequency [kHz] 5 1 2 3 4 Frequency [kHz] 5 16
ダイバージェンスの違いによる基底の変化 Amplitude [dB] 0 -2 -4 -6 -8 -10 0 Amplitude • 事前学習時において の値が小さいと,教師基底はピークと スパース性が重視され,より局所的な特徴を捉える Decay 1 2 3 4 Frequency [kHz] 5 Attack Sustain Release Time Amplitude [dB] 0 -2 -4 -6 -8 -10 0 Amplitude • 逆に事前学習において の値が大きいと,教師基底は少し滑 らかになり,より大局的な特徴を捉える Decay 1 2 3 4 Frequency [kHz] 5 Attack Sustain Release Time 17
最適ダイバージェンスのトレードオフ Performance • 超解像型教師ありNMF及びそのハイブリッド手法における最適な ダイバージェンスは音源分離能力と外挿能力のトレードオフとなる 総合性能 分離能力 外挿能力 Value of 0 -2 -4 -6 -8 -10 0 Amplitude [dB] Amplitude [dB] 0 -2 -4 -6 -8 -10 0 1 2 3 4 Frequency [kHz] スパース性: 強 5 1 2 3 4 Frequency [kHz] 5 スパース性: 弱 – 振幅スペクトログラムにおける従来の教師ありNMF分離では が 高性能であったが,ハイブリッド手法では が高い性能となる 18
まとめ • 超解像型教師ありNMFのコスト関数において,NMFコス トと正則化コストを -divergenceで一般化 • 超解像型教師ありNMF及びそのハイブリッド手法におけ る最適なダイバージェンスを実験的に確認 • 音源分離能力と教師基底外挿能力のトレードオフから, 最適なダイバージェンスがシフトする現象を確認 19