1.5K Views
March 12, 16
スライド概要
北村大地, 小野順貴, "独立性基準を用いた非負値行列因子分解の効果的な初期値決定法," 日本音響学会 2016年春季研究発表会, 3-3-5, pp. 619-622, Kanagawa, March 2016.
Daichi Kitamura, Nobutaka Ono, "Statistical-independence-based effective initialization for nonnegative matrix factorization," Proceedings of 2016 Spring Meeting of Acoustical Society of Japan, 3-3-5, pp. 619-622, Kanagawa, March 2016 (in Japanese).
http://d-kitamura.net/links_en.html
独立性基準を用いた非負値行列因子分解の 効果的な初期値決定法 Statistical-independence-based efficient initialization for nonnegative matrix factorization 総合研究大学院大学 博士課程2年 ○北村大地 国立情報学研究所/総合研究大学院大学 小野順貴
背景 • 非負値行列因子分解 (nonnegative matrix factorization: NMF) [Lee, 1999] Amplitude Frequency Frequency – 非負の制約条件付き次元圧縮 – 有意な特徴量を抽出する教師無し学習 – 非負性に起因するスパース分解 Time 入力データ行列 (スペクトログラム) Time Amplitude 係数行列 (時間的な強度変化) 基底行列 (頻出スペクトルパターン) : 行数(周波数ビン数) : 列数(時間フレーム数) : 基底数 2
背景 • NMFにおける最適化問題 – 非負制約下で観測とモデルの距離(data fidelity)を最小化 – 変数 及び の解析的な解は求まらず – 効率的な反復更新式による最適化が確立されている • 補助関数法に基づく乗法更新式 [Lee, 2001] 距離関数が2乗ユークリッド距離の場合の乗法更新式 – 勾配法等と同じ反復更新なので全変数に初期値が必要 3
問題点と動機 • 問題点: NMFを用いた全ての手法の結果はNMFの変数 ( と )の初期値に依存して決まる 初期値によって精度が変わる・・・ 10 8 6 4 Rand10 Rand9 Rand8 Rand7 Rand6 Rand5 Rand4 0 Rand3 2 Rand2 Rand1~Rand10は擬似乱数 のシードのが異なる 12 Rand1 値域 [0,1] の一様な擬似乱数 をメルセンヌツイスタ法で生成 SDR improvement [dB] – 例: 全教師ありNMFによる音源分離 • 動機: 常に最良の結果をもたらす一意な初期値決定法が 望まれる – 入力データ行列 にのみ依存し,擬似乱数を用いない 4
従来のNMFの初期化法 • 乱数に基づく初期値決定法 – 擬似乱数そのもの(一様擬似乱数など) – 遺伝的アルゴリズムによる良い初期値探索 [Stadlthanner, 2006], [Janecek, 2011] – クラスタリングを用いた初期値 [Zheng, 2007], [Xue, 2008], [Rezaei, 2011] • 入力データ行列 を 個のクラスタにまとめ,各クラスタのセントロイドベク トルをNMFの初期基底ベクトルとする • 入力データ行列のみに基づく初期値決定法 – 減算クラスタリングを用いた初期値 [Casalino, 2014] • 擬似乱数は用いないが,2個のハイパーパラメータを調整する必要あり – 主成分分析(PCA)を用いた初期値 [Zhao, 2014] • 入力データ行列 にPCAを適用して得られる直交基底及び係数の絶対値 を,基底行列及び係数行列の初期値とする – 特異値分解(SVD)を用いた初期値 [Boutsidis, 2008] • 非負二重SVD(NNDSVD)を入力データ行列 に適用して得られる非負の 5 左及び右特異ベクトルを基底行列及び係数行列の初期値とする
NMFに適する基底とは • 直交基底はNMFにとって良い基底か否か? – PCAもSVDも入力データ行列の直交基底を推定 – NMFの幾何学的な解釈によると [Donoho, 2003] • “NMFにおける最良な基底は正の象限に点在する観測データ点を全て含 む凸多面錘のエッジに沿うベクトルである” 凸錐(convex cone) 観測データ点 エッジ 最良な基底 データの表現に必要十分で 係数はスパースになる 直交する基底 過剰な基底で不要な領 域を表現してしまう よりtightな基底 観測データ点の表現 には不十分 – 直交性に基づく初期値決定法はNMFに適さない可能性あり 6
提案する初期値決定法 • 入力データ行列のみから何ができるか? – 独立成分分析(ICA)に着目 – ICAは成分間の独立性を最大化する基底(直交とは限らない) を推定可能 – ICAは優ガウスな生成モデルを仮定することでスパースな独立 成分を推定可能 • NMFも暗にスパースな分解行列を推定(非負性に由来) • NMFの初期値決定法としてICAを用いる – 入力データ行列にのみ依存 – 擬似乱数もパラメータチューニングも不要 7
ICAの信号モデルとNMF • 入力データ行列は独立成分の混合信号と仮定 – 行列 中の 個のソースが混合行列 入力データ行列 混合行列(正方) として観測 ソース行列 … … – ICAは分離行列 を経て とソース 各基底の係数が 互いに独立と仮定 を推定 • これらをNMFの基底行列及び係数行列の初期値に用いる • 「各基底に対する係数(時間的な強度変化)が独立」 – NMFは(1)非負制約条件付き(2)次元圧縮なので • (1)2種類の非負性を考慮したICAを適用 • (2)PCAによる次元圧縮を適用※ ※PCAで次元圧縮した後にICAを用いるので,従来のPCAによる直交基底の推定とは異なる 8
非負ICAを用いる提案手法(提案手法1) • Nonnegative ICA(NICA)を用いる [Plumbley, 2003] – 全てのソースが非負となるような分離行列を推定 – 中心化せずに白色化(無相関化)された信号 に対する回転行 列 を求める 白色化変換行列 (但し中心化はしない) 観測信号 白色化信号 – 最急降下法による最適化(Fast NICAというのもある) 9
差分信号とICAを用いる提案手法(提案手法2) • 入力データの時間差分信号と通常のICAを用いる – 非負なソースの時間差分信号が混合されていると仮定 • ソースを零平均信号とするため 時間差分行列 – 時間差分混合信号 にラプラス分布仮定ICAを適用 • ラプラス分布ICAのコスト関数は凸なので の解は一意 • 補助関数法に基づく高速なICAの解法が提案されている [Ono, 2010] 10
PCAによる次元圧縮処理(提案手法1) • PCAで入力データ行列の次元を圧縮 – ソース は混合行列 を経て 固有値 : 任意の行列 : ソース行列 : 混合行列 : 零行列 大 小 行が の固有ベクトル はtop- 固有値に対応する固有ベクトル として観測 • 提案手法1: NICAを用いる場合 – データは – 近似的に ,ソースは ,分離信号は とすると NICAを用いたNMFの初期値 白色化 行列 NICAの変数 11
PCAによる次元圧縮処理(提案手法2) • PCAで入力データ行列の次元を圧縮 – ソース は混合行列 を経て 固有値 : 任意の行列 : ソース行列 : 混合行列 : 零行列 大 小 行が の固有ベクトル はtop- 固有値に対応する固有ベクトル として観測 • 提案手法2: 時間差分信号と通常のICAを用いる場合 – データは – 近似的に ,ソースは ,分離信号は とすると 差分信号とICAを用いたNMFの初期値 この手法では反復の度に という非負化処理を行う NICAの変数 12
3種類の非負化処理 • いずれの提案手法においてもソース や混合行列 推定結果が完全に非負となる保証はない • 両変数に3種類の非負化処理のいずれかを施す の – 非負化処理1: – 非負化処理2: – 非負化処理3: • 但し, と はスケールを合わせる為のスカラー – 初期値決定法の後に用いるNMFの距離関数に応じて下記のように決まる 13
実験 • ピアノの上昇音階のパワースペクトログラム – 24音(2オクターブ), サンプリング周波数は44.1 kHz – 行列としてのサイズは 2049x1037 累積特異値のグラフ Low-rank 14
実験 • 提案初期化法のNICAとICAのコスト関数 – 基底数は とした例 提案手法1(NICA) 1000 1 4 Cost function of ICA Cost function of NICA 8 6 2 0.1 提案手法2(差分信号+ICA) 8 6 4 9 8 7 6 5 4 3 2 2 0.01 0 500 1000 1500 2000 Iteration 100 0 10 20 Iteration 30 15
実験 • 初期値を与えた後のEU-NMF – 基底数は とした例 Rand1~10 は値域 [0, 1] の一様擬 似乱数(シードが異なる) 初期値決定にかかる 処理時間例 NICA: 4.28 s ICA: 10.77 s PCA: 0.95 s SVD: 1.31 s NMF反復にかかる 処理時間例 EU-NMF: 18.39 s (1000回反復時) 16
実験 • 初期値を与えた後のKL-NMF – 基底数は とした例 Rand1~10 は値域 [0, 1] の一様擬 似乱数(シードが異なる) 初期値決定にかかる 処理時間例 NICA: 4.28 s ICA: 10.77 s PCA: 0.95 s SVD: 1.31 s NMF反復にかかる 処理時間例 KL-NMF: 62.19 s (1000回反復時) 17
実験 • 初期値を与えた後のIS-NMF – 基底数は とした例 Rand1~10 は値域 [0, 1] の一様擬 似乱数(シードが異なる) 初期値決定にかかる 処理時間例 NICA: 4.28 s ICA: 10.77 s PCA: 0.95 s SVD: 1.31 s NMF反復にかかる 処理時間例 IS-NMF: 202.96 s (1000回反復時) 18
音源分離実験 • 全教師ありNMFによる2音源分離タスク – SiSEC2015 MUS dataset のvocalsとotherの混合 – 各音源の教師基底学習時に初期値決定法を用いる • 分離時の係数行列は観測行列との相関を用いるため,学習時の初期値 のみによって分離性能が決まる – 15曲の平均SDR改善量(総合分離性能) Separation performance of vocals 2 Separation performance of other Rand10 Rand9 Rand8 Rand7 Rand6 Rand5 Rand4 Rand3 Rand2 Rand1 SVD PCA ICA3 0 ICA2 1 ICA1 Rand10 Rand9 Rand8 Rand7 Rand6 Rand5 Rand4 Rand3 Rand2 Rand1 SVD PCA ICA3 ICA2 ICA1 NICA3 NICA2 2 3 NICA3 4 4 NICA2 6 PCA SVD 提案手法 最大で0.8 dBの差 NICA1 8 0 5 SDR improvement [dB] 10 NICA1 SDR improvement [dB] 12 PCA SVD 提案手法 最大で1.6 dBの差 19
まとめ • NMFの効果的な初期値決定法 • 独立性基準を用いた基底(直交とは限らない)と独立成 分をそれぞれ基底行列と係数行列の初期値とする • 非負性を考慮した2種類のICA – Nonnegative ICA – 時間差分信号+ラプラス分布ICA • NMFのコスト関数は高速により低い値まで減少 – NMFにとって良い初期値といえる • 全教師あり音源分離タスクにおいても良好な結果をもた らした 20