>100 Views
March 28, 25
スライド概要
北村研究室の学内・対外発表の発表スライドをまとめています.
創造工学専攻特別研究II発表審査会@マルチメディア教室 12:50〜16:00 深層パーミュテーション解決法に基づく ブラインド音源分離 Blind Source Separation Based on Deep Permutation Solver 香川高専専攻科 創造工学専攻 電気情報コース 2年 北村研究室 蓮池 郁也
はじめに • 音源分離とは – 音声,雑音,歌声,楽器音,機械音等の音源を個々に分離 音源分離 • 音源分離の応用先 ⁃ 音声認識 ⁃ 自動採譜 ⁃ 補聴器の高機能化 ⁃ ノイズキャンセリング etc. 2
ブラインド音源分離 • ブラインド音源分離 (blind source separation: BSS) – 混合系 が未知の条件で分離系 を推定 混合系 分離系 BSS – 優決定BSS(マイク数≧分離したい音源の数) • 混合系が正方行列にできるので逆行列が定義可能 • 線形分離が可能なため分離音の音質が良い 例. 独立成分分析(ICA) [Comon, 1994] 例. 独立ベクトル分析 (IVA) [Hiroe, 2006], [Kim+, 2006] 例. 独立低ランク行列分析 (ILRMA) [Kitamura+, 2016] • 本研究では,優決定BSSについて取り扱う – 高音質であり,様々な分野に適用可能 3
4 BSSの歴史 周波数領域独立成分分析 (FDICA) [Smaragdis, 1998] パーミュテーション問題発生 パーミュテーション問題を 回避する手法 パーミュテーション解決法 (permutation solver :PS) 教師なし手法 独立ベクトル分析 (IVA) [Hiroe, 2006], [Kim+, 2006] 周波数間相関に基づくPS [Murata+, 2001], [Sawada+, 2004] 音源の到来方向に基づくPS 補助関数IVA(AuxIVA) [Saruwatari+, 2006] [Ono, 2011] 教師あり手法 独立低ランク行列分析(ILRMA) [Kitamura+, 2016] 局所周波数領域に基づく深層パーミュ [Yamaji+, 2020] テーション解決法(DPS) 提案手法
本発表の目次 • 従来手法 – 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー ミュテーション問題 – パーミュテーションを回避する手法 – 従来の深層パーミュテーション解決法(DPS) • 提案DPS – 概要とパーミュテーション行列の推定方法 – 推定分離信号の作成と損失の計上 – テストデータに対する処理 • 実験 – 提案DPSの性能を調査するための実験 – FDICAの分離誤差に対する実験 • まとめ 5
本発表の目次 • 従来手法 – 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー ミュテーション問題 – パーミュテーションを回避する手法 – 従来の深層パーミュテーション解決法(DPS) • 提案DPS – 概要とパーミュテーション行列の推定方法 – 推定分離信号の作成と損失の計上 – テストデータに対する処理 • 実験 – 提案DPSの性能を調査するための実験 – FDICAの分離誤差に対する実験 • まとめ 6
音源間の独立性に基づくBSS:ICA • 独立成分分析(independent component analysis: ICA)[Comon, 1994] – 混合行列 が未知の条件で分離行列 音源信号 1. 互いに独立 混合行列 を推定 混合信号 分離行列 2. 可逆で時不変 – 2つの仮定を用いて分離行列 を推定 • 1. 独立成分は互いに独立(音源は多くの場合独立) • 2. 混合行列は可逆で時不変(優決定,音源やマイクは移動しない) – 分離信号の順番(パーミュテーション)は決定できない 逆行列 実際の混合は残響による畳み込み混合である 7
ICAに基づくBSSの耐残響性の向上 8 • 周波数領域ICA(FDICA)[Smaragdis, 1998] … … … Frequency – 各周波数ビンの複素時系列に対して独立なICAを適用 スペクトログラム ICA1 ICA2 ICA3 ICA 周波数領域の時不変 Time 瞬時混合行列 各周波数における パーミュテーション行列 逆行列
FDICAで生じるパーミュテーション問題 9 • 周波数領域独立成分分析(FDICA)におけるパーミュ テーション問題 パーミュテーション 不整合信号1 音源1 観測1 ICA 音源2 分離信号1 パーミュテーション 不整合信号2 Permutation 分離信号2 Solver 観測2 全て時間周波数 領域の信号 Time 各周波数では音源分離されているが,分離信号の順序が周波数間 で不揃いになっている状態(パーミュテーション問題)
パーミュテーション問題を回避する手法 • 独立ベクトル分析(IVA) パーミュテーション問題 を避ける手法 – 各信号源は全周波数成分の 強弱が同期すると仮定 独立ベクトル分析 (IVA) [Hiroe, 2006], [Kim+, 2006] • 独立低ランク行列分析(ILRMA) 補助関数IVA(AuxIVA) – 各信号源は時間周波数構造が 低ランクな構造(繰り返しを多分 に含む)を持つと仮定 [Kitamura+, 2016] ILRMAの音源モデル e n ho p o icr M Frequency Frequency [Ono, 2011] 独立低ランク行列分析(ILRMA) IVAの音源モデル Time 10 Time ne o ph o i cr M
深層パーミュテーション解決法(DPS)の動機 11 • 音源ごとの時間周波数構造の違い Vocals Drums Guitar – 音源モデルが音源に適していない場合,IVAやILRMAのBSS の精度は低下 – さまざまな音源に適応する万能な音源モデルの作成は困難 • パーミュテーション問題の解決のみをDNNを用いて実装 – さまざまな音源に適応するモデルを作成できる可能性あり DPS [Yamaji+, 2020] が提案される(2音源のみ適用可能)
本発表の目次 • 従来手法 – 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー ミュテーション問題 – パーミュテーションを回避する手法 – 従来の深層パーミュテーション解決法(DPS) • 提案DPS – 概要とパーミュテーション行列の推定方法 – 推定分離信号の作成と損失の計上 – テストデータに対する処理 • 実験 – 提案DPSの性能を調査するための実験 – FDICAの分離誤差に対する実験 • まとめ 12
提案深層パーミュテション解決法(DPS) 13 • パーミュテーション行列をDNNを用いて予測 推定する 2音源のパーミュテーション行列 パーミュテーション 不整合信号 完全分離信号
前処理 • パーミュテーション不整合信号 14 に対して正規化処理 正規化 FDICA 変形 DNN 並び替え Frequency Frequency Frequency Frequency 正規化 Time Time Time Time
15 DNNの構造 • DNNは入力層,BiLSTM層3層,出力層の計5層で構成 正規化 FDICA DNN 変形 並び替え 正規化 LSTM LSTM LSTM LSTM LSTM LSTM Product LSTM Freq.-wise dense layer Product LSTM LSTM 周波数ビン単位の全結合層 Product LSTM Product LSTM Product Frequency LSTM Product 3層のBiLSTM層 Three BiLSTM layers Softmax Softmax Softmax
推定パーミュテーション行列の導出 • DNNの出力を用いてパーミュテーション行列 16 を作成 正規化 FDICA DNN 変形 並び替え 正規化 Frequency Frequency 推定パーミュテーション 行列へ変換 0.9 0.1 0.0 0.9 0.1 0.5 1.0 0.1 0.9 1.0 0.1 0.9 0.5 0.0
局所時間推定分離信号の導出 17 • 行列積を用いて推定分離信号を作成 正規化 FDICA DNN 変形 並び替え 正規化 行列積 パーミュテーション 不整合信号 推定分離信号
損失の導出方法 18 • 損失関数の設計 – 推定分離信号と完全分離信号との間で平均二乗誤差(mean squared error: MSE)を導入 Frequency MSE & PIT Frequency Frequency Frequency – 分離信号の順序は予測の対象としないため,順序不変学習 (permutation invariant training: PIT)[Yu+, 2017] を導入 Time Time Time Time
本発表の目次 • 従来手法 – 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー ミュテーション問題 – パーミュテーションを回避する手法 – 従来の深層パーミュテーション解決法(DPS) • 提案DPS – 概要とパーミュテーション行列の推定方法 – 推定分離信号の作成と損失の計上 – テストデータに対する処理 • 実験 – 提案DPSの性能を調査するための実験 – FDICAの分離誤差に対する実験 • まとめ 19
実験条件 20 • 本実験の目的 – 提案DPSの性能を調査する(クリーンな信号を使用) • 比較手法 – 局所時間に基づくDPS [Yamaji+, 2020] – 提案DPS • 評価指標 – 信号対歪み比(source-to-distortion ratio: SDR)[Vincent+, 2006] • 実験データ – SiSEC2011より男女の音声及びドラムとギターの音楽信号 音響の種類 音声 音楽 音響信号 ファイル名 信号長 [s] 男性 女性 ドラム ギター dev2_male4_inst_src_2 dev3_female4_inst_src_2 dev1_wdrums_src_3 dev1_wdrums_src_2 10.0 10.0 11.0 11.0
実験条件 21 • 学習データ – 音声信号及び音楽信号の時間周波数信号を周波数ビン単位 でランダムにシャッフルしたデータ – シャッフルパターンは150 • テストデータ – 学習データとは重複しない10パターン を用いてランダムに入れ替えたデータ ランダムに シャッフル ランダムに シャッフル ランダムに シャッフル • 2つのモデル作成 – 音声モデル:男女の音声信号(2種類)を用いて作成 – 音楽モデル:ギターとドラムの音楽信号(2種類)を用いて作成 • 2種類のテスト条件:in-domainとout-of-domain – In-domain: 学習データとテストデータの音源が同じ – Out-of-domain: 学習データとテストデータの音源が異なる
実験条件 22 • テスト条件:in-domain 音 声 DNN 学習 • テスト条件:out-of-domain 音 声 音声で評価 学習データと重複しない パーミュテーションパターン DNN 学習 音楽で評価
実験結果(in-domainデータセット) 23 • どちらの条件においても,提案DPSのSDRの改善が従 来DPSを上回った 音声信号のin-domainに対するSDR値 [dB] テストデータ 観測信号 従来DPS パターン 1 2 3 4 5 6 7 8 9 10 -6.25 -6.85 -5.40 -6.45 -6.60 -6.45 -6.35 -5.50 -5.85 -5.55 3.60 4.65 3.60 3.55 4.70 4.65 3.60 4.65 3.60 4.65 提案DPS 44.5 44.5 44.5 44.5 44.5 44.5 44.5 44.5 44.5 44.5 音楽信号のin-domainに対するSDR値 [dB] テストデータ 観測信号 従来手法 パターン 1 2 3 4 5 6 7 8 9 10 -0.95 2.00 0.55 1.25 -1.00 -1.00 -0.85 -0.15 0.60 -0.35 2.95 2.95 2.95 2.95 2.95 2.95 2.95 2.95 2.95 2.95 提案DPS 64.75 64.75 155.00 64.75 66.65 61.15 66.65 64.75 64.75 61.15
実験結果(out-of-domainデータセット) 24 • 音楽信号のout-of-domainに対して提案DPSはSDRの 改善が見られた • 音声信号のout-of-domainに対して提案DPSでSDR値 の改善は見られたものの従来DPSが優勢 音楽信号のout-of-domainに 対するSDR値 [dB] 音声信号のout-of-domainに 対するSDR値 [dB] テストデータ 観測信号 従来DPS パターン 1 2 3 4 5 6 7 8 9 10 -0.95 2.00 0.55 1.25 -1.00 -1.00 -0.85 -0.15 0.60 -0.35 5.05 5.05 5.05 11.35 11.35 11.35 11.35 5.05 5.05 5.05 提案DPS 3.35 1.75 3.35 3.35 3.35 3.35 3.35 3.35 3.35 1.75 テストデータ 観測信号 従来DPS パターン 1 2 3 4 5 6 7 8 9 10 -6.25 -6.85 -5.40 -6.45 -6.60 -6.45 -6.35 -5.50 -5.85 -5.55 -8.00 -5.85 -7.20 -7.60 -7.40 -7.25 -1.40 -7.65 -6.40 -7.90 提案DPS 33.55 22.85 33.85 23.50 22.00 24.05 23.60 26.65 25.15 24.05
本発表の目次 • 従来手法 – 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー ミュテーション問題 – パーミュテーションを回避する手法 – 従来の深層パーミュテーション解決法(DPS) • 提案DPS – 概要とパーミュテーション行列の推定方法 – 推定分離信号の作成と損失の計上 – テストデータに対する処理 • 実験 – 提案DPSの性能を調査するための実験 – FDICAの分離誤差に対する実験 • まとめ 25
26 FDICAにおける分離誤差 Frequency Frequency Frequency Frequency • 実際のFDICAの出力は推定誤差を含む Time Time Time DPSにおいて仮定した パーミュテーション不整合信号 Time 実際のFDICAの出力 DPSでは,FDICAの推定誤差の影響で分離精度が低下 FDICAの推定誤差を考慮した学習データの作成が必要
27 FDICAの推定誤差を考慮した学習データ を用いて模倣 1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.92 0.92 0.92 0.92 0.92 0.92 0.92 0.98 0.98 0.98 0.98 0.98 0.98 0.98 Frequency Frequency • FDICAの推定誤差量を行列 1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.92 0.92 0.92 0.92 0.92 0.92 0.92 0.98 0.98 0.98 0.98 0.98 0.98 0.98 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 Time 0.80 0.80 0.80 0.80 0.80 0.80 0.80 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.08 0.08 0.08 0.08 0.08 0.08 0.08 0.02 0.02 0.02 0.02 0.02 0.02 0.02 Frequency FDICAにおける推定誤差量の 相対的な割合を表す行列 Frequency Time 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.08 0.08 0.08 0.08 0.08 0.08 0.08 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.10 0.10 0.10 0.10 0.10 0.10 0.10 Time 0.20 0.20 0.20 0.20 0.20 0.20 0.20 Frequency 0.20 0.20 0.20 0.20 0.20 0.20 0.20 Frequency Time 0.80 0.80 0.80 0.80 0.80 0.80 0.80 Time Time 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.20 0.20 0.20 0.20 0.20 0.20 0.20 周波数毎に成分を 入れ替える Frequency 0.02 0.02 0.02 0.02 0.02 0.02 0.02 Time Frequency 0.08 0.08 0.08 0.08 0.08 0.08 0.08 Time
実験条件 • 比較手法 – パーミュテーション解決法(PS)を用いないFDICA(PS: none) – 音源の到来方向情報(DOA)によるPSを用いたFDICA(PS: DOA)[Saruwatari+, 2006] – 提案DPSを用いたFDICA(PS: DPS) – 独立ベクトル分析(IVA)[Ono, 2011] – 理想的なPS(IPS)を用いたFDICA(PS: IPS) • FDICAに基づくBSSの上限性能 • 評価指標 – SDR(Source-to-distortion ratio)[Vincent+, 2006] 28
実験条件 29 • 学習データ – SiSEC2011より,ドラムとギターの11秒程度の2種類の 音楽信号のみ使用 • テストデータ – JVSコーパスより男女の100セット分の音声信号を使用 – 部屋の生成条件は学習データと同一 11秒程度の 音楽信号 DNN 学習 音声で評価
実験結果 30 • FDICAの分離誤差を含んだ信号に対してもある程度 パーミュテーション問題を解決できている 真の分離信号を用いる パーミュテーション解決法 (参考値)
まとめ 31 • 目的 – さまざまな音源に適応可能なPSの構築 – 省サンプルデータで汎用性が高いモデルの作成 • 提案手法 – 周波数方向再帰に基づくDPSを提案 • 結果 – ワンショットの音楽信号で学習したモデルが,良好な精度で音 声信号のパーミュテーション問題を解決できた • 研究業績 – – – – – 蓮池郁也, 北村大地, 渡辺瑠伊, 川口翔也, "周波数双方向再帰に基づく深層パーミュテーション解決法," 電子情報通信学会 第37回信号処理 シンポジウム, pp. 308–313, 2022. Fumiya Hasuike, Daichi Kitamura, and Rui Watanabe, "DNN-based frequency-domain permutation solver for multichannel audio source separation," in Proc. APSIPA ASC, pp. 872–877, 2022. 蓮池郁也, 北村大地, 渡辺瑠伊, "深層パーミュテーション解決法の汎化性能に関する実験的評価," 日本音響学会 2022 年秋季研究発表会講 演論文集, 1-Q-28, pp. 351–354, 2022. 蓮池郁也, 渡辺瑠伊, 北村大地, "深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討," 電子情報通信学会 技術研究 報告, EA2022-13, vol. 122, no. 20, pp. 62–67, 2022. 蓮池郁也, 北村大地, "深層パーミュテーション解決法に基づくブラインド音源分離の性能評価," 日本音響学会 2024 年秋季研究発表会講演論 文集, 1-R-25, pp. 235–238, 2024.