>100 Views
September 15, 24
スライド概要
綾野翔馬, 李莉, 関翔悟, 北村大地,"非負値テンソル因子分解に基づく分散マイクアレイを用いたスポットフォーミング,"日本音響学会 2024年春季研究発表会講演論文集, 1-R-14, pp. 137–140, 東京, 2024年3月(査読無).
北村研究室の学内・対外発表の発表スライドをまとめています.
日本音響学会第152回研究発表会 1-11-6 13:00 ~ 13:15 基底自動分配のための正則化を用いた 非負値テンソル因子分解に基づく スポットフォーミング 綾野翔馬 (香川高専) 李莉 (サイバーエージェント) 関翔悟 (サイバーエージェント) 北村大地 (香川高専)
2 研究背景 • 目的話者抽出 – 観測信号から目的話者の音源のみを抽出 干渉話者 目的話者 抽出 目的話者 干渉話者 • 応用例 – 音声認識 – 補聴器
3 研究背景 • ビームフォーミング (Beamforming: BF) – 任意の方角より到来する音源を強調 • (分散マイクロホンアレイを用いた) スポットフォーミング – 任意の領域より到来する音源を強調 ビームフォーミング スポットフォーミング 干渉音源 干渉音源 干渉音源 干渉音源 干渉音源 目的領域 目的方位 マイクアレイ マイクアレイ マイクアレイ
4 従来手法: モデル化 • 考えるケース – それぞれのマイクアレイは目的方位のみを抽出 • 同一方位上に存在する目的音源と干渉音源の両方を含む – すべてのBF出力に現れる成分は 目的音源に対応 干渉音源2 固有成分 (干渉音源) 干渉音源1 BF 共通成分 (目的音源) 目的音源 マイクアレイ1 マイクアレイ2 BF出力1 BF出力2
5 従来手法: 概要 • 複数マイクロアレイを 用いたNMFに基づく スポットフォーミング BF BF [Kagimoto+, 2022] 時間方向に結合 NMF マスキング Wiener フィルタ Wiener フィルタ 遅延和処理
6 従来手法: 概要 • 複数マイクロアレイを 用いたNMFに基づく スポットフォーミング BF BF [Kagimoto+, 2022] 干渉音源2 時間方向に結合 干渉音源1 NMF BF 目的音源 マイクアレイ1 マイクアレイ2 マスキング BF出力1 全てのマイクアレイに BFを適用 BF出力2 Wiener フィルタ Wiener フィルタ 遅延和処理
7 従来手法: 概要 • 複数マイクロアレイを 用いたNMFに基づく スポットフォーミング BF BF [Kagimoto+, 2022] 時間方向に結合 NMF 共通成分 (目的音源) マスキング BF出力1 BF出力2 共通成分を推定 Wiener フィルタ Wiener フィルタ 遅延和処理
8 従来手法: 概要 • 複数マイクロアレイを 用いたNMFに基づく スポットフォーミング BF BF [Kagimoto+, 2022] 時間方向に結合 NMF マスキング 後処理を行い 目的音源を更に強調 Wiener フィルタ Wiener フィルタ 遅延和処理
9 従来手法: NMF • BF出力を結合し,NMFを適用 BF BF 時間方向に結合 共通成分 (目的音源) NMF マスキング Wiener フィルタ Wiener フィルタ 遅延和処理 BF出力1 BF出力2
10 従来手法: NMF • BF出力を結合し,NMFを適用 BF 出力2 BF NMF入力 BF 出力1 BF 時間方向に結合 NMF 結合 マスキング Wiener フィルタ Wiener フィルタ 遅延和処理 NMF入力 基底行列 係数行列
従来手法: バイナリマスキング 11 • バイナリマスク生成 係数行列 BF BF 時間方向に結合 NMF マスキング Wiener フィルタ マイク アレイ1 各アレイに対応する ように分割 マイク アレイ2 による二値化により 生起している係数 のみを抽出 Wiener フィルタ 遅延和処理 論理積を取ることで 各アレイの共通成分が 共起している部分を抽出
12 従来手法: 後処理 • 後処理 BF出力1に対するWienerフィルタ BF BF 時間方向に結合 アダマール積 NMF マスキング Wiener フィルタ BF出力2に対するWienerフィルタ Wiener フィルタ 遅延和処理 更に強調を行うため 遅延和を適用
13 提案手法: 動機 • モデル解釈性の不足 – スペクトログラムの時間方向への 結合は物理的な解釈性を欠く BF 出力2 BF 時間方向に結合 非負値テンソル 因子分解 NTF NMF NMF入力 BF 出力1 BF マスキング 結合 • 非負値テンソル因子分解 (nonnegative tensor factorization: NTF)を導入 – 更に,より識別的な分類を行う ためのアトラクタ正則化を導入 Wiener フィルタ Wiener フィルタ 遅延和処理
提案手法: 分解モデル 14 • BF出力にNTFを適用 – BF出力 (3階テンソル) を基底行列,係数行列, および分配行列の3つの非負行列に分解 – 分配行列は各基底ベクトルを対応するBF出力に分配する BF 出力2 分配行列 基底行列 係数行列 BF 出力1 3階テンソル 両方のBF出力 と に分配 共通成分 (目的音源)
提案手法: 分解モデル 15 • BF出力にNTFを適用 – BF出力 (3階テンソル) を基底行列,係数行列, および分配行列の3つの非負行列に分解 – 分配行列は各基底ベクトルを対応するBF出力に分配する BF 出力2 分配行列 基底行列 係数行列 BF 出力1 3階テンソル 片方のBF出力 のみに分配 固有成分 (干渉音源)
提案手法: 分解モデル 16 • BF出力にNTFを適用 – BF出力 (3階テンソル) を基底行列,係数行列, および分配行列の3つの非負行列に分解 – 分配行列は各基底ベクトルを対応するBF出力に分配する BF 出力2 分配行列 基底行列 係数行列 BF 出力1 を , 3階テンソル , のいずれかに 片方のBF出力 両方のBF出力 と のみに分配 に分配 共通成分 (干渉音源) 固有成分 (目的音源) 近づける正則化を導入
17 提案手法: 分解モデル • BF出力にNTFを適用 – BF出力 (3階テンソル) を基底行列,係数行列, および分配行列の3つの非負行列に分解 – 分配行列は各基底ベクトルを対応するBF出力に分配する BF 出力2 分配行列 基底行列 係数行列 誤差を 最小化 BF 出力1 最も近い ハード分配行列 3階テンソル 近くなるように 正則化
18 提案手法: 正則化 • アトラクタ正則化 – , , および をアトラクタベクトルと定義 – 各アトラクタベクトルは以下のような基底を示す • および • : 共通成分 (目的音源) 固有成分 アトラクタ ベクトル : 固有成分 (干渉音源) 共通成分 アトラクタ ベクトル 正則化なし 固有成分 アトラクタ ベクトル 固有成分 アトラクタ ベクトル 共通成分 アトラクタ ベクトル 固有成分 アトラクタ ベクトル 正則化あり – 正則化は各基底を固有成分や共通成分により近づけるように はたらく 識別的な基底学習が可能
19 提案手法: 定式化 • 最適化問題 データフィッティング項 アトラクタ正則化項 – アトラクタ正則化項 : KL擬距離 • 適応的に最も近いアトラクタ基底を探し,誤差を計算 • 上界最小化アルゴリズムによって求解 [Hunter+, 2000] – 反復更新式を得る (通常のNMFと同様)
20 実験条件 • Pyroomacousticsを用いた実験 [Scheibler+, 2018] 部屋A 部屋B 干渉音源1 干渉音源2 干渉音源1 マイク アレイ3 目的音源 マイク アレイ1 マイク アレイ2 目的音源 マイク アレイ2 干渉音源2 干渉音源3 マイク アレイ2 残響時間T60: 256 ms
21 実験条件 • 他の条件 BF BF 時間方向に結合 非負値テンソル 因子分解 NTF NMF 条件 値 サンプリング周波数 16 kHz BFアルゴリズム 最小分散無歪ビームフォーマ (MVDR ビームフォーマ) 窓長 32 ms シフト長 16 ms 分配行列Zの初期値 全ての列ベクトルを 共通成分アトラクタベクトル に設定 基底行列Tと係数行列Vの初期値 区間 (0, 1) の一様分布から 生成された疑似乱数 反復更新回数 100 回 ハイパーパラメータ 𝜏 = 0.0025 / 0.005 / 0.01 最初の50反復は𝜇 = 0 最後の50反復は𝜇 = 10000 評価スコア Source-to-distortion ratio (SDR) マスキング Wiener フィルタ Wiener フィルタ 遅延和処理
実験結果 • 部屋A (2マイクアレイ) 22 部屋A 干渉音源2 干渉音源1 – 残響あり (T60 = 256 ms) 目的音源 マイク アレイ1 マイク アレイ2
実験結果 • 部屋A (2マイクアレイ) , – 残響なし (T60 = 0 ms) – 残響あり (T60 = 256 ms) 23
実験結果 • 部屋B (3マイクアレイ) – 残響あり (T60 = 256 ms) 24 部屋B 干渉音源1 マイク アレイ3 マイク アレイ2 目的音源 干渉音源2 干渉音源3 マイク アレイ2
部屋B 実験結果 25 干渉音源1 マイク アレイ3 マイク アレイ2 • 分配行列の挙動 目的音源 – 部屋B (3マイクアレイ) 干渉音源2 干渉音源3 マイク アレイ2 干渉 音源 目的 音源 干渉 音源 干渉 音源
部屋B 実験結果 26 干渉音源1 マイク アレイ3 マイク アレイ2 • 分配行列の挙動 目的音源 – 部屋B (3マイクアレイ) 干渉音源2 干渉音源3 マイク アレイ2 干渉 音源 目的 音源 干渉 音源 干渉 音源
部屋B 実験結果 27 干渉音源1 マイク アレイ3 マイク アレイ2 • 分配行列の挙動 目的音源 – 部屋B (3マイクアレイ) 干渉音源2 干渉音源3 マイク アレイ2 干渉 音源 目的 音源 干渉 音源 干渉 音源
部屋B 実験結果 28 干渉音源1 マイク アレイ3 マイク アレイ2 • 分配行列の挙動 目的音源 – 部屋B (3マイクアレイ) 干渉音源2 干渉音源3 マイク アレイ2 干渉 音源 目的 音源 干渉 音源 干渉 音源
部屋B 実験結果 29 干渉音源1 マイク アレイ3 マイク アレイ2 • 分配行列の挙動 目的音源 – 部屋B (3マイクアレイ) 干渉音源2 干渉音源3 マイク アレイ2 干渉 音源 目的 音源 干渉 音源 干渉 音源
部屋B 実験結果 30 干渉音源1 マイク アレイ3 マイク アレイ2 • 分配行列の挙動 目的音源 – 部屋B (3マイクアレイ) 干渉音源2 干渉音源3 マイク アレイ2 干渉 音源 目的 音源 干渉 音源 干渉 音源
まとめ • 本発表の概要 – NTFを用いた新しいスポットフォーミング手法を提案 • 提案手法の利点 – NTFによる分解モデルは高い解釈可能性を持つ • 正則化の導入など,容易にモデルを応用可能 – アトラクタ正則化は自動的に基底ベクトルを 目的音源および干渉音源に割り当て, 識別的な分解を促進 • 実験 – 従来手法と比較して高い性能を実現 – ハイパーパラメータに対して頑健な性能 • 容易にハイパーパラメータの調整が可能 31