1.6K Views
October 02, 23
スライド概要
綾野翔馬, 北村大地, 矢田部浩平, "時間微分スペクトログラムを用いたブラインド音源分離," 令和5年度電気・電子・情報関係学会四国支部連合大会講演論文集, p. 95, 高松, 2023年9月(査読無).
北村研究室の学内・対外発表の発表スライドをまとめています.
令和5年度電気・電子・情報関係学会四国支部連合大会 計測Ⅰ 7-4 2023/09/23 14:40~14:50 時間微分スペクトログラムを用いた ブラインド音源分離 Blind Audio Source Separation Using Time Differential of Spectrograms 綾野翔馬(香川高専) 北村大地(香川高専) 矢田部浩平(東京農工大)
研究の背景 • ブラインド音源分離(blind source separation: BSS) – 複数の音源が混ざり合った信号から各音源の信号を推定 – 各音源の信号や複数音源の混ざり合い方は未知 • マイクの配置や音源位置等の事前情報が不明=ブラインド 音源信号(未知) ? ? • BSS手法の例 観測した混合信号 推定した音源信号 ? 混合系 (未知) 分離系 (推定) – 周波数領域ICA(FDICA)[P. Smaragdis+, 1998] – 独立ベクトル分析(IVA)[A. Hiroe+, 2006] – 独立低ランク行列分析(ILRMA)[D. Kitamura+, 2017] いずれの手法も複素スペクトログラムを分離するが 個々の音源の振幅スペクトログラムの仮定を用いている 2
短時間フーリエ変換(STFT) • 一定の時間毎に信号を切り出し,窓関数をかけて フーリエ変換を行う • 時間的に変化するスペクトルを表現できる 時間周波数領域 周波数 時間領域 時間信号 時間 窓関数 シフト長 ・・・ 離散 フーリエ 変換 複素スペクトログラム 複素数要素を持つ行列 振幅スペクトログラム 非負( 以上)の実数要素の行列 位相スペクトログラム フーリエ変換長(窓長) 以上 未満の範囲の実数要素の行列 3
研究の動機 • 振幅スペクトログラム • 位相スペクトログラム には音源の構造が現れやすい には音源の構造が現れにくい 4
研究の動機 • IVAやILRMAは音源モデルをもとに分離を行う – 音源モデルは振幅スペクトログラムをもとに考えられている – 混合された位相スペクトログラムを分離することは困難 ドラム音源とギター音源の 混合音源 振幅スペクトログラム には 混合前の各音源の 特徴がみられる 位相スペクトログラム には 混合前の各音源の 特徴は見られない 5
研究の目的 • 位相に構造が現れるスペクトログラムが提案されている – 修正位相スペクトログラムと呼ばれている [K. Yatabe and Y. Oikawa, 2018] – 通常のスペクトログラムの位相を回転することで得られる 6
研究の目的 • 従来のBSS 音源信号 混合信号 混合 スペクトログラム 分離 スペクトログラム 分離信号 振幅スペクトログラム 基づいたモデル に 7
研究の目的 • 位相情報を考慮したBSS 音源信号 混合信号 振幅スペクトログラム 混合 および スペクトログラム 位相スペクトログラム 基づくモデル に 混合修正位相 スペクトログラム 位 相 回 転 分離信号 位 相 逆 回 転 分離修正位相 スペクトログラム 分離 スペクトログラム 8
研究の目的 • 位相情報を考慮したBSSの問題点 分離修正位相 スペクトログラム 分離 スペクトログラム 分離信号 位相逆回転 位相逆回転 時間微分 分離後の信号が必要 分離後の時間微分 複素スペクトログラムを 直接計算する方法を検討 9
時間微分複素スペクトログラム • 時間微分複素スペクトログラムについて実験を行う – 時間微分複素スペクトログラムを求める方法 • 窓関数の時間微分を信号に乗じたものにSTFTに-1を乗じることで 時間微分複素スペクトログラムを得ることができる • 窓関数の時間微分は解析的に計算可能である • 複素スペクトログラムの時間微分が分離できるかを調査 時間微分複素スペクトログラムの導出 ハン窓とその時間微分 10
時間微分複素スペクトログラムのBSS • 従来のBSS(再掲) 音源信号 混合信号 混合 スペクトログラム 分離 スペクトログラム 分離信号 振幅スペクトログラム 基づいたモデル に 11
時間微分複素スペクトログラムのBSS • 本研究で行う時間微分複素スペクトログラムのBSS 音源信号 混合信号 混合時間微分 スペクトログラム 分離時間微分 スペクトログラム を用いる 分離信号 逆変換において制約あり 12
時間微分複素スペクトログラムの逆変換 • 時間微分複素スペクトログラムから時間信号への変換 – どの程度分離できているかを確認するために必須 – 逆STFTを用いて計算 – 但しSTFTのシフト長によっては逆変換が不可能 • 周期的に信号の情報が失われるため シフト 窓関数 すべての点が どのフレームにも 含まれていない点 含まれる • シフト長を調整することで回避可能 – 例:窓長の1/4,窓長の1/8など 13
実験条件 • 音楽10音源・音声10音源の20音源に対し,以下の条件 で分離性能を計算・比較 項目 分離アルゴリズム サンプリング周波数 窓関数 窓長 シフト長 反復回数 分離性能の指標 条件 補助関数型反復ソースステアリング法IVA 16 kHz ハン窓 (複素スペクトログラム) 微分ハン窓 (時間微分複素スペクトログラム) 512点 (32ms) 1024点 (64 ms) 2048点 (128 ms) 4096点 (256 ms) 8192点 (512 ms) 窓長の1/4 (128点, 256点,512点, 1024点, 2048点) 100回 信号対歪み比(SDR) 14
実験結果 • IVAを用いて分離されたスペクトログラムのSDR 15
実験結果 • BSSを用いて時間微分複素スペクトログラムを分離可能 – 十分な精度で分離された時間微分複素スペクトログラムを 得ることができた 16
まとめ • 目的 – 位相を考慮したBSSの実現 • 修正位相スペクトログラムをBSSに導入する方法を検討 • 分離後信号の時間微分複素スペクトログラムが必要になる • 実験内容 – 時間微分複素スペクトログラムをBSS手法を用いて分離 • 逆変換可能なシフト長を用いる必要がある • 実験結果 – 既存のBSS手法を用いて時間微分複素スペクトログラムを 分離することができる • 複素スペクトログラムを用いた場合と比較して高い分離性能を得ること はできなかったが,同等の分離性能を得られた 17