単一話者の発話区間率とブラインド音源分離性能の関係の調査

596 Views

March 10, 24

スライド概要

鈴木慶,"単一話者の発話区間率とブラインド音源分離性能の関係の調査,"香川高等専門学校電気情報工学科卒業研究論文, 31 pages, 2024年2月.

Kitamura Laboratory

@8262029599

スライド一覧

北村研究室の学内・対外発表の発表スライドをまとめています．

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

Audio spotforming using nonnegative tensor factorization with attractor-based regularization

Kitamura Laboratory 1.8K

時間微分スペクトログラムを用いたブラインド音源分離

Kitamura Laboratory 1.8K

正則化非負値行列因子分解による非負低ランク行列補完

Kitamura Laboratory 1.2K

深層学習を用いた単一話者発話区間検出

Kitamura Laboratory 861

深層パーミュテーション解決法に基づくブラインド音源分離

Kitamura Laboratory 497

深層学習に基づく音響特徴量からの振幅スペクトログラム予測とその評価

Kitamura Laboratory 448

各ページのテキスト

令和6年度電気情報工学科卒業研究発表会 2024/02/29 単一話者の発話区間率とブラインド音源分離の性能の関係の調査 Analysis of relationship between activity ratio of single speaker and blind source separation performance 香川高専電気情報工学科北村研究室 5年鈴木慶

2 研究の背景 • ブラインド音源分離（blind source separation: BSS） – 複数の音源が混ざり合った信号から各音源の信号を推定 – 各音源の信号や複数音源の混ざり合い方は未知 • マイクの配置や音源位置等の事前情報が不明＝ブラインド音源信号（未知）推定した音源信号観測した混合信号 ? ? • BSS手法の例混合系（未知）分離系（推定） – 周波数領域ICA（FDICA）[Smaragdis+, 1998] – 独立ベクトル分析（IVA）[Hiroe+, 2006]，[Kim, 2016]， [Kim, 2017] – 独立低ランク行列分析（ILRMA）[D. Kitamura+, 2017] 現在のBSSではIVA及びILRMAが広く研究されている

BSSにおける音源モデルの仮定 • 時間周波数信号として扱う • 短時間フーリエ変換（short time Fourier transform: STFT）で実現時間周波数領域周波数時間領域・・・時間 DFT シフト長フーリエ変換長（窓長）時間的に変化するスペクトルを表現 3

BSSにおける混合・分離モデルの仮定 • 混合・分離モデル推定音源観測信号元の音源信号 A 混合モデル分離モデル 4

BSSにおける混合・分離モデルの仮定 • 混合・分離モデル推定音源観測信号 A 混合モデル分離モデル 5

IVAとILRMAの概要 • 音源モデルの仮定 – 時間周波数構造のパワースペクトログラムとして扱う • IVA – 各音源は全周波数成分の強弱が同期すると仮定 • ILRMA – 各音源は時間周波数構造が低ランクな構造を持つと仮定 6

IVAの性能向上の条件 • フレーム単位排他的直交性（flame-level W-disjoint orthogonality：F-WDO）[J. Gu+, 2023] – 各信号源が時間フレーム単位で排他的 – 同時に発音している時間フレームが存在しない混合音源がF-WDOに近いほどIVAの分離性能は向上 7

8 IVAの性能向上の条件 • F-WDOに近い音源の方が分離精度が高いことを証明 – 先行研究では2つの音声信号の時間的位置をずらして実験高分離精度低

実験の目的 • 「F-WDOに近いほど音源分離の性能が高い」という性質の検証 • IVA：先行研究への追試 – 異なる実験条件で調査 • ILRMA： IVAと同様の結果が現れるか調査 – IVAとILRMAは根本的な音源モデルの原理が同じ • 原理1：各音源が統計的に独立している • 原理2: 個々の音源は非ガウス分布とである ILRMAもIVAと同様の結果が得られると予想 9

10.

混合信号におけるF-WDOへの近さ • 単一話者発話区間率（active ratio of single speaker: ARSS） – 混合信号の全体長に対する単一話者発話区間の占める割合観測信号時間長単一話者発話区間単一話者発話区間単一話者発話区間 ARSS [%] ＝ + 単一話者発話区間時間長 ARSS100%の場合，F-WDOと同義 10

11.

11 実験条件[1/2] • 音源データの構成 – データサンプル: JVS corpus parallel 100 [Takamichi+,2019] – 「女性・女性ペア」，「男性・男性ペア」 • 「女性・男性ペア」は分離難易度が同性ペアと比べて低いため除外 – 性別に対し5種類のペア – ペアに対し10~90%のARSS – ARSSに対し25パターンの音声 Female pairs ・・・ Pair 5 ・・・・・・ Male pairs ARSS 10% Pair 1 ARSS 90% 25 patterns

12.

実験条件[2/2] 12 • 録音環境 – E2Aを用いる – 2音源のインパルス応答による畳み込みシミュレーションを行う • 残響時間Ｔ６０＝300ms • 到来角度 50° • マイク間隔 5.66cm – 2つの音源の到来方向，距離がそれぞれ等しい – 観測した混合信号は IVA，ILRMAで分離し精度を比較

13.

13 実験結果[1/2] • IVA 分離精度とARSSには正の相関があるがある程度の ARSSで飽和している F-WDO：遠 F-WDO：近

14.

14 実験結果[2/2] • ILRMA 精度がある程度の ARSSまで横ばい F-WDO：遠 F-WDO：近

15.

考察 • 「F-WDOに近いほど音源分離性能が高い」特徴の検証 – IVAは先行研究と同様の結果が得られた • 一部予想に反した結果 – ILRMAではIVAと同様の結果が得られなかった • 予想に反した結果 • 疑問点 – １．IVAの精度が飽和している原因 – ２．ILRMAにおいてIVAと同様の結果が得られなかった原因数値計算の不安定性が原因であると予想 15

16.

16 考察 • IVAの数値計算不安定性 – F-WDOに近いほど顕著にあらわれる IVA内部の更新式 2.この行列がほぼランク1となる 1.F-WDOだとある一か所の値がかなり0に近くなる 3.ランクがほぼ1なので逆行列をとるとおかしな値が出力される

17.

17 考察 • ILRMAの数値計算不安定性 – F-WDOに近いほど顕著にあらわれる – IVAよりも不安定性が大きい 1.F-WDOだとある一か所の値がかなり0に近くなる ILRMA内部の更新式 2.この行列がほぼランク1となる 3.ランクがほぼ1なので逆行列をとるとおかしな値が出力される

18.

18 まとめ • 「F-WDOに近いほど音源分離性能が高い」特徴の検証 – IVA：先行研究と同様の結果が得られた – ILRMA: IVAと同様の結果が得られなかった • 原因として数値計算不安定性が予想される（現時点で詳細は不明） • 数値計算不安定性が小さければ右肩上がりのグラフが得られたのではないか不安定性：小不安定性：大 • 今後の課題 – １．予想に反した結果の原因が数値計算不安定性であるかの検証 – ２．F-WDOを用いたIVAにおける改善案の開発