深層学習を用いた単一話者発話区間検出

1.1K Views

March 10, 24

#深層学習 #音声処理 #音源分離 #単一話者発話区間検出 #BiLSTM

スライド概要

加藤大輝,"深層学習を用いた単一話者発話区間検出,"香川高等専門学校電気情報工学科卒業研究論文, 58 pages, 2024年2月.

Kitamura Laboratory

@8262029599

スライド一覧

北村研究室の学内・対外発表の発表スライドをまとめています．

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

時間微分スペクトログラムを用いたブラインド音源分離

Kitamura Laboratory 2K

Audio spotforming using nonnegative tensor factorization with attractor-based regularization

Kitamura Laboratory 1.9K

正則化非負値行列因子分解による非負低ランク行列補完

Kitamura Laboratory 1.4K

ディリクレ分布に基づく正則化付き非負値行列因子分解と打楽器スペクトル表現への適用

Kitamura Laboratory 1K

深層パーミュテーション解決法に基づくブラインド音源分離

Kitamura Laboratory 827

深層学習に基づく音響特徴量からの振幅スペクトログラム予測とその評価

Kitamura Laboratory 642

各ページのテキスト

香川高専電気情報工学科卒業研究最終発表会セッション：2024/2/29 9:00~9:15 深層学習を用いた単一話者発話区間検出 Single voice activity detection using deep learning 5年加藤大輝（北村研究室）

研究の背景 • ブラインド音源分離（blind source separation: BSS） – 複数の音源が混ざり合った信号から各音源の信号を推定音声信号（未知）混合系（未知）観測した混合信号推定した音声信号分離系（推定） • 代表的なBSSの手法 – 独立成分分析（ICA）[Comon+,1991] – 独立ベクトル分析（IVA）[Kim+,2007] – 独立低ランク行列分析（ILRMA）[Kitamura+,2016] 補助的な情報があればBSSの性能向上に活かせる 2

研究の背景 • 音声発話検出（voice activity detection: VAD）[Srinivasan+,1993] – 音声信号に対して「発話区間」と「非発話区間」を判別振幅発話区間 0.4 0.2 0.0 ｰ0.2 ｰ0.4 0 10 非発話区間発話区間 30 時間 [s] 20 非発話区間 40 50 60 • 話者ダイアライゼージョン（speaker diarization）[Park+, 2022] – 音声信号に対してVADに加えて「話者ごとの発話区間」も判別話者 A 振幅話者 A 0.4 0.2 0.0 ｰ0.2 ｰ0.4 0 10 20 話者 B 30 時間 [s] 話者 B 40 50 60 3

研究の動機 • IVAの特徴 – 観測信号に一人のみが発話している時間区間（単一話者発話区間）が多いほど高い精度での話者分離が可能[Jun+, 2023] 音声信号（未知）推定した音声信号観測した混合信号分離系 IVA 時間 [s] 時間 [s] 単一話者発話区間の検出と結合時間 [s] 4

研究の動機 • IVAの特徴 – 観測信号に一人のみが発話している時間区間（単一話者発話区間）が多いほど高い精度での話者分離が可能[Jun+, 2023] 音声信号（未知）時間 [s] 観測した混合信号時間 [s] 単一話者発話区間の検出と結合推定した音声信号分離系 IVA 時間 [s] 補助的な情報により高精度な分離ができる 5

提案手法 • 単一話者発話検出（single voice activity detection: SVAD） – 深層学習を用いて混合信号から単一話者発話区間を推定音声信号 (話者 A) 音声信号 (話者 B) 混合音声信号 (話者 A & 話者 B) 単一話者発話区間単一話者発話区間単一話者発話区間 6

提案手法 • SVADと類似研究の相違点 VAD – VADでは単一話者発話区間の推定が不可能 – SVADはVADより複雑だがダイアライゼーションより簡単な問題で高精度に単一話者発話区間を検出できる – ダイアライゼーションはVADや SVADより難易度の高い予測が求められる発話区間非発話区間易 SVAD 単一話者発話区間単一話者発話区間ダイアライゼーション話者 A 話者 B 難 7

混合音声信号の作成（1/2） • 音声データセット – Japanese versatile speech (JVS) corpus [Takamichi+, 2019] • 混合音声作成方法 – JVS corpusから音声データ（同じ人間の発話を個）用意する・・・ – 音声データを足し合わせる時にお互い重なり合わないように時間遅れを与える 8

10.

混合音声信号の作成（2/2） • 混合音声作成方法 – この信号を足し合わせて観測音声信号を作成する・・・ – 同様に観測音声信号を作成する – 最後に作成した観測信号及びの要素和を取り混合音声信号を作成する 10

11.

混合音声信号の作成（2/2） • 混合音声作成方法 – この信号を足し合わせて観測音声信号を作成する – 同様に観測音声信号を作成する – 最後に作成した観測信号及びの要素和を取り混合音声信号を作成する 11

12.

ラベルの作成（1/2） • ラベルの定義 – 提案法のSVADでは単一話者発話区間のみ知りたい • 単一話者発話区間 • その他（複数話者や環境音）：1のラベル：0のラベル • ラベルを求める手順 – 各話者の音声データから時間サンプルごとのラベル判別ラベル 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ラベル 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 混合音声ラベル 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 12

13.

ラベルの作成（2/2） • 混合前音声データのラベルを求める – 単一話者区間判別用の振幅閾値を設定（発話/雑音の判別）推定信号の絶対値時間 [s] 振幅閾値ラベル 0 0 1 1 0 1 1 1 1 0 1 1 1 1 0 0 0 0 0 0 0 1 0 1 1 1 1 1 1 1 0 1 0 0 0 0 – ラベルの時間閾値を設定（非発話区間の無音区間判別） • 時間閾値 • 時間閾値＝0.5秒未満の時間区間は発話中の無音声区間とみなす＝0.5秒以上の時間区間は非発話区間とみなす時間閾値時間 [s] 0 0 1 1 1 0 1 1 1 1 1 0 1 1 1 1 0 0 0 0 0 0 0 1 10 1 1 1 1 1 1 1 10 以上未満未満以上未満 1 0 0 0 0 未満以上 13

14.

混合音声信号，ラベルの作成結果ラベル音声信号 1 0 1 ラベル音声信号 0 1 ラベル混合音声 0 0 2 4 6 時間 [s] 8 10 12 14

15.

データの前処理 • 音声データを振幅スペクトログラムに変換 • ラベルの多数決処理を行う（ラベル閾値＝50%）・・・混合音声シフト長（0.5フレーム）・・・離散フーリエ変換フレーム長（窓長）ラベル時間周波数領域周波数時間領域時間ラベル 0000011 011 0011111 多数決処理（ラベル閾値１）・・・ 1111100 15

16.

ネットワークの構造 • 時系列データの効率的学習のため双方向長・短期記憶（BiLSTM）を用いる • 予測とラベルの交差エントロピー誤差（BCELoss）最小化 Softmax 全結合層 Product 順方向LSTMユニット逆方向LSTMユニット Concatenate 順方向LSTMユニット逆方向LSTMユニット Concatenate 順方向LSTMユニット逆方向LSTMユニット・・・・・・入力ベクトル 3層のBiLSTM層単一話者発話確率（予測） 0.8 0.7 0.6 0.2 0.1 0.9 0.1 0.1 BCELoss ラベル 1 1 1 0 0 1 0 0 16

17.

実験結果学習データと検証データの損失 1.0 損失 0.8 約30% Training 0.6 Validation 約0.5% 0.4 0.2 0.0 0 5 10 15 20 25 30 エポック数学習データと検証データの正解率 1.0 正解率 0.8 Training 0.6 約100% Validation 0.4 約90% Training 0.2 0.0 0 5 10 15 エポック数 20 25 30 17

18.

実験結果 • テストデータにおける予測結果とラベルの一例 – 殆どの時間区間で予測が正確（正解率:90.176%） – 1秒程度の短い沈黙区間の予測が不正確 – 単一話者発話区間の予測開始，終了点が数百 msずれている予測ラベル 0.4 振幅 0.2 0.2 0.0 -0.2 -0.4 0 0.0 0 10 混合音声信号 20 予測 10 30 時間 [s] ラベル 40 50 60 18

19.

実験結果 • テストデータにおける予測結果とラベルの一例 – 殆どの時間区間で予測が正確（正解率:90.176%） – 1秒程度の短い沈黙区間の予測が不正確 – 単一話者発話区間の予測開始，終了点が数百 msずれている予測ラベル 0.4 振幅 0.2 0.2 0.0 -0.2 -0.4 0 0.0 20 10 混合音声信号 20 予測 30 時間 [s] ラベル 40 50 60 19

20.

実験結果 • ラベル閾値を変えたときのテストデータの正解率の推移ラベルラベル 0 0 0 0 0 1 1 多数決処理（ラベル閾値１） 01 ・・・ 0011111 20

21.

実験結果 • ラベル閾値を変えたときのテストデータの正解率の推移 0.92 0.91 正解率 0.90 0.89 0.88 0.87 0.86 0.85 0 12.21 24.41 36.62 48.83 ラベル閾値 61.04 [%] 73.24 85.45 97.66 – ラベル閾値の値を変化させると正解率も変化する • ラベル閾値50%未満：予測結果にほとんど変化なし • ラベル閾値50%以上：予測開始，終了点のずれが大きくなる 21

22.

まとめ • 目的 – 深層学習によるSVADの実現 • IVAの分離精度向上のための単一話者発話区間の推定 • 深層学習に用いる教師データと混合音声信号の作成混合音声信号 (話者 A & 話者 B) 単一話者発話区間単一話者発話区間単一話者発話区間 22

23.

まとめ • 目的 – 深層学習によるSVADの実現 • IVAの分離精度向上のための単一話者発話区間の推定 • 深層学習に用いる教師データと混合音声信号の作成 • 実験内容 – BiLSTMを用いて単一話者発話区間の予測を行う – ラベル閾値の値を変化させ，予測を行う（結果の影響確認） • 実験結果 – 約90%の精度で単一話者発話区間の予測ができる – ラベル閾値の値を大きくするほど精度は落ちる 23