深層学習を用いた単一話者発話区間検出

272 Views

March 10, 24

スライド概要

加藤大輝,"深層学習を用いた単一話者発話区間検出,"香川高等専門学校電気情報工学科 卒業研究論文, 58 pages, 2024年2月.

profile-image

北村研究室の学内・対外発表の発表スライドをまとめています.

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

香川高専 電気情報工学科 卒業研究最終発表会 セッション:2024/2/29 9:00~9:15 深層学習を用いた 単一話者発話区間検出 Single voice activity detection using deep learning 5年 加藤大輝(北村研究室)

2.

研究の背景 • ブラインド音源分離(blind source separation: BSS) – 複数の音源が混ざり合った信号から各音源の信号を推定 音声信号(未知) 混合系 (未知) 観測した混合信号 推定した音声信号 分離系 (推定) • 代表的なBSSの手法 – 独立成分分析(ICA)[Comon+,1991] – 独立ベクトル分析(IVA)[Kim+,2007] – 独立低ランク行列分析(ILRMA)[Kitamura+,2016] 補助的な情報があればBSSの性能向上に活かせる 2

3.

研究の背景 • 音声発話検出(voice activity detection: VAD)[Srinivasan+,1993] – 音声信号に対して「発話区間」と「非発話区間」を判別 振幅 発話区間 0.4 0.2 0.0 ー0.2 ー0.4 0 10 非発話区間 発話区間 30 時間 [s] 20 非発話区間 40 50 60 • 話者ダイアライゼージョン(speaker diarization)[Park+, 2022] – 音声信号に対してVADに加えて「話者ごとの発話区間」も判別 話者 A 振幅 話者 A 0.4 0.2 0.0 ー0.2 ー0.4 0 10 20 話者 B 30 時間 [s] 話者 B 40 50 60 3

4.

研究の動機 • IVAの特徴 – 観測信号に一人のみが発話している時間区間(単一話者発話区 間)が多いほど高い精度での話者分離が可能[Jun+, 2023] 音声信号(未知) 推定した音声信号 観測した混合信号 分離系 IVA 時間 [s] 時間 [s] 単一話者発話区間 の検出と結合 時間 [s] 4

5.

研究の動機 • IVAの特徴 – 観測信号に一人のみが発話している時間区間(単一話者発話区 間)が多いほど高い精度での話者分離が可能[Jun+, 2023] 音声信号(未知) 時間 [s] 観測した混合信号 時間 [s] 単一話者発話区間 の検出と結合 推定した音声信号 分離系 IVA 時間 [s] 補助的な情報により高精度な分離ができる 5

6.

提案手法 • 単一話者発話検出(single voice activity detection: SVAD) – 深層学習を用いて混合信号から単一話者発話区間を推定 音声信号 (話者 A) 音声信号 (話者 B) 混合音声信号 (話者 A & 話者 B) 単一話者発話区間 単一話者発話区間 単一話者発話区間 6

7.

提案手法 • SVADと類似研究の相違点 VAD – VADでは単一話者発話区間 の推定が不可能 – SVADはVADより複雑だが ダイアライゼーションより 簡単な問題で高精度に 単一話者発話区間を検出できる – ダイアライゼーションはVADや SVADより難易度の高い予測 が求められる 発話区間 非発話区間 易 SVAD 単一話者発話区間 単一話者発話区間 ダイアライゼーション 話者 A 話者 B 難 7

8.

混合音声信号の作成(1/2) • 音声データセット – Japanese versatile speech (JVS) corpus [Takamichi+, 2019] • 混合音声作成方法 – JVS corpusから音声データ (同じ人間の発話を 個) 用意する ・・・ – 音声データを足し合わせる 時にお互い重なり合わない ように時間遅れ を与える 8

9.

混合音声信号の作成(1/2) • 音声データセット – Japanese versatile speech (JVS) corpus [Takamichi+, 2019] • 混合音声作成方法 – JVS corpusから音声データ (同じ人間の発話を 個) 用意する ・・・ – 音声データを足し合わせる 時にお互い重なり合わない ように時間遅れ を与える 9

10.

混合音声信号の作成(2/2) • 混合音声作成方法 – この信号を足し合わせて 観測音声信号 を作成 する ・・・ – 同様に観測音声信号 を作成する – 最後に作成した観測信号 及び の要素和を取り 混合音声信号 を作成す る 10

11.

混合音声信号の作成(2/2) • 混合音声作成方法 – この信号を足し合わせて 観測音声信号 を作成 する – 同様に観測音声信号 を作成する – 最後に作成した観測信号 及び の要素和を取り 混合音声信号 を作成す る 11

12.

ラベルの作成(1/2) • ラベルの定義 – 提案法のSVADでは単一話者発話区間のみ知りたい • 単一話者発話区間 • その他(複数話者や環境音) :1のラベル :0のラベル • ラベルを求める手順 – 各話者の音声データから時間サンプルごとのラベル判別 ラベル 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ラベル 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 混合 音声 ラベル 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 12

13.

ラベルの作成(2/2) • 混合前音声データのラベルを求める – 単一話者区間判別用の振幅閾値を設定(発話/雑音の判別) 推定信号の絶対値 時間 [s] 振幅閾値 ラベル 0 0 1 1 0 1 1 1 1 0 1 1 1 1 0 0 0 0 0 0 0 1 0 1 1 1 1 1 1 1 0 1 0 0 0 0 – ラベルの時間閾値を設定(非発話区間の無音区間判別) • 時間閾値 • 時間閾値 =0.5秒未満の時間区間は発話中の無音声区間とみなす =0.5秒以上の時間区間は非発話区間とみなす 時間閾値 時間 [s] 0 0 1 1 1 0 1 1 1 1 1 0 1 1 1 1 0 0 0 0 0 0 0 1 10 1 1 1 1 1 1 1 10 以上 未満 未満 以上 未満 1 0 0 0 0 未満 以上 13

14.

混合音声信号,ラベルの作成結果 ラベル 音声信号 1 0 1 ラベル 音声信号 0 1 ラベル 混合音声 0 0 2 4 6 時間 [s] 8 10 12 14

15.

データの前処理 • 音声データを振幅スペクトログラムに変換 • ラベルの多数決処理を行う(ラベル閾値 =50%) ・・・ 混合音声 シフト長 (0.5フレーム) ・・・ 離散 フーリエ 変換 フレーム長(窓長) ラベル 時間周波数領域 周波数 時間領域 時間 ラベル 0000011 011 0011111 多数決処理 (ラベル閾値1) ・・・ 1111100 15

16.

ネットワークの構造 • 時系列データの効率的学習のため双方向長・短期記憶 (BiLSTM)を用いる • 予測とラベルの交差エントロピー誤差(BCELoss)最小化 Softmax 全結合層 Product 順方向LSTMユニット 逆方向LSTMユニット Concatenate 順方向LSTMユニット 逆方向LSTMユニット Concatenate 順方向LSTMユニット 逆方向LSTMユニット ・・・ ・・・ 入力ベクトル 3層のBiLSTM層 単一話者発話確率 (予測) 0.8 0.7 0.6 0.2 0.1 0.9 0.1 0.1 BCELoss ラベル 1 1 1 0 0 1 0 0 16

17.

実験結果 学習データと検証データの損失 1.0 損失 0.8 約30% Training 0.6 Validation 約0.5% 0.4 0.2 0.0 0 5 10 15 20 25 30 エポック数 学習データと検証データの正解率 1.0 正解率 0.8 Training 0.6 約100% Validation 0.4 約90% Training 0.2 0.0 0 5 10 15 エポック数 20 25 30 17

18.

実験結果 • テストデータにおける予測結果とラベルの一例 – 殆どの時間区間で予測が正確(正解率:90.176%) – 1秒程度の短い沈黙区間の予測が不正確 – 単一話者発話区間の予測開始,終了点が数百 msずれている 予測 ラベル 0.4 振幅 0.2 0.2 0.0 -0.2 -0.4 0 0.0 0 10 混合音声信号 20 予測 10 30 時間 [s] ラベル 40 50 60 18

19.

実験結果 • テストデータにおける予測結果とラベルの一例 – 殆どの時間区間で予測が正確(正解率:90.176%) – 1秒程度の短い沈黙区間の予測が不正確 – 単一話者発話区間の予測開始,終了点が数百 msずれている 予測 ラベル 0.4 振幅 0.2 0.2 0.0 -0.2 -0.4 0 0.0 20 10 混合音声信号 20 予測 30 時間 [s] ラベル 40 50 60 19

20.

実験結果 • ラベル閾値を変えたときのテストデータの正解率の推移 ラベル ラベル 0 0 0 0 0 1 1 多数決処理 (ラベル閾値1) 01 ・・・ 0011111 20

21.

実験結果 • ラベル閾値を変えたときのテストデータの正解率の推移 0.92 0.91 正解率 0.90 0.89 0.88 0.87 0.86 0.85 0 12.21 24.41 36.62 48.83 ラベル閾値 61.04 [%] 73.24 85.45 97.66 – ラベル閾値の値を変化させると正解率も変化する • ラベル閾値50%未満:予測結果にほとんど変化なし • ラベル閾値50%以上:予測開始,終了点のずれが大きくなる 21

22.

まとめ • 目的 – 深層学習によるSVADの実現 • IVAの分離精度向上のための単一話者発話区間の推定 • 深層学習に用いる教師データと混合音声信号の作成 混合音声信号 (話者 A & 話者 B) 単一話者発話区間 単一話者発話区間 単一話者発話区間 22

23.

まとめ • 目的 – 深層学習によるSVADの実現 • IVAの分離精度向上のための単一話者発話区間の推定 • 深層学習に用いる教師データと混合音声信号の作成 • 実験内容 – BiLSTMを用いて単一話者発話区間の予測を行う – ラベル閾値 の値を変化させ,予測を行う(結果の影響確認) • 実験結果 – 約90%の精度で単一話者発話区間の予測ができる – ラベル閾値 の値を大きくするほど精度は落ちる 23