【Pythonで学ぶ音声認識】第6章:DNN-HMMによる音声認識(6.3,6.5節)

739 Views

December 01, 23

スライド概要

Pythonで学ぶ音声認識の輪読会第7回の発表スライドです。
2023年11月30日(木) 18:30~

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association Pythonで学ぶ音声認識第6章3,5節 DHH-HMMと大語彙連続音声認識 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 宮前明生 0

2.

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 第6章3節DNN-HMMハイブリッドシステム 1

3.

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association タンデムシステムとハイブリッドシステム タンデムシステム • DNNの隠れ層出力を特徴量と する • GNNのために出力とする層の ノードは少なくする DNN-GMM-HMM タンデムシステム GMM-HMM DNNの隠れ層出力を 新たな特徴量として GMM-HMMで学習/認識 DNN 音声特徴量 ハイブリッドシステム • DNNの出力をGMM-HMMの各 状態の確率とする • DNNの出力のノード数は全音 素の全状態の数となる • 現在の主流となっている DNN-HMM ハイブリッドシステム DNNの出力を GMMの出力確率の 代わりに用いる 音声特徴量 2

4.

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association ハイブリッドシステム スプライシング(DNNの入力) splice=2 次元数D フレームn 1 2 3 4 5 6 7 次元数 (2*splice+1)D 1 2 3 2 3 4 3 4 5 4 5 6 5 6 7 • DNNの入力を前後のフレームを次元 方向につなぎ合わせた画像とする • spliceは前後の何フレームを結合す るのかということ • 各次元で平均0、分散1になるように 正規化処理をする 3

5.

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association ハイブリッドシステム 学習と音声認識 学習 • 出力をソフトマックス関数、正解ラベルをone-hotベクトル としてクロスエントロピー損失関数を用いる 音声認識 • HMMの出力は尤度P(x(n)|s)で定義される(s は音素の状態) • 尤度P(x(n)|s)はDNNの出力である事後確率 P(s|x(n))を用いてベイズの定理から求まる • P(x(n))は一様確率 • P(s)は音素の各状態の頻度 • 尤度からビタビアルゴリズム を用いる P(x(n)|s_j^p) = P(s_j^p|x(n))P(x(n)) P(s_j^p) ≈ P(s_j^p|x(n)) P(s_j^p) 4

6.

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 第6章5節大語彙連続音声認識 5

7.

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association nグラムモデル • 単語の出現確率は直前のN-1個の単語から求まるとした言語モデル • 単語列に対する確率は以下のように表せる M-1 P(w) ≈ Π P(wm|wm-N+1,...,wm-1) m=0 • 学習データにない単語列の確率が0になる(ゼロ頻度問題) →n-1グラムモデルから推定する(バックオフ平滑化) n=3 <sos> <sos> 今日 は いい 天気 <eos> P(今日, は, いい, 天気) ≈ P(今日 | < sos >, < sos >)P( は | < sos >, 今日 ) P( いい | 今日, は ) · P( 天気 | は, いい ) P( < eos > | いい, 天気 ) 6

8.

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 重み付き有限状態トランスデューサ(WFST) • WFSTは入力が与えられると状態を遷移しながら出力をするモデル • WFSTはHMM、発音辞書、言語モデルを個別に作っておき、あとで合成す る • 最適パスを探索するモジュールをデコーダと呼ぶ HMMを表すWFST 入力:出力 a0:ε a1:ε a2:ε i0:i i1:e i2:e u0:u u1:e u2:e ε:ε 発音辞書を表すWFST e:ε N:ε k:ε t:天気 i:いい h:ひだい 言語モデルを表すWFST いい:いい ひどい:ひどい 天気:天気 合成 i0:いい h0:ひどい t0:天気 7

9.

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 8