739 Views
December 01, 23
スライド概要
Pythonで学ぶ音声認識の輪読会第7回の発表スライドです。
2023年11月30日(木) 18:30~
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association Pythonで学ぶ音声認識第6章3,5節 DHH-HMMと大語彙連続音声認識 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 宮前明生 0
京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 第6章3節DNN-HMMハイブリッドシステム 1
京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association タンデムシステムとハイブリッドシステム タンデムシステム • DNNの隠れ層出力を特徴量と する • GNNのために出力とする層の ノードは少なくする DNN-GMM-HMM タンデムシステム GMM-HMM DNNの隠れ層出力を 新たな特徴量として GMM-HMMで学習/認識 DNN 音声特徴量 ハイブリッドシステム • DNNの出力をGMM-HMMの各 状態の確率とする • DNNの出力のノード数は全音 素の全状態の数となる • 現在の主流となっている DNN-HMM ハイブリッドシステム DNNの出力を GMMの出力確率の 代わりに用いる 音声特徴量 2
京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association ハイブリッドシステム スプライシング(DNNの入力) splice=2 次元数D フレームn 1 2 3 4 5 6 7 次元数 (2*splice+1)D 1 2 3 2 3 4 3 4 5 4 5 6 5 6 7 • DNNの入力を前後のフレームを次元 方向につなぎ合わせた画像とする • spliceは前後の何フレームを結合す るのかということ • 各次元で平均0、分散1になるように 正規化処理をする 3
京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association ハイブリッドシステム 学習と音声認識 学習 • 出力をソフトマックス関数、正解ラベルをone-hotベクトル としてクロスエントロピー損失関数を用いる 音声認識 • HMMの出力は尤度P(x(n)|s)で定義される(s は音素の状態) • 尤度P(x(n)|s)はDNNの出力である事後確率 P(s|x(n))を用いてベイズの定理から求まる • P(x(n))は一様確率 • P(s)は音素の各状態の頻度 • 尤度からビタビアルゴリズム を用いる P(x(n)|s_j^p) = P(s_j^p|x(n))P(x(n)) P(s_j^p) ≈ P(s_j^p|x(n)) P(s_j^p) 4
京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 第6章5節大語彙連続音声認識 5
京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association nグラムモデル • 単語の出現確率は直前のN-1個の単語から求まるとした言語モデル • 単語列に対する確率は以下のように表せる M-1 P(w) ≈ Π P(wm|wm-N+1,...,wm-1) m=0 • 学習データにない単語列の確率が0になる(ゼロ頻度問題) →n-1グラムモデルから推定する(バックオフ平滑化) n=3 <sos> <sos> 今日 は いい 天気 <eos> P(今日, は, いい, 天気) ≈ P(今日 | < sos >, < sos >)P( は | < sos >, 今日 ) P( いい | 今日, は ) · P( 天気 | は, いい ) P( < eos > | いい, 天気 ) 6
京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 重み付き有限状態トランスデューサ(WFST) • WFSTは入力が与えられると状態を遷移しながら出力をするモデル • WFSTはHMM、発音辞書、言語モデルを個別に作っておき、あとで合成す る • 最適パスを探索するモジュールをデコーダと呼ぶ HMMを表すWFST 入力:出力 a0:ε a1:ε a2:ε i0:i i1:e i2:e u0:u u1:e u2:e ε:ε 発音辞書を表すWFST e:ε N:ε k:ε t:天気 i:いい h:ひだい 言語モデルを表すWFST いい:いい ひどい:ひどい 天気:天気 合成 i0:いい h0:ひどい t0:天気 7
京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 8