【Pythonで学ぶ音声認識】第6章：DNN-HMMによる音声認識（6.3,6.5節）

757 Views

December 01, 23

#音声認識 #DNN-HMM #ハイブリッドシステム #N-gramモデル #WFST

スライド概要

Pythonで学ぶ音声認識の輪読会第7回の発表スライドです。
2023年11月30日(木) 18:30～

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 31.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 24.3K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 20.5K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 15.8K

【物体検出】DINO

京都大学人工知能研究会KaiRA 14.6K

各ページのテキスト

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association Pythonで学ぶ音声認識第6章3,5節 DHH-HMMと大語彙連続音声認識京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 宮前明生 0

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 第6章3節DNN-HMMハイブリッドシステム 1

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association タンデムシステムとハイブリッドシステムタンデムシステム • DNNの隠れ層出力を特徴量とする • GNNのために出力とする層のノードは少なくする DNN-GMM-HMM タンデムシステム GMM-HMM DNNの隠れ層出力を新たな特徴量として GMM-HMMで学習/認識 DNN 音声特徴量ハイブリッドシステム • DNNの出力をGMM-HMMの各状態の確率とする • DNNの出力のノード数は全音素の全状態の数となる • 現在の主流となっている DNN-HMM ハイブリッドシステム DNNの出力を GMMの出力確率の代わりに用いる音声特徴量 2

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association ハイブリッドシステムスプライシング(DNNの入力) splice=2 次元数D フレームn 1 2 3 4 5 6 7 次元数 (2*splice+1)D 1 2 3 2 3 4 3 4 5 4 5 6 5 6 7 • DNNの入力を前後のフレームを次元方向につなぎ合わせた画像とする • spliceは前後の何フレームを結合するのかということ • 各次元で平均0、分散1になるように正規化処理をする 3

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association ハイブリッドシステム学習と音声認識学習 • 出力をソフトマックス関数、正解ラベルをone-hotベクトルとしてクロスエントロピー損失関数を用いる音声認識 • HMMの出力は尤度P(x(n)|s)で定義される(s は音素の状態) • 尤度P(x(n)|s)はDNNの出力である事後確率 P(s|x(n))を用いてベイズの定理から求まる • P(x(n))は一様確率 • P(s)は音素の各状態の頻度 • 尤度からビタビアルゴリズムを用いる P(x(n)|s_j^p) = P(s_j^p|x(n))P(x(n)) P(s_j^p) ≈ P(s_j^p|x(n)) P(s_j^p) 4

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 第6章5節大語彙連続音声認識 5

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association nグラムモデル • 単語の出現確率は直前のN-1個の単語から求まるとした言語モデル • 単語列に対する確率は以下のように表せる M-1 P(w) ≈ Π P(wm|wm-N+1,...,wm-1) m=0 • 学習データにない単語列の確率が0になる(ゼロ頻度問題) →n-1グラムモデルから推定する(バックオフ平滑化) n=3 <sos> <sos> 今日はいい天気 <eos> P(今日, は, いい, 天気) ≈ P(今日 | < sos >, < sos >)P( は | < sos >, 今日 ) P( いい | 今日, は ) · P( 天気 | は, いい ) P( < eos > | いい, 天気 ) 6

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 重み付き有限状態トランスデューサ(WFST) • WFSTは入力が与えられると状態を遷移しながら出力をするモデル • WFSTはHMM、発音辞書、言語モデルを個別に作っておき、あとで合成する • 最適パスを探索するモジュールをデコーダと呼ぶ HMMを表すWFST 入力:出力 a0:ε a1:ε a2:ε i0:i i1:e i2:e u0:u u1:e u2:e ε:ε 発音辞書を表すWFST e:ε N:ε k:ε t:天気 i:いい h:ひだい言語モデルを表すWFST いい:いいひどい:ひどい天気:天気合成 i0:いい h0:ひどい t0:天気 7

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 8