イラストで学ぶ音声認識 改訂第2版 7. 統計的音声認識:音響モデル

>100 Views

June 05, 25

スライド概要

profile-image

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

イラストで学ぶ音声認識 改訂第2版 7. 統計的音声認識:音響モデル 7.1 音響モデルの単位 7.2 隠れマルコフモデルとは 7.3 隠れマルコフモデルの確率計算 7.4 状態系列の推定 7.5 パラメータの学習 7.6 高度な音響モデル 1

2.

7.1 音響モデルの単位 音響モデル 特 徴 ベ ク ト ル 系 列 単 語 列 の条件部 単語列(=文) 可能な文が列挙できる小さなタスクでは有効 数万語の語彙が必要なディクテーションでは,可能な文の数は膨大にな るので,実質的にモデル化は不可能 単語 新しい単語がタスクに追加されるごとに,モデルを作成しなければなら ない 音素 単語辞書を音素系列で記述することで,大語彙に対応可能 前後の音素情報を組み込んだトライフォンで音素をモデル化 2

3.

7.2 隠れマルコフモデルとは 音響モデルのためのオートマトンの構造 各状態で確率的にベクトルを出力し,確率的に状態遷移を行うムーア型オー トマトン 状態遷移が一方向に限定されている left-to-right 型の構造をもつマルコフモデ ルと解釈できる 3

4.

7.2 隠れマルコフモデルとは -「隠れ」マルコフモデル どの状態からどのベクトルが出力されたかという情報が隠れている 特徴ベクトルがど の状態から出力さ れたかは確定でき ないので,隠れて いることになりま す. 4

5.

7.3 隠れマルコフモデルの確率計算 系列の出力確率 例)図7.4において , 状態遷移 の場合 すべての可能な状態遷移について求め,和を計算 トレリス計算による効率化(前向きアルゴリズム) 時刻 ,状態 における前向き確率 を,入力の時間単位で順次計算 はHMMの状態数 5

6.

7.3 隠れマルコフモデルの確率計算 6

7.

7.4 状態系列の推定 ビタビアルゴリズム 前向きアルゴリズムにおける 系列の和の計算を,最大値演 算に置き換える 最大値を与えた経路を保存し ておき,最終状態から逆にた どることで,最も確率の高い 経路が得られる 7

8.

7.5 パラメータの学習 状態遷移系列が既知の場合のパラメータ推定 単純な最尤推定 8

9.

7.5 パラメータの学習 状態遷移系列の確率が既知の場合のパラメータ推定 それぞれの最尤推定結果を重み付きでたし合わせる 0.67 0.5 0.5 0.33 + 0.67 学習後の HMM 0.5 0.33 0.5 9

10.

7.5 パラメータの学習 状態遷移系列が未知の場合のパラメータ推定 EMアルゴリズムでパラメータをデータの分布に適合させる 7 10

11.

7.6 高度な音響モデル 混合分布の学習 各音素の特徴ベクトルは,一つの正規分布で近似できるほど単純ではない 例)男女差,方言,... 複雑な確率密度関数を複数の正規分布の重み付き和で表現 → 混合分布 : 番目の正規分布, : 番目の分布の重み, : 混合数 重みはEMアルゴリズムで学習 この方法を GMM-HMM (Gaussian Mixture Model-HMM) と呼ぶ 11

12.

7.6 高度な音響モデル 識別的学習 音素を区別するときの誤りを最小化するようにパラメータを学習 DNN-HMM (Deep Neural Network-HMM) の学習を識別的に行う方法 HMMの各状態で特徴ベクトルを出力する確率 を とする にベイズの定理を適用 は状態遷移に無関係なので定数とし, をDNNで学習 は別途最尤推定 12

13.

7.6 高度な音響モデル DNN-HMM 式 (7.6) に基づき を計算 を出力 メル帯域化・対数化を行った音声特徴 (前後数フレームの特徴を含 む) 13