イラストで学ぶ音声認識 改訂第2版 9. 統計的音声認識:探索

>100 Views

June 05, 25

スライド概要

profile-image

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

イラストで学ぶ音声認識 改訂第2版 9. 統計的音声認識:探索 9.1 音響モデルと言語モデルのギャップ を埋める 9.2 状態空間の探索 9.3 WFST による音声認識 1

2.

9.1 音響モデルと言語モデルのギャップを埋める 音響モデルと言語モデルのギャップ 音響モデル:音素単位(トライフォン) 言語モデル:単語単位(文法 or N-グラム) -発音辞書 音素列 と単語 との対応 ある表記に対して複数の読みがある場合は,確率を 事後確率の計算式の見直し と表現 2

3.

9.2 状態空間の探索 探索の必要性 大語彙連続音声認識において,すべての について, の値を求めるのは不可能 音声の先頭から,スコアの高い候補に絞って,接続可能な展開をおこなう探 索処理が必要 探索の効率化・高精度化の工夫 木構造化辞書 ビームサーチ マルチパス探索 3

4.

9.2 状態空間の探索 音声認識における探索のイメージ 4

5.

9.2 状態空間の探索 木構造化辞書で候補の展開数を 削減 単語単位で展開すると,候 補は単語数個広がる 単語間で先頭から共通する 音素をまとめ,木構造にす ると,展開数は音素数個 5

6.

9.2 状態空間の探索 ビームサーチで絞り込んで探索 の実時間化 フレーム同期探索方式 HMMのトレリス空間 において,1フレーム ごとにスコアを計算 ビームサーチ 1フレーム単位で,残 す探索候補の数を一定 幅に制限 6

7.

9.2 状態空間の探索 マルチパス探索の目的 事後確率最大となる単語列(最適解)を求めたい (単純な)ビームサーチの問題点 全体としては最適となる解が,途中のスコアの低さでビーム幅から外れてし まう可能性がある マルチパス探索によって最適化を求める 未探索部分のスコアをヒューリスティックスにより見積もって,最適解をビ ーム幅の中にとどめる ヒューリスティックスは,探索に先立って高速な処理によって求める 7

8.

9.2 状態空間の探索 Julius の A* 探索 8

9.

9.3 WFST による音声認識 WFSTによるデコードのアイディア 確率モデルのWFSTへの変換 音声認識に用いる確率モデル(HMM,単語辞書,言語モデル)はWFST で表現可能 WFSTの合成 記号列Aを記号列Bに変換するWFST1と,記号列Bを記号列Cに変換する WFST2を合成すると,記号列Aを記号列Cに変換するWFSTになる 最適化 WFSTには,FSAと同様,決定化・最小化のアルゴリズムが存在する 9

10.

9.3 WFST による音声認識 WFSTによる音声認識の概要 特徴ベクトル系 列 特徴ベクトル系列 10

11.

9.3 WFST による音声認識 音響モデルをWFST に変換する HMMをWFSTに変換 音素HMM HMMから変換された WFST 11

12.

9.3 WFST による音声認識 音響モデルをWFST に変換する 連続値を入力とできるようにWFSTを分離 12

13.

9.3 WFST による音声認識 発音辞書をWFST に変換する 単語表記と発音の関係は,単純に列挙すれば良いので,正規表現で記述可能 実際は,音素列と単語列との対応の曖昧性を除去するために,各単語の最後 にユニークな識別記号を付ける 13

14.

9.3 WFST による音声認識 言語モデルをWFST に変換する 言語モデルとして文法を用いた場合 正規言語と見なせる場合が多いで,そのままWFSTで表現可能 N-グラムの場合 長さ の単語列を状態,N-グラム確率を重みとすることでWFSTで 表現可能 14

15.

9.3 WFST による音声認識 WFST の合成 確率の掛け算を足し算に置換 - 確率の足し算を最大値処理に置換 半環による演算整合性の保証 トロピカル半環による抽象的演算 半環の名前 集合 加法 乗法 単位元(加法) 単位元(乗法) 確率 トロピカル 15

16.

9.3 WFST による音声認識 WFST の合成 16

17.

9.3 WFST による音声認識 WFST の探索 合成後の WFST に対して重 み移動と最小化処理を行う ビタビアルゴリズムでビー ムサーチ 17