イラストで学ぶ音声認識 11章

566 Views

August 26, 23

#音声認識 #WFST #音響モデル #発音辞書 #言語モデル

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.2K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 3.1K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.2K

プログラミング〈新〉作法 3. プログラムが動く仕組み

プログラミング

荒木雅弘 2.1K

各ページのテキスト

11. 音声の認識：WFST による音声認識 11.1 11.2 11.3 11.4 11.5 WFSTによる音声認識の概要音響モデルをWFST に変換する発音辞書をWFST に変換する言語モデルをWFST に変換する WFST の探索 • 荒木雅弘 :『イラストで学ぶ音声認識』（講談社, 2015年） • サポートページ

https://masahiroaraki.github.io/GuideToASR/

11.1 WFSTによる音声認識の概要

11.2 音響モデルをWFST に変換する • HMMをWFSTに変換 HMMは入力を持たない • すべての特徴ベクトルを現す記号 x を入力として導入 b(x|Si) の値が認識時までわからないので、事前に合成ができない

11.2 音響モデルをWFST に変換する • WFSTの分離認識前に重みが得られる（＝合成可能）認識時に重みを計算し、合成後のWFSTの重みと組み合わせる

11.3 発音辞書をWFST に変換する • 発音辞書 • 単語表記と発音の関係は、単純に列挙すれば良いので、正規表現で記述可能 • 実際は、音素列と単語列との対応の曖昧性を除去するために、各単語の最後にユニークな識別記号を付ける

11.4 言語モデルをWFST に変換する • 言語モデルとして文法を用いた場合 • 通常は正規言語なので、そのままWFSTで表現可能 • N-グラムの場合 • N-1個の単語列を状態とし、N-グラム確率を重みとすることでWFSTで表現可能

11.4 言語モデルをWFST に変換する • バックオフへの対応 • バックオフ状態を設ける

11.5 WFST の探索 • 合成・最適化後のWFSTをビタビアルゴリズムでビームサーチ

イラストで学ぶ音声認識 11章

荒木 雅弘

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

プログラミング〈新〉作法 2. C言語からはじめよう

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

プログラミング〈新〉作法 1. はじめに

プログラミング〈新〉作法 3. プログラムが動く仕組み

各ページのテキスト

荒木雅弘