イラストで学ぶ音声認識 7章

203 Views

August 26, 23

#音声認識 #音響モデル #深層学習 #識別的学習 #話者適応

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 507.3kB)

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.1K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 3K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.1K

プログラミング〈新〉作法 3. プログラムが動く仕組み

プログラミング

荒木雅弘 2K

各ページのテキスト

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習 • 荒木雅弘 :『イラストで学ぶ音声認識』（講談社, 2015年） • サポートページ

https://masahiroaraki.github.io/GuideToASR/

7.1 実際の音響モデル • 混合分布の学習 • 各音素の特徴ベクトルは、一つの正規分布で近似できるほど単純ではない例）男女差、方言、... • 複雑な確率密度関数を複数の正規分布の重み付き和で表現 → 混合分布 Φi : i 番目の正規分布 wi : i 番目の正規分布の重み N : 混合数 • 重みはEMアルゴリズムで学習

7.1 実際の音響モデル • 話者適応 • 不特定話者用音響モデルのパラメータを、少数の特定話者データを用いて調整 • MLLR (Maximum Likelihood Linear Regression) 法 • 学習済みHMMにおいて、平均ベクトルを以下の式で変換 • 特定話者データの尤度が最大となるような行列 A と定数項 b を推定

7.2 識別的学習 • 学習データの尤度計算 • 生成モデル：P(X|W) が大きくなるようにパラメータを求めた • 識別モデルの考え方：ΣW P(X|W)P(W) を小さくすればよい → 正解以外の単語列に対して P(X|W) が小さくなるように学習 • 相互情報量最大化基準 : 対立仮説 r : 学習データのインデックス

7.3 深層学習 • DNN-HMM法 • HMMの各状態で特徴ベクトルを出力する確率 bi(x) を p(x|si) と書き換え • ベイズの定理 DNNで計算学習データから最尤推定定数 • x はMFCCではなく、メルフィルタバンクの出力（またはもとの音声信号）で特徴抽出もDNNで学習

7.3 深層学習

イラストで学ぶ音声認識 7章

荒木 雅弘

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

プログラミング〈新〉作法 2. C言語からはじめよう

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

プログラミング〈新〉作法 1. はじめに

プログラミング〈新〉作法 3. プログラムが動く仕組み

各ページのテキスト

荒木雅弘