イラストで学ぶ音声認識 改訂第2版 3. 統計的パターン認識

>100 Views

June 05, 25

スライド概要

profile-image

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

イラストで学ぶ音声認識 改訂第2版 3. 統計的パターン認識 3.1 パターン認識とは 3.2 統計的パターン認識の考え方 3.3 生成モデルの学習 3.4 識別モデルの学習 3.5 音声認識手法の概要 1

2.

3.1 パターン認識とは パターン認識の定義 人間が五感によって知覚することができる信号を,予め持っている概念の一 つに対応させる技術 特徴ベクトルの抽 出 前処理部 入力 特徴抽出部 統計的手法による パターンの識別 識別部 "ひよこ" 出力 信号のデジタル化 ノイズ除去 2

3.

3.1 パターン認識とは パターン認識の難しさの分類 1入力1出力 1つのベクトルを引数とするクラス毎の識別関数を設定し,最大値を出 力するものを求める最も基本的な設定 複数入力1出力 入力が不定長の場合は,識別関数の構造に工夫が必要 1入力複数出力 出力毎に識別器を作成すればよい 複数入力複数出力 音声認識 探索処理が必要になり,最も複雑 3

4.

3.2 統計的パターン認識の考え方 1入力1出力のパターン認識 入力:特徴ベクトル ( 次元空間上の点) 出力:クラス のいずれか 4

5.

3.2 統計的パターン認識の考え方 統計的パターン認識 事後確率 が最大となるクラス を求める 生成モデル : 事後確率の式をベイズの定理で求めやすい確率に変形する 識別モデル : 事後確率の値を関数の形を仮定して求める 5

6.

3.2 統計的パターン認識の考え方 識別関数の出力 を確率に変換 増加 6

7.

3.3 生成モデルの学習 最尤推定法 学習データ に対する尤度 が最大になるようにモデルのパラメー タ を定める 尤度はパラメータ のモデルが,データ を生成する確率を表す 事前確率の推定 学習データ中のクラス のデータの個数 を,全データ数 で割ったもの が最尤推定値 7

8.

3.3 生成モデルの学習 尤度関数の推定 正規分布を仮定し,学習データから求めた平均と共分散行列をそのパラメー タとする 8

9.

3.4 識別モデルの学習 識別モデルの考え方 : ロジスティック回帰の例 正例で 大きな値 この値が大きいなら正 例, 小さいなら負例となるよ うに重み w を学習する 負例で 大きな値 正の 大きな値 -∞ から +∞ までの,どの範囲の値 となるかわからない を,sigmoid 関数を使って大小関 係を変えずに 0 から 1 までの正の 値に変換しています. 負の 大きな値 あまり 関係ない 0に近い値 正例/負例 の閾値 正例 識別境界にあたる のとき に,確率値はちょうど 0,5 になりますね. 9

10.

3.4 識別モデルの学習 識別関数 の重み は損失関数 を最小化するように学習する 学習データ 二乗誤差は,正解と出 力の差を小さくする ことが目的なので, 数値を予測する問題の 学習に適します. 出力 二乗誤差 交差エントロピーは,正解 が ベルヌーイ分布に従うと仮定し て, と の確率分布の近さ を最 大化(実際はその負の対数値を 最小化)するものです. 正解 交差エントロピー 10

11.

3.5 統計的音声認識の概要 生成モデルによる音声認識 事前確率を言語モデル,尤度を音響モデルとして,探索によってそれらの積 を最大とする単語列 を求める 11

12.

3.5 統計的音声認識の概要 識別モデルによる音声認識 非線形識別を行うニューラルネットワークを End-to-End で学習 深層学習による特徴抽出の自動化や,大規模データを用いた事前学習などに より高性能を実現 を計算 デジタル化 ニューラルネットワーク 京都 の 天気 出力 入力 CTC,エンコーダ・デコーダ, 事前学習モデルなどの利用 12