イラストで学ぶ音声認識 8章

212 Views

August 26, 23

#音声認識 #言語モデル #統計的言語モデル #ニューラルネットワーク言語モデル #文法規則

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 604.29kB)

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.1K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 3K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.1K

プログラミング〈新〉作法 3. プログラムが動く仕組み

プログラミング

荒木雅弘 2K

各ページのテキスト

8. 音声の認識：言語モデル • 8.1 文法記述による言語モデル • 8.2 統計的言語モデルの考え方 • 8.3 統計的言語モデルの作り方 • ニューラルネットワーク言語モデル • 荒木雅弘 :『イラストで学ぶ音声認識』（講談社, 2015年） • サポートページ

https://masahiroaraki.github.io/GuideToASR/

8.1 文法記述による言語モデル • 文法記述を言語モデルとみなす • 規則に従う単語列であれば P(W) > 0 、そうでなければ P(W) = 0 として、認識対象の単語列を限定 • 文法記述の例

8.1 文法記述による言語モデル • 文法の種類 • 文脈自由文法 • 文法規則の左辺は非終端記号一つ • 右辺は「終端記号または非終端記号」の列 • おおよそ自然言語の文法が記述可能 • 正規文法 • 文法規則の左辺は非終端記号一つ • 右辺は「終端記号」、「終端記号＋非終端記号」、「空文字列」のいずれか • おおよそ文節レベルの文法が記述可能 • 典型的な音声対話システムの文法は、正規文法の範囲内で記述可能

8.2 統計的言語モデルの考え方 • 統計的言語モデル • P(W) = P(w1,...,wn) の値を言語統計から求める • 条件付き確率への展開 • N-グラム言語モデル • 長い履歴を持つ条件付き確率の値の推定は難しい • 履歴を過去N-1単語で近似

8.2 統計的言語モデルの考え方

8.3 統計的言語モデルの作り方 1. コーパスを準備する大量の電子化された文章（新聞記事、webページなど）を集める 2. コーパスを単語に区切る形態素解析処理 3. 条件付き確率を求める確率の推定値が0にならないよう工夫したうえで P(wk | wk-N+1,...,wk-1) を求める

8.3 統計的言語モデルの作り方 • N-グラムを最尤推定するときの問題点 • 例）2-グラムの単純な最尤推定 C(W): Wの出現回数 • コーパス中に wi-1 wi が1度も出現しなければ、この値は0 • 単語列中に値0の2-グラムが1つでもあれば、全体の確率が0 • バックオフスムージング • 最尤推定したN-グラムのうち、確率0でないものから少しずつ値を削り、確率0のものに分配する

ニューラルネットワーク言語モデル • フィードフォワード型 • 過去N単語から次単語の確率分布を求める

ニューラルネットワーク言語モデル • リカレント型 • フィードバックで仮想的にすべての履歴を表現

イラストで学ぶ音声認識 8章

荒木 雅弘

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

プログラミング〈新〉作法 2. C言語からはじめよう

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

プログラミング〈新〉作法 1. はじめに

プログラミング〈新〉作法 3. プログラムが動く仕組み

各ページのテキスト

荒木雅弘