【Pythonで学ぶ音声認識】第2章：音声認識の基礎知識

2K Views

October 14, 23

#音声認識 #確率 #確率モデル #ベイズの定理 #データセット

スライド概要

Pythonで学ぶ音声認識の輪読会第2回の発表スライドです。
2023年10月12日(木) 18:45～

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 31.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 24.4K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 20.5K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 15.8K

【物体検出】DINO

京都大学人工知能研究会KaiRA 14.6K

各ページのテキスト

2023年度後期輪読会#2 2.音声認識の基礎知識理学部理学科2回生山下素数 0

確率の種類次の状況を例にして、確率の種類について考えてみよう。袋に黒球が2個、白球が2個入っている。袋から球を取り、取った球を袋に戻さずにもう一度袋から球を取る操作を行う。 1回目に取り出す球の色を表す確率変数をx, 2回目に取り出す球の色を表す確率変数をyとする。 1

確率の種類袋に黒球が2個、白球が2個入っている。袋から球を取り、取った球を袋に戻さずにもう一度袋から球を取る操作を行う。 1回目に取り出す球の色を表す確率変数をx, 2回目に取り出す球の色を表す確率変数をyとする。 ①事前確率 ②事後確率 (条件付き確率) 純粋に過去の結果のみを考慮した確率例 P(x=黒)=1/2 P(x=白)=1/2 条件が与えられたときにある事象が起きる確率例 P(y=黒|x=黒)=1/3 P(y=白|x=黒)=2/3 ③同時確率ある事象と別の事象が同時に起こる確率例 P(x=黒, y=黒)=1/6 P(x=白, y=黒)=1/3 2

確率に関する定理 ⚫ 連鎖律(Chain Rule) 𝑃(𝑥, 𝑦) = 𝑃(𝑥)𝑃(𝑦|𝑥) = 𝑃(𝑦)𝑃(𝑥|𝑦) 2元分割表 ⚫ 計周辺化(Marginalization) ෍ 𝑃 𝑥, 𝑦 = 𝑃(𝑥) marginalize 𝑦 計ベイズの定理(Bayes Theorem) 𝑃 𝑥 𝑦 𝑃(𝑦) 𝑃 𝑦𝑥 = 𝑃(𝑥) 条件付き確率の定義を書き忘れていたので、書いておきます。 𝑃(𝑥, 𝑦) 𝑃 𝑦𝑥 = 𝑃(𝑥) ⚫ 3

ベイズの定理の応用パラメータθで表せるモデルとデータDが与えられている。パラメータθをどのように最適化すればよいのか？ ⚫ 最尤推定 P(D|θ)を最大化するようにθを選ぶデータ数が少ないときに信用できない。例えば、さいころを2回振って1が2回出たからと言って常に1が出るのか？？ ⚫ MAP推定 P(θ|D)を最大化するようにθを選ぶ。ベイズの定理より、𝑃 θ 𝐷 = 𝑃(𝐷|θ)𝑃(θ) で、P(D)はθに依らないので、 𝑃(𝐷) P(D|θ)P(θ)を最大化するようにθを取る。(P(θ)は事前分布で人間が決めておく) ⚫ ベイズ推定 θを一つ選ぶのではなくてP(θ|D)の分布を求める。これによりパラメータθに対する自信度も分かる。 4

音響モデルと言語モデル入力された音声の時系列データの確率変数をxとする。出力されるテキスト列の確率変数をw(認識仮説と呼ぶ)とすると、音声xが入力されたという条件のもとで最も確率が高いテキスト列𝑤は、ベイズの定理より ෝ 𝑃 𝑥𝑤 𝑃 𝑤 𝑤 ෝ =argmax𝑤 𝑃 𝑤 𝑥 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑤 𝑃 𝑥 P(x)はwに依存しないので、 𝑤=𝑎𝑟𝑔𝑚𝑎𝑥 ෝ 𝑤 𝑃 𝑥 𝑤 𝑃(𝑤) P(x|w)を音響モデルと呼ぶ。 P(w)を言語モデルと呼ぶ。 5

音声認識のタスク孤立単語認識 1単語だけ発話された単語を認識 1単語だけなのでP(w)は一様分布だと仮定できる。 𝑤=𝑎𝑟𝑔𝑚𝑎𝑥 ෝ 𝑤 𝑃 𝑥 𝑤 𝑃 𝑤 ~𝑎𝑟𝑔𝑚𝑎𝑥𝑤 𝑎𝑟𝑔𝑚𝑎𝑥𝑝 𝑃 𝑥|𝑝 𝑃 𝑝 𝑤 ⚫ 連続音声認識発話された文章を認識 𝑤 ෝ = 𝑎𝑟𝑔𝑚𝑎𝑥𝑤 𝑎𝑟𝑔𝑚𝑎𝑥𝑝 𝑃 𝑥|𝑝 𝑃 𝑝 𝑤 𝑃(𝑤) ⚫ 7

データセットの分け方学習評価学習データモデルの内部パラメータのチューニング開発データモデルのハイパーパラメータのチューニング評価データ実運用の性能をシミュレート 8

10.

まとめまとめ１まとめ２まとめ３確率の事前確率、事後確率、同時確率や連鎖律、周辺化、ベイズの定理について学んだ音声認識モデルは音響モデルと言語モデルで構成され、音響モデルは音素モデルと発音辞書に分離することができるデータセットは学習データ、開発データ、評価データに分ける 9

11.