2.2K Views
November 08, 23
スライド概要
Pythonで学ぶ音声認識の輪読会第4回の発表スライドです。
2023年10月26日(木) 18:30~
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
音声認識の初歩 DPマッチング 京都大学工学部 大前俊輔 0
目次 1. テンプレートマッチング 2. DPマッチング 3. バックトラック 4. DPマッチングによる音声認識 5. まとめ 1
テンプレートマッチング テンプレートマッチング クラスのテンプレートを用意しておき、入力との類似度を測って最 も近いテンプレートのクラスを出力する手法。 音声認識の場合、類似度にはMFCC特徴量のユークリッド距離を 使用する。 2
テンプレートマッチングの問題点 同じ内容を発話した二つのスペクトログラム MFCCは1フレーム同士の距離しか測れない。 同じ内容の音声でも「時間的ゆらぎ」で フレーム同士が対応しない フレームの対応関係 「アライメント」を知る必要がある。 3
DPマッチング DPマッチングを使用してアライメントを推定する。 アライメントを解く問題は、フレーム同士の距離をコストとして、 最短経路問題を解くことに相当する。 DP(動的計画法) 解きたい問題を部分問題に分割し、 その答えを使って最適解を得る手法 4
DPマッチングで最短経路問題を解く 右、下、斜め右下の三種類の遷移 最短経路を更新しながら累積コストを記録する 左からしか来れない 上から遷移する方が コストが小さい すべてのマスを埋めていく 1 0 1 1 1 1 2 3 1 1 2 3 1 1 0 0 2 1 0 0 2 2 0 0 1 1 0 0 3 1 0 0 3 1 0 0 1 1 1 1 4 1 1 1 4 1 1 1 上からしか来れない 5
DPマッチングの遷移 1 , 2 3 , , , , , 最後に正規化してDTW距離を求める 3 1 , 6
バックトラック DPで求めた最短経路を確認するために「バックトラック」という 方法を使う 遷移の時にどこから来たかをメモしておく (0: 上から, 1: 斜め左上から, 2: 左から) 2 2 2 0 2 2 2 0 0 1 2 0 0 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7
DPマッチングによる音声認識 Step 1 MFCC特徴量の計算 認識対象とテンプレートの特徴量の計算 Step 2 DPマッチング DPマッチングで各テンプレートとのDTW距離を計算する。 Step 3 K近傍法 コストが小さいほうからK個抽出し、投票で最終出力を決定する。 8
まとめ まとめ1 まとめ2 まとめ3 DPマッチングで二つのフレームの類似度を計算した。 バックトラックでフレームの対応関係「アライメント」を求めた。 DPマッチングで計算したDTW距離をもとにK近傍法で音声認識を行った。 9
10