イラストで学ぶ音声認識 改訂第2版 10. End-to-End の音声認識

>100 Views

June 05, 25

スライド概要

profile-image

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

イラストで学ぶ音声認識 改訂第2版 10. End-to-End の音声認識 10.1 ディープニューラルネットワーク による音声認識 10.2 CTC 10.3 seq2seq+アテンション 10.4 エンコーダの改良 10.5 RNN-トランスデューサ このアーキテクチャで,音 声入力に合わせて認識結果 が出力されるストリーミン グ認識が可能になります. softmax 結合ネットワーク 予測ネットワーク エンコーダ 1

2.

10.1 ディープニューラルネットワークによる音声認識 音声認識手法の変遷 統計的音声認識 MFCC など,音響学の知見を活用した特徴抽出 音響モデル(GMM-HMM)・言語モデル(N-gram)など個別に学習したモデ ルを組み合わせたものを WFST に変換して,ビームサーチで探索 ハイブリッド型音声認識 音響モデルの学習に識別的な手法を導入 (DNN-HMM) したものと,ニュ ーラルネットによる言語モデルを組み合わせる 特徴抽出もDNNで行う End-to-End音声認識 入力と出力の対のみで一括学習する方式 2

3.

10.2 CTC CTC(Connectionist Temporal Classification)とは 異なる長さの系列(例:音声フレーム列と文字列)を対応付ける手法 フレームごとに音素またはブランクを出力し,すべてのアラインメント確率 の和で出力系列の確率を算出 _ h _ a i : h h a a i : h _ a i _ : .. .. a i u h .. .. _ a i u h .. .. _ a i u h .. .. _ a i u h 出力に関して ・同じ音素の連続をまとめる ・ブランク記号(_)を消す という処理をすると,この入力が "hai" である確率は .. .. _ a i u h _ となります. 3

4.

10.2 CTC CTCの学習 出力系列の確率計算 :出力系列 のアラインメント集合 HMM と同様に,フォワード・バックワードアルゴリズムを用いて効率的 に計算可能 損失関数: 音声信号と正解系列の対のみで学習が可能 正解系列の確率を最大化しているのと同じ 4

5.

10.2 CTC CTCの利点 : 単純な設計で大規模データでも高速な学習が可能 CTCの欠点 : 出力が独立で文脈を考慮しづらい 言語モデルと組み合わせたデコーディング :言語モデルの重み CTCが出力する記号系列を WFST デコーダへの入力とする方法もある 5

6.

10.3 seq2seq+アテンション 単純な seq2seq モデルによる End-to-End 音声認識 エンコーダ・デコーダモデルで入出力の系列長の違いを吸収 入力音声フレーム列) をエンコーダに入力し,固定長 のコンテキストベクトル を生成 隠れ層ベクトル の計算 コンテキストベクトル からデコーダが逐次的に出力トークン列を生成 時刻 での隠れ層の計算(ただし ) 出力トークンの確率 : 6

7.

10.3 seq2seq+アテンション 単純な seq2seq モデル デコーダ はフレーム単位の音響 特徴量、 は出力単位と して設定した音素や単語 になります. ほとんどの場合,入力の最後 は入力終了を示す記号で, としてデコーダの処 理を始めます. エンコーダ 7

8.

10.3 seq2seq+アテンション 単純な seq2seq モデルの学習 エンコーダ・デコーダ全体で「入力 から正解ラベル列 を再現する確率」を最大化 実際は,交差エントロピー損失 を最小化 教師強制 (teacher forcing) デコーダの学習中は前の時刻に出力した予測ラベルの代わりに正解ラベ ルを次の時刻へ入力する 8

9.

10.3 seq2seq+アテンション アテンション機構の導入 単純な seq2seq モデルでは,入力系列が長い場合に1つのベクトルに情報を 集約することが困難 アテンション機構でデコーダが各タイミングで「どの入力フレームに注目す るか」を学習することが可能 アテンションスコア : は密結合ニューラルネットで学習 アテンション重み : コンテキストベクトル : デコーダの隠れ層の計算 : 9

10.

10.3 seq2seq+アテンション seq2seq モデルにアテンション機構を導入 デコーダでは,1時刻前の隠れ 層の情報から,現時点での出力 を決めるためには,入力のど の部分を注視するべきかをア テンションで決めています. + 10

11.

10.4 エンコーダの改良 エンコーダの進化 RNN/双方向RNN/LSTM:文脈保持を強化 Transformer:セルフアテンションでグローバルな文脈を捉える Conformer/Branchformer:グローバル+ローカルの特徴抽出 Conformer: 畳み込みとセルフアテンションを直列に組み合わせ Branchformer: 並列処理で情報損失低減 11

12.

10.4 エンコーダの改良 Conformer 入力された音響特徴系列は畳み込み層でサンプリングの処理が行われる 後続処理の計算コストを削減するtために,時間方向の解像度が低減され る その後,密結合層・ドロップアウト層を経て, 段の Conformer ブロックで 特徴抽出が行われる デコーダは単純な seq2seq +アテンションモデルを用いるだけで,十分な性 能を発揮する 12

13.

10.4 エンコーダの改良 Conformer ブロックの構造 前段密結合層 : 非線形変換による情報拡張 マルチヘッドセルフアテンション層 : 入力 中の全ての位置間の相互作用を捉え,グ ローバルな依存関係を抽出する 畳み込み層 : 局所的な特徴を抽出 後段密結合層 : さらに非線形変換を行う 正規化僧 : 出力を正規化し,学習を安定化 正規化層 + 1/2 x Conformer ブロック は,入力に対して畳み 込みやドロップアウト を行った後に,このユ ニットをN回繰り返しま す. 密結合層 + 畳み込み層 + 音声入力特有の局所的 な性質を畳み込みによ って捉えているといえ そうですね. マルチヘッド セルフアテンション層 + 1/2 x 密結合層 13

14.

10.4 エンコーダの改良 Branchformer 多層ブロック内部においてセルフアテンションと畳み込みを並列に組み合わ せることで,高速な処理が可能になり,情報の損失も低減 単純な結合処理を畳み込みに置き換えたものが E-Branchformer + Conformer で直列処理だ った全体への処理と局所 的な処理を並列に行った あとに結合しています. 結合 Global Local マルチヘッド セルフアテンショ ン による処理 畳み込み による処理 14

15.

10.5 RNN-トランスデューサ CTCやseq2seqモデルは,音声入力全体が得られてから出力を生成することが前提 字幕付与や対話システムなどではストリーミング音声認識と呼ばれるリアル タイム処理が必要 RNN-トランスデューサ(RNN-T) 音声入力を逐次的に処理しながら,出力を生成するモデル エンコーダ:音声入力を時系列ベクトル化 予測ネットワーク:出力ラベル履歴を保持 結合ネットワーク:両者を統合して次ラベルを予測 15

16.

10.5 RNN-トランスデューサ RNN-Tの構造 このアーキテクチャで,音 声入力に合わせて認識結果 が出力されるストリーミン グ認識が可能になります. softmax 結合ネットワーク 予測ネットワーク エンコーダ 16

17.

10.5 RNN-トランスデューサ エンコーダの処理 予測ネットワークの処理 結合ネットワークの処理 出力確率の計算( にはブランク記号も含む) 17

18.

10.5 RNN-トランスデューサ RNN-Tの学習 CTCと同様にフォワード・バックワードアルゴリズムを用いて損失値を計算 入力フレーム軸 と出力ラベル軸 の2次元上で,「ブランク記号を出力 して時間軸を進めるステップ」と「ラベルを出力してラベル列を進める ステップ」をすべて考慮した動的計画法 損失関数: 18