イラストで学ぶ音声認識改訂第2版 10. End-to-End の音声認識

136 Views

June 05, 25

#音声認識 #ディープラーニング #End-to-End #CTC #seq2seq

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.7K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.1K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 3.8K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.5K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.6K

プログラミング〈新〉作法 3. プログラムが動く仕組み

プログラミング

荒木雅弘 2.5K

各ページのテキスト

イラストで学ぶ音声認識改訂第2版 10. End-to-End の音声認識 10.1 ディープニューラルネットワークによる音声認識 10.2 CTC 10.3 seq2seq+アテンション 10.4 エンコーダの改良 10.5 RNN-トランスデューサこのアーキテクチャで，音声入力に合わせて認識結果が出力されるストリーミング認識が可能になります． softmax 結合ネットワーク予測ネットワークエンコーダ 1

10.1 ディープニューラルネットワークによる音声認識音声認識手法の変遷統計的音声認識 MFCC など，音響学の知見を活用した特徴抽出音響モデル(GMM-HMM)・言語モデル(N-gram)など個別に学習したモデルを組み合わせたものを WFST に変換して，ビームサーチで探索ハイブリッド型音声認識音響モデルの学習に識別的な手法を導入 (DNN-HMM) したものと，ニューラルネットによる言語モデルを組み合わせる特徴抽出もDNNで行う End-to-End音声認識入力と出力の対のみで一括学習する方式 2

10.2 CTC CTC（Connectionist Temporal Classification）とは異なる長さの系列（例：音声フレーム列と文字列）を対応付ける手法フレームごとに音素またはブランクを出力し，すべてのアラインメント確率の和で出力系列の確率を算出 _ h _ a i : h h a a i : h _ a i _ : .. .. a i u h .. .. _ a i u h .. .. _ a i u h .. .. _ a i u h 出力に関して・同じ音素の連続をまとめる・ブランク記号（_）を消すという処理をすると，この入力が "hai" である確率は .. .. _ a i u h _ となります． 3

10.2 CTC CTCの学習出力系列の確率計算：出力系列のアラインメント集合 HMM と同様に，フォワード・バックワードアルゴリズムを用いて効率的に計算可能損失関数：音声信号と正解系列の対のみで学習が可能正解系列の確率を最大化しているのと同じ 4

10.2 CTC CTCの利点 : 単純な設計で大規模データでも高速な学習が可能 CTCの欠点 : 出力が独立で文脈を考慮しづらい言語モデルと組み合わせたデコーディング：言語モデルの重み CTCが出力する記号系列を WFST デコーダへの入力とする方法もある 5

10.3 seq2seq+アテンション単純な seq2seq モデルによる End-to-End 音声認識エンコーダ・デコーダモデルで入出力の系列長の違いを吸収入力音声フレーム列）をエンコーダに入力し，固定長のコンテキストベクトルを生成隠れ層ベクトルの計算コンテキストベクトルからデコーダが逐次的に出力トークン列を生成時刻での隠れ層の計算（ただし）出力トークンの確率 : 6

10.3 seq2seq+アテンション単純な seq2seq モデルデコーダはフレーム単位の音響特徴量、は出力単位として設定した音素や単語になります．ほとんどの場合，入力の最後は入力終了を示す記号で，としてデコーダの処理を始めます．エンコーダ 7

10.3 seq2seq+アテンション単純な seq2seq モデルの学習エンコーダ・デコーダ全体で「入力から正解ラベル列を再現する確率」を最大化実際は，交差エントロピー損失を最小化教師強制 (teacher forcing) デコーダの学習中は前の時刻に出力した予測ラベルの代わりに正解ラベルを次の時刻へ入力する 8

10.3 seq2seq+アテンションアテンション機構の導入単純な seq2seq モデルでは，入力系列が長い場合に1つのベクトルに情報を集約することが困難アテンション機構でデコーダが各タイミングで「どの入力フレームに注目するか」を学習することが可能アテンションスコア : は密結合ニューラルネットで学習アテンション重み : コンテキストベクトル : デコーダの隠れ層の計算 : 9

10.

10.3 seq2seq+アテンション seq2seq モデルにアテンション機構を導入デコーダでは，1時刻前の隠れ層の情報から，現時点での出力を決めるためには，入力のどの部分を注視するべきかをアテンションで決めています． + 10

11.

10.4 エンコーダの改良エンコーダの進化 RNN/双方向RNN/LSTM：文脈保持を強化 Transformer：セルフアテンションでグローバルな文脈を捉える Conformer/Branchformer：グローバル＋ローカルの特徴抽出 Conformer: 畳み込みとセルフアテンションを直列に組み合わせ Branchformer: 並列処理で情報損失低減 11

12.

10.4 エンコーダの改良 Conformer 入力された音響特徴系列は畳み込み層でサンプリングの処理が行われる後続処理の計算コストを削減するtために，時間方向の解像度が低減されるその後，密結合層・ドロップアウト層を経て，段の Conformer ブロックで特徴抽出が行われるデコーダは単純な seq2seq +アテンションモデルを用いるだけで，十分な性能を発揮する 12

13.

10.4 エンコーダの改良 Conformer ブロックの構造前段密結合層 : 非線形変換による情報拡張マルチヘッドセルフアテンション層 : 入力中の全ての位置間の相互作用を捉え，グローバルな依存関係を抽出する畳み込み層 : 局所的な特徴を抽出後段密結合層 : さらに非線形変換を行う正規化僧 : 出力を正規化し，学習を安定化正規化層 + 1/2 x Conformer ブロックは，入力に対して畳み込みやドロップアウトを行った後に，このユニットをN回繰り返します．密結合層 + 畳み込み層 + 音声入力特有の局所的な性質を畳み込みによって捉えているといえそうですね．マルチヘッドセルフアテンション層 + 1/2 x 密結合層 13

14.

10.4 エンコーダの改良 Branchformer 多層ブロック内部においてセルフアテンションと畳み込みを並列に組み合わせることで，高速な処理が可能になり，情報の損失も低減単純な結合処理を畳み込みに置き換えたものが E-Branchformer + Conformer で直列処理だった全体への処理と局所的な処理を並列に行ったあとに結合しています．結合 Global Local マルチヘッドセルフアテンションによる処理畳み込みによる処理 14

15.

10.5 RNN-トランスデューサ CTCやseq2seqモデルは，音声入力全体が得られてから出力を生成することが前提字幕付与や対話システムなどではストリーミング音声認識と呼ばれるリアルタイム処理が必要 RNN-トランスデューサ（RNN-T）音声入力を逐次的に処理しながら，出力を生成するモデルエンコーダ：音声入力を時系列ベクトル化予測ネットワーク：出力ラベル履歴を保持結合ネットワーク：両者を統合して次ラベルを予測 15

16.

10.5 RNN-トランスデューサ RNN-Tの構造このアーキテクチャで，音声入力に合わせて認識結果が出力されるストリーミング認識が可能になります． softmax 結合ネットワーク予測ネットワークエンコーダ 16

17.

10.5 RNN-トランスデューサエンコーダの処理予測ネットワークの処理結合ネットワークの処理出力確率の計算（にはブランク記号も含む） 17

18.

10.5 RNN-トランスデューサ RNN-Tの学習 CTCと同様にフォワード・バックワードアルゴリズムを用いて損失値を計算入力フレーム軸と出力ラベル軸の2次元上で，「ブランク記号を出力して時間軸を進めるステップ」と「ラベルを出力してラベル列を進めるステップ」をすべて考慮した動的計画法損失関数： 18

イラストで学ぶ音声認識 改訂第2版 10. End-to-End の音声認識

荒木 雅弘

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

プログラミング〈新〉作法 2. C言語からはじめよう

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

プログラミング〈新〉作法 1. はじめに

プログラミング〈新〉作法 3. プログラムが動く仕組み

各ページのテキスト

イラストで学ぶ音声認識改訂第2版 10. End-to-End の音声認識

荒木雅弘