イラストで学ぶ音声認識改訂第2版 11. 事前学習モデルによる音声認識

175 Views

June 05, 25

#音声認識 #事前学習モデル #自己教師あり学習 #HuBERT #wav2vec 2.0 #Whisper #マルチタスク学習

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.8K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.2K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 3.9K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.5K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.6K

フリーソフトではじめる機械学習入門 (第2版) 第14章

機械学習半教師あり学習

荒木雅弘 2.5K

各ページのテキスト

イラストで学ぶ音声認識改訂第2版 11. 事前学習モデルによる音声認識 11.1 自己教師あり学習 11.2 音声を対象とした事前学習モデル 11.3 マルチタスク学習量子化器は k-means などのクラスタリングを用いて，別途作成します．量子化器交差エントロピーを計算 Transformer マスクマスクマスク CNN 1

11.1 自己教師あり学習自己教師あり学習 (self-supervised learning) とは正解が付いていないデータに対して，工夫を施して自動的に教師あり学習の設定を作り出し，その後のタスクに有用な表現への変換器を得る学習手法自然言語処理における事前学習の事例: BERT 自己教師あり学習予測ソフトマックス関数 BERTは Transformer アーキテクチャのエンコーダ部です BERT マスク 2

11.1 自己教師あり学習自己教師あり学習を音声に適用する工夫音声信号をスペクトログラムなどで表現し，ゼロパディングで入力長を調整音声信号の一部をマスクし，隠された部分を予測する正解が単語（離散値）ではなく信号（連続値）なので，マスク部分と出力の一致度の定義が課題信号の離散化や，同じ信号の近い部分の情報を利用して類似度を定義する対照学習 (contrastive learning) が用いられる 3

11.2 音声を対象とした事前学習モデル HuBERT (hidden-unit BERT) BERTのマスク言語モデルのアイディアを音声に適用 i. クラスタリングで音声を離散記号化（疑似ラベル生成） ii. マスクされたフレームのラベルを Transformer のエンコーダで予測エンコーダの学習で得られた埋め込み表現に対して，クラスタリングとモデル更新を繰り返すことで精度を向上させる得られた埋め込み表現は音声認識だけでなく多様なタスクで活用可能 4

11.2 音声を対象とした事前学習モデル HuBERT の自己教師あり学習量子化器は k-means などのクラスタリングを用いて，別途作成します．量子化器交差エントロピーを計算 Transformer マスクマスクマスク CNN 5

11.2 音声を対象とした事前学習モデル wav2vec 2.0の仕組み量子化による情報損失を低減マスクされた部分の予測表現と元信号の量子化表現との類似度を最大とするようにエンコーダを学習類似度の計算には、同一信号内の情報を対照学習の負例として利用することで、連続値の類似度を定義 : エンコーダの出力 : 元の信号の量子化表現 6

11.2 音声を対象とした事前学習モデル wav2vec 2.0 の自己教師あり学習マスクされた部分の出力が量子化されたに近くなるように学習されるだけではなく，CNNや量子化部分も一緒に学習されます．対照損失を計算 : 文脈を反映した表現 c c c c c Transformer マスク : 量子化された表現 q q q q q CNN 7

11.2 音声を対象とした事前学習モデル事前学習モデルの利用方法 End-to-End 音声認識モデルのエンコーダとして利用出力に CTC や Transformer デコーダを接続して認識器を構築汎用性を評価するためのベンチマーク：SUPERB 音素認識・音声認識・キーワード抽出・音声検索・話者認識・話者照合・話者ダイアリゼーション・意図理解・スロット埋め込み・感情認識の10タスク 8

11.3 マルチタスク学習マルチタスク学習とは同じモデルに対して複数のタスクを学習することで，より汎用的な表現を獲得することを目指す Whisper モデルのタスク : 音声認識・言語推定・発話区間検出・翻訳弱教師あり学習既存の音声認識モデルなどを用いて，ラベルなしデータから擬似ラベルを生成して学習マルチタスク学習におけるデータの大規模化を実現 9

10.

11.3 マルチタスク学習 Whisperモデル OpenAIが開発したエンコーダ・デコーダモデル入力音声信号はエンコーダにより周囲の情報が反映されたベクトル表現に変換されるベクトル表現は，デコーダのクロスアテンションに利用され，最終的に出力系列が生成される多言語の音声認識に加えて，翻訳や音声からの言語推定なども可能モデルの学習目標は，交差エントロピーの最小化 10

11.

11.3 マルチタスク学習 Whisperモデル続きのトークンを追加エンコーダ通常の位置エンコーディングデコーダタスク記述には，言語推定に続いて，書き起こしか翻訳かが指定されています．学習された位置 + + エンコーディング CNN タスク記述とこれまでの出力メル帯域化・対数化した音声特徴 11

12.

11.3 マルチタスク学習 Whisper のデコーダへの入力（簡略化したもの Whisper のデコーダへ : スペシャルトークン : テキストトークン : タイムスタンプトークントークン列の冒頭に，書き起こしで使用してほしい単語を書くことができます．時間情報付きの書き起こし／翻訳の場合開始時刻 start of transcript language tag transcribe / translate 出力系列の始まり EN, JA などタスクの特定書き起こし or 翻訳テキスト終了時刻 … 以下繰り返し end of token no timestamp テキスト出力系列の終わり書き起こし／翻訳のみの場合 12

イラストで学ぶ音声認識 改訂第2版 11. 事前学習モデルによる音声認識

荒木 雅弘