>100 Views
June 05, 25
スライド概要
機械学習・音声認識・プログラミングに関する書籍を執筆しています。
イラストで学ぶ音声認識 改訂第2版 11. 事前学習モデルによる音声認識 11.1 自己教師あり学習 11.2 音声を対象とした事前学習モデル 11.3 マルチタスク学習 量子化器は k-means などのクラスタリン グを用いて,別途作成 します. 量子化器 交差エントロピー を計算 Transformer マスク マスク マスク CNN 1
11.1 自己教師あり学習 自己教師あり学習 (self-supervised learning) とは 正解が付いていないデータに対して,工夫を施して自動的に教師あり学習の 設定を作り出し,その後のタスクに有用な表現への変換器を得る学習手法 自然言語処理における事前学習の事例: BERT 自己教師あり学習 予測 ソフトマックス関数 BERTは Transformer アーキテクチャの エンコーダ部です BERT マスク 2
11.1 自己教師あり学習 自己教師あり学習を音声に適用する工夫 音声信号をスペクトログラムなどで表現し,ゼロパディングで入力長を調整 音声信号の一部をマスクし,隠された部分を予測する 正解が単語(離散値)ではなく信号(連続値)なので,マスク部分と出 力の一致度の定義が課題 信号の離散化や,同じ信号の近い部分の情報を利用して類似度を定義す る対照学習 (contrastive learning) が用いられる 3
11.2 音声を対象とした事前学習モデル HuBERT (hidden-unit BERT) BERTのマスク言語モデルのアイディアを音声に適用 i. クラスタリングで音声を離散記号化(疑似ラベル生成) ii. マスクされたフレームのラベルを Transformer のエンコーダで予測 エンコーダの学習で得られた埋め込み表現に対して,クラスタリングとモデ ル更新を繰り返すことで精度を向上させる 得られた埋め込み表現は音声認識だけでなく多様なタスクで活用可能 4
11.2 音声を対象とした事前学習モデル HuBERT の自己教師あり学習 量子化器は k-means などのクラスタリン グを用いて,別途作成 します. 量子化器 交差エントロピー を計算 Transformer マスク マスク マスク CNN 5
11.2 音声を対象とした事前学習モデル wav2vec 2.0の仕組み 量子化による情報損失を低減 マスクされた部分の予測表現と元信号の量子化表現との類似度を最大とする ようにエンコーダを学習 類似度の計算には、同一信号内の情報を対照学習の負例として利用すること で、連続値の類似度を定義 : エンコーダの出力 : 元の信号の量子化表現 6
11.2 音声を対象とした事前学習モデル wav2vec 2.0 の自己教師あり学習 マスクされた部分の出力が 量子化された に近くなる ように学習されるだけでは なく,CNNや量子化部分も 一緒に学習されます. 対照損失 を計算 : 文脈を反映 した表現 c c c c c Transformer マスク : 量子化され た表現 q q q q q CNN 7
11.2 音声を対象とした事前学習モデル 事前学習モデルの利用方法 End-to-End 音声認識モデルのエンコーダとして利用 出力に CTC や Transformer デコーダを接続して認識器を構築 汎用性を評価するためのベンチマーク:SUPERB 音素認識・音声認識・キーワード抽出・音声検索・話者認識・話者照合・話 者ダイアリゼーション・意図理解・スロット埋め込み・感情認識の10タスク 8
11.3 マルチタスク学習 マルチタスク学習とは 同じモデルに対して複数のタスクを学習することで,より汎用的な表現を獲 得することを目指す Whisper モデルのタスク : 音声認識・言語推定・発話区間検出・翻訳 弱教師あり学習 既存の音声認識モデルなどを用いて,ラベルなしデータから擬似ラベルを生 成して学習 マルチタスク学習におけるデータの大規模化を実現 9
11.3 マルチタスク学習 Whisperモデル OpenAIが開発したエンコーダ・デコーダモデル 入力音声信号 はエンコーダ により周囲の情報が反映さ れたベクトル表現 に変換される ベクトル表現 は,デコーダ のクロスアテンションに利用され,最終的 に出力系列 が生成される 多言語の音声認識に加えて,翻訳や音声からの言語推定なども可能 モデルの学習目標は,交差エントロピーの最小化 10
11.3 マルチタスク学習 Whisperモデル 続きのトークンを追加 エンコーダ 通常の位置エン コーディング デコーダ タスク記述には,言語 推定に続いて,書き起 こしか翻訳かが指定さ れています. 学習された位置 + + エンコーディン グ CNN タスク記述とこれまでの出力 メル帯域化・対数化した音声特徴 11
11.3 マルチタスク学習 Whisper のデコーダへの入力(簡略化したもの Whisper のデコーダへ : スペシャルトークン : テキストトークン : タイムスタンプトークン トークン列の冒頭に, 書き起こしで使用して ほしい単語を書くこと ができます. 時間情報付きの書き起こし/翻訳の場合 開始 時刻 start of transcript language tag transcribe / translate 出力系列の 始まり EN, JA など タスクの特定 書き起こし or 翻訳 テキスト 終了 時刻 … 以下繰り返し end of token no timestamp テキスト 出力系列の 終わり 書き起こし/翻訳のみの場合 12