イラストで学ぶ音声認識 改訂第2版 1. はじめに

>100 Views

June 05, 25

スライド概要

profile-image

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

イラストで学ぶ音声認識 改訂第2版 1. はじめに 1.1 音声認識とは 1.2 音声認識の歴史 1.3 どこで役立つのか 1.4 何が難しいのか 1.5 音声認識の定式化と本書の構成 1

2.

1.1 音声認識とは 音声認識の定義 人間が声で話す言葉を文字に変換する技術 機械可読な意味表現に変換するところまでを含む場合もある 音声認識における問題設定 使用環境:クリーン/定常雑音下/非定常雑音下 利用者:特定話者/不特定話者 単語数:数百(コマンド)/数千(特定用途)/数万以上(汎用) 出力:正確な書き起こし/理解結果 2

3.

1.2 音声認識の歴史 熱気 小さな 鰻屋に 順位付け RNN 言語モデル 技術 複数候補 DNN-HMM 音響モデル ハイブリッド手法 小さな 鰻屋に Whisper RNNトランスデューサ 歩道は混み合って いますか 応用例 音声対話 システム 1980年代 1990年代 2000年代 2010年代 実世界 インタフェース 2020年代 3

4.

1.3 どこで役立つのか ヒューマンインタフェースの一手段として 携帯端末(スマート[フォン|ウォッチ|グラス])や家電・スマートスピーカー などへの入力手段 カーナビなど,ハンズフリーが要求される状況 情報蓄積・検索 会議の議事録作成 テレビ放送・動画への字幕付与 音声検索 4

5.

1.4 何が難しいのか 音響分析 XLS-R wavLM web speech API Whisper 目的に応じた モデル/API の選択 5

6.

1.5 音声認識の定式化と本書の構成 noisy channel モデルと音声認識との対応 6

7.

1.5 音声認識の定式化と本書の構成 noisy channel モデルに基づく音声認識の定式化 雑音込みの音声 から最も確からしい単語列 を求める 従来の音声認識 から特徴量 を取り出し,ベイズの定理を用いて計算しやすくする 近年のニューラルネットワークを用いた手法 に対して簡単な処理だけを施した を入力とし, モデルの学習を End-to-End で行う を推定する 7

8.

1.5 音声認識の定式化と本書の構成 音声認識技術の難しさへの対処 分野横断的な技術である イラストによる直観的な理解 パターン認識問題の中でも最も難しいクラスの問題 単純なパターン認識から,WFSTによる認識,End-to-End 学習に至る段 階的な解説 実用化の際にノウハウが必要 事前学習モデルや音声対話システム実装機能の紹介 8

9.

1.5 音声認識の定式化と本書の構成 本書の構成 モジュール式 基礎知識 6章 特徴抽出 2章 音声学 7章 音響モデル 3章 パターン認識 8章 言語モデル 4章 オートマトン 9章 探索 5章 ニューラル ネットワーク End-to-End 10章 End-to-End 11章 事前学習モデル 12章 音声対話システム 9