イラストで学ぶ音声認識 5章

630 Views

August 26, 23

#音声認識 #特徴抽出 #スペクトル分析 #ケプストラム分析 #雑音除去

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.1K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 3.1K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.2K

プログラミング〈新〉作法 3. プログラムが動く仕組み

プログラミング

荒木雅弘 2.1K

各ページのテキスト

5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて－スペクトル分析 5.4 もうひと工夫－ケプストラム分析 5.5 雑音の除去 • 荒木雅弘 :『イラストで学ぶ音声認識』（講談社, 2015年） • サポートページ

https://masahiroaraki.github.io/GuideToASR/

5.1 特徴抽出の手順

5.2 音声信号のデジタル化 • 波のデジタル化 • 標本化：時間軸方向の分割 →標本化定理 • 量子化：強度方向の分割

5.3 人の聴覚をまねて－スペクトル分析 • 連続信号の分割：フレーム化

5.3 人の聴覚をまねて－スペクトル分析 • スペクトル分析 • フレームとして切り出した音声信号をフーリエ変換し、パワースペクトルを計算 • 低周波数ほど周波数の違いに敏感という人間の知覚を反映したメルフィルタバンク処理を行う

5.4 もうひと工夫－ケプストラム分析 • メルスペクトルの概形を抽出 • 離散コサイン変換でケプストラムを計算 • ケプストラムの低次情報がスペクトル概形に相当 → MFCC (mel-frequency cepstral coefficient)

5.4 もうひと工夫－ケプストラム分析 • 変化量の抽出 • ΔMFCC: 前後2フレームのMFCCから傾きを抽出 • ΔΔMFCC: ΔMFCCの変化量を抽出 • 特徴量としての音声のパワー • 単純なパワー（声の大きさ）は特徴としては不適 • Δパワー、 Δ Δパワーは有効な特徴

5.5 雑音の除去 • 雑音の種類 • 加法性と乗法性 • 雑音除去の方法 • CMS（cepstrum mean subtraction） • 発話全体のケプストラム平均を求め，各フレームのケプストラムから引く

イラストで学ぶ音声認識 5章

荒木 雅弘

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

プログラミング〈新〉作法 2. C言語からはじめよう

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

プログラミング〈新〉作法 1. はじめに

プログラミング〈新〉作法 3. プログラムが動く仕組み

各ページのテキスト

荒木雅弘