フリーソフトでつくる音声認識システム(第2版) 第2章

413 Views

July 31, 23

スライド概要

profile-image

機械学習や音声認識に関する書籍を執筆しています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2. データをきちんと取り込もう アナログ信号 デジタル信号 前処理部 特徴抽出部 信号のデジタル化 とノイズ除去 識別部 あ 識別辞書 2.1 アナログ信号のデジタル化 2.2 人の知覚に近づける 2.3 特徴抽出をしやすくする処理 荒木雅弘: 『フリーソフトでつくる 音声認識システム(第2版)』(森北 出版,2017年) スライドとJupyter notebook サポートページ

2.

2.1 アナログ信号のデジタル化 2.1.1 アナログ信号は波である 波としてのパターンの表現

3.

2.1.2 標本化と量子化 (1/3) 波をデジタル化する手順 標本化: 一定間隔で波をサンプリング 量子化: 離散値に丸める 目標 なるべく情報を落とさずに、かつ、なるべくコンパクトに

4.

2.1.2 標本化と量子化 (2/3) 標本化 時間または空間に連続して分布している信号を、離散的な観測点で代表させる 標本化定理 元の波に含まれる周波数の最も高いものを f としたときに、2f より高い周波数で標本化 すれば、元の波を完全に再現できる 例)人間の可聴範囲は 20 Hz~ 20,000 Hz 程度 ⇒ コンパクトディスク (CD) は 44,100 Hz で音を標本化

5.

2.1.2 標本化と量子化 (3/3) 量子化 連続値を取る信号強度を、有限の離散値で近似 人間の識別能力を基準にする 例) 聴覚のダイナミックレンジはほぼ100dB = 聞き取れるもっとも小さな音の約100万倍の大きさまで聞こえる よく使われる量子化ビット数:16bit = 65,536段階 ≒ 96dB デシベルの定義: 教科書 演習問題2.1参照

6.

2.2 人の知覚に近づける (1/5) 音声の知覚 音は空気の粗密波 鼓膜を振動させる → 蝸牛内の基底膜で共振周波数をピックアップ

7.

2.2 人の知覚に近づける (2/5) 音声の知覚原理を活用 音声信号をフーリエ変換し、ピークとなる周波数を見つける

8.

2.2 人の知覚に近づける (3/5) 音声の知覚原理を活用 低い音ほど周波数分解能が高い → メルフィルタバンクの適用 各帯域の振幅スペクトル値 m 番目の三角窓関数 Wm にパワースペクトル S をかけたものの帯域内周波数についての和 ​ lh xm = ∑ Wm (k)∣S(k)∣ ​ ​ ​ k=l0 ​ ​

9.

2.2 人の知覚に近づける (4/5) 画像の知覚 光の波長によって感度が異なる赤錐体・緑錐体・青錐体が脳に信号を伝えている

10.

2.2 人の知覚に近づける (5/5) 画像の知覚原理を活用 光の強さを感じる網膜の細胞を2次元配列で表現

11.

2.3 特徴抽出をしやすくする処理 (1/5) 音ノイズの除去 背景雑音(加法性):周波数空間で引き算 マイクの特性(乗法性):周波数の対数空間で引き算

12.

2.3 特徴抽出をしやすくする処理 (2/5) 画像ノイズの除去 フィルタの適用 特定の画像入力に反応する脳の視覚野領域の処理に対応

13.

2.3 特徴抽出をしやすくする処理 (3/5) さまざまな画像フィルタ

14.

2.3 特徴抽出をしやすくする処理 (4/5) 画像フィルタ適用上の注意点 周辺部の画素の処理 0-padding: 元画像の端の画素にもフィルタが適用できるように画像を広げて、フィルタの適用 前後で画素数を変えないようにする 上記の処理を行わない場合、フィルタの適用により画素数は小さくなる ストライドの設定 フィルタをずらす画素数(ストライド)を2以上に設定すると、画像を圧縮することになる

15.

2.3 特徴抽出をしやすくする処理 (5/5) メディアンフィルタ適用の結果 Sobelフィルタ適用の結果

16.

まとめ 前処理部の役割 アナログ信号のデジタル化 標本化:一定間隔で波をサンプリング 量子化:離散値に丸める 後の特徴抽出のために人の知覚に近づけておく 特徴抽出を容易にする処理 ノイズ除去 音声はノイズを引き算できる形に変形する 画像はフィルタを用いる Jupyter notebook