フリーソフトでつくる音声認識システム(第2版) 第2章

518 Views

July 31, 23

#前処理 #パターン認識 #Data Digitalization #Noise Removal #Feature Extraction #Human Perception #Media Filtering

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.4K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.1K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 3.6K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.3K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.4K

プログラミング〈新〉作法 3. プログラムが動く仕組み

プログラミング

荒木雅弘 2.4K

各ページのテキスト

2. データをきちんと取り込もうアナログ信号デジタル信号前処理部特徴抽出部信号のデジタル化とノイズ除去識別部あ識別辞書 2.1 アナログ信号のデジタル化 2.2 人の知覚に近づける 2.3 特徴抽出をしやすくする処理荒木雅弘: 『フリーソフトでつくる音声認識システム（第2版）』（森北出版，2017年）スライドとJupyter notebook サポートページ

2.1 アナログ信号のデジタル化 2.1.1 アナログ信号は波である波としてのパターンの表現

2.1.2 標本化と量子化 (1/3) 波をデジタル化する手順標本化：一定間隔で波をサンプリング量子化：離散値に丸める目標なるべく情報を落とさずに、かつ、なるべくコンパクトに

2.1.2 標本化と量子化 (2/3) 標本化時間または空間に連続して分布している信号を、離散的な観測点で代表させる標本化定理元の波に含まれる周波数の最も高いものを f としたときに、2f より高い周波数で標本化すれば、元の波を完全に再現できる例）人間の可聴範囲は 20 Hz～ 20,000 Hz 程度 ⇒ コンパクトディスク (CD) は 44,100 Hz で音を標本化

2.1.2 標本化と量子化 (3/3) 量子化連続値を取る信号強度を、有限の離散値で近似人間の識別能力を基準にする例) 聴覚のダイナミックレンジはほぼ100dB ＝聞き取れるもっとも小さな音の約100万倍の大きさまで聞こえるよく使われる量子化ビット数：16bit = 65,536段階 ≒ 96dB デシベルの定義：教科書演習問題2.1参照

2.2 人の知覚に近づける (1/5) 音声の知覚音は空気の粗密波鼓膜を振動させる → 蝸牛内の基底膜で共振周波数をピックアップ

2.2 人の知覚に近づける (2/5) 音声の知覚原理を活用音声信号をフーリエ変換し、ピークとなる周波数を見つける

2.2 人の知覚に近づける (3/5) 音声の知覚原理を活用低い音ほど周波数分解能が高い → メルフィルタバンクの適用各帯域の振幅スペクトル値 m 番目の三角窓関数 Wm にパワースペクトル S をかけたものの帯域内周波数についての和 lh xm = ∑ Wm (k)∣S(k)∣ k=l0

2.2 人の知覚に近づける (4/5) 画像の知覚光の波長によって感度が異なる赤錐体・緑錐体・青錐体が脳に信号を伝えている

10.

2.2 人の知覚に近づける (5/5) 画像の知覚原理を活用光の強さを感じる網膜の細胞を2次元配列で表現

11.

2.3 特徴抽出をしやすくする処理 (1/5) 音ノイズの除去背景雑音(加法性)：周波数空間で引き算マイクの特性(乗法性)：周波数の対数空間で引き算

12.

2.3 特徴抽出をしやすくする処理 (2/5) 画像ノイズの除去フィルタの適用特定の画像入力に反応する脳の視覚野領域の処理に対応

13.

2.3 特徴抽出をしやすくする処理 (3/5) さまざまな画像フィルタ

14.

2.3 特徴抽出をしやすくする処理 (4/5) 画像フィルタ適用上の注意点周辺部の画素の処理 0-padding: 元画像の端の画素にもフィルタが適用できるように画像を広げて、フィルタの適用前後で画素数を変えないようにする上記の処理を行わない場合、フィルタの適用により画素数は小さくなるストライドの設定フィルタをずらす画素数（ストライド）を2以上に設定すると、画像を圧縮することになる

15.

2.3 特徴抽出をしやすくする処理 (5/5) メディアンフィルタ適用の結果 Sobelフィルタ適用の結果

16.

まとめ前処理部の役割アナログ信号のデジタル化標本化：一定間隔で波をサンプリング量子化：離散値に丸める後の特徴抽出のために人の知覚に近づけておく特徴抽出を容易にする処理ノイズ除去音声はノイズを引き算できる形に変形する画像はフィルタを用いる Jupyter notebook

https://github.com/MasahiroAraki/SpeechRecognition/blob/master/Python/chap02.ipynb

フリーソフトでつくる音声認識システム(第2版) 第2章

荒木 雅弘

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

プログラミング〈新〉作法 2. C言語からはじめよう

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

プログラミング〈新〉作法 1. はじめに

プログラミング〈新〉作法 3. プログラムが動く仕組み

各ページのテキスト

荒木雅弘