263 Views
August 26, 23
スライド概要
機械学習や音声認識に関する書籍を執筆しています。
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学 • 荒木雅弘 :『イラストで学ぶ音声認識』 (講談社, 2015年) • サポートページ
2.1 音声の科学 • 音声とは • 人間がコミュニケーションのために、発声器官から発する音 • 音声学の分類 • 調音音声学 • 話し手が発声器官を用いて音声を発する仕組みを分析 • 音響音声学 • 発せられた音声を物理的に分析 • 聴覚音声学 • 聞き手が音声を聴取する仕組みを分析
2.2 どうやって声を作るか ー調音音声学 • 発声器官の構造と機能 •肺 • 空気を押し出す • 声帯 • 開閉できる声門を持ち、音源となる • 声道 • 口や鼻で音素の違いを作り出す
2.2 どうやって声を作るか ー調音音声学 • 音素の生成 • 母音(a, i, u, e, o) • 声道の形を固定して共振周波数を特定
2.2 どうやって声を作るか ー調音音声学 • 子音 • 声道を通る空気の流れを唇や舌の動きで妨げて作る音
2.2 どうやって声を作るか ー調音音声学 • 音節とモーラ • 日本語の音節 • 「母音」または「子音+母音」からなる音のまとまり • モーラ • 話すときの拍に相当 • 基本的に1音節は1モーラ • 撥音・促音・長音それぞれも1モーラになる
2.2 どうやって声を作るか ー調音音声学 • 音素の変形 • 調音結合 • 母音の無声化・長音化
2.3 声の正体とは ー音響音声学 • 音とは何か • 空気の粗密波 • 密度の周期的な変化を伴う波が膜を振動させ、その膜の振動を電気信号 に変換するものがマイクロフォン • 音の周波数分析 • 複雑な波は単純な波の重み付き和で表現できる • 周波数毎の重みの情報を取り出すのが周波数分析
2.3 声の正体とは ー音響音声学 • 音声とスペクトル • 周波数分析の結果を、横軸:周波数、縦軸:パワー(重み)として 表示したもの • 共振周波数のピーク(フォルマント)の位置や、その時間的変化が 音素を特定する情報になる
2.3 声の正体とは ー音響音声学 • スペクトログラム • 一定区間の音声信号を周波数分析し、時系列に表示したもの
2.4 どうやって声を聴き取るか ー聴覚音声学 • 聴覚器官の構造と機能
2.4 どうやって声を聴き取るか ー聴覚音声学 • 内耳での周波数分析のしくみ
2.4 どうやって声を聴き取るか ー聴覚音声学 • 人間の聴覚の特性 • 可聴周波数域:20~20,000Hz • 低周波数域は分解能が細かく、高周波数域は分解能が粗い対数スケール (メルスケール)になっている • 大きさの限界は、最小可聴音の約100万倍