8.6K Views
August 15, 25
スライド概要
「音響学の基礎」としてのディジタル信号処理について、主に回顧的で歴史的な経緯について説明します。
高度で最先端の話は出てきません。音の信号処理全般を眺めながら、さまざまな技術を考察します。
I'll be writing programs, papers, and ramblings.
音のディジタル 信号処理 その発展と応用 伊藤彰則 東北大学 大学院工学研究科 通信工学専攻 1
この発表について 「音響学の基礎」としての ディジタル信号処理についてのお話 ◦高度で最先端の話は出てきません ◦主に回顧的で歴史的なお話です ◦音の信号処理全般を眺めながら さまざまな技術を考察します 2
ディジタル信号処理 ことはじめ ◦1953年のADコンバータについてのサー ベイ ◦ H. E. Burke. A survey of analog-to-digital converters. Proc. IRE, 41(10): 1455–1462, Oct 1953. ◦ 増え続けるデータを圧縮整理することが ディジタル化の主な目的であった ◦ いわゆる「ADコンバータ」以外にもさまざ まなものがADコンバータとして扱われてい る ◦ ロータリーエンコーダ、スライドスイッチなど 3
前記論文の冒頭部分 昔々、イソップ童話にこんな話があった。けちな男が倉庫にたんまり貯めた good many years ago Aesop told a story about a grain miser 麦を、壁に空いた隙間から蟻が一粒一粒持ち出し、とうとう全部盗んでいっ whose horde was raided by ants that silently crept through たとさ。その男がからっぽの倉庫を見たときには、さぞ困ったろうねえ。 A cracks, into his warehouse, to extract his store kernel by kernel. It is easy to picture the frustration of this wretched man, opening his granary doors one day to find his treasure gone. 今時、エンジニアや科学者は逆の状況で困っているのさ。 Today, engineers and scientists are frustrated by a reverse situation - they want to empty their storehouses of raw information, but succeed in doing it only "kernel by kernel," or 生データがラボや実験室に積み上がって、整理できない情報であふれかえっ point by point. Raw data continue to pile up at such a rate that てしまう。 research laboratories and test facilities are overflowing with unreduced information. Manometer tube photographs, theodolite records, frequency-modulated carriers on magnetic 圧力計の写真、経緯儀の記録、磁気テープ上の周波数変調信号、オシログラ tape, galvanometer deflections from recording oscillographs, フ記録からのガルバノメータ偏差、ペン記録計の紙テープ。役に立つ結果を strip-charted pen gyrations, are gathering dust despite a 出すために減らそうとしてもしても積み上がってほこりをかぶってしまう。 frantic effort to reduce them to useful engineering conclusions. こういう論文を一度で良いから書いてみたい。 4
いろいろなADコンバータ (前掲論文より) 5
いろいろなADコンバータ (前掲論文より) 6
信号処理は何をするのか 推定 音に内在する性質を推定 圧縮 音信号の情報量を削減 変換 フィルタリング、音声変換等 合成 楽音合成、音声合成、音場合成 分離 音源分離、音声強調 識別 音声・音響認識、機械診断 計測 距離計測、生体計測、方向推定 7
信号処理手法と応用分野 見えない 8
推定する 音に内在するパラメータの推定 ◦スペクトル、F0など スペクトルの推定 ◦一般化調和解析 (Wiener 1930) ◦高速フーリエ変換 (Cooley&Tukey 1965) ◦最大エントロピー法 (Lacoss 1971) ◦線形予測分析 (Itakura&Saito 1968) 9
推定する F0の推定 ◦ Period histogram (Schroeder 1968) ◦ 調波成分検出 (Snow&Highes 1969) ◦ 逆フィルタ(SIFT) (Markel 1972) ◦ Yin (de Chaveigné&Kawahara 2002) マルチピッチ推定 ◦ Chafe&Jaffe 1986 ◦ PreFEst (Goto 2004) ◦ HTC (Kameoka+ 2007) 10
F0推定&マルチピッチ推定 11
圧縮する 音信号の情報量を小さくする 音声の圧縮 ◦Vocoder (Dudley 1939) ◦PCM (Black&Edson 1967) ◦ A radically new modulation technique for multichannel telephony has been developed ◦ADPCM (Cummisky+ 1973) ◦LPC-based (Dunn 1971) ◦CELP (Schroeder&Atal 1985) 12
The Vocoder H. Dudley, “The Vocoder,” Bell Labs Rec., 18:122-126, 1939 13
The Voder YouTube “The Voder - Homer Dudley (Bell Labs) 1939”より引用 14
圧縮する オーディオの圧縮 ◦SB-ADPCM (Charbonnier&Petit 1988) ◦MDCT (Prince&Bradley 1986) ◦MP3 (MPEG-1 audio layer 3) (1988) ◦AAC (MPEG-2 advanced audio coding) (1997) 15
音声&オーディオ圧縮 16
変換する ある音を別な音に加工する ◦周波数フィルタリング ◦ FIRフィルタ (Kaiser 1966) ◦エフェクタ ◦ 1940年代~(アナログ信号処理) ◦ Echo/reverb ◦ vibrato/tremolo ◦ Distortion ◦ Chorus/flanger/phaser 17
変換する ◦ピッチ変換・速度変換 ◦ フェーズボコーダ (Flanagan&Golden 1966) ◦ PSOLA(Moulines&Charpentier 1990) ◦ 正弦波モデル (McAuley&Quatieri 1986) ◦ STRAIGHT (Kawahara 1997) ◦ WORLD (Morise+ 2016) ◦声質変換 ◦ VQ-based (Abe+ 1988) ◦ GMM-based (Kain&Macon 1998) ◦ DNN-based (Chen+ 2014) 18
変換する 19
合成する 音の波形を計算によって作る ◦楽音合成 ◦ 加算合成 (Beauchamp 1966) ◦ 楽音生成言語MUSIGOL (Mac Innis 1968) ◦ FM合成 (Chowning 1973) ◦音声合成 20
合成する 音場合成 ◦空間上の音圧を制御する ◦音圧を0にする場合は「騒音制御」 ◦ アナログ騒音制御 (Lueg 1936) ◦ 適応フィルタ (Kido 1975) 21
合成する ◦任意の音場を作る ◦ Ambisonics (Fellgett 1974) ◦ WFS (Wave Field Synthesis) (Berkhout+ 1993) ◦ BoSC (Boundary of Surface Control) (Ise 1999) ◦聴取者の耳元の音圧合成 ◦ バイノーラル再生 (Bixler 1953) ◦ HRTFの利用 (Morimoto&Ando 1980) ◦ トランスオーラル 再生 (Cooper&Bauck 1989) 22
合成する 23
分離する 混ざった音を元に戻す ◦ 個別の音に分離、または特定の音の抽出 ◦ Speech enhancementも含む ◦ 単一チャネル ◦ Wiener filter (Wiener 1949) ◦ スペクトル減算 (Boll 1979) ◦ 非負値行列分解 (Zibulevsky+ 2001) ◦ 複数チャネル ◦ ビームフォーミング ◦ 独立成分分析による (Choi+ 2005) 24
分離する 25
識別する 音から発生源と発生要因を知る ◦音声認識・話者認識 ◦音響イベント認識 ◦ 環境音認識 (Sigtia+ 2016) ◦音による機械などの診断 ◦ ベアリングの診断 (Rogers 1979) ◦ 切削工具の摩耗診断 (Liang&Dornfeld 1989) ◦ コンクリート破壊 (Ohtsu 1996) ◦ 卵のヒビ (Ketelaere+ 2000) 26
卵のヒビの識別 B. De Ketelaere et al., “Eggshell crack detection based on acoustic resonance frequency analysis”, J. Agricultural Eng. Res., 76:157-163, 2000 27
計測する 音で何かを測る ◦ 超音波を使うことが多い ◦アクティブソナー (O’Neill 1965) ◦距離計測 (Canali+ 1982) ◦パイプの汚れ (Lohr&Rose 2003) ◦複合材検査 (Dickinson&Fletcher 2009) 28
計測する ◦生体計測 ◦ 超音波による心臓計測 (Edler 1967) ◦ ソナー技術による生体の境界面検出 ◦ 超音波ドップラ計測 (Satomura 1957) ◦ 器官の動きの計測 ◦ パルスドップラ計測 (Baker 1970) ◦ 血流の計測 ◦ 弾性率計測 (Opfir 1991) 29
計測する 30
重要な技術 処理の基本 ◦ パルス符号変調 (Black&Edson 1947) 処理の設計 ◦ サンプリング制御 (Linvill&Salzer 1953) ◦ ディジタルフィルタ (1950s) 適応 ◦ パーセプトロン&LMS (Rosenblatt 1958, Widrow&Hoff 1960) ◦ 適応フィルタ (Davisson 1966) 31
重要な技術 スペクトル推定 ◦ 高速フーリエ変換 (Cookey&Tukey 1965) ◦ 線形予測分析 (Itakura&Saito 1968) ◦ 離散コサイン変換 (Ahmed+ 1974) ◦ Wavelet変換 (1980s) モデル化 ◦ Backpropagation (Werbos 1974) ◦ ベクトル量子化 (Linde+ 1980) 分解 ◦ 独立成分分析 (Jutten&Herault 1991) ◦ 非負値行列分解 (Lee&Seung 1999) 32
おわりに ◦音のディジタル信号処理について概観 ◦ 推定・圧縮・変換・合成・分離・識別・計測 ◦ さまざまな分野に亘って広く使われる技 術がいくつかある 謝辞 ◦ 内容に関してTwitter上で意見を頂きまし た 33