マイクロホンアレイを用いたドラムセット音源分離のためのデータセット作成

>100 Views

March 07, 26

スライド概要

森末結, "マイクロホンアレイを用いたドラムセット音源分離のためのデータセット作成," 香川高等専門学校電気情報工学科 卒業研究論文, 54 pages, 2026年2月.

profile-image

北村研究室の学内・対外発表の発表スライドをまとめています.

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

1 令和7年度卒業研究最終発表 マイクアレイを用いたドラムセット 音源分離のためのデータセット作成 5EC-35 森末結 (北村研究室)

2.

2 研究背景 (1/6) • ドラムセットは複数のドラムパーツ(音源)から構成される • 各音源にマイクを近接させる録音方法が一般的 – マルチトラック録音と呼ぶ クラッシュ スネア ハイハット キック

3.

3 研究背景 (2/6) • 被り音 – マルチトラック録音は目的音のみを録音が狙い – マイクをどれだけ近接させても目的音以外の音(被り音)が混入 – 被り音の混入を完全に防ぐことは不可能 被り音 目的音 被り音

4.

4 研究背景 (3/6) • 被り音の影響 – 各マイクで観測した信号はミキシングによって混合される – 各音源にそれぞれ適したパラメータが設定されているため, 被り音はミキシングに悪影響を与える ヘッドアンプ(HA) 入力ゲインを設定 HA コンプレッサー イコライザー HA コンプレッサー イコライザー HA コンプレッサー イコライザー ミ キ サ ー

5.

5 研究背景 (3/6) • 被り音の影響 – 各マイクで観測した信号はミキシングによって混合される – 各音源にそれぞれ適したパラメータが設定されているため, 被り音はミキシングに悪影響を与える キックに適した設定 目的音 HA コンプレッサー 正常な処理が為された きれいな音が出力される イコライザー HA コンプレッサー イコライザー HA コンプレッサー イコライザー ミ キ サ ー

6.

6 研究背景 (3/6) • 被り音の影響 – 各マイクで観測した信号はミキシングによって混合される – 各音源にそれぞれ適したパラメータが設定されているため, 被り音はミキシングに悪影響を与える キックに適した設定 被り音 HA コンプレッサー 想定外の処理が為された 正常な処理が為された きれいな音が出力される 歪んだ音が出力される イコライザー HA コンプレッサー イコライザー HA コンプレッサー イコライザー ミ キ サ ー

7.

7 研究背景 (3/6) • 被り音の影響 – 各マイクで観測した信号はミキシングによって混合される – 各音源にそれぞれ適したパラメータが設定されているため, 被り音はミキシングに悪影響を与える キックに適した設定 HA コンプレッサー 想定外の処理が為された 正常な処理が為された きれいな音が出力される 歪んだ音が出力される イコライザー HA コンプレッサー イコライザー HA コンプレッサー イコライザー 被り音の抑圧が求められている ミ キ サ ー

8.

研究背景 (4/6) • ドラム音源分離(drum source separation: DSS)[Mezza+, 2024] – 1本のマイクで観測したドラムセット全体の信号を各音源に分離 – 深層ニューラルネットワーク(deep neural network: DNN)を利用 • 大規模なのデータセットで学習 (マイクは1本) DNN – 被り音抑圧への流用も可能? • DNNの非線形処理では推定信号の音質を担保しづらい – 不自然に歪んだ音や人工的な音を出力 8

9.

9 研究背景 (5/6) • ブラインド音源分離(blind source separation: BSS) – 複数のマイクで観測した混合信号から各音源信号を推定 – 音源やマイクの空間的な配置が不明な状態で分離行列を推定 – 行列の乗算(線形処理)による音源分離 • 推定信号の音質を担保しやすい 音源信号(未知) 観測した混合信号 推定した音源信号 ? ? 混合行列 (未知) 分離行列 (推定) – 周波数領域独立成分分析(FDICA)[Smaragdis+, 1998] – 独立低ランク行列分析(ILRMA)[Kitamura+, 2016] BSSとドラムセットの被り音抑圧は類似した問題である

10.

研究背景 (6/6) • 一般的なBSSの観測信号 – マイク間隔が短い マイクアレイの使用を想定 音源間の位相差(時間差) を正確に得るため 数mmから数十mm • マルチトラック録音による 観測信号 – マイク間隔は数十cmから数m – 2kHzの音の波長は17cm 音源間の位相差(時間差) が正確に得られない BSSで分離行列の推定に失敗 10

11.

11 研究の動機と内容 • BSSに基づく被り音抑圧を目指す – ドラムセット演奏をマイクアレイで録音したデータセットが必要 – そのようなデータセットは現時点で公開されていない マイクアレイ • 研究内容

12.

12 研究の動機と内容 • BSSに基づく被り音抑圧を目指す – ドラムセット演奏をマイクアレイで録音したデータセットが必要 – そのようなデータセットは現時点で公開されていない ・データセットを作成し公開 ・被り音抑圧の研究に貢献 • 研究内容 マイクアレイ

13.

13 研究の動機と内容 • BSSに基づく被り音抑圧を目指す – ドラムセット演奏をマイクアレイで録音したデータセットが必要 – そのようなデータセットは現時点で公開されていない ・データセットを作成し公開 ・被り音抑圧の研究に貢献 • 研究内容 通常のマルチトラック録音に加え マイクアレイを配置して ドラムセットの演奏を録音 BSSに基づく被り音抑圧が 可能か調査するため, 試験的に既存のBSSを実行 マイクアレイ

14.

データセットの作成 14 • BSSのためのデータセット – 分離性能を評価するために音源分離における正解信号が必要 • ドラムセット演奏における各音源の単体演奏音 – キック,スネア,ハイハット,及びクラッシュの分離を目指す キックのみ演奏 スネアのみ演奏 ハイハットのみ演奏 クラッシュのみ演奏

15.

データセットの作成 • 香川高専高松キャンパス音楽練習室にて録音を実施 • アマチュアドラマーが演奏 • アマチュアサウンドエンジニアがマイクを配置 15

16.

データセットの作成 • 各音源に対する近接マイクと2つのマイクアレイを配置 – 4チャネルマイクアレイと8チャネルマイクアレイ – 4本の近接マイクと2つのマイクアレイの計16チャネル同期録音 マイクの設置場所 マイクの種類 マイクのチャネル 演奏者の右肩上部 4チャネルマイクアレイ Mics. 1 ~ 4 ドラムセットの前面左 8チャネルマイクアレイ Mics. 5 ~ 12 16

17.

17 データセットの作成 • 4パターンの楽譜を演奏 – drums1: キック,スネア,ハイハット の3点を含むBPM120の8ビート – drums2:キック,スネア,ハイハット, クラッシュの4点を含むBPM120の 8ビート – drums3:キック,スネア,ハイハット, クラッシュの4点を含むBPM80の スローテンポな8ビート – drums4:キック,スネア,ハイハット, クラッシュの4点を含むBPM150の アップテンポな16ビート drums1 drums2 drums3 drums2 drums3 drums4 drums3 drums2 • 全音源と各音源単体の演奏をそれぞれ3テイクずつ録音

18.

データセットの公開 • 作成したデータセットをZenodoにて公開 • WAVファイルの名前 – real_scoreType_takeNum_sorceType_micNum.wav – 計912個のWAVファイル(2.8GB) scoreType takeNum 演奏パターン 演奏のテイク数 sorceType 演奏する ドラムパーツ micNum マイクのチャネル drums1/drums2/drums3/drums4 take1/take2/take3 src0 : 全音源 src1 : キックのみ src2 : スネアのみ src3 : ハイハットのみ src4 : クラッシュのみ mic1~mic4 : 4chマイクアレイ mic5~mic12 : 8chマイクアレイ mic13 : キック近接マイク mic14 : スネア近接マイク mic15 : ハイハット近接マイク mic16 : クラッシュ近接マイク 18

19.

被り音抑圧実験 • 作成したデータセットに既存のBSSを試験的に適用 – ILRMAを用いた被り音抑圧実験 – キック,スネア,及びハイハットの3音源3マイクのILRMAで実験 • 信号対歪み比(signal-to-distortion ratio: SDR)[Vincent+, 2006] – 音源分離における総合的な評価指標 19

20.

20 被り音抑圧実験 • 作成したデータセットに既存のBSSを試験的に適用 – ILRMAを用いた被り音抑圧実験 – キック,スネア,及びハイハットの3音源3マイクのILRMAで実験 キック スネア ハイハット

21.

21 被り音抑圧実験 • – – BSSによる被り音抑圧は困難 キック スネア ハイハット

22.

22 被り音抑圧実験 • ILRMAによる被り音抑圧が失敗した原因を特定 仮説1 仮説2 BSSによる分離行列の推定が成功しても 原理的に音源分離が不可能である BSSによる分離行列の推定が困難であるが 原理的には音源分離が可能である • 正解信号を用いてBSSに理想的な条件を与える – 理想音源モデル型ILRMA – 理想パーミュテーション解決付きFDICA

23.

23 被り音抑圧実験 • ILRMAによる被り音抑圧が失敗した原因を特定 仮説1 仮説2 BSSによる分離行列の推定が成功しても 原理的に音源分離が不可能である BSSによる分離行列の推定が困難であるが 原理的には音源分離が可能である • 正解信号を用いてBSSに理想的な条件を与える 理想音源モデル型ILRMA 理想パーミュテーション解決付きFDICA キック キック スネア スネア ハイハット ハイハット

24.

24 被り音抑圧実験 • • BSSによる被り音抑圧は 原理的には可能 理想音源モデル型ILRMA 理想パーミュテーション解決付きFDICA キック キック スネア スネア ハイハット ハイハット

25.

研究内容のまとめと今後の方針 25 25 • 研究内容のまとめ – BSSに基づく被り音抑圧に向け,マイクアレイを用いて 録音した空無セット演奏音のデータセットを作成・公開 – 作成したデータセットに既存のBSS手法を適用 – BSSに基づく被り音抑圧は困難であるが, 理想的には被り音抑圧に対する有効性が確認できた • 今後の方針 – 理想的なBSSでは音源分離における正解信号を用いたが, 実際のドラムセット演奏で正解信号は得られない – 正解信号を用いることなく分離性能の向上を目指す • 今回の実験では使用しなかった,近接マイクでの観測信号を用いるなど