121 Views
February 07, 25
スライド概要
2025年度卒業研究発表 川原未波
日本大学 文理学部 情報科学科 北原研究室。 「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。
旋律の歌唱可能性の 定量化に向けた 歌唱の正確さの一分析 北原研究室 川原未波
背景 ・ AI技術を用いて歌唱メロディの自動生成を行うコン テンツは多数存在する ・メロディを生成してくれるのはいいけど、それは一 般人で歌えるのか?
目的 ・一般の人が歌って楽しい歌唱生成を! ・人が歌うことができるかどうか, 歌唱可能性 (melodic singability)を定義する ・楽曲におけるどの要素が歌唱可能性に影響を与える かを定量化する
仮説 この2つを調べる! ・関連研究*1より 1.音の跳躍 2.メロディの複雑さ(テンポやリズム) 3.音域 歌いやすさに影響を与えている可能性があると示唆さ れた *1 歌いやすさ・歌いにくさに着目した楽曲検索システムのための ポピュラー楽曲の歌唱難易度算出の検討(2019)
実験・概要 ・歌唱用メロディを被験者に歌ってもらう ・録音機能と音源再生を備えたフォームを提供 ・集めたデータにおける歌唱の正確さから、楽曲におけるど の要素が歌唱可能性に影響を与えるか分析する
実験・メロディ ・メロディ 18メロディ (右のメロディを3度繰り返し) ・跳躍別3種類 順次進行. 2, 3度含む. 5度含む ・テンポ別3種類 BPM80, 120, 150 ・歌詞2種類 歌詞A:ダダダダダダダダダー 歌詞B:ダビダバダビダバダー
実験・手順 指定フォームを開く 録音開始・音源再生 音源に沿って 歌唱し録音 以上を18メロディで 繰り返す 実験用音源
実験・参加者 ・実験参加者数 計100名 ・参加者自身の環境で録音を行う ・内、基本周波数推定にて有効な数値が取得できな かった9人分を除いた91名分のデータを提示
実験・データ解析 ・pYIN基本周波数推定アルゴリズムを用いて, 楽曲全体の基 本周波数を分析する ・被験者の録音データと正解データ(実験で使用した機械音声 の歌唱データ)を比較する ・歌唱の正確さを分析するにあたり, 「歌唱データ全体の音高 の一致率」の観点から数値的評価を行う
データ解析・時間同期 ・pythonの拡張モジュール「numpy」のcorrelate関 数を利用して二つのデータの相関を測り, 時間軸を調 整
データ解析・ノイズ調整 ・録音中にノイズが混入する可能性が考えられ る ・ 振幅値の最大値が1.0になるように正規化 ・振幅が0.01以下のフレームは記録対象から除 外する
データ解析・単位変換 Hz cent f:変換するHz値 f_ref:基本周波数(440Hz)
データ解析・音高調整 ・参加者ごとに適した音域は違う ・オクターブ違いは誤差にカウントしない ・正解データの音高を+2400, +1200, ±0, -1200, 2400に変換 ・それぞれの誤差を算出した上で、最も誤差が小さい データを解析対象として採用
データ解析・計算 ・中央絶対誤差(MedAE)を用いて評価する x_t:時間tにおける録音データのcent値 p_t:時間tにおける正解データのcent値
結果・考察 ・実験参加者全体のMedAEの算出結果を箱ひげ 図にて表示 ・縦軸がMedAE、横軸が各旋律を表す
結果・考察 上手く歌えて ない人がより 歌えてない? 順次と比べて 中央値とQ3が 大きく上昇 BPMによって 大きく変化 BPM80~120で (x-y-z: x = 音の跳躍, y = 歌詞, z = BPM) 変化が大きい?
結果・考察 歌詞による違い は大きくない 2-1-1~2-2-3に おいて歌詞Aの方が 歌いにくい (x-y-z: x = 音の跳躍, y = 歌詞, z = BPM) 3-1-1~3-2-3に おいて歌詞Bの方が 歌いにくい
結果・考察 メロディの慣れ? (x-y-z: x = 音の跳躍, y = 歌詞, z = BPM)
結果・分析手法の妥当性 分析するファイルのcent値書き起こし(成功例)
結果・分析手法の妥当性 分析するファイルのcent値書き起こし(失敗例) ここで相関が 最大に…?
結論 ・跳躍が関わる場合にMedAEの値が大きく変化 ・跳躍のみ & 跳躍とBPM ・どの進行でも、BPM80→120の変化は大きい ・歌詞は場合によって歌いやすさが異なる? ・慣れの影響 ・時間同期において、現手法では不十分
以上