170 Views
October 11, 24
スライド概要
日本大学 文理学部 情報科学科 北原研究室。 「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。
ゲームシーンからそれに適した BGMの音響特徴を予測する 林龍星
はじめに > 背景 > 戦闘シーンをプレイする場面 戦闘シーンをプレイする場面 ● プレイヤーが盛り上がるようにテンポが速くて激しいBGMが流れる うおぉぉぉぉー !! タイガーブレイク !! Omori: “Tussle Among Trees”, OMORI, 2020 伊藤賢治: “バトル1”, ロマンシング サ・ガ3, 1995
はじめに > 背景 > 会話シーンをプレイする場面 会話シーンをプレイする場面 ● プレイヤーが会話に集中するようにテンポが遅くて穏やかなBGMが流れる か゛わ゛い゛い゛な゛〜 ケ゛ル゛く゛ん゛ ❤ Omori: “By Your side.”, OMORI, 2020 伊藤賢治: “きょ・う・じゅ♥のテーマ”, ロマンシング サ・ガ3, 1995
はじめに > 背景 > BGMを作曲する場面 BGMを作曲する場面 ● 1人の作曲者が全てのBGMを作曲することが多い では,DQのOPはOぎやまOOいち先生 はい! EDもOぎやまOOいち先生 はい? 戦闘BGMもOぎやまOOいち先生 えぇ...(困惑)
はじめに > 背景 > BGMを選曲する場面 BGMを選曲する場面 ● 雰囲気を壊さないように複数の曲を選ぶことは難しい オラが作った和風ゲェムに合う BGMを探すぞ オーぺニングに合う BGMが見つかったぞ エンディングに合う BGMが見つかんねぇぞ
はじめに > 目的 目的 ● 条件1:同じゲームやシーンのBGM同士はある程度の一貫性があると良い ● 条件2:異なるゲームやシーンのBGM同士はある程度の差異があると良い これらの条件を満たしたBGMを検索するシステムを提案する OMORIの 戦闘BGM 一貫性 ロマサガの 戦闘BGM 差異 一貫性 OMORIの 会話BGM 一貫性 一貫性 ロマサガの 会話BGM
はじめに > 課題 課題 ● シーンを入力する ○ 自然の様子,建物の様子,人物,人物の行動など情報を入力する必要がある ○ シーンとBGMがペアになったデータセットを用意する必要がある and more
はじめに > 課題 課題 ● ゲームの映像をシーンとして入力する ○ インターネット上の動画共有サイトに大量に投稿されている ○ 自然の様子,建物の様子,人物,人物の行動などの情報が含まれている ○ シーンとBGMがペアになったデータセットである 入力データ 出力データ
はじめに > 関連研究 関連研究 ● ● Nicolas Mauthes: “RNNを用いたビデオゲーム音楽生成”, 2018 ○ ゲーム音楽の MIDIをLSTMで学習してそれらを模倣した音楽を生成する ○ 楽曲を出力することはできるが映像を入力することはできない Gunjan Aggarwal, Devi Parikh: “ダンス主導の音楽自動生成”, 2021 ○ 既存のダンス映像とリアルタイムのダンス映像から音楽を生成する ○ 映像を入力して楽曲を出力するとはできるが学習の対象はゲームではない
はじめに > 関連研究 関連研究 ● 山内拓真, 他9名: “ゲームシナリオと感情状態に合わせてBGMを選曲するシステム”, 2020. ● 星雄輝, 他3名: “CycleGANを用いたゲーム音楽のシーン別変換”, 2020. ● Chris Donahue, 他2名: “The NES Music Database: A Multi-Instrumental Dataset with Expressive Performance Attributes”, 2018. ● Chuang Gan, 他4名: “Foley Music: Learning to Generate Music from Videos”, 2020. ● 根本さくら, 他10名: “物語のシーンにおける登場人物の感情状態とBGMの関係性抽出”, 2020. ● 藤原優花, 他3名: “眼鏡型計測端末を用いたゲームプレイにおける重要なシーン抽出手法の検討”, 2019. ● 獅々堀正幹, 他3名: “Earth Mover’s Distanceを用いたハミングによる類似音楽検索手法”, 2007. ● Ali C. Gedik, Barış Bozkurt: “Pitch-frequency histogram-based music information retrieval for Turkish music”, Signal Processing, 2010. ● Nivethitha Somu, 他2名: “A deep learning framework for building energy consumption forecast”, 2021. ● Rial A. Rajagukguk, 他2名: “A Review on Deep Learning Models for Forecasting Time Series Data of Solar Irradiance and Photovoltaic Power”, 2019. ● Y. Lecun, L. Bottou, Y. Bengio, P. Haffner: “Gradient-based learning applied to document recognition”, 1998. ● Sepp Hochreiter, Jürgen Schmidhuber: “Short-Term Memory”, 1997. ● Diederik P. Kingma, Jimmy Ba: “Adam: A Method for Stochastic Optimization”, 2015. ● Sashank J. Reddi, 他2名: “On the Convergence of Adam and Beyond”, 2018.
提案手法 提案手法 ● ● ● 入力 ○ ゲーム名を入力して対応する学習済みモデルを指定 ○ 映像を学習済みモデルに入力してシーンを指定 映像 画像 画像 … 画像 CNN CNN CNN CNN L S T M 処理 ○ CNNで1フレームごとに画像をベクトルに変換 ○ LSTMで1フレームごとにベクトルを音響特徴に変換 ○ 予測した音響特徴とフリー音源の距離を計算 ○ 距離を基準にフリー音源集を昇順ソート 音響特徴 出力 ○ 学習済みモデル フリー音源集を出力 フリー音源
提案手法 > データの前処理 > 入力データの前処理 入力データの前処理 ● ゲームの映像をMP4形式で保存 ● 映像を12秒ごとに分割 ● BGRをRGBに変換 ● サイズを80:80に変換 処理前 処理後 Toby Fox: “Undertale”, 2015
提案手法 > データの前処理 > 出力データの前処理 音響特徴 出力データの前処理 ● ゲームの音声をWAV形式で保存 ● 音声を12秒ごとに分割 ● 音声を表の音響特徴に変換 01 stft 02 cqt 03 iirt 04 salience 05 chroma_stft 06 chroma_cqt 07 chroma_cens 08 melspectrogram 09 mfcc 10 delta 11 nmf
提案手法 > モデルの構成 モデルの構成 ● ● CNN ○ 画像を1次元のベクトルに変換する ○ LSTMは映像のような 3次元データを入力できない LSTM ○ 二次元配列の行を時系列として機械学習する ○ CNNは映像のような時系列データを扱えない CNN CNN CNN CNN L S T M
評価実験 評価実験 ● データセットを作成 ● 学習するゲームを決定 ● ○ Undertale ○ クロノ・トリガー 学習するゲームに類似した既存のゲームを計算 ○ ユーザが自作ゲームに類似したゲームを学習したモデルを選択する状況を再現 ● 予測した音響特徴の妥当性を評価 ● 出力されたフリー音源の妥当性を評価
評価実験 > データセットを作成 データセットを作成 ● ゲーム集 ○ ○ ● ゲーム 01 Ghost of Tsushima 02 OFF 03 OMORI 04 Undertale 05 クロノ・トリガー 06 すばらしきこのせかい 07 ニーア オートマタ 08 ペルソナ 5 09 モンスターハンター ストーリーズ 10 ロマンシング サ・ガ3 11 ワイルドアームズ 12 大神 YouTube上に投稿されている speedrun動画を保存 表のゲームから戦闘 , 探索, 会話シーンを 2個ずつ抽出 フリー音源集 ○ 表のサイトから約 170個のフリー音源を保存 ○ フリー音源に曲名 , 作曲者, URLの情報を追加 ○ ランダムに50個の評価実験に使用するフリー音源を抽出 サイト 01 bensound 02 DOVA-SYNDROME 03 魔王魂
評価実験 > 学習するゲームに類似した既存のゲームを計算 学習するゲームに類似した既存のゲームを計算 ● 方法:ゲームの類似度 = 画像のハッシュ値の差 ● 結果 ○ Undertaleに類似したゲームは OMORI(左図) ○ クロノ・トリガーに類似したゲームはロマンシング サ・ガ3(右図)
評価実験 > 予測した音響特徴の妥当性を評価 予測した音響特徴の妥当性を評価 ● 方法 ○ Undertaleとクロノ・トリガーを表の音響特徴で学習したモデルを用意 ○ モデルにOMORIとロマンシング サ・ガ3のシーンを入力して音響特徴を予測 ○ 以下の式を用いて妥当性のある音響特徴の組み合わせを計算 ■ あるシーンから予測した音響特徴は実際の音響特徴との距離が他のシーンの音 響特徴との距離より小さい方がよい
評価実験 > 予測した音響特徴の妥当性を評価 > Undertale Undertale ● 結果:cqtとchroma_censで学習したモデルが最も妥当 ● 考察:音響特徴の予測は部分的に成功した MAX MIN MIN
評価実験 > 予測した音響特徴の妥当性を評価 > クロノ・トリガー クロノ・トリガー ● 結果:salienceとdeltaで学習したモデルが最も妥当 ● 考察:音響特徴の予測は部分的に成功した 2nd MIN 2nd
評価実験 > 出力されたフリー音源の妥当性を評価 出力されたフリー音源の妥当性を評価 ● 方法 ○ Undertaleとクロノ・トリガーを表の音響特徴で学習したモデルを用意 ○ モデルに表のゲームの全てのシーンを入力して音響特徴を予測 ○ 全てのフリー音源の音響特徴と予測した音響特徴の距離を計算 ○ 以下の式を用いて出力されるフリー音源が散らばる音響特徴の組み合わせを計算 ■ 異なるシーンを入力すれば異なるフリー音源が出力される方が望ましい
評価実験 > 出力されたフリー音源の妥当性を評価 > Undertale Unedrtale ● 結果:melspectrogramで学習したモデルの結果が最も散らばる ● 考察:禁域にて, 魔女の小部屋, ファンタジー06が出力された
評価実験 > 出力されたフリー音源の妥当性を評価 > クロノ・トリガー クロノ・トリガー ● 結果:chroma_stftで学習したモデルの結果が最も散らばる ● 考察 ○ 戦闘シーンを入力すると Shall we meet?とTake a Chance !が出力された ○ 探索シーンを入力すると Dewが出力された ○ 会話シーンを入力するとオーケストラ 24とDowntownが出力された
評価実験 > 出力されたフリー音源の妥当性を評価 > クロノ・トリガー クロノ・トリガー ● 評価 ○ Take a Chance !:戦闘シーンに適切,速いテンポと電子音の音色で緊張した雰囲気 ○ Shall we meet?:戦闘シーンに不適切,遅いテンポとシンプルな構成でさわやかな雰囲気 ○ Dew:探索シーンに適切,速いテンポと繰り返しの多いメロディで軽快な雰囲気 ○ Downtown:会話シーンに適切,遅いテンポとジャズの曲調で落ち着いた雰囲気 ○ オーケストラ24:一部の会話シーンに適切,速いテンポとコーラスで緊張した雰囲気 MATSU: “Take a Chance !”, DOVA-SYNDROME, 2016 MATSU: “Dew”, DOVA-SYNDROME, 2015 Benjamin Tisso: “Downtown”, bensound, 2017
おわりに おわりに ● ● 提案手法 ○ 模倣したいゲームを学習したモデルを選ぶ ○ BGMを付与するシーンを入力して音響特徴を予測 ○ 予測した音響特徴に最も近い音響特徴を持つフリー音源を探索 評価実験 ○ ゲームの類似度を計算 ○ 予測した音響特徴の妥当性を評価 ○ 出力されたフリー音源の妥当性を評価
おわりに おわりに ● 結果 クロノ・トリガーを chroma_stftで学習したモデルにロマンシング サ・ガ3を入力した結果 ○ は適切 Undertaleをmelspectrogramで学習したモデルに OMORIを入力した結果は不適切 ○ ● 今後 ○ 1つの映像に複数のシーンが含まれないように映像を抽出 ○ 機械学習の処理内容の妥当性を評価 ○ 著作権問題を完全に回避するために楽曲生成も検討
終 林龍星