ゲームシーンからそれに適したBGMの音響特徴を予測する

1.9K Views

October 11, 24

#ゲームAI #BGM生成 #音響特徴抽出 #CNN #LSTM

スライド概要

Kitahara Lab

@kthrlab

スライド一覧

日本大学文理学部情報科学科北原研究室。「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

音楽を題材に情報科学を研究する

Kitahara Lab 13.8K

卒論発表

Kitahara Lab 4.4K

自由度が徐々に上がる作曲ソフトウェア

Kitahara Lab 3.1K

ハモリパート練習支援システムのための音響信号を対象とした副旋律生成の検討

Kitahara Lab 3K

NMFを用いたギター音源からベース音源の生成

Kitahara Lab 3K

Attentionメカニズムを取り入れた音楽生成モデルの性能評価に関する研究

transformer

Kitahara Lab 2.9K

各ページのテキスト

ゲームシーンからそれに適した BGMの音響特徴を予測する林龍星

はじめに > 背景 > 戦闘シーンをプレイする場面戦闘シーンをプレイする場面 ● プレイヤーが盛り上がるようにテンポが速くて激しいBGMが流れるうおぉぉぉぉー !! タイガーブレイク !! Omori: “Tussle Among Trees”, OMORI, 2020 伊藤賢治: “バトル1”, ロマンシングサ・ガ3, 1995

はじめに > 背景 > 会話シーンをプレイする場面会話シーンをプレイする場面 ● プレイヤーが会話に集中するようにテンポが遅くて穏やかなBGMが流れるか゛わ゛い゛い゛な゛〜ケ゛ル゛く゛ん゛ ❤ Omori: “By Your side.”, OMORI, 2020 伊藤賢治: “きょ･う･じゅ♥のテーマ”, ロマンシングサ・ガ3, 1995

はじめに > 背景 > BGMを作曲する場面 BGMを作曲する場面 ● 1人の作曲者が全てのBGMを作曲することが多いでは，DQのOPはOぎやまOOいち先生はい！ EDもOぎやまOOいち先生はい？戦闘BGMもOぎやまOOいち先生えぇ...(困惑)

はじめに > 背景 > BGMを選曲する場面 BGMを選曲する場面 ● 雰囲気を壊さないように複数の曲を選ぶことは難しいオラが作った和風ゲェムに合う BGMを探すぞオーぺニングに合う BGMが見つかったぞエンディングに合う BGMが見つかんねぇぞ

はじめに > 目的目的 ● 条件1：同じゲームやシーンのBGM同士はある程度の一貫性があると良い ● 条件2：異なるゲームやシーンのBGM同士はある程度の差異があると良いこれらの条件を満たしたBGMを検索するシステムを提案する OMORIの戦闘BGM 一貫性ロマサガの戦闘BGM 差異一貫性 OMORIの会話BGM 一貫性一貫性ロマサガの会話BGM

はじめに > 課題課題 ● シーンを入力する ○ 自然の様子，建物の様子，人物，人物の行動など情報を入力する必要がある ○ シーンとBGMがペアになったデータセットを用意する必要がある and more

はじめに > 課題課題 ● ゲームの映像をシーンとして入力する ○ インターネット上の動画共有サイトに大量に投稿されている ○ 自然の様子，建物の様子，人物，人物の行動などの情報が含まれている ○ シーンとBGMがペアになったデータセットである入力データ出力データ

はじめに > 関連研究関連研究 ● ● Nicolas Mauthes: “RNNを用いたビデオゲーム音楽生成”, 2018 ○ ゲーム音楽の MIDIをLSTMで学習してそれらを模倣した音楽を生成する ○ 楽曲を出力することはできるが映像を入力することはできない Gunjan Aggarwal, Devi Parikh: “ダンス主導の音楽自動生成”, 2021 ○ 既存のダンス映像とリアルタイムのダンス映像から音楽を生成する ○ 映像を入力して楽曲を出力するとはできるが学習の対象はゲームではない

10.

はじめに > 関連研究関連研究 ● 山内拓真, 他9名: “ゲームシナリオと感情状態に合わせてBGMを選曲するシステム”, 2020. ● 星雄輝, 他3名: “CycleGANを用いたゲーム音楽のシーン別変換”, 2020. ● Chris Donahue, 他2名: “The NES Music Database: A Multi-Instrumental Dataset with Expressive Performance Attributes”, 2018. ● Chuang Gan, 他4名: “Foley Music: Learning to Generate Music from Videos”, 2020. ● 根本さくら, 他10名: “物語のシーンにおける登場人物の感情状態とBGMの関係性抽出”, 2020. ● 藤原優花, 他3名: “眼鏡型計測端末を用いたゲームプレイにおける重要なシーン抽出手法の検討”, 2019. ● 獅々堀正幹, 他3名: “Earth Mover’s Distanceを用いたハミングによる類似音楽検索手法”, 2007. ● Ali C. Gedik, Barış Bozkurt: “Pitch-frequency histogram-based music information retrieval for Turkish music”, Signal Processing, 2010. ● Nivethitha Somu, 他2名: “A deep learning framework for building energy consumption forecast”, 2021. ● Rial A. Rajagukguk, 他2名: “A Review on Deep Learning Models for Forecasting Time Series Data of Solar Irradiance and Photovoltaic Power”, 2019. ● Y. Lecun, L. Bottou, Y. Bengio, P. Haffner: “Gradient-based learning applied to document recognition”, 1998. ● Sepp Hochreiter, Jürgen Schmidhuber: “Short-Term Memory”, 1997. ● Diederik P. Kingma, Jimmy Ba: “Adam: A Method for Stochastic Optimization”, 2015. ● Sashank J. Reddi, 他2名: “On the Convergence of Adam and Beyond”, 2018.

11.

提案手法提案手法 ● ● ● 入力 ○ ゲーム名を入力して対応する学習済みモデルを指定 ○ 映像を学習済みモデルに入力してシーンを指定映像画像画像 … 画像 CNN CNN CNN CNN L S T M 処理 ○ CNNで1フレームごとに画像をベクトルに変換 ○ LSTMで1フレームごとにベクトルを音響特徴に変換 ○ 予測した音響特徴とフリー音源の距離を計算 ○ 距離を基準にフリー音源集を昇順ソート音響特徴出力 ○ 学習済みモデルフリー音源集を出力フリー音源

12.

提案手法 > データの前処理 > 入力データの前処理入力データの前処理 ● ゲームの映像をMP4形式で保存 ● 映像を12秒ごとに分割 ● BGRをRGBに変換 ● サイズを80:80に変換処理前処理後 Toby Fox: “Undertale”, 2015

13.

提案手法 > データの前処理 > 出力データの前処理音響特徴出力データの前処理 ● ゲームの音声をWAV形式で保存 ● 音声を12秒ごとに分割 ● 音声を表の音響特徴に変換 01 stft 02 cqt 03 iirt 04 salience 05 chroma_stft 06 chroma_cqt 07 chroma_cens 08 melspectrogram 09 mfcc 10 delta 11 nmf

14.

提案手法 > モデルの構成モデルの構成 ● ● CNN ○ 画像を1次元のベクトルに変換する ○ LSTMは映像のような 3次元データを入力できない LSTM ○ 二次元配列の行を時系列として機械学習する ○ CNNは映像のような時系列データを扱えない CNN CNN CNN CNN L S T M

15.

評価実験評価実験 ● データセットを作成 ● 学習するゲームを決定 ● ○ Undertale ○ クロノ・トリガー学習するゲームに類似した既存のゲームを計算 ○ ユーザが自作ゲームに類似したゲームを学習したモデルを選択する状況を再現 ● 予測した音響特徴の妥当性を評価 ● 出力されたフリー音源の妥当性を評価

16.

評価実験 > データセットを作成データセットを作成 ● ゲーム集 ○ ○ ● ゲーム 01 Ghost of Tsushima 02 OFF 03 OMORI 04 Undertale 05 クロノ・トリガー 06 すばらしきこのせかい 07 ニーアオートマタ 08 ペルソナ 5 09 モンスターハンターストーリーズ 10 ロマンシングサ・ガ3 11 ワイルドアームズ 12 大神 YouTube上に投稿されている speedrun動画を保存表のゲームから戦闘 , 探索, 会話シーンを 2個ずつ抽出フリー音源集 ○ 表のサイトから約 170個のフリー音源を保存 ○ フリー音源に曲名 , 作曲者, URLの情報を追加 ○ ランダムに50個の評価実験に使用するフリー音源を抽出サイト 01 bensound 02 DOVA-SYNDROME 03 魔王魂

17.

評価実験 > 学習するゲームに類似した既存のゲームを計算学習するゲームに類似した既存のゲームを計算 ● 方法：ゲームの類似度 = 画像のハッシュ値の差 ● 結果 ○ Undertaleに類似したゲームは OMORI（左図） ○ クロノ・トリガーに類似したゲームはロマンシングサ・ガ3（右図）

18.

評価実験 > 予測した音響特徴の妥当性を評価予測した音響特徴の妥当性を評価 ● 方法 ○ Undertaleとクロノ・トリガーを表の音響特徴で学習したモデルを用意 ○ モデルにOMORIとロマンシングサ・ガ3のシーンを入力して音響特徴を予測 ○ 以下の式を用いて妥当性のある音響特徴の組み合わせを計算 ■ あるシーンから予測した音響特徴は実際の音響特徴との距離が他のシーンの音響特徴との距離より小さい方がよい

19.

評価実験 > 予測した音響特徴の妥当性を評価 > Undertale Undertale ● 結果：cqtとchroma_censで学習したモデルが最も妥当 ● 考察：音響特徴の予測は部分的に成功した MAX MIN MIN

20.

評価実験 > 予測した音響特徴の妥当性を評価 > クロノ・トリガークロノ・トリガー ● 結果：salienceとdeltaで学習したモデルが最も妥当 ● 考察：音響特徴の予測は部分的に成功した 2nd MIN 2nd

21.

評価実験 > 出力されたフリー音源の妥当性を評価出力されたフリー音源の妥当性を評価 ● 方法 ○ Undertaleとクロノ・トリガーを表の音響特徴で学習したモデルを用意 ○ モデルに表のゲームの全てのシーンを入力して音響特徴を予測 ○ 全てのフリー音源の音響特徴と予測した音響特徴の距離を計算 ○ 以下の式を用いて出力されるフリー音源が散らばる音響特徴の組み合わせを計算 ■ 異なるシーンを入力すれば異なるフリー音源が出力される方が望ましい

22.

評価実験 > 出力されたフリー音源の妥当性を評価 > Undertale Unedrtale ● 結果：melspectrogramで学習したモデルの結果が最も散らばる ● 考察：禁域にて, 魔女の小部屋, ファンタジー06が出力された

23.

評価実験 > 出力されたフリー音源の妥当性を評価 > クロノ・トリガークロノ・トリガー ● 結果：chroma_stftで学習したモデルの結果が最も散らばる ● 考察 ○ 戦闘シーンを入力すると Shall we meet？とTake a Chance !が出力された ○ 探索シーンを入力すると Dewが出力された ○ 会話シーンを入力するとオーケストラ 24とDowntownが出力された

24.

25.

評価実験 > 出力されたフリー音源の妥当性を評価 > クロノ・トリガークロノ・トリガー ● 評価 ○ Take a Chance !：戦闘シーンに適切，速いテンポと電子音の音色で緊張した雰囲気 ○ Shall we meet？：戦闘シーンに不適切，遅いテンポとシンプルな構成でさわやかな雰囲気 ○ Dew：探索シーンに適切，速いテンポと繰り返しの多いメロディで軽快な雰囲気 ○ Downtown：会話シーンに適切，遅いテンポとジャズの曲調で落ち着いた雰囲気 ○ オーケストラ24：一部の会話シーンに適切，速いテンポとコーラスで緊張した雰囲気 MATSU: “Take a Chance !”, DOVA-SYNDROME, 2016 MATSU: “Dew”, DOVA-SYNDROME, 2015 Benjamin Tisso: “Downtown”, bensound, 2017

26.

おわりにおわりに ● ● 提案手法 ○ 模倣したいゲームを学習したモデルを選ぶ ○ BGMを付与するシーンを入力して音響特徴を予測 ○ 予測した音響特徴に最も近い音響特徴を持つフリー音源を探索評価実験 ○ ゲームの類似度を計算 ○ 予測した音響特徴の妥当性を評価 ○ 出力されたフリー音源の妥当性を評価

27.

おわりにおわりに ● 結果クロノ・トリガーを chroma_stftで学習したモデルにロマンシングサ・ガ3を入力した結果 ○ は適切 Undertaleをmelspectrogramで学習したモデルに OMORIを入力した結果は不適切 ○ ● 今後 ○ 1つの映像に複数のシーンが含まれないように映像を抽出 ○ 機械学習の処理内容の妥当性を評価 ○ 著作権問題を完全に回避するために楽曲生成も検討

28.

終林龍星