Attentionメカニズムを取り入れた音楽生成モデルの性能評価に関する研究

2.6K Views

February 07, 25

#transformer #旋律生成 #音楽AI #Transformer #拍節 #リズム制約

スライド概要

2024年度卒業研究発表名越崇晃

Kitahara Lab

@kthrlab

スライド一覧

日本大学文理学部情報科学科北原研究室。「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

音楽を題材に情報科学を研究する

Kitahara Lab 12.6K

卒論発表

Kitahara Lab 3.6K

自由度が徐々に上がる作曲ソフトウェア

Kitahara Lab 2.6K

ハモリパート練習支援システムのための音響信号を対象とした副旋律生成の検討

Kitahara Lab 2.2K

ストリートダンスにおけるアクセントの踊り分けの分析

Kitahara Lab 1.7K

ハウスミュージックの楽曲構成を決める要因とその法則性の分析

Kitahara Lab 1.3K

各ページのテキスト

拍節関係を取り入れた旋律生成モデルに関する研究 5420063 名越崇晃

旋律生成モデルとは • 音楽の基本要素である旋律（メロディ）を自動で生成するAIモデル続きを生成する入力

旋律生成の需要即興演奏演奏者と一緒に演奏する作曲支援作曲者のニーズに合った旋律を作成する

Attentionを使ったモデルの例 Transformerは、Vaswani et al. (2017) によって提案されたニューラルネットワークアーキテクチャであり、Self-Attentionを用いることで長期的な依存関係を効果的に学習可能。テキスト生成 GPT, など画像生成 DALL-E, など音楽生成 Suno, など

旋律生成への応用方法様々なアプローチがあるが、ここではMIDIに焦点を当てる • MusicTransformer（Huang et al., 2019） [音高, 長さ, タイムシフト, 音高 …]

現状のモデルの課題問題1 問題2 テンポ変化が引き起こすデータの冗長性 1小節の定義不足

テンポ変化が引き起こすデータの冗長性テンポ:120 2小節 [noteOn_72, shift1s, noteOff_72, noteOn_74, shift1s, noteOff_74, noteOn_72, shift2s, noteOff_72 ] テンポ:240 [noteOn_72, shift0.5s, noteOff_72, noteOn_74, shift0.5s, noteOff_74, noteOn_72, shift1s, noteOff_72 ]

テンポ変化が引き起こすデータの冗長性 • テンポの違いによって、同じリズムを刻んでいてもシーケンスが異なるデータとして扱われてしまう点タイムシフト(時刻)をそのままトークンにしてしまっているため大量のデータセットが必要

1小節の定義不足 = 4分音符音楽において1小節の長さは必ず厳守する必要がある。異なると違う拍子になってしまうため

10.

1小節の定義不足 • 現状のモデルだとタイムシフトでしか時系列を表現できていない 1小節の定義が曖昧になってしまっているのではないかいくら損失が低下しても正しい拍節で生成できない場合がある

11.

現状のモデルの課題問題1 問題2 テンポ変化が引き起こすデータの冗長性 1小節の定義不足

12.

提案するモデル本研究で提案するモデル名をMORTM(Metric-Oriented Rhythmic Transformer for Melodic generation)と呼ぶ SRC 続きを生成したい旋律を入力 MORTM TGT 一小節先までの続きを生成

13.

提案手法1 • トークナイザー問題1の解決策として、1 小節を 64 分割し発音時刻の代わりに相対的な値にする。(ティック) 小節の節目を表す特殊トークン<SME>の導入により、 1小節を強調している。 ※src : 入力シーケンス tgt : 出力シーケンス

14.

提案手法1 • アーキテクチャ Self-Attentionには相対位置エンコーディングを適用

15.

提案手法2 • リズム制約損失関数音符の配置が指定されたティック内に収まるように制約を加える損失関数を提案 • L_CE : 従来のクロスエントロピー損失 • L_theory,i : 第 i 小節におけるリズム制約的損失 • N : 1 シーケンス内の小節数（8 小節） • cw と rw : エポックごとに変化する重み.

16.

パラメータ • MORTMは以下のようなパラメータで機械学習を行った • 埋め込み次元数 : 768 • エンコーダー・デコーダーレイヤー数 : 15 • ヘッド数 : 12 • フィードフォワード層 : 3072 • 学習率 : NOAMスケジューラー (約 1e – 9 ~ 1e-4) 学習損失検証損失学習損失と検証損失の推移

17.

音高予測実験 P_x：ノートナンバーx • 複数回生成を行い、各音の高さの確率分布を可視化する縦軸：確率横軸：トークン(確率の高い順)

18.

音高予測実験 P_x：ノートナンバーx • 複数回生成を行い、各音の高さの確率分布を可視化する図.Fmスケールの音高予測実験の結果上からAb3, Db4, Bb3となっている。(Fmスケール内である)

19.

音高予測実験 P_x：ノートナンバーx • 複数回生成を行い、各音の高さの確率分布を可視化する図.Dmスケールの音高予測実験の結果上からG4, A4, C5,となっている。(Dmスケール内である)

20.

音高予測実験考察全てのスケールに対し、適切な音高予測を出したことから、スケールを理解していると考察する。

21.

旋律生成実験リズム制約損失関数の効果を検証 SRCを4小節与える譜面に可視化 1小節を64ティックで表現できているかを観察

22.

旋律生成実験結果1 リズム制約有結果2 リズム制約無し