【生成Deap Learning 第2版】11.3~11.4

>100 Views

June 19, 25

#musegan #音楽生成 #MuseGAN #GAN #深層学習 #音楽情報処理

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 29.3K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 18.3K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 16.7K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 12.5K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 11.9K

各ページのテキスト

2025年度前期輪読会 #9 (2025/06/17)【生成Deep Learning】第11章音楽生成 (11.3～11.4) 京都大学大学院工学研究科 M1 河田賢斗

アジェンダ ■ 11.3 MuseGAN • • • • 11.3.1 バッハ合唱曲データセット 11.3.2 MuseGAN 生成器 11.3.3 MuseGAN 評価器 11.3.4 MuseGAN の分析 ■ 11.4 まとめ

11.3 MuseGAN ｎ  画像生成問題として音楽生成を考える  GAN の適用が可能では？  「MuseGAN」と命名  2017年に論文「MuseGAN: Multi-Track Sequential Generative Adversarial Network for Symbolic Music Generation and Accompaniment」で紹介される  複数小節の音楽を生成可能となる  高レベルな音楽的な特徴をきめ細かく制御すること図1. ピアノロールが可能となる 3

11.3.1 バッハ合唱曲データセット  MuseGAN の訓練のために必要なMIDIファイルをダウンロードする  バッハの4声合唱229曲のデータセットを活用  下図2のコードによりデータセットをダウンロードする • 時間ステップごとの4声各々の音程のMIDIノート番号(4つの数字)からなる配列 • 4分音符4拍分(1小節) が16時間ステップ⇒1時間ステップは4分音符1/4拍分 • train, valid, testのセットに分割されている⇒trainのデータセットを使用する図2. データセットのダウンロード 4

11.3.1 バッハ合唱曲データセット  GANに適した形状に修正する  各曲の出だし2小節を抽出→2小節の音楽を生成  1小節=4分音符4拍分=16時間ステップ・4声を通して84段階の音程がある  データの形状は以下の通り [BATCH_SIZE, N_BARS, N_STEPS_PER_BAR, N_PITCHES, N_TRACKS] ここで、 • BATCH_SIZE = 64 (64曲一括処理) • N_BARS = 2 (2小節分) • N_STEPS_PER_BAR = 16 (1小節=16時間ステップ⇒16分音符ベース) • N_PITCHES = 84 (音高はMIDIノート番号で84種類)  音程の番号をone-hot エンコーディングして⾧さ84のベクトルにする • N_TRACKS = 4 (4声部) 5

11.3.1 バッハ合唱曲データセット(参考) ←図3. 2小節分の生データを処理し、GAN を訓練するピアノロールデータに変換する 6

11.3.2 MuseGAN 生成器  MuseGANの構成  生成器と評価器から成る • 生成器の入力 : 単一のノイズベクトル(従来のGAN) , 4つの異なる入力(MuseGAN) 4つの入力 ① 和音 ② スタイル ③ 旋律 ④ グルーブ  4つの入力を独立に扱うことで生成される音楽の属性の変更が可能  和音と旋律はテンポラルネットワークに渡される  全トラックの各小節が連結され、楽譜が生成される ↑図4. 生成器の高レベルの図 7

11.3.2 MuseGAN 生成器  テンポラルネットワーク  入力は2小節のため、32時間ステップに相当する⇒入力の⾧さは32(=Z_DIM) (図5.①)  2次元転置畳み込み演算の適用のため、32チャネルの 1×1 テンソルに変形(図5.②)  Conv2DTranspose層(畳み込み層)を通じて、テンソルのサイズを1つの軸(時間軸)に拡張し、⾧さをN_BARS とする(図5.③)  Reshape 層で不要な次元を削除する(図5.④) 畳み込み演算を用いる理由 ① 小節の一貫性をネットワークに学習させるため ② 音楽が小節をまたいでどのように流れるのかを学習する機会を持たせるため → 図5. テンポラルネットワークのコード 8

11.3.2 MuseGAN 生成器  和音、スタイル、旋律、グルーブ  和音 • 入力 : ⾧さはZ_DIM • 目的 : トラック全体で共有される、時間とともに変化する音楽の一般的な進行を制御すること • 特徴 : TemporalNetworkを用いて単一のベクトルを、小節ごとに異なった潜在ベクトルに変換する  スタイル • 入力 : ⾧さはZ_DIM • 目的 : 曲の全体的なスタイルを制御する • 特徴 : すべての小節とトラックを通して同じであり、変換されることはない 9

10.

11.3.2 MuseGAN 生成器  旋律 • 入力 : [N_TRACKS, Z_DIM] の形状の配列であり、各トラック用の⾧さZ_DIMのラ • ンダムなノイズベクトルが渡される出力 : 各トラックに特化したTemporalNetwork に入力ベクトルが渡され、小節ごとに⾧さZ_DIMのベクトルとなる  グルーブ • • 入力 : [N_TRACKS, Z_DIM] の形状の配列であり、各トラック用の⾧さZ_DIMのランダムなノイズベクトルが渡される特徴 : 入力ベクトルはテンポラルネットワークに渡されず、直接そのまま次に渡される表1. MuseGAN生成器の要素 → 小節ごとに出力が違うかトラックごとに出力が違うかスタイル × × グルーブ × 〇和音〇 × 旋律〇〇 10

11.

11.3.2 MuseGAN 生成器  小節生成器結合 4つの潜在ベクトル小節生成器入力ベクトル (⾧さ : 4×Z_DIM) ピアノロール表現 (単一トラック・一小節)  転置畳み込み層を用いて時間と音程の次元を拡張するニューラルネットワーク  4つの潜在ベクトル(和音、スタイル、旋律、グルーブ : 入力)  ピアノロール表現(出力結果) • 形状 : [1, N_STEPS_PER_BAR, N_PITCHES,1] のテンソル 11

12.

11.3.2 MuseGAN 生成器  小節生成器を作成するKeras のプログラム ↑→ 図6. Kerasのプログラム ① 入力は⾧さZ_DIM×4のベクトル ② Dense層でテンソルに変形 ③ 時間ステップを拡張 ④ 音高方向に拡張 ⑤ Tanh活性化関数を使用 ⑥ 小節連結の準備として、サイズ1 の次元を追加 12

13.

11.3.2 MuseGAN 生成器  MuseGAN生成器を作成する図7.↑→ MuseGAN生成器を作成するKerasコード ① 生成器への入力を定義 ② 和音・旋律の入力をテンポラルネットワークに渡す ③ トラックごとに独立の小節生成器ネットワークを構築 ④ トラックと小節の組み合わせで小節を生成しながらループ ⑤ 4つのテンソル(入力)から複数トラック、小節に渡る楽譜を出力する 13

14.

11.3.3 MuseGAN 評価器  MuseGAN 評価器  目的 : 生成器が作成した楽譜を、本物の合唱曲集と見分ける図8. ↑→ MuseGAN評価器を作成するKerasプログラム ① 複数トラック・複数小節の楽譜の配列 ② 小節の軸に沿ってテンソルを縮退させる ③ 音程の軸に沿ってテンソルを縮退させる ④ 時間ステップの軸に沿ってテンソルを縮退させる ④ ノードを1つ持つDense 層 14

15.

11.3.4 MuseGAN の分析  入力パラメータの影響分析  MuseGANの特徴 • 生成器からの出力にて、84音程の全ての中で最大値を持つ音符を選択 • 閾値0と設定するのではなく、単純な最大値を取る  モデルの生成例  入力パラメータが、生成された音楽の系列データの高レベルな特徴に直接影響を与える →図9. MuseGANが生成した楽譜の例 15

16.

11.4 まとめ  音楽生成  逐次的なアプローチが必ずしも必要ではない  楽譜を画像として扱う⇒畳み込み⇒複数トラックの楽譜を生成 • 4つの入力ノイズベクトルを編成し、音楽の高レベルな特徴を完全に制御出来るように • 完璧な再現は難しいが、幅広い問題に適用可能なGANの力を際立たせるもの 16