【生成Deap Learning 第2版】11.1~11.2

>100 Views

June 19, 25

#music transofrmer #音楽生成 #Sparse Transformer #深層学習 #MIDI #音楽情報処理

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 22.2K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.2K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 12.6K

各ページのテキスト

2025年度前期輪読会＃９(2025/06/19) [生成Deep Learning] 第11章音楽生成 (11.1~11.2) 京都大学経済学部３回大澤衡正 0

アジェンダ ◼ 概要 ◼ 問題設定 ◼ 学習・結果確認 ◼ 発展的な話題本スライドの内容の実装は下記のレポジトリで公開しています https://github.com/OsawaKousei/music_generation 1

https://github.com/OsawaKousei/music_generation

概要音楽生成というタスクの特徴点と今回取り組む基本的なアイデアを説明します音楽生成の特徴点  音楽の時系列構造を学習し、次の音符を確立の離散集合から選択する必要がある ↑これはテキスト生成と同様だが、↓はこれと異なる点である  音楽は多くの場合ポリフォニック（多旋律）であり、複数の並行するストリームを有する  各楽器の音符の変化は同時に起こるとは限らず、１つの楽器が同じ音を発している間に別の楽器は音符を変えるといったケースが想定される ⇒一度に１単語づつの処理を行えたテキスト生成とは大きく異なる音楽生成のためのトランスフォーマー今回はOpenAIのMuseNetに着想を得たデコーダートランスフォーマーを使用します元来のトランスフォーマーは系列データ長Nの2乗の計算量を要しますが、音楽生成では曲の長期構造を保って作曲させたいので、これは不都合が大きいですそのため、今回はSparse Transfomersという計算量を改善したトランスフォーマーを用います 2

問題設定音楽生成タスクの問題設定について説明します音楽生成は次にくる音符を予測するタスクとしてとらえることができます例えば、下の楽譜（バッハの無伴奏チェロ組曲第一番の出だし）の次の音符は何でしょうか？ヒント：小節という概念があり、これは少ない決まった数の拍を含む音楽の単位です。楽譜上の五線譜を縦断する縦線によって表され、ここでは１小節は４拍ですね。 3

問題設定今回用いるデータセットとその前処理について説明しますデータセット今回使用するデータはバッハによるチェロ組曲のMIDIファイルのセットです music21というライブラリを使用することで、これをパースし、可視化や構造化が行えますこれを用いて音楽データを音符と長さの組み合わせとして表現しますトークン化音符と長さをそれぞれトークン化します全体の流れは⇒のようになります 4

問題設定最後に、訓練データの作成方法について説明します訓練セットはスライディングウィンドウの手法を使って、音符と長さの文字列を50要素のチャンクに分けることで行います。トランスフォーマーはウィンドウ内の要素を与えられ、１ステップ後の音符と長さを予測するように訓練されます 5

学習・結果確認オートエンコーダのキーとなるアイデアとアーキテクチャについて説明します位置埋め込み長編のコンテンツ生成に適した正弦波埋め込みを使用します Embedding層を用意するやり方と異なり、ベクトルの最大長Nを定義する必要がありません位置埋め込みの可視化 - トークン埋め込み - 位置埋め込み - トークンと位置の埋め込みアーキテクチャ図モデル入出力には音符と長さの２つが必要です今回は個々の埋め込みを結合して与え、出力を全結合層で取り出す、という方法でこれを実現します 6

学習・結果確認実際にモデルを学習させて、その結果を確認してみますエポック数楽譜分析 1 非常に単調な曲が生成されているが、ランダムに弾くよりは曲に近く感じる 10 音符の密度が上がり、繰り返す旋律が現れる、作曲している感じになってきた 20 10エポック目より落ち着いた曲調になったが、旋律は洗練されてきている 50 余り改善を感じないが、強いて言うならリズム感が良くなった気もする 100 それらしいものが生成された私よりは作曲がうまいだろう 7

学習・結果確認モデルの学習結果を分析してみます各時間ステップでの予測分布をヒートマップで可視化(100 epoch) 書籍の図と比べてさらに確信度が強まっているが、単に過学習しているだけのようにも思えるアテンションの可視化(100 epoch) キー、拍子、休符に関する傾向は本書と同様 Dマイナーキーへの注意がより強化されている 8

10.

発展的な話題多旋律の音楽に対応するためのグリッドトークン化という手法を紹介します右図のように複数のパートに分かれた音楽をグリッド上に書くことを考えますグリッドのｙ軸は音程を表し、ｘ軸は１ステップの時間経過を表します。例えば左図では１ステップを16分音符として最初の楽譜をグリッドで表示しています。これのトークン化は各ステップの音程を単に並べて行います。連続する長い音符が複数のトークンに分かれるケースがあるにも関わらず、この方法は「驚くほど」上手くいくと本書では紹介されています。欠点としては、１つの長い音符と隣り合う短い音符の区別が為されないこと、不規則な拍子に対応できないこと(※１)、 ※1 １ステップの長さを短くすれば可能ですが、音程と長さ以外の要素を追加することが難しいことが挙げられています。計算量の観点から非現実的です 9

11.

発展的な話題多旋律の音楽に対応するためのイベントベーストークン化という手法を紹介しますイベントベーストークンとは、豊富なトークンの集合を持った語彙と言うことができます例えば下図では次の３つのトークンで曲を表現しています • 与えられた音符の演奏を開始 • 与えられた音符の演奏を終了 • 与えられたステップだけ時間を進めるイベントベーストークンの語彙には別タイプのトークンを容易に組み込めます例えば、音符のダイナミクスやテンポの変更などです学習はグリッドトークンによるものより複雑ですが、高い表現力を有しています 10