音楽の知識表現：自動作編曲への応用

>100 Views

September 30, 24

#音楽情報処理 #自動作曲 #音楽データ表現 #確率モデル #機械学習

スライド概要

2019年8月の人工知能学会知識ベースシステム（ＫＢＳ）研究会で行った招待講演で使用したスライドです。

Kitahara Lab

@kthrlab

スライド一覧

日本大学文理学部情報科学科北原研究室。「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

音楽を題材に情報科学を研究する

Kitahara Lab 12.6K

卒論発表

Kitahara Lab 3.6K

Attentionメカニズムを取り入れた音楽生成モデルの性能評価に関する研究

transformer

Kitahara Lab 2.6K

自由度が徐々に上がる作曲ソフトウェア

Kitahara Lab 2.6K

ハモリパート練習支援システムのための音響信号を対象とした副旋律生成の検討

Kitahara Lab 2.2K

ストリートダンスにおけるアクセントの踊り分けの分析

Kitahara Lab 1.7K

各ページのテキスト

音楽の知識表現：自動作編曲への応用日本大学文理学部情報科学科北原鉄朗 Twitter: @tetsurokitahara

自己紹介 ● 2002年3月： – 東京理科大学理工学部情報科学科卒業 ● 2002年4月～2007年3月： – 京都大学大学院情報学研究科 – 指導教員：奥乃博教授（後藤真孝氏（産総研）） ● 2007年4月～2010年3月： – 関西学院大学博士研究員 – 研究代表者：片寄晴弘教授 ● 2010年4月～現在： – 日本大学文理学部専任講師→准教授一貫して音楽情報処理の研究に従事

「音楽情報処理」とは音楽とコンピュータが関わる全てを対象とする研究分野オーディオ対象音楽推薦音楽情報検索応用寄り MIDI対象ジャムセッションシステム能動的音楽鑑賞自動伴奏 N次創作支援自動伴奏自動採譜類似度計算ピッチ抽出楽器練習支援カラオケ生成新音楽I/F 歌声合成演奏表情付け楽音合成基礎寄り演奏分析作曲支援 BGM生成自動作曲旋律予測楽曲分析

研究テーマ例（私の研究室の場合）音楽を聴く人を助けたい演奏する人を助けたい複数人が同じBGMをピアノ初見支援 MIDIギターの精度向上聴く場面の楽曲推薦演奏時の筋活動の分析歌う人を助けたいカラオケを盛り上げるスマートタンバリンハモリ練習支援音痴な人の分析作曲する人を助けたい旋律概形による作曲ループシーケンサマッシュアップのための選曲支援四声体和声の自動生成ベーシストの特徴分析 etc 土台となる技術 HCI 音響信号処理機械学習

音楽と情報科学/ITの関わり音楽活動のためのツールとしてのIT シンセサイザー、エレクトーンなど情報科学研究の題材としての音楽人工知能、知識情報処理情報検索、推薦システム DTM、DAW HCI

今日のAgenda 音楽のデータ表現音楽の法則の知識表現応用

音楽のデータ表現

音楽のデータ表現コード（chord） C C D/F G コード認識楽譜（score）自動採譜（後段）ピアノロール（piano-roll）自動採譜（前段）スペクトログラム（spectrogram）周波数分析（フーリエ変換など）波形（waveform）

波形 vs スペクトログラム波形 ● ● ● ● スペクトログラム時間領域の表現周波数に関することは読み取れない音楽的な内容・特徴を読み取るのはほぼ無理アナログ信号に対して標本化・量子化を行うことで得られる ● ● ● 時間・周波数表現倍音の存在により、複数音が重なった時の読み取りは困難波形に対して短時間フーリエ変換を繰り返すことで得られる

10.

スペクトログラム vs ピアノロールスペクトログラム ● ● ● ピアノロール時間・周波数表現信号処理のみで得られる（パターン認識不必要）倍音がそのまま表示 ● ● ● 時間・音高平面上の記号的表現「音符」の集合音符::= (発音時刻, 音高, 音長) 音色は読み取れない

11.

ピアノロール vs 楽譜ピアノロール楽譜 ● ● ● 発音時刻や音長は、実際の演奏に基づいて表示 ● 楽器演奏の記録方式でであるMIDIの視覚表現 ● 発音時刻や音長は、実際の演奏とは異なる音長などの細かな特徴は指示記号として表現演奏者に対する指示で、解釈の余地がある

12.

楽譜 vs コード表記楽譜コード表記 C C D/F G ● 具体的な演奏内容を指示 ● ● ● コード名で表記されたコードをどう演奏するか演奏者が考えるヴォイシングの違い（ド・ミ・ソ vs ド・ソ・ミ）は表現されない楽器間の互換性は高い

13.

なぜ、音楽は計算機利用が盛んか記号的表現（楽譜、ピアノロール、コード名）の確立その土台となっているのが「離散性」音の高さ 262Hz 277Hz 293Hz 311Hz 329Hz ・・・・・・ド音の長さド# レレ# ミ 0.25秒 0.5秒 1秒 0.125秒 2秒（テンポ=120の場合）

14.

なぜ離散的な値しか使わないのか（音の高さの場合） 1つに聞こえる音も、実はいくつもの音が重なってできている振幅 440Hz（ラ）の音基本周波数同時に鳴らすと・・・周波数振幅 660Hz（ミ）の音振幅紫の部分が重なる基本周波数周波数周波数

15.

もしも、片方の周波数がずれていたら・・・振幅 440Hz（ラ）の音基本周波数同時に鳴らすと・・・うなりの原因になる周波数振幅振幅 620Hz（ミ♭）の音基本周波数周波数周波数基本周波数が 2:3 とか 3:4 だと「うなり」が起きない

16.

周波数を選んでみよう 2つの音の周波数比が次のようになるように周波数を選ぼうド:ソ=2:3 ソ:レ=2:3 ファ : ド = 2 : 3 ド:ミ=4:5 ソ:シ=4:5 ファ : ラ = 4 : 5 × 3/2 × 3/2 × 5/4 × 5/4 ド 264Hz × 5/4 レミファソラシドレ 330Hz 396Hz 495Hz 594Hz 440Hz 297Hz 352Hz 528Hz ÷2 ×2 × 2/3 ※ 実際の周波数は少し異なる場合がある

17.

純正律と平均律純正律周波数比に基づいて決めたドレミと周波数の関係 × 3/2 × 5/4 × 5/4 ドレ × 3/2 × 5/4 ソ× 2/3 ラミファシドレ ※隣同士の周波数比が一定にならない平均律隣同士の周波数比が一定になるように決めたドレミと周波数の関係 × 12√2 ・・・・・・ドド# レレ# ミ（レ♭）（ミ♭）ファファ# ソソ# ララ# シ（ソ♭）（ラ♭）（シ♭）ドド# レ（レ♭）

18.

このように、周波数軸を離散化することで、離散的なモデルを使うことができる以降、離散化された（記号的な）表現（特に、楽譜、コード名）を前提に話を進める

19.

音楽の法則の知識表現

20.

音階（スケール）ある楽曲において、主に使う音高を集めたもの半音階 {ド, ド#, レ, レ#, ミ, ファ, ファ#, ソ, ソ#, ラ, ラ#, シ} 長音階 {ド, レ, ミ, ファ, ソ, ラ, シ} （ハ長調）短音階 {ド, レ♭, ミ♭, ファ, ソ, ラ♭, シ♭} （ハ短調） ♭ ♭ ♭

21.

長音階・短音階をunigramで表す ● ハ長調の楽曲は、主に {ド, レ, ミ, ファ, ソ, ラ, シ} が使われるが、それらだけが使われるわけではない。その傾向を確率モデル (unigram) で表すハ長調の楽曲（約250曲）のunigram ０.25 このunigramに沿ってメロディを０ドレミファソラシ生成すれば、ハ長調っぽくなる?

22.

その他の音階五音階（ペンタトニックスケール） ● 長音階・短音階から5つの音を選んだ音階 ● 【例】沖縄音階 {ド, ミ, ファ, ソ, シ}（ハ長調の場合）０.2 ブルーススケール ● ブルースで使われる音階 ● {ド, レ, ミ♭, ミ, ファ , ソ♭, ソ, ラ, シ♭, シ} ０ドレミファソラシ

23.

音高の遷移をN-gramで表す順次進行に比べて跳躍進行は頻度が低い ● 特に跳躍進行が連続することは滅多にない ● 順次進行音高の遷移でbigramでモデル化 from to ドレ跳躍進行ミファソラシドレミファソラシ

24.

和音（コード）ハ長調の音階の各音高に2つ上（3度上）の音を乗せて、さらにその2つ上の音を乗せて和音を作る和音の遷移の傾向をオートマトンで書く Dominant(D) Tonic(T) Sub-dominant(S) 和音の遷移の傾向 T (→ S) → D → T （ブルースなどだとちょっと違う場合もある） S T D

25.

※ブルースの場合コードの遷移をN-gramで表す直前のコードがCの場合コードの出現確率 0.2 0.5 0.18 0.45 0.16 0.4 0.14 0.35 0.12 0.3 0.1 0.25 0.08 0.2 0.06 0.15 0.04 0.1 0.02 0.05 0 0 C Db D Eb E F Gb G Ab A Bb B 直前のコードがFの場合 C 0.7 0.3 0.6 0.25 0.5 0.2 0.4 0.15 0.3 0.1 0.2 0.05 0.1 0 0 Db D Eb E F Gb G D Eb E F Gb G Ab A Bb B Ab A Bb B 直前のコードがGの場合 0.35 C Db Ab A Bb B C Db D Eb E F Gb G

26.

メロディとコードの関係をHMMで表す C C Dm G 隠れ状態 C C Dm G 観測記号ド ● ● ● ドドミレドレミレメロディの背後にはコードがあり、これを隠れ状態とするメロディの各音高は、コード（＝隠れ状態）に依存した確率分布に従って出力されると考える観測記号からの隠れ状態の推定で、和声付けができる

27.

コード進行をPCFGで表す言語と同様、コード進行は文脈自由文法で書ける例1 H→T ● T → T T ● T → D T ● T → C ● D → G ● この文法で扱えるコード進行の例：「C G C」例2 H→T ● T → T T ● T → D T ● T → T S ● T→C ● D → G ● S → F ● この文法で扱えるコード進行の例：「C G C」「C F G C」「C F C G C」通常は、非決定的なので確率化したPCFGを用いる

28.

PCFGにメロディも追加する [諸岡他, 音響学会 2007] 導出規則にメロディの音高も入れると、コード進行からメロディが生まれる過程を書ける例 H→T ● T → T T ● T → D T ● T → C ● D → G ● H C→ド ● C → ミ ● G → レ ● ド→ドレ ● ミ → ミファ ● この文法は「ドレミファ」というメロディを受理でき、対応するコード進行は「C」 T T T C C ドミドレミファ

29.

2次元PCFG [Kameoka et al. ISMIR 2012] 縦・横両方に拡がるポリフォニー（多声音楽）のモデルポリフォニーの例時間軸・音高軸のそれぞれに導出規則いずれの図も [Kameoka et al. ISMIR 2012] より

30.

応用

31.

応用 ● 自動採譜のトップダウンな知識として利用 ● 自動作曲・自動編曲に利用 – 作曲：何か → メロディ – 編曲：メロディ（＋何か） → 伴奏（コード進行含む）（あくまで便宜的な定義）ここでは、自動作曲・自動編曲への応用を取り上げる

32.

（2013年度修了鈴木峻平氏の研究成果）【事例1】四声体和声の自動生成ソプラノパートが与えられ、残りの3パートを自動的に生成する PLAY C F Em G C C G7 C F C Am C G C

33.

何が難しいのか C G7 C G7 同時に鳴る各パートの音の関係（同時性）ソプラノの音が「ミ」のときに、そのときのバスの音が「ド」は妥当か? 旋律の横方向のつながり（継続性）ある音が「ミ」のときに、その次の音が「レ」は妥当か? 同時性と継続性の両方を満たす音を探す必要がある和声学の分野で様々なルールが提案されているが、すべてを矛盾なく適用するのは簡単ではない

34.

ベイジアンネットワークの利用直前の音現在の音次の音個々のには、各音名に対する確率が入る。 y x は、 x の確率が y に依存して決まることを表す与えられる or 決定済確率計算対象

35.

データ学習データ ● 賛美歌254曲 ● すべてハ長調に移調して使用評価データ ● 和声学の教科書から抽出した 32個のメロディ

36.

別の実行例

37.

【事例2】コードヴォイシング（関西学院大学長田研との共同研究）与えられたコード進行に対して音の配置（ヴォイシング）を決定エレクトーンに着目ヴォイシングの例 C F G Naive C Jazzy 課題テンションノート音の省略転回形例： 9ths, 11ths, … ジャズなどで特に重要不協和音や物理的制約を避ける音の流れをスムーズに

38.

ベイジアンネットワークの利用

39.

結果の一例 “Misty” (by Erroll Garner) 左手ヴォイシング • テンションノートが付与された • 自然な転回形が選択されたベースヴォイシング • ほとんどでルート音が選択された b１３ｔｈ９ｔｈ９ｔｈ Non-root note Top tones are smoothly connected

40.

【事例3】（Universitat Pompeu Fabra との共同研究）曲線描画に基づく即興演奏支援システム画面上に「旋律概形」を描くと、その場でメロディが生成

41.

音高決定法基本的なアイディア 3 曲線への近さと音楽的妥当性の両方を満たす音高列を「遺伝的アルゴリズム」（GA）で探す C A F 適合度の設計 F(N) = w0 sim(N) + w1 seq(N) + w2 h(N) + w3 ent(N) 旋律概形への近さ音高遷移のもっともらしさコードと音高の関係メロディの複雑さブルースの旋律53曲との比較に基づいて計算

42.

（2017年度卒業白石美南氏・小笠原梢氏の研究成果）【事例4】カラオケのためのハモリ練習支援システムこの研究が目指すところカラオケでハモりたい人が、ハモリパートを練習できる原曲にハモリパートがなくてもハモれるようにしたい ● 原曲のハモリパート（ある場合）異なっても構わない ● ● 家などで1人で練習したい技術的課題 ● ● ハモリパートの自動生成ハモリパートの練習環境の提供解決策ルール or 確率モデル歌唱者の音高表示などでフィードバック

43.

ハモリパートの自動生成何が難しいか M3 m3 P4 上ハモリ主旋律下ハモリ解決策 HMMでモデル化（別途、ルールベースの手法も実装）主旋律に対して、 M3（半音4つ分）、 m3（半音3つ分）、 P4（半音6つ分）どれがいいかは、調やコード進行などに依存ハモリ hi-1 hi hi+1 主旋律 ni-1 ni ni+1 伴奏 bi-1 bi bi+1

44.

統一的なモデルに向けてレイヤーごとに時系列モデルを作り、レイヤー内の時間的依存関係とレイヤー間の依存関係を記述 → 様々なタスクの統一的なモデルを作れるはず Chord-level (melody) Score-level or Pianoroll-level (bass) Spectrogramlevel

45.

今後に向けて ● ● ● ● 大局的な依存関係をどう記述・学習するか – フレーズ単位の依存関係 – 曲の構成（A-B-Aなど）や繰返し構造予測モデルとしての可能性 – リアルタイムシステムにするなら予測は不可欠 DNN（CNN、RNNなど）の活用 – 増えつつあるが、認識系の研究に比べて少数評価をどうするか

46.

まとめ ● ● メロディの音の遷移、コード進行のコードの遷移、メロディとコードの関係を確率モデルで表現それを用いて、自動作曲、自動編曲などを実現音楽は数理的扱いに適した芸術メディア ● 数理モデルを用いた音楽理論の精緻化・再構築 ● 音楽を題材とした数理（特に時系列）モデルの研究 ● 音楽を題材とした数理モデルの教育 …などなど、様々な可能性アリ。ぜひ皆さんも算入を！