269 Views
April 12, 16
スライド概要
DEIM2016で発表したスライドです。
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
独立した音楽と映像からの 音楽動画の印象推定 大野直紀(明治大学 総合数理学部B3) 土屋駿貴(明治大学 総合数理学部B3) 中村聡史(明治大学 総合数理学部) 山本岳洋(京都大学)
泣きたい気分だから 悲しい音楽動画を 視聴したい… 気分を昂ぶらせたい! 激しい音楽動画を 視聴したい! でも知ってる曲には飽きてきたから 新しい音楽動画を視聴したい…
印象を用いた検索は難しい!!
背景 • 印象を用いた検索は難しい • キーワード検索 • テキスト情報に印象が書かれていることが少ない • タグ検索 • 印象を含むタグが少ない • ニコニコ動画では5%[山本09] • 印象を用いた検索の実現のためには検索対象 の印象を推定する必要がある
関連研究 • 音楽の印象推定 • 映像の印象推定 • 音楽聴取で受ける 感動の評価要因 • 動画の特徴量から の感性の主因子の 因子得点の推定 音楽の印象 [大出09] • 音楽データを対象 としたイメージ検 索のための 感情価の自動生成 [佐藤99] 映像の印象 [宝珍04] ? 音楽動画の印象
問題点 • 音楽動画内での各メディアの組み合わせに よって受ける印象が明らかでない • 音楽動画の印象は音楽の印象と映像の印象のどちらに影響 を受けるのか不明 • 音楽の印象推定,映像の印象推定ができても 音楽動画に適用できない!
目的 音楽動画の印象を 音楽と映像の印象の組み合わせ を用いて推定する! • 音楽と映像の印象と音楽動画の印象の関係性 を明らかにする • 音楽の印象推定,映像の印象推定が可能になれば 組み合わせで音楽動画の印象推定も可能に!!
目的 音楽の印象 映像の印象 ? 音楽動画の印象
アプローチ ① 印象評価データセットを用いて 音楽と映像の組み合わさり方の分析 ② 意図されていない音楽と映像の組み合わせの 関係性を明らかにするためのデータ構築と 分析 ③ 組み合わせ手法の検討 ④ 印象推定
印象評価データセット • ニコニコ動画上の音楽 C1 動画500件のサビ部分を C2 「音楽のみ」 C3 「映像のみ」 「音楽動画」 C4 の3メディアタイプに 分離したものを8印象 C5 に対して5段階で評価 C6 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい Valence 楽しい,悲しい Arousal 積極的,消極的
分析 • 音楽,映像の印象がどのように組み合わさっ て音楽動画の印象になっているのかを分析 • 分析の際,音楽動画の印象評価値が-0.5以下 を低評価群,0.5以上のものを高評価群とする -2 -0.5 低評価群 +0.5 高評価群 +2
分析 • 音楽動画の音楽,映像がどの評価群に属して いたかを調査 • 縦軸を映像のみ,横軸を音楽のみの印象評価 値とし,それから生成された音楽動画を評価 群ごとに色別にプロットしたものを各印象で 表示 音楽動画 音楽(x軸) 映像(y軸) B 2 -2 1 -1.5 1.5 C A 1.5 0 0.5 -1 -0.5 映像の印象評価 A +2 -2 1 0.5 -1.5 B -0.5 C -1 -2 音楽の印象評価 +2
分析 高 ↑ 映 像 ↓ 低 低← 音楽 →高
分析 高 ↑ 映 像 ↓ 低 低← 音楽 →高
分析 高 ↑ 映 像 ↓ 低 低← 音楽 →高
結果(オリジナル音楽動画) 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい
結果(オリジナル音楽動画) 楽しい,悲しい 積極的,消極的
結果 • 各印象は音楽,映像から影響を受けている • C1(堂々とした),C2(元気が出る)では 音楽の影響を受けやすい • C3(切ない)C6(かわいい)では映像の影響 を受けやすい • C4(激しい)C5(滑稽な) Valence(楽しい, 悲しい)Arousal(積極的,消極的)ではどちら からも同程度の影響を受けている
考察 • オリジナルの音楽動画は印象がそろえてある • 製作者が同じ印象を伝えようとしているから傾向 を見ることができたのでは? • 違う印象のものが少ない? • 音楽が明るい+映像が暗い • 音楽が落ち着いている+映像が激しい
合成音楽動画に対する印象評価 • 印象評価データセットで使用した動画500件の サビ部分30秒を「音楽のみ」と「映像のみ」 に分離,それぞれを組み合わせて音楽動画を 作成(250000件) • そのうちの200件をランダムに取り出し評価 + 合成音楽動画 +
結果(合成音楽動画) 堂々とした 元気が出る 激しい かわいい
結果(合成音楽動画) 滑稽な 楽しい,悲しい 切ない 積極的,消極的
結果 • C1(堂々)C2(元気の出る)C4(激しい)で は音楽の印象評価値から影響を受けやすい • C6(かわいい)では音楽,映像の印象評価値 から影響を受けやすい傾向 • オリジナルの音楽動画では傾向がみられた C3(切ない)C5(滑稽な)Valence(楽しい, 悲しい)Arousal(積極的,消極的)では傾向 がみられなかった • クオリティや製作者の意図が現れているのでは?
組み合わせ手法の検討 • C1,C2,C4,C6では音楽のみ,映像のみから それぞれ影響を受けている傾向がある • C3,C5,Valence,Arousalに関してはオリジ ナルの音楽動画ならば相関がみられる 各印象はベクトルの計算で 印象推定が可能?
重回帰分析 • 印象評価データセットを用いて重回帰分析, 得られた式に各印象のパラメータを代入して 推定 • 説明変数は「音楽のみ」「映像のみ」の同じ印象 のものを使用 C1=α×「音楽のみC1」+β×「映像のみC1」 • 5-fold cross-validationを用いて評価 • 400件で学習(回帰式を生成),100件を推定 • 得られた推定値との差が0.5以下になったもの の件数を表示
結果 印象軸 C1(堂々とした) C2(元気が出る) C3(切ない) C4(激しい) C5(滑稽な) C6(かわいい) Valence(悲しい-楽しい) Arousal(消極的な-積極的な) 平均 52.6 54.8 54.8 49.8 52.0 57.0 61.0 60.8
考察 • アンダーサンプリングを行ってデータを学習 • 印象同士の関係性を考慮した説明変数を 用いることで精度が向上するのでは? メディアタイプと印象 C6との相関係数 映像のみC1 0.4703 映像のみC2 0.6585 映像のみC3 -0.4816 映像のみC4 -0.3569 映像のみC5 0.1572 映像のみC6 0.7711
まとめ • 音楽と映像の組み合わせを用いて印象推定を 行った • 音楽動画の印象は音楽と映像の印象評価に影 響をうけるが,適当な音楽動画では音楽の 印象評価に影響を受けやすい傾向がある • C3(切ない),C5(滑稽)Valence-Arousal では製作者の意図によって各メディアに影響 されるかされないかが変化する 〔今後の展開〕 • データを増やして検証 • 印象同士の関係性を考慮して式を構築