主観特徴と物理特徴の融合による音楽動画印象推定手法の検討

392 Views

November 29, 17

スライド概要

It is a slide used at the CVIM research group.

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

主観特徴と物理特徴の融合による 音楽動画印象推定手法の検討 明治大学 総合数理学部 上西隆平 阿部和樹 大野直紀 土屋駿貴 中村聡史

2.

背景: 音楽動画の例 【鏡音リン】月でうさぎとダンスする【オリジナルPV】 http://www.nicovideo.jp/watch/sm15942116

3.

背景: 従来の検索方法 • キーワードによる検索 - アーティスト名, 曲名など • タグによる検索 - ユーザが付与する動画の情報 動画そのものに対する 未知の動画と 出会うことが難しい 事前知識が必要

4.

背景 未知の動画と出会うために、、、 • 推薦機能 同じようなものばかり… - 同じ動画を見ている人の履歴から推薦 • ランキング機能 埋もれてしまう動画も… - ジャンル, 再生数, コメント数などでランキング

5.

背景: 印象による検索 かわいい 〇〇と 似てる動画 livetune feat. 初音ミク 『Tell Your World』 https://www.youtube.com/watch?v=PqJNc9KVIZE

6.

背景: 現状の印象検索の問題点 動画に印象情報は付随していない - 印象にまつわる「タグ」が付与されている 機械的に印象を推定して 音楽動画は全体の5%程しかない[山本 2013] 付与することが必要! 音楽動画一つ一つに人手で 印象情報を付与するのは困難

7.

音楽動画の印象推定のアプローチ 音楽動画の印象

8.

音楽動画の印象推定のアプローチ 音楽動画の印象

9.

音楽動画の印象推定のアプローチ 音楽動画の印象

10.

音楽動画の印象推定のアプローチ 音楽動画の印象 ? 音楽の印象 映像の印象

11.

関連研究 音楽の印象 歌詞と音響特徴量を用い た楽曲印象軌跡推定法の 設計と評価[2011 西川] 音響特徴 推定 映像の印象 映像特徴 推定 動画解析・印象推定 による動画BGMの 自動生成[2015 清水]

12.

これまでの研究 音楽動画に対するソーシャルコメントと 音響・映像特徴量を用いた印象推定 手法の検討[阿部 2016] コメント 音楽の印象 主観特徴 映像の印象 音響特徴 物理特徴 映像特徴

13.

これまでの問題点: 映像特徴 暗い 明るい 27色 切ない 切なくない 27色

14.

これまでの問題点: 映像特徴 明るい 暗い , , 切なくない 切ない , ,

15.

これまでの問題点: コメント コメント 音楽・映像のどちらにも 同じコメントを使用 かわいい! www ドラム激しいね 絵がきれい! いい曲だ、、、 イラスト可愛い

16.

これまでの問題点: コメント コメント 音楽・映像のどちらにも 同じコメントを使用 かわいい! www ドラム激しいね 絵がきれい! いい曲だ、、、 イラスト可愛い

17.

これまでの問題点: コメント コメント 音楽・映像のどちらにも 同じコメントを使用 かわいい! www ドラム激しいね 絵がきれい! いい曲だ、、、 イラスト可愛い

18.

研究内容 1. 映像特徴量を用いた 映像に対する印象推定手法の改良 2. 音楽・映像向けに改良した コメントを用いた 音楽・映像に対する印象推定

19.

印象評価データセット[大野2015] 音楽・映像・音楽動画(音楽+映像)という 3つのメディアタイプに対し 以下の印象クラスで評価したもの • C1(堂々とした) • C5(滑稽な) • C2(元気が出る) • C6(かわいい) • C3(切ない) • Valence(快-不快) • C4(激しい) • Arousal(覚醒-鎮静) -2 ~ +2で評価されている http://nkmr.io/mood/

20.

1. 映像特徴量を用いた 印象推定手法の改良

21.

全体の流れ 1. 映像から画像を5秒おきに切り出す 2. 切り出された画像から色情報を抽出 3. その特徴量を用いて印象推定を行う

22.

色情報抽出方法: 1/3 清水ら[2015]が 映像の印象推定に利用していた 12色を用意 赤橙桃黄緑青 水紫茶 灰黒

23.

色情報抽出方法: 2/3 全12色の組み合わせを作成 例 2色選ぶ: 赤橙, 赤桃, 赤黄... 66通り ~ 12色選ぶ:赤橙桃黄緑青水紫茶 灰黒 1通り 合計4083通り

24.

色情報抽出方法: 3/3 • 2で作成した色へ 分割された画像を減色し 各色のピクセル数を計算 (カラーヒストグラム) • 映像全体における平均値を算出

25.

実験方法 • SVM(サポートベクターマシン)を使用 - 各印象における高評価群と低評価群の 音楽動画を学習 - 高評価群,低評価群の動画を正確に 分類できるか実験 その際5-fold Cross Validationにて 正解率を算出 高評価群 低評価群 -2 -1 0 1 2

26.

結果 各印象クラスにおける正解率が 最も高い色の組み合わせと正解率 と過去の手法を比較 色の 組み合わせ C1 堂々と した C2 元気が 出る 赤橙 緑桃 青赤緑 黄水紫 黒 C3 切ない 紫水赤 橙青桃 C4 激しい 赤橙 黄青 C5 滑稽な 緑 紫黒 C6 かわいい 水赤 橙黒桃 Valence Arousal 赤黄 紫黒桃 赤紫青 橙緑 黒水桃 C1~A 平均 本手法 正解率 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 27色 0.855 0.789 0.722 0.811 0.575 0.877 0.740 0.778 0.768 12色 0.805 0.770 0.687 0.794 0.600 0.832 0.694 0.765 0.743

27.

結果 各印象クラスにおける正解率が 最も高い色の組み合わせと正解率 と過去の手法を比較 色の 組み合わせ C1 堂々と した C2 元気が 出る 赤橙 緑桃 青赤緑 黄水紫 黒 C3 切ない 紫水赤 橙青桃 C4 激しい 赤橙 黄青 C5 滑稽な 緑 紫黒 C6 かわいい 水赤 橙黒桃 Valence Arousal 赤黄 紫黒桃 赤紫青 橙緑 黒水桃 C1~A 平均 本手法 正解率 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 27色 0.855 0.789 0.722 0.811 0.575 0.877 0.740 0.778 0.768 12色 0.805 0.770 0.687 0.794 0.600 0.832 0.694 0.765 0.743

28.

結果 各印象クラスにおける正解率が 最も高い色の組み合わせと正解率 と過去の手法を比較 色の 組み合わせ C1 堂々と した C2 元気が 出る 赤橙 緑桃 青赤緑 黄水紫 黒 C3 切ない 紫水赤 橙青桃 C4 激しい 赤橙 黄青 C5 滑稽な 緑 紫黒 C6 かわいい 水赤 橙黒桃 Valence Arousal 赤黄 紫黒桃 赤紫青 橙緑 黒水桃 C1~A 平均 本手法 正解率 阿部ら 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 0.880 27色 0.855 0.789 0.722 0.811 0.575 0.877 0.740 0.778 0.768 12色 0.805 0.770 0.687 0.794 0.600 0.832 0.694 0.765 0.743 [2016] 清水ら [2015]

29.

結果 各印象クラスにおける正解率が 最も高い色の組み合わせと正解率 と過去の手法を比較 色の 組み合わせ C1 堂々と した C2 元気が 出る 赤橙 緑桃 青赤緑 黄水紫 黒 C3 切ない 紫水赤 橙青桃 C4 激しい 赤橙 黄青 C5 滑稽な 緑 紫黒 C6 かわいい 水赤 橙黒桃 Valence Arousal 赤黄 紫黒桃 赤紫青 橙緑 黒水桃 C1~A 平均 本手法 正解率 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 27色 0.855 0.789 0.722 0.811 0.575 0.877 0.740 0.778 0.768 12色 0.805 0.770 0.687 0.794 0.600 0.832 0.694 0.765 0.743

30.

結果 各印象クラスにおける正解率が 最も高い色の組み合わせと正解率 と過去の手法を比較 色の 組み合わせ C1 堂々と した C2 元気が 出る 赤橙 緑桃 青赤緑 黄水紫 黒 C3 切ない 紫水赤 橙青桃 C4 激しい 赤橙 黄青 C5 滑稽な 緑 紫黒 C6 かわいい 水赤 橙黒桃 Valence Arousal 赤黄 紫黒桃 赤紫青 橙緑 黒水桃 C1~A 平均 本手法 正解率 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 27色 0.855 0.789 0.722 0.811 0.575 0.877 0.740 0.778 0.768 12色 0.805 色を最適化させることが有効 0.770 0.687 0.794 0.600 0.832 0.694 0.765 0.743

31.

結果 各印象クラスにおける正解率が 最も高い色の組み合わせと正解率 と過去の手法を比較 色の 組み合わせ C1 堂々と した C2 元気が 出る 赤橙 緑桃 青赤緑 黄水紫 黒 C3 切ない 紫水赤 橙青桃 C4 激しい 赤橙 黄青 C5 滑稽な 緑 紫黒 C6 かわいい 水赤 橙黒桃 Valence Arousal 赤黄 紫黒桃 赤紫青 橙緑 黒水桃 C1~A 平均 本手法 正解率 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 27色 0.855 0.789 0.722 0.811 0.575 0.877 0.740 0.778 0.768 12色 0.805 印象ごとに 色の組み合わせの違いがある 0.770 0.687 0.794 0.600 0.832 0.694 0.765 0.743

32.

結果 各印象クラスにおける正解率が 高い上位3つの組み合わせと 共通している色 C1 C2 C3 C4 C5 C6 堂々 元気が出る 切ない 激しい 滑稽な かわいい 水赤 橙黒桃 1 位 赤橙 青赤緑 緑桃 黄水紫黒 紫水赤 橙青桃 赤橙 黄青 緑 紫黒 2 位 黄 赤橙緑 緑桃 黄水紫黒 緑黄紫黒 赤橙青桃 赤橙 緑桃 赤緑 黄桃 3 位 黄青 水桃 黄紫 水赤 橙青桃 赤紫茶 灰黒 赤緑 青紫 黄紫 青赤 桃橙 共 通 色 桃 赤 緑 Valence 赤黄 赤紫青 紫黒桃 橙緑黒水桃 緑水 赤緑 赤橙黒桃 紫茶 緑水赤 橙黒桃 Arousal 黄緑 青 水赤 なし 桃橙黒 共通して使用されている 色がある C1~A 平均 赤橙緑 紫黒桃 橙緑 黒水桃 赤橙青 水紫黒桃 紫青橙 緑黒水桃 赤橙黄緑 青水紫桃 橙緑 黒水桃 赤橙 紫桃

33.

結果 各印象クラスにおける正解率が 高い上位3つの組み合わせと 共通している色 C1 C2 C3 C4 C5 C6 堂々 元気が出る 切ない 激しい 滑稽な かわいい 水赤 橙黒桃 1 位 赤橙 青赤緑 緑桃 黄水紫黒 紫水赤 橙青桃 赤橙 黄青 緑 紫黒 2 位 黄 赤橙緑 緑桃 黄水紫黒 緑黄紫黒 赤橙青桃 赤橙 緑桃 赤緑 黄桃 3 位 黄青 水桃 黄紫 水赤 橙青桃 赤紫茶 灰黒 赤緑 青紫 黄紫 青赤 桃橙 共 通 色 桃 赤 緑 Valence 赤黄 赤紫青 紫黒桃 橙緑黒水桃 緑水 赤緑 赤橙黒桃 紫茶 緑水赤 橙黒桃 Arousal 黄緑 青 水赤 なし 桃橙黒 C1~A 平均 赤橙緑 紫黒桃 橙緑 黒水桃 赤橙青 水紫黒桃 紫青橙 緑黒水桃 赤橙黄緑 青水紫桃 橙緑 黒水桃 赤橙 紫桃

34.

結果 各印象クラスにおける正解率が 高い上位3つの組み合わせと 共通している色 C1 C2 C3 C4 C5 C6 堂々 元気が出る 切ない 激しい 滑稽な かわいい 水赤 橙黒桃 1 位 赤橙 青赤緑 緑桃 黄水紫黒 紫水赤 橙青桃 赤橙 黄青 緑 紫黒 2 位 黄 赤橙緑 緑桃 黄水紫黒 緑黄紫黒 赤橙青桃 赤橙 緑桃 赤緑 黄桃 3 位 黄青 水桃 黄紫 水赤 橙青桃 赤紫茶 灰黒 赤緑 青紫 黄紫 青赤 桃橙 共 通 色 桃 赤 緑 Valence 赤黄 赤紫青 紫黒桃 橙緑黒水桃 緑水 赤緑 赤橙黒桃 紫茶 緑水赤 橙黒桃 Arousal 黄緑 青 水赤 なし 桃橙黒 主観的なイメージと一致する色が 選ばれている場合もある C1~A 平均 赤橙緑 紫黒桃 橙緑 黒水桃 赤橙青 水紫黒桃 紫青橙 緑黒水桃 赤橙黄緑 青水紫桃 橙緑 黒水桃 赤橙 紫桃

35.

映像の印象推定まとめ • 印象ごとに用いる色を最適化することは 有効 • 印象ごとに精度の高い色の 組み合わせは違う • 印象ごとに特徴となる色が存在

36.

2. 音楽・映像向けに改良した コメントを用いた 音楽・映像の印象推定

37.

これまでの手法 コメント 音楽・映像のどちらにも 同じコメントを使用 かわいい! www ドラム激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い

38.

映像・音楽向けコメント生成の例 かわいい! www ドラム激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い

39.

映像・音楽向けコメント生成の例 かわいい! www ドラム激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い かわいい! www 絵が綺麗! イラスト可愛い

40.

映像・音楽向けコメント生成の例 かわいい! www ドラム激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い かわいい! www 絵が綺麗! イラスト可愛い かわいい! www ドラム激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い かわいい! www ドラムが激しいね いい曲だ、、、

41.

フィルター作成 • 音楽・映像それぞれのメディアタイプに 向けられるコメントに含まれる可能性がある 単語群を用意 • 単語群を補強するため 学習済みWord2Vecのモデルを用いて コサイン類似度の高い単語を追加 音楽 映像 歌, 聴, 聞, 音, 曲, メロディ, BGM, 耳,リズム, 音圧, ドラム, イントロ, 声 絵, サムネ, 顔, イラスト, 映像, きれい, 綺麗, 顔文字

42.

コメントフィルタリング • コメントに対し音楽・映像それぞれの 単語群でフィルタリングを行い 「音楽向けのコメント」 「映像向けのコメント」 を生成 かわいい! www ドラムが激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い 音楽フィルター 歌, 聴, 聞, 音, 曲, メロディ, BGM, 耳, 歌って, リズム, 音圧, ドラム, イントロ, 声

43.

コメントフィルタリング • コメントに対し音楽・映像それぞれの 単語群でフィルタリングを行い 「音楽向けのコメント」 「映像向けのコメント」 を生成 かわいい! www ドラムが激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い 音楽フィルター 歌, 聴, 聞, 音, 曲, メロディ, BGM, 耳, 歌って, リズム, 音圧, ドラム, イントロ, 声

44.

コメントフィルタリング • コメントに対し音楽・映像それぞれの 単語群でフィルタリングを行い 「音楽向けのコメント」 「映像向けのコメント」 を生成 かわいい! www ドラムが激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い 音楽フィルター 歌, 聴, 聞, 音, 曲, メロディ, BGM, 耳, 歌って, リズム, 音圧, ドラム, イントロ, 声

45.

コメントフィルタリング • コメントに対し音楽・映像それぞれの 単語群でフィルタリングを行い 「音楽向けのコメント」 「映像向けのコメント」 を生成 音楽フィルター かわいい! www 絵が綺麗! イラスト可愛い 歌, 聴, 聞, 音, 曲, メロディ, BGM, 耳, 歌って, リズム, 音圧, ドラム, イントロ, 声

46.

コメント特徴抽出 • MeCabによる形態素解析を行い 「形容詞」を抽出 • 抽出した形容詞のTF-IDF値を求める この際1つの動画に付与されているコメントたちを 1つのドキュメントとみなす TF値 = 出現回数, DF値 = 出現した動画数 / 全動画数 • TF-IDF値の高い上位30個を特徴量とする (30次元)

47.

実験方法 • SVM(サポートベクターマシン)を使用 - 各印象における高評価群と低評価群の 音楽動画を学習 - 高評価群,低評価群の動画を正確に 分類できるか実験 その際5-fold クロスバリデーションにて 正解率を算出 高評価群 低評価群 -2 -1 0 1 2

48.

結果: 映像向けコメントで印象推定 C1 C2 C3 C4 C5 C6 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい Valence Arousal 平均 Fあり 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 Fなし 0.810 0.870 0.787 0.764 0.695 0.876 0.730 0.879 0.801

49.

結果: 映像向けコメントで印象推定 C1 C2 C3 C4 C5 C6 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい Valence Arousal 平均 Fあり 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 Fなし 0.810 0.870 0.787 0.764 0.695 0.876 0.730 0.879 0.801 全ての印象クラスにおいて 精度が向上

50.

結果: 映像向けコメントで印象推定 C1 C2 C3 C4 C5 C6 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい Valence Arousal 平均 Fあり 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 Fなし 0.810 0.870 0.787 0.764 0.695 0.876 0.730 0.879 0.801 特定の印象クラスの 精度が大幅に向上

51.

結果: 音楽向けコメントで印象推定 C1 C2 C3 C4 C5 C6 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい Valence Arousal 平均 Fあり 0.721 0.723 0.833 0.759 0.708 0.880 0.758 0.830 0.776 Fなし 0.735 0.723 0.800 0.759 0.702 0.851 0.750 0.822 0.768 映像の際と同様に 特定の印象クラスにおいて 精度が向上

52.

結果: 音楽向けコメントで印象推定 C1 C2 C3 C4 C5 C6 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい Valence Arousal 平均 Fあり 0.721 0.723 0.833 0.759 0.708 0.880 0.758 0.830 0.776 Fなし 0.735 0.723 0.800 0.759 0.702 0.851 0.750 0.822 0.768 推定精度に変化がない 印象クラスも存在

53.

結果 映像向けコメントを用いた 映像に対する印象推定の結果 ・ C1(堂々とした)C2(元気が出る)C4(激しい) の推定精度が大幅に向上 音楽向けコメントを用いた 音楽に対する印象推定の結果 ・ C3(切ない)C6(可愛い) の推定精度が向上 ・ C2(元気が出る)C4(激しい) の推定精度に変化なし

54.

考察: 映像・音楽に対する印象推定 音楽・映像に対するコメントを抜き 精度が大幅に向上したクラスが有る ↓ これらのクラスでは音楽と映像の印象が 乖離している可能性が高いのではないか? (例) 音楽だけ聞いても可愛いくない 映像を見ると可愛い 音楽動画

55.

考察: 音楽に対する印象推定 映像に対するコメントを抜いたが 効果がないクラスが有る ↓ これらのクラスでは 音楽・映像のどちらに言及しているか わからないコメント が特徴量として占めているのではないか? (例) 可愛い! かっこいい

56.

1章(映像特徴) 2章(映像向けコメント特徴) 1章(映像特徴) + 2章(映像向けコメント特徴) などの特徴を用いた 映像に対する印象推定の結果を比較

57.

結果 C1 C2 C3 C4 C5 C6 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい 映像 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 コメント 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 Valence Arousal 平均 映+コ 0.802 0.880 0.744 0.895 0.741 0.881 0.732 0.786 0.808

58.

結果 C1 C2 C3 C4 C5 C6 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい 映像 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 コメント 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 Valence Arousal 平均 映+コ 0.802 0.880 0.744 0.895 0.741 0.881 0.732 0.786 0.808 組み合わせたからといって 精度が上がるわけではない...

59.

結果 C1 C2 C3 C4 C5 C6 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい 映像 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 コメント 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 Valence Arousal 平均 映+コ 0.802 0.880 0.744 0.895 0.741 0.881 0.732 0.786 0.808 C5の精度が向上

60.

結果 C1 C2 C3 C4 C5 C6 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい 映像 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 コメント 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 Valence Arousal 平均 映+コ 0.802 0.880 0.744 0.895 0.741 0.881 0.732 0.786 0.808 コメントによる印象推定の 精度が高い

61.

結果 C1 C2 C3 C4 C5 C6 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい 映像 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 コメント 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 Valence Arousal 平均 映+コ 0.802 0.880 0.744 0.895 0.741 0.881 0.732 0.786 0.808

62.

考察 • コメントによる印象推定は有効 • 印象ごとに最適な特徴を用いることで 精度を向上させることができる

63.

まとめ 1.映像特徴量を用いた印象推定手法の改良 ・印象クラスごとに最適な色の組み合わせを 利用することが有効 2.音楽・映像向けに改良したコメントを用いた 音楽・映像の印象推定 ・映像向けのコメントに改良することは有効だが 音楽向けの場合は効果が薄い 今後の展望 ・印象推定の精度向上の検討 ・文章間類似度を用いた正確なコメントフィルターの実装