GNWS2016「音楽動画に対するソーシャルコメントと音響・映像特徴量を用いた印象推定手法の検討」

326 Views

December 26, 16

スライド概要

GNWS2016にて発表
「音楽動画に対するソーシャルコメントと音響・映像特徴量を用いた印象推定手法の検討」

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

音楽動画に対するソーシャルコメントと 音響・映像特徴量を用いた 印象推定手法の検討 阿部 和樹(明治大学 総合数理学部3年) 土屋 駿貴 大野 直紀 中村 聡史(明治大学 総合数理学部) 山本 岳洋(京都大学大学院情報学研究科)

2.

背景:音楽動画の例 http://www.nicovideo.jp/watch/sm16707821

3.

背景:音楽動画数の爆発 • Web上の音楽動画の増加 • 創作支援ツールの発展 - VOCALOID、動画編集ソフトなど アクセス可能な音楽動画の数が膨大になる

4.

背景:音楽動画の検索 曲名 アーティスト名

5.

背景:音楽動画の検索 • キーワードによる検索 - アーティスト名、曲名など • タグによる検索 - ユーザが付与する音楽動画の情報 音楽動画そのものに対する 事前知識が必要

6.

背景:動画から受ける印象 どんな印象を受けますか? 可愛い… 初音ミク 「ロングディスタンス」作) kk2 http://www.nicovideo.jp/watch/sm16707821

7.

背景:音楽動画から受ける印象 印象という曖昧な情報でも検索可能

8.

背景:印象による検索 印象語を用いた 音楽動画の検索

9.

背景:印象による検索 • 印象語を検索クエリにする - 動画が印象情報を持つ • 問題点 - 動画の説明文には含まれていない - 印象にまつわる「タグ」が付与されている 音楽動画は全体の5%程度 [山本 2013] 全ての音楽動画に人手で 印象情報を付与することは困難

10.

背景:印象による検索 カッコイイ? 激しい? 可愛い? 音楽動画が持つ特徴から 印象を推定する必要がある

11.

背景:音楽動画の特徴量 音楽 音響特徴量による 印象推定 歌詞と音響特徴量を用いた楽曲 印象軌跡推定手法の設計と評価 [西川 2011] 映像 映像特徴量による 印象推定 客観的(物理的)特徴

12.

背景:音楽動画の特徴量 コメント コメント特徴量 による印象推定 ソーシャルコメントからの音楽動画の 主観的特徴 [土屋 2016] 印象推定可能性に関する検討

13.

背景:音楽動画の特徴量 3つの特徴量 コメント 音響 映像 すべての特徴を用いた コメント+音響特徴量 による印象推定 [山本 2013] 印象推定は行われていない

14.

研究目的 1. 映像特徴量を用いた印象推定 2. コメント+音響+映像特徴量の 3つを用いた印象推定

15.

1. 映像特徴量を用いた印象推定

16.

アプローチ 人物の情報 色の情報 動画解析・印象推定による 動画BGMの自動生成 [清水 2015] 動きの情報

17.

映像特徴量 • 映像から複数枚の画像を切り出す • 映像全体における色情報を抽出

18.

実験目的 • 色情報の抽出方法について 適した方法を検証する • 映像からの画像切り出し間隔の 違いによる影響を調べる

19.

色情報の抽出方法 映像特徴量の抽出について 以下の二つの手法を比較する • カラーヒストグラムを用いた手法 • Color Coherence Vectorを用いた手法 映像からの画像切り出し間隔は5秒に統一

20.

カラーヒストグラム • 色を減色し、各色のピクセル数 を計算 • 映像全体における平均の値と 分散の値を計算する

21.

Color Coherence Vector • カラーヒストグラムと同じく、 色を減色する • 色領域により、大と小の2つに ベクトルを分ける • 同じく平均の値と分散の値を用いる

22.

印象評価データセット [大野 2015] 音楽動画(500件)を人に評価してもらう • C1(堂々とした) • C5(滑稽) • C2(元気が出る) • C6(かわいい) • C3(切ない) • Valence(快感-不快) • C4(激しい) • Arousal(覚醒-鎮静) 8つの印象クラス 各印象について -2~+2 の5段階で評価 http://nkmr.io/mood/

23.

実験 • SVM(サポートベクターマシン)を使用 - 各印象における高評価(正例)と低評価 (負例)の音楽動画を学習させる - 高評価の動画を正確に分類できるか 実験する 印象推定の精度を 各手法で比較する

24.

印象推定の流れ 印象推定器(SVM) 可愛いと評価された動画 高評価 低評価 可愛いくないと評価された動画

25.

印象推定の流れ 印象推定器(SVM) 特徴を学習 高評価 低評価 可愛い?

26.

結果 C1 印象クラス C2 C3 C4 C5 C6 V A 平均 ①avg 0.730 0.725 0.712 0.754 0.725 0.793 0.571 0.692 0.712 ①avg+std 0.720 0.745 0.707 0.727 0.725 0.784 0.569 0.679 0.707 ②avg 0.629 0.725 0.701 0.701 0.647 0.772 0.539 0.676 0.673 ②avg+std 0.629 0.728 0.703 0.701 0.642 0.770 0.549 0.671 0.674 平均 0.677 0.730 0.705 0.720 0.684 0.779 0.557 0.679 0.691 抽出手法

27.

結果 C1 Color Coherence Vectorの手法 C2 C3 C4 C5 C6 V A 平均 ①avg avg=平均の値のみ 0.730 0.725 0.712 0.754 0.725 0.793 0.571 0.692 0.712 avg+std=平均の値と分散の値 ①avg+std 0.720 0.745 0.707 0.727 0.725 0.784 0.569 0.679 0.707 ②avg 0.629 0.725 0.701 0.701 0.647 0.772 0.539 0.676 0.673 ②avg+std カラーヒストグラムの手法 0.629 0.728 0.703 0.701 0.642 0.770 0.549 0.671 0.674 平均 0.677 avg=平均の値のみ 0.730 0.705 0.720 0.684 0.779 0.557 0.679 0.691 avg+std=平均の値と分散の値

28.

結果 C1 C2 C3 C4 C5 C6 V A 平均 ①avg 0.730 0.725 0.712 0.754 0.725 0.793 0.571 0.692 0.712 ①avg+std 0.720 0.745 0.707 0.727 0.725 0.784 0.569 0.679 0.707 ②avg 0.629 0.725 0.701 0.701 0.647 0.772 0.539 0.676 0.673 ②avg+std 0.629 0.728 0.703 0.701 0.642 0.770 0.549 0.671 0.674 平均 0.677 0.730 0.705 0.720 0.684 0.779 0.557 0.679 0.691 カラーヒストグラムの手法による 推定精度が最も高い

29.

画像切り出しの間隔 • 間隔を5秒,1秒,0.1秒ごとに変化させる • 推定精度を比較する

30.

結果 0.1秒 1秒 5秒 平均 ①avg 0.702 0.709 0.713 0.708 ①avg+std 0.709 0.711 0.707 0.709 ②avg 0.673 0.668 0.674 0.672 ②avg+std 0.676 0.670 0.674 0.673 平均 0.690 0.690 0.692 0.690 時間間隔による推定精度の変化はなかった

31.

考察 色情報の抽出方法について カラーヒストグラムの手法による平均の値 を用いることが、最適な手法である 画像の切り出し間隔について 5秒の間隔による切り出しでも問題なく 特徴量を抽出できる

32.

2. コメント+音響+映像特徴量を用いた印象推定

33.

特徴量抽出 コメント 使用頻度の高い形容詞の数 音響 周波数などの音響的特徴 映像 特徴的な色のピクセル数

34.

コメント特徴量 • MeCabによる形態素解析を利用 • コメントにおける形容詞の数を 計算する [土屋 2016] - 例)「可愛い」という単語の数 • 出現回数の多い30個の単語を利用 (30次元)

35.

音響特徴量 • 解析ツールとしてMARSYASを利用 特徴量 次元数 スペクトル特徴量 3 メル周波数ケプストラム 係数(MFCC) 13 クロマベクトル 14 1 31次元 ゼロクロッシング 合計

36.

映像特徴量 • 映像の色情報をカラーヒストグラム から抽出 • RGBそれぞれを3階調とし、27色の 色に減色して行う(27次元)

37.

実験 • SVM(サポートベクターマシン)を使用 • 高評価と低評価の音楽動画を学習 させ、高評価の動画を正確に分類 できるか実験する 各特徴それぞれによる推定と、 組み合わせた場合の推定を比較する

38.

結果 C1 印象クラス C2 C3 C4 C5 C6 V A 平均 Comment 0.737 0.886 0.750 0.843 0.567 0.919 0.647 0.858 0.776 Audio 0.777 0.623 0.619 0.767 0.550 0.711 0.694 0.666 0.676 Visual 0.639 0.761 0.746 0.759 0.483 0.801 0.615 0.706 0.689 C+A+V 0.808 0.880 0.764 0.957 0.532 0.900 0.701 0.862 0.800 平均 0.740 0.787 0.720 0.831 0.533 0.833 0.664 0.773 0.735 利用した特徴量

39.

結果 C1 C2 C3 C4 C5 C6 V A 平均 Comment 0.737 0.886 0.750 0.843 0.567 0.919 0.647 0.858 0.776 Audio 0.777 0.623 0.619 0.767 0.550 0.711 0.694 0.666 0.676 Visual 0.639 0.761 0.746 0.759 0.483 0.801 0.615 0.706 0.689 C+A+V 0.808 0.880 0.764 0.957 0.532 0.900 0.701 0.862 0.800 平均 0.740 0.787 0.720 0.831 0.533 0.833 0.664 0.773 0.735 コメントによる推定は精度が高い

40.

結果 C1 C2 C3 C4 C5 C6 V A 平均 Comment 0.737 0.886 0.750 0.843 0.567 0.919 0.647 0.858 0.776 Audio 0.777 0.623 0.619 0.767 0.550 0.711 0.694 0.666 0.676 Visual 0.639 0.761 0.746 0.759 0.483 0.801 0.615 0.706 0.689 C+A+V 0.808 0.880 0.764 0.957 0.532 0.900 0.701 0.862 0.800 平均 0.740 0.787 0.720 0.831 0.533 0.833 0.664 0.773 0.735

41.

結果 C1 C2 C3 C4 C5 C6 V A 平均 Comment 0.737 0.886 0.750 0.843 0.567 0.919 0.647 0.858 0.776 Audio 0.777 0.623 0.619 0.767 0.550 0.711 0.694 0.666 0.676 Visual 0.639 0.761 0.746 0.759 0.483 0.801 0.615 0.706 0.689 C+A+V 0.808 0.880 0.764 0.957 0.532 0.900 0.701 0.862 0.800 平均 0.740 0.787 0.720 0.831 0.533 0.833 0.664 0.773 0.735 すべての特徴を用いた推定精度の平均は高い

42.

考察 コメントによる推定は精度が高い • コメントは人の主観を利用 音楽・映像特徴は物理的(客観的)特徴 • コメントを利用すれば、印象によっては 高い推定を得られる

43.

印象クラスごとの特徴語 高評価群 低評価群 C1(堂々とした) かわいいい,可愛,かわゆ 怖い,多い,すごく C2(元気が出る) かわいい,かわいー,弱い こわい,美しい,怖い C3(切ない) 悪い,怖い,重い かわいいい,可愛,おかしい C4(激しい) 早く,カッコイイ,こい かわいいい,ヤバイ,かわゆ C5(滑稽な) おかしい,こわい,こわ かる,かわいいい,なう C6(可愛い) かわいいい,可愛,切ない こわい,早く,怖い Valence(快-不快) 早く,かっこよ,怖い かわいいい,すごく Arousal(覚醒-鎮静) 良かっ,かわいー,おおー 良,かっこよ,怖い

44.

考察 すべての特徴を用いた推定精度の平均は高い • さまざまな印象に対して、汎用的に活用 することができる • すべての特徴を利用するが、コメントに 重みをつけることでさらに精度が上がる 可能性がある

45.

まとめ 1. 映像特徴量による印象推定 • カラーヒストグラムより、平均の値を用いるのが 適している • 画像切り出しの間隔は5秒が適切 2. コメント+音響+映像特徴量による印象推定 • 印象によっては、コメントによる推定精度が高い • 全ての特徴を用いた手法は、汎用的に活用できる 今後の課題 • 推定精度をさらに上げる方法を検討 • 印象による検索インターフェースの実現