GNWS2016「音楽動画に対するソーシャルコメントと音響・映像特徴量を用いた印象推定手法の検討」

400 Views

December 26, 16

#音楽動画 #印象推定 #感想 #映像特徴量 #カラーヒストグラム

スライド概要

GNWS2016にて発表
「音楽動画に対するソーシャルコメントと音響・映像特徴量を用いた印象推定手法の検討」

Nakamura Laboratory (Meiji University)

@nkmr-lab

スライド一覧

明治大学総合数理学部先端メディアサイエンス学科中村聡史研究室

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

周辺視野に対するぼかしエフェクトが作業時の集中力に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 25.7K

商品選択においてフォントがユーザの選択行動に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 17.3K

手書きとフォントの文字形状の違いによる記憶効果の比較

Nakamura Laboratory (Meiji University) 17.2K

Make-up FLOW 2.0: 美容系YouTuberの化粧フローチャートの共有・取り入れ手法

化粧メイク化粧工程フローチャート美容系youtuber 取り入れ

Nakamura Laboratory (Meiji University) 15.7K

周辺視野における妨害刺激の減衰が集中度に及ぼす影響

Nakamura Laboratory (Meiji University) 14.2K

色覚特性を考慮したゲームの有利不利制御のAmong Usを用いた検証

色覚多様性者模擬フィルタ色のハンディキャップオンラインゲーム

Nakamura Laboratory (Meiji University) 12.8K

各ページのテキスト

音楽動画に対するソーシャルコメントと音響・映像特徴量を用いた印象推定手法の検討阿部和樹（明治大学総合数理学部３年）土屋駿貴大野直紀中村聡史（明治大学総合数理学部）山本岳洋（京都大学大学院情報学研究科）

背景：音楽動画の例 http://www.nicovideo.jp/watch/sm16707821

http://www.nicovideo.jp/watch/sm16707821

背景：音楽動画数の爆発 • Web上の音楽動画の増加 • 創作支援ツールの発展 - VOCALOID、動画編集ソフトなどアクセス可能な音楽動画の数が膨大になる

背景：音楽動画の検索曲名アーティスト名

背景：音楽動画の検索 • キーワードによる検索 - アーティスト名、曲名など • タグによる検索 - ユーザが付与する音楽動画の情報音楽動画そのものに対する事前知識が必要

背景：動画から受ける印象どんな印象を受けますか？可愛い… 初音ミク「ロングディスタンス」作) kk2 http://www.nicovideo.jp/watch/sm16707821

http://www.nicovideo.jp/watch/sm16707821

背景：音楽動画から受ける印象印象という曖昧な情報でも検索可能

背景：印象による検索印象語を用いた音楽動画の検索

背景：印象による検索 • 印象語を検索クエリにする - 動画が印象情報を持つ • 問題点 - 動画の説明文には含まれていない - 印象にまつわる「タグ」が付与されている音楽動画は全体の5%程度 [山本 2013] 全ての音楽動画に人手で印象情報を付与することは困難

10.

背景：印象による検索カッコイイ？激しい？可愛い？音楽動画が持つ特徴から印象を推定する必要がある

11.

背景：音楽動画の特徴量音楽音響特徴量による印象推定歌詞と音響特徴量を用いた楽曲印象軌跡推定手法の設計と評価 [西川 2011] 映像映像特徴量による印象推定客観的(物理的)特徴

12.

背景：音楽動画の特徴量コメントコメント特徴量による印象推定ソーシャルコメントからの音楽動画の主観的特徴 [土屋 2016] 印象推定可能性に関する検討

13.

背景：音楽動画の特徴量 3つの特徴量コメント音響映像すべての特徴を用いたコメント＋音響特徴量による印象推定 [山本 2013] 印象推定は行われていない

14.

研究目的 1. 映像特徴量を用いた印象推定 2. コメント＋音響＋映像特徴量の 3つを用いた印象推定

15.

1. 映像特徴量を用いた印象推定

16.

アプローチ人物の情報色の情報動画解析・印象推定による動画BGMの自動生成 [清水 2015] 動きの情報

17.

映像特徴量 • 映像から複数枚の画像を切り出す • 映像全体における色情報を抽出

18.

実験目的 • 色情報の抽出方法について適した方法を検証する • 映像からの画像切り出し間隔の違いによる影響を調べる

19.

色情報の抽出方法映像特徴量の抽出について以下の二つの手法を比較する • カラーヒストグラムを用いた手法 • Color Coherence Vectorを用いた手法映像からの画像切り出し間隔は5秒に統一

20.

カラーヒストグラム • 色を減色し、各色のピクセル数を計算 • 映像全体における平均の値と分散の値を計算する

21.

Color Coherence Vector • カラーヒストグラムと同じく、色を減色する • 色領域により、大と小の2つにベクトルを分ける • 同じく平均の値と分散の値を用いる

22.

印象評価データセット [大野 2015] 音楽動画(500件)を人に評価してもらう • C1(堂々とした) • C5(滑稽) • C2(元気が出る) • C6(かわいい) • C3(切ない) • Valence(快感-不快) • C4(激しい) • Arousal(覚醒-鎮静) ８つの印象クラス各印象について -2～+2 の5段階で評価 http://nkmr.io/mood/

http://nkmr.io/mood/

23.

実験 • SVM(サポートベクターマシン)を使用 - 各印象における高評価(正例)と低評価 (負例)の音楽動画を学習させる - 高評価の動画を正確に分類できるか実験する印象推定の精度を各手法で比較する

24.

印象推定の流れ印象推定器(SVM) 可愛いと評価された動画高評価低評価可愛いくないと評価された動画

25.

印象推定の流れ印象推定器(SVM) 特徴を学習高評価低評価可愛い？

26.

結果 C1 印象クラス C2 C3 C4 C5 C6 V A 平均 ①avg 0.730 0.725 0.712 0.754 0.725 0.793 0.571 0.692 0.712 ①avg+std 0.720 0.745 0.707 0.727 0.725 0.784 0.569 0.679 0.707 ②avg 0.629 0.725 0.701 0.701 0.647 0.772 0.539 0.676 0.673 ②avg+std 0.629 0.728 0.703 0.701 0.642 0.770 0.549 0.671 0.674 平均 0.677 0.730 0.705 0.720 0.684 0.779 0.557 0.679 0.691 抽出手法

27.

結果 C1 Color Coherence Vectorの手法 C2 C3 C4 C5 C6 V A 平均 ①avg avg=平均の値のみ 0.730 0.725 0.712 0.754 0.725 0.793 0.571 0.692 0.712 avg+std=平均の値と分散の値 ①avg+std 0.720 0.745 0.707 0.727 0.725 0.784 0.569 0.679 0.707 ②avg 0.629 0.725 0.701 0.701 0.647 0.772 0.539 0.676 0.673 ②avg+std カラーヒストグラムの手法 0.629 0.728 0.703 0.701 0.642 0.770 0.549 0.671 0.674 平均 0.677 avg=平均の値のみ 0.730 0.705 0.720 0.684 0.779 0.557 0.679 0.691 avg+std=平均の値と分散の値

28.

結果 C1 C2 C3 C4 C5 C6 V A 平均 ①avg 0.730 0.725 0.712 0.754 0.725 0.793 0.571 0.692 0.712 ①avg+std 0.720 0.745 0.707 0.727 0.725 0.784 0.569 0.679 0.707 ②avg 0.629 0.725 0.701 0.701 0.647 0.772 0.539 0.676 0.673 ②avg+std 0.629 0.728 0.703 0.701 0.642 0.770 0.549 0.671 0.674 平均 0.677 0.730 0.705 0.720 0.684 0.779 0.557 0.679 0.691 カラーヒストグラムの手法による推定精度が最も高い

29.

画像切り出しの間隔 • 間隔を5秒，1秒，0.1秒ごとに変化させる • 推定精度を比較する

30.

結果 0.1秒 1秒 5秒平均 ①avg 0.702 0.709 0.713 0.708 ①avg+std 0.709 0.711 0.707 0.709 ②avg 0.673 0.668 0.674 0.672 ②avg+std 0.676 0.670 0.674 0.673 平均 0.690 0.690 0.692 0.690 時間間隔による推定精度の変化はなかった

31.

考察色情報の抽出方法についてカラーヒストグラムの手法による平均の値を用いることが、最適な手法である画像の切り出し間隔について 5秒の間隔による切り出しでも問題なく特徴量を抽出できる

32.

2. コメント＋音響＋映像特徴量を用いた印象推定

33.

特徴量抽出コメント使用頻度の高い形容詞の数音響周波数などの音響的特徴映像特徴的な色のピクセル数

34.

コメント特徴量 • MeCabによる形態素解析を利用 • コメントにおける形容詞の数を計算する [土屋 2016] - 例)「可愛い」という単語の数 • 出現回数の多い30個の単語を利用（30次元）

35.

音響特徴量 • 解析ツールとしてMARSYASを利用特徴量次元数スペクトル特徴量 3 メル周波数ケプストラム係数（MFCC） 13 クロマベクトル 14 1 31次元ゼロクロッシング合計

36.

映像特徴量 • 映像の色情報をカラーヒストグラムから抽出 • RGBそれぞれを3階調とし、27色の色に減色して行う（27次元）

37.

実験 • SVM(サポートベクターマシン)を使用 • 高評価と低評価の音楽動画を学習させ、高評価の動画を正確に分類できるか実験する各特徴それぞれによる推定と、組み合わせた場合の推定を比較する

38.

結果 C1 印象クラス C2 C3 C4 C5 C6 V A 平均 Comment 0.737 0.886 0.750 0.843 0.567 0.919 0.647 0.858 0.776 Audio 0.777 0.623 0.619 0.767 0.550 0.711 0.694 0.666 0.676 Visual 0.639 0.761 0.746 0.759 0.483 0.801 0.615 0.706 0.689 C+A+V 0.808 0.880 0.764 0.957 0.532 0.900 0.701 0.862 0.800 平均 0.740 0.787 0.720 0.831 0.533 0.833 0.664 0.773 0.735 利用した特徴量

39.

結果 C1 C2 C3 C4 C5 C6 V A 平均 Comment 0.737 0.886 0.750 0.843 0.567 0.919 0.647 0.858 0.776 Audio 0.777 0.623 0.619 0.767 0.550 0.711 0.694 0.666 0.676 Visual 0.639 0.761 0.746 0.759 0.483 0.801 0.615 0.706 0.689 C+A+V 0.808 0.880 0.764 0.957 0.532 0.900 0.701 0.862 0.800 平均 0.740 0.787 0.720 0.831 0.533 0.833 0.664 0.773 0.735 コメントによる推定は精度が高い

40.

41.

42.

考察コメントによる推定は精度が高い • コメントは人の主観を利用音楽・映像特徴は物理的(客観的)特徴 • コメントを利用すれば、印象によっては高い推定を得られる

43.

印象クラスごとの特徴語高評価群低評価群 C1(堂々とした) かわいいい，可愛，かわゆ怖い，多い，すごく C2(元気が出る) かわいい，かわいー，弱いこわい，美しい，怖い C3(切ない) 悪い，怖い，重いかわいいい，可愛，おかしい C4(激しい) 早く，カッコイイ，こいかわいいい，ヤバイ，かわゆ C5(滑稽な) おかしい，こわい，こわかる，かわいいい，なう C6(可愛い) かわいいい，可愛，切ないこわい，早く，怖い Valence(快-不快) 早く，かっこよ，怖いかわいいい，すごく Arousal(覚醒-鎮静) 良かっ，かわいー，おおー良，かっこよ，怖い

44.

考察すべての特徴を用いた推定精度の平均は高い • さまざまな印象に対して、汎用的に活用することができる • すべての特徴を利用するが、コメントに重みをつけることでさらに精度が上がる可能性がある

45.

まとめ 1. 映像特徴量による印象推定 • カラーヒストグラムより、平均の値を用いるのが適している • 画像切り出しの間隔は5秒が適切 2. コメント＋音響＋映像特徴量による印象推定 • 印象によっては、コメントによる推定精度が高い • 全ての特徴を用いた手法は、汎用的に活用できる今後の課題 • 推定精度をさらに上げる方法を検討 • 印象による検索インターフェースの実現