ソーシャルコメントからの音楽動画印象推定手法の提案

455 Views

March 06, 16

スライド概要

DEIM 2016で発表した際のプレゼン用のスライドです。
まとめ以降のスライド4枚は質問用のスライドとなっています。

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

ソーシャルコメントからの 音楽動画印象推定手法の提案 土屋 駿貴 (明治大学 総合数理学部 B3) 大野 直紀 (明治大学 総合数理学部 B3) 中村 聡史(明治大学 総合数理学部) 山本 岳洋(京都大学大学院情報学研究科)

2.

こんな経験ないですか?

3.

背景 • 音楽動画からユーザが受ける主観的な印 象に基づく検索・推薦 • 「明るく元気の出る音楽動画」 • 「かわいい音楽動画」 音楽動画に対して 印象値を付与する必要がある http://www.nicovideo.jp/watch/sm10820620 http://www.nicovideo.jp/watch/sm16366329 • タイトル・タグから検索 • 「初音ミク 切ない曲」: 127件 • ニコニコ動画:5%[山本2009],Last.fm:14%[Hu2007]

4.

機械的な印象推定 • 音響特徴量 • 歌詞と音響信号から特徴量を抽出し楽曲の 印象推定 [西川2011] • 映像特徴量 印象評価を行った正解データセット 音楽動画の印象推定

5.

人手での印象評価 かわいい 時間的・金銭的コストがかかる 切ない 面白い

6.

データセットの拡張 印象評価データセット 手軽なデータセットの拡張 (50000曲) ×(3メディアタイプ) ×(10人の評価者)× (5000曲) ×(3人の評価者)× (50000曲) ×(3メディアタイプ)×(3人の評価者)× ×(3人の評価者)× (500曲) ×(3メディアタイプ) (視聴時間30秒+ 8印象タイプの評価時間30秒) =750時間 =75時間 =25000時間 =7500時間

7.

ソーシャルコメント http://www.nicovideo.jp/watch/sm13252011 • ユーザが自ら付与してくれている • ユーザが感じた印象をリアルタイムに文字 にして表現していると考えられる • 膨大な量のコメントデータが存在

8.

メディアタイプ 音楽動画に対して コメントされているとは限らない

9.

目的 正解データセット拡張のために コメントからの印象推定はどの程度 可能かを検討する • 3つのメディアタイプと8つの印象タイプ について考慮

10.

印象評価データセット[大野2015] • 評価対象:ニコニコ動画に投稿された動画のうち 「VOCALOID」タグが付与されたもの • 500件の音楽動画のサビ部分の30秒(ReflaiD[後藤2003] を使用) • 音楽動画のサビ部分を3つのメディアタイプに 分離し,それぞれ8つの印象タイプに関して評価 1. 音楽動画(音楽と映像の組み合わせ) 2. 音楽のみ 3. 映像のみ • 3人の評価者によって各メディア・印象タイプを 5段階(-2~+2)で評価

11.

印象軸[大野2015] • C1(堂々とした) • C2(元気が出る) • C3(切ない) • C4(激しい) • C5(滑稽) MIREX • C6(かわいい) • Valence(楽しい,悲しい) • Arousal(積極的,消極的) Russel[Russel1980]

12.

コメントの収集と抽出 • ニコニコ動画APIを用いて,印象評価データセッ トに該当する音楽動画(500曲)に対するすべ てのコメント(860,455個)を収集 • 音楽動画の印象評価値が付いているサビ区間内 に投稿されたコメント(132,036個)を抽出 コメント数の変化 Aメロ Bメロ サビ Cメロ サビ

13.

音楽動画に対する単語ベクトルの生成 • MeCabを用いて形態素解析することで単語 に分割し、使用する品詞に属する単語の 出現頻度を数え、単語ベクトルとする 「ミク / かわいい」「初見」「ミク / 良い」 「ミクかわいい」「初見」「ミク良い」 すべての品詞を使用 動画A ミク かわいい 初見 良い 2 1 1 1 名詞を使用 動画A 形容詞を使用 ミク 初見 1 1 動画A かわいい 良い 1 1

14.

単語ベクトルの生成手法 用いる品詞 手法名 用いる品詞 すべての品詞 Noun-Verb 手法 名詞,動詞 名,動,形容,副 Noun-Adj 手法 名詞,形容詞 名詞 Noun-Adv 手法 名詞,副詞 動詞 Verb-Adj 手法 動詞,形容詞 Adj手法 形容詞 Verb-Adv 手法 動詞,副詞 Adv手法 副詞 Adj-Adv 手法 形容詞,副詞 手法名 all手法 all2手法 Noun手法 Verb手法

15.

評価実験 • (3メディアタイプ)×(8印象タイプ) の24パターンについて,評価値をもとに 動画集合を構築 -1以下 低評価群 (負例) 動画集合 1以上 高評価群 (正例)

16.

評価実験 • SVMを用いて交差検定を行い,正例の適合率 を計算 • 得られた動画集合を5分割し,4つを訓練データ 1つをテストデータとして交差検定を実施 (5-foldクロスバリデーション) • 適合率:テストデータ内で正例と判定された ものに正例が含まれる割合 正例(正解) 負例(正解) 正例(テストデータ) ○ × 負例(テストデータ) × ○

17.

各手法の結果 All手法 全 C 1 C 2 C 3 All2手法 C 4 C 5 C 6 V A 平 全 2 C 1 C 2 C 3 Noun手法 C 4 C 5 C 6 V A 平 名 C 1 C 2 C 3 C 4 Verb手法 C 5 C 6 V A 平 動 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 Adj手法 C 1 C 2 C 3 Adv手法 C 4 C 5 C 6 V A 平 C 1 C 2 C 3 Noun-Verb手法 C 4 C 5 C 6 V A 平 C 1 C 2 C 3 C 4 C 5 C 6 Noun-Adj手法 V A 平 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 Noun-Adv手法 C 1 C 2 C 3 C 4 C 5 C 6 Verb-Adj手法 V A 平 C 1 C 2 C 3 C 4 C 5 Verb-Adv手法 C 6 V A 平 C 1 C 2 C 3 C 4 C 5 C 6 Adj-Adv手法 V A 平 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711

18.

メディア・印象タイプで最も高い値とその手法 C1 C2 C3 C4 C5 C6 V A 平 音楽動画 動形 形 全 名形 名形 動形 全 形副 0.797 0.781 0.869 0.713 0.780 0.750 0.856 0.783 0.844 音楽のみ 名形 全 名形 名形 全2 全2 名形 名形 0.730 0.754 0.671 0.612 0.750 0.725 0.787 0.740 0.806 映像のみ 動形 名形 全 形 名形 形 形副 形副 0.804 0.921 0.792 0.752 0.759 0.657 0.829 0.840 0.884 平均 0.819 0.777 0.692 0.763 0.711 0.824 0.788 0.845 0.777

19.

メディア・印象タイプで最も高い値とその手法 C1 C2 C3 C4 C5 C6 V A 平 音楽動画 動形 形 全 名形 名形 動形 全 形副 0.797 0.781 0.869 0.713 0.780 0.750 0.856 0.783 0.844 音楽のみ 名形 全 名形 名形 全2 全2 名形 名形 0.730 0.754 0.671 0.612 0.750 0.725 0.787 0.740 0.806 映像のみ 動形 名形 全 形 名形 形 形副 形副 0.804 0.921 0.792 0.752 0.759 0.657 0.829 0.840 0.884 平均 0.819 0.777 0.692 0.763 0.711 0.824 0.788 0.845 0.777

20.

考察 • 印象を表す際には形容詞が用いられ、また その形容詞に特徴が出やすい • C1(堂々),C6(かわいい),Arousal • C3(切ない),C5(滑稽)はソーシャルコメント から推定することは困難 • コメントは音楽より映像に対して付与され る傾向がある

21.

まとめ • ニコニコ動画のコメントから音楽動画の印象 推定を行い,その精度について分析を実施 • 手法ごとに印象推定精度を出した • 手法を使い分けることで、コメントからの音楽 動画に対する印象推定が有効である可能性 • 既存の膨大な量のコメントデータを用いた印象 評価データセットの拡張可能性 [今後の展開] • 評価値にブレがあるため、評価者全員が一定の評価 をつけた音楽動画についての推定精度について考慮 • どんなコメントや単語が推定精度に影響を与えてい るのかを調査

22.

音楽動画数 高評価群 C1 C3 C4 C5 音楽動画 76 105 87 54 83 104 101 150 音楽のみ 133 127 46 69 49 73 124 178 映像のみ 21 50 142 49 81 78 57 111 低評価群 C1 C2 C5 C6 V A 音楽動画 105 169 191 209 178 215 62 94 音楽のみ 65 43 映像のみ 252 272 165 247 207 234 96 155 C2 C3 C4 C6 V 92 232 195 180 209 61 A

23.

all手法の適合率 C1 C2 C3 C4 C5 C6 V A 音楽動画 0.645 0.769 0.560 0.568 0.553 0.734 0.794 0.837 音楽のみ 0.790 0.741 0.283 0.600 0.425 0.569 0.821 0.886 映像のみ 0.263 0.471 0.669 0.360 0.594 0.667 0.529 0.713

24.

音楽動画数 高評価群 C1 C3 C4 C5 音楽動画 76 105 87 54 83 104 101 150 音楽のみ 133 127 46 69 49 73 124 178 映像のみ 21 50 142 49 81 78 57 111 低評価群 C1 C2 C5 C6 V A 音楽動画 105 169 191 209 178 215 62 94 音楽のみ 65 43 映像のみ 252 272 165 247 207 234 96 155 C2 C3 C4 C6 V 92 232 195 180 209 61 A

25.

アンダーサンプリング 高評価群 C1 C3 C4 C5 V A 音楽動画 76 105 87 54 83 104 62 94 音楽のみ 65 92 69 49 73 61 43 映像のみ 21 50 142 49 81 78 57 111 低評価群 C1 C2 C3 C4 C5 C6 V A 音楽動画 76 105 87 54 83 104 62 94 音楽のみ 65 92 69 49 73 61 43 映像のみ 21 50 142 49 81 78 57 111 C2 46 46 C6