ネタバレ確信度を考慮した試合実況データセット構築と分析手法の検討

818 Views

June 21, 18

スライド概要

第12回WI2学会で発表したプレゼン資料

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
2.

何の数字だかわかりますか? 1

3.

2018ロシアW杯が開催した日! 2

4.

日本代表の試合 3

5.

日本代表の試合 4

6.

スポーツ観戦 勝つか負けるかわからないハラハラ感を楽しめる (リアルタイムで観戦したいという人も多い) 5

7.

スポーツ観戦 6 勝つか負けるかわからないハラハラ感を楽しめる (リアルタイムで観戦したいという人も多い) 仕事や学業などでリアルタイムで観られない場合は 録画視聴

8.

スポーツ観戦 7 勝つか負けるかわからないハラハラ感を楽しめる (リアルタイムで観戦したいという人も多い) 仕事や学業などでリアルタイムで観られない場合は 録画視聴 ある問題が発生

9.

ネタバレ問題

10.

ネタバレ例 ニュースで 9

11.

ネタバレ例 LINEで 10

12.

ネタバレ例 Twitterで 11

13.

検索結果 12

14.

ネタバレ防止研究 スポーツの勝敗にまつわるネタバレ防止手法の検討[中村ら 2013] : Web上のネタバレを隠す表現手法(誤情報混入など)を検討 [Jeonら 2015] Spoiler detection in TV program tweets : テレビ番組におけるTwitter上のネタバレを高精度に判定 する手法を検討

15.

ネタバレ防止研究 スポーツの勝敗にまつわるネタバレ防止手法の検討[中村ら 2013] : Web上のネタバレを隠す表現手法(誤情報混入など)を検討 [Jeonら 2015] Spoiler detection in TV program tweets : テレビ番組におけるTwitter上のネタバレを高精度に判定 する手法を検討 スポーツにおけるSNS上のネタバレを 高精度に判定する手法の検討は不十分

16.

これまでの取り組み 15 スポーツにおけるネタバレの特性調査と判定手法の検討 [2017] : Twitter上のスポーツのネタバレを判定する手法について, 試合状況別にSVMを切り替える手法の有効性を確認

17.

これまでの取り組み 16 スポーツにおけるネタバレの特性調査と判定手法の検討 [2017] : Twitter上のスポーツのネタバレを判定する手法について, 試合状況別にSVMを切り替える手法の有効性を確認 最も高精度な手法で6割 実用性に乏しい

18.

問題点の原因 データセット構築時に「ネタバレか否か」を直接聞いていた 17

19.

問題点の原因 18 データセット構築時に「ネタバレか否か」を直接聞いていた データセットでネタバレとされているツイート例: 「長友足つってるw」 「日本: 11宇佐美→8原口」

20.

問題点の原因 19 データセット構築時に「ネタバレか否か」を直接聞いていた データセットでネタバレとされているツイート例: 「長友足つってるw」 「日本: 11宇佐美→8原口」 実際にネタバレを受ける側の目線に 固定できていない どの程度の暴露をネタバレとするかの 基準が固定できていない

21.

問題点の原因 20 データセット構築時に「ネタバレか否か」を直接聞いていた データセットでネタバレとされているツイート例: 「長友足つってるw」 「日本: 11宇佐美→8原口」 ラベル付けの評価基準を明確にした データセットを構築する必要がある 実際にネタバレを受ける側の目線に 固定できていない どの程度の暴露をネタバレとするかの 基準が固定できていない

22.

判断基準を明確化したデータセット の構築と判定手法の再検討 21

23.

ネタバレデータセット再構築 ツイートから「試合結果がどのくらいの確信度で予測可能か」を聞いた (判断基準の固定と評価視点の固定が狙い) 22

24.

ネタバレデータセット再構築 23 ツイートから「試合結果がどのくらいの確信度で予測可能か」を聞いた (判断基準の固定と評価視点の固定が狙い) ネタバレツイートを 「試合の最終結果が高い確信度 で予測できてしまうツイート」 と定義 確信度が高ければ危険なツイート

25.

ネタバレデータセット再構築 ツイートから「試合結果がどのくらいの確信度で予測可能か」を聞いた (判断基準の固定と評価視点の固定が狙い) 結果の予測とその確信度を クリックすることでラベル付け 1000ツイート × 9試合 = 9000 ツイート 9000ツイート × 5人(以上) = 45000(以上)データ 24

26.

用意した試合 25 サッカー日本代表の試合 9試合 (以前用いたものを流用) 結果: 5勝1敗3分

27.

構築結果(抜粋) 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 26 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 116 98 112 113 120

28.

構築結果 平均確信度 27 試合の経過時間に対する 平均確信度の推移 経過時間

29.

構築結果 平均確信度 28 試合の経過時間に対する 平均確信度の推移 試合開始からの経過時間が 長いほど危険なネタバレ 経過時間

30.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 29 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 116 98 112 113 120

31.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 30 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 116 98 112 113 120 50を超えると試合結果に 対するツイートが出現

32.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 31 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 116 98 112 113 120 今回は最終結果に対する 記述が現れる確信度50を 境界線とした

33.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 32 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 116 98 112 113 120 ネタバレ

34.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 33 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 非ネタバレ 116 98 112 113 120 ネタバレ

35.

ネタバレ判定実験 34 ネタバレツイート(確信度50以上)かどうかを判別 比較内容: 単語を特徴量とした3手法の判定精度を比較 手法 比較項目 パターンマッチ 適合率 ランダムフォレスト 再現率 SVM F値

36.

判定結果 手法 35 適合率 再現率 F値 パターンマッチ 0.570 0.935 0.708 ランダムフォレスト 0.808 0.857 0.826 SVM 0.809 0.883 0.843

37.

判定結果 手法 36 適合率 再現率 F値 パターンマッチ 0.570 0.935 0.708 ランダムフォレスト 0.808 0.857 0.826 SVM 0.809 0.883 0.843 機械学習を用いた 手法の方が高い

38.

判定結果 手法 37 適合率 再現率 F値 パターンマッチ 0.570 0.935 0.708 ランダムフォレスト 0.808 0.857 0.826 SVM 0.809 0.883 0.843 SVMが最も効果的 以前の精度(0.6程度) よりもかなり上昇

39.

判定結果 手法 38 適合率 再現率 F値 パターンマッチ 0.570 0.935 0.708 SVMが最も効果的 ネタバレデータセットは評価視点と判断基準 ランダムフォレスト 0.808 0.857 0.826 以前の精度(60%程度) の固定を考慮して構築する必要がある SVM 0.809 0.883 0.843 よりもかなり上昇

40.

試合状況を考慮したSVM (SVM+試合状況) 試合開始 0-1 0-2 試合1: 1-0 試合2: 1-0 試合3: 1-1 試合終了

41.

試合状況を考慮したSVM (SVM+試合状況) 試合開始 0-1 0-2 試合1: 1-0 試合2: 勝ちモデル 1-1 1-0 試合3: 勝ちモデル 試合終了

42.

試合状況を考慮したSVM (SVM+試合状況) 試合開始 0-1 試合1: 0-2 負けモデル 試合終了 負けモデル 1-0 試合2: 勝ちモデル 1-1 1-0 試合3: 勝ちモデル

43.

試合状況を考慮したSVM (SVM+試合状況) 0-1 試合開始 試合1: 0-2 負けモデル 同点モデル 試合終了 負けモデル 1-0 試合2: 同点モデル 1-1 1-0 試合3: 同点モデル 勝ちモデル 勝ちモデル 同点モデル

44.

試合状況を考慮したSVM (SVM+試合状況) 0-1 試合開始 試合1: 0-2 負けモデル 同点モデル 試合終了 負けモデル 1-0 試合2: 同点モデル 勝ちモデル 1-1 1-0 試合3: 同点モデル 勝ちモデル 同点モデル システム自身は ネタバレされても 問題ない! 適用 ネタバレを防止したい試合: 同点モデル 判定 試合状況により SVMの学習モデルを 使い分け 1-0 勝ちモデル 判定

45.

判定結果(SVM+試合状況手法) 手法 適合率 再現率 F値 SVM 0.809 0.883 0.843 SVM+試合状況 0.831 0.880 0.852 44

46.

判定結果(SVM+試合状況手法) 手法 適合率 再現率 SVM 0.809 0.883 0.843 SVM+試合状況 0.831 0.880 0.852 45 F値 F値が0.01上昇した

47.

判定結果(SVM+試合状況手法) 手法 適合率 SVM 0.809 0.883 0.843 SVM+試合状況 再現率 F値 46 特に適合率が高かった 異なる時間帯での誤学習 0.831 0.880 0.852 (「久しぶり」など)が 少なくなったため

48.

判定結果(SVM+試合状況手法) 手法 適合率 再現率 F値 SVM 0.809 0.883 0.843 47 特に適合率が高かった 異なる時間帯での誤学習 スポーツのネタバレ判定では試合状況別に SVM+試合状況 0.831 0.880 0.852 (「久しぶり」など)が モデルを切り替えるのが良い 少なくなったため

49.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 48 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 116 98 112 113 120

50.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 49 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 116 98 112 113 120 50付近では試合結果に 対する感想ツイートが出現

51.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 50 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 70を超えると直接試合結果 48 を述べるツイートが出現 14 116 98 112 113 120

52.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 51 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 116 98 112 113 120 80を超えると試合結果の 詳細(スコアなど)を述べる ツイートが出現

53.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 52 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 116 98 112 113 120 非ネタバレ 50以上をネタバレ, 50未満を非ネタバレ とした場合 (以後50-49) ネタバレ

54.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 53 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 116 98 112 113 120 非ネタバレ 60以上をネタバレ, 40以下を非ネタバレ とした場合 (以後60-40) ネタバレ

55.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 54 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 116 98 112 113 120 非ネタバレ 70以上をネタバレ, 30以下を非ネタバレ とした場合 (以後70-30) ネタバレ

56.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 55 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 116 98 112 113 120 非ネタバレ 80以上をネタバレ, 20以下を非ネタバレ とした場合 (以後80-20) ネタバレ

57.

構築結果 平均確信度 0〜9 10〜19 20〜29 30〜39 40〜49 50〜59 60〜69 70〜79 80〜89 90〜100 56 ツイート 柏木うめぇ 長かった。ここから。 森重ごーーる 1-0で前半終了。 アメリカ3点目 よかった。ほんとよかった。 香川とか岡崎とか原口とか酒 井とか。 【後半35分経過】 日本 1 × 1 イラン 勝った勝った イラン1-1日本 3-0か〜。 あと2点くらい欲しかったな。 経過時間 31 29 34 48 14 116 98 112 113 120 非ネタバレ 90以上をネタバレ, 10以下を非ネタバレ とした場合 (以後90-10) ネタバレ

58.

判定結果(確信度帯別) 確信度帯 適合率 再現率 57 F値 50-49 0.883 0.851 0.866 60-40 0.891 0.856 0.873 70-30 0.873 0.946 0.907 80-20 0.873 0.927 0.893 90-10 0.774 0.890 0.797

59.

判定結果(確信度帯別) 確信度帯 適合率 再現率 58 F値 50-49 0.883 0.851 0.866 60-40 0.891 0.856 0.873 70-30 0.873 0.946 0.907 80-20 0.873 0.927 0.893 90-10 0.774 0.890 0.797 確信度帯70-30の F値が一番高かった 80-20以上ではデータ量が 極端に少なかった

60.

判定実験全体の考察 SVMの精度が以前のデータセットと比べ格段に高かった ネタバレのデータセット構築には評価視点と判断基準の固定が必要だった (構築のための1つのガイドラインを示すことができた) 試合状況別にSVMのモデルを切り替えると精度が上昇した 試合状況別に分離することで他の時間帯のツイートによる誤学習を防げたためだと 考えられる 確信度帯別では70-30が最も精度が高かった より危険なネタバレほど特徴が単純で判定難易度が下がったためだと考えられる 59

61.

今後の展開: ネタバレしないSNS ネタバレコメントを 自動的に伏せる 60

62.

今後の展開: ネタバレしない予告ダイジェスト 61 確信度が高いツイートが多い時間帯のシーンを ダイジェストから省く 平均確信度 省く 省く 時間

63.

まとめ 62 ネタバレデータセットを再構築 ネタバレデータセット構築のガイドラインを1つ示した ネタバレツイートを「試合の最終結果が高い確信度で予測できてしまう投稿」と定義 試合開始からの経過時間が長いほど確信度が高い より単純な言葉やより詳細な情報があるほど確信度が高い 様々な条件でネタバレ判定実験を試行 評価視点と判断基準の固定を考慮してデータセットを構築したら精度が上昇 SVM+試合状況手法が最も効果的 確信度70以上のツイートは9割以上の精度で判定可能