スポーツのジャンルに応ずるネタバレの特性分析と判定手法の提案

435 Views

March 11, 16

スライド概要

DEIM2016でスポーツの「ネタバレ」を防止する研究を発表した際のスライド

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

スポーツのジャンルに応ずる   ネタバレの特性分析と判定手法の提案 白鳥裕士(明治大学総合数理学部3年) 中村聡史(明治大学総合数理学部)

2.

ネタバレ 小説 アニメ スポーツ

3.

こんな経験ないですか?

4.

こんな経験ないですか? 悲しい.......(>_<)

5.

サッカーのツイート例

6.

こんな声も...

7.

モチベーション • SNS上のスポーツのネタバレ防止 - SNSを完全に使用しないのは不便&非現実的 コミュニケーションは遮断せずに ネタバレとなり得るコメントのみ遮断

8.

アプリケーションイメージ

9.

アプリケーションイメージ ユーザの手前でシステムが判断して ネタバレを遮断

10.

関連研究 • ストーリーコンテンツ内のネタバレに関する 単語の調査[前田 ‘15] - ストーリーコンテンツ以外は対象外 • Twitter上のネタバレコメントを判定する手法 [Golbeck ‘12] - 再現率を重視しており,ネタバレでないものまで 判定 スポーツのネタバレのコメントについて 詳しく分析されていない

11.

研究目的 Twitter上でのスポーツのネタバレを防止! • アプローチ - スポーツに応じたネタバレの共通点や相違点を 分析 - 試合展開を考慮したネタバレ判定手法を提案し 有効性を検証

12.

対象とするスポーツ • 関心度合いが比較的高く点の重要性が違う スポーツ - サッカー: 9試合(勝:5,分:3,負:1) - バレー: 6試合(勝:1,負:5) - 野球: 3試合(勝:2,負:1) 計18試合 • 2015年7月1日〜2015年11月21日に収集

13.

ツイート収集 • 関連するハッシュタグを含むツイート

14.

データセット構築 18   試合 1000   ツイート 5 人   90000 件

15.

試合経過に対する変化 vs.カンボジア 30 日本得点 日本得点 20 試合終了 日本得点 10 0 0 20 40 日本得点 30 60 80 120 vs.韓国 日本失点 20 100 試合終了 10 0 0 20 40 60 80 100 120

16.

試合経過に対する変化 試合終了 vs.オーストラリア 30 20 日本セット 取得 10 0 0 30 20 40 80 100 120 140 160 180 200 vs.ロシア 日本セット 取得 敵国セット 取得 10 0 60 日本セット 取得 20 敵国セット 取得 日本セット 取得 0 20 40 60 試合終了 敵国セット 取得 80 100 120 140 160 180 200

17.

試合経過に対する変化 vs.韓国 30 試合終了 日本得点 20 敵国得点 10 0 0 20 40 60 80 100 120 140 160 180 200 220 240 vs.アメリカ 日本得点 30 20 10 0 日本得点 敵国得点 試合終了 日本得点 敵国得点 0 20 40 60 80 100 120 140 160 180 200 220 240 試合展開との連動性を確認

18.

提案手法 • 勝っているときのツイート - 「日本リードしてる!」 - 「このまま大量得点で勝とう」 • 負けているときのツイート - 「負けてるがんばれ」 - 「マジか……うん.」 ネタバレとするものを試合展開に応じて変更

19.

提案手法 • 試合展開によりSVMの学習モデルを使い分け • Mecabで形態素解析を行い単語ベクトルを作成 0-­‐‑1 試合開始 試合1: 試合2: 試合3: 0-­‐‑2 負けモデル 同点モデル 負けモデル 1-­‐‑0 同点モデル 勝ちモデル 1-­‐‑1 1-­‐‑0 同点モデル 勝ちモデル 同点モデル 適用 判定する試合(システムが試合展開を監視): 同点モデル 判定 試合終了 1-­‐‑0 勝ちモデル 判定

20.

比較手法 ① パターンマッチ手法 ② ベースライン手法

21.

パターンマッチ手法 • 「点」「先制」「決める」などのキーワードが 含まれていればネタバレと判定 ネタバレ ネタバレでない

22.

ベースライン手法 • 分類/判定にはSVMを使用 • Mecabで形態素解析を行い単語ベクトルを作成 試合開始 試合終了 0-­‐‑1 0-­‐‑2 試合1: 1-­‐‑0 試合2: 1-­‐‑1 1-­‐‑0 試合3: 適用,判定 判定する試合: 1-­‐‑0 分類モデル

23.

比較結果(適合率) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 パターン ベースライン サッカー バレー 提案手法 野球 すべてのスポーツで適合率が上がった! 機械学習[改]は有効!

24.

比較結果(再現率) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 パターン ベースライン サッカー バレー 提案手法 野球 ネタバレの判定精度がすべてのスポーツで上がった!

25.

考察 • 提案手法は他の手法に比べ適合率が 高かった - モデル分けすることにより試合展開とは関係のない ツイートを無視することができた • 引き分けの展開の判定精度が低かった - 「0-0」「追いついた」「追いつかれた」でツイート内容 に大きく差がある • バレーボール,野球の判定精度が低かった - 「セット内の得点」や「ヒット」の意味合いの違い

26.

まとめ • スポーツにおけるネタバレの特徴を分析 - 特徴語として「展開,結果」「評価,感情」を表す語が 多かった - 「点やセットが動いた時間帯」「試合終了時間帯」での ネタバレ数が多く,試合展開と同期していた • 3つの手法を比較 - 提案手法の有効性を示した [今後の検討] • 試合数の拡張 • 一般的なタイムラインへの適用と実験