435 Views
March 11, 16
スライド概要
DEIM2016でスポーツの「ネタバレ」を防止する研究を発表した際のスライド
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
スポーツのジャンルに応ずる ネタバレの特性分析と判定手法の提案 白鳥裕士(明治大学総合数理学部3年) 中村聡史(明治大学総合数理学部)
ネタバレ 小説 アニメ スポーツ
こんな経験ないですか?
こんな経験ないですか? 悲しい.......(>_<)
サッカーのツイート例
こんな声も...
モチベーション • SNS上のスポーツのネタバレ防止 - SNSを完全に使用しないのは不便&非現実的 コミュニケーションは遮断せずに ネタバレとなり得るコメントのみ遮断
アプリケーションイメージ
アプリケーションイメージ ユーザの手前でシステムが判断して ネタバレを遮断
関連研究 • ストーリーコンテンツ内のネタバレに関する 単語の調査[前田 ‘15] - ストーリーコンテンツ以外は対象外 • Twitter上のネタバレコメントを判定する手法 [Golbeck ‘12] - 再現率を重視しており,ネタバレでないものまで 判定 スポーツのネタバレのコメントについて 詳しく分析されていない
研究目的 Twitter上でのスポーツのネタバレを防止! • アプローチ - スポーツに応じたネタバレの共通点や相違点を 分析 - 試合展開を考慮したネタバレ判定手法を提案し 有効性を検証
対象とするスポーツ • 関心度合いが比較的高く点の重要性が違う スポーツ - サッカー: 9試合(勝:5,分:3,負:1) - バレー: 6試合(勝:1,負:5) - 野球: 3試合(勝:2,負:1) 計18試合 • 2015年7月1日〜2015年11月21日に収集
ツイート収集 • 関連するハッシュタグを含むツイート
データセット構築 18 試合 1000 ツイート 5 人 90000 件
試合経過に対する変化 vs.カンボジア 30 日本得点 日本得点 20 試合終了 日本得点 10 0 0 20 40 日本得点 30 60 80 120 vs.韓国 日本失点 20 100 試合終了 10 0 0 20 40 60 80 100 120
試合経過に対する変化 試合終了 vs.オーストラリア 30 20 日本セット 取得 10 0 0 30 20 40 80 100 120 140 160 180 200 vs.ロシア 日本セット 取得 敵国セット 取得 10 0 60 日本セット 取得 20 敵国セット 取得 日本セット 取得 0 20 40 60 試合終了 敵国セット 取得 80 100 120 140 160 180 200
試合経過に対する変化 vs.韓国 30 試合終了 日本得点 20 敵国得点 10 0 0 20 40 60 80 100 120 140 160 180 200 220 240 vs.アメリカ 日本得点 30 20 10 0 日本得点 敵国得点 試合終了 日本得点 敵国得点 0 20 40 60 80 100 120 140 160 180 200 220 240 試合展開との連動性を確認
提案手法 • 勝っているときのツイート - 「日本リードしてる!」 - 「このまま大量得点で勝とう」 • 負けているときのツイート - 「負けてるがんばれ」 - 「マジか……うん.」 ネタバレとするものを試合展開に応じて変更
提案手法 • 試合展開によりSVMの学習モデルを使い分け • Mecabで形態素解析を行い単語ベクトルを作成 0-‐‑1 試合開始 試合1: 試合2: 試合3: 0-‐‑2 負けモデル 同点モデル 負けモデル 1-‐‑0 同点モデル 勝ちモデル 1-‐‑1 1-‐‑0 同点モデル 勝ちモデル 同点モデル 適用 判定する試合(システムが試合展開を監視): 同点モデル 判定 試合終了 1-‐‑0 勝ちモデル 判定
比較手法 ① パターンマッチ手法 ② ベースライン手法
パターンマッチ手法 • 「点」「先制」「決める」などのキーワードが 含まれていればネタバレと判定 ネタバレ ネタバレでない
ベースライン手法 • 分類/判定にはSVMを使用 • Mecabで形態素解析を行い単語ベクトルを作成 試合開始 試合終了 0-‐‑1 0-‐‑2 試合1: 1-‐‑0 試合2: 1-‐‑1 1-‐‑0 試合3: 適用,判定 判定する試合: 1-‐‑0 分類モデル
比較結果(適合率) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 パターン ベースライン サッカー バレー 提案手法 野球 すべてのスポーツで適合率が上がった! 機械学習[改]は有効!
比較結果(再現率) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 パターン ベースライン サッカー バレー 提案手法 野球 ネタバレの判定精度がすべてのスポーツで上がった!
考察 • 提案手法は他の手法に比べ適合率が 高かった - モデル分けすることにより試合展開とは関係のない ツイートを無視することができた • 引き分けの展開の判定精度が低かった - 「0-0」「追いついた」「追いつかれた」でツイート内容 に大きく差がある • バレーボール,野球の判定精度が低かった - 「セット内の得点」や「ヒット」の意味合いの違い
まとめ • スポーツにおけるネタバレの特徴を分析 - 特徴語として「展開,結果」「評価,感情」を表す語が 多かった - 「点やセットが動いた時間帯」「試合終了時間帯」での ネタバレ数が多く,試合展開と同期していた • 3つの手法を比較 - 提案手法の有効性を示した [今後の検討] • 試合数の拡張 • 一般的なタイムラインへの適用と実験