分散表現に基づく文書要約#yjdsw1

217 Views

December 21, 15

#yjdsw1 #文書要約 #分散表現 #自然言語処理 #機械学習 #EMNLP2015

スライド概要

http://yahoo-ds-event.connpass.com/event/21903/

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 195.4K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.5K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 83.5K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65.8K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 44K

ZAP - ZCPをベースとしたマルチK8sのアプリケーション実行基盤 #YJTC / YJTC21 B-3

yjtc

Yahoo!デベロッパーネットワーク 34.3K

各ページのテキスト

Data & Science Workshop 「分散表現に基づく文書要約」小林隼人 2015/11/11

自己紹介 P2 • 名前：小林隼人（ハヤト・コバヤシ） • 所属： Yahoo! JAPAN 研究所(‘13年入社) 言語処理・機械学習室 • 略歴：九大→東北大→東芝→ヤフー • 研究歴：ロボット→学習理論→言語処理 • 最近の興味：文書要約・生成 • 最近の成果（がんばってますアピール） • ACL'14, COLING'14, PACLING'15, WWW'15, ECML-PKDD'15, SIGDIAL'15, EMNLP'15, WSDM'16, … 今日発表する内容

概要 • 論文 – Hayato Kobayashi, Masaki Noguchi, Taichi Yatsuka, “Summarization Based on Embedding Distributions”, EMNLP 2015 • 内容 – 最近流行っている分散表現を用いて類似度を計算し文書要約（重要文抽出）する手法を提案 – 応用例 • 知恵袋の回答の要約 • 検索結果のスニペット • ツイートのまとめ作成 P3

分散表現 P4 • 単語やテキストの実数ベクトル表現 – 意味の近い単語は近くにマッピング車犬猫

有名な例 P5 • king – man + woman ≒ queen king queen N次元空間に意味を埋め込めている？ man woman

今回考える問題 P6 • 文書要約を最適化問題として定式化元文書D 要約S 文重要文 max 𝑓 𝑆 𝑆⊂𝐷 s.t. 𝑐 𝑆 ≤ ℓ ・・・要約の良さを表す関数文字数制限などここに分散表現に基づく“意味”類似度を使う

劣モジュラ最適化 P7 • 劣モジュラ性 – 連続関数の凸性に対応する集合関数の性質 – 貪欲法でほぼ最適(1-1/e)な近似が得られる – [定義]集合関数𝑓: 2𝑋 → ℝが劣モジュラ ⇔ 𝑆1 ⊂ 𝑆2 ⊂ 𝑋 かつ𝑥 ∈ 𝑋 ∖ 𝑆2 ならば、 𝑓 𝑆1 ∪ 𝑥 − 𝑓 𝑆1 ≥ 𝑓 𝑆2 ∪ 𝑥 − 𝑓 𝑆2 例：センサー配置問題（監視範囲の最大化）ｆ（）－ｆ（）≧ｆ（）－ｆ（）

要約の場合 P8 • 元文書の内容を網羅したい→劣モジュラ要約A ⊂ 要約B ⇒ f(A∪{s})-f(A) 要約Ａ＋文ｓ文ｓ ≧ f(B∪{s})-f(B) 要約Ｂ＋文ｓ文ｓ

修正貪欲法[Lin&Bilmes, ACL2010] • 要素のコストを考慮した貪欲法 𝑓𝐶 𝑠 ≔ 𝑓 𝐶 ∪ 𝑠 −𝑓 𝐶 𝑤𝑠 は要素𝑠の重み（単語数、バイト数など） P9

10.

既存研究と本研究 P10 • [Lin&Bilmes, ACL2010] – TFIDF重みで文の類似度の和を計算 – 文書生成的手法よりも高い性能[Lin&Bilmes, ACL2011] • [Kageback+, CVSC2014] – 分散表現で文の類似度の和を計算 – Lin&Bilmesよりも高い性能 • 本研究（課題と解決法） – 文書の類似度に基づく目的関数を２つ提案 • 個別スコアの高い文集合が全体最適とは限らない

11.

文書ベクトルに基づく類似度 P11 • 元文書と要約のコサイン類似度で定義 𝑓 𝐶𝑜𝑠 𝒗𝐷 : = 𝒗𝐶 ⋅ 𝒗𝐷 𝐶 ≔ 𝒗𝐶 𝒗𝐷 𝑠∈𝐷 𝑤∈𝑠 𝑤 文書と要約のベクトルは単語ベクトルの和で定義定理１．𝑓 𝐶𝑜𝑠 は劣モジュラ関数ではない元文書要約

12.

点分布に基づく類似度（１） • 分散表現を点分布のまま扱う – 単一文書ベクトルは作らない – （文の分布でも良い） P12 要約Aの点分布元文書の点分布要約Bの点分布 f(要約A)>f(要約B) となるようにfを定義

13.

点分布に基づく類似度（２） P13 • 直感：分布が似ている⇒近傍点が近くにある要約Aの点分布要約Bの点分布最近傍点までの距離の（負の）和でｆを定義する

14.

点分布に基づく類似度（３） P14 • 元文書分布の各点における、要約分布上の最近傍点までの距離の和で非類似度を表す 𝑓 𝑁𝑁 𝐶 ≔ − 𝑔(𝑁 𝑤, 𝐶 ) 𝑠∈𝐷 𝑤∈𝑠 𝑁 𝑤, 𝐶 ≔ min 𝑑 𝑤, 𝑣 𝑣∈𝑠:𝑠∈𝐶 𝑤≠𝑣 関数ｇは単調非減少な距離のスケーリング関数関数Nは単語ｗからの要約C中の最近傍距離定理２．𝑓 𝑁𝑁 は単調劣モジュラ関数である定理３． 𝑔 𝑥 = ln 𝑥のとき𝑓 𝑁𝑁 の大小は漸近的にKLDと一致する元文書𝐷、要約𝐶1 , 𝐶2 について、 𝐷 ∽ 𝑝, 𝐶1 ∼ 𝑞, 𝐶2 ∼ 𝑟 とすると漸近的に 𝔼[𝑓 𝑁𝑁 𝐶2 ] − 𝔼[𝑓 𝑁𝑁 (𝐶1 )] > 0 ⇔ 𝐷𝐾𝐿 (𝑝 ∥ 𝑞) − 𝐷𝐾𝐿 (𝑝 ∥ 𝑞) > 0 （[Perez-Cruz, NIPS2009][Wang+, TIT2009]などを使う）

15.

データセットと評価指標 • Opinosis Dataset P15 [Ganesan+, COLING2010] – ５１トピック（ホテル、車、製品など）のユーザレビュー – 各トピックに５０～５７５文 – 各トピックに４，５人が作ったサマリ（１～３文） • ROUGE-N指標 [Lin, WAS2004] – 人が作ったサマリとのNグラム共起割合 – 翻訳の評価で使われるBLEUに似た評価値 • BLEUは適合率重視、ROUGEは再現率重視 – ROUGE-1が最も人のサマリと当てはまりが良い • [Lin&Hovy, NAACL2003]

16.

実験結果 • • • • • P16 DocEmb: 修正貪欲法＋ 𝑓 𝐶𝑜𝑠 （文書ベクトル） EmbDist: 修正貪欲法＋ 𝑓 𝑁𝑁 （点分布） s.t. 𝑔(𝑥) = ln(𝑥), 𝑥, 𝑒 𝑥 SemEmb: [Kageback et al. CVSC2014] TfIdf: [Lin and Bilmes, ACL2011] ApxOpt: 修正貪欲法＋ROUGE-1 近似最適解提案法既存手法 EmbDistが最も適した評価指標ROUGE-1で最高性能

17.

まとめ P17 • 分散表現に基づく文書類似度を提案し、比較実験により提案手法の優位性を示した • 今後の課題 – クエリを考慮した類似度 • 検索結果の要約に応用 • 歪めた分布のKLD? – Earth Mover’s Distance(EMD)との関係 • 𝑔(𝑥) = 𝑥のときEMDの下界になる[Cusner+, ICML2015] – 実数空間の技を言語処理に使う

18.

P18 • ご清聴ありがとうございました！ EMNLP2015会場の様子（リスボン）