>100 Views
April 27, 16
スライド概要
4/6にヤフー株式会社で開催されたWSDM報告会の発表資料です。
http://yahoo-ds-event.connpass.com/event/28441/
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
Distributed Representations of Web Browsing Sequences for Ad Targeting (TargetAd 2016) 2016/4/6 田頭 幸浩
自己紹介 • 田頭 幸浩 (Yukihiro TAGAMI) • 機械学習 / 情報検索 • お仕事 • 機械学習のサービス適用 • YDN(ディスプレイ広告) • ショッピングの検索ランキング / 商品レコメンド • スマホ版トップページのニュースレコメンド • 論文書く
発表の概要 WSDMに参加して印象深かった話など • • 企業からの発表 オンライン広告のワークショップ(TargetAd)での発表について • • Distributed Representations of Web Browsing Sequences for Ad Targeting
Qi LuのKeynote (VC & Industry day) Microsoftの人 実ビジネスの観点からこれからの技術を俯瞰 • • • • App-driven labor & assets sharing market: Uber, Airbnb, Upwork Conversational User Interaction (CUI): Slack bot, Xiaoice/Rinna
Yahoo Labsはメールのデータを用いた研究をいくつか • Keynote • You’ve got Mail, and Here is What you Could do With It! Analyzing and Predicting Actions on Email Messages Portrait of an Online Shopper: Understanding and Predicting Consumer Behavior Enforcing k-anonymity in Web Mail Auditing • •
ニュースレコメンド関連 Facebookのパーソナライズされたニュースフィードの話 • • • • 基本的には、ユーザーが訪れるたびに新しいニュースをリストの上に 予測モデルはboosted tree + logistic regression(+ neural nets) 人手による評価もかなりやっているそう • 悲報や世界情勢のニュースはユーザーのフィードバックがつきにくい
Distributed Representations of Web Browsing Sequences for Ad Targeting (TargetAd 2016)
論文とプレゼンのスライドはワークショップのページから https://sites.google.com/site/targetad2016/program
ウェブページ訪問からユーザーの分散表現を獲得 我々の先行研究 • • • • • Y. Tagami, H. Kobayashi, S. Ono, and A. Tajima. Modeling User Activities on the Web using Paragraph Vector. In WWW Companion, 2015. Paragraph Vector [Le&Mikolov 2014] を用いて ウェブ閲覧系列から ユーザーの分散表現を獲得 Paragraph Vectorはテキスト列から分散表現を獲得する手法 • • • 単語 -> URL 段落 -> ウェブ閲覧系列 得られたユーザーの表現を、予測タスクの特徴量として用いる • • 学習データが少ない場合において良い特徴量となることが期待される
予測タスクの特徴量としてのユーザー表現 Web browsing sequences time User 1 User 2 …… User N User representations Prediction tasks Ad click prediction …… Summarizing Input as features Web site visitor prediction
二種類のデータの違いに着目 二種類のデータはおそらく異なる分布から生成されている • • 自然言語のデータ / ウェブ閲覧系列のデータ この研究では: • • • • 二種類のデータの分布の違いを調査した その違いをもとに新しいモデル(Backward PV-DM)を提案した 二種類のオンライン広告に関連した予測タスクで性能を評価した
二種類のデータの類似点 どちらの分布も両対数グラフでおおよそ直線に見える • • べき分布 E nglish W ikipedia - unigram 108 f (x) / x − 1.5587 f (x) / − 1.1231 x 7 10 106 106 105 105 Frequency Frequency 107 W eb page visits - unigram 104 103 101 101 10 2 10 3 10 Rank 4 10 5 10 6 10 7 10 f (x) / x − 1.0797 103 102 1 x − 0.9584 104 102 100 0 10 f (x) / 100 0 10 101 102 103 104 Rank 105 106 107 108
二種類のデータの相違点 • • ”テール”のURLがセッションの後半部に出現する これらのURLがユーザーのモデリングには重要だと考えられる
実験結果 • • 提案したBackward PV-DMは従来のParagraph Vectorよりも すべてのタスクで良い結果を示した ユーザーのより複雑な興味を推定するタスク(SiteVisitor)で、 提案法は良い結果を示した AdClicker SiteVisitor Ac1 Ac2 Ac3 Ac4 Ac5 Sv1 Sv2 Sv3 Sv4 Sv5 Skip-gram 0.9906 0.8354 0.6562 0.7163 0.7725 0.8017 0.8328 0.7135 0.7931 0.7417 Directed Skip-gram 0.9904 0.8374 0.6533 0.7159 0.7706 0.8019 0.8308 0.7120 0.7914 0.7394 PV-DM 0.9899 0.8151 0.6483 0.7242 0.7633 0.8051 0.8343 0.7180 0.7964 0.7479 Backward PV-DM 0.9902 0.8247 0.6537 0.7345 0.7661 0.8092 0.8366 0.7222 0.8028 0.7491 値はAUC(Area Under ROC Curve)。大きい方が良い指標。
論文に載らなかった実験結果(表現獲得のためのデータ量) 表現獲得のデータ量を増やすと、予測タスクの性能も改善した • • 詳細は人工知能学会全国大会(JSAI)で発表します
まとめ ユーザーの表現を得るために自然言語処理の手法を適用 • • • 単語 -> URL 段落 -> ウェブ閲覧系列(ユーザーの意図として) 対象のウェブページ訪問データを英語版Wikipediaデータと比較 • • 系列中の相対位置による、データ全体での出現頻度の違いを確認 分析結果をもとにBackward PV-DMを提案 • • 二種類のオンライン広告のデータにおいて、より良い結果を示した
おしまい
論文に載らなかった実験結果(予測タスクの学習データ量) 学習データ量が少なくてもそれなりの性能 • • 次元圧縮の効果