WSDM2016報告会−参加報告#yjwsdm

>100 Views

April 27, 16

#yjwsdm #オンライン広告 #ターゲティング広告 #分散表現 #Paragraph Vector #ウェブ閲覧履歴

スライド概要

4/6にヤフー株式会社で開催されたWSDM報告会の発表資料です。
http://yahoo-ds-event.connpass.com/event/28441/

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 189.6K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 91.2K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 80.6K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 64.3K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 42K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 32.9K

各ページのテキスト

Distributed Representations of Web Browsing Sequences for Ad Targeting (TargetAd 2016) 2016/4/6 田頭幸浩

自己紹介 • 田頭幸浩 (Yukihiro TAGAMI) • 機械学習 / 情報検索 • お仕事 • 機械学習のサービス適用 • YDN（ディスプレイ広告） • ショッピングの検索ランキング / 商品レコメンド • スマホ版トップページのニュースレコメンド • 論文書く

発表の概要 WSDMに参加して印象深かった話など • • 企業からの発表オンライン広告のワークショップ（TargetAd）での発表について • • Distributed Representations of Web Browsing Sequences for Ad Targeting

Qi LuのKeynote (VC & Industry day) Microsoftの人実ビジネスの観点からこれからの技術を俯瞰 • • • • App-driven labor & assets sharing market: Uber, Airbnb, Upwork Conversational User Interaction (CUI): Slack bot, Xiaoice/Rinna

Yahoo Labsはメールのデータを用いた研究をいくつか • Keynote • You’ve got Mail, and Here is What you Could do With It! Analyzing and Predicting Actions on Email Messages Portrait of an Online Shopper: Understanding and Predicting Consumer Behavior Enforcing k-anonymity in Web Mail Auditing • •

ニュースレコメンド関連 Facebookのパーソナライズされたニュースフィードの話 • • • • 基本的には、ユーザーが訪れるたびに新しいニュースをリストの上に予測モデルはboosted tree + logistic regression（+ neural nets）人手による評価もかなりやっているそう • 悲報や世界情勢のニュースはユーザーのフィードバックがつきにくい

Distributed Representations of Web Browsing Sequences for Ad Targeting （TargetAd 2016）

論文とプレゼンのスライドはワークショップのページから https://sites.google.com/site/targetad2016/program

https://sites.google.com/site/targetad2016/program

ウェブページ訪問からユーザーの分散表現を獲得我々の先行研究 • • • • • Y. Tagami, H. Kobayashi, S. Ono, and A. Tajima. Modeling User Activities on the Web using Paragraph Vector. In WWW Companion, 2015. Paragraph Vector [Le&Mikolov 2014] を用いてウェブ閲覧系列からユーザーの分散表現を獲得 Paragraph Vectorはテキスト列から分散表現を獲得する手法 • • • 単語 -> URL 段落 -> ウェブ閲覧系列得られたユーザーの表現を、予測タスクの特徴量として用いる • • 学習データが少ない場合において良い特徴量となることが期待される

10.

予測タスクの特徴量としてのユーザー表現 Web browsing sequences time User 1 User 2 …… User N User representations Prediction tasks Ad click prediction …… Summarizing Input as features Web site visitor prediction

11.

二種類のデータの違いに着目二種類のデータはおそらく異なる分布から生成されている • • 自然言語のデータ / ウェブ閲覧系列のデータこの研究では： • • • • 二種類のデータの分布の違いを調査したその違いをもとに新しいモデル（Backward PV-DM）を提案した二種類のオンライン広告に関連した予測タスクで性能を評価した

12.

二種類のデータの類似点どちらの分布も両対数グラフでおおよそ直線に見える • • べき分布 E nglish W ikipedia - unigram 108 f (x) / x − 1.5587 f (x) / − 1.1231 x 7 10 106 106 105 105 Frequency Frequency 107 W eb page visits - unigram 104 103 101 101 10 2 10 3 10 Rank 4 10 5 10 6 10 7 10 f (x) / x − 1.0797 103 102 1 x − 0.9584 104 102 100 0 10 f (x) / 100 0 10 101 102 103 104 Rank 105 106 107 108

13.

二種類のデータの相違点 • • ”テール”のURLがセッションの後半部に出現するこれらのURLがユーザーのモデリングには重要だと考えられる

14.

実験結果 • • 提案したBackward PV-DMは従来のParagraph Vectorよりもすべてのタスクで良い結果を示したユーザーのより複雑な興味を推定するタスク（SiteVisitor）で、提案法は良い結果を示した AdClicker SiteVisitor Ac1 Ac2 Ac3 Ac4 Ac5 Sv1 Sv2 Sv3 Sv4 Sv5 Skip-gram 0.9906 0.8354 0.6562 0.7163 0.7725 0.8017 0.8328 0.7135 0.7931 0.7417 Directed Skip-gram 0.9904 0.8374 0.6533 0.7159 0.7706 0.8019 0.8308 0.7120 0.7914 0.7394 PV-DM 0.9899 0.8151 0.6483 0.7242 0.7633 0.8051 0.8343 0.7180 0.7964 0.7479 Backward PV-DM 0.9902 0.8247 0.6537 0.7345 0.7661 0.8092 0.8366 0.7222 0.8028 0.7491 値はAUC（Area Under ROC Curve）。大きい方が良い指標。

15.

論文に載らなかった実験結果（表現獲得のためのデータ量）表現獲得のデータ量を増やすと、予測タスクの性能も改善した • • 詳細は人工知能学会全国大会（JSAI）で発表します

16.

まとめユーザーの表現を得るために自然言語処理の手法を適用 • • • 単語 -> URL 段落 -> ウェブ閲覧系列（ユーザーの意図として）対象のウェブページ訪問データを英語版Wikipediaデータと比較 • • 系列中の相対位置による、データ全体での出現頻度の違いを確認分析結果をもとにBackward PV-DMを提案 • • 二種類のオンライン広告のデータにおいて、より良い結果を示した

17.

おしまい

18.

論文に載らなかった実験結果（予測タスクの学習データ量）学習データ量が少なくてもそれなりの性能 • • 次元圧縮の効果