>100 Views
December 21, 15
スライド概要
http://yahoo-ds-event.connpass.com/event/21903/
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
爆速機械学習サービス応⽤用:実践編 2015/11/11 ⽥田頭 幸浩
⾃自⼰己紹介 • ⽥田頭 幸浩 (Yukihiro TAGAMI) • • • • • @y_̲tag github.com/y-‐‑‒tag Machine Learning / Information Retrieval A research engineer at Yahoo Japan Corporation A Ph.D. student at Kyoto University • arXiv.orgをウォッチしたり、 機械学習OSSのバグを⾒見見つけたりしてます
タイトルは釣りです!
ヤフーでどういうことをしているの? • 機械学習のサービス適⽤用 • YDN(ディスプレイ広告) • ショッピングの検索索ランキング / レコメンデーション • スマホ版トップページのニュースレコメンド • • • • 論論⽂文書く 採⽤用活動 社内向けのセミナー MYM監視 • 社内のコミュニケーションツール
YDN(広告)の配信システム超概要(KDD論論⽂文より) TwoVstage*approach P5 • TwoVstage*approach*in*our*ad*serving*system* 1. Ads*are*retrieved*by*mul5ple*methods*using* inverted*index* 2. The*ads*are*merged*and*passed*to** clickVthrough*rate(CTR)*predic5on*model* Method*1 AD*corpus* ~*1*million Method*2 …… Method*N First*stage*~*40*ms AD AD AD AD AD AD AD AD AD AD AD AD Merge AD AD AD AD AD AD AD AD AD AD AD CTR* predic5on* model ~*200*ADs Second*stage*~*10*ms Copyright*(C)*2014*Yahoo*Japan*Corpora5on.*All*Rights*Reserved.
機械学習をサービスに導⼊入する道のり 1. 2. 3. 4. 5. ビジネス的な課題を理理解する システム構成を理理解する 評価⽅方法を考える アプローチを考える 実験する
機械学習をサービスに導⼊入する道のり 1. 2. 3. 4. 5. ビジネス的な課題を理理解する システム構成を理理解する 評価⽅方法を考える アプローチを考える 実験する • ⼀一般的な研究のプロセスと基本的には同じ • 問題を適切切に設定し、既存の⼿手法を理理解し、 実験・評価⽅方法を適切切に決めたら、 あとはアプローチを模索索するのみ
課題解決 • 「課題解決」はヤフーにおけるバリューの⼀一つ • 機械学習は⾮非常に有効な⼿手段の⼀一つだが…… • ビジネス的なドメイン知識識や、システムの知識識と 組み合わせることで、その度度合いは⾶飛躍的に増す • OSやネットワークなどのエンジニアの基礎体⼒力力や、 情報検索索などの他分野の知識識に助けられることも多い
ヤフーのサービスに機械学習を適⽤用する⾯面⽩白さ • データがたくさんある • 量量:トラフィックサイズに⽐比例例 • 種類:サービスやアプリの数 • 計算資源もそこそこある • Hadoopクラスタ、Stormクラスタ、GPUマシン • ⼩小さな改善でも、⼤大きなインパクト • YDN(広告)は年年間数百億のビジネス規模 • 1%の収益改善でも⼀一年年で数億円儲かるように
研究資⾦金金は⽣生命線 • 会社の利利益に貢献して、研究資⾦金金を稼ごう! • 資⾦金金がなければ研究は続けられない • これは企業でも⼤大学でも個⼈人でも同じはず • できるだけ楽に研究資⾦金金を稼ぎたいので、 ⾃自分で投資対効果の⾼高い課題を探した⽅方が効率率率的 • 広告とかEコマースはお⾦金金が絡むので分かりやすい • 稼いだ資⾦金金と時間を使ってやりたいことをする • 新たな課題への挑戦、技術的チャレンジ • 成果をまとめて論論⽂文を書く
論論⽂文発表 • 論論⽂文を書く(社外に成果を発表する) • • • • • 研究者として⼈人類の知に貢献したい! 直⾯面している問題と現在の解決⼿手段を共有しよう ⾃自分や会社の宣伝にもなる 会社として推奨している 知らないうちに⼤大学の講義の参考資料料になったりもする http://www.bigdata.uni-‐‑‒frankfurt.de/big-‐‑‒data-‐‑‒analytics-‐‑‒course-‐‑‒summer-‐‑‒semester-‐‑‒2014/
論論⽂文発表 • Modeling User Activities on the Web using Paragraph Vector. WWW 2015 Poster • Filling Context-‐‑‒Ad Vocabulary Gaps with Click Logs. KDD 2014 • Translation Method of Contextual Information into Textual Space of Advertisements. WWW 2014 Poster • CTR Prediction for Contextual Advertising: Learning-‐‑‒ to-‐‑‒Rank Approach. ADKDD 2013
Filling Context-‐‑‒Ad Vocabulary Gaps with Click Logs (1) Proposed*approach P9 • Our*approach*translates*contextual* informa5on*into*the*textual*space*of*ads* • The*transla5on*table*is*learned*with*click*logs Web*page*terms User*terms User*categories User*gender User*age Translator* Query*terms* Ad*corpus Ad*retrieval User*loca5on Context*vocabulary Ad*vocabulary Copyright*(C)*2014*Yahoo*Japan*Corpora5on.*All*Rights*Reserved.
Filling Context-‐‑‒Ad Vocabulary Gaps with Click Logs (2) Online*A/B*tes5ng*result P15 • Rela5ve*gain*over*exis5ng*method* • ClickVthrough*rate(CTR)* • Colored*value*represents*“pVvalue*<*0.05”** on*chiVsquared*test*(website*A,*B,*D,*E,*H)* • Cost*per*click(CPC)* • Revenue*per*request(RPR) Metrics Website A B C D E F G H CTR V3.67% +4.60% +0.48% +2.82% +2.47% +1.42% +3.27% +4.02% CPC +3.63% V2.00% +1.62% +1.31% V1.01% +7.51% V2.42% V2.94% RPR V0.18% +2.51% +2.10% +4.17% +1.44% +9.04% +0.77% +0.97% Copyright*(C)*2014*Yahoo*Japan*Corpora5on.*All*Rights*Reserved.
まとめ • 機械学習のサービス導⼊入は研究のプロセスと同じ • ビジネス的な課題設定や既存システムの理理解は不不可⽋欠 • ⼿手法そのものよりも、それが何を解決しているかが重要 • 研究資⾦金金は⾃自分で稼ごう • 投資対効果が⾼高い課題を探して取り組む • 余った時間でやりたいことをやる • 成果が出たら論論⽂文を書こう • 研究者として⼈人類の知に貢献したい! • ⾃自分や会社の宣伝にもなる(し、推奨されている)
おしまい