パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPAN

248 Views

June 13, 14

スライド概要

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Confiden'al  :Discussion  purpose  only パーソナライズニュースを支える ML業務のまわしかた @ Yahoo! JAPAN 2014/06/13 ヤフー株式会社 データソリューション本部 村尾一真 深澤良介 Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

2.

アジェンダ P2 • 自己紹介 • Yahoo! JAPANのパーソナライズニュー スとは? • ML(機械学習)の使いどころ • MLの精度評価と運用サイクル • まとめ Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

3.

本日のGoal P3 ü MLの利用と運用について なるべく具体的に話をする #MLCT Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

4.

自己紹介 Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

5.

自己紹介 P5 深澤 良介 2009年入社 検索サービスの開発、検索エンジンライブラリの開発を経 て、2013年4月にデータソリューションへ 今回のサービスの担当範囲: データ入出力から配信までシステム全般 専攻: 自然言語処理、質問応答システム Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

6.

自己紹介 P6 村尾 一真 2012年入社 自然言語処理 -> レコメンデーション 今回のサービスの担当範囲: モデル精度改善 専攻: 適用対象に合った機械学習の改善(HCI、音楽情報処理) Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

7.

Yahoo! JAPANの パーソナライズニュース? Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

8.

Yahoo! JAPANのパーソナライズニュース P8 • 類似のキュレーションサービス • グノシー, SmartNews • ニュース・記事・情報の推薦 • 掲出場所 • ヤフースマホトップ • ヤフーiPhone/androidアプリトップ • ヤフーandroid tablet/iPadトップ パーソナライズ Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

9.

サービスの特徴 P9 • 多様なログを利用 ü ニュース閲覧履歴 ü 検索キーワード ü 他のY!Jサービスの利用ログ ü etc. • よりユーザーに合ったコンテンツを 掲出することを目指す Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

10.

サービスの規模 Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

11.

利用者 P11 230万UB/1日 約 (デバイス合算、clickのみをカウント、2014年5月某日) • スクロールしなければ認知されないため、 ヤフートピックスと比べるとview/clickともか なり少ない • パーソナライズニュースサービスで(多分)最大 規模 • リリース半年でじわじわと認知され、ユーザー 増加中 Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

12.

解析対象 P12 2000万cookie/1日 約 • Y!Jの利用ユーザーはパーソナライズモジュー ルに非接触でも解析 • ユーザーが意識せずにパーソナライズされたコ ンテンツを利用可 Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

13.

入稿コンテンツ P13 6000本/1日 約 • 約15秒に1本新しいコンテンツが入稿 =>リアルタイム反映の仕組み Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

14.

ML(機械学習)の使いどころ Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

15.

ML(機械学習)の使いどころ P15 • 検索likeなシステムを構築。高スコアの記事を上位に掲出。 リアルタイム反映を実現 • コンテンツの特徴量(w)とユーザー特徴量(x)をマッチング • 特徴量のマッチング行列(A)を、ユーザーのフィードバック を用いて機械学習 • 検索のランキング学習と同じスキーム(Pairwise)で学習可能 ! # # T yi,a = w i Ax a = (w1, w2 ,..., wN )i A # # # " Confiden'al  :Discussion  purpose  only x1 $ & x2 & & ... & xM &% a Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

16.

ML(機械学習)の使いどころ P16 • 特徴量: コンテンツの表層素性、ユーザーの行動履歴など。 コンテンツの深い理解(メタデータを理解)も有用。 10E5次元程度 • ロジスティック回帰を解くことで、高速に、かつ精度をあ る程度担保して学習可能(社内評価) ! # # T yi,a = w i Ax a = (w1, w2 ,..., wN )i A # # # " Confiden'al  :Discussion  purpose  only x1 $ & x2 & & ... & xM &% a Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

17.

ニュースの特性に合わせた工夫 P17 1. マッチングのスコア計算後、コンテンツ入稿時刻とアクセ ス時刻の時間差によって減算処理 • ニュースの特性: 直近の記事が出ているほうがユーザー は嬉しい(?) Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

18.

ニュースの特性に合わせた工夫 P18 2. 1日あたりX回のモデル更新(バッチ処理) – アクセスのピークタイム前に最新の興味を反映 3. 直近ログを用いた学習結果に、過去の学習結果に 興味減衰率(α)をかけて加算 – 短期的興味と長期的興味を考慮する狙い – 長期的興味になりそうな特徴量は毎日加算される – 短期的興味とのバランスをパラメータで調整 A(t +1) = A(t) + α A(t −1) Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

19.

Yahoo! JAPANのパーソナライズニュース P19 ü 多様・大量なログを解析 ü コンテンツ特性を考慮した MLシステムを構築 Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

20.

MLの精度評価と 運用サイクル Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

21.

2段階の精度評価 P21 • オフライン評価 – フィードバックログを利用 – (定性評価) • オンライン評価 – A/Bテスト モデリン グ オンライン   評価 オフライン   評価 Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

22.

オフライン評価 P22 • フィードバックログを利用 • モデルによってスコアリングした結果をAUC、nDCGなどの指標 によって評価 • 学習器のパラメータ等を調整 ü POINT モデリン ü 交差検定では、学習ログの日付に最適化されてしまう グ (ニュースドメインでは、日時で重みが変化するような特徴量が ある。変化しないものもある) ü 学習、チューニングに用いるログと、評価に用いるログは、異な るデータを用いるだけではなく、ログを収集した日付を変えたほ オンライン   うが良い 評価 オフライン   評価 Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

23.

オンライン評価 P23 • A/Bテストによる評価 • プロジェクトのKPIが各テストでどう変わるか • 訪問率(重要!) • 記事のばらけ具合、等 • KPI も即時分かるものと、そうでない長期的なものとを見ている モデリン • CTRはすぐにわかるがいわゆる「釣り記事」などをポジティブに評価 グ してしまう • ユーザーの満足度は訪問率に現れるという仮説 • 有意な差を認めるには累積で数十万以上のログが必要(感覚値) • 同時に実施可能なテスト本数がサービス規模に依存 オンライン   評価 オフライン   評価 Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

24.

MLの運用サイクル • 問題設定、KPI設定 • モデリング • オフライン評価 問題設 定 リリース オンライン 評価   (A/Bテス ト) Confiden'al  :Discussion  purpose  only P24 モデリン グ オフライン 評価   (AUC,   nDCG) • 有意な性能向上があっ た場合 • 定性的に有効だと思わ れ、性能に有意な低下 が見られなかった場合 (ex. 特徴量を削減) • => オンライン評価 • 改善版リリース • リリース後もKPIを定 常観測 Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

25.

MLの運用サイクル P25 • リリース後15週間で10回程度のモデル改善版リリース – パラメータチューニングを除く – オンライン評価は1週間程度見る必要 • MLを利用しないものもベースラインとして並行稼働させ ている Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

26.

運用で改良したい点 P26 • オフライン評価が実際の配信システムを完全にはシミュ レートできていない => 感覚値70%くらいの確信度でA/Bテストに臨んでい る状況。。 Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

27.

MLの精度評価と運用サイクル P27 ü オンライン・オフライン評価 を実施 ü 精度評価はKPI施策を 裏付けるためのもの. ü 重要な施策は小↓でも実施 Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

28.

テスト運用の話 Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

29.

テスト運用フロー P29 • アプリケーションテスト アプリケーション • FEでテスト • ビジネスロジックテスト • 単体テスト ビジネスロジック 機械学習 アルゴリズム Confiden'al  :Discussion  purpose  only • 機械学習アルゴリズム • 目視で確認 • 性能テストをパッケージ化 し、コマンドを叩くことで 誰でも同一環境で性能評価 可能に => CIに乗せたい Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

30.

まとめ Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

31.

まとめ P31 • Yahoo! JAPANのパーソナライズニュース • 検索ワード, Y!Jのクリックログ等を利用 • 大量のログを解析 コンテンツ特性を考慮したMLシステム • 運用フロー • 評価は施策を裏付けるためのもの • 重要な施策は小↓でも実施 Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.

32.

まとめ P32 • Yahoo! JAPANのパーソナライズニュース • 検索ワード, Y!Jのクリックログ等を利用 • 大量のログを解析 コンテンツ特性を考慮したMLシステム • 運用フロー • 評価は施策を裏付けるためのもの • 重要な施策は小↓でも実施 • 機械学習アルゴリズムの改善に 力を入れています => 興味ある人ぜひjoinを! Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved.