401 Views
February 25, 16
スライド概要
Developers Summit 2016 Yahoo! JAPAN Tech Conference
http://event.shoeisha.jp/devsumi/20160218/tokusetsu
【18-A-6】16:20~17:05【第1部】
Yahoo! JAPANを支えるデータテクノロジー ~機械学習、クラウド分散システム処理モデル~
『ヤフオク!における機械学習 ~深層学習、分散表現~』
ヤフオク!カンパニーヤフオク!開発本部 サイエンス部 サイエンス
山下 勝司
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
ヤフオク!における機械学習 〜深層学習、分散表現〜 ⼭下 勝司(やまかつ) 2016/2/18 ヤフオク!カンパニー ヤフオク!開発本部 サイエンス部サイエンス
⾃⼰紹介 本名: ⼭下 勝司 通称: やまかつ 2015年1⽉中途⼊社 ヤフオク!カンパニー所属 ヤフオク!の機械学習周りを担当 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
ヤフオク!について ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
ヤフオク!について サービス開始:1999年 ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
ヤフオク!について サービス開始:1999年 ⽇本最⼤級の インターネットオークションサイト ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
ヤフオク!について サービス開始:1999年 ⽇本最⼤級の インターネットオークションサイト 出品数:常時約3900万個※1 ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
ヤフオク!について サービス開始:1999年 ⽇本最⼤級の インターネットオークションサイト 出品数:常時約3900万個※1 1秒あたり273個※2 ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
ヤフオク!について サービス開始:1999年 ⽇本最⼤級の インターネットオークションサイト 出品数:常時約3900万個※1 1秒あたり273個※2 ユーザ数(PC):約1671万⼈※3 ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
ヤフオク!について サービス開始:1999年 ⽇本最⼤級の インターネットオークションサイト 出品数:常時約3900万個※1 1秒あたり273個※2 ユーザ数(PC):約1671万⼈※3 ユーザ数(SP):約1117万⼈※3 ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
アジェンダ • ヤフオク!における深層学習を利⽤した 画像処理のご紹介 • ヤフオク!における分散表現を利⽤した 検索ランキングのご紹介 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
アジェンダ • ヤフオク!における深層学習を利⽤した 画像処理のご紹介 • ヤフオク!における分散表現を利⽤した 検索ランキングのご紹介 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
解決したい課題 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
解決したい課題 MacBook Air Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
解決したい課題 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
解決したい課題 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
解決したい課題 カテゴリ違い Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違い ⼊札ユーザ 「折⾓、カテゴリを絞って検索したのに、 関係ない商品が…」 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違い ⼊札ユーザ 「折⾓、カテゴリを絞って検索したのに、 関係ない商品が…」 ユーザビリティの低下 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違い ⼊札ユーザ 「折⾓、カテゴリを絞って検索したのに、 関係ない商品が…」 カテゴリ違いを検知! Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 ⼈による検知 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 ⼈による検知 ・⾼い精度 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 ⼈による検知 ・⾼い精度 しかし限界も Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 ⼈による検知 ・⾼い精度 しかし限界も ・量 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 ⼈による検知 ・⾼い精度 しかし限界も ・量 ・スピード Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 ⼈による検知 ・⾼い精度 しかし限界も ・量 ・スピード 機械学習の利⽤ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 機械学習にも限界が Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 機械学習にも限界が ・未知のパターン Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 機械学習にも限界が ・未知のパターン ・100%の精度は難しい Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 機械学習にも限界が ・未知のパターン ・100%の精度は難しい など Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 機械学習にも限界が ・未知のパターン ・100%の精度は難しい など 機械学習は銀の弾丸ではない Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 ⼈と機械学習のハイブリッド Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 ⼈と機械学習のハイブリッド ・⼈:判断 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 ⼈と機械学習のハイブリッド ・⼈:判断 ・機械学習:⼈が判断する順序を決定 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知 ⼈と機械学習のハイブリッド ・⼈:判断 ・機械学習:⼈が判断する順序を決定 メリットの両⽴ ・⼈:⾼い精度 ・機械学習:量とスピード Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 商品タイトルベース Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air ⽤カバー」 「MacBook Air カバー」 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air ⽤カバー」 → ✕ 「MacBook Air カバー」 → ✕ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air ⽤カバー」 → ✕ 「MacBook Air カバー」 → ✕ 「MacBook Air + カバー」 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air ⽤カバー」 → ✕ 「MacBook Air カバー」 → ✕ 「MacBook Air + カバー」 → ◯ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air ⽤カバー」 → ✕ 「MacBook Air カバー」 → ✕ 「MacBook Air + カバー」 → ◯ 「MacBook Air おまけ付 カバー」 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air ⽤カバー」 → ✕ 「MacBook Air カバー」 → ✕ 「MacBook Air + カバー」 → ◯ 「MacBook Air おまけ付 カバー」 → ? Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air ⽤カバー」 → ✕ 「MacBook Air カバー」 → ✕ 「MacBook Air + カバー」 → ◯ 「MacBook Air おまけ付 カバー」 → ? ⼀定の精度はあるものの、限界も Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 単語に加え、画像も利⽤ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 単語に加え、画像も利⽤ 例:MacBook Air カテゴリ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 単語に加え、画像も利⽤ 例:MacBook Air カテゴリ ◯ ✕ ✕ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 画像に写っている物体を認識 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
カテゴリ違いの検知モデル 画像に写っている物体を認識 深層学習(Deep Learning)を利⽤ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
深層学習の代表的⼿法 CNN(Convolutional Neural Network) RNN(Recurrent Neural Network) RNN(Recursive Neural Network) DBN(Deep Belief Network) DBM(Deep Boltzmann Network) DAE(Deep Autoencorder) at el. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
深層学習の代表的⼿法 CNN(Convolutional Neural Network) RNN(Recurrent Neural Network) RNN(Recursive Neural Network) DBN(Deep Belief Network) DBM(Deep Boltzmann Network) DAE(Deep Autoencorder) at el. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
CNNによる物体認識 画像に写っている物体を識別 Going deeper with convolutions (http://arxiv.org/pdf/1409.4842v1.pdf)より引⽤ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
CNNによる物体認識 画像に写っている物体を識別 シベリアンハスキー エスキーモドッグ Going deeper with convolutions (http://arxiv.org/pdf/1409.4842v1.pdf)より引⽤ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
学習 学習データ ヤフオク!の過去の出品画像 約2万件 環境 ・Caffe v1.0rc2 ・CUDA 7.5 ・GPUサーバ(オンプレ) Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
識別 ノートPCである確率を出⼒ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
識別 ノートPCである確率を出⼒ 80.1% 0.1% 0.9% Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
⽬視チェックの順序(イメージ) 80.1% 0.1% 0.9% Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
⽬視チェックの順序(イメージ) ① ③ ② ※実際には商品タイトル等の他の特徴を考慮 80.1% 0.1% 0.9% Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
今後 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
今後 学習データを⾼精度、⼤量、継続的に 増加させる仕組み Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
今後 学習データを⾼精度、⼤量、継続的に 増加させる仕組み ラベル付け:⾼コスト Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
今後 学習データを⾼精度、⼤量、継続的に 増加させる仕組み ラベル付け:⾼コスト 精度の向上 新しいパターンへの対応 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
アジェンダ • ヤフオク!における深層学習を利⽤した 画像処理のご紹介 • ヤフオク!における分散表現を利⽤した 検索ランキングのご紹介 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
ヤフオク! サイト内検索 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
ヤフオク! サイト内検索 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
ヤフオク! サイト内検索 機械学習によるランキング Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
検索ランキング CTRやCVR等を最⼤化するモデル CTR:商品詳細画⾯へ流⼊する確率 CVR:その後に⼊札する確率 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
検索ランキング 多くの特徴を利⽤ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
検索ランキング 多くの特徴を利⽤ 重要な特徴の1つが単語 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
検索ランキング 多くの特徴を利⽤ 重要な特徴の1つが単語 特にタイトル中の単語 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
検索ランキング 多くの特徴を利⽤ 重要な特徴の1つが単語 特にタイトル中の単語 「MacBook Air」 「MacBook Air カバー」 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の利⽤ 単語を特徴に利⽤した場合の課題 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の利⽤ 単語を特徴に利⽤した場合の課題 表記ゆれ、同義語 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の利⽤ 単語を特徴に利⽤した場合の課題 表記ゆれ、同義語 ⼀般的な対応 ・正規化 ⼩⽂字⼤⽂字、半⾓全⾓、記号等 ・同義語辞書 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の利⽤ 同義語辞書の整備:⼈⼿ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の利⽤ 同義語辞書の整備:⼈⼿ ・コスト Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の利⽤ 同義語辞書の整備:⼈⼿ ・コスト ヤフオク!の商品ドメイン:多 ・服、本、スマホから⾃動⾞、家まで Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の利⽤ 同義語辞書の整備:⼈⼿ ・コスト ヤフオク!の商品ドメイン:多 ・服、本、スマホから⾃動⾞、家まで コストやばい Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の利⽤ 同義語辞書の整備:⼈⼿ ・コスト ヤフオク!の商品ドメイン:多 ・服、本、スマホから⾃動⾞、家まで 計算で求めたい Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の利⽤ 同義語辞書の整備:⼈⼿ ・コスト ヤフオク!の商品ドメイン:多 ・服、本、スマホから⾃動⾞、家まで 分散表現を利⽤ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
分散表現 局所表現 分散表現 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
分散表現 局所表現 サッカー: (1,0,0,0 … 0,0,0,0) フットボール: (0,0,0,0 … 0,1,0,0) 分散表現 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
分散表現 局所表現 サッカー: (1,0,0,0 … 0,0,0,0) フットボール: (0,0,0,0 … 0,1,0,0) ベクトルは単純なエンコード 分散表現 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
分散表現 局所表現 サッカー: (1,0,0,0 … 0,0,0,0) フットボール: (0,0,0,0 … 0,1,0,0) ベクトルは単純なエンコード 分散表現 サッカー: (0.13, -0.32, … 0.1, 0.07) フットボール: (0.11, -0.27, … 0.13, 0.07) Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
分散表現 局所表現 サッカー: (1,0,0,0 … 0,0,0,0) フットボール: (0,0,0,0 … 0,1,0,0) ベクトルは単純なエンコード 分散表現 サッカー: (0.13, -0.32, … 0.1, 0.07) フットボール: (0.11, -0.27, … 0.13, 0.07) 意味が近い表現:近いベクトル Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の分散表現 意味が近い単語:ベクトルが近い単語 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の分散表現 意味が近い単語:ベクトルが近い単語 クラスタリング Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の分散表現 意味が近い単語:ベクトルが近い単語 クラスタリング 意味が近い単語群:同⼀クラスタ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の分散表現 意味が近い単語:ベクトルが近い単語 クラスタリング 意味が近い単語群:同⼀クラスタ 検索ランキングのモデルの特徴 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の分散表現 意味が近い単語:ベクトルが近い単語 クラスタリング 意味が近い単語群:同⼀クラスタ 検索ランキングのモデルの特徴 ・単語 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
単語の分散表現 意味が近い単語:ベクトルが近い単語 クラスタリング 意味が近い単語群:同⼀クラスタ 検索ランキングのモデルの特徴 ・単語 ・クラスタID Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
分散表現の学習 学習コーパス ・商品タイトル ・商品数:約5000万件(重複除外) ・単語数:約3億8000万 ・Vocabulary:約40万 モデル: skip-gram (+negative sampling) Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
クラスタリング モデル:k-means(k-means++) 距離:コサイン類似度 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
⽣成されたクラスタの例 クラスタ例1: ザク, ドム, グフ, ゲルググ, ズゴック, … Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
⽣成されたクラスタの例 クラスタ例1: ザク, ドム, グフ, ゲルググ, ズゴック, … クラスタ例2: アイパッド, iPad, iPadmini, Air, … Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
⽣成されたクラスタの例 クラスタ例1: ザク, ドム, グフ, ゲルググ, ズゴック, … クラスタ例2: アイパッド, iPad, iPadmini, Air, … Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
商品タイトルの置き換え クラスタ例1:ザク, ドム, グフ, ゲルググ, … Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
商品タイトルの置き換え クラスタ例1:ザク, ドム, グフ, ゲルググ, … 中古 HY2M 1/12 ザク MS-06J ZAKUII ↓ 中古 HY2M 1/12 cid_1 MS-06J ZAKUII Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
商品タイトルの置き換え クラスタ例1:ザク, ドム, グフ, ゲルググ, … 中古 HY2M 1/12 ザク MS-06J ZAKUII ↓ 中古 HY2M 1/12 cid_1 MS-06J ZAKUII ガンプラ MG1/100 MS-09 ドム ↓ ガンプラ MG1/100 MS-09 cid_1 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
今後 skip-gram以降の分散表現のモデルを 利⽤ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
今後 skip-gram以降の分散表現のモデルを 利⽤ 重複タイトルの判断精度 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
今後 skip-gram以降の分散表現のモデルを 利⽤ 重複タイトルの判断精度 クラスタリング精度 ex. ディリクレ過程混合正規分布 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
ご静聴有難うございました Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤・転載禁⽌