233 Views
January 25, 24
スライド概要
簀河原 皆, 山﨑 千寛, 梛木 佑真, 岡本 一志: アイテムの機能関係に注目した補完推薦に関する検討, 電子情報通信学会ライフインテリジェンスとオフィス情報システム研究会(LOIS), 2024.1, 長崎県長崎市.
Data Science Research Group, The University of Electro-Communications
アイテムの機能関係に注目した補完推薦に関する検討 箕河原 皆, 山﨑 千寛, 梛木 佑真, 岡本 一志 電気通信大学 大学院情報理工学研究科 情報学専攻 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 1 / 38
推薦システムとは 膨大なアイテムの中から価値のあるものを選び出し, ユーザの意思決定を支援するシステム アイテム間型推薦システム アイテム間の関係性に基づき, 特定のアイテムに対応する別のアイテムをユーザに推薦 e.g., 過去に購入した ユーザ クエリアイテム 何らかの関係性 (e.g., 類似度) アイテム クエリアイテムに対する 類似アイテムを提示 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 2 / 38
補完推薦 (Complementary Recommendation) • アイテム間型推薦システムのひとつ [Yu+, 2019] • 「関係性」を「補完性」と「代替性」に区別し, 補完関係となるアイテムを推薦 e.g., 過去に購入した ユーザ クエリアイテム 補完関係! 代替関係! 関係なし アイテム クエリアイテムに対する 補完アイテムを提示 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 3 / 38
代替・補完関係の例 代替関係 スマートフォンA ↔ スマートフォンB 補完関係 スマートフォンA ↔ 専用カバー あるECサイトにおける顧客の行動を考えたとき • 【代替推薦】 スマートフォンAを一度購入した顧客に別のスマートフォンBを薦める • 【補完推薦】 スマートフォンAに対応するアクセサリを薦める → どちらが購入されやすいか?合わせ買いされやすいか?を考えると, 補完関係は合理的 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 4 / 38
アスクル株式会社における取り組み 【1/2】 本研究は電気通信大学とアスクル株式会社との共同研究の成果の一部を報告 ASKUL 中小事業所・個人事業主向け通販サービス https://www.askul.co.jp • 1,000万アイテム以上の提供商品 • 補完的商品を推薦する機能の拡充 行っている → 共同研究のプロジェクト 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 5 / 38
アスクル株式会社における取り組み 【2/2】 「一緒に購入する」エリア • 補完的商品を提供する機能 • クエリとなる商品のページに設置され 対となる補完商品がリストで表示 → 手軽にカゴに追加可能 どのように設定されているか • 購買データや販売担当者の経験に 基づく手作業 • 膨大な提供商品の組み合わせに対し, 設定実績が不十分 → 設定の自動化が本研究の対象 https://www.askul.co.jp/p/K024896/ 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 6 / 38
既存の推薦モデルの適用は可能か? 機械学習をベースとした補完推薦のための推薦モデルが提案されている [Yu+, 2019] 教師なし学習 アイテムの閲覧・購買データとルールに基づき補完アイテムを特定 • 一連の閲覧・購買行動を比較段階と検討段階に分割し, 補完スコアを定義 [Zheng+, 2009] 教師あり学習 既知の補完・代替関係ラベルを教師とし, アイテム間のリンク予測問題を学習 • 閲覧と共同購入のログから作成したネットワークと説明文・レビュー文を用いて, 代替品と補完品の意味的特徴を学習 [McAuley+, 2015] • 変分オートエンコーダを用いた発展手法 [Rakesh+, 2019] 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 7 / 38
既存研究における評価法の課題 アイテム間の補完・代替を(明示的に)ラベル付けしたデータセットは存在しない 採用されている代替法 [McAuley+, 2015] Amazon.comの実際のレコメンドエリアから収集したデータをもとに教師ラベルを構築 1. 「Xを閲覧したユーザはYも閲覧している」に掲載の商品 → 代替関係 2. 「Xを閲覧したユーザは最終的にYを購入した」に掲載の商品 → 代替関係 3. 「Xを購入したユーザーはYも購入している」に掲載の商品 → 補完関係 4. 「XとYを一緒に購入することが多い」に掲載の商品 → 補完関係 我々の疑問 各エリアに掲載される商品 と 対応するラベルには定義にズレがないか? 例:「おむつ」と「ビール」が多く一緒に購入されている場合, それは補完関係なのか? 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 8 / 38
本研究の概要 既存の教師ラベル構築法に批判的な立場をとり, ユーザの閲覧・購買履歴に依存しないアイテムの機能面に注目した補完推薦を検討 【1】 実データ分析 閲覧・購買によるラベルが 実際の補完の定義に沿っていない可能性を示唆 ↓ 【2】 補完ラベルの再定義・収集 機能に重点を置いた"補完ラベル"を定義し アノテーションによるラベル収集を実施 ↓ 【3】 簡易実験によるラベル品質の評価 収集したラベルを用いたラベル分類実験を実施 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 9 / 38
実データ分析 【1/6】 目的 閲覧・購買データから生成される補完ラベルは定義に沿っているか?について データ分析を通して検証 使用するデータセット ASKULで収集された • ユーザの行動ログデータ • 商品の属性情報 ◦ 商品名・商品説明文 ◦ 商品レビュー文 ◦ メーカー名・ブランド名 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 10 / 38
実データ分析 【2/6】 取り扱い商品が膨大なため, 商品分類単位で分析を進めることにする. 商品分類の粒度と例 大大分類:生活雑貨/キッチン用品 大分類 :ティッシュ/トイレットペーパー/ペーパータオル/日用品 中分類 :トイレットペーパー 小分類 :トイレットペーパー(ダブル) 大大分類:事務用品/文房具 大分類 :のり 中分類 :テープのり 小分類 :テープのり(詰め替えテープ) 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 11 / 38
実データ分析 【3/6】 分析1:補完ペア構築の基準 「一緒に購入する」で既に設定されている商品ペアを補完関係の正解とし, 補完ペアの商品が同じ分類に属しているかに注目. 商品Aと商品Bの大分類は同一か? 補完ペア 商品A ↔ 補完関係 商品B 分類単位別に同分類に属する補完ペアの割合: 大大分類 大分類 中分類 94.87% 87.82% 45.77% → 補完関係の構築にあたっては同一の大大分類または大分類内で検討すべきである. 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 12 / 38
実データ分析 【4/6】 分析2:共起関係スコア(RdNスコア)の算出 [Zheng+, 2009]のアイデアをベースとし, 閲覧アイテムに関する共起関係スコアを算出 1. 「購入した」「検索した」等のユーザの閲覧行動の境を意味するイベントを定義 2. ユーザの閲覧履歴のシーケンスを上記イベントで分割, 分割セッションを生成 3. 同一の分割セッションで共起するアイテムペアを数え上げ → NAVスコア ◦ 同一コンテキストでのアイテム同士の比較のされやすさ = 代替関係を定量化 A B C 購入 D E NAV(A, B) ← +1 NAV(B, C) ← +1 NAV(D, E) ← +1 NAV(A, C) ← +1 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 13 / 38
実データ分析 【5/6】 4. 異なる連続する分割セッション間で共起するアイテムペアを数え上げ → RELスコア ◦ 異なるコンテキスト間でのアイテムの共起 = 補完関係を定量化 A B C 購入 D E REL(A, D) ← +1 REL(A, E) ← +1 REL(B, D) ← +1 REL(B, E) ← +1 REL(C, D) ← +1 REL(C, E) ← +1 5. RdN(i, j) = REL(i, j)/NAV(i, j) を計算 ◦ RdNが高いと補完性が高く, 低いと代替性が高いと解釈 計262日間(2021年9月1日 - 2022年5月20日)に収集されたデータに適用 → (アイテム単位ではなく) 大大分類単位でRdNスコアを計算 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 14 / 38
実データ分析 【6/6】 RdNスコア (大大分類×大大分類) • 多くの大大分類とも 補完関係になる傾向: ◦ トナー/インク/コピー用紙 ◦ ファイル ◦ 事務用品/文房具 • (前述の) 補完関係となるペアは 同じ大大分類になりやすい傾向と反する • 考察:恒常的な閲覧商品によるバイアスの影響 ◦ → 閲覧データから定義に反したラベルが生成 ◦ → 本研究の動機づけ 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 15 / 38
機能に注目した補完ラベルの検討 ここまでの分析に基づき 商品間の閲覧や購買に基づく関係性による影響を排除したラベルを検討する 目標 商品機能の適合関係に注目した関係ラベルを定義する 方法 著者ら4名で次の作業を繰り返し実施 1. (後述するサンプリング方法により) 100ペアをサンプリング 2. 関係ラベルのアノテーションの実施 3. 過不足なラベルがないかの議論と 関係ラベルの再定義 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 16 / 38
定義:関係ラベル • 計9種のラベルで構成 ◦ 1:代替関係 ◦ 2-*, 3-*:補完関係 ◦ 4:無関係 ◦ 5:定義できなかった関係 • 下のラベルほど定義が弱い ◦ 1に当てはまらなければ 2-1を検討 → ... 1. 商品Aと商品Bの機能・用途が同じ No 2-1. 商品Aに商品Bを補充する No 2-2. 商品Bに商品Aを補充する No 3-1. 商品Aと商品Bを組み合わせないと使えない No 3-2. 商品Aに商品Bを組み合わせると便利 No 3-3. 商品Bに商品Aを組み合わせると便利 No 3-4. 商品Aと商品Bの両方を組み合わせると便利 No 4. 商品Aと商品Bは関係性が全くない No 5. 商品Aと商品Bは関係性がありそうだが言語化困難 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 17 / 38
ラベル2の例 2-1. 商品Aに商品Bを補充する 本体 引用:https://www.askul.co.jp/p/042459/ 商品A 引用:https://www.askul.co.jp/p/1281229/ 商品B 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 18 / 38
ラベル3の例 3-1. 商品Aと商品Bを組み合わせないと使えない 本体は別売りです 引用:https://www.askul.co.jp/p/2916902/ 商品A(単体x) ※印面は別売りです 引用:https://www.askul.co.jp/p/4644919/ 商品B(単体x) 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 19 / 38
ラベル5の例 5. 商品Aと商品Bは関係性がありそうだが言語化困難 2枚複写タイプ 引用:https://www.askul.co.jp/p/900851/ 商品A 引用:https://www.askul.co.jp/p/904401/ 商品B 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 20 / 38
実験設定 (定義した関係ラベルの妥当性を評価するために) 実際の商品ペアに関係ラベルを付与する"アノテーション"を実施 対象商品 • 商品関係が比較的複雑と予想される • 購入実績が高い • アノテータにとって広く馴染みのある の観点で, 2つの大大分類 • 事務用品/文房具 • 生活雑貨/キッチン用品 を対象とする 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 21 / 38
教師ラベルの作成 - アノテーション対象のサンプリング • 無作為にサンプリングするとほとんどのペアが"無関係"となってしまうため, 購入共起数に基づきサンプリング • (購入共起数とドント式に基づき) 大分類単位でサンプリングするペア数を決定 MASTER SERVANT ペア数 ÷1 ÷2 ÷3 サンプル数 マーカー・蛍光ペン マーカー・蛍光ペン 12,000 ① 12,000 ③ 6,000 ⑥ 4,000 3 ボールペン ボールペン 9,000 ② 9,000 ⑤ 4,500 3,000 2 マーカー・蛍光ペン 洗剤・消臭剤・アロマ 5,000 ④ 5,000 2,500 1,666 1 マーカー・蛍光ペン ボールペン 3,500 3,500 1,750 1,166 0 図. ドント式を用いた例 • 計2,000ペアのサンプリングを実施 + 「一緒に購入する」の800ペア → 2,800ペア 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 22 / 38
教師ラベルの作成 - アノテーション実施概要 • 電気通信大学 岡本研究室の18名 (スタッフ2名と学生16名) で実施 • 2週間の期間で対面およびオンラインで 作業を実施 • 2,800ペアに対し, ラベル付けは 3人のアノテータによる多数決で決定 ◦ 1人あたり400または500ペアに アノテーションを実施 ◦ 計8,400の回答を収集 • 補完推薦の背景および手順の説明 + 各ラベルの商品ペアを2例ずつ提示 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 23 / 38
アノテーション結果 【1/2】 • 18名のアノテータについて所定の8,400件(2,800ペア)のラベルを収集完了 • いずれも選択しない回答が41ペア得られ → 回答無効 → 2,759ペア 回答ラベル一致の割合 • 3人による多数決で 最終的なラベルを決定 • 全員一致するペアは半数を超える • 拮抗はわずか4.8% → 正確なラベル定義ができたと評価 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 24 / 38
アノテーション結果 【2/2】 回答ラベルの割合 • 代替ラベル:14.9%, 補完ラベル:21.5% • → 著しい差はなくバランス良く収集できたと評価 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 25 / 38
予測モデル(分類モデル) LightGBM [Ke+, 2017] を用いた商品ペアの関係ラベルを予測する分類モデルを考える • 決定木モデル(特徴量に対する場合分けのルールを学習) • 高い予測精度で知られている • 少量データでも適用可能 タスク名 入力ペア 出力ラベル ALL 全ペア 無関係(ラベル4,5), 代替関係(ラベル1), 補完関係(ラベル2-*, 3-*), 組み合わせ関係(ラベル3-*) RELATION 全ペア 無関係, 関係(ラベル1, 2-*, 3-*) CPC 関係ペア 代替関係, 補完関係(ラベル1, 2-*, 3-*) COMBINE 補完ペア 補完関係, 組み合わせ関係 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 26 / 38
3カスケードモデルと多クラス分類モデル 【1/2】 3カスケードモデル 関係なし 代替関係 補完関係 LightGBM-RELATION 関係性があるか? Yes LightGBM-CPC 補完か? Yes LightGBM-COMBINE 組み合わせ関係か? Yes 組み合わせ関係 商品ペア(商品A, 商品B) の特徴量ベクトル 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 27 / 38
3カスケードモデルと多クラス分類モデル 【2/2】 多クラス分類モデル 関係なし 代替関係 補完関係 組み合わせ関係 LightGBM ラベルはどれか? 商品ペア(商品A, 商品B) の特徴量ベクトル 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 28 / 38
特徴量 【1/2】 分類モデルに入力するための「商品特徴量」と「商品ペア特徴量」を用意 商品特徴量:商品単体を特徴づける 特徴量名 生成方法 商品説明文 TF-IDF + PCA (100次元) 商品名_PCA TF-IDF + PCA (100次元) 商品名_AE AutoEncoder (100次元) 商品レビュー文 TF-IDF + PCA (100次元) 商品スペック名 TF-IDF + PCA (50次元) {大, 中}分類 One-hot Encoding 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 29 / 38
特徴量 【2/2】 商品ペア特徴量:商品ペアを特徴づける 特徴量名 生成方法 {大, 中}分類一致ベクトル 一致した分類の対応次元を1, 他を0 {大, 中}分類一致 分類名が一致するか否か {大, 中}分類類似度 分類名ベクトル (fastText) のコサイン類似度 商品名類似度 "商品名_PCA"のコサイン類似度 商品説明文類似度 "商品説明文"のコサイン類似度 商品レビュー文類似度 "商品レビュー文"のコサイン類似度 商品スペック名類似度 "商品スペック名"のコサイン類似度 メーカー一致 メーカー名が一致するか否か ブランド一致 ブランド名が一致するか否か 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 30 / 38
評価方法 教師ラベルは少量のため ダブルクロスバリデーションを採用 • 内側クロスバリデーション: モデルのチューニング • 外側クロスバリデーション: 汎化性能(検証精度)の計算 評価指標(多クラス分類用) • Accuracy • macro-F1 ◦ Accuracyよりもクラスのアンバランスに 影響を受けにくい 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 31 / 38
分類精度比較 【1/2】 入力する特徴量を選択し, 検証Accuracyが最良の結果を提示 モデル Accuracy (学習精度) macro-F1 (学習精度) Accuracy (検証精度) macro-F1 (検証精度) 3カスケードモデル 商品特徴量のみ 0.993 0.986 0.856 0.785 3カスケードモデル 商品ペア特徴量のみ 0.967 0.943 0.900 0.846 多クラス分類モデル 商品特徴量のみ 0.992 0.989 0.858 0.788 多クラス分類モデル 商品ペア特徴量のみ 0.977 0.966 0.907 0.856 学習精度 • 全モデルで一貫して Accuracy:0.96以上, macro-F1:0.94以上 • → 既知のデータについて学習が成功している 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 32 / 38
分類精度比較 【2/2】 モデル Accuracy (学習精度) macro-F1 (学習精度) Accuracy (検証精度) macro-F1 (検証精度) 3カスケードモデル 商品特徴量のみ 0.993 0.986 0.856 0.785 3カスケードモデル 商品ペア特徴量のみ 0.967 0.943 0.900 0.846 多クラス分類モデル 商品特徴量のみ 0.992 0.989 0.858 0.788 多クラス分類モデル 商品ペア特徴量のみ 0.977 0.966 0.907 0.856 検証精度 • 商品特徴量のモデル:Accuracyが0.85まで減少 → 過学習の傾向 • 商品ペア特徴量のモデルはAccuracyが0.90まで減少 → 商品特徴量のモデルほどではない • → 汎化性能の観点では商品ペア特徴量を使用すべき 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 33 / 38
どの特徴量が分類に寄与しているか? 【1/3】 ゲーム理論のShapley値に基づいて計算できる SHAP値 [Guyon+, 2017] を採用 RELATIONタスク(3カスケードモデル) • 意味: ◦ 点:1つのデータ(ペア) ◦ 点が右(左)に振れるほど その特徴量が関係性あり(なし)の 予測に寄与 ◦ 色が赤いほどその特徴量の値が高い • 分類や説明文の類似度が効果的 ◦ 類似度が高いほど関係性ありと判定 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 34 / 38
どの特徴量が分類に寄与しているか? 【2/3】 CPCタスク(3カスケードモデル) • 意味: ◦ 点が右(左)に振れるほど その特徴量が補完関係(代替関係)の 予測に寄与 • 商品スペックや説明文が上位に提示され RELATIONよりも商品を詳細に説明する 特徴量が効いている可能性 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 35 / 38
どの特徴量が分類に寄与しているか? 【3/3】 COMBINEタスク(3カスケードモデル) • 意味: ◦ 点が右(左)に振れるほど その特徴量が組み合わせ関係 (補完関係)の予測に寄与 • 商品説明文や商品名類似度が上位にあり さらに詳細な特徴量を求めている傾向 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 36 / 38
おわりに まとめ • 既存研究による閲覧・購買データから構築された教師ラベルの品質に注目し, 商品機能の適合関係に基づいて関係ラベルを再定義 • アノテーションによるラベルの収集法を提案 • LightGBMを用いたラベル分類実験:実用的な分類精度を確認 ◦ 特徴量の観察:補完関係の特定には商品を詳細に説明する特徴量が必要 今後の方針 • 本研究における評価はアノテーションされたペアのみを対象 ◦ 事前のサンプリングで簡単なデータセットになっている可能性がある ◦ アノテーション外のペアについても汎化性能があるモデルとなっているか確認予定 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 37 / 38
参考文献 • [Yu+, 2019] H. Yu and L. Litchfield and T. Kernreiter and S. Jolly and K. Hempstalk, "Complementary Recommendations: A Brief Survey," in Proc. of 2019 Int. Conf. on High Perform. Big Data and Intell. Syst., pp.73-78, 2019. • [Zheng+, 2009] J. Zheng and X. Wu and J. Niu and A. Bolivar, "Substitutes or Complements: Another Step Forward in Recommendations," in Proc. of the 10th ACM Conf. on Electron. Commer., pp.139-146, 2009. • [McAuley+, 2015] J. McAuley and R. Pandey and J. Leskovec, "Inferring Networks of Substitutable and Complementary Products," in Proc. of the 21th ACM SIGKDD Int. Conf. on Knowl. Discov. and Data Min., pp.785-794, 2015. • [Rakesh+, 2019] V. Rakesh and S. Wang and K. Shu and H. Liu, "Linked Variational AutoEncoders for Inferring Substitutable and Supplementary Items," in Proc. of the Twelfth ACM Int. Conf. on Web Search and Data Min., pp.438-446, 2019. • [Ke+, 2017] G. Ke and Q. Meng and T. Finley and T. Wang and W. Chen and W. Ma and Q. Ye and T. Liu, "LightGBM: A Highly Efficient Gradient Boosting Decision Tree," in* Proc. of Adv. in Neural Inf. Process.*, vol.30, 2017. • [Guyon+, 2017] I. Guyon, U. Von Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, "A Unified Approach to Interpreting Model Predictions," in Proc. of Adv. in Neural Inf. Process. Syst., vol.30, 2017. 2024.01.25 ライフインテリジェンスとオフィス情報システム研究会(LOIS) 38 / 38