143 Views
February 07, 20
スライド概要
020/02/07
Deep Learning JP:
http://deeplearning.jp/seminar-2/2
DL輪読会資料
DEEP LEARNING JP [DL Papers] (Sequential) Variational Autoencoders for Collaborative Filtering Jun Hozumi, Matsuo Lab http://deeplearning.jp/ 1
書誌情報 • Title: Variational Autoencoders for Collaborative Filtering • Authors: Dawen Liang, Rahul G. Krishnan, Matthew D. Hoffman, Tony Jebara • Affiliations: Netflix, MIT, Google AI • Conference: WWW 2018 • Title: Sequential Variational Autoencoders for Collaborative Filtering • Authors: Noveen Sachdeva, Giuseppe Manco, Ettore Ritacco, Vikram Pudi • Affiliations: IITH, ICRA-CNR • Conference: WSDM 2019 ・ボリュームの都合、2本紹介します ・VAEについて既知であるとします 2
背景(今回考えるタスク) • 協調フィルタリング • ユーザに対し、嗜好の類似した他のユーザの情報を用いて推薦する手法 • 今回はImplicit feedback(クリック履歴など、興味の度合いが不明なケース)問題に取り組む • cf. explicit feedback(5段階評価など) (これはExplicit) https://www.albert2005.co.jp/knowledge/marketing/recommendation_basics/collaborative_filtering 3
目的 • 潜在因子モデルや深層学習の導入でモデルの精度が上がってきている • ここで、今回は今まであまり使われていなかったVAEを採用してみる • VAEを推薦システムに用いるためには、2点の修整が必要 • • 多項(マルチヌーイ)分布を採用する(Mult-VAE) • 過学習を防ぐために目的関数を再解釈する スモールかつスパースなデータでも、過学習を防ぎつつロバストにすることができる 4
提案手法1 • 以後、ユーザはu、アイテムはi • 次元はK、確率分布はπ、潜在変数はzで表す • 𝒙𝑢 はuのアイテムiへのクリック情報を含んだBag-of-Wordsベクトル • 𝒙𝑢 が多項分布に従うものとする • • 普通のVAEならガウス分布 (𝑓𝜃 を線形にしてガウス尤度を採用するとMatrix Factorizationになる) 5
提案手法2 • 学習の要領はSGDを用いたVAEと同じ 6
提案手法3 • 正則化項に係数βを掛けて小さくする • βを0から1に近づけてベストな値を探っていく(線形アニーリング) http://approximateinference.org/2017/schedule/Liang2017.pdf • 実際に精度向上に効果がある 7
提案手法4 • 𝑓𝜃 𝑧 の正規化前の予測結果をランキング化して、予測結果とする 𝑔𝜙 (𝑥) 𝑓𝜃 (𝑧) • 新規ユーザの𝒙𝑢 に対しても予測を出せるため、実務応用が可能 • コールドスタート問題への対応 8
データセット • MovieLens-20M (ML-20M): 5段階評価で4以上を付けた映画 • 最低5本評価しているユーザのみが対象 • Netflix Prize: MovieLensと同様にピックアップ • Million Song Dataset(MSD): 曲を聴いたかどうか • 200人以上に聴かれた曲を20曲以上聴いたユーザのみが対象 9
評価指標 • Normalized Discounted Cumulative Gain (NDCG) NDCGの説明(explicitの例) • • 𝜔(𝑟): r位のアイテム、𝐼𝑢 :uがクリックしたアイテム • 上位の予測結果ほど重要 Recall@R • • 予測結果のTopRが等しく重要 Precision@R: Recallの分母がσ 𝐼_𝑢 • 次の研究で登場 https://blog.brainpad.co.jp/entry/2017/08/25/140000 10
実験結果1 • 各評価指標で既存手法に勝利 • Mult-DAEは多項分布を用いたDenoising Autoencoder 11
実験結果2 • 事前学習なしのNCF(Neural • 他の分布より多項分布を採用したほうが精度が高くなる Collaborative Filtering)に勝利 12
実験結果3 • 行動数のレベルでユーザを分類して別々に実験した結果 • 行動数が少ない場合ほどMult-VAEが有効 13
まとめ • 協調フィルタリングのためのVAEベースの手法を提案した • モデリングの際には多項分布が適していた • KL項にβを導入してアニーリングすると良い • 既存手法に精度で上回ることができた • スモールデータに対する有効性も示せた • 今後の課題 • βの理論的考察 • 条件付き版への拡張 14
書誌情報 • Title: Variational Autoencoders for Collaborative Filtering • Authors: Dawen Liang, Rahul G. Krishnan, Matthew D. Hoffman, Tony Jebara • Affiliations: Netflix, MIT, Google AI • Conference: WWW 2018 • Title: Sequential Variational Autoencoders for Collaborative Filtering • Authors: Noveen Sachdeva, Giuseppe Manco, Ettore Ritacco, Vikram Pudi • Affiliations: IITH, ICRA-CNR • Conference: WSDM 2019 15
(前の研究を踏まえた)導入 • • 今回は嗜好の履歴に着目する • 先ほど紹介したMVAEだと嗜好をBag of Words的に取り扱っている • そのときに依存関係や因果関係が失われているかもしれない VAEを再帰的になるよう拡張する(Sequentional VAE; SVAE) • • 長期・短期の依存関係を捉える 潜在変数と時間依存性の合わせ技で精度を上げる 16
提案手法 • 系列の場合、こう書ける • つまり、モデリング可能な再帰的関係があり、各ステップは条件付VAEでモデル化でき る • ここでMult-VAEと同様の設定を用いて 17
アーキテクチャ • SVAEのアーキテクチャ • 系列を扱うVAEには様々なグラフィカルモデルが考えられる • 今回のSVAEは(c)に該当する 18
提案手法の拡張 • SVAEは(tに依らず)次のk個のアイテムに焦点が当たるように拡張できる • 式を書き換えるとAttentionとの類似性も見えてくる • 𝑥𝑢 𝑡 が直前k個の潜在変数に依存しているから 19
実験結果1 • MVAEや他の既存手法に勝利 • 系列長が長くなるほどSVAEは真価を発揮する 20
実験結果2 • 次のk個を予測するというタスクにでは、k=4がベスト • 収束も早く、過学習しにくい 21
まとめ • RNNの系列モデリングとVAEの組み合わせは系列の推薦に効果的 • • 今後はもっと理論的な分析が必要 • • シンプルかつ既存手法に比べて良い結果に 各グラフィカルモデル(a)〜(d)での考察とか 異なるアーキテクチャ(畳み込みや確率的など)も試してみる価値がある 22