118 Views
December 07, 18
スライド概要
2018/12/7
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis Ryosuke Goto, ZOZO Research http://deeplearning.jp/ 1
書誌情報 • 著者: Xiaoling Gu, Yongkang Wong, Lidan Shou, Pai Peng, Gang Chen, Mohan S. Kankanhalli • IEEE Transactions on Multimedia – 18 October 2018 • URL: https://ieeexplore.ieee.org/document/8496862 – Supplementary materialあり 2
研究の目的 • ファッションに関する画像とテキストのデータ分析を行いたい • ファッションに関するMulti-Domainデータを同じ空間に埋込みたい 3
やったこと • Multi-domainかつMulti-modalなデータセットの表現学習のための アーキテクチャとしてQuintuplet ranking lossと Cross-view similarity ranking lossの二段階の学習を提案 • 正準相関分析系の手法に比べ、提案手法が優れていることを示す • 様々なパターンで検証することで、各ステップの精度への貢献を明らかにした • ファッショントレンドに関するケーススタディを実施 4
データセット Street Photos ・背景やポーズがバラバラ ・タグはユーザーが付与する ためノイズが多い Runway Photos ・背景はステージ ・プロによる撮影 ・シーズンやデザイナーのタグ Product Images ・背景は白抜き ・カテゴリのタグがほとんど 5
提案モデル (全体) ・Multi-Domainの学習と Multi-Modalの学習の二段階に分ける 6
提案モデル (Step 1) • Quintuplet-based ranking loss – 同一ドメインでは通常のTriplet loss – 異種ドメインはマージンをより大きくとる 7
提案モデル (Step 2) • Cross-view similarity ranking loss – 画像とテキストの関係を学習 – アンカーに画像とテキストのどちらを取るかにより重み付け 8
定量評価(Image-To-Image Retrieval) • 評価指標: – Mean Average Precision (MAP) – Normalized Discounted Cumulative Gain (NDCG) – F1-Measure • 比較対象 – – – – – Canonical Correlation Analysis (CCA) Deep Canonical Correlation Analysis (DCCA) Deep Canonical Correlated Autoencoder (DCCAE) 上記3つを、step1後のモデルで得た特徴を使って計算したもの(Quin_) 上記3つを、pre-trained VGG16の特徴で計算したもの(VGG_) 9
定量評価(Image-To-Image Retrieval) 10
定量評価(Image-To-Text Retrieval) 11
定量評価(Text-To-Image Retrieval) 12
定性評価(Street Photos) 13
定性評価(Runway Photos) 14
定性評価(Product Images) 15
Ablation Study 1 ・Image-To-Image検索におけるStep2の効果 全ての画像ドメインにおいて、MAPの向上が見られる ・Step1とStep2の影響力 Step2のみだと著しく性能が低下。Step1が重要 Step1はStep2の良い初期値を与えていると考えられる ・Step1とStep2のJoint学習は可能か? Joint_Step1_Step2は提案手法に比べて性能が低い 二種類のsimilarityの学習でトレードオフが起きて悪影響 16
Ablation Study 2 ・Step2のcross-view tripletの効果 Step1_Step2_Textの効果が大きい Step2のテキストをアンカーにしたTriplet Lossが重要 ・Step1をQuintupletで学習する必要があるのか? Triplet_Step2やQuadruplet_Step2よりも性能が高い ・ドメイン毎にモデルを作るのではダメか? Quintupletとほぼ同等。ただし、ドメイン毎のモデルは 検索対象が同一ドメインになるため問題がとても簡単 17
ケーススタディ ・ChanelのRunwayデータを今回のモデルで得た表現でクラスタリング ・パーツ毎のアイテムや色に応じて分類ができている 18
まとめ • Multi-domainかつMulti-modalなデータセットの表現学習のための アーキテクチャとしてQuintuplet ranking lossと Cross-view similarity ranking lossの二段階の学習を提案 • 正準相関分析系の手法に比べ、提案手法が優れていることを示す • 様々なパターンで検証することで、各ステップの精度への貢献を明らかにした • ファッショントレンドに関するケーススタディを実施 19
ケーススタディ 20
ケーススタディ 21