[DL輪読会]Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis

115 Views

December 07, 18

スライド概要

2018/12/7
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis Ryosuke Goto, ZOZO Research http://deeplearning.jp/ 1

2.

書誌情報 • 著者: Xiaoling Gu, Yongkang Wong, Lidan Shou, Pai Peng, Gang Chen, Mohan S. Kankanhalli • IEEE Transactions on Multimedia – 18 October 2018 • URL: https://ieeexplore.ieee.org/document/8496862 – Supplementary materialあり 2

3.

研究の目的 • ファッションに関する画像とテキストのデータ分析を行いたい • ファッションに関するMulti-Domainデータを同じ空間に埋込みたい 3

4.

やったこと • Multi-domainかつMulti-modalなデータセットの表現学習のための アーキテクチャとしてQuintuplet ranking lossと Cross-view similarity ranking lossの二段階の学習を提案 • 正準相関分析系の手法に比べ、提案手法が優れていることを示す • 様々なパターンで検証することで、各ステップの精度への貢献を明らかにした • ファッショントレンドに関するケーススタディを実施 4

5.

データセット Street Photos ・背景やポーズがバラバラ ・タグはユーザーが付与する ためノイズが多い Runway Photos ・背景はステージ ・プロによる撮影 ・シーズンやデザイナーのタグ Product Images ・背景は白抜き ・カテゴリのタグがほとんど 5

6.

提案モデル (全体) ・Multi-Domainの学習と Multi-Modalの学習の二段階に分ける 6

7.

提案モデル (Step 1) • Quintuplet-based ranking loss – 同一ドメインでは通常のTriplet loss – 異種ドメインはマージンをより大きくとる 7

8.

提案モデル (Step 2) • Cross-view similarity ranking loss – 画像とテキストの関係を学習 – アンカーに画像とテキストのどちらを取るかにより重み付け 8

9.

定量評価(Image-To-Image Retrieval) • 評価指標: – Mean Average Precision (MAP) – Normalized Discounted Cumulative Gain (NDCG) – F1-Measure • 比較対象 – – – – – Canonical Correlation Analysis (CCA) Deep Canonical Correlation Analysis (DCCA) Deep Canonical Correlated Autoencoder (DCCAE) 上記3つを、step1後のモデルで得た特徴を使って計算したもの(Quin_) 上記3つを、pre-trained VGG16の特徴で計算したもの(VGG_) 9

10.

定量評価(Image-To-Image Retrieval) 10

11.

定量評価(Image-To-Text Retrieval) 11

12.

定量評価(Text-To-Image Retrieval) 12

13.

定性評価(Street Photos) 13

14.

定性評価(Runway Photos) 14

15.

定性評価(Product Images) 15

16.

Ablation Study 1 ・Image-To-Image検索におけるStep2の効果 全ての画像ドメインにおいて、MAPの向上が見られる ・Step1とStep2の影響力 Step2のみだと著しく性能が低下。Step1が重要 Step1はStep2の良い初期値を与えていると考えられる ・Step1とStep2のJoint学習は可能か? Joint_Step1_Step2は提案手法に比べて性能が低い 二種類のsimilarityの学習でトレードオフが起きて悪影響 16

17.

Ablation Study 2 ・Step2のcross-view tripletの効果 Step1_Step2_Textの効果が大きい Step2のテキストをアンカーにしたTriplet Lossが重要 ・Step1をQuintupletで学習する必要があるのか? Triplet_Step2やQuadruplet_Step2よりも性能が高い ・ドメイン毎にモデルを作るのではダメか? Quintupletとほぼ同等。ただし、ドメイン毎のモデルは 検索対象が同一ドメインになるため問題がとても簡単 17

18.

ケーススタディ ・ChanelのRunwayデータを今回のモデルで得た表現でクラスタリング ・パーツ毎のアイテムや色に応じて分類ができている 18

19.

まとめ • Multi-domainかつMulti-modalなデータセットの表現学習のための アーキテクチャとしてQuintuplet ranking lossと Cross-view similarity ranking lossの二段階の学習を提案 • 正準相関分析系の手法に比べ、提案手法が優れていることを示す • 様々なパターンで検証することで、各ステップの精度への貢献を明らかにした • ファッショントレンドに関するケーススタディを実施 19

20.

ケーススタディ 20

21.

ケーススタディ 21