218 Views
July 12, 17
スライド概要
2017/6/16
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
Memory-Augmented Attribute Manipulation Networks for Interactive Fashion Search 2017/06/16 (金) 後藤亮介 VASILY, Inc.
自己紹介 • 後藤亮介 (VASILY, Inc.) • 東京大学大学院 天文学専攻 出身 • 2015年の「ディープラーニング基礎講座」に学生として参加 • 現在の仕事: • 機械学習・画像認識を活用したファッション系サービスの開発
Deep Learningで作ったもの 自然画像から商品画像を引き出すクロスドメイン検索
Deep Learningで作ったもの 自然画像から商品画像を引き出すクロスドメイン検索
Deep Learningで作ったもの ファッションアイテム検出器
IBIS2016
IBIS2016 ・ノースリーブワンピースに「赤」の属性を付与していく ・検索結果が徐々に赤いノースリーブワンピースに変化
Memory-Augmented Attribute Manipulation Networks for Interactive Fashion Search 2017/06/16 (金) 後藤亮介 VASILY, Inc. 8
書誌情報 • Memory-Augmented Attribute Manipulation Networks for Interactive Fashion Search • Bo Zhao, Jiashi Feng, Xiao Wu, Shuicheng Yan • CVPR 2017 Poster • https://www.researchgate.net/publication/316782095_MemoryAugmented_Attribute_Manipulation_Networks_for_Interactive_Fashion_Search uploaded) (2017/05/09
概要 • 画像検索において、ユーザーの求める属性を付与して、検索結果を変えら れると便利 • 画像の属性を操作できるAttribute Manipulation Network (AMNet)を考案 • ファッションのデータセット(DARN, DeepFashion)で実験して、良いパフォ ーマンスを発揮
Interactive Fashion Search ・「こんなコートが欲しいのだけど、色は青くて、襟はplush素材がいいな」 ・クエリ画像で表現しきれないユーザーの細かな希望を叶える画像検索
問題設定 クエリ画像 求める画像 ・クエリ画像と求める画像の属性のほとんどは共通(1~2個程度だけ異なる) ・クエリ画像と求める属性から、求める画像の表現を得られれば良い ・表現が得られれば、あとは近傍探索で取ってくるだけ
提案手法:Attribute Manipulation Networks ・AMNetの全体像 ・画像の特徴量と,属性を加えた特徴量を抽出する ・大きく4つの部分に分けられる
1. Representation Learner ・画像の特徴量を抽出するネットワーク ・クエリ画像、求める画像、ランダムサンプルのトリプレットを入力 ・この研究ではAlexNetを利用
2. Memory Block ・Memory Blockは各属性の特徴を記憶している ・クエリ画像に対して変更したい属性を入力し、その特徴を引き出す
2. Memory Block ・勾配が得られるため、学習時にメモリを更新する ・初期メモリは、各属性を持つ画像を属性予測タスクを学習させたAlexNetのfc7 (4096次元)の平均を取ることで得る。
Attribute Manipulator ・属性の特徴と画像の特徴を合わせて、新たな4096次元の特徴を作る
Loss Layer ・Classification Loss ・Ranking Loss ・Networks Optimization
Fashion Search with Attribute Manipulation ・訓練 クエリ画像 + positive 固有の属性 positive画像 (求める画像) negative (ランダムサンプル) を入力して得られるRanking LossとClassification Lossをネットワークに返す ・検索 事前にAlexNetを通して画像の特徴量を持っておく (manipulation無し) クエリ画像 + 属性の入力 から得られる特徴量で、近傍探索する
実験:データセット DARN Deep Fashion 320,000の洋服画像 各洋服に9種の属性 全179種の属性 290,000の洋服画像 各洋服に6種の属性 全1050種の属性
実験結果 Top-k Accuracy Gallery Size毎のTop-20Accuracy ・新しいタスクなので,比較できる既存の研究がない ・AMNet(青)から Memory Blockを除いたもの(緑) RankingLossを除いたもの(赤) AlexNetのfc7を使ったもの(ピンク) を比較
実験結果 Top-k Accuracy Gallery Size毎のTop-20Accuracy ・Top-k AccuracyはどのkでもAMNetが最も高い ・Gallery Sizeを増やしても,Accuracyの減少が緩やかなのでRobust
実験結果
実験結果
結論 ・属性を操作できる画像検索を実現 ・AMNetのアーキテクチャは比較対象に比べて優れた精度を達成 感想 ・Triplet損失関数をつかって、直接、特徴空間を学習しているところが良さそう。 ・以前、C-VAEGANの中間層を使って同じことをやっていたが、学習の制御が難しか ったし、画像検索という目的と最適化する目的関数が食い違っていたなぁ、と反省