[DL輪読会]Compatible and Diverse Fashion Image Inpainting

203 Views

February 22, 19

#deep learning #Fashion Inpainting #FiNet #Image Generation #Machine Learning #Fashion Compatibility

スライド概要

2019/02/22
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.8K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.3K

各ページのテキスト

Compatible and Diverse Fashion Image Inpainting Ryosuke Goto (ZOZO Research)

書誌情報 ● 著者: Xintong Han, Zuxuan Wu, Weilin Huang, Matthew R. Scott, Larry S. Davis ● 所属: Malong Technologies (https://www.malong.com/en/home) (1, 3, 4) University of Maryland, College Park (2, 5) ● 選定理由 ○ ○ ファッションとしての整合性を考慮しながら、クオリティの高い着せ替えを実現した点ファッションのレコメンドへの応用に使えそうな点

https://www.malong.com/en/home

概要 Fashion Inpainting Networks (FiNet)の概要 FiNetによるOutputの例・ファッションとして整合性のある、多様なファッション画像をinpaintで生成する・ShapeとAppearanceの生成過程を分けることにより、生成の困難さを緩和・Compatibility Moduleで生成を条件付けることにより多様な画像を生成可能

背景ファッションで考慮すべきこと Visual Compatibility 見た目や質感が全く異なるアイテム同士が全体として調和している必要がある。また男性にワンピースを着せるといった状況も防ぎたい Diversity 全体として調和する服の組み合わせは多数ある。人の好みも多様なので、レコメンドの文脈では選択肢は複数あった方が良い

提案手法: Shape Generation Network 損失関数・Encoder-Decoder (U-Net) + Input shape encoder + Compatibility shape encoder ・学習時は二つのEncoderを学習し、Input ShapeとContextual Garmentsを同じ分布に埋め込む・テスト時はContextual GarmentsからShapeを予測し生成する

提案手法: Appearance Generation Network 損失関数・Encoder-Decoder (U-Net) + Input appearance encoder + Compatibility appearance encoder ・学習時は二つのEncoderを学習し、Input AppearanceとContextual Garmentsを同じ分布に埋め込む・テスト時はContextual GarmentsからAppearanceを予測し生成する

FiNetによる生成例・トップス、ボトムス、シューズ、ハットの生成例・一つのインプットに対して、多様な形と見た目のアウトプットを返すことができる（Diversity）・それぞれのアウトプットは、全体として調和しているように見える(Visual Compatibility)

Shape codeをずらしてsegmentation mapをInpaint

Appearance codeをずらしてAppearanceをInpaint

10.

着せ替えへの応用・任意のターゲットに、参照したいアイテムを着せるタスク・アイテムの形や見た目は若干変わるが、自然なアウトプットを返すことに成功している

11.

他の手法との比較 FiNet以外の手法では、artifactが乗ったり、多様性が出せないパターンが多い（ただし、無理やり今回のタスクのために調整した手法もあるため、公平な比較になっているか判断できない） FiNetはCompatibilityと人を欺いた割合 (Human)が高い。Inception Scoreはカラフルなシューズを履かせると値が高くなるなど人の感覚と合わないため今回のタスクには不適切

12.

まとめと感想 ● 全体として調和した多様なファッション画像を生成できるFiNetを提案 ○ ○ ○ Shape GenerationとAppearance Generationの２段階に分けたことにより、同時に形と見た目を生成する困難を回避 Compatibility Moduleにより他のアイテムとの関係を考慮できる他のアイテムとの関係を分布として埋め込むことで、一つのインプットに対し、多様な形と見た目のアウトプットをサンプルできる任意の人に任意のアイテムの着せ替えができる ○ ● 感想 ○ 過去の研究では、同時購入のデータやPolyvoreの商品の組み合わせデータを学習することで Compatibilityを学習していたが、本当にファッションとして成り立っているのかは疑問だった。今回の研究では、モデルが実際に着用した整合性の取れた商品の形と見た目をそのまま利用することによりCompatibilityを学習している点が新しい。手を出しやすく、レコメンドへの応用も考えられるため、この研究を機にFashion Compatibilityの研究がさらに進むと思う。