【DL輪読会】Replacing Labeled Real-Image Datasets With Auto-Generated Contours

1.1K Views

June 17, 22

#Deep Learning #Vision Transformer #Radial Contour Database #Pre-training #Image Generation

スライド概要

2022/06/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 36.9K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 36.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Replacing Labeled Real-Image Datasets With AutoGenerated Contours Shunsuke Chiba(the university of Tokyo B3) http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： Replacing Labeled Real-Image Datasets With Auto-Generated Contours 著者：Hirokatsu Kataoka, Ryo Hayamizu, Ryosuke Yamada, Kodai Nakashima, Sora Takashima, Xinyu Zhang, Edgar Josafat Martinez-Noriega, Nakamasa Inoue, Rio Yokota,Tsinghua University カンファレンス：CVPR 2022 概要：数式から生成された画像を用いた、VisionTransformer(ViT)の事前学習 →実画像を用いて事前学習させた時と同等かそれ以上の精度を達成した ※本資料で使用されている図や画像は特に言及がない限り、本論文または公式サイトからの引用です。 2

背景知識 Vision Transformer 2020年にGoogleが発表した画像認識モデル。BERTやGPT-3に用いられるTransformerを画像タスクに応用したもの。大規模なデータセットによる事前学習を行った後と個別データセットによるfinetuningによってダウンストリームタスクを解く出典: https://arxiv.org/abs/2010.11929 3

https://arxiv.org/abs/2010.11929

背景知識フラクタル図形フラクタルとは、一部が全体と自己相似な構造を持っている図形を指し、自然界にも多く存在する。フラクタル幾何という分野の知識を使うと、数式からフラクタル図形を生成することも可能。出典: https://arxiv.org/abs/2010.11929 https://www2.hamajima.co.jp/~mathen et/wiki/index.php?%A5%D5%A5%E9%A5 %AF%A5%BF%A5%EB%A3%B3%B3%D8 %B4%FC%A1%CA%A5%AF%A5%E9%A5 %A4%A5%DE%A5%C3%A5%AF%A5%B9 %A1%CB 4

https://arxiv.org/abs/2010.11929

背景従来の画像認識モデルの課題・膨大な画像収集を要する（ViTの原論文では3 億枚以上の教師データを使って学習）・人手で教師ラベルを生成するため膨大な作業コストが生じる・実画像の利用によるプライバシーの侵害の可能性・不適切なラベルの付与による差別的な出力の可能性 5

先行研究 formula-driven supervised learning（FDSL） Pre-training without Natural Images(2020)では、数式から生成されたフラクタル図形のデータセットFractalDBを使ってCNNを学習させたところ、実画像に近い精度が観測された出典: https://openaccess.thecvf.com/content/ACCV2020/papers/Kataoka_Pretraining_without_Natural_Images_ACCV_2020_paper.pdf 6

https://openaccess.thecvf.com/content/ACCV2020/papers/Kataoka_Pre-training_without_Natural_Images_ACCV_2020_paper.pdf

仮説1 FDSLにおける輪郭の重要性予備調査にてFractalDBをViTで学習させたところ、図形の輪郭にattentionがフォーカスされていることを発見した

提案手法 Radial Contour Database (RCDB) FractalDBの派生として、オブジェクトの輪郭を描画することに特化した生成手法、RCDBを提案 RCDBではNとnの二つのパラメータの組を1つのクラスと見做し、一定のノイズを加えて1クラスあたり1000枚の画像を生成している →人のアノテーション無しに、ラベル（クラス）つき画像データを生成できる

提案手法 RCDBの生成手順 a)n角形を上下にランダム圧縮拡大する。 b)ランダムに平行移動 c)bをN回繰り返す。

10.

仮説2 FDSLのデータセットをより複雑化する「FractalDBを立体からの写像にする」「RCDBのパラメータ数を増やす」によって、それぞれ事前学習の難易度を上げ、ダウンストームタスクのパフォーマンス向上を目指す

11.

画像データセット

12.

実験結果・ImageNet、ExFractalDB、RCDBを用いて同じ条件（クラス数、データ数）でViTの事前学習を行い、ImageNet1kのfinetuningで精度を比較した。結果としてはExFractalDB・RCDBの方が実画像のImageNetで学習させるよりも高精度であった・他のFDSLデータセットと比べて、ベジェ曲線、RCDB、FractalDB などの輪郭線を主体としたデータセットが最も高い精度を示した

13.

実験結果・FractalDBについては、より複雑なEx FractalDBの方が高精度であった・ RCDB、FractalDB共にクラス数を増やすことで精度が向上した・頂点数が多い画像のみでは精度が極端に低く、事前学習が失敗していた

14.

実験結果 ViTとFDSLの相性 ResNet ・ gMLP ・ ViT でそれぞれ FDSLを行ったところ、ViTが最も高精度であった。 → ViTがFDSLと相性が良いと考えられる

15.

まとめ • 数式から生成された画像を用いて学習する手法FDSLを用いて、ViTを事前学習したところ、実画像と同等かそれ以上の精度が観測された • FDSLデータセットでは、オブジェクトの輪郭が重要である • FDSLパラメータの数を変化させることで事前学習の難易度を制御したところ、事前学習の難易度が高いほどファインチューニングの精度が高くなった 15

16.

個人的な感想・疑問 • 大量の実画像を集められる団体が、一部の企業に偏ってきている現状を踏まえると、本手法のように誰でも利用できる手法はとても有意義であると感じた • RCDBのデータ数をどこまで増やすことができるのかが、今後この手法が発展するかに影響してきそう。パラメータを増やして複雑にしていくと事前学習に失敗する例もあったので、どこかで頭打ちがきてもおかしくない • 結局なぜこの方法で、ドメインが明らかに違うImage Net等に対しても汎化が進むのかが分からなかった 16