808 Views
June 17, 22
スライド概要
2022/06/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Replacing Labeled Real-Image Datasets With AutoGenerated Contours Shunsuke Chiba(the university of Tokyo B3) http://deeplearning.jp/ 1
書誌情報 タ イ ト ル : Replacing Labeled Real-Image Datasets With Auto-Generated Contours 著者:Hirokatsu Kataoka, Ryo Hayamizu, Ryosuke Yamada, Kodai Nakashima, Sora Takashima, Xinyu Zhang, Edgar Josafat Martinez-Noriega, Nakamasa Inoue, Rio Yokota,Tsinghua University カンファレンス:CVPR 2022 概要:数式から生成された画像を用いた、VisionTransformer(ViT)の事前学習 →実画像を用いて事前学習させた時と同等かそれ以上の精度を達成した ※本資料で使用されている図や画像は特に言及がない限り、本論文または公式サイトからの引用です。 2
背景知識 Vision Transformer 2020年にGoogleが発表した画像認識モデル。BERTやGPT-3に用いられるTransformerを画 像タスクに応用したもの。大規模なデータセットによる事前学習を行った後と個別データ セットによるfinetuningによってダウンストリームタスクを解く 出典: https://arxiv.org/abs/2010.11929 3
背景知識 フラクタル図形 フラクタルとは、一部が全体と自己相似な構造を持っている図形を指し、自然界にも多く存 在する。フラクタル幾何という分野の知識を使うと、数式からフラクタル図形を生成するこ とも可能。 出典: https://arxiv.org/abs/2010.11929 https://www2.hamajima.co.jp/~mathen et/wiki/index.php?%A5%D5%A5%E9%A5 %AF%A5%BF%A5%EB%A3%B3%B3%D8 %B4%FC%A1%CA%A5%AF%A5%E9%A5 %A4%A5%DE%A5%C3%A5%AF%A5%B9 %A1%CB 4
背景 従来の画像認識モデルの課題 ・膨大な画像収集を要する(ViTの原論文では3 億枚以上の教師データを使って学習) ・人手で教師ラベルを生成するため膨大な作業 コストが生じる ・実画像の利用によるプライバシーの侵害の可 能性 ・不適切なラベルの付与による差別的な出力の 可能性 5
先行研究 formula-driven supervised learning(FDSL) Pre-training without Natural Images(2020)では、数式から生成されたフラクタル図形の データセットFractalDBを使ってCNNを学習させたところ、実画像に近い精度が観測された 出典: https://openaccess.thecvf.com/content/ACCV2020/papers/Kataoka_Pretraining_without_Natural_Images_ACCV_2020_paper.pdf 6
仮説1 FDSLにおける輪郭の重要性 予備調査にてFractalDBをViTで学習させたところ、図形の輪郭にattentionがフォーカスさ れていることを発見した
提案手法 Radial Contour Database (RCDB) FractalDBの派生として、オブジェクトの輪郭 を描画することに特化した生成手法、RCDBを 提案 RCDBではNとnの二つのパラメータの組を1つ のクラスと見做し、一定のノイズを加えて1ク ラスあたり1000枚の画像を生成している →人のアノテーション無しに、ラベル(クラ ス)つき画像データを生成できる
提案手法 RCDBの生成手順 a)n角形を上下にランダム圧縮拡大する。 b)ランダムに平行移動 c)bをN回繰り返す。
仮説2 FDSLのデータセットをより複雑化する 「FractalDBを立体からの写像にする」「RCDBのパラメータ数を増やす」によって、それ ぞれ事前学習の難易度を上げ、ダウンストームタスクのパフォーマンス向上を目指す
画像データセット
実験結果 ・ImageNet、ExFractalDB、RCDBを用いて同じ条件(クラス数、データ数)でViTの事前学 習を行い、ImageNet1kのfinetuningで精度を比較した。 結果としてはExFractalDB・RCDBの 方が実画像のImageNetで学習させるよりも高精度であった ・他のFDSLデータセットと比べて、ベジェ曲線、RCDB、FractalDB などの輪郭線を主体と したデータセットが最も高い精度を示した
実験結果 ・FractalDBについては、より複雑なEx FractalDBの方が高精度であった ・ RCDB、FractalDB共にクラス数を増やすことで精度が向上した ・頂点数が多い画像のみでは精度が極端に低く、事前学習が失敗していた
実験結果 ViTとFDSLの相性 ResNet ・ gMLP ・ ViT で そ れ ぞ れ FDSLを行ったところ、ViTが最も高 精度であった。 → ViTがFDSLと相性が良いと考え られる
まとめ • 数式から生成された画像を用いて学習する 手法FDSLを用いて、ViTを事前学習したと ころ、実画像と同等かそれ以上の精度が観 測された • FDSLデータセットでは、オブジェクトの 輪郭が重要である • FDSLパラメータの数を変化させることで 事前学習の難易度を制御したところ、事前 学習の難易度が高いほどファインチューニ ングの精度が高くなった 15
個人的な感想・疑問 • 大量の実画像を集められる団体が、一部の企業に偏ってきている現状を踏まえると、本手 法のように誰でも利用できる手法はとても有意義であると感じた • RCDBのデータ数をどこまで増やすことができるのかが、今後この手法が発展するかに影 響してきそう。パラメータを増やして複雑にしていくと事前学習に失敗する例もあったの で、どこかで頭打ちがきてもおかしくない • 結局なぜこの方法で、ドメインが明らかに違うImage Net等に対しても汎化が進むのかが 分からなかった 16