【DL輪読会】RSA: Reducing Semantic Shift from Aggressive Augmentations for Self-supervised Learning (NeurIPS 2022)

>100 Views

January 06, 23

スライド概要

2023/1/6
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

RSA: Reducing Semantic Shift from Aggressive Augmentations for Self-supervised Learning (NeurIPS 2022) Atsuya Kitada, Matsuo Lab, M1 1

2.

書誌情報 RSA: Reducing Semantic Shift from Aggressive Augmentations for Self- supervised Learning • NeurIPS 2022 • 著者:Yingbin Bai, Erkun Yang, Zhaoqing Wang, Yuxuan Du, Bo Han, Cheng Deng, Dadong Wang, Tongliang Liu, 2

3.

概要 背景 • 自己教師あり学習ではデータ拡張を強くかけすぎるとデータの意味合いが変化してしまう • DNNでは、学習序盤にcleanなサンプルを記憶し、終盤にnoisyなデータに対して過学習す る、”記憶効果”と呼ばれる現象が知られている。 提案手法 • 強弱によってデータ拡張を2段階に分割 • 強弱の異なるデータ拡張による特徴表現間のバランスを取るハイパラβを導入し、序盤は 強いデータ拡張、終盤は弱いデータ拡張の影響を強める。 有効性 • 多段階のデータ拡張、ハイパラβの両方が後続タスク(線形分類)の精度向上に寄与 • データセットのサイズに関わらず、RSAでの表現学習により後続タスク(線形分類)の精 度向上 • バックボーンの事前学習にRSAを導入し、物体検出やセグメンテーションタスクに転移さ せ、ファインチューニングさせると、性能が向上 3

4.

前提知識 自己教師あり学習で鍵となるデータ拡張 自己教師あり学習 • 一般的な手法である教師あり学習では教師ラベルの作成に多大な労力がかかる一方、教師ラベルなしで普 遍的な表現を学習する手法として近年注目を浴びている。 • 特に対照学習(Contrastive Learning)と呼ばれる、データ拡張方法の異なるペア画像を対比する手法に よって獲得された表現は後続タスクでの精度が高い。 データ拡張による表現の向上 • データ拡張によって対比する学習画像ペアを多様にすることが表現向上の鍵。 例) SimCLR 4

5.

背景 課題: 強いデータ拡張は画像を大きく歪めるため、元画像と意味合いが変わってしまう • 強いデータ拡張によって生成されるサンプルの大多数は表現学習に有益である。 • 一方、強いデータ拡張によって意味的な変化を起こしてしまうサンプルが少数発生し、学習に有害である。 上段は元画像、下段は元画像に対して強いデータ拡張かけて生じたNoisyなサンプル 5

6.

背景 記憶効果: DNNは学習序盤にcleanなサンプルを記憶、その後noisyなデータを過学習する 学習初期 • 意味合いを保ったcleanなデータをまず記憶 する。 学習終盤 • 意味的変化が生じるnoisyなデータに対して 過学習する。 6

7.

提案手法 学習序盤は強いデータ拡張の利点を活かし、終盤は意味的変化の影響を抑える 学習初期 • 意味合いを保ったcleanなデータをまず記憶 する。 → noisyデータの影響が少ないため、強いデー タ拡張による利点をそのまま活かす。 学習終盤 • 意味的変化が生じるnoisyなデータに対して 過学習する。 → noisyデータの影響が大きいため、過学習に よる悪影響を抑える。 7

8.

提案手法 強弱に応じた多段階データ拡張を導入、強弱の異なるデータ拡張による特徴表現間のバランスを取る 工夫2 wとaのバランスを取るハイパラの導入 工夫1 強弱に応じた 多段階データ拡張 ※ 基本的な構造はBYOLと同じ ※ Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre H. Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Ávila Pires, Zhaohan Guo, Mohammad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, Rémi Munos, and Michal Valko. Bootstrap your own latent - A new approach to selfsupervised learning. In NeurIPS, pages 21271– 21284, 2020. 8

9.

提案手法 工夫1: 強弱によってデータ拡張の過程を2段階に分割 通常の対照学習 画像xに対して異なるデータ拡張t, t’をかけることで 得られる画像ペアの特徴表現を近づけるように学習 提案手法 RSA データ拡張t, t’それぞれを、弱いデータ拡張tw, tw’、強いデータ拡張ta, ta’ という2つの過程に分割。 … BYOL 9

10.

提案手法 工夫2: データ拡張の強弱が違う2つの特徴表現間のバランスを取るハイパラβの導入 • 強いデータ拡張による表現と弱いデータ拡張による表現の2つから 計算される損失項の大きさを調整するパラメータβを導入 • 強いデータ拡張と弱いデータ拡張の重みのバランスを調整する ※ • βを学習エポックkに応じて減衰させ、終盤のnoisyデータの過学習 による悪影響を抑える。 ※ BYOLと同様 10

11.

提案手法 全体のアルゴリズム 11

12.

実験 実験1: 多段階のデータ拡張とハイパラβが共に線形分類精度の向上に寄与 • 設定 • 特徴表現の線形分類性能によって精度評価。 • データセットとしてImageNet-100を使用。 • ベースライン手法としてBYOLを採用。 • 提案手法については、①多段階データ拡張を使用しハイパラβを固定した場合、②ハイパラβ を学習エポックに応じて減衰させた場合の2種類を用意し、多段階データ拡張、ハイパラβそれ ぞれの影響を測定。 • 結果:多段階データ拡張とハイパラβの両方が精度向上に寄与。 12

13.

実験結果 実験2: 小中規模データセットに対して提案手法が有効 • 設定 • 特徴表現の線形分類性能によって精度評価。 • 小中規模なデータセットとして、CIFAR10, CIFAR100, STL-10, Tiny ImageNetを使用。 • 比較対象手法としてSimCLR, MoCo, SimSiam, BYOLを採用。 • 学習エポック数を200と800の2パターン用意 • 結果:学習エポック数によらず、いずれの既存手法よりも線形分類精度が高い。 13

14.

実験結果 実験3: 大規模データセットに対しても提案手法が有効 • 設定 • 特徴表現の線形分類性能によって精度評価。 • 大規模なデータセットとして、ImageNet-100, ImageNet-1Kを使用。 • 比較対象手法としてSimCLR, MoCo, SimSiam, BYOLを採用。 • 学習エポック数を200と800の2パターン用意 • 結果:いずれの既存手法よりも線形分類精度が高い。 ImageNet-100 ImageNet-1K 14

15.

実験結果 実験3: 転移性能による評価 • 設定 • 提案手法RSAを用いてImageNet-1Kで200エポック事前学習したモデルを、MS COCO データセットの物体検出/セグメンテーションタスクでファインチューニング。 • 結果:物体検出、セグメンテーションどちらについても、既存手法より高精度。 15