【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR 2022 )

1.1K Views

September 02, 22

#@deep learning jp #Continual Learning #Unsupervised Learning #Data set #Replay methods #Lifelong Unsupervised Mixup

スライド概要

2022/9/2
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.1K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.1K

各ページのテキスト

Representational Continuity for Unsupervised Continual Learning ( ICLR 2022 ) Atsuya Kitada, Matsuo Lab, M1 1

書誌情報 Representational Continuity for Unsupervised Continual Learning • ICLR 2022 Oral • 著者：Divyam Madaan, Jaehong Yoon, Yuanchun Li, Yunxin Liu, Sung Ju Hwang 2

概要背景 • 継続学習の分野で提案されている手法は、教師あり学習の設定だけに限られている • 大量データを前提とする自己教師あり学習では継続学習が求められる提案手法 • 継続学習で用いられていた既存の各種手法を教師なし設定へ拡張 • 既存手法の一部を教師なし向けにアレンジ (LUMP) 有効性 • • • • 全データセットに対して、教師ありを上回る精度破滅的忘却に対する頑健性少量データセットでの学習にも有効分布外(OOD)データセットに対しても汎化 3

前提知識継続学習とは過去の学習で獲得した知識を忘れることなく、一連のタスクを学習すること。深層学習では、新しいタスクで学習し直すと過去に学習した知識を忘れてしまう「破局的忘却 / 破滅的忘却」という現象が見られ、重要な課題として研究されている。 4

背景継続学習の分野で提案されている手法は、教師あり学習の設定だけに限られている既存手法の分類 Reguralization Architecture Rehearsal / Replay Loss関数に正則化項をつけることで、忘却を防止。タスクごとにサブネットワークを学習させることで、過去に学習した情報を残す。過去のタスク情報を、新しいタスク中で再利用することで、忘却を防ぐ。いずれの手法についても、設定が教師あり学習に限定されている 5

背景大量のデータを前提とする自己教師あり学習を応用するには継続学習が求められる初期の対照学習最近の対照学習ネガティブサンプルが必要ネガティブサンプルが不要例) SimCLR 完全なラベル無し表現学習不偏かつ大量のデータが前提。例) Simsiam, BarlowTwins しかし、実際の応用時には、データサイズが限られていたり、データの性質が時間と共に変化したりする。よって、異なるデータセットを跨いでモデルを学習する技術（継続学習）が求められる。 6

提案手法提案手法の新規性継続学習手法 Reguralization 教師あり Architecture Rehearsal / Replay 既存研究新規性1: 既存の継続学習手法を教師なしの設定に拡張教師なし新規性2: 教師なし設定に合わせ、Reguralization とReplay手法を兼ねるような新たな手法を提案 7

提案手法新規性1: 既存の継続学習手法を教師なし設定へ拡張(= 継続学習と表現学習の橋渡し) Supervised Continual Learning (SCL) 過去のタスクに関する知識を保持したまま、現在のタスクで画像分類する能力を獲得する Unsupervised Continual Learning (UCL) 連続するタスクの訓練を通じて、汎用的な表現を学習することが目標 (表現学習) 8

提案手法新規性2: Replay手法を教師なし向けにアレンジした手法(Lifelong Unsupervised Mixup)を提案 Replay手法の課題点既存手法 Mixup 提案手法 LUMP Replay手法の性能はハイパラαに左右されやすく、タスクが定まっている教師あり学習に向いている。訓練データからサンプリングした2つの特徴量&ラベルのペアを割合λでミックスし、新たに出来たサンプルをもとにモデルを学習 Mixupを自己教師あり学習の文脈へとアレンジ。現在のタスクに含まれるデータと、Replay Bufferからサンプリングしたデータを補完するデータを作ることで、データ拡張と正則化の働きを兼ねる。現在のタスクTに含まれるデータ Replay Bufferからサンプリングしたデータ 9

10.

実験設定学習手順データセット (CIFAR10, CIFAR100, Tiny-ImageNet) それぞれについて、特定のクラスだけを抽出した分割データセット (Split CIFAR10, Split CIFAR100, Split Tiny-ImageNet)を作り、順番に学習。 CIFAR10の例 0, 1 データ 0~9 Multi-Task 学習 2, 3 合計T個のタスク … 10クラスのデータセットクラスに応じてデータセットを分割 T個のタスクを順に学習していく 8, 9 Continual Learning Step1. 連続するT個のタスクを用いてResnet18の事前学習を行い、表現を獲得。 Step2. KNN classifierによる分類精度を見ることで、獲得された表現の質を評価。 10

11.

実験設定手法の評価方法評価指標 Average accuracy Average Forgetting 継続学習完了時の、全てのタスクを通じた平均分類精度各タスクの最大精度と継続学習完了時の精度間での、平均精度低下量教師なし SimSiam 教師ありベースライン(下限) 継続学習の各種手法 Multi-Task(上限) BarlowTwins • Resnet18 Only • Resnet18 Only • Resnet18 + Reguralization手法 • Resnet18 + Reguralization手法 • Resnet18 + Architecture手法 • Resnet18 + Architecture手法 • Resnet18 + Replay手法 • Resnet18 + Replay手法 • Resnet18 + LUMP(提案手法) • Resnet18 Only • Resnet18 Only 教師なしによる表現学習の有効性を示す提案手法(LUMP)の有効性を示す 11

12.

実験結果データセットに関わらず、教師なし継続学習の方が精度が高い UCLはSCLより高精度 • 全てのデータセットで、UCLの方がSCL より精度が高い上に、忘却も少ない。 UCLの中でも提案手法(LUMP)が圧倒的 • 提案手法LUMPは分類精度・忘却率の両指標で、既存の3手法を凌駕。 12

13.

実験結果教師なしの継続学習は少量データセットでの継続学習にも有効 • データセットが少ない状況ほど、UCLがより有利。 • 訓練データ数が減少するほど、UCLとSCLの精度に開きが生じる（左図） • SCLは平均32.21%の精度低下なのに対して、UCLは平均15.78%の精度低下でとどまっている。 13

14.

実験結果教師なしの継続学習では、破滅的忘却に対する頑健性が見られる • SCLでは、序盤のタスク(T0)で特徴量マップがNoisyになっており、破滅的忘却が発生していると言える。 • 一方、UCLは破局的忘却に対して頑健であることが見てとれる。 ResNet18をSplit CIFAR100データセットで継続学習した後の、2ブロック目の特徴量マップ 14

15.

実験結果教師なしの継続学習は分布外(OOD)データセットに対しても汎化 • 全ての分布外データセットについて、教師なしで継続学習したモデルの方がfine-tuning時の精度が高い。 Split CIFAR10で継続学習したモデルを、 OODデータであるMNISTでfine-tuningした結果 15