自己教師あり学習モデル DINO

5.4K Views

December 26, 24

#DINO #自己教師あり学習 #自己蒸留 #画像分類 #表現学習

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22.9K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 21.3K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 18.5K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.1K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 12.1K

各ページのテキスト

2024年度後期輪読会 #11 2024/12/26 DINO 京都大学理学部数理科学専攻 B3 宮本真弥 0

アジェンダ ◼ DINOの概要 ◼ 自己教師あり表現学習 ◼ 自己蒸留 ◼ DINOのアーキテクチャ ◼ 実験結果 1

アジェンダ ◼ DINOの概要 ◼ 自己教師あり表現学習 ◼ 自己蒸留 ◼ DINOのアーキテクチャ ◼ 実験結果 2

DINOの概要自己教師あり表現学習による画像分類・自己蒸留を用いて教師モデルと生徒モデルを学習・学習後k-meansなどで分類するだけで教師あり学習モデルに匹敵する精度を達成画像引用：https://oumpy.github.io/blog/2021/05/dino.html 3

https://oumpy.github.io/blog/2021/05/dino.html

アジェンダ ◼ DINOの概要 ◼ 自己教師あり表現学習 ◼ 自己蒸留 ◼ DINOのアーキテクチャ ◼ 実験結果 4

自己教師あり表現学習ラベルを用いることなく自ら教師を作成し、有用な表現を獲得する学習方法例：SimCLR（対照学習）クリッピングや色ゆがみによってデータを拡張し、同じ画像から生成された画像は近く、異なる画像から生成された画像からは遠い表現が生成されるように学習する。 𝑥 ⊤𝑦 𝑠𝑖𝑚 𝑥, 𝑦 = 𝑥 ∙ 𝑦 𝑠𝑖𝑚 𝑧𝑖 , 𝑧𝑗 exp 𝜏 𝑙 𝑖, 𝑗 = − log 𝑠𝑖𝑚 𝑧𝑖 , 𝑧𝑘 σ2𝑁 𝟏 exp 𝑘=1 𝒌≠𝒊 𝜏 𝑁 1 𝑳= ෍ 𝑙 2𝑘 − 1,2𝑘 + 𝑙 2𝑘 + 1,2𝑘 2𝑁 𝑘=1 画像引用：https://amitness.com/posts/simclr 5

https://amitness.com/posts/simclr

自己教師あり表現学習 BYOL:非対称な二つのニューラルネットを使って表現生成・𝜃は重み, 𝜉は𝜃の移動平均で更新される重み 𝜉 ← 𝜏𝜉 + (1 − 𝜏)𝜃 ・𝑓𝜃 , 𝑓𝜉 はResNet, 𝑔𝜃 , 𝑔𝜉 , 𝑞𝜃 は3層のMLP, onlineモデルがtargetモデルの出力を予測・損失関数は平均二乗誤差・𝜃は誤差逆伝播で更新するが、𝜉は誤差逆伝播で更新しない。例えば移動平均ではなく誤差逆伝播でのみ更新すると表現学習がうまくいかないことが知られている。画像引用：https://arxiv.org/pdf/2006.07733 6

https://arxiv.org/pdf/2006.07733

アジェンダ ◼ DINOの概要 ◼ 自己教師あり表現学習 ◼ 自己蒸留 ◼ DINOのアーキテクチャ ◼ 実験結果 7

自己蒸留蒸留とは訓練済みのモデルの出力に近い出力を出すように小さいモデルを訓練すること・教師モデルと出力分布を近づけるようにモデルの出力間で損失関数をさだめる・普通の正解ラベルとの間にも損失関数を定める ※ほかにもさまざまな方法がある効果・一定の精度を保ちつつサイズの小さいモデルをつくれる・強い正則化効果がある。つまり過学習しにくい・膨大なデータであってもしっかり学習可能画像引用：https://codecrafthouse.jp/p/2018/01/knowledge-distillation/ 8

https://codecrafthouse.jp/p/2018/01/knowledge-distillation/

10.

自己蒸留自己蒸留は同じモデル内で教師モデルと生徒モデルを作る・提案論文ではResNetの浅い層を生徒モデル、深い層を教師モデルとして教師モデルの出力を生徒モデルに学習させ、最終的に浅い層のみを残して推論する。画像引用：https://arxiv.org/pdf/1905.08094 9

https://arxiv.org/pdf/1905.08094

11.

アジェンダ ◼ DINOの概要 ◼ 自己教師あり表現学習 ◼ 自己蒸留 ◼ DINOのアーキテクチャ ◼ 実験結果 10

12.

DINOのアーキテクチャ・画像をAugmentationして入力・生徒モデルと教師モデルは同じモデルを用いる(ViT,ResNetなど）・教師モデルの出力に近づけるように生徒モデルを学習(蒸留) ・損失関数はクロスエントロピー関数・生徒モデルの重み𝜃𝑠 は誤差逆伝播で更新し、教師モデルは生徒モデルの重み𝜃𝑡 は生徒モデルの重み𝜃𝑠 との指数移動平均で更新（自己蒸留）・sharpning,centeringによりモデル崩壊を防ぐ画像引用：https://arxiv.org/pdf/2104.14294 11

https://arxiv.org/pdf/2104.14294

13.

DINOのアーキテクチャ Cropや解像度変更によりglobal画像2枚、local画像を複数枚作って入力・Global画像は解像度224×224、サイズが元画像の50%以上のもので、生徒モデルと教師モデルに1枚ずつ入力・local画像は解像度96×96、サイズが元画像の50%未満のもので、生徒モデルにのみ入力される。 𝑔 𝑔 𝑔 𝑔 𝑥1 , 𝑥2 をglobal画像、𝑥𝑖𝑙 をlocal画像、𝑉 = 𝑥1 , 𝑥2 , 𝑥𝑖𝑙 𝑖=1,2,3… とするとモデルの最適化問題は min 𝜃𝑠 ෍ 𝐻 𝑃𝑡 𝑥 , 𝑃𝑠 𝑥 ′ ෍ 𝑔 𝑔 𝑥∈{𝑥1 ,𝑥2 } 𝑥 ′ ∈𝑉 𝑥 ′ ≠𝑥 𝑃𝑠 , 𝑃𝑡 : 生徒モデルと教師モデルの出力, 𝐻 𝑃𝑡 , 𝑃𝑠 = −𝑃𝑡 log 𝑃𝑠 12

14.

DINOのアーキテクチャ生徒モデルの重みは誤差逆伝播、教師モデルの重みは指数移動平均(EMA)で更新 𝜃𝑡 ← 𝜆𝜃𝑡 + 1 − 𝜆 𝜃𝑠 𝜆は0.996~1の間でコサインスケジュールにより訓練中に変化させる指数移動平均により更新するのは学習を安定させるため。DINOはBYOLからインスピレーションをうけているからそのまま採用している。 ※𝜆がそんなに大きいなら意味ないんじゃって思ったかもしれません。実際に指数移動平均をせず、完全に教師モデルの重みを固定するモデルの研究があります。実際に精度がいいのでコアな部分なのは勾配停止であると考えられます。詳細は以下 https://openaccess.thecvf.com/content/CVPR2021/papers/Chen_Exploring _Simple_Siamese_Representation_Learning_CVPR_2021_paper.pdf https://openaccess.thecvf.com/content/CVPR2021/papers/Chen_Exploring_Simple_Siamese_Representation_Learning_CVPR_2021_paper.pdf https://openaccess.thecvf.com/content/CVPR2021/papers/Chen_Exploring_Simple_Siamese_Representation_Learning_CVPR_2021_paper.pdf 13

https://openaccess.thecvf.com/content/CVPR2021/papers/Chen_Exploring_Simple_Siamese_Representation_Learning_CVPR_2021_paper.pdf

15.

DINOのアーキテクチャ Sharpneing,Centeringによりモデル崩壊を防ぐ Sharpening・・・出力の一様分布化を避けるために softmax関数を改良 𝑔𝜃 𝑥 𝑖 exp 𝜏 (𝑖) 𝑃 𝑥 = 𝑔𝜃 𝑥 𝑘 𝐾 σ𝑘=1 exp 𝜏 ここで𝜏は1より小さい値 Centering・・・教師モデルの出力にバイアスcを加えることで出力の分布を平均に近づける操作。出力が1つだけ高い値をとり続けることを防ぐため。𝑐はゼロベクトルで初期化され、𝑔𝜃𝑡 の出力の指数移動平均で更新される。 𝐵 1 𝑐 ← 𝑚𝑐 + (1 − 𝑚) ෍ 𝑔𝜃𝑡 (𝑥𝑖 ) 𝐵 ↑効果のイメージ図 𝑖=1 画像引用：https://oumpy.github.io/blog/2021/05/dino.html 14