122 Views
January 13, 25
スライド概要
Web Developer / Research on generative models and continual learning
Model Merging in the Layer Space Understanding Robustness of Transformers for Image Classification S. Bhojanapalli, A. Chakrabarti, D. Glasner, D. Li, T. Unterthiner, A. Veit [ICCV’22] SPARSE UPCYCLING: TRAINING MIXTURE-OF-EXPERTS FROM DENSE CHECKPOINTS A. Komatsuzaki, J. Puigcerver, J. L. Thorp, et. al [ICLR’23] SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling D. Kim, C. Park, S. Kim, W. Lee, et. al [NAACL’24 Industry Track] 1
Understanding Robustness of Transformers for Image Classification S. Bhojanapalli, A. Chakrabarti, D. Glasner, D. Li, T. Unterthiner, A. Veit [ICCV’22] ViT の頑健性に焦点をあてた論文 - 入力画像に対する頑健性を ResNet と比較 - 事前学習データセットのサイズ,モデルサイズが頑健性に影響を与えることを報告 - ViT の Shape-Texture Bias の調査 - Model Perturbations (モデルの構造変化 ) に対する頑健性の調査 2
Preliminaries アーキテクチャ 事前学習データセット - ILSVRC-2012 (1.3M images) / ImageNet-21K (12.8M images) / JFT-300M (300M images) - 全て ILSVRC-2012 でファインチューニングする 評価データセット - ImageNet-C Common Corruption への頑健性 - ImageNet-R Domain Shift への頑健性 - ImageNet-A Natural Adversarial Examples への頑健性 3
入力画像に対する頑健性 事前学習データセットのサイズが頑健性に影響を与える - データセットが大きい場合に限り,ResNet よりも ViT のほうが頑健 - データセットが小さいと ViT のモデルサイズに関わらず ResNet のほうが頑健 Common Corruption Domain Shift Natural Adversarial 4
敵対的頑健性 FGSM では ResNet のほうが頑健,PGD では ViT のほうが頑健になった - ViT は共通して1つの linear patch embedding layer を持っており FGSM で使われる single-iteration gradientsで良い攻撃パターンを見つけやすいのでは? 5
Shape-Texture Bias 人間は Shape Bias を持っているが,(Shape を見て物体を判別している) ImageNet で学習した CNN は Texture Bias を持っていることが知られている Texture Bias を減らすことで頑健性が向上する Conflict Stimuli Benchmark* で評価 - ViTのほうが Texture Bias が小さい - パッチサイズが大きい方が Texture Bias が小さい *48種類のTextureを持つ160種類の物体からなるデータセット.Textureに依存しない表現を学習する 6
Model Perturbationsに対する頑健性 ViT 内の情報の流れを分析するためにレイヤーごとにトークン間の相関を計算 All Tokens 後半のレイヤー間に強い相関がある 冗長性が多く含まれる CLS Tokens 序盤のレイヤー間に強い相関がある ViT は 前半のレイヤーで特徴表現を学習し, 後半のレイヤーでは特徴表現を変えずに CLS token を洗練させるように振る舞う 7
Redundant Layerの除去に対する頑健性 特定の Transformer Block を除去した場合 - 後半のレイヤーを除去したほうが予測精度への影響が小さい - 大きいデータセットで事前学習したモデルのほうが予測精度への影響が大きい Transformer Block内の特定のレイヤーを除去した場合 - MLP BlockよりもSelf-Attn Layerのほうが予測精度への影響が大きい 8
Redundant Layerの除去に対する頑健性 いくつかの Transformer Block をランダムに選んで除去した場合 - 小さいモデルのほうが予測精度への影響が大きい - 大きいデータセットで事前学習したモデルのほうが予測精度への影響が大きい 小さいモデル / 大きいデータセットで事前学習したモデルは比較的冗長性が少ない 9
まとめ - ViT の頑健性は事前学習データセットに強く影響される - ViT は 前半のレイヤーで特徴表現を学習し, 後半のレイヤーでは特徴表現を変えずにCLS token を洗練させるように振る舞う - ViT の後半のレイヤーには冗長性が多く含まれる 10
SPARSE UPCYCLING: TRAINING MIXTURE-OF-EXPERTS FROM DENSE CHECKPOINTS A. Komatsuzaki, J. Puigcerver, J. L. Thorp, et. al [ICLR’23] LLMのスケールアップの手法 - ゼロからLLMを学習するのではなく,ベースモデルにレイヤーを付け加えて学習する 少ない計算コストでモデルをアップグレードする(model upcycling) ための手法を提案 - Transformer の MLP ブロックを MoE (Mixture of Experts) ブロックに置き換える 11
手法 - ベースモデルの MLP ブロックを E 個コピーし,MoE ブロックを構成 - Router ネットワークをスクラッチで学習し,どのExperts を使うか決める 12
結果 JFT-300M で事前学習した ViT をさらに JFT-300M で継続学習 - Dense は元のモデルを継続学習したもの - Upcyclingが提案手法で継続学習したもの 提案手法を用いたほうが Validation Acc が上がりやすい 13
結果 JFT-300M で事前学習した ViT を ILSVRC2012 で FineTune - Dense は元のモデルを FineTune したもの - Upcyclingが提案手法で FineTune したもの 提案手法を用いたほうが 効率的に FineTune できる 14
SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling D. Kim, C. Park, S. Kim, W. Lee, et. al [NAACL’24 Industry Track] - LLMのスケールアップの手法として Depth Up-scaling を提案 - Router ネットワークのような追加のモジュールを学習しない - マージすると一時的に精度が下がるがContinual Pretraining によってすぐに回復する 15
結果 Instruction tuning QA 形式のデータセットで学習 Alignment tuning 人間や強力なAIで修正する 16