【DL輪読会】Introduction of Model Merging

11.9K Views

February 06, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Introduction of Model Merging Jeong Seong Cheol, Matsuo-Iwasawa Lab, M2 http://deeplearning.jp/

2.

本日の発表内容 主要なモデルマージ手法についてざっくりと紹介する 目的:モデルマージの研究仲間を増やしたい おことわり:あくまで私の理解でまとめた資料のため、表現や正確性が完全ではないかもしれません。モデルマージに興味を持ってもらうための導入資料として捉えてください

3.

参考文献 [2]Microsoft bought twice as many Nvidia Hopper GPUs as other big tech companies - report - DCD https://www.datacenterdynamics.com/en/news/microsoft-bought-twice-as-many-nvidia-hopper-gpus-as-other-big-tech-companies-report/ [3]Lingling Xu, Haoran Xie, Si-Zhao Joe Qin, Xiaohui Tao, and Fu Lee Wang. “Parameter-efficient fine-tuning methods for pretrained language models: A critical review and assessment”. In: arXiv preprint arXiv:2312.12148 (2023). [4]Zeyu Han, Chao Gao, Jinyang Liu, Jeff Zhang, and Sai Qian Zhang. “Parameter-efficient fine-tuning for large models: A comprehensive survey”. In: arXivpreprint arXiv:2403.14608 (2024). [5]Jianping Gou, Baosheng Yu, Stephen J Maybank, and Dacheng Tao. “Knowl-edge distillation: A survey”. In: International Journal of Computer Vision 129.6(2021), pp. 1789–1819. [6]Xiaohan Xu, Ming Li, Chongyang Tao, Tao Shen, Reynold Cheng, Jinyang Li,Can Xu, Dacheng Tao, and Tianyi Zhou. “A survey on knowledge distillation of large language models”. In: arXiv preprint arXiv:2402.13116 (2024). [7]Xunyu Zhu, Jian Li, Yong Liu, Can Ma, and Weiping Wang. “A survey on model compression for large language models”. In: Transactions of the Association for Computational Linguistics 12 (2024), pp. 1556–1577. [8]Gabriel Ilharco, Marco Tulio Ribeiro, Mitchell Wortsman, Ludwig Schmidt, Hannaneh Hajishirzi, and Ali Farhadi. “Editing models with task arithmetic”. In: The Eleventh International Conference on Learning Representations. 2023. url: https://openreview.net/forum?id=6tOKwf8-jrj. [10]Mitchell Wortsman, Gabriel Ilharco, Samir Ya Gadre, Rebecca Roelofs, Raphael Gontijo-Lopes, Ari S Morcos, Hongseok Namkoong, Ali Farhadi, Yair Carmon, Simon Kornblith, et al. “Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time”. In: International conference on machine learning. PMLR. 2022, pp. 23965–23998. [11]Michael S Matena and Colin A Raffel. “Merging models with fisher-weighted averaging”. In: Advances in Neural Information Processing Systems 35 (2022), pp. 17703–17716. [12]Xisen Jin, Xiang Ren, Daniel Preotiuc-Pietro, and Pengxiang Cheng. “Dataless knowledge fusion by merging weights of language models”. In: arXiv preprint arXiv:2212.09849 (2022). [13]Yuyan Zhou, Liang Song, Bingning Wang, and Weipeng Cheng. “MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic”. In: Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. Ed. by Yaser Al-Onaizan, Mohit Bansal, and Yun-Nung Chen. Miami, Florida, USA: Association for Computational Linguistics, Nov. 2024, pp. 1711–1724. doi: 10.18653/v1/2024.emnlp-main.102. url: https://aclanthology.org/2024.emnlp-main.102/. [14]Prateek Yadav, Derek Tam, Leshem Choshen, Colin A Raffel, and Mohit Bansal. “Ties-merging: Resolving interference when merging models”. In: Advances in Neural Information Processing Systems 36 (2024). [15]Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, and Yongbin Li. “Language models are super mario: Absorbing abilities from homologous models as a free lunch”. In: Forty-first International Conference on Machine Learning. [16]Yang, Enneng, et al. "Model merging in llms, mlms, and beyond: Methods, theories, applications and opportunities." arXiv preprint arXiv:2408.07666 (2024). [17]sakana.ai, 進化的なアルゴリズムによる基盤モデルの構築, 2024/03/21, 最終閲覧2025/02/06 [18]Akiba, Takuya, et al. "Evolutionary optimization of model merging recipes." Nature Machine Intelligence (2025): 1-10. 資料を作るにあたって参考にさせていただいたスライド ・綱島秀樹, アプリケーションから知るモデルマージ, 2024/12/18, 最終閲覧2025/02/06 ・Takuya Akiba, Evolutionary Optimization of Model Merging Recipes, 2024/04/17, 最終閲覧2025/02/06 ※文献番号いくらかとんでますが資料中では整合性とれています

4.

Agenda TOPIC 1 基盤モデル開発とモデルマージ TOPIC 2 モデルマージとは? TOPIC 3 主要なマージ手法 TOPIC 4 リサーチクエスチョン

5.

Agenda TOPIC 1 基盤モデル開発とモデルマージ TOPIC 2 TOPIC 3 TOPIC 4

6.

基盤モデル開発とモデルマージ 基盤モデル開発には莫大なコストが必要である 2024年におけるNVIDIA H100 GPUの購入数[2] Microsoft 48万5000基 ByteDance Tencent 約23万基 Meta 22万4000基 xAI/Tesla 約20万基 約500万円~/1基 産総研ABCI3.0:6,128基のH200 GPUを2025年1月より運用開始 0 10万 20万 30万 40万 50万

7.

基盤モデル開発とモデルマージ 公開されている学習済みモデルを活用する低コストな基盤モデル開発手法の研究が進められている • Parameter-efficient tuning[3,4]:大規模言語モデル(LLM)の一部のパラメータのみを更新して、効率的に特定タスク特化型モデルを作成 • 知識蒸留[5,6]:大きな教師モデルの知識を小さな生徒モデルに転移 • モデル圧縮[7]:量子化や枝刈りによって、モデルサイズや計算量を削減 • モデルマージ:複数の学習済みモデルを1つに統合して汎用的なモデルを作成

8.

基盤モデル開発とモデルマージ 公開されている学習済みモデルを活用する低コストな基盤モデル開発手法の研究が進められている • Parameter-efficient tuning[3,4]:大規模言語モデル(LLM)の一部のパラメータのみを更新して、効率的に特定タスク特化型モデルを作成 • 知識蒸留[5,6]:大きな教師モデルの知識を小さな生徒モデルに転移 • モデル圧縮[7]:量子化や枝刈りによって、モデルサイズや計算量を削減 • モデルマージ:複数の学習済みモデルを1つに統合して汎用的なモデルを作成 基盤モデル開発 • 大規模な学習データ • 数百~数万基のGPU 公開モデルを流用 モデルマージによる汎用モデル開発 • データ不要(もしくはごく少量) • GPU不要(もしくは数基)

9.

Agenda TOPIC 1 TOPIC 2 モデルマージとは? TOPIC 3 TOPIC 4

10.

モデルマージとは? 複数の学習済みモデルを1つに統合して汎用的なモデルを作成する手法のこと Model 1 Model 2 ... Model T Merge Final Model Task 1 Task 2 Task T (c) Model Merging [16]より引用

11.

モデルマージとは? モデルマージができることは多岐にわたる • アンサンブル(1モデルに統合しているのでアンサンブルより計算コストが低い) • 複数の能力の統合(例:日本語LLM+英語VLM=日本語VLM) • 特定の能力の削除(例:毒性モデルA-(毒性モデルB-良性モデルB)=良性モデルA) • 同じモデルの異なる訓練チェックポイントをマージすることで汎化性能の向上 • 破滅的忘却の抑制(事前学習モデル+Fine-tuneモデル) • 上記すべて学習不要 以下を参考にした Takuya Akiba, Evolutionary Optimization of Model Merging Recipes, 2024/04/17, 最終閲覧2025/02/06 綱島秀樹, アプリケーションから知るモデルマージ, 2024/12/18, 最終閲覧2025/02/06

12.

モデルマージとは? 重みレベルのマージとレイヤーレベルのマージの2種類が主流である Model A New Model Model B Layer1 Layer1 Layer1 Layer2 Layer2 Layer2 Layer3 Layer3 Layer3 (a)重みレベルのマージ(アーキテクチャ同じモデル) Model A New Model Model B Layer1 Layer1 Layer1 Layer2 Layer2 Layer2 Layer3 Layer3 Layer3 (b)レイヤーレベルのマージ Model A New Model Model B Layer1 Layer1 Layer1 Layer2 Layer2 Layer2 Layer3 Layer3 Layer3 (c)ハイブリットなマージ ->Evolutionary model merge[18] [17]を参考に自作

13.

Agenda TOPIC 1 TOPIC 2 TOPIC 3 主要なマージ手法 TOPIC 4

14.

主要なマージ手法 複数の学習済みモデルの重みを平均すると頑健なモデルになる Avg. accuracy on 5 distribution shifts 55 50 45 40 35 75 76 77 78 79 80 81 ImageNet Accuracy (top-1, %) Greedy Soup Uniform Soup Initialization Various hyperparameters Model soups[10] (2022)

15.

主要なマージ手法 Task Arithmeticは最近のモデルマージ手法のベースになっている Task Arithmetic[8] Neural Network Train Pre-trained Model Fine-tuning Domain A Domain B Domain C Fine-tuned Model

16.

主要なマージ手法 Task Arithmeticでタスクベクトルという概念が提唱された Task Arithmetic[8] Fine-tuned Model Pre-trained Model タスクベクトル (Fine-tuningの差分パラメータ) - = - = - =

17.

主要なマージ手法 学習で得た差分パラメータの重み付き和をとることで能力を統合する Task Arithmetic[8] Pre-trained Model 重み係数 (スカラー) タスクベクトル λA × + λB × λC × = マージモデル Domain A,B,Cの 知識を持ったモデル

18.

主要なマージ手法 重み係数はマージモデルの性能を左右する Task Arithmetic[8] 重み係数の 決め方が重要 Pre-trained Model λA × + λB × λC × = マージモデル Domain A,B,Cの 知識を持ったモデル

19.

主要なマージ手法 モデルマージのベースラインとしてよく見るこれらの手法は重み係数の決め方を工夫している Weight Averaging 重みの平均(等しい重み係数) θ* = 1/T Σ k=1 to T θk Fisher Merging[11] フィッシャー情報行列に基づいて重み係数を決める θ*(j) = Σ M i=1 λi Fi(j) θ(j) / Σ M i=1 λi Fi(j) , where F : フィッシャー情報行列 RegMean[12] 重み係数(内積行列)にL2 正則化項を加える WM(j) ← (Σ i∈K G~i(j))-1 Σ i∈K (G~i(j)Wi(j)) , where G~i(j) : 内積行列 MetaGPT[13] タスクベクトルのL2 ノルムに基づいて重み係数を決める θ* = θ0 + Σ k=1 T λk τk , where λt = ||τt||^2 / Σ k=1 T ||τk||^2

20.

主要なマージ手法 タスクベクトルそのものに工夫をするマージ手法も主流となっている Task Arithmetic[8] 重み係数 (スカラー) タスクベクトル λA × + λB × λC × = マージモデル Domain A,B,Cの 知識を持ったモデル

21.

主要なマージ手法 重み係数とタスクベクトルの工夫を組み合わせるのがトレンド Weight Averaging 重みの平均(等しい重み係数) Fisher Merging[11] フィッシャー情報行列に基づいて重み係数を決める RegMean[12] 重み係数(内積行列)にL2 正則化項を加える MetaGPT[13] タスクベクトルのL2 ノルムに基づいて重み係数を決める 重み係数の 決め方 λA × λB × λC × タスクベクトル のスパース化 TIES-MERGING[14] DARE(Drop and RE-scale)[15]

22.

主要なマージ手法 タスクベクトルをマージ前にスパースにしてやることで競合や干渉を抑制する TIES-MERGING[14] 1. Trim) 絶対値が大きい上位20%のパラメータ以外をドロップアウト 2. Elect Sign) パラメータの絶対値の大小を考慮してマージ後パラメータの符号を決定 3. Disjoint Merge) 競合・干渉が起きないようにマージ DARE(Drop and RE-scale)[15] タスクベクトルをp%ランダムにドロップアウトして、残ったパラメータを1/p倍に増幅してから足すと、ファインチューニングモデルの性能が維持されることを証明 タスクベクトルをスパースにして増幅してから足す (DAREすると)干渉がおきにくい タスクベクトルをそのまま足すと パラメータの干渉がおきやすい

23.

主要なマージ手法 Evolutionary model mergeは重み係数とレイヤーの組み合わせを自動探索する Evolutionary model merge[18] 1~3を繰り返す 1.マージ 2.性能評価 3.進化的アルゴリズムで探索 (c)ハイブリットなマージ 線形補完の重み係数 (a)重みレベルのマージ レイヤーの組み合わせ (b)レイヤーレベルのマージ

24.

Agenda TOPIC 1 TOPIC 2 TOPIC 3 TOPIC 4 リサーチクエスチョン

25.

リサーチクエスチョン よくわかっていないことだらけでおもしろい 重みレベルのマージ • 同じアーキテクチャでないとマージできない • マージするモデルのパラメータが違いすぎると基本マージは失敗する ❌事前学習モデルがことなるファインチューニングモデル ❌事前学習モデル同士のマージ ❌事前学習モデルは同じでもファインチューニングでパラメータが変わりすぎてしまったモデル レイヤーレベルのマージ (発表者のリサーチ不足ではありますが) • Evolutionary model mergeのように頑張って探索以外にベストプラクティスがない?どのレイヤーを組み合わせるかは、結局は組み合わせ最適化問題? 重みレベルでもレイヤーレベルにも共通したクエスチョン • モデルマージの理論的な研究は少ない?(発表者のリサーチ不足ではあります)

26.

モデルマージの研究に興味がある人 一緒にやりましょう [email protected]