【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

60.7K Views

March 29, 24

#進化計算 #モデルマージ #大規模言語モデル #自然言語処理 #機械学習

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 65.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 46.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.9K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 37.7K

各ページのテキスト

DEEP LEARNING JP Evolutionary Optimization of Model Merging Recipes [DL Papers] モデルマージの進化的最適化 Takayuki Yamamoto（LY Corporation, Waseda Univ. Kawahara Lab. D1） http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化著者発表⽇ 2024/3/19 (arxiv) 概要既存のオープンな基盤モデルを複数マージし⾼性能なモデルを⽣成する⼿法で、進化的アルゴリズムで⾃動最適化している選定理由基盤モデルの新たなパラダイムの可能性が⾼い為実装 https://github.com/SakanaAI/evolutionary-model-merge/ ※提案⼿法で構築した基盤モデルと評価スクリプト ※出典記載の無い図表は本論⽂からの引⽤ 2

https://github.com/SakanaAI/evolutionary-model-merge/

全体概要 3

複数の基盤モデルの強みをマージする事で⾼性能なひとつのモデルを作る⼿法概要強みの部分多様な能⼒の３つの基盤モデル強みの部分強みの部分強みをマージ⾼い能⼒の基盤モデル完成 https://sakana.ai/evolutionary-model-merge-jp/ 4

https://sakana.ai/evolutionary-model-merge-jp/

バックプロバゲーション不要でコスト効率が⾮常に⾼い⼿法概要マージプロセス⾃体は GPU不要 https://sakana.ai/evolutionary-model-merge-jp/ 5

https://sakana.ai/evolutionary-model-merge-jp/

⼈類の進化や組織の仕組みを模倣していると感じる概念 Sakana ai プロジェクトページより抜粋はじめに⼈類の知性は、個ではなく、集合として実現されています。我々⼈類は、個⼈としては、実のところそれほど知的でも有能でもありません。私たちの社会や経済は、異なる専⾨分野や専⾨知識を持つ多様な個⼈で構成される様々な機関の存在を前提としています。この膨⼤な集合知が、私たち⼀⼈⼀⼈の個性を形作っています。そして、私たちは各々異なる⼈⽣を歩み、唯⼀無⼆の存在となり、今度は⾃らが種となることで、絶え間なく拡⼤する集合知に貢献していくのです。 https://sakana.ai/evolutionary-model-merge-jp/ 6

https://sakana.ai/evolutionary-model-merge-jp/

あるベンチマークで70BモデルやGPT-3.5を上回る性能評価（LLM）⽇本語数学能⼒マージ元 LLM 提案⼿法競合モデル 7

VLMや（次回公開予定の）⽇本語画像⽣成モデルにも本件⼿法を活⽤ Vision Laguage Model 英語のVLM (LLaVa-1.6-Mistral-7B) ⽇本語のLLM (Shisa Gamma 7B v1) https://sakana.ai/evolutionary-model-merge-jp/ 8

https://sakana.ai/evolutionary-model-merge-jp/

具体的内容 9

10.

モデルマージングは、LLMコミュニティーにおける最近の実験的⼿法背景モデルマージライブラリ “mergekit” https://github.com/arcee-ai/mergekit ←パラメータマージ ←フランケンマージに使われる 10

https://github.com/arcee-ai/mergekit

11.

既存⼿法の課題 n 既存のモデルマージングのアプローチは、直感やドメイン知識に依存 n “フランケンマージング”（複数LLM内のレイヤー単位のルーティング最適化）の探求は不⼗分 11

12.

解決した課題 n オープンソースLLMを組み合わせることで、ユーザーが指定した能⼒を持つ新しい基盤モデルを⾃動的に作成する⼀般的な⽅法を提案 n 進化的アプローチを提案することで、モデルマージングに関わる複雑さを⾃動化し、新しいモデル組み合わせの発⾒を可能に n 進化的モデルマージングの⼿法が、勾配ベースの学習を必要としない為、GPU不要 12

13.

貢献 1. ⾃動モデル合成: 新しい基盤モデルを創出するために、ユーザー指定の機能を持つ多様なオープンソースモデルの最適な組み合わせを⾃動的に発⾒する進化的モデルマージ⽅法を導⼊ 2. クロスドメインマージング: 異なるドメイン（例えば、⾮英語⾔語と数学、⾮英語⾔語とビジョン）からのモデルを統合する新しい⽅法を発⾒できることを実証 3. 最先端のパフォーマンス: 数学的推論能⼒を持つ⽇本語LLMと⽇本語のビジョン・⾔語モデル（VLM）を⾃動⽣成することで、明⽰的な最適化なしに様々なベンチマークで最先端のパフォーマンスを達成 4. ⾼効率と驚くべき汎⽤性: 7BパラメータのLLMが、ベンチマークデータセットで以前の70Bパラメータの⽇本語LLMのパフォーマンスを上回った 5. ⽂化を意識したVLM: ⽇本特有の⽂化コンテンツを扱う能⼒を⽰し以前の⽇本語VLMを上回る結果 6. オープンLLM化：2つの最先端の⽇本語基盤モデル（EvoLLM-JPとEvoVLM-JP）を公開 13

14.

PSとDFSの２つの⼿法を組み合わせ、進化的最適化でモデルの強みをマージする提案⼿法全体像 Q1: ミシカは短パンを3枚、⻑ズボンを3枚、靴を3⾜買った。… 全部でいくらかかった？ Q2: シンシアは毎晩アイスクリームを1⼈前⾷べる … 60⽇後、彼⼥はアイスクリームにいくら使っただろうか？パラメータマージ PS ü タスクベクトルマージ TIES-MergingをDARE ⼿法で強化 ü CMA-ESで最適化データフロー最適化 DFS 基盤モデル B 基盤モデル A ü レイヤーON/OFF ü レイヤー間ウェイト ü CMA-ESで最適化両⼿法の最適組み合わせ ü 2モデルに制限 ü 多⽬的遺伝的アルゴリズムNSGA-II等でDFS最適化する 14

15.

探索空間を絞るため各層を重ね、どの層をON/OFFするかで最適化提案⼿法経路 or NOT 1の場合経路 =1 DFS（データフロー最適化）推論パスステップ t t=1 =0 i:モデル番号 j:レイヤー(層)番号 i=1, j=1 i=1, j=2 =1 t=2 =1 t=3 n 32層レイヤー総数：M i=2, j=1 レイヤー間接続ウエイト 32層 Mはレイヤー番号(from,to) n 上記を r 回繰り返し積むとしてニューラルネットでやる。θがパラメータ ※当図は輪読者が論⽂の図を再構成して作成したもの⼿法 ü 基盤モデルA,Bの２つ ü A:32層→B:32層と積み重ねる(r回) ü 各層経路に含めるorNOTをℐ で指定 ü 各層の接続にはウェイトWを挟む実験設定 ü M=64, r=3 よって T=192 ü Trainデータ末尾200をdevにし最適化 ü EvoJAXフレームワークでCMA-ES ü ℐ と𝒲を⼈⼝128で100世代で進化的最適化 15

16.

全体構造関係図⼿法理論パラメータの進化的最適化処理フロー⽇本語 LLM 英-数学 LLM(1) 英-数学 LLM(2) PS:パラメータマージ PS:パラメータマージ Task演算 DARE “DARE”+”TIES-Merging”⼿法を”CMA-ES”で最適化 TIES-Merging マージ CMA-ES ⼿法実装Optuna DFS:データフロー最適化 NSGA-II等マージ後 LLM 元の⽇本語 LLM Optuna実装有提案⼿法ロジック (*2) DFS:データフロー最適化 “提案⼿法ロジック”で”マージ後LLM”ベースで最適化(*1) ※当図は輪読者が理解促進の為作成 *1：DFSの最適化がNSGA-II等なのかCMA-ESなのか論⽂に明記なし *2：NSGA-IIの実装がOptunaにあるが、どの実装かの記載は論⽂になし完成したLLM 16

17.

PSとDFSはCMA-ES⼿法で進化的最適化を⾏う関連研究 CMA-ES n n https://www.youtube.com/watch?v=DR73g66sdUc 「Kibo-chan channel動く⼈形キボウちゃんチャンネル」より引⽤。該当箇所のみ抜粋編集⼿法 ü PS : CMA-ES ü DFS : CMA-ES ü PS+DFS: NSGA-II等実装 ü PS : Optune ü DFS : EvoJAV ü PS+DFS: OptunaはNSGA-II対応 ※論⽂に明記無し 17

https://www.youtube.com/watch?v=DR73g66sdUc

18.

“タスク演算”⼿法をモデルマージに活⽤関連研究タスク演算：パラメータマージ概念の基礎 ”Editing Models with Task Arithmetic”, ICLR2023, University of Washington, Microsoft Research, Allen Institute for AI SFT後パラメータ Taskベクトル τ プレトレーニングパラメータ忘却 Taskベクトルを減算マルチタスク学習 Word2vec的ベクトル加減算 18

19.

各モデルのタスクベクトルの⼤半をDropoutしスケールしてからマージしパラメータ⼲渉を抑⽌関連研究 DARE “Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch”, 2023, Alibaba n n DARE⼿法のポイント ü SFTのタスクベクトルをDropout ü Dropoutで残った部分をスケールUP ü 疎な更新差分でも性能変わらずモデルマージへのDAREの活⽤ ü DARE後の更新差分でマージ ü 疎な状態でマージ→⼲渉が少ない 19

20.

90〜99%Dropoutしても精度は維持（特にモデルサイズが⼤きい場合）関連研究 DARE “Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch”, 2023, Alibaba 90〜99% Dropout可能特にモデルが⼤きい程⾼い率可能 DAREを使いパラメータマージした結果⾼い精度を実現 20

21.

Dropout率の補数の逆数でスケールUPさせる事で精度が維持できる関連研究 DARE “Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch”, 2023, Alibaba DARE 数式具体的理解イメージ ※輪読者作成 Dropout率ベクトル SFT更新差分 Dropout後の SFT更新差分タスクベクトルアダマール積（要素ごとの積）スケールUP 21

22.

主要なベクトル信号にフィルタし⼲渉を減らしている関連研究 TIES-Merging “TIES-MERGING: Resolving Interference When Merging Models”, 2023 異なるタスクでSFTされた各モデル逆符号は削除各モデルのタスクベクトル値のTop-k%を残して他を削除符号は最も値が⼤きいものにその符号の値全てを平均する 22

23.

進化的最適化と評価に利⽤データセット⽤途データセット備考進化的検索 GSM8k(test)の内MGSMに含まれていない残り1069 サンプルを⽇本語に翻訳して利⽤ GSM8k(train)は数学モデルが既に学習に使っている為、これを使うと適切に最適化できなかったテスト MGSM（多⾔語⼩学算数) https://paperswithcode.com/dataset/mgsm GSM8kデータセットのサブセットの多⾔語翻訳⽇本語のテストセットは250サンプル 23

https://paperswithcode.com/dataset/mgsm

24.

進化的最適化⼿法が３つのモデルの能⼒を引き出している分析 PS⼿法 n n n ⽇本語 LLM 数学特化英語LLM 数学特化英語LLM PS(モデルマージ)元モデル ü ⽇本語LLMと、数学特化の英語LLM２種 ü 全モデルMistral-7Bベース（アーキテクチャが同じ）指標 ü Density：DAREアルゴリズムの、各ソースモデルから取り⼊れるパラメータの割合。Dropout率の補数 ü Weight：TIES-Merging アルゴリズムの、Trim top-k% で残った率分析 ü Weightの⼀様性が３つのモデル全ての重要性を⽰している ü ⽇本語LLMの⾼いDensityが重要な貢献を⽰している ü DAREは広範囲にSFTされた元の性能が低下する場合があるが、進化的最 Mistral-7B-v0.1 適化で⽇本語LLMのDensityを⾼めこの問題に対処している ※指標の定義は論⽂に明記されておらず輪読者の推測が含まれています 24

25.

２つのモデルの層毎のデータフローと接続ウェイトを最適化し60層強のデータフローとなった y軸：レイヤーIndex 分析 DFS⼿法 PSマージモデル⼤きさ =𝑊!" x軸：推論ステップ n DFS元モデル：PS後モデルと⽇本語LLMモデルの２モデル [ただしOurs(DFS)は⽇本語LLM+Abel] n DFS後モデル：推論パスの開始と終了はPS後モデルの最初と最後のトランスフォーマー層によって定義 n 分析・DFS進化的最適化が進む程、PSの中間層全層の後のデータフローが切り替わっていくのが分かる 25

26.

VLMモデル画像×⾔語 26

27.

VLMのLLM部のみに着⽬し⽇本語LLMとVLMを本研究の⼿法PSでマージ⼿法 VLM 【LLaVA-1.5】”Improved Baselines with Visual Instruction Tuning”, 2023 のモデルアーキテクチャ図より画像⼊⼒⾔語インストラクション⾔語⽣成出⼒ n n VLMモデルマージのアーキテクチャ ü LLM部のみに着⽬ ü VLコネクターや画像エンコードはfixed ü PS(パラメータマージ)のみソースモデル ü ⽇本語LLM(shisa-gamma-7b-v1) ü VLM(LLaVA-1.6-Mistral-7B) 両モデル共Mistral-7Bベース 27

28.

⽇本の⽂化的な理解が必要なタスクにおいて競合モデルを凌駕している結果 VLM ⽇本語LLM(shisa-gamma-7b-v1) + VLM(LLaVA-1.6-Mistral-7B) 28

29.

まとめ 29

30.

まとめ（ Discussion and Future Work ） n 進化的最適化によるコスト効率の良いマージ⼿法の⼀般化の提案 n ⾮英語⾔語と英語数学、⾮英語⾔語と英語VLM、異ドメインのマージが成功 n 今後リーダーボードタスクに過剰適合したモデルを⽣み出すと予測 n 特定のベンチマーク最適化から⼀歩離れる事が⾼い汎化性能を⽣むと考えている n このような新たな⼀般化がAIの次の⼤きな進歩を解き放つ n カスタムモデルを⼀から開発することが本当に必要なのか？という問いかけ 30

31.

感想 n プレトレーニングは⾼コストな為、パラダイムシフトが起こる可能性 n ⽣物の誕⽣と、⽣存中の学習になぞらえられそう n 即ち、モデルマージで”誕⽣”させ、SFTやLHFで⽤途向け”学習”の繰り返し n 各モーダルの特定データ学習が⼩型モデルで学習できて、それらをマージして出来上がりが⼤型マルチモーダルモデルだとなお⾯⽩そう 31

32.

Thank you. 32