【人工知能・深層学習】論文紹介：Towards Modular LLMs by Building and Reusing a Library of LoRAs

2.1K Views

November 02, 24

#論文紹介 #deeplearning #人工知能 #深層学習 #lora #大規模言語モデル #ファインチューニング #LoRA #モデル圧縮 #効率化

スライド概要

【学生の情報】：M2 細田大翔
【論文の学術分野】：Machine Learning; Computation and Language
【原論文のリンク】：https://arxiv.org/abs/2405.11157
【論文投稿日付】：2024/05/18
【コメント】：ICML2024の採択論文

【概要】：LLMの効率的な適応手法が増加する中、すでに訓練されたLoRAなどのアダプターを再利用し、新しいタスクでの性能向上を目指す研究が進められています。本研究では、新しいLoRAライブラリの構築手法とRouting手法を提案し、これらを検証することで、LoRAの再利用可能性を強調しています。

【注意書き】：研究室内で発表に利用したものです。解釈に誤りがある可能性がありますので、ご参考いただく際はご注意ください。資料の転用は禁止しております。

Taki lab.

@8328889256

スライド一覧

立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。ご興味をお持ちの方は、HPをご確認ください。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【人工知能・深層学習】レビュー：モダリティギャップの研究紹介

論文紹介 deeplearning 深層学習人工知能マルチモーダルモダリティギャップ

Taki lab. 4.9K

【人工知能・深層学習】論文紹介：Vision-Language Models Create Cross-Modal Task Representations

deeplearning 論文紹介深層学習人工知能 llm in-context learning task vector vlm

Taki lab. 4.7K

【人工知能・深層学習】論文紹介：DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration

論文紹介 deeplearning 人工知能深層学習 vlm

Taki lab. 2K

【人工知能・深層学習】論文紹介：You Only Need Less Attention at Each Stage in Vision Transformers

論文紹介 deeplearning 人工知能深層学習 vision transformer

Taki lab. 1.7K

【人工知能・深層学習】論文紹介：SeedFormer: Patch Seeds based Point Cloud Completion with Upsample Transformer

論文紹介 deeplearning 深層学習 point cloud 3d点群

Taki lab. 1.5K

【人工知能・深層学習】論文紹介：カーネルサイズ100を超えるCNN - PeLK

論文紹介 deeplearning 人工知能 cnn pelk 深層学習

Taki lab. 1.4K

各ページのテキスト

論文紹介 Towards Modular LLMs by Building and Reusing a Library of LoRAs

目次論文概要この論文の概要を紹介事前知識この論文を読むにあたり必要な知識をインプット研究方針この研究分野の目的や先行研究や方向性を紹介手法提案手法を紹介実験実験条件を紹介結果実験結果を紹介 1

論文概要論文タイトル Toward Modular LLMs by Building and Reusing a Library of LoRAs 目標 Adapterを再利用することで新しいタスクに対して性能を向上させたい成果 MBC: 新たなLoRA Libraryの構築手法 Arrow: 再訓練を必要としないLoRA Routing手法 2

事前知識 Intrinsic Dimension 新たなタスクにモデルを適合させる際に、自由度 = すべてのパラメータ数として最適化せずとも高い性能を導入することで、部分空間での最適化を行う実験 10^4 〜10^5オーダーParamのモデルが 10^2オーダーのParamで元精度の90%の精度を達成もしかして、新たなタスクへの適合って全パラメータ更新の必要はない？ 3

事前知識 Adapter 大規模モデルのパラメータを固定したままモデルの中に小さな追加ネットワークを追加して訓練する手法 h h Pretrained Weight W Pretrained W Weight Adapter x x Full Fine-Tuning Adapter すべてのパラメータを訓練 →計算コスト大 Adapterのみタスクに適合するように訓練 →計算コスト小効率的に学習！ 4

事前知識 Low-Rank Adapter Adapterに対して、低ランクの補正を行う h B D Pretrained Weight W D A D r 2つの小さな行列をAdapterとして追加 ※ sはスケーリング, r << D LoRAは指定の訓練がされる r D x LoRA →指定されたランク r に基づいた低次元の自由度に従った訓練を行う

事前知識 Routing 入力に対して、もっともらしいModuleを割り当てる手法 h ＜Routingとは？＞ p = 0.6 Softmax(Wx) Top1 Router W 複数の異なるExpert Adapterが並列に存在しているときに、入力データ(Tokenごと)に対してどのExpert Adapterに割り当てられるかを決定する。 Routing行列は複数のExpertのうち、どれを選ぶかの確率分布を与えるものと解釈できる。 x 6

研究方針 Private Adapter LoRA Libraryの構築 1 Task : 1Adapter で訓練を行う Shared Adapter Domain D1 Domain D2 Domain D3 All Task : 1Adapter で訓練を行う Poly / MHR Adapter Multi-Taskデータセット K Task : 1Adapter で訓練を行うタスクとAdapterが結びついてない →再利用が難しい MBC どのようにLoRAを構築すれば最適なのだろう？ New Task Cluster : 1Adapterで訓練を行う LoRAパラメータ類似性を元にタスクの類似性を判断しClusterへ 7

研究方針 LoRA Libraryの構築 Private Adapter / Shared Adapterの解説 Library Library Domain D1 Domain D2 Domain D3 Domain D1 Domain D2 Domain D3 Private Adapter Shared Adapter 1つのタスクを1つのAdapterで訓練すべてのタスクを1つのAdapterで訓練データが共有できない環境(ユーザー情報) で必要となる欠点 1: Multi-Taskに適合する能力が不足欠点 2: 多数のタスク間で干渉が生じる 8

10.

研究方針 LoRA Libraryの再利用 μ Routing すべてのExpertの出力を平均する TP Routing Routing = 分類問題として予測器fを学習世界中のユーザーが非同期的に LoRAを作成している！ CM Routing 隠れ状態hの平均をPrototypeとして Routing行列Wを作成 Arrow Routing これ再利用して新しいタスクへの性能を向上させられないかな？ New LoRAのパラメータを集約したベクトルをPrototypeとしてRouting行列Wを作成 9

11.

研究方針 LoRA Libraryの再利用 μ Routing / CM Routingについて解説 h1 avg h 1/3 1/3 h2 avg Softmax 1/3 Routing W Cos類似度 x x1 μ Routing すべての出力を平均するRouting手法この単純さにも関わらず、悪くない性能 x2 h CM Routing 隠れ状態hの平均をPrototypeとして Routing行列 W を作成する手法入力に対してPrototypeとのCos類似度を計算してSoftmaxすることでRouting 10

12.

手法 Model-Based-Clustering (MBC) LoRA Libraryの構築法として提案その背景として、LoRAパラメータとパフォーマンス差の関係がある Multi-Task Datasetのうち、2つのタスクを選択 a) LoRAをそれぞれのタスクごとに独立で訓練 b) LoRAを2つのタスクでまとめて訓練その後、以下の二つを計算してプロット (x軸) LoRAパラメータのCos類似度 (y軸) モデル(a1, a2)とbの平均対数尤度の差実験これらには正の相関がある →LoRAパラメータに基づくタスクのクラスタリングを行った上で訓練すると高い精度になるインサイトモデルの平均対数尤度差 LoRA a1 と a2 の Cos類似度結果 11

13.

手法 Model-Based-Clustering (MBC) LoRA Libraryの構築法として提案モデルパラメータに基づきTaskクラスタを作成 → クラスタごとにAdapterを訓練 Flatten(A) Flatten(B) SVD Domain D1 Domain D2 Domain D3 U A Step 1 Step 2 1つのタスクを1つのAdapterで訓練 Concat (Flatten(A), Flatten(B)) LoRA A, Bをそれぞれ平坦化したのち結合このLoRAパラメータを元にStep2でタスクのクラスタリングを行う SVDにより、LoRAの次元削減を行う 12

14.

手法 Model-Based-Clustering (MBC) LoRA Libraryの構築法として提案モデルパラメータに基づきTaskクラスタを作成 → クラスタごとにAdapterを訓練 U 1.0 0.3 Domain D2 0.2 Domain D3 Task Cluster 1 0.3 0.2 1.0 0.8 0.8 1.0 Domain D1 Task Cluster 2 U Step 3 Step 4 LoRAパラメータに基づき Taskごとの類似度をCos類似度により計算類似度に基づいた単純なK-Meansによりクラスタを生成

15.

手法 Model-Based-Clustering (MBC) LoRA Libraryの構築法として提案モデルパラメータに基づきTaskクラスタを作成 → クラスタごとにAdapterを訓練 Library LoRAのパラメータに基づき作成したクラスタごとにAdapterを訓練 Domain D1 Domain D2 Domain D3 このような手順で作成されたLoRA群を新たなLoRA Libraryとして構築 Task Cluster Step 5 14

16.

手法 Arrow Routing LoRA Libraryの再利用法として提案その背景として、入力と出力ノルムの関係がある＜仮説＞ LoRAは訓練したタスクのデータに対してよりノルムの大きい特徴量を返す＜実験＞タスクが一致タスクが不一致データから 5000examples サンプリングし、ノルム割合のヒストグラムを作成頻度実験すべてのサンプルにおいて r > 1 となっている → 仮説は正しい. この事実を用いてRouting手法を考案インサイトタスク間のノルムの比率結果 15

17.

手法 Arrow Routing LoRA Libraryの再利用法として提案 LoRAをSVDすることでプロトタイプとしてRouting行列に格納 SVD U Σ LoRAを集約したPrototype V Σ V SVD U Σ V ・・・ SVD U Σ V Routing 行列 W 他タスクLoRAも同様の操作 Step 1 Step 2 LoRA Library 中のすべてのLoRAをSVDで分解右特異ベクトルのうち、固有値が最も大きいものをPrototypeとしてRouting行列へ格納 16

18.

手法 Arrow Routing LoRA Libraryの再利用法として提案 LoRAをSVDすることでプロトタイプとしてRouting行列に格納一番大きな値に対応するタスクへ Routing T ・・・ Routing 行列 W ・ h T 入力特徴量各タスクに対する大体のノルムルーティングのイメージ 17

19.

手法 Arrow Routing Arrow Routingは既存手法と比較して、利点として3つ存在 1) データアクセスが必要ない (Zero-shot Routing) MBCやその他手法然り、訓練した元のデータを活用している。 → LoRAの非同期的な分散型開発によるマルチタスクへの適応可能性を示唆 2) 各レイヤーとトークンで異なるルーティングを行う → MoEのように、細かくルーティングを行うためモデルの表現力が向上 3) SVD分解しか行わない → LoRA 作成後に、新たな勾配降下法による訓練を必要としない Arrow Routingの新規性や利点 18

20.

実験実験の目的この論文において、実験的評価の目的は、以下の質問に答えること 1) LoRA Library の構築は、非Modular手法(Full-Finetune等) と比較してどうか？ 2) Private に訓練された Library と、マルチタスクデータへのアクセスを前提としたLibraryとのギャプはどの程度か？ 3) Routing は LoRA Library の再利用をどの程度促進するか？データセット Flan v2 dataset (256 Task) → Expert の訓練に使用 SNI Task (12 Task) → Domain外のデータとして使用評価方法モデル Supervised Study(データアクセス有) → SNI Task を使用 → Rougue-L 指標で評価 Phi-2 (2.8 billion Param) Mistral (7 billion Param) ＜LoRA＞ Attention層に適用 Rank 4, drop out 0.05, lr 1e-4 ＜MBC＞ Cluster Num 10 Zero-shot (データアクセス無) → Flan dataset 重複を除去 → 広く使われる10タスク 19

21.

結果 20

22.

結果著者が言及している結果からいくつのコメントを抜粋 MBC Arrow Routing 我々の提案するMBCアプローチ(MBC-µ)の性能を以前のアプローチと比較する → 最強のベースライン(MHR)よりも1.2% ポイントも性能が大幅に向上 MBC- はMBC-μより0.3% 改善 Private- もPrivate-μより1.8% 改善 → Arrow は Private, MBCの両方にロバストなRouting 手法 MBC / Arrow 共通全体としてMBC- 性能が伸びた・Base Model よりも3.6 % 改善・Full-Finetuning よりも 1.8 % 改善 21

23.

結果より詳細なRouting 手法の結果プロット 22

24.

結果著者が言及している結果からいくつのコメントを抜粋 Routing in MBC Arrow vs other Routing ＜Mistral 7B＞＜Phi-2＞ Private Libraryでは、TP、CM、Arrowルーティングがμルーティングよりも性能を向上させ、それぞれ0.9%、0.9%、1.8%のポイントを獲得している →大規模ライブラリにおけるRoutingの重要性を浮き彫りにしています。 MBC ライブラリで 10個のExpertに他のルーティング手法を使用しても、μRoutingと比較して性能向上は見られなかった Arrow の検証 Arrowルーティングの性能を256のタスクで評価し、エキスパートを最適に選ぶOracle ルーティングに匹敵する性能を達成している → Arrowは大規模なExpert Libraryから適切なモジュールを選択できる 23

25.

26.

付録 MBC Algorithm Arrow Algorithm 25

27.

付録 MBCのクラスタ数が10で実験を行っていたのは、左図の実験結果によるものらしい。 26