【DL輪読会】LongNet: Scaling Transformers to 1,000,000,000 Tokens

2.7K Views

September 01, 23

#Deep Learning #Transformers #LongNet #Dilated Attention #Distributed Algorithms

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43K

各ページのテキスト

DEEP LEARNING JP LongNet: Scaling Transformers to 1,000,000,000 Tokens [DL Papers] ⾼城頌太（東京⼤学⼯学系研究科松尾研 M2） http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： LongNet: Scaling Transformers to 1,000,000,000 Tokens https://arxiv.org/abs/2307.02486 著者： Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang, Wenhui Wang, Nanning Zheng, Furu Wei Microsoft Research Jiaotong University 概要： 10億トークンまでのテキストを処理できるLongNetというTransformerベースのモデルを提案．公式実装： https://github.com/microsoft/unilm/tree/master 2

概要 • 「シーケンス⻑の増⼤」「Transformerの計算量の削減」という2つの課題に対して，Dilated Attentionというアーキテクチャを提案 • このアーキテクチャを導⼊したLongNetにより，10億トークン(GPT-4の約25万倍)を線型オーダーで処理できる – Vanila TransformerはN^2オーダー 3

Sparse Attention • Attentionを向ける先を絞ることで計算量を削減する • Sparse attention patern によってどこにattentionを向けるかを決定する 4

Dilated Attention • Sparse attention paternをsegment length, dilated rateという⼆つの変数を持ったパターンで分割する – Segment length(w): セグメントの幅 – dilated rate(r): 各セグメントの中でどの程度隙間を開けるか 5

Dilated Attention • それぞれのセグメントは並列に処理され，最終的な出⼒がconcatされる • 分割後のDilated AtentionはDense Atentionに変換することができるため，Flash Attentionなどの通常のTransfomerで⽤いられる最適化が使⽤できる 6

Dilated Atention • セグメント⻑は⼤域性をどれほど考慮するか，拡張率は計算効率をどれほど良くするか – 短期，⻑期の情報を効率的に処理するためには，複数のセグメント⻑，拡張率を組み合わせて実装する – Local atentionは正確性が必要だが，global atentionはだいたいで良いので，セグメント⻑が⼤きくなるほど，拡張率を⼤きくしていく ※ はソフトマックスの分⺟の値 7

Multi-Head Dilated Attention • マルチヘッドにする際は，offsetを変更する – offsetの値は 8

計算量について • セグメントごとのQuery, Key, Valueの次元は • セグメント⻑と拡張率はなので，最終的な計算量はと近似できる 9

10.

分散アルゴリズム • Dilated Attentionによって理論的な計算オーダーは削減されたが，計算資源とメモリの制約によって，単⼀のGPUで10億トークンの計算は不可能 • そこで，LongNetではトークン⻑が⼤規模になった際の新しい分散アルゴリズムを提案 10

11.

分散アルゴリズム 1. ⼊⼒トークンを分割(下の例だと2つに) 2. それぞれの分割されたXでQ, K, Vを作成 3. Atentionの計算 – If セグメント⻑ <= ローカルデバイスのシーケンス⻑: • – そのまま各デバイスでdilated attentionを計算し，最後に出⼒をconcat elif セグメント⻑ > ローカルデバイスのシーケンス⻑: • Sparse化したK, Vをconcatしてからそれぞれの出⼒Oを求める 11

12.

10億トークンまでスケール • 通常のAttentionとDilated Attentionの順伝播の実⾏速度を⽐較 – 8K~1Bまでトークン⻑を変更 – 最⼤3つのセグメント⻑を採⽤，10回の実⾏時間の平均を計算 – メモリ節約，計算速度向上のためどちらもFlashAttentionを適応している • Dilated Attentionでは線型に実⾏時間が増えていく 12

13.

性能確認: 実験設定 • バックボーンのアーキテクチャとしてはMAGNETOを使⽤ – Transformerの亜種の⼀つ – Position encodingにはxPOSを使⽤ • 学習データセットはThe Stack datasetを使⽤ – BigCodeと呼ばれるプロジェクトで作成された，300ものプログラミング⾔語で構成されたソースコード集 – Githubの公開データを⽤いて作成 – 1.5TBのデータがある 13

14.

実験結果 • LongNetは全ての場合においてもPerplexityが低い(良い) – – – – 各バッチごとのトークン⻑は⼀定に設定モデルサイズよりも⼊⼒トークン⻑が⻑い場合はBlockwise Causal Attention(BCA)を適応 Segment length = (2048, 4096, 8192, 16384, 32769) Dilated Ration = (1, 2, 4, 6, 8) • 少ない計算量でTransfomerと同等の Perplexityを達成 14

15.

モデルサイズごとの計算量 & コンテキストサイズを変更した際の性能 • 125Mパラメータから2.7Bパラメータで訓練させた結果，スケーリング則が適⽤できる(といえる？？) – 2.7Bモデルは300B token, その他は40B tokenで学習 • コンテキストサイズを⼤きくするとテストロスが減少 – (それは当たり前では．．？) 15

16.

Thank you. 16