【DL輪読会】What Do Language Models Learn in Context? The Structured Task Hypothesis

2.1K Views

September 12, 24

#大規模言語モデル #文脈内学習 #In-Context Learning #ICL #機械学習

スライド概要

YouTubeはこちら→https://youtu.be/CXAmyOGOjo0

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.8K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] What Do Language Models The Structured Task Hypothesis. Learn in Context? Gouki Minegishi, Matsuo Lab, M2 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 選定理由 – ACL2024 – ICL（文脈内学習）を理解するための様々な説があるがそれらを検証していて大枠ぽい 2

概要 • • • In Context Learning (ICL)はいくつかの事例(demonstration)をLLMに与えることでパラメータの更新をせずに性能が向上する能力イタリア→ローマ，フランス→パリ，イギリス→ロンドン，日本→？ Demonstration しかし，いつ，どうやってICLが動作しているのかわかっていない（コンセンサスが取れていない）仮説１（Task Selection） – LLMは事前学習時にタスク集合を獲得している – 推論時にその中の1つを選択している • 仮説２（Meta Learning） – LLMは事前学習時に学習の仕方を学習している – 推論時にdemonstrationから直接新しいタスクを学習している • 仮説３（Structured Task Selection） – LLMは事前学習時にタスク集合を獲得している – 推論時にそのタスク集合を組み合わせて新しいタスクを構築している • この論文では仮説3がもっとも妥当であることを主張 3

仮説１の実験的根拠 Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? Min et al. (2022) • Demonstrationにランダムなラベルを与えてもGPT3を含む12種類のモデルで性能が GTラベルと同様に上がった • ICLはdemonstrationのペアから何かを学習しているわけではなく， demonstrationによって，(1)ラベル空間，(2) 入力テキストの分布，(3)文のフォーマットを特定しているだけでは？ • つまり，ICLとは demonstrationによって事前学習で獲得したタスク集合の中から 1つのタスクを特定する能力 4

https://arxiv.org/pdf/2202.12837

仮説１の理論的根拠 An Explanation of In-context Learning as Implicit Bayesian Inference Xie et al. (2022), (Wies(2023)) • LLMは事前学習で様々なコンセプトを学習している • ICLではこのコンセプトを選択し，そのコンセプトに基づいて答えを出力している – ICLの確率分布をコンセプトで周辺化すると，以下 • ただ問題はp(concept|prompt)が事前学習とICL時で大きく異なること – この論文では，1つのdemonstrationでのconceptのシグナルが十分に大きく，またdemonstrationが増えるとこの差異が小さくなることを理論的に示した • つまり，ICLは demonstrationによって事前学習時に学習したconceptを選択する能力仮説１はICLは学習は行なっていないという主張 5

仮説２の実験的根拠 Pretraining task diversity and the emergence of non-Bayesian in-context learning for regression (Raventós 2023) ここら辺も同じようなことをやっている→(Garg 2023), (Akyürek 2024) • ICLでどの程度の新しいタスクを学習することができるのかを検証 – y = w^Tx +εのような様々なタスク(w_train)でGPT2を学習 – この時見たことのないタスク(w_test) の(x,y)のペアがdemonstrationに与えられた時に答えることができるか？ • y=w_test^Txのリッジ回帰の推定量をRidgeとする • W_trainの重み和で構成される重みの予測をdMMSEとする • 学習するタスク(w)が増えるほど，見たことないwの損失が下がる • dMMSEとRidgeの差が小さくなるほど，w_testの損失が下がる – 学習したタスクにそれほど遠くなければ，ICLで新しいタスクを学習できる • つまり，ICLは demonstrationから新しいタスクを学習する能力 6

仮説2の理論的根拠 Transformers Learn In-Context by Gradient Descent (Oswald2023), ここら辺も同じようなことをやっている→(Akyurek2023), (Dai 2023) (Oswald 2024) • 1層のLinear Self-Attention(LSA)が1stepの勾配降下に対応することを証明（線形回帰問題の） – • 学習が進むと実際に勾配降下で学習したモデルのロスに近づく – • また勾配降下の予測値とのL2 Normや入力の勾配（重み）のcos類似度が近づく Single-LSAだけでなく，以下のようなより実践的な理論・実験を提示 – – • 具体的には以下の重み構成になれば，Attentionの中に線形回帰のΔWが出てくる Multi-stepの勾配降下とMulti-Layerとの対応 MLPが含まれる場合の非線形回帰問題との対応つまり，ICLは demonstrationから新しいタスクを勾配降下によって学習する能力仮説２ではICLは新しいタスクの学習を行なっているという主張 7

Preliminary • 事前学習 • タスク，プロンプト，レスポンスあるタスクはプロンプトの分布とレスポンスの分布のペアからなる１プロンプトは，それに対応するレスポンスはこれをL個連ねたdemonstrationをd= とする • ICL – Demonstrationから答えを予測 • タスクの組み合わせ • Primitiveなtaskの組み合わせで作れるタスク集合 8

仮説の再整理 • 仮説１（Task Selection）タスク選択分布からのみ選択されるは，学習時に見た有限のタスク集合 • 仮説２（Meta Learning）タスク選択分布にも汎化するは，学習時に見てないタスク集合 • 仮説３（Structured Task Selection）タスク選択分布にも汎化するは，学習時に見たタスクの組み合わせ集合 9

10.

仮説１の棄却 • もし仮説１が正しいのであれば，学習時に見てない新しいタスクは解けない • 新しいタスクを考える – ランダムな文字列に写像する関数gによってレスポンスが変換された新しいタスクとする • Text分類タスクでLlama70bで(1)Chance(2)普通のICL(3)τ_RAの結果を比較 – 仮説１が正しければ， τ_RA はchance rateになるはず • Demonstrationの数を増やすとτ_RA は解けてしまう – よって仮説１は棄却 10

11.

仮説２の棄却① • 仮説２が正しいとすると，ICLは学習アルゴリズム(e.g.,GD)のように振る舞うはず • 新しいタスクを考える – 適当な文字列に写像する関数hによってプロンプトが変換された新しいタスクとする • Text分類タスクで(1)Chance,(2)普通のICL,(3)τ_RA, (4)τ_PA, (5)τ_PAをロジスティック回帰で学習したものを比較 – もし仮説２が正しければchace rateよりは高く，ロジスティック回帰くらいは性能が出るはず • Chance rate，ロジスティック回帰より低い – よって仮説２は棄却 11

12.

仮説２の棄却② • 仮説２の理論研究(Oswald2023)に沿って線形回帰の設定で行う • 1つのtokenで構成される<p, r>を用意し，pからrはランダム文字列変換関数gで写像されるとする • 0層目の<p, r>のembeddingの関係を見ると， (Oswald2023)に揃う – D次元ベクトル(p)とD次元ベクトル(r)の線型写像のD＊DのWをICLで学習できれば解ける • τ_g-Linear (<p, r>の関係を普通の線形回帰で学習する)と τ_g-ICL (<p, r>の関係をICLで学習する)を比較 – ICLが勾配降下していれば，精度は同じになるはず • τ_g-Linearに比べτ_g-ICL の精度が低い．かつスコアに相関もない – 仮説２は棄却 12

https://proceedings.mlr.press/v202/von-oswald23a/von-oswald23a.pdf

13.

仮説３の検証① • もし仮説３が正しいとすると，とに相関が見られるのでは？と考えることで • 500データ,500関数でbinに分けてτ_RA-ICLとτ_g-ICLを可視化 – 正の相関があることを確認 13

14.

仮説３の検証② • 仮説３はICLは学習時に見たことあるタスクの組み合わせに汎化するという主張 – つまり文字列変換関数gは見たことあるタスクの方が仮説と整合する • ランダムな文字列に変換する関数gではなく，もう少し自然な（学習に出てきそうな）変換にする – 類義語 (synonym) : 似ている意味の単語に変換 – 反意語 (antonym)：反対の意味の単語に変換 – Keyword ：GPT４に作らせて変換 • これらの変換をしたときのτ_g-ICLの精度を比較 – 自然な変換の方が精度が高い 14

15.

仮説３の検証③ • 仮説３は厳密には，任意の長さのタスクの組み合わせに汎化する必要がある • 類義語(synonym)でm回変換する – m回類義語変換した単語をm次類義語とする – 例えばpositiveの4次類義語はtang，negativeの4次類義語はor，となりもはや類義語ではない • 変換の回数を増やしても80%以上の精度が出る – 変換の数と精度は負の相関にある 15

16.

まとめ・感想 • まとめ – 仮説1, 2ではなく，仮説３が妥当そう • 感想 – 事前学習をコントロールせず（トイモデルではなく）説得力のある実験をしていてすごい • あと説明がクリアでわかりやすい – もしICLで任意のプリミティブタスクの組み合わせに汎化できるのであれば，習得したタスクが増えるたびにできるタスクが指数的に増えてEmergentしそう • 本当は組み合わせることのできるタスクに制限があったり，相性があったりしそう – 基本的にprompt側の情報が多いのでτ_PAは精度下がるのは当たり前な気がする • Promptとresponseを対等には見れない気がする – またτ_g-ICLやτ_RA-ICLがそこそこ解けているので，事前学習のプリミティブなタスクの中にランダムな文字列の変換というタスクがあることになりそうでよくわからない 16