870 Views
September 12, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] What Do Language Models The Structured Task Hypothesis. Learn in Context? Gouki Minegishi, Matsuo Lab, M2 http://deeplearning.jp/ 1
書誌情報 • 選定理由 – ACL2024 – ICL(文脈内学習)を理解するための様々な説があるが それらを検証していて大枠ぽい 2
概要 • • • In Context Learning (ICL)はいくつかの事例(demonstration)をLLMに与えることで パラメータの更新をせずに性能が向上する能力 イタリア→ローマ,フランス→パリ,イギリス→ロンドン,日本→? Demonstration しかし,いつ,どうやってICLが動作しているのかわかっていない (コンセンサスが取れていない) 仮説1(Task Selection) – LLMは事前学習時にタスク集合を獲得している – 推論時にその中の1つを選択している • 仮説2(Meta Learning) – LLMは事前学習時に学習の仕方を学習している – 推論時にdemonstrationから直接新しいタスクを学習している • 仮説3(Structured Task Selection) – LLMは事前学習時にタスク集合を獲得している – 推論時にそのタスク集合を組み合わせて新しいタスクを構築している • この論文では仮説3がもっとも妥当であることを主張 3
仮説1の実験的根拠 Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? Min et al. (2022) • Demonstrationにランダムなラベルを与えてもGPT3を含む12種類のモデルで性能が GTラベルと同様に上がった • ICLはdemonstrationのペアから何かを学習しているわけではなく, demonstrationによって,(1)ラベル空間,(2) 入力テキストの分布,(3)文のフォーマット を特定しているだけでは? • つまり,ICLとは demonstrationによって 事前学習で獲得したタスク集合の中から 1つのタスクを特定する能力 4
仮説1の理論的根拠 An Explanation of In-context Learning as Implicit Bayesian Inference Xie et al. (2022), (Wies(2023)) • LLMは事前学習で様々なコンセプトを学習している • ICLではこのコンセプトを選択し,そのコンセプトに基づいて答えを出力している – ICLの確率分布をコンセプトで周辺化すると,以下 • ただ問題はp(concept|prompt)が事前学習とICL時で大きく異なること – この論文では,1つのdemonstrationでのconceptのシグナルが十分に大きく, またdemonstrationが増えるとこの差異が小さくなることを理論的に示した • つまり,ICLは demonstrationによって事前学習時に学習したconceptを選択する能力 仮説1はICLは学習は行なっていないという主張 5
仮説2の実験的根拠 Pretraining task diversity and the emergence of non-Bayesian in-context learning for regression (Raventós 2023) ここら辺も同じようなことをやっている→(Garg 2023), (Akyürek 2024) • ICLでどの程度の新しいタスクを学習することができるのかを検証 – y = w^Tx +εのような様々なタスク(w_train)でGPT2を学習 – この時見たことのないタスク(w_test) の(x,y)のペアがdemonstrationに与えられた時に答えること ができるか? • y=w_test^Txのリッジ回帰の推定量をRidgeとする • W_trainの重み和で構成される重みの予測をdMMSEとする • 学習するタスク(w)が増えるほど,見たことないwの損失が下がる • dMMSEとRidgeの差が小さくなるほど,w_testの損失が下がる – 学習したタスクにそれほど遠くなければ,ICLで新しいタスクを学習できる • つまり,ICLは demonstrationから新しいタスクを学習する能力 6
仮説2の理論的根拠 Transformers Learn In-Context by Gradient Descent (Oswald2023), ここら辺も同じようなことをやっている→(Akyurek2023), (Dai 2023) (Oswald 2024) • 1層のLinear Self-Attention(LSA)が1stepの勾配降下に対応することを証明(線形回帰問題の) – • 学習が進むと実際に勾配降下で学習したモデルのロスに近づく – • また勾配降下の予測値とのL2 Normや入力の勾配(重み)のcos類似度が近づく Single-LSAだけでなく,以下のようなより実践的な理論・実験を提示 – – • 具体的には以下の重み構成になれば,Attentionの中に線形回帰のΔWが出てくる Multi-stepの勾配降下とMulti-Layerとの対応 MLPが含まれる場合の非線形回帰問題との対応 つまり,ICLは demonstrationから新しいタスクを勾配降下によって学習する能力 仮説2ではICLは新しいタスクの学習を行なっているという主張 7
Preliminary • 事前学習 • タスク,プロンプト,レスポンス あるタスク はプロンプトの分布とレスポンスの分布のペアからなる 1プロンプトは ,それに対応するレスポンスは これをL個連ねたdemonstrationをd= とする • ICL – Demonstrationから答えを予測 • タスクの組み合わせ • Primitiveなtaskの組み合わせで作れるタスク集合 8
仮説の再整理 • 仮説1(Task Selection) タスク選択分布 からのみ選択される は,学習時に見た有限のタスク集合 • 仮説2(Meta Learning) タスク選択分布 にも汎化する は,学習時に見てないタスク集合 • 仮説3(Structured Task Selection) タスク選択分布 にも汎化する は,学習時に見たタスクの組み合わせ集合 9
仮説1の棄却 • もし仮説1が正しいのであれば,学習時に見てない新しいタスクは解けない • 新しいタスクを考える – ランダムな文字列に写像する関数gによってレスポンスが変換された新しいタスク とする • Text分類タスクでLlama70bで(1)Chance(2)普通のICL(3)τ_RAの結果を比較 – 仮説1が正しければ, τ_RA はchance rateになるはず • Demonstrationの数を増やすとτ_RA は解けてしまう – よって仮説1は棄却 10
仮説2の棄却① • 仮説2が正しいとすると,ICLは学習アルゴリズム(e.g.,GD)のように振る舞うはず • 新しいタスクを考える – 適当な文字列に写像する関数hによってプロンプトが変換された新しいタスク とする • Text分類タスクで(1)Chance,(2)普通のICL,(3)τ_RA, (4)τ_PA, (5)τ_PAをロジスティック回帰で学習したものを比較 – もし仮説2が正しければchace rateよりは高く,ロジスティック回帰くらいは性能が出るはず • Chance rate,ロジスティック回帰より低い – よって仮説2は棄却 11
仮説2の棄却② • 仮説2の理論研究(Oswald2023)に沿って線形回帰の設定で行う • 1つのtokenで構成される<p, r>を用意し,pからrはランダム文字列変換関数gで写像されるとする • 0層目の<p, r>のembeddingの関係を見ると, (Oswald2023)に揃う – D次元ベクトル(p)とD次元ベクトル(r)の線型写像のD*DのWをICLで学習できれば解ける • τ_g-Linear (<p, r>の関係を普通の線形回帰で学習する)と τ_g-ICL (<p, r>の関係をICLで学習する)を比較 – ICLが勾配降下していれば,精度は同じになるはず • τ_g-Linearに比べτ_g-ICL の精度が低い.かつスコアに相関もない – 仮説2は棄却 12
仮説3の検証① • もし仮説3が正しいとすると, と に相関が見られるのでは? と考えることで • 500データ,500関数でbinに分けてτ_RA-ICLとτ_g-ICLを可視化 – 正の相関があることを確認 13
仮説3の検証② • 仮説3はICLは学習時に見たことあるタスクの組み合わせに汎化するという主張 – つまり文字列変換関数gは見たことあるタスクの方が仮説と整合する • ランダムな文字列に変換する関数gではなく,もう少し自然な(学習に出てきそうな)変換にする – 類義語 (synonym) : 似ている意味の単語に変換 – 反意語 (antonym):反対の意味の単語に変換 – Keyword :GPT4に作らせて変換 • これらの変換をしたときのτ_g-ICLの精度を比較 – 自然な変換の方が精度が高い 14
仮説3の検証③ • 仮説3は厳密には,任意の長さのタスクの組み合わせに汎化する必要がある • 類義語(synonym)でm回変換する – m回類義語変換した単語をm次類義語とする – 例えばpositiveの4次類義語はtang,negativeの4次類義語はor,となりもはや類義語ではない • 変換の回数を増やしても80%以上の精度が出る – 変換の数と精度は負の相関にある 15
まとめ・感想 • まとめ – 仮説1, 2ではなく,仮説3が妥当そう • 感想 – 事前学習をコントロールせず(トイモデルではなく)説得力のある実験をしていてすごい • あと説明がクリアでわかりやすい – もしICLで任意のプリミティブタスクの組み合わせに汎化できるのであれば,習得したタスクが増えるたびにできる タスクが指数的に増えてEmergentしそう • 本当は組み合わせることのできるタスクに制限があったり,相性があったりしそう – 基本的にprompt側の情報が多いのでτ_PAは精度下がるのは当たり前な気がする • Promptとresponseを対等には見れない気がする – またτ_g-ICLやτ_RA-ICLがそこそこ解けているので,事前学習のプリミティブなタスクの中にランダムな文字列の 変換というタスクがあることになりそうでよくわからない 16