5.6K Views
November 24, 23
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] DL輪読会: Amortizing Intractable Inference in Large Language Models Ryoichi Takase http://deeplearning.jp/ 1
書誌情報 採録:ICLR2024 Under review 概要: ➢ Chain-of-thought reasoningを潜在変数モデルの推論として定式化 ➢ Generative flow network (GFlowNet)を用いて事後分布を学習することで 論理となる文章の生成精度が向上 ※注釈無しの図は本論文から抜粋 2
背景 研究背景: 大規模言語モデルは自己回帰的に文章生成を行うことが主流 直前までの文脈から尤もらしい次の単語を予測 文章𝑋と𝑌の内容のギャップが大きい場合でもChain-of-thought reasoningにより 論理𝑍を適切に与えることで大規模言語モデルは𝑋から𝑌を導ける 問題点: 𝑋→𝑍→𝑌(左から右)の一方向で文章を生成するため逆方向の推論は難しいが、 𝑋→𝑌のみが既知であり𝑍を知りたいケースもある 3
背景 𝑋→𝑌のみが既知であり𝑍を知りたいケースもあるため、論理𝒁を推論できるモデルの学習が必要 𝑋→𝑌のみが既知 なぜネコは空腹から満腹になったのかを知りたいが、𝑍となる事象の候補は複数存在する 餌を捕まえた?餌をもらった?… 論文中の例) 4
提案手法 本研究では、文章𝑋から𝑌に至るまでの論理𝑍を推論したい → 論理𝑍の候補は複数存在するため、𝑋と𝑌が与えられた際の𝑍の事後分布を考える 文章𝑿と𝒀から論理𝒁を推論するためのアプローチ: ① 大規模言語モデルでのChain-of-thought reasoningを潜在変数モデルの推論として定式化 → 事後分布𝑝𝐿𝑀 (𝑍|𝑋, 𝑌)は文章𝑋𝑍𝑌の生成確率𝑝𝐿𝑀 (𝑋𝑍𝑌)と比例することを確認 ② Generative flow network(GFlowNet)による事後分布の学習 → ①を用いて報酬関数を設定することで、事後分布と一致する方策を学習 5
① 潜在変数モデルの推論として定式化 大規模言語モデルでのChain-of-thought reasoningを潜在変数モデルの推論として定式化 𝑍を推論するために、𝑋と𝑌が与えられた際の事後分布𝑝𝐿𝑀 (𝑍|𝑋, 𝑌) を考える → 事後分布は文章𝑋𝑍𝑌の生成確率と比例 6
② GFlowNetによる事後分布の学習 GFlowNet1) では学習後の方策が報酬と比例する 𝑇 𝑞𝐺𝐹𝑁 :方策 𝑇 𝑞𝐺𝐹𝑁 (𝑍) ∝ 𝑅(𝑍) 𝑅 :報酬関数 :サンプリングした文章 と設定すると ここで、①より報酬関数を 𝑇 𝑞𝐺𝐹𝑁 (𝑍) ∝ 𝑝𝐿𝑀 (𝑋𝑍𝑌) ∝ 𝑝𝐿𝑀 (𝑍|𝑋, 𝑌) 𝑝𝐿𝑀 (𝑋𝑍𝑌)は計算できるため 生成モデルの学習が可能 intractable 𝑝𝐿𝑀 (𝑍|𝑋, 𝑌) はintractableだが、GFlowNetにより事後分布と一致する方策の学習が可能 1) Bengio, Emmanuel, et al. "Flow network based generative models for non-iterative diverse candidate generation." Advances in Neural Information Processing Systems 34 (2021): 27381-27394. 7
数値実験 4つのタスクで数値実験を行い、GFlowNet fine-tuningによる学習手法の性能を検証 1. Sentence Continuation 直前までの文章𝑋から尤もらしい続きの文章𝑍を生成 2. Infilling Stories 物語の序論𝑋と結論𝑌が与えられた際に、本論となる文章𝑍を穴埋め 3. Subjectivity Classification 映画のレビュー𝑋をグループ𝑌(主観的or客観的)に分類 𝑋をもとにレビューの続き𝑍を生成することで分類精度を高める 4. Solving Arithmetic Problems Step by Step 加減法に関する問題𝑋と回答𝑌が与えられた際の論理的な根拠𝑍を生成 8
1. Sentence Continuation タスク: 直前までの文章𝑋から尤もらしい続きの文章𝑍を生成 学習データ:OpenWebText 言語モデル:GPT-2 XL 性能指標:最大尤度と文章の多様性(コサイン類似度から計算) 補足: 本タスクでは文章𝑌に相当するものがないため 報酬関数を𝑅 𝑍 = 𝑝𝐿𝑀 𝑍 𝑋 1/𝑇と設定 パラメータ𝑇を0 < 𝑇 < 1の範囲で変えながら結果を比較 結果: GFlowNet fine tuning(提案手法)は他手法と同等以上の最大尤度であり文章の多様性も高い 9
2. Infilling Stories タスク: 物語の序論𝑋と結論𝑌が与えられた際に、本論となる文章𝑍を穴埋め 学習データ:ROCStories corpus 言語モデル:GPT-2 Large 評価指標:穴埋めした本論と正解例の類似度(BERTScore、BLEU-4、GLEU-4) 結果: GFlowNet fine-tuningによる生成文と正解例との類似度が最も高いことを確認 10
3. Subjectivity Classification タスク: 映画のレビュー𝑋をグループ𝑌(主観的or客観的)に分類 𝑋をもとにレビューの続き𝑍を生成することで分類精度を高める 学習データ:SUBJ(映画評論の分類データセット) 言語モデル:GPT-J 6B 評価指標:レビューの分類精度 結果: GFlowNet fine-tuningが最も分類精度が高い 11
4. Solving Arithmetic Problems Step by Step タスク: 加減法に関する問題𝑋と回答𝑌が与えられた際の論理的な根拠𝑍を生成 学習データ:加減法を表現したデータ 言語モデル:GPT-J 6B 評価指標:根拠の正解率 結果: GFlowNet fine-tuningが最も正解率が高い 12
まとめ 提案手法: Chain-of-thought reasoningを潜在変数モデルの推論として定式化 GFlowNetを用いて事後分布を学習 実験結果: GFlowNetを用いてfine-tuningすることで、文章𝑋と𝑌が与えられた際の 論理となる文章𝑍の生成精度が向上 13