130 Views
December 26, 24
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2024年後期輪読会#11 大規模言語モデル入門Ⅱ 選好チューニング 京都大学 理学部 2回 千葉 一世 0
アジェンダ ◼ 選好チューニング ◼ RLHF ◼ DPO ◼ その他派生手法 1
⚫ 選好チューニング(preference tuning) プロンプトに対する複数の応答への人間の評価から人間の好みに直接最適化する手法 主に強化学習を用いて、人間のフィードバックからアラインメントを行う AnthropicのHH-RLHFというデータセットの翻訳 嘘をつかず、知らない事には 知らないと答えるようにする 差別的表現・犯罪の助長・機密情報 などを言わないようにする より詳しく説明させる 2
選好チューニング 指示チューニングとの違い • データセットの作成コストが低い 指示チューニングでは、正解の応答そのものをデータとして作成する必要があるが、 選好チューニングでは、生成された応答に順序をつけるだけで良い • 負のフィードバックが与えられる 指示チューニングでは、正解の応答しか教えないが、選好チューニングでは、 好ましくない応答も同時に教えることが出来る。 → これによって、考えられるを全てデータに含めなくともよくなる。 3
RLHF • RLHF (Reinforcement Learning from Human Feedback) 2つの応答のうちどちらが良いかを表す報酬モデルを用いて強化学習を行う。 指示チューニング 報酬モデルの学習 PPOによる強化学習 事前に指示チューニングを行うこと によって強化学習を早める。 (必須ではない) 言語モデルの応答を複数生成し、 人間が順位をラベル付けする。 大小関係報酬モデルの定まったデータ から、報酬モデルを学習する。 学習した報酬モデルを用いて、 PPOによる強化学習を行う。 4
RLHF • 報酬モデリング:プロンプトに対する応答の潜在的な報酬を学習する 報酬が大きいほどより人間に好まれることを意味し、 Bradley-Terryモデルを用いて、報酬から2つの応答のどちらが好まれるかの確率を予測する プロンプトxに対する応答𝑦1 と𝑦 2 について、 𝑦1 が好まれる確率は、 𝑟 ∗ 𝑥, 𝑦 ∶ 𝑥に対する応答yの報酬 σ : シグモイド関数 で表され、以下の負の対数尤度を損失関数として学習する。 報酬モデルは、指示チューニング済みモデルに線形層を加えた物が良く使用され、 学習後に報酬の値の平均を0に正規化する。(確率は定数を足しても変化しない) Bradley-Terryモデル : 1950代に提案された、スポーツなどの強さから勝率を予測するモデル 強さと勝率の関係を左のように仮定し、 過去の勝率から潜在的な強さを予測する 5
RLHF • 強化学習 指示チューニングしたLLM を方策モデルとして、学習した報酬を最大化させる ように学習を行う。 カルバック・ライブラー情報量による正則化を行い、学習前から乖離しすぎないようにする。 報酬 KL情報量 参照モデル は、指示チューニング済みのモデルであり、 参照モデルと報酬モデルのパラメータは固定して更新せず、方策モデルのみを学習する • RLHFの問題点 • • • • 報酬・方策・参照モデルの3つを同時に扱うため、メモリ消費量が多い 応答を逐次生成しながら学習する必要があり、並列化が難しい 実装の細部が難しい ハイパーパラメータに敏感 6
DPO • DPO (Direct Preference Optimization) RLHFから報酬モデルを取り除き、同様の訓練を勾配法で行えるようにした手法 以下の損失関数により、勾配法から直接学習を行う。 勾配法による直接的な最適化を行うため、RLHFの高い計算コストや実装の細部が難しい点 などの問題点を克服している。 しかし、RLHFの方が性能が良いという研究もあり、どちらが良いかはまだ分かっていない。 DPOは過学習が起こりやすい • DPOで過学習が起こりやすい理由 データセットは、好ましい応答と好ましくない応答のペアなので、確率を 0,1 に 近づけようとするが、シグモイド関数の性質から、報酬は ±∞ に近づく。 報酬が大きくなりすぎると、KL正則化項の影響が弱まってしまう。 7
DPO DPOの損失関数の導出 と置くと、 が最適になることが示せる。 頑張って式変形 カルバック・ライブラー情報量を表し、 最小となるのは分布が等しいとき Z(x)は方策モデルによらないので、関係ない が、RLHFの目的関数を最大化する 8
は、すべての総和を取るので計算が困難 を報酬について解いて、 Bradley-Terryモデルに代入すると、計算できなかったZ(x)が消えて、DPOの形になる 9
その他の派生モデル • IPO (Identity Preference Optimization) DPOでは、過学習が起こりやすいという問題点があり、報酬から確率を求める際に シグモイド関数ではなく恒等関数を用いたモデル DPOと同様に、最適な方策モデルを用いて報酬を取り除くと以下のような損失関数になる 他にも cDPO・RSO・KTO などRLHF/DPOから派生したモデルが多くある https://qiita.com/jovyan/items/6767c9fd944a636fdf88を参照 10