【DL輪読会】Understanding the performance gap between online and offline alignment algorithms

1.3K Views

December 19, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Understanding the performance gap between online and offline alignment algorithms [DL Papers] 高城 頌太(東京大学 工学系研究科 松尾研 D1) http://deeplearning.jp/ 1

2.

書誌情報 タイトル: Understanding the performance gap between online and offline alignment algorithms https://arxiv.org/abs/2405.08448 著者: Yunhao Tang, Daniel Guo, Zeyu Zheng, Daniele Calandriello, Yuan Cao, Eugene Tarassov, Rémi Munos, Bernardo Ávila Pires, Michal Valko, Yong Cheng and Will Dabney Google Deepmind 概要:Online RLHFとOffline RLHFのパフォーマンスギャップがなぜ存在するかを調査 2

3.

人間の意図通りにモデルを学習 • 人間の意図通りにモデルを学習することはAlignmentと呼ばれる • Alignmentを行うためにRLHFという技術が必要となる CS25 I Stanford Seminar - Transformers United 2023: Language and Human Alignment 3

4.

どのような意図の基準があるか(Alignmentの基準) • Helpful • • • ユーザーの質問に対して,できるだけ簡潔で効率的な回答を行う 不足情報がある場合,適切な質問を投げかけて情報を引き出す 相手のレベルに合わせた質問応答を行う • Honest • • • 情報の虚偽がなく,正確な文章を出力する モデル自身がどの程度の不確実性のある情報かを提示することが重要 (モデル自身がモデルの知っていることを理解している必要がある) • Harmless • • 攻撃的,差別的な発言をしない 悪意のある質問を検知し,拒否をする 他にも,(Taxonomy, behavior, incentive, innner aspectsなど) この3つを合わせてalignされたAIと定義している論文もある(HHH) 4

5.

RLHFの全体像 • RLHFの学習は以下の3つのステップで構成されている Step 1: 教師あり学習 • • プロンプトとそれに対する適切な 回答のペアをラベラー(人間)が考 案し,データセットを作成する Step 2: 報酬モデルの学習 • このデータセットを用いて事前学 習モデルをfine-tuningする • データセット 事前学習モデル Step 3: 強化学習 プロンプトに対するStep1で学習 させたモデルの回答を複数パター ン用意し、ラベラーにその中で良 いものはどれかの順位付けをして もらう • Step1,Step2で学習されたモデル を用いて強化学習を行う • 報酬が最大となるような方策を探 索し,最適な回答を生成する 順位づけデータセットを用いて報 酬モデルを学習させる ※ 方策はStep1で学習したモデル 順位づけデータセット 報酬モデル モデルの回答に対して報酬値を推 定し,それをモデルにフィードバ ックすることで方策を改善 ※ 報酬モデルには既存の事前学習モデルやfine-tuningされたモデルの最終層のみを線形層に変更したモデルが使用されることが多い つまり.報酬モデルの出力はスカラー値となる 5

6.

“Training Language Models to Follow Instructions with Human Feedback” 報酬モデルの学習(数式) • 報酬モデルはプロンプト𝑥に対する出力𝑦を入力として,報酬を出力するモデル 𝑟𝜃 (𝑥, 𝑦)と書ける • 報酬モデルは以下の損失関数を用いて学習する 𝜃 𝜎 (𝑦𝑤 が𝑦𝑙 よりも良い回答, 𝑤: 𝑤𝑖𝑛, 𝑙: 𝑙𝑜𝑠𝑒) :報酬モデルのパラメータ :シグモイド関数 𝑙𝑜𝑠𝑠 𝜃 = − 𝐸 𝑥,𝑦𝑤 ,𝑦𝑙 ~𝐷 [log(𝜎 𝑟𝜃 𝑥, 𝑦𝑤 − 𝑟𝜃 𝑥, 𝑦𝑙 ))] log 𝑝𝜃 yw ≻ yl x) つまり,良い回答である(𝑥, 𝑦𝑤 )のペアの報酬を,悪い方の回答である(𝑥, 𝑦𝑙 )のペアの報 酬よりも高くなる確率を学習する ※Bradley-Terryモデルに従うと仮定する exp(𝑟 ∗ 𝑥, 𝑦𝑤 ) ∗ 𝑝 yw ≻ yl x) = exp 𝑟 ∗ 𝑥, 𝑦𝑤 + exp 𝑟 ∗ 𝑥, 𝑦𝑙 = 𝜎(𝑟 ∗ 𝑥, 𝑦𝑤 − 𝑟 ∗ 𝑥, 𝑦𝑙 ) 6

7.

“Training Language Models to Follow Instructions with Human Feedback” 方策の学習(数式) • 報酬関数を用いて,よりスコアが高い文章を生成できるように強化学習を行う • つまり,「どのような文章を生成するか」を強化学習で言う戦略 (方策) とし、報酬 モデルによる出力を最大化するように方策を学習していく 𝑜𝑏𝑗𝑒𝑐𝑡𝑖𝑣𝑒 𝜙 = 𝐸 𝑥,𝑦 ~𝐷 𝑅𝐿 𝑟𝜃 𝑥, 𝑦 − 𝛽 log 𝜋𝜙 𝜙 𝜋𝜙𝑅𝐿 𝐷𝜋 𝑅𝐿 𝜙 𝜋𝜙𝑅𝐿 𝑦 𝑥 𝜋 𝑆𝐹𝑇 𝑦 𝑥 : 方策のパラメータ : 学習している方策 : 現在の方策によって得られたデータ 7

8.

Offline RLとOnline RL • Offline RL • 環境とのインタラクションを行わず,事前に集めたデータセットを用いてポリシーを学 習 • RLHFではプリファレンスデータを集める方策が学習したいモデルの方策と異なる • Online RL • • 環境とのインタラクションを行い,学習データセットをアップデートしながらポリシー を学習 RLHFではプリファレンスデータを集める方策が学習したいモデルの方策と同様 8

9.

“Direct Preference Optimization: Your Language Model is Secretly a Reward Model” DPO | offline RLHFでよく使用される手法 • Reward Modelを介さず直接Preferenceを考慮した最適化を行う • Reward Modelは暗黙的に定義 = 等価 報酬モデル(Step 2) + 強化学習(Step 3) 報酬推定が間違えた分だけ重みづけ 教師あり学習のみ 𝝅(𝒚𝒘|𝒙)の尤度最大化 𝝅(𝒚𝒍 |𝒙)の尤度最小化 9

10.

“Direct Preference Optimization: Your Language Model is Secretly a Reward Model” RLHF と DPOは数学的に等価 • 近似や仮定なしに等価であることが証明できる(証明は略) = 等価 報酬モデル(Step 2) + 強化学習(Step 3) 教師あり学習のみ DPO 𝜋𝜃 𝑦𝑤 𝑥 𝜋𝜃 (𝑦𝑙 |𝑥) 𝐿𝑜𝑠𝑠𝐷𝑃𝑂 𝜃 = − 𝐸 𝑥,𝑦𝑤 ,𝑦𝑙 ~𝐷 [log 𝜎(𝛽 log 𝑆𝐹𝑇 − 𝛽 log 𝑆𝐹𝑇 )] 𝜋 𝑦𝑤 𝑥 𝜋 (𝑦𝑙 |𝑥) = RLHF 𝐿𝑜𝑠𝑠𝑅𝑒𝑎𝑟𝑑 𝜙 = − 𝐸 𝑥,𝑦𝑤 ,𝑦𝑙 ~𝐷 [log(𝜎(𝑟𝜙 𝑥, 𝑦𝑤 − 𝑟𝜙 𝑥, 𝑦𝑙 )] 𝜋𝜃𝑅𝐿 𝑦 𝑥 𝐿𝑜𝑠𝑠𝑅𝐿 𝜃 = 𝐸 𝑥,𝑦 ~𝐷 𝑅𝐿 𝑟𝜙 𝑥, 𝑦 − 𝛽 log 𝑆𝐹𝑇 𝜋𝜃 𝜋 𝑦𝑥 10

11.

“Direct Preference Optimization: Your Language Model is Secretly a Reward Model” 補足 : DPO = RLHFの証明 • RLHFの目的関数は以下で示される • 真の報酬を近似するためにBradley Terryモデルを用いて報酬モデルを学習 していた max 𝐸 𝑥,𝑦 ~𝐷𝜋 𝑟 𝑥, 𝑦 𝜋 − 𝛽𝐷𝐾𝐿 [𝜋 𝑦 𝑥 ||𝜋 𝑆𝐹𝑇 𝑦 𝑥 ] この問題の最適解は解析的 に解くことができる! 1 1 𝑆𝐹𝑇 𝜋 𝑦𝑥 = 𝜋 𝑦 𝑥 exp( 𝑟(𝑥, 𝑦)) 𝑍(𝑥) 𝛽 ∗ ※ 𝑍 𝑥 は正規化のための分配関数 1 𝑍 𝑥 = Σ𝑦 𝜋 𝑆𝐹𝑇 𝑦 𝑥 exp( 𝛽 𝑟(𝑥, 𝑦)) 11

12.

“Direct Preference Optimization: Your Language Model is Secretly a Reward Model” 補足 : DPO = RLHFの証明 • 最適方策を導出する過程の詳細 • 簡単な式変形で導出できる • 前ページの𝜋 𝑆𝐹𝑇 𝑦 𝑥 が𝜋𝑟𝑒𝑓 𝑦 𝑥 にあたる − 𝜷で割って 最小化問題に 𝟏 𝒓(𝒙, 𝒚)を 𝜷 logの中に まとめる ※ 元論文より引用 12

13.

“Direct Preference Optimization: Your Language Model is Secretly a Reward Model” 補足 : DPO = RLHFの証明 • よって,最適方策を学習するためには,Preference Dataに合うように報酬モデ ルを学習(=方策を学習)すれば良い 𝜋𝜃 (𝑦|𝑥) 𝑟𝜃 𝑥, 𝑦 = 𝛽 log 𝑆𝐹𝑇 𝜋 普通はこれは計算できない → 全てのyに対して 総和を取るのは不可能 (𝑦|𝑥) + 𝛽log 𝑍(𝑥) ※ 𝑍 𝑥 は正規化のための分配関数 1 𝑍 𝑥 = Σ𝑦 𝜋 𝑆𝐹𝑇 𝑦 𝑥 exp( 𝛽 𝑟(𝑥, 𝑦)) 代入すると分配関数が 消えた! 𝒍𝒐𝒈 𝒑𝜽 𝐲𝐰 ≻ 𝐲𝐥 𝐱) 𝑙𝑜𝑠𝑠 𝜃 = − 𝐸 𝑥,𝑦𝑤 ,𝑦𝑙 ~𝐷 [log(𝜎 𝑟𝜃 𝑥, 𝑦𝑤 − 𝑟𝜃 𝑥, 𝑦𝑙 ))] 𝜋𝜃 𝑦𝑤 𝑥 𝜋𝜃 (𝑦𝑙 |𝑥) = − 𝐸 𝑥,𝑦𝑤 ,𝑦𝑙 ~𝐷 [log 𝜎(𝛽 log 𝑆𝐹𝑇 − 𝛽 log 𝑆𝐹𝑇 )] 𝜋 𝑦𝑤 𝑥 𝜋 (𝑦𝑙 |𝑥) 𝒓𝜽 𝒙, 𝒚 = 𝜷 𝐥𝐨𝐠 𝝅𝜽 (𝒚|𝒙) とみなしているとも解釈できる 𝝅𝑺𝑭𝑻 (𝒚|𝒙) 13

14.

“Direct Preference Optimization: Your Language Model is Secretly a Reward Model” DPOのパフォーマンス 𝜋𝑟𝑒𝑓 と離れずに高い報酬 を達成 対話では,対等な評価で DPOのみが勝率5割越え 訓練の早い段階で勝率が収束 温度に対して頑健で, PPOよりも高い勝率 分布外に対してPPOより頑健 14

15.

“A General Theoretical Paradigm to Understand Learning from Human Preferences” ΨPO / IPO | DPOの派生手法 • DPOを一般化したものとして提案されたアルゴリズム • Ψ: 0,1 → ℝ+ となる非減少関数を導入して以下の目的関数を最小化する • Ψを次ののように置くとDPOと同じ目的関数となる • また,Ψ = 𝑞 という恒等関数を用いた場合をIPO(Identify Preference Optimization)として提案されている 15

16.

Alignmentにonline RLHFは必要なのか? offline RLHF • ハイパーパラメータが多く調整が大変 • 一般に計算リソースが多く必要 • 学習が不安定 offline RLHF • 教師あり学習の枠組みでできるのでハイ パーパラメータが少ない • 少ない計算リソースでも計算できる • 学習が安定している • DPOであればRLHFと数学的に等価 このようなメリットがある中で online RLHFは必要なのか? ※ ここでのoffline RLHF, offline RLHFはon-policy, off-policyかどうかが焦点です iterative RLHFを指してonline RLHFと呼ぶ場合もありますが今回は異なります 16

17.

online RLHFとoffline RLHFにパフォーマンスギャップが存在 • offline RLHFはonline RLHFと比較し て利点が多い一方で,明らかなパフォ ーマンスギャップが存在する • online RLの方がKL制約とパフォーマ ンスのトレードオフがうまく学習でき る • onine RLがoffline RLより性能が悪い のは当たり前? • 本質的な違いは,通常のRLの設定 では真のRewardにアクセスできる 点.この場合は明らかにonlineの 方が良い • しかし,RLHFの場合は同じデータセ ットから学習しているのになぜこの 差が生まれるのか? 17

18.

なぜこのようなパフォーマンスギャップが存在するのか? • 仮説1: データカバレッジの問題 • データの多様性によってパフォーマンスギャップが生じるのではないか? • 仮説2: オフラインデータセットが最適でない • そのそもの最初のオフラインデータセットの品質が悪いため性能差が生まれるのではな いか • 仮説3: ポリシーが分類器としてうまく訓練できていない • 報酬モデルの方が高い分類精度を実現できていて,この違いによりパフォーマンスギャ ップが生じるのではないか? • 仮説4: Contrastive Lossの影響 • パフォーマンスの低下はサンプリングの問題ではなく,𝑦𝑤 , 𝑦𝑙 も下げてしまうような Contrastive Lossの影響ではないか? • 仮説5: ポリシーのスケールの問題 • ポリシーのパラメータ数が増えることによって,オンラインとオフラインのギャップは どんどん縮まっていくのではないか? これらの仮説を実験的に調査 18

19.

仮説を検証するための実験設定 • online RLHF, offline RLHFではIPOの目的関数を用いる onlineとofflineの違いはデータのサンプル分布のみ o (𝑦𝑤 , 𝑦𝑙 )~𝜋𝜃 or (𝑦𝑤 , 𝑦𝑙 )~𝜇 • IPOを使用する理由は実験の簡単化のため • 他のDPOなどのアライメントアルゴリズムも適用可能 • (𝒚𝒘, 𝒚𝒍 )~𝝅𝜽 • データセットの作成方法 • • 初期データセットから真の人間の選好をシミュレートするため,Golden Preference modelを作成 その後元のデータセットをRelabelingして新しいデータセットとする 19

20.

仮説を検証するための実験設定 • モデルについて • • • • T5X model Golden Preference ModelはXXL T5X model(11B parameter) PolicyはLarge T5X model(770M parameter) 最初に𝐷𝑔𝑜𝑙𝑑𝑒𝑛 でSFTを行ってからRLHFの学習を行う • 検証方法 • • • データセットはOpenAI summarization, Anthropic helpfulness/harmfulness, Chat Arenaを用いる 異なるアルゴリズムで比較する軸として学習されたポリシ o ]の値を用いる o これは同じKL制約状態でアルゴリズムの違いによってどれだけパフォーマンスを最適 化できているかを測っている メトリックはgolden policyとのwin rate用いる o Golden preference modelを用いてonline RLHFをしたポリシー 20

21.

仮説1:データカバレッジの問題 • offine RLHFでは固定の学習データに制限されるが,Online RLHFでは学習とともに様々な データがポシリーからサンプルされる • これらのデータの多様性によってパフォーマンスギャップが生じるのではないか? → データの多様性を揃えた上でonline/offlineの性能を比較してあげれば良い 検証方法 • online RLHFで学習した際に得たサンプルを 保存しておき,ランダムシャッフルしたもの を𝐷𝑜𝑛𝑙𝑖𝑛𝑒−𝑠ℎ𝑢𝑓𝑓𝑙𝑒𝑑 とする • これをoffline RLHFの学習に用いることでデ ータカバレッジを統一できる 21

22.

検証結果 : データカバレッジを揃えてもパフォーマンスギャップが生まれる • OpenAI summarization, Anthoropic-HHにおいて,カバレッ ジを揃えてもoffline RLHFとの性能 差は見受けれず,カバレッジが原因 ではないことがわかる • つまりサンプリングの順番によって 性能差が生まれている • → 現在のポリシーに近いデータ で学習する必要がある • ただ,Chat arenaは例外的にonline RLHFにパフォーマンスが近づいてい るので,サンプリングの順序があま り重要ではないタスクであった 22

23.

仮説2:オフラインデータセットが最適でない • そのそもの最初のオフラインデータセットの品質が悪いため性能差が生まれ るのではないか • online RLHFだと,学習途中で自分からサンプルされたデータを用いるので 初期の品質の悪さの影響を抑制できるのでは → 初期データの品質を向上させてonline/offlineの比較を行ってあげれば良い 検証方法 • online RLHFによって最終ステップ(4k step)まで学習されたポリシーを用いてデータセット を再サンプリング • ラベル付けはgolden preference modelを用いる • このデータを用いてoffline RLHFを行う 23

24.

検証結果 : オフラインデータセットの品質を向上させてもギャップが生じる • データセットの品質を向上させて学習してもwin rateは低い値にとどまって いることがわかる • つまり,初期データの品質の違いがonline/offlineのパフォーマンスギャップ を産んでいるわけではない 24

25.

仮説3:ポリシーが分類器としてうまく訓練できていない • offline RLHFの損失関数は2値分類の問題を解いていると解釈できる • 報酬モデルの方が高い分類精度を実現できていて,この違いによりパフォーマンスギャップ が生じるのではないか? 𝑟𝜃 𝑥, 𝑦𝑤 と𝑟𝜃 𝑥, 𝑦𝑙 を分離できるような超平面を探す問題 (DPOの場合はlogistic回帰をしている) 𝑙𝑜𝑠𝑠 𝜃 = − 𝐸 𝑥,𝑦𝑤,𝑦𝑙 ~𝐷 [log(𝜎 𝑟𝜃 𝑥, 𝑦𝑤 − 𝑟𝜃 𝑥, 𝑦𝑙 ))] 𝜋𝜃 𝑦𝑤 𝑥 𝜋𝜃 (𝑦𝑙 |𝑥) − 𝐸 𝑥,𝑦𝑤,𝑦𝑙 ~𝐷 [log 𝜎(𝛽 log 𝑆𝐹𝑇 − 𝛽 log 𝑆𝐹𝑇 )] 𝜋 𝑦𝑤 𝑥 𝜋 (𝑦𝑙 |𝑥) 検証方法 • Policyを分類器とみなして,学習途中の分類精度をonline/offline/preference modelと 比較する • 評価はgolden preference modelの結果を正解データとする • 分布内(オフラインデータセット)と分布外について調査 • また,分類精度とパフォーマンスの関係性についても調査 25

26.

検証結果 : 分布内データにおいてはoffline RLHFの分類精度が高い • オフラインデータセットにおいては,offline RLHFの分類精度が圧倒的に高 い一方で対数尤度は低くなっている • これは,𝑦𝑤 の尤度を下げて, 𝑦𝑙 の尤度をさらに下げることによって,差を開く ように学習している 26

27.

検証結果 : 分布外データにおいては報酬モデルの分類精度が高い • オンラインデータセットで評価すると報酬モデルの精度が全体的に高くなっ ている • ただ,学習が進むにつれてサンプルが分布から外れていくため最終的には精 度は下がっていく傾向にある 27

28.

検証結果 : 分類性能とパフォーマンスは相関しない • 分布外においては分類精度は報酬モデルの方が高いことが確認されたが,そ れが本当にパフォーマンスに影響を与えているのか? • オフラインデータセットによる分類精度とポシリーのwin rateを比較しても 相関関係はない,むしろ低い方が性能が良い 28

29.

仮説4: Contrastive Lossの影響 • パフォーマンスの低下はサンプリングの問題ではなく,𝑦𝑤 , 𝑦𝑙 も下げてしまうような Contrastive Lossの影響ではないか? 検証方法 • 𝑦𝑤 の尤度を最大化するようなBest of 2(Bo2)損失を使用する • データ分布から2つをサンプリングし,rewardが高い方のみを尤度最大化(SFT)を行う • Rejection Samplingとやっていることは同じ 29

30.

検証結果 : データカバレッジにより差は縮まるが,依然としてギャップは存在 • online Bo2とoffline Bo2ではギャップは以前として存在するがchat arenaで はofflineの方がパフォーマンスが高くなる • また,Bo2を用いるとデータカバレッジによってある程度パフォーマンスギ ャップが説明できる 30

31.

仮説5:ポリシーのスケールの問題 • ポリシーのパラメータ数が増えることによって,オンラインとオフラインのギャップ はどんどん縮まっていくのではないか? 検証方法 • 報酬モデルは固定のまま,ポリシーのモデルをXL(3B), XXL(11B)までスケールして学習を行 う • Online, offline, tandem(=𝐷𝑜𝑛𝑙𝑖𝑛𝑒−𝑠ℎ𝑢𝑓𝑓𝑙𝑒𝑑 )の設定で比較 31

32.

検証結果 : ポリシーのスケーリングによってピークが向上 • ポリシーをスケールさせるとピークのパフォーマンスが向上する一方で, overfittingは依然として起こる(=ボトルネックが報酬モデル) • ピークはモデルサイズに関わらず同じK制約の値で得られる 32

33.

検証結果 : ポリシーのスケーリングによってデータカバレッジで説明可能? • ポリシーをスケールさせてもofflineとonlineのギャップは存在している • ただ,パラメータを16倍までスケールさせるとデータカバレッジによってパ フォーマンスギャップは大幅に縮めることができる ただ,現実には 𝑫𝒐𝒏𝒍𝒊𝒏𝒆−𝒔𝒉𝒖𝒇𝒇𝒍𝒆𝒅を手に いれることができない ため,実行不可能 33

34.

offline RLHFを改善するためには? • どのようなデータだと精度が向上するかを調査 • (1) SFTの分布に近いデータを用いる場合 • (2) ペアの応答が離れている場合(𝑦𝑤 と𝑦l の違いが顕著な場合) • (3) データの絶対的な品質 • 結果としてはSFTデータとの近さが一番重要 34

35.

まとめ & 感想 • オフラインRLHFとオンラインRLHFにおけるパフォーマンスギャップの理由 について5つの仮説を調査した • 結果としては,Non Contrastive Lossの場合とポリシーをスケーリングさせ た場合に,データカバレッジである程度ギャップを説明できることがわかっ た • • Non Contrastive Lossの場合はもはやただのSFTに近いので,データカバレッジで説明 できることは直感的にもわかる気はする ただ,ポリシーをスケールさせた場合に関してはわからない(単純に表現力が増えたか ら?) • いずれにしても,それでもofflineとoffineのギャップは存在するため,この ギャップを縮める手法を考案する余地はある • • • • 本質的には,現在のポリシーからサンプルされたデータで学習する必要がある タンデム実験は実際には不可能なため,別の方法で縮める必要がある 一つの方法はオフラインデータをSFTに近づける 他にはonlineからのサンプリングを擬似的にシミュレートするなど 35

36.

Thank you. 36

37.

補足: グッドハートの法則 グッドハートの法則 指標は目標になった時,良い指標ではなくなる When a measure becomes a target, it cases to be a good measure. Charles Goodhart • 特定の目標に向けて作られたAIは目標そ のもので訓練できないため、訓練には目 標に似た「プロキシ」を用いる • RLHFにおいては,Reward Modelが人 間の真の選好を近似したプロキシとなる • プロキシの最適化を進めると本来の目標 から乖離してしまう場合がある 37