590 Views
April 07, 23
スライド概要
2023/4/7
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] “Is Conditional Generative Modeling All You Need For Decision-Making?” Presenter: Manato Yaguchi B4 (Hokkaido University) http://deeplearning.jp/
目次 1. 2. 3. 4. 5. 6. 書誌情報 Introduciton 前提知識 提案手法 実験結果 まとめ 2
1. 書誌情報 紹介論文 タイトル: Is Conditional Generative Modeling All You Need For Decision-Making?(arxiv) ICLR2023(top 5%) 出典: 著者: Technology ArXiv (2022. 11) Anurag Ajay, Yilun Du, Abhi Gupta, Joshua B. Tenenbaum, Tommi S. Jaakkola, Pulkit Agrawal Improbable AI Lab Operations Research Center Computer Science and Artificial Intelligence Lab Massachusetts Institute of プロジェクトページ 概要 - 条件付き拡散モデルにより、強化学習に代わる手法として意思決定問題を行った - 報酬で条件づけられた拡散モデルとして方策をモデル化することで、強化学習に見られる複雑さを排除 - 制約やスキル等の他の条件変数も適用でき、かつ複数の制約を同時に組み合わせることが可能 ※引用は最後にまとめてあります.特に明示が無い場合は紹介論文から引用 3
2. Introduction:条件付き生成モデル • Conditional generative modeling • 言語モデル:Minerva • 画像生成:DALL-E [1] 生成モデルを意思決定問題に適用することはできないのか? [2] 4
2. Introduction:オフライン意思決定問題 • Offline decision-making 問題設定:報酬を最大化するような行動の軌跡を、最適ではない訓練データを元に最適化 これまでの主な手法:価値関数等を用いた強化学習 問題点: - オフポリシー学習や、ブートストラップ法により、価値関数の推定は不安定な傾向がある - 価値関数を安定させるため、各タスクに応じた複雑な設計が必要になる [3] 報酬で条件づけられた拡散モデルにより、シンプルかつ高精度にしたい 5
3. 前提知識:DDPM [4] • 𝑋0を入力として、Tステップに分けてガウスノイズを加える(forward process) 𝑇 𝑞 𝑋1:𝑇 𝑋0 = ෑ 𝑞 𝑋𝑡 𝑋𝑡−1 , 𝑞 𝑋𝑡 𝑋𝑡−1 = 𝑁(𝑋𝑡 ; 1 − 𝛽𝑡 𝑋𝑡−1 , 𝛽𝑡 𝐼) 𝑡=1 • その後、𝑋𝑇 から、ノイズを取り除き、元画像を復元するように、モデルを学習する (reverse process) 𝑇 𝑝𝜃 𝑋0:𝑇 = 𝑝 𝑋𝑇 ෑ 𝑝𝜃 𝑋𝑡−1 𝑋𝑡 , 𝑡=1 𝑝𝜃 𝑋𝑡−1 𝑋𝑡 = 𝑁(𝑋𝑡−1 ; 𝜇𝜃 𝑋𝑡 , 𝑡 , Σ𝜃 𝑋𝑡 , 𝑡 ) 6
3. 前提知識:DDPM [4] • 訓練は、負の対数尤度関数の変分下界を考える 𝑝𝜃 𝑋0:𝑇 𝑝𝜃 𝑋𝑡−1 𝑋𝑡 E −𝑙𝑜𝑔𝑝𝜃 𝑋0 ≤ E𝑞 −𝑙𝑜𝑔 = E𝑞 −𝑙𝑜𝑔𝑝 𝑋𝑇 − 𝑙𝑜𝑔 𝑞 𝑋1:𝑇 𝑋0 𝑞 𝑋𝑡 𝑋𝑡−1 =𝐿 𝑡≥1 • これは時刻tにおけるノイズを予測することと等価であることが示される 𝛽𝑡2 E𝑋0,𝜀 [ 2 𝜖 − 𝜖𝜃 𝛼ത𝑡 𝑋0 + 1 − 𝛼ത𝑡 𝜖, 𝑡 2𝜎𝑡 𝛼𝑡 1 − 𝛼𝑡 2 ] • 上の式の代わりに、以下の式を最小化すると結果が良いことが、実験的に知られている 2 𝐿simple 𝜃 = E𝑡,𝑋0 ,𝜖 [ 𝜖 − 𝜖𝜃 ( 𝛼ത𝑡 𝑋0 + 1 − 𝛼ത𝑡 𝜖, 𝑡) ] 7
3. 前提知識:Guided Diffusion • 条件付き分布𝑞(𝑥|𝑦)をモデル化することで、yに関するデータをサンプリングできるようにしたい • 𝜖𝜃 (𝑥𝑘 , 𝑘) ∝ ∇𝑥𝑘 log 𝑝(𝑥𝑘 )から着想を得て、2通りの条件付けの方法が提案されている • Classifier-guidance:𝜖𝜃 𝑥𝑘 , 𝑘 − 𝜔 1 − 𝛼𝑘 ∇𝑥𝑘 log 𝑝(𝑦|𝑥𝑘 ) – ノイズがのったデータ𝑥𝑘 を用いて、分類器𝑝(𝑦|𝑥𝑘 )を訓練する必要がある – 分類モデルの損失勾配で重みづける • Classifier-free:𝜖𝜃 𝑥𝑘 , 𝑘 + 𝜔(𝜖𝜃 𝑥𝑘 , 𝑦, 𝑘 − 𝜖𝜃 𝑥𝑘 , 𝑘 ) – 拡散モデルの訓練時に、𝑦で条件づけられた 𝜖𝜃 𝑥𝑘 , 𝑦, 𝑘 をモデル化する必要がある – 𝜖𝜃 𝑥𝑘 , 𝑘 は、 𝜖𝜃 𝑥𝑘 , ∅, 𝑘 とみなす [5] 8
4. 提案手法:全体像 • 目標:max E𝜏~𝐷 [log 𝑝𝜃 (𝑥0(𝜏)|𝑦(𝜏))] 𝜃 • Hタイムステップ分の状態の組 𝑥𝑘 𝜏 = (𝑠𝑡 , 𝑠𝑡+1 , … , 𝑠𝑡+𝐻−1 )𝑘 を考える • 𝑞(𝑥𝑘+1 (𝜏)|𝑥𝑘 (𝜏)), 𝑝𝜃 (𝑥𝑘−1 (𝜏)|𝑥𝑘 𝜏 , 𝑦(𝜏))として、拡散モデルを構築 • 二つの連続した時間における状態𝑠𝑡 , 𝑠𝑡+1 をもとに、行動𝑎𝑡 を推論する - 𝑎𝑡 = 𝑓𝜙 (𝑠𝑡 , 𝑠𝑡+1), 𝑓𝜙 は訓練データから学習する関数 9
4. 提案手法:classifier-free guidanceによるプランニング • 𝑥𝑘 𝜏 = (𝑠𝑡 , 𝑠𝑡+1, … , 𝑠𝑡+𝐻−1)𝑘 により、拡散モデルを構築 • 拡散モデルをプランニングに用いるには、報酬や制約𝑦(𝜏)で条件付ける必要性 1. 分類器 𝑝𝜙(𝑦(𝜏)|𝑥𝑘 (𝜏)) を訓練し、ノイズがのった軌跡𝑥𝑘 (𝜏)から𝑦(𝜏)を予測する手法 – 𝑦(𝜏)として報酬を与える場合、一般にQ関数を予測する必要があり、RL的手法と同様の問題 2. Classifier-freeによる条件付け 𝜖Ƹ = 𝜖𝜃 𝑥𝑘 𝜏 , ∅, 𝑘 + 𝜔(𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 − 𝜖𝜃 (𝑥𝑘 𝜏 , ∅, 𝑘)) - ガウスノイズ𝑥𝐾 (𝜏)から始まり、上の式に従って𝑥𝑘 , 𝑥𝑘−1へとデノイズしていく 10
4. 提案手法:報酬以外の条件付け • 𝑦(𝜏)による条件付けについて、報酬、制約、行動の3つによる条件付けが考えられる 1. 報酬 (return): 𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 = 𝜖𝜃 𝑥𝑘 𝜏 , 𝑅 𝜏 , 𝑘 - 報酬は𝑅 𝜏 ∈ [0,1]で規格化, 高い報酬を得たい場合は、 𝑅 𝜏 =1とする 2. 制約 (constraint): 𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 = 𝜖𝜃 𝑥𝑘 𝜏 , 1(𝜏 ∈ 𝐶𝑖 ), 𝑘 - 制約の集合𝐶𝑖 を満たすように条件付ける - 制約について、one-hot encodingを行う - 訓練データは一つの制約で条件付けられているが、推論時は複数の制約で条件付け可能 3. 行動 (skill): 𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 = 𝜖𝜃 𝑥𝑘 𝜏 , 1(𝜏 ∈ 𝐵𝑖 ), 𝑘 - 行動の集合𝐵𝑖 で条件付ける、他は2と同じ 11
4. 提案手法:モデルの訓練 𝐿 𝜃, 𝜙 = E𝑘,𝜏∈𝐷,𝛽~𝐵𝑒𝑟𝑛(𝑝) 𝜖 − 𝜖𝜃 𝑥𝑘 𝜏 , 1 − 𝛽 𝑦 𝜏 + 𝛽∅, 𝑘 2 2 + E(𝑠,𝑎,𝑠′ )∈𝐷 [ 𝑎 − 𝑓𝜙(𝑠, 𝑠 ′ ) ] で損失関数を定義. • 第一項について:各軌跡𝜏について、𝜖~𝑁(0, 𝐼)と𝑘~𝒰{1, … , K}をサンプリングし、 𝑥𝑘 𝜏 を構築した後、 𝑥𝑘 𝜏 に のっているノイズを予測するように𝜖𝜃 を学習する • 第二項について:訓練データセット中の、任意の連続する2つの状態遷移(𝑠, 𝑠 ′ )を元に、行動aを予測する関数 𝑓𝜙を学習する 12
5. 実験 • D4RLデータセットを用いて、既存のオフライン強化学習による手法と比較 • 報酬を最大化するような軌跡を出力することができるという点において、既存手法を大きく上回 る 13
5. 実験 • BlockHeight(赤)>BlockHeight(青)のような制約を与え、どの程度制約を満たす軌跡を出力でき るか実験した • 下の段は、BlockHeight(赤)>BlockHeight(青)>BlockHeight(紫)のような複数の制約 – 訓練データには一つの制約によりラベル付けされたデータしか存在しないことに注意 • 実験1で用いたCQL等は、そもそもブロックを積むことにし失敗し、ほぼ0% 14
5. 実験 • 四足歩行のロボットが、複数の歩き方に関するスキルを獲得する様子を実験 • 左図は横軸がtimestepで、縦軸が歩き方に関する確率 • 各タイムステップごとに、どのような歩き方をしているかに関する確率を出力する分類器を別に訓 練 15
6. 考察・所感 • まとめ - 連続的な意思決定問題を、強化学習手法に代わり、条件付き生成モデルの枠組みで解 いた - 従来の強化学習手法を上回る結果を出した - 訓練データに見られる一つずつの制約や行動を、テスト時に柔軟に組み合わせ、複数の制 約や行動に対応することができた • 今後の展望 - 連続的な状態のエントロピーを活用することで、オンラインファインチューニングを行う - 報酬ではなく先の状態で条件付けたモデルを考えることで、予測の難しいより確率的な環 境に対応できるようにする 16
引用 [1] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical textconditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 2022. [2] Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, et al. Solving quantitative reasoning problems with language models. arXiv preprint arXiv:2206.14858, 2022. [3] Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. D4RL: Datasets for deep data-driven reinforcement learning. arXiv preprint arXiv:2004.07219, 2020. [4] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In Advances in Neural Information Processing Systems, 2020. [5] [DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and … (slideshare.net) 17