5.2K Views
May 14, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP Diffusion Models for Non-autoregressive [Diffusion Papers] Text Generation: A Survey ⾼城 頌太(東京⼤学 ⼯学系研究科 松尾研 D1) http://deeplearning.jp/ 1
書誌情報 タイトル: Diffusion Models for Non-autoregressive Text Generation: A Survey https://arxiv.org/abs/2303.06574 IJCAI 2023 Survey Track 著者: Yifan Li, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen 概要: Diffusionを⽤いたテキスト⽣成に関するサーベイ 2
テキスト⽣成のアプローチ • ⾃⼰回帰モデル(Autoregressive model: ARモデル) – 前から順に単語を⽣成 • ⾮⾃⼰回帰モデル(Non-autoregressive model: NARモデル) – 各単語を同じタイミングで出⼒ 特にNARモデルに対して拡散モデルを適⽤した⼿法がいくつか提案されている (※ARモデルでも拡散モデル適⽤する⽅法もあり) 3
テキスト⽣成のためのdiffusion modelの歴史 • Image, Video, Audioでdiffusion modelが⼤きな成功を集めているが,textではま だうまくいっていない • Diffusionを⽤いたテキスト⽣成に関する論⽂も年々増えてはいる Diffusion models in text generation: a survey 4
Diffusion Model Forward diffusion process Loss function Reverese diffusion process 5
Text Diffusion Models • 与えれた⼊⼒データに基づいて,ランダムノイズを⽬的のテキストに付与する • ノイズの掛け⽅は離散 or 連続にかける⽅法がある • ARモデルと⽐較するとNARモデルは推論時間は短縮されるが,NARモデルだと単 語の依存関係を考慮できないため精度は低下する 𝒴: target text, c: context, t: timestep 6
Diffusion Modelを離散のテキストに適応 • Discrete Text Diffusion Model – tokenのように離散的なものを扱うモデル – token⾃体にノイズをかけそれを取り除くように学習 • Continuous Text Diffusion Model – embeddingのような連続的な値をもつものを扱うモデル – embeddingに対してノイズをかけ,それを取り除くように学習 7
Discrete Text Diffusion Model: D3PM • 離散値に対して拡散モデルを適⽤するために提案 • カテゴリ分布に対して拡散モデルを適⽤し,ノイズ付与する操作の代わりに独⾃ な操作を導⼊(Q: 遷移確率⾏列) Forward diffusion process where 式変形: https://beckham.nz/2022/07/11/d3pms.html 8
Discrete Text Diffusion Model: D3PM Qの具体的な処理について • Uniform – ⼀様分布を加え,⼀定の確率で他の語彙に変化させる操作 • Absorbing state – ⼀定の確率でトークンが[MASK]になるようにする操作 • Discretized Gaussian – 通常の拡散モデルと同様にガウシアンノイズを加える操作 • Token embedding distance – ⼀定の確率で類似性が⾼いトークンに変化させる Structured Denoising Diffusion Models in Discrete State-Spaces 9
Discrete Text Diffusion Model: D3PM 実験結果では,absorbing stateが最もNLLが低い 10
Continuous Text Diffusion Model: Diffusion-LM • 単語のembeddingに対して拡散モデルを適⽤させる • 離散のテキストから埋め込みへ変換するEmbedding Stepと埋め込みからテキス ト変換するRounding Stepを同時に学習 Embedding Step Rounding Step Loss function 11
Continuous Text Diffusion Model: Diffusion-LM 学習時の⼯夫について Reducing Rounding Errors - 全ての時刻tでxtからx0を予測することによって単語のembeddingを学習する Controllable Text Generation - 制約を満たすように 12
Continuous Text Diffusion Model: Diffusion-LM • Infilling taskで⽐較⼿法より⾼いスコア • ARモデルにはHuman Evalでは負けている 13
拡散モデルにおけるテキスト⽣成のポイント • Denoising Network – 基本的にはTransformerベースのモデルを使⽤ – 事前学習モデルを使⽤することで性能改善(BERT, RoBERT) • Noise Schedule – ノイズをどのように付与するか – LinearSchedule, Cosine Shcedule, Mutual Information Schedule, Sqrt Schdule… • Objective Function – X0-parameterized Loss • hogehoge – AuxialiaryLoss • hogehoge • Conditioning Strategy – Unconditional Generation – Attribute to text generation – Text to text generation 14
事前学習済みモデルの使⽤ • 事前学習済みモデルをDenoising Networkとしての利⽤ – DiffusionBERT, Diffusion-NAT • 潜在空間への埋め込みに事前学習済みモデルを使⽤ – LD4LG, LatentOps • Text Diffusion Modelに特化した事前トレーニング – continuous paragraph denoising (CPD) 15
潜在空間への埋め込みに事前学習済みモデルを使⽤: LD4LG • 事前学習済みのBARTやT5を⽤いて潜在表現上でデノイジング 16
潜在空間への埋め込みに事前学習済みモデルを使⽤: LD4LG 17
Text Diffusion Modelの種類 18
Text Diffusion Modelの結果⽐較 Diffusion models in text generation: a survey 19
Thank you. 20