[DL輪読会]Deep Learning 第18章分配関数との対峙

530 Views

June 01, 18

#Deep Learning #対数尤度 #確率的最尤法 #スコアマッチング #分配関数の推定

スライド概要

2018/01/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

Deep Learning 輪読会 2017 第18章分配関数との対峙理学系研究科附属天文学教育研究センター学部4年吉村勇紀

構成 18.1 対数尤度 18.2 確率的最尤法 18.3 疑似尤度 18.4 スコアマッチングとレシオマッチング 18.5 雑音除去スコアマッチング 18.6 雑音対照推定 (NCE) 18.7 分配関数の推定

18.1 対数尤度 • 非正規化確率分布の正規化 – 正規化定数の計算は多くのモデルで一般に困難である • 対数尤度の勾配 – 分配関数に対応する項が生じる（負項） – 以下負項をMCMCする手法を見る

18.2 確率的最尤法とコントラスティブ・ダイバージェンス • 尤度関数最大化に対するMCMCの単純な適用 – 勾配1ステップ毎に混合を行う

18.2 確率的最尤法とコントラスティブ・ダイバージェンス • CDアルゴリズム – マルコフ連鎖の初期分布としてデータ分布を用いる

18.2 確率的最尤法とコントラスティブ・ダイバージェンス • CDアルゴリズムの問題点 – 偽モードの出現 – RBMや可視変数ボルツマンマシンでは最尤推定値に収束しない – CDの更新方向はいかなる関数の勾配方向にならない

18.2 確率的最尤法とコントラスティブ・ダイバージェンス • SML(PCD)アルゴリズム – マルコフ連鎖の初期分布として前の勾配ステップの分布を用いる

18.3 疑似尤度 • 分配関数を計算せずに対数尤度を求める方法 – 条件付き確率の和で対数尤度を擬似的に表す – 条件付き確率は確率の比なので分配関数は打ち消して現れない – 疑似尤度 • 一般化疑似尤度 – インデックス集合として一般化 – 密度推定など完全な同時分布が必要なタスクには向かない – 相関がなるべくないようなインデックス集合が取れれば強力

18.4 スコアマッチングとレシオマッチング • スコアマッチング – モデル対数密度の入力微分とデータ対数密度の入力微分の二乗誤差を最小にする – 分配関数はxの関数ではないので、微分を取ることで落ちる – L(x,θ)の最小化は次の期待値の最小化と同じ – 対数密度の微分、二回微分が必要

10.

18.4 スコアマッチングとレシオマッチング • レシオマッチング – スコアマッチングの離散データへの拡張 – 次の目的関数の事例平均を最小化する – 計算量はSMLのn倍 – 二値データや高次のスパースなデータ（単語など）に適用される

11.

18.5 雑音除去スコアマッチング • スコアマッチングの正則化 – 新のデータ分布ではなく、次の分布に置き換える – 実際には真のデータ分布ではなく経験分布しか使えないから – 一致推定量の漸近的一致性は失われる

12.

18.6 雑音対照推定 (NCE) • 分配関数も同時に推定する – 次の対数尤度からパラメータと分配関数の近似値を同時に推定する – 単純な尤度最大化は不適（cが大きくなるだけ） – ノイズ分布を導入してスイッチ変数で切り替える

13.

18.7 分配関数の推定 • 重点サンプリング – 一般にp_1は高次元の複雑な分布なので質の悪い推定になってしまう

14.

18.7 分配関数の推定 • 焼きなまし重点サンプリング – が大きい時に中間分布を挟んで隔たりを埋める方法 – 分配関数の比は次のように表せる – 中間分布 -> 加重幾何平均をよく用いる – 中間分布のサンプリングはMCMC

15.

18.7 分配関数の推定 • 焼きなまし重点サンプリング – 手順 – 重要度重み – 分配関数の近似

16.

18.7 分配関数の推定 • ブリッジサンプリング – １つの中間分布（ブリッジ）で補間する – が大きい場合にも適用しうる – 最適なブリッジ分布 – 粗いrから始めて更新していく – AISとブリッジサンプリングを組み合わせた手法も提案されている

17.

�� • ��9�D�D� – 69D��9 ��D��9��D�� – �� 9�9��D�� 69D��

[DL輪読会]Deep Learning 第18章 分配関数との対峙