標的学習の基礎

27.2K Views

September 08, 22

#因果推論 #標的学習 #TMLE #機械学習 #疫学

スライド概要

2022年度統計関連学会連合大会日本計量生物学会40周年記念シンポジウム @成蹊大学｜2022年9月7日

Tomohiro Shinozaki

@she-knows-a-key

スライド一覧

Assoc prof at the University of Tokyo III and SPH. PhD in health sciences/MPH at the University of Tokyo. Causal inference in epidemiology/biostatistics.

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

因果推論II：モデルを用いた効果推定

因果推論

Tomohiro Shinozaki 92.5K

予測モデルの評価指標

予測モデル判別較正再分類ネットベネフィット

Tomohiro Shinozaki 63.6K

因果媒介分析

因果推論媒介分析時間依存性交絡

Tomohiro Shinozaki 50.3K

因果推論I：因果推論の基礎

因果推論

Tomohiro Shinozaki 37K

因果媒介分析：時間依存性交絡がある場合

媒介分析因果推論時間依存性交絡

Tomohiro Shinozaki 29.8K

臨床試験と因果モデル

因果推論

Tomohiro Shinozaki 16.6K

各ページのテキスト

2022年度統計関連学会連合大会 2022年9月7日13:00 –15:00 @成蹊大学 A会場（5号館102教室）日本計量生物学会40周年記念シンポジウム「計量生物学の発展と今後の展開」疫学・観察研究分野での計量生物学の発展：因果推論を中心として標的学習の基礎 10 min+ で紹介する東京理科大学工学部情報工学科篠崎智大 [email protected]

標的学習 targeted learning 観察データ分布 P の汎関数パラメータ ψ(P) を標的（estimand）とした統計的推測のために、観察分布 P をデータから学習する • 観察分布 P に対する仮定は（ほとんど）必要ない • P に課すモデルはノンパラメトリックでよいが、パラメトリックでもよい • 標的学習 = 因果推論ではない • あくまで観察できる P 上でのパラメータを推定するための原理 2

因果モデル、仮定、因果パラメータ、識別 • 潜在アウトカムモデル • Y a ： A = a に対する潜在アウトカム対象者 A Y a=1 Y a=0 Y Causal effect Y a=1 – Y a=0 A 1 1 1 1 0 B 1 1 0 1 1 C 0 0 0 0 0 D 0 1 0 0 1 E 1 0 1 0 –1 F 0 1 1 1 0 G 0 1 0 0 1 3

標的は統計パラメータ E[Y a] = ∑l E[Y|A = a, L = l] P(L = l) • データ解析タスクは、あくまで観察データ分布の学習 • 因果パラメータは解釈性のため用意される • 因果パラメータは、標的パラメータを整理する上でも土台となる 6

Causal Roadmap ：推測と解釈の切り分け vdL & Rose, 2011; 2018 Ho et al. SBR 2022 7

なぜ「標的化」が必要か？ E[Y a] = ∑l E[Y|A = a, L = l] P(L = l) • 差し込み（plug-in）型推定量 • E[Y|A = a, L = l] = Q(a, l) に対する尤度最大化（= 損失関数最小化） • 標的パラメータはちがう： ψ = EL{E[Y|A = a, L]} • Q(a, l) の損失最小化は、 ψ に対しては不適切なバイアス・分散トレードオフ • 機械学習を用いて推定した場合、より顕著 • (a, l) ごとの Q(a, l) を求めるため高次元の L ではバイアスより分散を重視して損失最小化 • ψ � の漸近バイアス（plug-in bias）の収束レートが非常に遅い（ n-一致性に不達） 8

TMLE • 標的型最尤推定量 targeted maximum likelihood estimator • または、標的型最小損失推定量 targeted minimum loss-based estimator • 標的学習のための推定量構成原理のひとつ • 想定するモデル（ノンパラメトリック） • 観察データ： Oi = (Ai, Yi, Li) ~ P, i.i.d. • 標的パラメータ • 観察データ確率分布 P の汎関数： ψ(P) • 例：平均因果「効果」パラメータ ψ(P) = E{E[Y|A = a, L]} = ∫ E[Y|A = a, L = l]dF(l) 9

10.

TMLE • 標的型最尤推定量 targeted maximum likelihood estimator • または、標的型最小損失推定量 targeted minimum loss-based estimator • 標的学習のための推定量構成原理のひとつ • 想定するモデル（ノンパラメトリック） 1. AIPW 推定量と漸近的に同等 •2. 観察データ： Oi = (Ai, Yi, Li) ~ P, i.i.d. 二重ロバスト性をもつ 3. アウトカム回帰 Q(a, l) と傾向スコア π(l) がそれぞれ n–1/4 より速いオーダーで一致推定 • 標的パラメータされれば漸近有効 • 観察データ確率分布 P の汎関数： ψ(P) • Q(a, l) と π(l) をモデル化するセミパラメトリック推定量 or ノンパラメトリック推定量（機械学習） •4. 例Q(a, ：平均因果「効果」パラメータ l) と π(l) をデータ適応的に（機械学習などで）推定しても統計的推測OK ψ(P) = E{E[Y|A = a, L]} = ∫ E[Y|A = a, L = l]dF(l) • 標的パラメータの有効影響関数を影響関数にもつように構成 10

11.

E{E(Y|A = a, L)} の TMLE • 流れ 1. E[Y|A = a, L = l] を推定 • パラメトリックモデルでもよい • P をノンパラメトリックのまま推定したいなら機械学習を利用 2. 1 の推定量を更新 • ψ(P) = E{E[Y|A = a, L]} の標的化には P(A = 1|L = l) の推定が必要 3. 更新した E[Y|A = a, L = l] の推定値で plug-in 推定 11

12.

E{E(Y|A = a, L)} の TMLE � 0(a, l) � • E(Y|A = a, L = l) = Q • 損失関数を適当に定めた回帰モデル or 機械学習 • 対数尤度、二乗誤差、疑似対数尤度、… • 初期推定量 � = 1| L = l) = π� (l) • P(A • 標的パラメータに向けたアップデート • 作業ロジスティック回帰モデルオフセット � 0(Ai, Li) ➡Q ➡ π� (Li) クレバー共変量 a 1–a 0 � logit E[Y|A = a, L = l] = logit Q (a, l) + ε1 � + ε2 π(l) 1 – π� (l) � 0(a, l) と同じ損失関数からクレバー共変量の係数 (ε1, ε2) を推定 •Q 12

13.

E{E(Y|A = a, L)} の TMLE � 0 からアップデートされた Q �* •Q a 1–a * 0 � � ] Q (a, l) = expit [logit Q (a, l) + ε�1 � + ε�2 � π(l) 1 – π(l) ε = (ε1, ε2)T のスコア方程式 Ai � *(Ai, Li)} = 0 Σi � {Yi – Q π(Li) 1 – Ai � *(Ai, Li)} = 0 Σi – Q {Y i 1 – π� (Li) を満たすように (�ε1, ε�2) を選んでいる 13

14.

E{E(Y|A = a, L)} の TMLE � 0 からアップデートされた Q �* •Q a 1–a * 0 � � ] Q (a, l) = expit [logit Q (a, l) + ε�1 � + ε�2 � π(l) 1 – π(l) � *(a, Li)] = �Q •ψ � TMLE = E[ n �∗ ∑i=1 Q (a, n Li) • 二重ロバスト推定量になっている Ai � ∗(1, Li) Y − Q i π� (Li) � *(0, Li)] + E � ∗(0, Li) �Q � 1 − Ai Yi − Q • a=0:ψ � TMLE = E[ 1 − π� (Li) � *(1, Li)] + E �Q � • a=1:ψ � TMLE = E[ 0 14

15.

TMLE の漸近性質 • 影響関数 • 推定量に特有 n –1 •ψ � – ψ = n ∑i=1 IF(Oi) + oP(1/ n) • 正則条件下で ψ � の漸近分布を支配 • 有効影響関数 • パラメータに特有 • そのパラメータのRAL推定量が漸近的に達成できる分散の下限に対応 • 影響曲線 influence curve （IC）ともいう Kennedy, arXiv 2022 “Semiparametric doubly robust targeted double machine learning: a review” Hines et al., Am Stat 2022 “Demystifying statistical learning based on efficient influence functions” 15

16.

平均因果効果の有効影響関数 IC(O) • ψ(P) = E{E[Y|A = 1, L] – E[Y|A = 0, L]} IC(Oi) = Ai 1 – Ai – {Yi – Q(Ai, Li)} + Q(1, Li) – Q(0, Li) –ψ π(Li) 1 – π(Li) Kennedy, arXiv 2022 “Semiparametric doubly robust targeted double machine learning: a review” Hines et al., Am Stat 2022 “Demystifying statistical learning based on efficient influence functions” • TMLE � 0(a, Li) を Q � *(a, Li) に更新 • Σi IC(Oi) = 0 となるように Q � * で第1項は常に 0、 plug-in 推定量は第2項以降 = 0 として得られる •Q • AIPW • Σi IC(Oi) = 0 を推定方程式として ψ � を直接得る 16

17.

超学習器 super learner • アンサンブル学習の一種であり、その理論 • 複数の学習器で予測 • 各予測の重み付け平均（convex combination） • 上限のバウンドされた損失関数を交差検証で最小化すれば、個々の学習器のうち最良のものと同等の損失達成が保証される • 色々な学習器をひたすら突っ込んでおけば性能が保証される • Rパッケージ（sl3）、SASマクロ（SuperLearner）で実装は容易 van der Laan et al., 2022+ “Targeted Learning in R: Causal Data Science with the tlverse Software Ecosystem” Keil et al, arXiv 2019 “Super learning in the SAS system” 17

18.

超学習器 super learner van der Laan & Rose, 2011 “Targeted Learning: Causal Inference for Observational and Experimental Data” van der Laan et al., 2022+ “Targeted Learning in R: Causal Data Science with the tlverse Software Ecosystem” 18

19.

「医学のための標的学習の基礎 I / II」 • Part I ：観察研究における標的学習（田栗・篠崎） • • • • • 交絡調整とは交絡調整に必要な仮定で標的パラメータを決めてはいけない TMLE の基礎理論と推定アルゴリズム super learner 回帰モデルのパラメータを、モデルの仮定なしに推定、解釈する • Part II ： RCT における共変量調整（山本・林） • 一般化線形モデルによる plug-in 推定量の頑健性 • TMLE との関連 • アウトカムの型に応じた TMLE の例 19

20.

まとめ • 因果パラメータと統計パラメータを区別 • 標的学習における標的は統計パラメータ • 因果パラメータを知りたい場合は両パラメータを一致させる識別仮定を要する • 統計パラメータはなるべく仮定なく定義したい • データに仮定する確率分布はノンパラメトリックが望ましい • 仮定なく定義されたパラメータは、仮定なく推定できるとなお良い • super learner をはじめとする機械学習などのノンパラメトリック法 • TMLE は標的パラメータの統計的推測に正当化を与える原理的推定量のひとつ 20