10.4K Views
September 08, 22
スライド概要
2022年9月7日統計関連学会連合大会のセッション「医療統計学のフロンティア」にて発表しました。
興味:統計モデリング, 強化学習, 因果推論, Stan, R, Python, 理工学書, 教育。主な著書は『StanとRでベイズ統計モデリング』。技術的なブログ, 本, 論文, QAサイトの回答を書いている人が好き。なぜならそれらで独習することが多かったから。
用量反応試験における 患者の割り付けの深層強化学習による最適化 2022.09.07 *松浦 健太郎 (東京理科大学大学院) 本多淳也 (京都大学/理研AIP) Imad El Hanafi (ENSTA Paris/理研AIP) 寒水孝司 (東京理科大学) 坂巻顕太郎 (横浜市立大学)
発表の流れ 概要 MCP-Mod の詳細 評価項目 の詳細 割り付け方法 の先行研究 提案手法 シミュレーション による評価 2
発表の流れ 概要 MCP-Mod の詳細 評価項目 の詳細 割り付け方法 の先行研究 提案手法 シミュレーション による評価 3
第2相試験の主な目的 (抗癌剤以外) 4 • 用量反応曲線の推定 • 用量(dose)と反応(response)の関係を明らかにする • 至適用量(target dose)の推定 • 第3相試験で用いる用量を決める これらの精度が悪いと… • 効果量の推定誤差が大きいと、結果的に第3相試験で有意にならない。 • 用量の選択に失敗すると、試験だけでなく市販後にも損失が大きい。
典型的な第2相試験 5 • 患者の数 𝑁:はじめに固定する。50~300人ぐらい。 • 用量の数 𝐾:用量0を含めて3~6個ぐらい。 • 患者の割り付け方法:あらかじめ全員を均等に割り付ける。 • 𝑁 = 150人を30人ずつ𝐾 = 5個の用量へ割り付けた例: 𝑌: 観測した反応 𝜇: 用量反応曲線 (推定したいもの) 用量0における効果との差 に興味がある
用量反応曲線を推定する方法 6 • 多くの方法が研究されている [2,3]: ANOVA, MCP-Mod, Bayesian model averaging (BMA) など。 • 各手法は用量反応曲線に対して仮定/事前知識を持つ。 MCP-Mod モデルの候補など BMA モデルと事前分布 https://cran.r-project.org/web/packages/dreamer/vignettes/dreamer.html
評価項目 シミュレーション研究では、手法を評価するために以下の 項目がよく使用される [4,5]。 • Power / Type I error rate • 至適用量の正解率 • Mean Absolute Error (MAE) 7
本研究の目的 仮定/事前知識のもと、最適化したい評価項目が良くなるよ うに、各患者を用量𝑘 ∈ 1, … , 𝐾 に割り付ける方法の構築 状態𝑠において、最適な割り付けルール𝜋 ∗ 𝑘 𝑠 を計算する 方法の構築 (ここで𝜋 ∗ は離散分布) 8
∗ 𝜋 𝑘 𝑠 の例 9 Question:最終的に𝑁 = 150人でMCP-Modで曲線を推定する。 現時点で100人で以下の状況とする: 26人 15人 10人 29人 20人 次の10人を割り付けるとき、 MAEを最小化するためには どういう確率で割り付けるべきか? Answer:𝜋 ∗ 𝑘 𝑠 = 0.39, 0, 0, 0.19, 0.42 で割り付ける。
発表の流れ 概要 MCP-Mod の詳細 評価項目 の詳細 割り付け方法 の先行研究 提案手法 シミュレーション による評価 10
MCP-Modとは 11 • 用量反応曲線を推定して至適用量を決定する手法の一つ。 • Bretzら(2005)[2]の提案後も拡張され続けている。 EMAのガイドライン(2014)、FDAのガイドライン(2016)、 使いやすいRパッケージ{DoseFinding}の存在もあり、 最近の臨床試験でよく使われている。 • 本研究では割り付けによる影響にフォーカスするため、 用量反応曲線の推定にはMCP-Modを使うことにする。 • 他の手法を使う場合でも同様に拡張できる。
試験開始前に行うこと • 事前知識/仮定から以下を定める。 • 指定する必要があるもの: • • • • • • • 候補となる複数のモデル 各モデルの形状パラメータの値 各モデルの事前確率 用量範囲における最大の効果 (観測の分散) 臨床的に意義のある効果 有意水準 これらの仮定は、後述 する強化学習において、 データを生成するため に使われる 12
試験終了後に行うこと 第一段階 (MCP: Multiple Comparison Procedure) 13 • 各モデルについて、検出力を高める対比係数𝑐𝑘 を計算する。 • 各モデルについて以下の統計量𝑇を計算し、用量反応関係 があるか否か(non-flatか否か)を多重検定で判定する: σ𝐾 𝑘=1 𝑐𝑘 𝑌𝑘 𝑇= 2 𝜎 σ𝐾 𝑐 𝑘=1 𝑘 /𝑛𝑘 ここで、𝜎 2 はプールされた分散の推定値: 𝜎 2 2 𝑛𝑘 𝐾 = σ𝑘=1 σ𝑖=1 𝑌𝑘𝑖 − 𝑌𝑘 / σ𝐾 𝑘=1 𝑛𝑘 − 𝐾 𝐾:用量の数 𝑘:用量の添字 𝑌𝑘 :用量𝑘に割り付けた患者の反応の平均値 𝑛𝑘 :用量𝑘に割り付けた患者数
試験終了後に行うこと 第二段階 (Mod: Modeling) • 有意だったモデルを各々あてはめ、形状パラメータ(曲線) を推定する。 • AIC(または統計量𝑇)によってモデルを選択する。 • 推定した曲線を用いて至適用量を推定する。 14 14
MCP-Modの適用例 • • • • • • • • 試験開始前 候補となる複数のモデル:下図 各モデルの形状パラメータの値:下図 各モデルの事前確率:1/3ずつ 用量範囲における最大の効果:下図 観測の分散:各用量で4.5 臨床的に意義のある効果:𝛿 = 1.3 有意水準:0.025 (片側) 𝑛𝑘 = 30, 30, 30, 30, 30 15
MCP-Modの適用例 𝑇 linear emax sigEmax 3.35 2.16 3.79 試験終了後 調整後 AIC p値 0.0010 677.340 0.0291 <0.001 677.378 𝛿 = 1.3 至適用量の推定値: 5.9mg 16
発表の流れ 概要 MCP-Mod の詳細 評価項目 の詳細 割り付け方法 の先行研究 提案手法 シミュレーション による評価 17
評価項目 (再掲) シミュレーション研究では、手法を評価するために以下の 項目がよく使用される [4,5]。 • Power / Type I error rate • 至適用量の正解率 • Mean Absolute Error (MAE) 18
評価項目① Power/Type I error rate 19 Power • 真の用量反応曲線がnon flatのときに、non flatと判定する 確率。 • 用量が増えると効果が上がるか(Proof of Concept) を示す。 Type I error rate • 真の用量反応曲線がflatのときに、non flatと判定する確率。 • 閾値未満(<0.025(片側)など)に抑える必要がある。
評価項目② 至適用量の正解率 推定した至適用量が真の至適用量に近い確率。 ここでは、試験前に定めた「臨床的意義のある効果」を満たす最小の用 量を至適用量と定義する (Minimum Effective Dose)。 𝛿 = 1.3 • 推定した曲線𝜇を用いて、上記の定義に従い至適用量を推定する。 ො • 真の曲線𝜇において効果が𝛿 × 1 ± 0.1 に対応する用量の範囲内に、 推定した至適用量が収まれば正解とする。 20
評価項目③ Mean Absolute Error (MAE) 推定した用量反応曲線と真の用量反応曲線の誤差。 𝐾 1 MAE = 𝜇Ƹ 𝑑𝑘 − 𝜇Ƹ 𝑑1 𝐾−1 − 𝜇 𝑑𝑘 − 𝜇 𝑑1 𝑘=2 推定した曲線 真の曲線 𝐾:用量の数 𝑘:用量の添字 𝑑𝑘 :用量の値 (なお𝑘 = 1はPlacebo群で𝑑1 = 0) 𝜇 𝑑𝑘 :真の用量反応曲線で𝑑𝑘 における反応の値 𝜇Ƹ 𝑑𝑘 :推定した用量反応曲線で𝑑𝑘 における反応の値 21
発表の流れ 概要 MCP-Mod の詳細 評価項目 の詳細 割り付け方法 の先行研究 提案手法 シミュレーション による評価 22
先行研究 23 最適な患者の割り付け方法 • D-optimal [6] • TD-optimal [7] • (Response Adaptive Randomization [8]) 先行研究の問題点 • 患者数𝑁が非常に多い場合の漸近論をもとにしている。 ➔ 現実的な患者数では、評価項目が良くなるとは限らない。
先行研究① D-optimal 24 曲線の形状を定めるパラメータの推定値のバラつきがなる べく小さくなるように割り付ける。 具体的には、以下を最小化するように割り付ける。 𝑀 𝑝𝑚 − log det 𝑀𝑚 𝑘𝑚 𝑚=1 𝑀𝑚 :モデル 𝑚 をあてはめたときのフィッシャー情報行列。 𝑝𝑚 :モデル𝑚の確率。 𝑘𝑚 :モデル𝑚のパラメータ数。
先行研究② TD-optimal 至適用量の推定値のバラつきがなるべく小さくなるように 割り付ける。 具体的には、以下を最小化するように割り付ける。 𝑀 𝑝𝑚 log 𝑣𝑚 𝑚=1 𝑝𝑚 :モデル𝑚の確率。 𝑣𝑚 :モデル𝑚をあてはめた場合に、至適用量の推定値の漸 近分散に比例する量。 25
(参考) Response Adaptive Randomization 26 試験期間中に得られる累積報酬(ここでは反応の合計)を最 大化するように割り付ける (今やりことと異なる)。 具体的には、𝑑𝑘 における反応の事後分布からサンプリング を行い、そのサンプリングの値が最も高い𝑘に次の人を割り 付ける。 多腕バンディット理論におけるThompson samplingと等価。
発表の流れ 概要 MCP-Mod の詳細 評価項目 の詳細 割り付け方法 の先行研究 提案手法 シミュレーション による評価 27
提案手法における試験の流れ MCP-Modの仮定を決める MCP-Modの仮定を環境として 強化学習で𝜋 ∗ 𝑘 𝑠 を求める 試験開始 𝜋 ∗ 𝑘 𝑠 に従って 𝑁block 人ずつ患者を割り付ける 試験終了 MCP-Modで 用量反応曲線と至適用量を推定する 28
提案手法における試験の流れ MCP-Modの仮定を決める MCP-Modの仮定を環境として 強化学習で𝜋 ∗ 𝑘 𝑠 を求める 試験開始 𝜋 ∗ 𝑘 𝑠 に従って 𝑁block 人ずつ患者を割り付ける 試験終了 MCP-Modで 用量反応曲線と至適用量を推定する 29
状態𝑠が単純な問題においては 30 • backward inductionやモンテカルロ法で、 状態𝑠の価値𝑉 𝑠 と𝜋 ∗ 𝑎 𝑠 を推定可能。 • 参考: • 坂巻ら『ベイズ流決定理論を用いる臨床試験:効用と サンプルサイズ設計』[9] • 本研究では非常に時間がかかり、現実的ではない。
強化学習 • すべての𝑠について膨大なデータを得たあとで 𝑉 𝑠 と𝜋 ∗ 𝑎 𝑠 を求めるのではなく、 • 𝑉 𝑠 と𝜋 ∗ 𝑎 𝑠 を学習しながら能動的にデータを 取得していく。 • 探索と(データ)活用のジレンマを解く 31
強化学習の枠組み 32 ②𝜋 𝑎 𝑠 に従って行動𝑎を選択する エージェント (行動を選ぶ主体) 環境 ①初期状態𝑠を生成する ③行動𝑎をうけ、状態𝑠を𝑠′に更新して 報酬𝑟を与える ④繰り返すと 𝑠, 𝑎, 𝑟, 𝑠 ′ の教師データが蓄積されていくので、 一定のタイミングで、累積報酬を最大化するように 𝜋 𝑎 𝑠 のパラメータを更新する
状態𝑠 各用量における、𝑌の平均の差・ 𝑌の標準偏差・割り付け た患者数の割合で状態を記述できると仮定した。 𝑛1 𝑛𝐾 𝑠 = 𝑌ഥ2 − 𝑌ഥ1 , 𝑌ഥ3 − 𝑌ഥ1 , … , 𝑌ത𝐾 − 𝑌ത1 , 𝜎ො1 , … , 𝜎ො𝐾 , , … , 𝑁 𝑁 プラセボ効果からの差に興味があるため 26人 15人 10人 29人 20人 33
行動𝑎 (行動𝑘) 次の𝑁block 人全員を用量𝑘 ∈ 1, … , 𝐾 に割り付ける。 34
報酬𝑟 本研究では試験終了時のみ非0とした。 • Powerの場合: 1 有意(non flatと判定)の場合 𝑟power = ቊ 0 その他 • 至適用量の正解率の場合: 𝑟TD = ቊ 1 選んだ至適用量が真の至適用量に近い場合 0 その他 • MAEの場合: 𝑟MAE = 1 − 2 × MAE 35
環境 MCP-Modの仮定を用いる。 • 試験開始時に、確率的に 真の用量反応曲線を選択し 𝜇 𝑑 を決める。 • はじめの割り付けで、𝑁ini 人を𝐾個の用量に等しく割り 付けて初期状態𝑠を生成する。 • 行動𝑘をうけて、𝑌 ~ 𝒩 𝜇 𝑑𝑘 , 𝜎 2 に従って𝑁block 人の データを生成し、状態𝑠を更新する。 • 試験終了時に、 MCP-Modで用量反応曲線を推定する。 • 各評価項目を算出して報酬𝑟に変換する。 36
強化学習の枠組み (再掲) 37 ②𝜋 𝑎 𝑠 に従って行動𝑎を選択する エージェント (行動を選ぶ主体) 環境 ①初期状態𝑠を生成する ③行動𝑎をうけ、状態𝑠を𝑠′に更新して 報酬𝑟を与える ④繰り返すと 𝑠, 𝑎, 𝑟, 𝑠 ′ の教師データが蓄積されていくので、 一定のタイミングで、累積報酬を最大化するように 𝜋 𝑎 𝑠 のパラメータを更新する
𝜋 𝑘 𝑠 のモデル 38 中間層2層のDeep Neural Networkで𝜋 𝑘 𝑠 を表現する。 𝐽 𝑧𝑗 1 = 𝑓 𝛼𝑗 1 1 + 𝛽𝑗𝑖 𝑠𝑖 , , 𝑧𝑗 2 𝑖 = 𝑓 𝛼𝑗 2 2 𝑗 ′ =1 𝐽 3 𝑢𝑘 = 𝛼𝑘 3 2 + 𝛽𝑘𝑗 ′ 𝑧𝑗 ′ , , , π 𝑘 𝑗 ′ =1 𝑓:活性化関数 (ReLU) 1 + 𝛽𝑗𝑗 ′ 𝑧𝑗 ′ = softmax 𝑢𝑘 exp 𝑢𝑘 = 𝐾 σ𝑘 ′ =1 exp 𝑢𝑘 ′
𝜋 𝑘 𝑠 のパラメータの学習 39 • パラメータ𝛼 1 , 𝛽 1 , 𝛼 2 , 𝛽 2 , 𝛼 3 , 𝛽 3 を動かすと、 𝜋 𝑘 𝑠 が変わり、長期的な累積報酬も変わる。 • 逆に、得られる累積報酬が大きくなるようにパラメータの 勾配を求めることができる。 ➔勾配に従ってパラメータを更新できる。 • 𝜋 𝑘 𝑠 が𝜋 ∗ 𝑘 𝑠 に収束するまで、データ生成を繰り返して パラメータを更新し続ける。 • 学習にはProximal Policy Optimization (PPO)を用いる[10]。
発表の流れ 概要 MCP-Mod の詳細 評価項目 の詳細 割り付け方法 の先行研究 提案手法 シミュレーション による評価 40
41 MCP-Modの仮定を決める MCP-Modの仮定を環境として 強化学習で𝜋 ∗ 𝑘 𝑠 を求める 試験開始 𝜋 ∗ 𝑘 𝑠 に従って 𝑁block 人ずつ患者を割り付ける 試験終了 MCP-Modで 用量反応曲線と至適用量を推定する
次の臨床試験を考える 42 用量反応曲線の推定にMCP-Modを使い、仮定は以下とする: • • • • • • • • 候補となる複数のモデル:下図 各モデルの形状パラメータの値:下図 各モデルの事前確率:1/3ずつ 用量範囲における最大の効果:下図 観測の分散:各用量で4.5 臨床的に意義のある効果:𝛿 = 1.3 有意水準:0.025 (片側) 最終的な患者数:𝑁 = 150人 先ほどのMCP-Modの 適用例と同じ設定
割り付け方法① 既存手法 43 • Equal:5つの用量に30人ずつ均等に割り付け • D-optimal 1:試験開始前に割り付け人数を1回だけ計算 • D-optimal 2:10人ずつ動的に計算 (上のadaptive版) • TD-optimal 1:試験開始前に割り付け人数を1回だけ計算 • TD-optimal 2:10人ずつ動的に計算 (上のadaptive版) D/TD-optimal 2では、各モデルの事前確率は1/3ずつとし、 3つの候補モデルのうち1つが真であることを既知とした上で、 ブロックごとに各モデルの確率𝑝𝑚 を更新して使った。 (既存手法に有利な状況)
割り付け方法② 提案手法 MCP-Modの仮定を決める MCP-Modの仮定を環境として 強化学習で𝜋 ∗ 𝑘 𝑠 を求める 試験開始 𝜋 ∗ 𝑘 𝑠 に従って 𝑁block 人ずつ患者を割り付ける 試験終了 MCP-Modで 用量反応曲線と至適用量を推定する 44
割り付け方法② 提案手法 • 𝑁ini = 50人を開始時に均等に割り付け • その後、𝑁block = 10人ずつ割り付け 強化学習で環境が生成した臨床試験の回数:約100万回 報酬を変えて強化学習で得られた割り付けルール: • RL-power:powerを最適化 • RL-TD:至適用量の正解率を最適化 • RL-MAE:MAEを最適化 45
割り付け方法② 提案手法 MCP-Modの仮定を決める MCP-Modの仮定を環境として 強化学習で𝜋 ∗ 𝑘 𝑠 を求める 試験開始 𝜋 ∗ 𝑘 𝑠 に従って 𝑁block 人ずつ患者を割り付ける 試験終了 MCP-Modで 用量反応曲線と至適用量を推定する 46
RL-MAEの動的な割り付け例 • 𝑁ini = 50人を開始時に均等に割り付けて反応を得る。 : このブロックにおける反応の観測 : このブロックより前における反応の観測 47
RL-MAEの動的な割り付け例 • 次の𝑁block = 10人を𝜋 ∗ 𝑘 𝑠 に従って割り付ける。 𝜋 ∗ 𝑘 𝑠 = 0.99, 0, _0, 0.01, 0 : このブロックにおける反応の観測 : このブロックより前における反応の観測 48
RL-MAEの動的な割り付け例 • 次の𝑁block = 10人を𝜋 ∗ 𝑘 𝑠 に従って割り付ける。 𝜋 ∗ 𝑘 𝑠 = 0.09, ___0.01, 0, 0.88, 0.02 : このブロックにおける反応の観測 : このブロックより前における反応の観測 49
RL-MAEの動的な割り付け例 • 次の𝑁block = 10人を𝜋 ∗ 𝑘 𝑠 に従って割り付ける。 𝜋 ∗ 𝑘 𝑠 = 0.15, ___0.27, 0, 0.57, 0.01 : このブロックにおける反応の観測 : このブロックより前における反応の観測 50
RL-MAEの動的な割り付け例 • …… 𝑁 = 150に達するまで繰り返す。 : このブロックにおける反応の観測 : このブロックより前における反応の観測 51
52 MCP-Modの仮定を決める MCP-Modの仮定を環境として 強化学習で𝜋 ∗ 𝑘 𝑠 を求める 試験開始 𝜋 ∗ 𝑘 𝑠 に従って 𝑁block 人ずつ患者を割り付ける 試験終了 MCP-Modで 用量反応曲線と至適用量を推定する
評価方法 • 評価用シナリオ:下図の13シナリオ (4 + 1モデル) MCP-Modの候補モデル = 強化学習の環境 • 各シナリオが真の場合に、1万回ずつ臨床試験をシミュ レーションして各評価項目の平均を推定した。 53
結果の一覧 • 学習曲線のようす • 評価項目 • Type I error rate ➔ 有意水準の決定 • Power • TD (至適用量の正解率) • MAE • 割り付けた人数の平均値 54
学習曲線のようす • 例:RL-MAE 55
Type I error rate better • Equalの場合、< 0.025であることが理論的に保証されている。 • RL-*の場合、理論的な保証はないので、有意水準を下げて < 0.025であることをシミュレーションベースで保証する。 • 新しい有意水準: • RL-power:0.0235, RL-TD:0.021, RL-MAE:0.0165 56
提案手法 Powerの平均 (4つのモデルに関する平均) better 環境に含まれていないモデルやMax effectの場合 においてもpowerが高くなっていた。 57
提案手法 TDの平均 (4つのモデルに関する平均) (至適用量の正解率) better 58
提案手法 MAEの平均 (4つのモデルに関する平均) better 59
割り付けた人数の平均値 (Max effect = 1.65) • 提案手法では0mgが増える。 • powerを上げるには0mgと8mgが重要 (理論上も)。 60
adaptivityが重要 • 前スライドで得られたRL-MAEの平均人数を、試験開始 時に固定で割り付けても各評価項目は改善されない (論文のsupplementary material参照)。 • 一回一回のRL-MAEの割り付けた人数は大きく異なる。 • 平均割り付け人数が重要なのではなく、結果を見て次を 決めるという適応性 (adaptivity) が重要である。 61
まとめ 62 • 用量反応臨床試験の問題は報酬の遅延が大きく観測ノイズ が大きい。そのため強化学習がうまくいくかは自明ではな かった。しかし問題やハイパーパラメータを適切に設定す ることにより、最適な患者の割り付けを実現できた。 • シミュレーションの設定は一般的なものであり、実際の臨 床試験への応用が期待できる。 • シミュレーション結果では、MAEを報酬に用いた場合に、 多少の環境の変化に対しても各評価項目で良好な結果で あった。
展望 • 用量反応曲線やtarget doseを強化学習内で行う方法も考 えられる。➔ 試したところ学習が不安定で、思ったよ うな性能が出なかった。 • powerを理論上最大にする割り付けは、0mgと8mgに75 人ずつ。その場合に計算されるpowerに比べると少しだ け値が低い。 ➔さらなるチューニングが可能かもしれない。 • 学習済みルールを運用するときは𝑁block 人のそれぞれを 確率的に(or 比例で)割り付けたのに、学習するときはな ぜ「全員」にしたか? ➔ 学習が遅くなる&安定しなかったため。 63
ソースコード 2024/10/04更新 64 • RパッケージがCRANとGitHubでリリースされました! – https://cloud.r-project.org/web/packages/RLoptimal/index.html – https://github.com/MatsuuraKentaro/RLoptimal • 実際の臨床試験へ適用する場合やシミュレーション研究を 行う場合にはこのパッケージをご使用ください。
References 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Matsuura K, Honda J, Hanafi IE, Sozu T, Sakamaki K. Optimal adaptive allocation using deep reinforcement learning in a dose-response study. Statistics in Medicine 2022; 41(7): 1157–1171. Bretz F, Pinheiro J, Branson M. Combining multiple comparisons and modeling techniques in dose-response studies. Biometrics 2005; 61(3): 738–748. Gould AL. BMA-Mod: A Bayesian model averaging strategy for determining dose-response relationships in the presence of model uncertainty. Biometrical Journal 2019; 61(5): 1141– 1159. Bornkamp B, Bretz F, Dmitrienko A, et al. Innovative approaches for designing and analyzing adaptive dose-ranging trials. Journal of Biopharmaceutical Statistics 2007; 17(6): 965–995. Dragalin V, Bornkamp B, Bretz F, et al. A simulation study to compare new adaptive doseranging designs. Statistics in Biopharmaceutical Research 2010; 2(4): 487–512. Dragalin V, Hsuan F, Padmanabhan SK. Adaptive designs for dose-finding studies based on sigmoid Emax model. Journal of Biopharmaceutical Statistics 2007; 17(6): 1051–1070. Dette H, Bretz F, Pepelyshev A, Pinheiro J. Optimal designs for dose-finding studies. Journal of the American Statistical Association 2008; 103(483): 1225–1237. Hu, F. and Rosenberger, W.F. The Theory of Response-adaptive Randomization in Clinical Trials. Wiley, Hoboken. 2006. 坂巻ら, ベイズ流決定理論を用いる臨床試験:効用とサンプルサイズ設計, 計量生物学 2020; 41(1): 55–91. Schulman J, Wolski F, Dhariwal P, Radford A, Klimov O. Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347 2017. 65