>100 Views
July 04, 26
スライド概要
一応、確認はしましたが、AIの作成部分もあるので、ハルシネーションの可能性がありますので、注意して、自己責任で使用ください。
動画:https://youtu.be/78mBugwg4Nk
KEYNOTE-689を読む 周術期ペムブロリズマブ試験の研究デザイン 主要出典:Uppaluri R, et al. Neoadjuvant and Adjuvant Pembrolizumab in Locally Advanced Head and Neck Cancer. N Engl J Med. 2025;393:37–50. doi:10.1056/NEJMoa2415434. 補助資料:NICE Committee Papers / EAG RoB 2.0評価、Cochrane RoB 2.0 guidance、FDA・ASA・Cochrane Handbook資料。 付録は、AI情報のためハルシネーションあり
今日のロードマップ 1 背景・PICO 2 なぜこのデザイン か 3 統計設計 4 結果の読み方 5 RoB/GRADE/メ タ分析 誰に、何を、何 と比べたか 周術期戦略、 EFS、CPS順序 逐次検定・中間 解析・α消費 KM曲線・EFS・ OS・安全性 推奨へどうつな ぐか
第1部 臨床的背景と試験の問い なぜ周術期ペムブロリズマブを標準治療に足すのか。
背景:標準治療後も再発が問題として残る 切除可能な局所進行HNSCCでは、手術+術後RT、または高リスク例で術後CRTが標準治療。 EORTC 22931試験およびRTOG 9501試験という2つの第3相試験により、2004年以降、術後シスプラ チン併用RTが高リスク例の重要な標準となったが、再発はなお多い。 抗PD-1モノクローナル抗体であるペムブロリズマブ(製品名:キイトルーダ)は、再発・転移性 HNSCCの一次治療で重要な治療選択肢となっている。→ペムブロリズマブはすでに重要な治療薬
なぜ周術期ペムブロリズマブなのか 再発転移HNSCC 他がん種 第2相HNSCC 第3相で検証 ペムブロリズマブは すでに重要な治療薬 肺癌・乳癌・子宮頸 癌・腎癌などで周術 期免疫療法の有効性 が示された例 周術期投与で再発抑 制・DFS改善を示唆 KEYNOTE-689で標 準治療上乗せを検証 この試験は「薬剤単独」ではなく、治療戦略全体の検証である。
第2部 PICOとデザインを理由から読む 誰を対象に、なぜその比較・評価項目・層別化を選んだのか。
PICO:この試験の問いを1枚で整理する P 新規診断・非転移性・切除可能・局所進行HNSCC、ECOG PS 0–1 I 術前ペムブロリズマブ×2+手術+術後RT/CRT+術後ペムブロリズマブ×15 C 標準治療のみ:手術+術後RT/CRT O Primary:EFS。Key secondary:MPR、OS。Other:pCR、安全性、PRO/QOL
術後治療:病理学的リスクでRT/CRTを分ける 治療ステップ ペムブロリズマブ群 対照群(標準治療のみ) ① 手術の前 ペムブロリズマブを2回投与(3週に1 回) なし(そのまま手術へ) ② 手術 無作為化から6週間以内 無作為化から4週間以内 低リスク: 放射線療法(60 Gy) 低リスク: 放射線療法(60 Gy) (病理結果で分岐) 高リスク: 化学放射線療法(66 Gy + シスプラチン) 高リスク: 化学放射線療法(66 Gy + シ スプラチン) ④ さらにその後 ペムブロリズマブ12回継続投与 なし(経過観察) ③ 手術の後 術後の「再発高リスク」:局所および中央の両方の評価で「断端陽性(1 mm未満)」または「節外浸潤」 手術ができなかった・がんが残ってしまった場合の措置も決まっている。
PICO 評価項目と評価方法:何を・誰で・どう判定したか Primary endpoint:EFS 評価集団:CPS≥10 → CPS≥1 → 全体集団の順に評価。 評価方法:RECIST v1.1に基づくBICR(盲検独立中央判定)。 EFSは「術前で手術不能となる進行」「術後の進行/再発」「死亡」 を含む。 Key secondary endpoints MPR:残存する生存浸潤性扁平上皮癌が10%以下。 BIPR(盲検独立病理判定)で評価。 OS:全生存期間。死亡までの時間。患者に最も直接的だが、成熟に 時間がかかる。 CPS:PD-L1発現の測定単位 CPS = PD-L1陽性細胞数 ÷ 生存腫瘍細胞数 ×100。 分子には腫瘍細胞だけでなく、リンパ球・マクロファージも含む。 CPS≥10は高発現寄りの濃縮集団、CPS≥1はより広い陽性集団。 Other endpoints / safety pCR:病理学的完全奏効。BIPRで評価。 安全性・副作用プロファイルも評価。AEと試験治療との関連性は治 験医師が判断。 PRO/QOLは患者重要アウトカムだが、欠測やオープンラベルの影響 に注意。 読み方:この試験は「EFSをBICRで主要評価し、MPR/OSを重要な副次評価項目として扱う」設計。 結果を見る前に、どのアウトカムが正式検定の対象かを確認する。
PICO CPSとは何か:数字が大きい/小さいとはどういう状況か CPSの式 CPSが大きい CPSが小さい CPS = PD-L1染色陽性細胞数 ÷ 生存腫瘍細 胞数 ×100 分子:PD-L1陽性の腫瘍細胞+リンパ球+マ クロファージ。 分母:生存腫瘍細胞数。 PD-L1陽性細胞が相対的に多い。 PD-1/PD-L1経路による免疫抑制が強い腫 瘍微小環境の可能性。 PD-1阻害薬の効果が出やすいと仮定しや すい。 PD-L1陽性細胞が相対的に少ない。 PD-1/PD-L1経路以外の免疫逃避が主かも しれない。 ただし「無効」を意味しない。検出力と症 例数に注意。 なぜCPS≥10から始めるのか CPS≥10は、PD-L1高発現寄りの「効果が最も期待される」濃縮集団 。 まず成功確率の高い集団でEFSを検証し、成功した場合にCPS≥1、さ らに全体へ広げる。 これは生物学的仮説と、より広い適応を狙う開発戦略を組み合わせた 設計。 注意:CPS=10は“魔法の境界”ではない CPSは連続的な指標で、10を境に生物学が突然変わるわけではない 。 臨床試験では、事前に定めた閾値で集団を定義し、検定順序と多重 性を管理する。 CPS≥10、CPS≥1、全体集団は独立ではなく入れ子構造。 CPS測定方法:治療開始前(ベースライン)にnewly obtained(新規に採取された)、すなわち、過去の診断時アーカイブ検体の使 い回しではなく、試験登録にあたって取り直した組織を用いて測定した。 読む時のポイント:CPSは「PD-L1陽性細胞がどれだけ多いか」を示すが、効果予測を完全に決める単独マーカーではない。
第3部 EFSと統計設計を先に理解する 結果を見る前に、成功判定の物差しを確認する。
なぜEFSをprimary endpointにしたのか 「無イベント生存期間(EFS)」は、無作為化から、①術前補助療法の期間中に画像上で病勢が進行し手術 ができなくなった時点、②画像検査または生検で局所・遠隔の病勢進行や再発が確認された時点、③あらゆ る原因による死亡のいずれかが発生するまでの期間と定義されました。 周術期試験の問題 EFSが拾うもの • ランダム化は手術前。 • 術前治療中に進行して手術できないことも、治療戦 略の失敗。 • 術後から測るDFSでは、この術前の失敗を拾いにく い。 • 術前に手術を妨げる進行。 • 術後の局所・遠隔進行/再発。 • 死亡。 EFSは「OSを避けるため」ではなく、術前から術後までの戦略全体の失敗を拾うために自然なendpoint。
EFSの定義:どこで失敗してもイベントになる ランダム化 術前 手術後 いつでも この時点から時計を開始 画像上の進行で手術不能な らEFSイベント 局所/遠隔の進行・再発なら イベント 死亡はイベント 読む時の一般化 ・なぜこの順番か ・どこで失敗したら次へ進めないか ・結果ではなく計画を先に見る KEYNOTE-689での位置づけ 現代的ながん第3相試験の典型的な論点:複数集団、 複数endpoint、中間解析、α制御。 注:EFSはOSではない。死亡だけでなく進行・再発も含む複合アウトカム。
がん第3相試験では、なぜここまで統計設計が重要か • がん第3相試験では、time-to-event endpoint、複数集団、複数endpoint、中間解析が頻繁に出てくる。 • 実務上、多くの登録試験ではDMCによる安全性・有効性監視と、事前規定中間解析が組み込まれる。 • そのため、単純なp<0.05だけで読まず、解析計画・検定順序・境界値を確認する習慣が必要。 • 主要評価項目:EFS。 • 検定順序:CPS≥10 → CPS≥1 → 全体集団。 • 第1回事前規定中間解析で、事前に決めた境界を使う。 • primary/key secondary endpointと複数集団で全体の第I種過誤を片側2.5%に制御。 KEYNOTE-689は特殊すぎる例ではなく、現代的ながん第3相試験の典型的な論点を多く含む。
統計 P値二分法は避ける。ただし治験設計ではP値とαを使う 「解釈」と「設計上の判定基準」は別物として読む 解釈では:P<0.05だけで結論しない 設計では:αと境界が必要 P<0.05=真、P≥0.05=偽、という二分法は避ける。 効果量、95%CI、絶対差、臨床的重要性、バイアスリ スクを併せて読む。 「統計的に有意」でも、患者にとって重要な差とは限 らない。 症例数設計では、α・検出力・想定HRを先に決める。 中間解析では、事前に決めた境界を下回ったかで成功 判定する。 規制・承認試験では、後付けで成功基準を変えないこ とが重要。 KEYNOTE-689での実際 EFSのP値を「小さいから有効」と読むのではなく、CPS≥10 → CPS≥1 → 全体集団の逐次検定で、事前に決めた中間 解析境界を順に下回ったかを見る。 OSは名目上よく見えても、プロトコール規定のOS境界を超えていないため、正式陽性とはしない。 結論:「P値だけで解釈しない」と「P値・αを事前設計の判定基準に使う」は矛盾しない。
統計 症例数設計:HR 0.62なら、どれくらいのイベントが必要か 教育用近似(正式設計はプロトコール/SAP) Schoenfeld型の教育用近似式 KEYNOTE-689で置く数字 必要イベント数 D ≈ (z₁₋α + z₁₋β)² / {p(1−p)[log(HR)]²} p:割付比。1:1ならp(1−p)=0.25。 HRが1に近いほど、差が小さいので多くのイベン トが必要。 片側α=0.025 → z₁₋α ≈ 1.96。 Power 94.9%(β=0.051)→ z₁₋β ≈ 1.64(厳密には約 1.63〜1.64。教育用丸め)。 想定HR=0.62 → log(HR) ≈ −0.478。 1:1割付なので p(1−p)=0.25。 実際に代入すると D ≈ (1.96 + 1.64)² / {0.25 × (0.478)²} ≈ 12.96 / 0.0571 ≈ 226〜227イベント。 論文ではIA1(第1回事前規定中間解析)をCPS≥10集団 207イベント後+最終登録9か月後に計画。教育用近似と 完全一致しなくてよい。 読み方 714例、CPS≥10は計画462例、CPS≥1は計画 680例。 症例数は「人数」だけでなく、time-to-event ではイベント数が情報量になる。 実際の設計では登録期間、追跡期間、打ち切り 、中間解析境界も入る。 注:Schoenfeld式とz値は教育用近似・丸め。正式な症例数・境界はプロトコール/SAPで、登録期間・追跡期間・打ち切り・中間解析を含めて計算する。
なぜ片側α=0.025なのか 一般論 • がん第3相の優越性試験では、両側P=0.05 表示ではなく片側α=0.025で設計することが 多い。 • 薬が有益方向に優れているかを検証するた め、仮説方向を事前に定める。 KEYNOTE-689 • 全体第I種過誤を片側2.5%に強く制御。 • EFS、MPR、OS、複数集団、複数時点を含 む。 • 途中解析では片側0.025よりさらに厳しい 境界を使う。 片側0.025は「p<0.05より甘い」わけではない。多重性と中間解析でむしろ厳しくなる。
統計 多重性・逐次検定・graphical method なぜ複数集団を置くのか PD-1阻害薬ではPD-L1高発現ほ ど効果が大きい可能性。 まずCPS≥10で確実に示し、成 功した場合だけCPS≥1、全体集 団へ広げる。 これは生物学的仮説と適応拡大 を両立させる開発戦略。 EFS CPS≥10 EFS CPS≥1 なぜ好きに検定できないか 解決策:固定順序+α再配分 CPS≥10、CPS≥1、全体集団は重な る。 EFS、MPR、OSなど複数endpoint もある。 「どれかでp<0.05なら成功」にす ると、偶然の陽性が増える。 だから全体の第I種過誤を片側2.5% に制御する。 EFS 全体 CPS≥10で成功しなければ、後続 は正式主張に進めない。 成功した仮説のαは次の仮説へ流 れる。 これがgraphical methodの直感 。 MPR OS 重要:逐次検定は「前の門が開いたら次へ進む」仕組み。途中で失敗した後のP値は、どれだけ小さく見えても正式な有効性主張とし ては扱わない。
中間解析:なぜ行うか、何が危険か、どう制御するか 統計 がん第3相のtime-to-event試験では、イベントが蓄積して初めて解析できる。だから「何件イベントが起きたら見るか」を事前に決める。 登録開始 イベント蓄積 IA1 判定 最終解析 患者を登録 進行・再発・死 亡が増える 第1回事前規定中 間解析 有効/継続/安 全性確認 追跡をさらに蓄 積 途中で見る利点 統計学的な危険 今回の制御方法 新治療が明らかに有効なら早く知らせ る。 無効・有害なら患者を守る。 DMCが安全性・有効性を監視する。 何度も見ると、偶然に良く見えた瞬間 を拾いやすい。 各時点で普通のp<0.05を使うと、全 体の偽陽性率が膨らむ。 全体α=0.025を守るため、IA1では通常よ り厳しい境界を使う。 Lan–DeMets型で情報量に応じてαを消費 し、O’Brien–Fleming型で早期成功のハー ドルを高くする。 普通のp<0.05を何度も使う 見る 1 見る 2 見る 3 見る 4 見る 5 事前規定の中間解析境界 → 偽陽性が増える IA1ではより小さいP値が必要 KEYNOTE-689では、IA1=第1回事前規定中間解析。
統計 αとは:試験全体で許す偽陽性確率を先に決める 第I種過誤とは なぜ予算と呼ぶか 本当は効果がないのに「効果あ り」と結論する誤り。 αは、その誤りを許す最大確率 。 がん第3相優越性試験では、片 側α=0.025で設計されること が多い。 試験全体で許す偽陽性は片側 2.5%。 複数集団、複数endpoint、 中間解析で勝手に何度も使え ない。 使い道を事前に決める必要が ある。 KEYNOTE-689では EFS、MPR、OS、複数CPS集 団、IA1を含めて、全体の第I 種過誤を片側2.5%に強く制 御。 だから普通のp<0.05では読 まない。 比喩の意味:手元にあるα=0.025を、EFS、MPR、OS、さらに中間解析に少しずつ配る。 使いすぎると、試験全体で「効いていない治療を効くと誤判定する確率」が増えてしまう。
統計 境界値の計算を教育用に再現:CPS≥10 EFS 単純化した片側O’Brien–Fleming型の概念式:α(t)≈1−Φ{z₁₋α/√t}。tが小さいほど(早期なほど)、 z₁₋α/√t は 大きくなり、P値境界は小さくなる。つまり、早期に成功と言うには、より小さいP値が必要。 逆算例 計算の出発点 全体の片側α = 0.025。 z₁₋α = 1.96。 IA1では情報量がまだ最終解析 より少ない。 したがって片側0.025をその まま使わない。 単純O’Brien–Fleming型として 逆算すると、情報時間 t ≈ 0.79 が対応する。 z(t) = 1.96 / √0.79 ≈ 2.20。 片側境界P = 1 − Φ(2.20) ≈ 0.0138。 NEJM本文のCPS≥10 EFS境界 :0.01378。 何を学ぶか 0.01378は結果から出たP値 ではない。 IA1時点で成功と認めるた めの事前物差し。 早期解析なので0.025より 厳しい。 完全再現に必要なもの:正式SAP、最終イベント計画、実際の情報時間、共分散構造、仮説間のα配分・再配分。 NEJM本文だけでは完全再現はできない。 ここでは「なぜ0.025ではなく0.01378になるのか」を理解するための再現です。 統計学の式などは、AIに従って統計学の教科書・論文の確認は行ってない。
統計 今回の境界値:計画された物差し(結果ではない) どのP値を下回れば、IA1で正式成功と言えるかを事前に決めていた 仮説 片側境界P値 意味 EFS CPS≥10 0.01378 Step 1の成功判定。ここが開かなければ後続EFSへ進めない。 EFS CPS≥1 0.01242 Step 2の成功判定。CPS≥10成功後に正式評価。 EFS 全体集団 0.01196 Step 3の成功判定。全体へ広げるための門。 MPR 0.0005 EFS全仮説成功後のkey secondary。非常に厳しい境界。 OS CPS≥10 0.0104 IA1でOSを正式成功と言うための境界。 読む時の原則:普通のp<0.05ではなく、「その仮説・その解析時点」に割り当てられた境界を下回ったかで判断する。
統計 one-sided Pとtwo-sided P:論文表示と正式判定が違う 半分という説明は“方向が事前に決まっている時”の教育用近似 NEJMでの表示 試験の正式判定 論文本文では、出版社の規則 に従って、片側でなく両側のP 値が表示されている。 プロトコールではone-sided P で判定。 two-sided Pは、有利方向と不 利方向の両方を考える。 これはジャーナル方針による 表示。 仮説方向は「ペムブロリズマブ が有利」と事前に定められてい る。 正式にはSAP上のone-sided P と境界を比較する。 なぜ概ね半分か 効果が事前想定の有利方向に 出ている場合、 two-sided Pの片側分がonesided Pの感覚になる。 例:two-sided 0.004 → 片 側感覚 約0.002。 注意:これは初心者向けの近似であり、正式な再計算ではない。 本試験での正式判定は、統計解析計画に沿ったone-sided P値と、事前境界との比較で行われる。
統計 計画値に結果値を当てはめる:EFSは3つの門を通過 集団 計画:片側境界 結果:NEJM two-sided P 片側に合わせると 判定 CPS≥10 0.01378 0.004 約0.002 成功:次へ進む CPS≥1 0.01242 0.003 約0.0015 成功:次へ進む 全体集団 0.01196 0.008 約0.004 成功:EFS全体で陽性 結論:EFSはCPS≥10、CPS≥1、全体集団の順に、事前に決めた中間解析境界をすべて下回った。 したがって「EFSは正式に陽性」と言える。これは単にp<0.05だったからではない。
統計 OSは良い方向。ただし正式陽性ではない/臨床的意味へつなぐ EFSの正式成功と、OSの未確立を同時に理解する OSは一見よく見える CPS≥10 OS:HR 0.72。 95%CI 0.52–0.98で1をまたがな い。 two-sided P=0.04。 通常の固定デザインなら有意に見え る場面。 しかし本試験の正式判定では 未達 IA1のOS境界は片側0.0104。 two-sided P=0.04 → 片側感覚 約0.02。 0.02は0.0104より大きい。 したがってprotocol-specified criterionは満たさない。 臨床的にはどう読むか OS曲線は良い方向。 ただしOSは未成熟。 後続OS仮説は正式検定として 扱わない。 追加フォローアップが必要。 統計的成功を臨床的意味へつなぐ EFSの正式成功は強い。しかしEFSはOSではない。3年EFS絶対差は約11〜14ポイント、1000人あたり約112〜139人 多くイベントなし。 推奨判断では、OS未成熟、免疫関連毒性、PRO/QOL、嚥下・発声などの機能、治療負担を同じ表で評価する。
第4部 Kaplan–Meier曲線と結果を読む 統計設計を理解したうえで、EFSとOSを別々に読む。
統合フロー:無作為化 → 手術 → 術後/根治治療 → 病理リスク 分母に注意:8名、275名、高リスク特徴ありは同じ母集団ではない。手術完了、術後治療開始、病理リスク判定は別の読み方をする。 スクリーニング N=1,044 → 無作為化 N=714 → Pembro 363 / Control 351 ペムブロリズマブ群:N=363 手術 275の分母 対照群:N=351 手術完了 321名(88.4%) 手術未完了 42名 = 根治RT/CRT 8 + その他34 手術遅延 38名 8名≠手術なし全員 術後治療開始 267名 + 手術なし根治RT/CRT 8名 = 275名 シスプラチン 107/275 38.9% 手術 手術完了 308名(87.7%) 手術未完了 43名 = 根治RT/CRT 8 + その他35 手術遅延 10名 8名≠手術なし全員 術後治療開始 267名 + 手術なし根治RT/CRT 8名 = 275名 275の分母 275は無作為化例でも病理高リスク例でもない 病理リスク 高リスクあり 118名 32.5% 高リスクなし 196名 54.0% 追跡中央値 38.3か月 欠損 49名 13.5% シスプラチン 139/275 50.5% 275は無作為化例でも病理高リスク例でもない 病理リスク 高リスクあり 156名 44.4% 118 + 196 + 49 = 363(母数は無作為化例) 読み方:高リスク特徴ありなら計画治療はシスプラチン併用CRTだが、実投与は医師・施設基準で最終決定。 したがって 118≠107、156≠139 は矛盾ではない。分母と概念が違う。 Source: Participants and Treatment本文、Trial Design and Treatments本文。欠損49/47は本文値から算出。 高リスクなし 148名 42.2% 欠損 47名 13.4% 156 + 148 + 47 = 351(母数は無作為化例)
KM曲線:まず見るべき5点 • 曲線がいつ分離し始めるか。 • 分離が持続しているか。 • 12・24・36か月など固定時点の絶対差。 • HRは曲線全体の平均的比較で、36か月差そのものではない。 • No. at riskが少ない右端は強く読まない。 この資料では36か月ランドマークを中心に読む。
No. at risk:右端のtailを強く読まない No. at riskとは KEYNOTE-689での注意 • その時点で、まだ追跡中でイベントを起こ していない人数。 • 右に行くほど少なくなる。 • 少数例のイベントで曲線が大きく動く。 • EFSの60か月付近は人数が非常に少ない。 • 5年以降の急な落ち込みや接近は解釈しな い。 • 中心は追跡中央値38.3か月の文脈で36か 月まで。 KM曲線の右端を見て「長期効果が消えた」と言うのは危険。
HRと絶対差:患者説明では両方が必要(詳細は第7部だが、ここでもグラフを読むときに理解しよう) 例:全体集団の3年EFS絶対差 +11.2ポイント → 1000人あたり約112人多く「進行・再発・死亡なし」。 緑の点:約110人/1000人 (全体集団の3年EFS差の感覚) HRと絶対差の違い • HR:イベントが起きる速さの相対 比較。 • 絶対差:ある時点で何人違うか。 • 患者・ガイドラインには絶対差が 特に重要。 HRは相対的な速さ、絶対差は患者に伝わる人数差。3年EFSでは1000人あたり約112〜139人多くイベントなし。
EFS:CPS≥10集団 36か月ランドマーク • 36か月EFS:59.8% vs 45.9% • 絶対差:+13.9ポイント • HR 0.66(95%CI 0.49–0.88) • two-sided P=0.004(片側感覚≈0.002 ) → 境界0.01378を下回り正式成功 読み方 ・曲線の右端ではなく36か月までを中心に読む ・HRと絶対差は別物 ・OSは正式判定と名目CIを分ける 最も効果が期待された濃縮集団で、早期から曲線が分離。
EFS:CPS≥1集団 36か月ランドマーク • 36か月EFS:58.2% vs 44.9% • 絶対差:+13.3ポイント • HR 0.70(95%CI 0.55–0.89) • two-sided P=0.003(片側感覚 ≈0.0015) → 境界0.01242を下回り正式成功 読み方 ・曲線の右端ではなく36か月までを中心に読む ・HRと絶対差は別物 ・OSは正式判定と名目CIを分ける より広いCPS≥1集団でも効果は保たれている。
EFS:全体集団 36か月ランドマーク • 36か月EFS:57.6% vs 46.4% • 絶対差:+11.2ポイント • HR 0.73(95%CI 0.58–0.92) • two-sided P=0.008(片側感覚≈0.004 ) → 境界0.01196を下回り正式成功 読み方 ・曲線の右端ではなく36か月までを中心に読む ・HRと絶対差は別物 ・OSは正式判定と名目CIを分ける 全体集団でも境界を通過。ただしCPS<1は少数なので単独判断はできない。
EFSの36か月絶対差:臨床的に見る CPS≥10 13.9% CPS≥1 13.3% 全体 11.2% 統計的に成功しただけでなく、3年時点で約11〜14ポイントの絶対差がある。
EFS結果 EFS改善の中身:何が減ったのか 棒の長さは「初回EFSイベント数」。率ではなく絶対イベント数として読む EFSは複合アウトカムなので、「何のイベントが減ったか」を確認する。全体集団では遠隔進行・遠隔再発が51例→26例で、最も目立って 減っている。 集団 Pembro Control 差 CPS≥10 遠隔 15 39 −24例 CPS≥1 遠隔 24 51 −27例 全体 遠隔 26 51 −25例 全体集団:初回EFSイベント内訳(同じスケールで表示) 局所進行/再発 3 39 P C 局所+遠隔 P C 遠隔進行/再発 P 7 4 7 解釈の中心 EFS改善は「死亡が明確に減った」だけではない。 少なくとも初回EFSイベントとしては、遠隔進行・ 遠隔再発の減少が大きく寄与している。 C 死亡 注意 死亡減少として確定するにはOSの成熟が必要。 EFSの構成要素とOSは分けて読む。 P C 2 6 5 1 6 67 4 P=Pembrolizumab、C=Control。死亡は初回EFSイベントとしての死亡であり 、OS改善とは別に読む。 読むコツ:カテゴリーごとの「PembroとControlの差」を見る。遠隔進行/再 発は差が大きいが、死亡は同程度。
OS:CPS≥10集団 36か月ランドマーク • 36か月OS:68.2% vs 59.2% • 絶対差:+9.0ポイント • HR 0.72(95%CI 0.52–0.98) • two-sided P=0.04。ただし境界未 達 読み方 ・曲線の右端ではなく36か月までを中心に読む ・HRと絶対差は別物 ・OSは正式判定と名目CIを分ける 曲線は良い方向。しかしOSは正式陽性ではない。
OS:CPS≥1集団 36か月ランドマーク • 36か月OS:69.0% vs 60.2% • 絶対差:+8.8ポイント • HR 0.72(95%CI 0.56–0.94) • CPS≥10 OSが未達なので正式検定 は進まない 読み方 ・曲線の右端ではなく36か月までを中心に読む ・HRと絶対差は別物 ・OSは正式判定と名目CIを分ける 良い方向だが、階層検定上は正式なOS主張ではない。
OS:全体集団 36か月ランドマーク • 36か月OS:68.4% vs 61.1% • 絶対差:+7.3ポイント • HR 0.76(95%CI 0.59–0.98) • CPS≥10 OSが境界未達のため 全体OSも正式検定ではない 読み方 ・曲線の右端ではなく36か月までを中心に読む ・HRと絶対差は別物 ・OSは正式判定と名目CIを分ける 方向は一貫して良いが、OS結論は保留。
EFSとOSを並べて読む EFS OS • 正式に陽性。 • 36か月で約11〜14ポイント差。 • 遠隔進行・遠隔再発減少が目立つ。 • 良い方向。 • 36か月で約7〜9ポイント差。 • IA1では正式境界未達、未成熟。 最も正確な表現:EFSは確立、OSは期待を持たせるが未確立。
第5部 MPR/pCR・安全性・手術への影響 EFSの利益だけでは推奨は決まらない。害と治療負担を見る。
MPR/pCR結果:対照群では0% • MPR:残存生存浸潤癌が10%以下 集団 • pCR:残存浸潤癌なし。 MPR Pembro MPR Control pCR Pembro pCR Control CPS≥10 13.7% 0% 4.3% 0% CPS≥1 9.8% 0% 3.2% 0% 全体 9.4% 0% 3.0% 0% 腫瘍反応は介入群でのみ観察。ただしMPR/pCRだけで推奨を決めない。
安全性:Grade≥3全体だけでは見誤る Any TRAE 81.4% Any TRAE 対照 81.9% Grade≥3 TRAE 44.6% Grade≥3 対照 42.9% 治療関連SAE 19.1% 治療関連SAE 対照 10.5% 治療関連死亡 1.1% 治療関連死亡 対照 0.3% Grade≥3 TRAE全体は近いが、治療関連SAEと 治療関連死亡は介入群で多い。免疫関連毒性も 別に確認する。 • TRAE:治療関連有害事象。 • SAE:重篤有害事象。 • irAE:免疫関連有害事象。 • Grade≥3:CTCAE重症度で重症以上。GRADE確実性評価とは別。
免疫関連有害事象:Pembro群で明らかに増える irAE any 43.2% irAE any 対照 10.2% Grade≥3 irAE 10% Grade≥3 対照 0.6% Hypothyroid 24.7% Hypothyroid 対照 5.4% Pneumonitis 5.3% Pneumonitis 対照 0% NEJMではpotentially immune-mediated adverse eventsと表記。ここでは免疫関連AEとして説明。 Grade≥3はCTCAE重症度で、GRADEアプローチとは別。
安全性 安全性・手術・病理:EFS利益の実装面を同時に見る 安全性・手術遅延・術後治療の変化は、推奨判断で同時に扱う 安全性:同等と言い切れない Grade≥3 TRAE:44.6% vs 42.9% 治療関連SAE:19.1% vs 10.5% Grade≥3 irAE:10.0% vs 0.6% 治療関連死亡:1.1% vs 0.3% Grade≥3全体だけを見ると害を見 落とす。免疫関連毒性と重篤AEは 増える。 手術への影響 手術完遂:88.4% vs 87.7% 手術遅延:38例 vs 10例 術後治療開始:73.6% vs 76.1% 完遂率は大きく低下しない。 ただし遅延は増えるため、実装で は手術枠・合併症対応・待機許容 性を見る。 病理リスク・術後治療の変化 中央評価で高リスク病理所見: 32.5% vs 44.4% 術後シスプラチン使用:38.9% vs 50.5% 術前Pembroにより病理リスクが 下がった可能性。 ただし本試験だけでは、術前成分 ・術後成分・術後治療変更の寄与 は分けられない。 用語:TRAE=治療関連有害事象、SAE=重篤有害事象、irAE=免疫関連有害事象、Grade≥3=CTCAE重症度で重症以上(GRADE確実性評価とは 別)。
第6部 RoB 2.0を具体的に読む ここでは“RCTだから低リスク”という雑な読み方をやめます。 RoB 2.0は、1つの試験全体ではなく、特定アウトカムの特定結果ごとに、バイアスが結論をどれ ほど揺らすかを見る道具です。 KEYNOTE-689では、EFS/OS/MPR・pCR/PRO/安全性で、RoBの意味が違います。
RoB 2.0 RoB 2.0を具体的に読む NICE Committee Papers Table 10には、Company Submission(CS)評価とExternal Assessment Group(EAG)評価が併記されて いる。この資料では独立評価であるEAG Assessment列を基準に読む。 RoB 2.0の基本 • ランダム化試験の結果に入り得る バイアスを5ドメインで評価する。 • 評価対象は「試験全体」ではなく 、特定アウトカムの特定の推定値。 • 同じ試験でも、EFS、OS、PRO、 安全性で懸念の重みは変わる。 KEYNOTE-689で見る対象 読み方の注意 • CS評価とEAG評価が異なる箇所は 、EAGの慎重な判断を中心に扱う。 • Some concernsは「使えない」で はない。 • EFS/OSなど客観性の高い結果と、 PRO/安全性など主観性のある結果を 分ける。 • 原著本文、NICE Table 10、RoB 2.0 guidanceを突き合わせる。 • 推奨ではRoBをGRADEの確実性評 価へ接続する。 この章での結論 EAGの総合判断は Some concerns。ランダム化と報告選択は比較的堅い一方、open-label、介入逸脱、欠測、 PRO/安全性測定への懸念が残る。 したがって、EFSの結論を直ちに否定するのではなく、アウトカムごとに重みを変えて読む。
RoB 2.0 RoB D1:ランダム化過程は Low risk 割付前に群を予測・操作できたか、ベースライン差が問題を示すかを見る。 RoB 2.0で見ること • 1.1 割付系列はランダムか。 • 1.2 割付は隠蔽されていたか。 • 1.3 ベースライン差が問題を示すか 。 • 割付隠蔽は「試験中の盲検化」とは 別。登録前に次の割付を予測させない 仕組み。 原著で確認する箇所 EAGの回答 • 第3相、多施設、open-label、 randomized、active-controlled trial 。 • 1.1 allocation sequence random :Y • 中央ランダム化:interactive voice-response system。 • 1.3 baseline differences suggest problem:N • 層別化:原発部位、病期、PD-L1 TPS。 • Support:IVRS/IWRS、baseline characteristics similar。 • 1.2 allocation concealed:Y Domain judgement:Low risk KEYNOTE-689では、割付前に次の群を予測して登録を操作できた可能性は低い。したがってD1はこの試験の 強みと読める。 以後の懸念は、ランダム化そのものではなく、open-label下での治療経路・欠測・測定へ移る。
RoB 2.0 RoB D2:介入逸脱は Some concerns open-labelで逸脱はあるが、2.4=PNとITT解析によりHighではなくSome concernsと読む。 質問 EAG 意味 2.1 Y 参加者は割付を知っていた。 open-label。 2.2 Y 医療者も割付を知っていた。open-label。 2.3 Y 割付知識に関連した介入逸脱があったとEAGは判断。 2.4 PN 逸脱がアウトカムに影響した可能性は probably no。 Highにしない鍵。 2.5 N 逸脱のバランスには懸念が残る。 2.6 Y effect of assignmentの推定にはITT解析を使用。 Supportは Intention-to-treat analysis。 RoB 2.0アルゴリズムの読み方 open-labelだけでHighではない。 2.3=Y:逸脱あり → 懸念は発生。 2.4=PN:結果への影響はprobably no → HighではなくSome concerns側。 2.6=Y:ITT解析 → effect of assignmentの 解析として適切。 Domain judgement:Some concerns 治療経路、支持療法、治療中止、手術時期などに 割付知識が影響し得るため、完全なLowとはしな い。 訂正点:2.6のsupportは「Intention-to-treat analysis」。以前の “small numbers and application of ITT analyses” は2.4のsupportであり、2.6の根拠としては扱わない。
RoB 2.0 RoB D3:欠測アウトカムデータは Some concerns EFS/OSの欠測と、PRO/QOLの欠測は同じ意味ではない。 EAGの主な回答 なぜSome concernsか アウトカム別の重み • 3.1 outcome data available for all/nearly all:PY • EFS/OSではイベント情報は比較的 得られやすい。 • EFS:欠測の影響は限定的かもしれ ない。 • EAG support:outcome available for nearly all patients。 • ただし一部患者のdispositionが不明 瞭。 • しかしPRO/QOLは、状態が悪い患 者ほど回答しにくい。 • AEで中止した患者のPROが欠測す ると、生活の質への悪影響を過小評価 し得る。 • OS:死亡は追跡しやすいが、成熟 性は別問題。 • PRO/QOL:欠測バイアスを重く見 る。 • AE中止患者のQoL/PROが“missing by design”となる点を指摘。 • 安全性:観察期間差と報告の影響も 併せて考える。 Domain judgement:Some concerns RoB 2.0では「ほぼ全例で主要アウトカムが得られた」だけで終わらない。欠測が、患者の状態や有害事象と関係して いないかを確認する。 KEYNOTE-689では、特にPRO/QOLを解釈するときにD3を重く見る。
RoB 2.0 RoB D4:測定バイアスはアウトカムごとに違う EAG判断は “Some concerns for certain outcomes”。どのアウトカムを指すのかを明確にする。 アウトカム 測定方法 割付知識の影響 読み方 OS 死亡 低い 測定は客観的。ただしOS未成熟性はRoBではな くimprecision /中間解析の問題。 EFS BICR(盲検独立中央判定)/RECIST (固形がんの治療効果判定基準) 比較的低い BICRで保護されるが、治療経路の影響とは別に 読む。 MPR/pCR BIPR(盲検下独立病理判定) 低め 盲検独立病理判定。ただし患者重要アウトカムで はない。 PRO/QOL 患者報告 高め open-labelと欠測に影響され得る。 安全性 医師判断・報告 高め 関連性判定、報告行動、観察期間差の影響に注意 。 EAGの判断:Some concerns for certain outcomes 4.1 測定法は不適切ではない(N)。4.2 群間で大きく異なる可能性は低い(PN)。しかしopen-labelで評価者が割付を知り得る ため、PROや一部安全性アウトカムでは測定バイアスを懸念する。
RoB 2.0 RoB D5:報告結果の選択は Low risk 結果を見て都合よくアウトカム・時点・解析を選んだ疑いがあるかを見る。 EAGのシグナリング回答 ただし注記する点 読み方 • 5.1 pre-specified planに従っ て解析:Y • 5.2 結果に基づく測定時点・定 義の選択:N • 5.3 結果に基づく複数解析から の選択:N • Domain judgement:Low risk • EAGはmPSがプロトコール変 更でprimaryからsecondaryへ変 更された点に言及。 • これはD5をHighにする根拠と はされていない。 • mPSとMPRを勝手に同一視し ない。原資料の用語に従う。 • Low riskは「プロトコール変 更がゼロ」という意味ではない 。 • この数値結果が、結果を見て 都合よく選ばれた可能性は低い 、という意味。 • EFS/OSの正式検定は事前解析 計画との整合を確認して読む。 Domain judgement:Low risk D5は比較的堅い。KEYNOTE-689の主な不確実性は、報告選択よりも、open-label、欠測、PRO/安全性測定、OS 未成熟性にある。
RoB 2.0 RoB総合判断:Some concernsをどう読むか “研究全体が信用できない”ではなく、“アウトカム別に慎重に重みづけする”という意味。 D1 Low ランダム化過程は堅い 中央ランダム化、割付隠蔽、背景類似 D2/D3/D4 Some concerns open-label、欠測、測定 特にPRO・安全性で重く見る D5 Low 報告結果の選択は比較的堅い 事前計画と選択的報告を確認 Overall:Some concerns High riskのドメインはない。一方でSome concernsが複数あるため 、OverallはLowではなくSome concerns。 RoB 2.0の総合判定は「この特定結果の信頼性に、どの程度バイアス懸念 があるか」を示す。 実務での結論:EFSの有効性を否定するほどではないが、PRO/QOL・安全性・治療負担を推奨判断に入れる時は、EAGのSome concernsを明示して重みづけする。
第7部 GRADE・メタ分析・ガイドラインへつなぐ 統計的成功を、推奨判断とエビデンス統合に変換する。
GRADE/EtD:推奨はP値だけでは決まらない 効果 害・価値観・実装 • EFS絶対差。 • OSの方向性と未成熟性。 • MPR/pCRの補助的意味。 • irAE、SAE、治療関連死亡。 • 嚥下・発声・整容・QOL。 • 治療期間、通院、医療資源、患者価 値観。 EtDは「有効か」だけでなく、「どの患者に、どの条件で推奨するか」を決める枠組み。
GRADE/EtD 絶対効果:HRだけでなく、ベースラインリスクから考える GRADEでは「相対効果が有意か」だけでなく、「患者に何人分の差が出るか」を見る 例:全体集団の3年EFS。HR 0.73は時間全体の相対比較。患者説明では、対照群の3年EFSをベースラインリスクとして絶対差を計算。 1 対照群の3年EFS 2 Pembro群の3年EFS 3 絶対差 46.4% = 標準治療のみで、3年時点に進行・再 発・死亡なしの割合。 57.6% = 周術期Pembro戦略で、3年時点に進行 ・再発・死亡なしの割合。 +11.2ポイント = 1000人あたり約112人多くイベント なし。 1000人で考えると 464人/1000人 Control 3年時点でイベントなし 576人/1000人 Pembro 3年時点でイベントなし 差 112人 1000人中112人の利益について、患者と考えるのがEBM・一般的集団として推奨するのがGRADEアプローチの診療ガイドライン。 GRADEの精神:HRとp値だけでは推奨を決めない。相対効果、ベースラインリスク、絶対効果、害、価値観を同時に扱う。 HRは、時間全体だが、絶対差を3年とすると一時点で情報は少なくなっていることに注意。
GRADE/EtD GRADE/EtD:アウトカム別に1枚で統合して読む EFS・OS・安全性・PRO/QOLは、確実性を下げる理由が違う アウトカム 何が強いか 何が不確実か 推奨判断での使い方 EFS 主要評価項目。逐次検定を通過。3年絶対 差 約11–14ポイント。BICR/RECIST。 複合アウトカム。死亡だけではない。右端 tailは少数。 利益の中核。構成イベントと絶対差を提示 する。 OS 方向は一貫してPembro有利。36か月絶対 差 約7–9ポイント。 IA1でOS境界未達。未成熟。CPS≥1/全体 は正式検定なし。 “改善傾向”まで。正式OS改善とは書かない 。 Grade≥3 TRAE全体は近い。 irAE、Grade≥3 irAE、治療関 連SAE、治療関連死亡は増加。 観察期間差。 患者説明で必ず提示。害の重みは価値観で 変わる。 頭頸部癌では嚥下・発声・整容・社会復帰 が重要。 PRO欠測、missing by design、openlabelの影響。長期機能は未確定。 EFS利益だけで推奨を決めないための重要 アウトカム。 安全性 PRO/QOL・機 能 EtDでは、利益(EFS)・害(irAE/SAE)・不確実性(OS未成熟/PRO欠測)・患者価値観を並べて判断する。
第8部 補講:メタ分析で中間解析データをどう扱うか OSだけでなく、EFS、MPR/pCR、安全性、PROも分けて扱う。
メタ分析 メタ分析の基本:なぜP値ではなく効果推定値を入れるのか P値だけでは足りない P値は効果の方向・大きさを直接示 さない。 同じP=0.04でも、少数例の大きな 効果か、大規模試験の小さな効果 かが分からない。 多重性調整や中間解析境界にも依 存する。 メタ分析が必要とする情報 time-to-eventの実務 必要なのは、各試験の ① 効果推定値(HR, RR, OR, RD など) ② 精度(SEまたは95%CI) ③ 同じアウトカム・同じ時点・同 じ集団か。 HRはlog(HR)に変換する。 95%CIからSEを計算する。 重み ≈ 1/SE² で統合する。 精度が高い試験ほど重みが大きく なる。 例:OSやEFSはHR+95%CIから generic inverse variance法で統 合できる。
メタ分析 一般論:中間解析データをメタ分析に使う時の問題 中間解析は利用可能な情報だが、成熟した最終解析と同じ扱いにしてはいけない 1 情報量が少ない time-to-eventではイベント数が 精度を決める。 中間解析はイベント数が少なく、 HRが後から動きやすい。 SEが大きく、推定値の不安定性が 残る。 2 早期に良く見えやすい 3 公表・利用可能性の偏り group sequential designでは、 早く境界を超えた推定値は上振れ しやすい。 第I種過誤は制御されても、点推 定の過大評価は残り得る。 良い中間結果は早く論文化・学会 発表されやすい。 悪い中間結果は出にくい。 time-lag biasやavailability bias につながる。 名目95%CIと正式判定は別。KEYNOTE-689ではOSのCIが1をまたがないと理 解してしまうが、CPS≥10のOSがIA1境界未達(付録が手に入ってないので、 たぶん0.02ぐらい)のため、このOSは正式検定ではなく、1をまたいでないこ とに意味がない。 メタ分析ではHR/95%CIをlogHR/SEへ変換して使えるが、未成熟な中間解析 データとして扱い、成熟解析が出たら置き換えるべきである。 例:名目CIと正式判定は別物 1.0
メタ分析 アウトカム アウトカム別:中間解析データの扱いは同じではない メタ分析に入れる値 中間解析での主な注意 OS HR+95%CI → logHR/SE 死亡イベントが未成熟。後治療の影響。境界未達でも名目CIが良く見 えることがある。 EFS/PFS HR+95%CI → logHR/SE イベント数は多いが複合アウトカム。構成イベントと定義の違いに注 意。 MPR/pCR リスク差/RR/OR、またはイベン ト数 病理反応は患者重要アウトカムではない。ゼロイベント対応を事前規 定。 安全性 AE/SAE/irAEのリスク比・リスク 治療期間・観察期間が群間で違うと割合だけでは不十分。曝露調整も 差 検討。 PRO/QOL 平均差、変化量、標準化平均差 欠測、測定時点、open-labelの影響が大きい。
Appendix 参考文献
参考文献・資料 • Uppaluri R, et al. Neoadjuvant and Adjuvant Pembrolizumab in Locally Advanced Head and Neck Cancer. N Engl J Med. 2025. • NICE Single Technology Appraisal Committee Papers ID6477: Pembrolizumab before surgery then with radiotherapy after surgery. 2026. • Cochrane RoB 2.0 guidance for randomized trials, 22 Aug 2019; NICE/EAG Table 10 RoB 2 assessment. • Wasserstein & Lazar 2016 ASA statement on P-values; Wasserstein, Schirm & Lazar 2019 “Moving to a World Beyond p<0.05”. • FDA Adaptive Designs for Clinical Trials of Drugs and Biologics, 2019; FDA Multiple Endpoints in Clinical Trials, 2022. • Cochrane Handbook: effect measures / repeated observations / time-to-event outcomes.