口腔がん：KEYNOTE 689 解説

1.

KEYNOTE-689を読む周術期ペムブロリズマブ試験の研究デザイン主要出典：Uppaluri R, et al. Neoadjuvant and Adjuvant Pembrolizumab in Locally Advanced Head and Neck Cancer. N Engl J Med. 2025;393:37–50. doi:10.1056/NEJMoa2415434. 補助資料：NICE Committee Papers / EAG RoB 2.0評価、Cochrane RoB 2.0 guidance、FDA・ASA・Cochrane Handbook資料。付録は、AI情報のためハルシネーションあり

2.

今日のロードマップ 1 背景・PICO 2 なぜこのデザインか 3 統計設計 4 結果の読み方 5 RoB/GRADE/メタ分析誰に、何を、何と比べたか周術期戦略、 EFS、CPS順序逐次検定・中間解析・α消費 KM曲線・EFS・ OS・安全性推奨へどうつなぐか

3.

第1部臨床的背景と試験の問いなぜ周術期ペムブロリズマブを標準治療に足すのか。

4.

背景：標準治療後も再発が問題として残る切除可能な局所進行HNSCCでは、手術＋術後RT、または高リスク例で術後CRTが標準治療。 EORTC 22931試験およびRTOG 9501試験という2つの第3相試験により、2004年以降、術後シスプラチン併用RTが高リスク例の重要な標準となったが、再発はなお多い。抗PD-1モノクローナル抗体であるペムブロリズマブ（製品名：キイトルーダ）は、再発・転移性 HNSCCの一次治療で重要な治療選択肢となっている。→ペムブロリズマブはすでに重要な治療薬

5.

なぜ周術期ペムブロリズマブなのか再発転移HNSCC 他がん種第2相HNSCC 第3相で検証ペムブロリズマブはすでに重要な治療薬肺癌・乳癌・子宮頸癌・腎癌などで周術期免疫療法の有効性が示された例周術期投与で再発抑制・DFS改善を示唆 KEYNOTE-689で標準治療上乗せを検証この試験は「薬剤単独」ではなく、治療戦略全体の検証である。

6.

第2部 PICOとデザインを理由から読む誰を対象に、なぜその比較・評価項目・層別化を選んだのか。

7.

PICO：この試験の問いを1枚で整理する P 新規診断・非転移性・切除可能・局所進行HNSCC、ECOG PS 0–1 I 術前ペムブロリズマブ×2＋手術＋術後RT/CRT＋術後ペムブロリズマブ×15 C 標準治療のみ：手術＋術後RT/CRT O Primary：EFS。Key secondary：MPR、OS。Other：pCR、安全性、PRO/QOL

8.

術後治療：病理学的リスクでRT/CRTを分ける治療ステップペムブロリズマブ群対照群（標準治療のみ） ① 手術の前ペムブロリズマブを2回投与（3週に1 回）なし（そのまま手術へ） ② 手術無作為化から6週間以内無作為化から4週間以内低リスク：放射線療法（60 Gy）低リスク：放射線療法（60 Gy）（病理結果で分岐）高リスク：化学放射線療法（66 Gy ＋シスプラチン）高リスク：化学放射線療法（66 Gy ＋シスプラチン） ④ さらにその後ペムブロリズマブ12回継続投与なし（経過観察） ③ 手術の後術後の「再発高リスク」：局所および中央の両方の評価で「断端陽性（1 mm未満）」または「節外浸潤」手術ができなかった・がんが残ってしまった場合の措置も決まっている。

9.

PICO 評価項目と評価方法：何を・誰で・どう判定したか Primary endpoint：EFS 評価集団：CPS≥10 → CPS≥1 → 全体集団の順に評価。評価方法：RECIST v1.1に基づくBICR（盲検独立中央判定）。 EFSは「術前で手術不能となる進行」「術後の進行/再発」「死亡」を含む。 Key secondary endpoints MPR：残存する生存浸潤性扁平上皮癌が10%以下。 BIPR（盲検独立病理判定）で評価。 OS：全生存期間。死亡までの時間。患者に最も直接的だが、成熟に時間がかかる。 CPS：PD-L1発現の測定単位 CPS = PD-L1陽性細胞数 ÷ 生存腫瘍細胞数 ×100。分子には腫瘍細胞だけでなく、リンパ球・マクロファージも含む。 CPS≥10は高発現寄りの濃縮集団、CPS≥1はより広い陽性集団。 Other endpoints / safety pCR：病理学的完全奏効。BIPRで評価。安全性・副作用プロファイルも評価。AEと試験治療との関連性は治験医師が判断。 PRO/QOLは患者重要アウトカムだが、欠測やオープンラベルの影響に注意。読み方：この試験は「EFSをBICRで主要評価し、MPR/OSを重要な副次評価項目として扱う」設計。結果を見る前に、どのアウトカムが正式検定の対象かを確認する。

10.

11.

PICO CPSとは何か：数字が大きい／小さいとはどういう状況か CPSの式 CPSが大きい CPSが小さい CPS = PD-L1染色陽性細胞数 ÷ 生存腫瘍細胞数 ×100 分子：PD-L1陽性の腫瘍細胞＋リンパ球＋マクロファージ。分母：生存腫瘍細胞数。 PD-L1陽性細胞が相対的に多い。 PD-1/PD-L1経路による免疫抑制が強い腫瘍微小環境の可能性。 PD-1阻害薬の効果が出やすいと仮定しやすい。 PD-L1陽性細胞が相対的に少ない。 PD-1/PD-L1経路以外の免疫逃避が主かもしれない。ただし「無効」を意味しない。検出力と症例数に注意。なぜCPS≥10から始めるのか CPS≥10は、PD-L1高発現寄りの「効果が最も期待される」濃縮集団。まず成功確率の高い集団でEFSを検証し、成功した場合にCPS≥1、さらに全体へ広げる。これは生物学的仮説と、より広い適応を狙う開発戦略を組み合わせた設計。注意：CPS=10は“魔法の境界”ではない CPSは連続的な指標で、10を境に生物学が突然変わるわけではない。臨床試験では、事前に定めた閾値で集団を定義し、検定順序と多重性を管理する。 CPS≥10、CPS≥1、全体集団は独立ではなく入れ子構造。 CPS測定方法：治療開始前（ベースライン）にnewly obtained（新規に採取された）、すなわち、過去の診断時アーカイブ検体の使い回しではなく、試験登録にあたって取り直した組織を用いて測定した。読む時のポイント：CPSは「PD-L1陽性細胞がどれだけ多いか」を示すが、効果予測を完全に決める単独マーカーではない。

12.

第3部 EFSと統計設計を先に理解する結果を見る前に、成功判定の物差しを確認する。

13.

なぜEFSをprimary endpointにしたのか「無イベント生存期間（EFS）」は、無作為化から、①術前補助療法の期間中に画像上で病勢が進行し手術ができなくなった時点、②画像検査または生検で局所・遠隔の病勢進行や再発が確認された時点、③あらゆる原因による死亡のいずれかが発生するまでの期間と定義されました。周術期試験の問題 EFSが拾うもの • ランダム化は手術前。 • 術前治療中に進行して手術できないことも、治療戦略の失敗。 • 術後から測るDFSでは、この術前の失敗を拾いにくい。 • 術前に手術を妨げる進行。 • 術後の局所・遠隔進行/再発。 • 死亡。 EFSは「OSを避けるため」ではなく、術前から術後までの戦略全体の失敗を拾うために自然なendpoint。

14.

EFSの定義：どこで失敗してもイベントになるランダム化術前手術後いつでもこの時点から時計を開始画像上の進行で手術不能ならEFSイベント局所/遠隔の進行・再発ならイベント死亡はイベント読む時の一般化・なぜこの順番か・どこで失敗したら次へ進めないか・結果ではなく計画を先に見る KEYNOTE-689での位置づけ現代的ながん第3相試験の典型的な論点：複数集団、複数endpoint、中間解析、α制御。注：EFSはOSではない。死亡だけでなく進行・再発も含む複合アウトカム。

15.

がん第3相試験では、なぜここまで統計設計が重要か • がん第3相試験では、time-to-event endpoint、複数集団、複数endpoint、中間解析が頻繁に出てくる。 • 実務上、多くの登録試験ではDMCによる安全性・有効性監視と、事前規定中間解析が組み込まれる。 • そのため、単純なp<0.05だけで読まず、解析計画・検定順序・境界値を確認する習慣が必要。 • 主要評価項目：EFS。 • 検定順序：CPS≥10 → CPS≥1 → 全体集団。 • 第1回事前規定中間解析で、事前に決めた境界を使う。 • primary/key secondary endpointと複数集団で全体の第I種過誤を片側2.5%に制御。 KEYNOTE-689は特殊すぎる例ではなく、現代的ながん第3相試験の典型的な論点を多く含む。

16.

統計 P値二分法は避ける。ただし治験設計ではP値とαを使う「解釈」と「設計上の判定基準」は別物として読む解釈では：P<0.05だけで結論しない設計では：αと境界が必要 P<0.05＝真、P≥0.05＝偽、という二分法は避ける。効果量、95%CI、絶対差、臨床的重要性、バイアスリスクを併せて読む。「統計的に有意」でも、患者にとって重要な差とは限らない。症例数設計では、α・検出力・想定HRを先に決める。中間解析では、事前に決めた境界を下回ったかで成功判定する。規制・承認試験では、後付けで成功基準を変えないことが重要。 KEYNOTE-689での実際 EFSのP値を「小さいから有効」と読むのではなく、CPS≥10 → CPS≥1 → 全体集団の逐次検定で、事前に決めた中間解析境界を順に下回ったかを見る。 OSは名目上よく見えても、プロトコール規定のOS境界を超えていないため、正式陽性とはしない。結論：「P値だけで解釈しない」と「P値・αを事前設計の判定基準に使う」は矛盾しない。

17.

統計症例数設計：HR 0.62なら、どれくらいのイベントが必要か教育用近似（正式設計はプロトコール/SAP） Schoenfeld型の教育用近似式 KEYNOTE-689で置く数字必要イベント数 D ≈ (z₁₋α + z₁₋β)² / {p(1−p)[log(HR)]²} p：割付比。1:1ならp(1−p)=0.25。 HRが1に近いほど、差が小さいので多くのイベントが必要。片側α=0.025 → z₁₋α ≈ 1.96。 Power 94.9%（β=0.051）→ z₁₋β ≈ 1.64（厳密には約 1.63〜1.64。教育用丸め）。想定HR=0.62 → log(HR) ≈ −0.478。 1:1割付なので p(1−p)=0.25。実際に代入すると D ≈ (1.96 + 1.64)² / {0.25 × (0.478)²} ≈ 12.96 / 0.0571 ≈ 226〜227イベント。論文ではIA1（第1回事前規定中間解析）をCPS≥10集団 207イベント後＋最終登録9か月後に計画。教育用近似と完全一致しなくてよい。読み方 714例、CPS≥10は計画462例、CPS≥1は計画 680例。症例数は「人数」だけでなく、time-to-event ではイベント数が情報量になる。実際の設計では登録期間、追跡期間、打ち切り、中間解析境界も入る。注：Schoenfeld式とz値は教育用近似・丸め。正式な症例数・境界はプロトコール/SAPで、登録期間・追跡期間・打ち切り・中間解析を含めて計算する。

18.

なぜ片側α=0.025なのか一般論 • がん第3相の優越性試験では、両側P=0.05 表示ではなく片側α=0.025で設計することが多い。 • 薬が有益方向に優れているかを検証するため、仮説方向を事前に定める。 KEYNOTE-689 • 全体第I種過誤を片側2.5%に強く制御。 • EFS、MPR、OS、複数集団、複数時点を含む。 • 途中解析では片側0.025よりさらに厳しい境界を使う。片側0.025は「p<0.05より甘い」わけではない。多重性と中間解析でむしろ厳しくなる。

19.

統計多重性・逐次検定・graphical method なぜ複数集団を置くのか PD-1阻害薬ではPD-L1高発現ほど効果が大きい可能性。まずCPS≥10で確実に示し、成功した場合だけCPS≥1、全体集団へ広げる。これは生物学的仮説と適応拡大を両立させる開発戦略。 EFS CPS≥10 EFS CPS≥1 なぜ好きに検定できないか解決策：固定順序＋α再配分 CPS≥10、CPS≥1、全体集団は重なる。 EFS、MPR、OSなど複数endpoint もある。「どれかでp<0.05なら成功」にすると、偶然の陽性が増える。だから全体の第I種過誤を片側2.5% に制御する。 EFS 全体 CPS≥10で成功しなければ、後続は正式主張に進めない。成功した仮説のαは次の仮説へ流れる。これがgraphical methodの直感。 MPR OS 重要：逐次検定は「前の門が開いたら次へ進む」仕組み。途中で失敗した後のP値は、どれだけ小さく見えても正式な有効性主張としては扱わない。

20.

中間解析：なぜ行うか、何が危険か、どう制御するか統計がん第3相のtime-to-event試験では、イベントが蓄積して初めて解析できる。だから「何件イベントが起きたら見るか」を事前に決める。登録開始イベント蓄積 IA1 判定最終解析患者を登録進行・再発・死亡が増える第1回事前規定中間解析有効／継続／安全性確認追跡をさらに蓄積途中で見る利点統計学的な危険今回の制御方法新治療が明らかに有効なら早く知らせる。無効・有害なら患者を守る。 DMCが安全性・有効性を監視する。何度も見ると、偶然に良く見えた瞬間を拾いやすい。各時点で普通のp<0.05を使うと、全体の偽陽性率が膨らむ。全体α=0.025を守るため、IA1では通常より厳しい境界を使う。 Lan–DeMets型で情報量に応じてαを消費し、O’Brien–Fleming型で早期成功のハードルを高くする。普通のp<0.05を何度も使う見る 1 見る 2 見る 3 見る 4 見る 5 事前規定の中間解析境界 → 偽陽性が増える IA1ではより小さいP値が必要 KEYNOTE-689では、IA1＝第1回事前規定中間解析。

21.

統計 αとは：試験全体で許す偽陽性確率を先に決める第I種過誤とはなぜ予算と呼ぶか本当は効果がないのに「効果あり」と結論する誤り。 αは、その誤りを許す最大確率。がん第3相優越性試験では、片側α=0.025で設計されることが多い。試験全体で許す偽陽性は片側 2.5%。複数集団、複数endpoint、中間解析で勝手に何度も使えない。使い道を事前に決める必要がある。 KEYNOTE-689では EFS、MPR、OS、複数CPS集団、IA1を含めて、全体の第I 種過誤を片側2.5%に強く制御。だから普通のp<0.05では読まない。比喩の意味：手元にあるα=0.025を、EFS、MPR、OS、さらに中間解析に少しずつ配る。使いすぎると、試験全体で「効いていない治療を効くと誤判定する確率」が増えてしまう。

22.

統計境界値の計算を教育用に再現：CPS≥10 EFS 単純化した片側O’Brien–Fleming型の概念式：α(t)≈1−Φ{z₁₋α/√t}。tが小さいほど（早期なほど）、 z₁₋α/√t は大きくなり、P値境界は小さくなる。つまり、早期に成功と言うには、より小さいP値が必要。逆算例計算の出発点全体の片側α = 0.025。 z₁₋α = 1.96。 IA1では情報量がまだ最終解析より少ない。したがって片側0.025をそのまま使わない。単純O’Brien–Fleming型として逆算すると、情報時間 t ≈ 0.79 が対応する。 z(t) = 1.96 / √0.79 ≈ 2.20。片側境界P = 1 − Φ(2.20) ≈ 0.0138。 NEJM本文のCPS≥10 EFS境界：0.01378。何を学ぶか 0.01378は結果から出たP値ではない。 IA1時点で成功と認めるための事前物差し。早期解析なので0.025より厳しい。完全再現に必要なもの：正式SAP、最終イベント計画、実際の情報時間、共分散構造、仮説間のα配分・再配分。 NEJM本文だけでは完全再現はできない。ここでは「なぜ0.025ではなく0.01378になるのか」を理解するための再現です。統計学の式などは、AIに従って統計学の教科書・論文の確認は行ってない。

23.

24.

統計今回の境界値：計画された物差し（結果ではない）どのP値を下回れば、IA1で正式成功と言えるかを事前に決めていた仮説片側境界P値意味 EFS CPS≥10 0.01378 Step 1の成功判定。ここが開かなければ後続EFSへ進めない。 EFS CPS≥1 0.01242 Step 2の成功判定。CPS≥10成功後に正式評価。 EFS 全体集団 0.01196 Step 3の成功判定。全体へ広げるための門。 MPR 0.0005 EFS全仮説成功後のkey secondary。非常に厳しい境界。 OS CPS≥10 0.0104 IA1でOSを正式成功と言うための境界。読む時の原則：普通のp<0.05ではなく、「その仮説・その解析時点」に割り当てられた境界を下回ったかで判断する。

25.

統計 one-sided Pとtwo-sided P：論文表示と正式判定が違う半分という説明は“方向が事前に決まっている時”の教育用近似 NEJMでの表示試験の正式判定論文本文では、出版社の規則に従って、片側でなく両側のP 値が表示されている。プロトコールではone-sided P で判定。 two-sided Pは、有利方向と不利方向の両方を考える。これはジャーナル方針による表示。仮説方向は「ペムブロリズマブが有利」と事前に定められている。正式にはSAP上のone-sided P と境界を比較する。なぜ概ね半分か効果が事前想定の有利方向に出ている場合、 two-sided Pの片側分がonesided Pの感覚になる。例：two-sided 0.004 → 片側感覚約0.002。注意：これは初心者向けの近似であり、正式な再計算ではない。本試験での正式判定は、統計解析計画に沿ったone-sided P値と、事前境界との比較で行われる。

26.

統計計画値に結果値を当てはめる：EFSは3つの門を通過集団計画：片側境界結果：NEJM two-sided P 片側に合わせると判定 CPS≥10 0.01378 0.004 約0.002 成功：次へ進む CPS≥1 0.01242 0.003 約0.0015 成功：次へ進む全体集団 0.01196 0.008 約0.004 成功：EFS全体で陽性結論：EFSはCPS≥10、CPS≥1、全体集団の順に、事前に決めた中間解析境界をすべて下回った。したがって「EFSは正式に陽性」と言える。これは単にp<0.05だったからではない。

27.

統計 OSは良い方向。ただし正式陽性ではない／臨床的意味へつなぐ EFSの正式成功と、OSの未確立を同時に理解する OSは一見よく見える CPS≥10 OS：HR 0.72。 95%CI 0.52–0.98で1をまたがない。 two-sided P=0.04。通常の固定デザインなら有意に見える場面。しかし本試験の正式判定では未達 IA1のOS境界は片側0.0104。 two-sided P=0.04 → 片側感覚約0.02。 0.02は0.0104より大きい。したがってprotocol-specified criterionは満たさない。臨床的にはどう読むか OS曲線は良い方向。ただしOSは未成熟。後続OS仮説は正式検定として扱わない。追加フォローアップが必要。統計的成功を臨床的意味へつなぐ EFSの正式成功は強い。しかしEFSはOSではない。3年EFS絶対差は約11〜14ポイント、1000人あたり約112〜139人多くイベントなし。推奨判断では、OS未成熟、免疫関連毒性、PRO/QOL、嚥下・発声などの機能、治療負担を同じ表で評価する。

28.

第4部 Kaplan–Meier曲線と結果を読む統計設計を理解したうえで、EFSとOSを別々に読む。

29.

統合フロー：無作為化 → 手術 → 術後/根治治療 → 病理リスク分母に注意：8名、275名、高リスク特徴ありは同じ母集団ではない。手術完了、術後治療開始、病理リスク判定は別の読み方をする。スクリーニング N=1,044 → 無作為化 N=714 → Pembro 363 ／ Control 351 ペムブロリズマブ群：N=363 手術 275の分母対照群：N=351 手術完了 321名（88.4%）手術未完了 42名 = 根治RT/CRT 8 + その他34 手術遅延 38名 8名≠手術なし全員術後治療開始 267名 + 手術なし根治RT/CRT 8名 = 275名シスプラチン 107/275 38.9% 手術手術完了 308名（87.7%）手術未完了 43名 = 根治RT/CRT 8 + その他35 手術遅延 10名 8名≠手術なし全員術後治療開始 267名 + 手術なし根治RT/CRT 8名 = 275名 275の分母 275は無作為化例でも病理高リスク例でもない病理リスク高リスクあり 118名 32.5% 高リスクなし 196名 54.0% 追跡中央値 38.3か月欠損 49名 13.5% シスプラチン 139/275 50.5% 275は無作為化例でも病理高リスク例でもない病理リスク高リスクあり 156名 44.4% 118 + 196 + 49 = 363（母数は無作為化例）読み方：高リスク特徴ありなら計画治療はシスプラチン併用CRTだが、実投与は医師・施設基準で最終決定。したがって 118≠107、156≠139 は矛盾ではない。分母と概念が違う。 Source: Participants and Treatment本文、Trial Design and Treatments本文。欠損49/47は本文値から算出。高リスクなし 148名 42.2% 欠損 47名 13.4% 156 + 148 + 47 = 351（母数は無作為化例）

30.

KM曲線：まず見るべき5点 • 曲線がいつ分離し始めるか。 • 分離が持続しているか。 • 12・24・36か月など固定時点の絶対差。 • HRは曲線全体の平均的比較で、36か月差そのものではない。 • No. at riskが少ない右端は強く読まない。この資料では36か月ランドマークを中心に読む。

31.

No. at risk：右端のtailを強く読まない No. at riskとは KEYNOTE-689での注意 • その時点で、まだ追跡中でイベントを起こしていない人数。 • 右に行くほど少なくなる。 • 少数例のイベントで曲線が大きく動く。 • EFSの60か月付近は人数が非常に少ない。 • 5年以降の急な落ち込みや接近は解釈しない。 • 中心は追跡中央値38.3か月の文脈で36か月まで。 KM曲線の右端を見て「長期効果が消えた」と言うのは危険。

32.

HRと絶対差：患者説明では両方が必要（詳細は第７部だが、ここでもグラフを読むときに理解しよう）例：全体集団の3年EFS絶対差 +11.2ポイント → 1000人あたり約112人多く「進行・再発・死亡なし」。緑の点：約110人/1000人（全体集団の3年EFS差の感覚） HRと絶対差の違い • HR：イベントが起きる速さの相対比較。 • 絶対差：ある時点で何人違うか。 • 患者・ガイドラインには絶対差が特に重要。 HRは相対的な速さ、絶対差は患者に伝わる人数差。3年EFSでは1000人あたり約112〜139人多くイベントなし。

33.

EFS：CPS≥10集団 36か月ランドマーク • 36か月EFS：59.8% vs 45.9% • 絶対差：+13.9ポイント • HR 0.66（95%CI 0.49–0.88） • two-sided P=0.004（片側感覚≈0.002 ） → 境界0.01378を下回り正式成功読み方・曲線の右端ではなく36か月までを中心に読む・HRと絶対差は別物・OSは正式判定と名目CIを分ける最も効果が期待された濃縮集団で、早期から曲線が分離。

34.

EFS：CPS≥1集団 36か月ランドマーク • 36か月EFS：58.2% vs 44.9% • 絶対差：+13.3ポイント • HR 0.70（95%CI 0.55–0.89） • two-sided P=0.003（片側感覚 ≈0.0015） → 境界0.01242を下回り正式成功読み方・曲線の右端ではなく36か月までを中心に読む・HRと絶対差は別物・OSは正式判定と名目CIを分けるより広いCPS≥1集団でも効果は保たれている。

35.

EFS：全体集団 36か月ランドマーク • 36か月EFS：57.6% vs 46.4% • 絶対差：+11.2ポイント • HR 0.73（95%CI 0.58–0.92） • two-sided P=0.008（片側感覚≈0.004 ） → 境界0.01196を下回り正式成功読み方・曲線の右端ではなく36か月までを中心に読む・HRと絶対差は別物・OSは正式判定と名目CIを分ける全体集団でも境界を通過。ただしCPS<1は少数なので単独判断はできない。

36.

EFSの36か月絶対差：臨床的に見る CPS≥10 13.9% CPS≥1 13.3% 全体 11.2% 統計的に成功しただけでなく、3年時点で約11〜14ポイントの絶対差がある。

37.

EFS結果 EFS改善の中身：何が減ったのか棒の長さは「初回EFSイベント数」。率ではなく絶対イベント数として読む EFSは複合アウトカムなので、「何のイベントが減ったか」を確認する。全体集団では遠隔進行・遠隔再発が51例→26例で、最も目立って減っている。集団 Pembro Control 差 CPS≥10 遠隔 15 39 −24例 CPS≥1 遠隔 24 51 −27例全体遠隔 26 51 −25例全体集団：初回EFSイベント内訳（同じスケールで表示）局所進行/再発 3 39 P C 局所＋遠隔 P C 遠隔進行/再発 P 7 4 7 解釈の中心 EFS改善は「死亡が明確に減った」だけではない。少なくとも初回EFSイベントとしては、遠隔進行・遠隔再発の減少が大きく寄与している。 C 死亡注意死亡減少として確定するにはOSの成熟が必要。 EFSの構成要素とOSは分けて読む。 P C 2 6 5 1 6 67 4 P=Pembrolizumab、C=Control。死亡は初回EFSイベントとしての死亡であり、OS改善とは別に読む。読むコツ：カテゴリーごとの「PembroとControlの差」を見る。遠隔進行/再発は差が大きいが、死亡は同程度。

38.

OS：CPS≥10集団 36か月ランドマーク • 36か月OS：68.2% vs 59.2% • 絶対差：+9.0ポイント • HR 0.72（95%CI 0.52–0.98） • two-sided P=0.04。ただし境界未達読み方・曲線の右端ではなく36か月までを中心に読む・HRと絶対差は別物・OSは正式判定と名目CIを分ける曲線は良い方向。しかしOSは正式陽性ではない。

39.

OS：CPS≥1集団 36か月ランドマーク • 36か月OS：69.0% vs 60.2% • 絶対差：+8.8ポイント • HR 0.72（95%CI 0.56–0.94） • CPS≥10 OSが未達なので正式検定は進まない読み方・曲線の右端ではなく36か月までを中心に読む・HRと絶対差は別物・OSは正式判定と名目CIを分ける良い方向だが、階層検定上は正式なOS主張ではない。

40.

OS：全体集団 36か月ランドマーク • 36か月OS：68.4% vs 61.1% • 絶対差：+7.3ポイント • HR 0.76（95%CI 0.59–0.98） • CPS≥10 OSが境界未達のため全体OSも正式検定ではない読み方・曲線の右端ではなく36か月までを中心に読む・HRと絶対差は別物・OSは正式判定と名目CIを分ける方向は一貫して良いが、OS結論は保留。

41.

EFSとOSを並べて読む EFS OS • 正式に陽性。 • 36か月で約11〜14ポイント差。 • 遠隔進行・遠隔再発減少が目立つ。 • 良い方向。 • 36か月で約7〜9ポイント差。 • IA1では正式境界未達、未成熟。最も正確な表現：EFSは確立、OSは期待を持たせるが未確立。

42.

第5部 MPR/pCR・安全性・手術への影響 EFSの利益だけでは推奨は決まらない。害と治療負担を見る。

43.

MPR/pCR結果：対照群では0% • MPR：残存生存浸潤癌が10%以下集団 • pCR：残存浸潤癌なし。 MPR Pembro MPR Control pCR Pembro pCR Control CPS≥10 13.7% 0% 4.3% 0% CPS≥1 9.8% 0% 3.2% 0% 全体 9.4% 0% 3.0% 0% 腫瘍反応は介入群でのみ観察。ただしMPR/pCRだけで推奨を決めない。

44.

安全性：Grade≥3全体だけでは見誤る Any TRAE 81.4% Any TRAE 対照 81.9% Grade≥3 TRAE 44.6% Grade≥3 対照 42.9% 治療関連SAE 19.1% 治療関連SAE 対照 10.5% 治療関連死亡 1.1% 治療関連死亡対照 0.3% Grade≥3 TRAE全体は近いが、治療関連SAEと治療関連死亡は介入群で多い。免疫関連毒性も別に確認する。 • TRAE：治療関連有害事象。 • SAE：重篤有害事象。 • irAE：免疫関連有害事象。 • Grade≥3：CTCAE重症度で重症以上。GRADE確実性評価とは別。

45.

免疫関連有害事象：Pembro群で明らかに増える irAE any 43.2% irAE any 対照 10.2% Grade≥3 irAE 10% Grade≥3 対照 0.6% Hypothyroid 24.7% Hypothyroid 対照 5.4% Pneumonitis 5.3% Pneumonitis 対照 0% NEJMではpotentially immune-mediated adverse eventsと表記。ここでは免疫関連AEとして説明。 Grade≥3はCTCAE重症度で、GRADEアプローチとは別。

46.

安全性安全性・手術・病理：EFS利益の実装面を同時に見る安全性・手術遅延・術後治療の変化は、推奨判断で同時に扱う安全性：同等と言い切れない Grade≥3 TRAE：44.6% vs 42.9% 治療関連SAE：19.1% vs 10.5% Grade≥3 irAE：10.0% vs 0.6% 治療関連死亡：1.1% vs 0.3% Grade≥3全体だけを見ると害を見落とす。免疫関連毒性と重篤AEは増える。手術への影響手術完遂：88.4% vs 87.7% 手術遅延：38例 vs 10例術後治療開始：73.6% vs 76.1% 完遂率は大きく低下しない。ただし遅延は増えるため、実装では手術枠・合併症対応・待機許容性を見る。病理リスク・術後治療の変化中央評価で高リスク病理所見： 32.5% vs 44.4% 術後シスプラチン使用：38.9% vs 50.5% 術前Pembroにより病理リスクが下がった可能性。ただし本試験だけでは、術前成分・術後成分・術後治療変更の寄与は分けられない。用語：TRAE＝治療関連有害事象、SAE＝重篤有害事象、irAE＝免疫関連有害事象、Grade≥3＝CTCAE重症度で重症以上（GRADE確実性評価とは別）。

47.

第6部 RoB 2.0を具体的に読むここでは“RCTだから低リスク”という雑な読み方をやめます。 RoB 2.0は、1つの試験全体ではなく、特定アウトカムの特定結果ごとに、バイアスが結論をどれほど揺らすかを見る道具です。 KEYNOTE-689では、EFS/OS/MPR・pCR/PRO/安全性で、RoBの意味が違います。

48.

RoB 2.0 RoB 2.0を具体的に読む NICE Committee Papers Table 10には、Company Submission（CS）評価とExternal Assessment Group（EAG）評価が併記されている。この資料では独立評価であるEAG Assessment列を基準に読む。 RoB 2.0の基本 • ランダム化試験の結果に入り得るバイアスを5ドメインで評価する。 • 評価対象は「試験全体」ではなく、特定アウトカムの特定の推定値。 • 同じ試験でも、EFS、OS、PRO、安全性で懸念の重みは変わる。 KEYNOTE-689で見る対象読み方の注意 • CS評価とEAG評価が異なる箇所は、EAGの慎重な判断を中心に扱う。 • Some concernsは「使えない」ではない。 • EFS/OSなど客観性の高い結果と、 PRO/安全性など主観性のある結果を分ける。 • 原著本文、NICE Table 10、RoB 2.0 guidanceを突き合わせる。 • 推奨ではRoBをGRADEの確実性評価へ接続する。この章での結論 EAGの総合判断は Some concerns。ランダム化と報告選択は比較的堅い一方、open-label、介入逸脱、欠測、 PRO/安全性測定への懸念が残る。したがって、EFSの結論を直ちに否定するのではなく、アウトカムごとに重みを変えて読む。

49.

RoB 2.0 RoB D1：ランダム化過程は Low risk 割付前に群を予測・操作できたか、ベースライン差が問題を示すかを見る。 RoB 2.0で見ること • 1.1 割付系列はランダムか。 • 1.2 割付は隠蔽されていたか。 • 1.3 ベースライン差が問題を示すか。 • 割付隠蔽は「試験中の盲検化」とは別。登録前に次の割付を予測させない仕組み。原著で確認する箇所 EAGの回答 • 第3相、多施設、open-label、 randomized、active-controlled trial 。 • 1.1 allocation sequence random ：Y • 中央ランダム化：interactive voice-response system。 • 1.3 baseline differences suggest problem：N • 層別化：原発部位、病期、PD-L1 TPS。 • Support：IVRS/IWRS、baseline characteristics similar。 • 1.2 allocation concealed：Y Domain judgement：Low risk KEYNOTE-689では、割付前に次の群を予測して登録を操作できた可能性は低い。したがってD1はこの試験の強みと読める。以後の懸念は、ランダム化そのものではなく、open-label下での治療経路・欠測・測定へ移る。

50.

RoB 2.0 RoB D2：介入逸脱は Some concerns open-labelで逸脱はあるが、2.4=PNとITT解析によりHighではなくSome concernsと読む。質問 EAG 意味 2.1 Y 参加者は割付を知っていた。 open-label。 2.2 Y 医療者も割付を知っていた。open-label。 2.3 Y 割付知識に関連した介入逸脱があったとEAGは判断。 2.4 PN 逸脱がアウトカムに影響した可能性は probably no。 Highにしない鍵。 2.5 N 逸脱のバランスには懸念が残る。 2.6 Y effect of assignmentの推定にはITT解析を使用。 Supportは Intention-to-treat analysis。 RoB 2.0アルゴリズムの読み方 open-labelだけでHighではない。 2.3=Y：逸脱あり → 懸念は発生。 2.4=PN：結果への影響はprobably no → HighではなくSome concerns側。 2.6=Y：ITT解析 → effect of assignmentの解析として適切。 Domain judgement：Some concerns 治療経路、支持療法、治療中止、手術時期などに割付知識が影響し得るため、完全なLowとはしない。訂正点：2.6のsupportは「Intention-to-treat analysis」。以前の “small numbers and application of ITT analyses” は2.4のsupportであり、2.6の根拠としては扱わない。

51.

RoB 2.0 RoB D3：欠測アウトカムデータは Some concerns EFS/OSの欠測と、PRO/QOLの欠測は同じ意味ではない。 EAGの主な回答なぜSome concernsかアウトカム別の重み • 3.1 outcome data available for all/nearly all：PY • EFS/OSではイベント情報は比較的得られやすい。 • EFS：欠測の影響は限定的かもしれない。 • EAG support：outcome available for nearly all patients。 • ただし一部患者のdispositionが不明瞭。 • しかしPRO/QOLは、状態が悪い患者ほど回答しにくい。 • AEで中止した患者のPROが欠測すると、生活の質への悪影響を過小評価し得る。 • OS：死亡は追跡しやすいが、成熟性は別問題。 • PRO/QOL：欠測バイアスを重く見る。 • AE中止患者のQoL/PROが“missing by design”となる点を指摘。 • 安全性：観察期間差と報告の影響も併せて考える。 Domain judgement：Some concerns RoB 2.0では「ほぼ全例で主要アウトカムが得られた」だけで終わらない。欠測が、患者の状態や有害事象と関係していないかを確認する。 KEYNOTE-689では、特にPRO/QOLを解釈するときにD3を重く見る。

52.

RoB 2.0 RoB D4：測定バイアスはアウトカムごとに違う EAG判断は “Some concerns for certain outcomes”。どのアウトカムを指すのかを明確にする。アウトカム測定方法割付知識の影響読み方 OS 死亡低い測定は客観的。ただしOS未成熟性はRoBではなくimprecision /中間解析の問題。 EFS BICR（盲検独立中央判定）/RECIST （固形がんの治療効果判定基準）比較的低い BICRで保護されるが、治療経路の影響とは別に読む。 MPR/pCR BIPR（盲検下独立病理判定）低め盲検独立病理判定。ただし患者重要アウトカムではない。 PRO/QOL 患者報告高め open-labelと欠測に影響され得る。安全性医師判断・報告高め関連性判定、報告行動、観察期間差の影響に注意。 EAGの判断：Some concerns for certain outcomes 4.1 測定法は不適切ではない（N）。4.2 群間で大きく異なる可能性は低い（PN）。しかしopen-labelで評価者が割付を知り得るため、PROや一部安全性アウトカムでは測定バイアスを懸念する。

53.

RoB 2.0 RoB D5：報告結果の選択は Low risk 結果を見て都合よくアウトカム・時点・解析を選んだ疑いがあるかを見る。 EAGのシグナリング回答ただし注記する点読み方 • 5.1 pre-specified planに従って解析：Y • 5.2 結果に基づく測定時点・定義の選択：N • 5.3 結果に基づく複数解析からの選択：N • Domain judgement：Low risk • EAGはmPSがプロトコール変更でprimaryからsecondaryへ変更された点に言及。 • これはD5をHighにする根拠とはされていない。 • mPSとMPRを勝手に同一視しない。原資料の用語に従う。 • Low riskは「プロトコール変更がゼロ」という意味ではない。 • この数値結果が、結果を見て都合よく選ばれた可能性は低い、という意味。 • EFS/OSの正式検定は事前解析計画との整合を確認して読む。 Domain judgement：Low risk D5は比較的堅い。KEYNOTE-689の主な不確実性は、報告選択よりも、open-label、欠測、PRO/安全性測定、OS 未成熟性にある。

54.

RoB 2.0 RoB総合判断：Some concernsをどう読むか “研究全体が信用できない”ではなく、“アウトカム別に慎重に重みづけする”という意味。 D1 Low ランダム化過程は堅い中央ランダム化、割付隠蔽、背景類似 D2/D3/D4 Some concerns open-label、欠測、測定特にPRO・安全性で重く見る D5 Low 報告結果の選択は比較的堅い事前計画と選択的報告を確認 Overall：Some concerns High riskのドメインはない。一方でSome concernsが複数あるため、OverallはLowではなくSome concerns。 RoB 2.0の総合判定は「この特定結果の信頼性に、どの程度バイアス懸念があるか」を示す。実務での結論：EFSの有効性を否定するほどではないが、PRO/QOL・安全性・治療負担を推奨判断に入れる時は、EAGのSome concernsを明示して重みづけする。

55.

第7部 GRADE・メタ分析・ガイドラインへつなぐ統計的成功を、推奨判断とエビデンス統合に変換する。

56.

GRADE/EtD：推奨はP値だけでは決まらない効果害・価値観・実装 • EFS絶対差。 • OSの方向性と未成熟性。 • MPR/pCRの補助的意味。 • irAE、SAE、治療関連死亡。 • 嚥下・発声・整容・QOL。 • 治療期間、通院、医療資源、患者価値観。 EtDは「有効か」だけでなく、「どの患者に、どの条件で推奨するか」を決める枠組み。

57.

GRADE/EtD 絶対効果：HRだけでなく、ベースラインリスクから考える GRADEでは「相対効果が有意か」だけでなく、「患者に何人分の差が出るか」を見る例：全体集団の3年EFS。HR 0.73は時間全体の相対比較。患者説明では、対照群の3年EFSをベースラインリスクとして絶対差を計算。 1 対照群の3年EFS 2 Pembro群の3年EFS 3 絶対差 46.4% = 標準治療のみで、3年時点に進行・再発・死亡なしの割合。 57.6% = 周術期Pembro戦略で、3年時点に進行・再発・死亡なしの割合。 +11.2ポイント = 1000人あたり約112人多くイベントなし。 1000人で考えると 464人/1000人 Control 3年時点でイベントなし 576人/1000人 Pembro 3年時点でイベントなし差 112人 1000人中112人の利益について、患者と考えるのがEBM・一般的集団として推奨するのがGRADEアプローチの診療ガイドライン。 GRADEの精神：HRとp値だけでは推奨を決めない。相対効果、ベースラインリスク、絶対効果、害、価値観を同時に扱う。 HRは、時間全体だが、絶対差を3年とすると一時点で情報は少なくなっていることに注意。

58.

GRADE/EtD GRADE/EtD：アウトカム別に1枚で統合して読む EFS・OS・安全性・PRO/QOLは、確実性を下げる理由が違うアウトカム何が強いか何が不確実か推奨判断での使い方 EFS 主要評価項目。逐次検定を通過。3年絶対差約11–14ポイント。BICR/RECIST。複合アウトカム。死亡だけではない。右端 tailは少数。利益の中核。構成イベントと絶対差を提示する。 OS 方向は一貫してPembro有利。36か月絶対差約7–9ポイント。 IA1でOS境界未達。未成熟。CPS≥1/全体は正式検定なし。 “改善傾向”まで。正式OS改善とは書かない。 Grade≥3 TRAE全体は近い。 irAE、Grade≥3 irAE、治療関連SAE、治療関連死亡は増加。観察期間差。患者説明で必ず提示。害の重みは価値観で変わる。頭頸部癌では嚥下・発声・整容・社会復帰が重要。 PRO欠測、missing by design、openlabelの影響。長期機能は未確定。 EFS利益だけで推奨を決めないための重要アウトカム。安全性 PRO/QOL・機能 EtDでは、利益（EFS）・害（irAE/SAE）・不確実性（OS未成熟/PRO欠測）・患者価値観を並べて判断する。

59.

第8部補講：メタ分析で中間解析データをどう扱うか OSだけでなく、EFS、MPR/pCR、安全性、PROも分けて扱う。

60.

メタ分析メタ分析の基本：なぜP値ではなく効果推定値を入れるのか P値だけでは足りない P値は効果の方向・大きさを直接示さない。同じP=0.04でも、少数例の大きな効果か、大規模試験の小さな効果かが分からない。多重性調整や中間解析境界にも依存する。メタ分析が必要とする情報 time-to-eventの実務必要なのは、各試験の ① 効果推定値（HR, RR, OR, RD など） ② 精度（SEまたは95%CI） ③ 同じアウトカム・同じ時点・同じ集団か。 HRはlog(HR)に変換する。 95%CIからSEを計算する。重み ≈ 1/SE² で統合する。精度が高い試験ほど重みが大きくなる。例：OSやEFSはHR＋95%CIから generic inverse variance法で統合できる。

61.

メタ分析一般論：中間解析データをメタ分析に使う時の問題中間解析は利用可能な情報だが、成熟した最終解析と同じ扱いにしてはいけない 1 情報量が少ない time-to-eventではイベント数が精度を決める。中間解析はイベント数が少なく、 HRが後から動きやすい。 SEが大きく、推定値の不安定性が残る。 2 早期に良く見えやすい 3 公表・利用可能性の偏り group sequential designでは、早く境界を超えた推定値は上振れしやすい。第I種過誤は制御されても、点推定の過大評価は残り得る。良い中間結果は早く論文化・学会発表されやすい。悪い中間結果は出にくい。 time-lag biasやavailability bias につながる。名目95%CIと正式判定は別。KEYNOTE-689ではOSのCIが1をまたがないと理解してしまうが、CPS≥10のOSがIA1境界未達（付録が手に入ってないので、たぶん0.02ぐらい）のため、このOSは正式検定ではなく、１をまたいでないことに意味がない。メタ分析ではHR/95%CIをlogHR/SEへ変換して使えるが、未成熟な中間解析データとして扱い、成熟解析が出たら置き換えるべきである。例：名目CIと正式判定は別物 1.0

62.

メタ分析アウトカムアウトカム別：中間解析データの扱いは同じではないメタ分析に入れる値中間解析での主な注意 OS HR＋95%CI → logHR/SE 死亡イベントが未成熟。後治療の影響。境界未達でも名目CIが良く見えることがある。 EFS/PFS HR＋95%CI → logHR/SE イベント数は多いが複合アウトカム。構成イベントと定義の違いに注意。 MPR/pCR リスク差/RR/OR、またはイベント数病理反応は患者重要アウトカムではない。ゼロイベント対応を事前規定。安全性 AE/SAE/irAEのリスク比・リスク治療期間・観察期間が群間で違うと割合だけでは不十分。曝露調整も差検討。 PRO/QOL 平均差、変化量、標準化平均差欠測、測定時点、open-labelの影響が大きい。

63.

Appendix 参考文献

64.

参考文献・資料 • Uppaluri R, et al. Neoadjuvant and Adjuvant Pembrolizumab in Locally Advanced Head and Neck Cancer. N Engl J Med. 2025. • NICE Single Technology Appraisal Committee Papers ID6477: Pembrolizumab before surgery then with radiotherapy after surgery. 2026. • Cochrane RoB 2.0 guidance for randomized trials, 22 Aug 2019; NICE/EAG Table 10 RoB 2 assessment. • Wasserstein & Lazar 2016 ASA statement on P-values; Wasserstein, Schirm & Lazar 2019 “Moving to a World Beyond p<0.05”. • FDA Adaptive Designs for Clinical Trials of Drugs and Biologics, 2019; FDA Multiple Endpoints in Clinical Trials, 2022. • Cochrane Handbook: effect measures / repeated observations / time-to-event outcomes.

口腔がん：KEYNOTE 689 解説

MXE05064

関連スライド

MCID（最小臨床重要差）20200906　＜MID（群間差）でなくMIC（群間内MID)の説明となっている＞

ネットワークメタ分析の論文の図表の理解しよう第1弾：サルコペニアと運動のNMA

「人年」という単位を勉強しよう

ネットワークメタ分析の論文の図表の理解しよう第2弾：2型糖尿病の薬物療法

診療ガイドラインの説明2024年8月（エビデンスレベルとエビデンスプロファイルを作るとMindsの間違いあり）

Component network meta-analysis 公開版

各ページのテキスト

口腔がん：KEYNOTE 689 解説

MXE05064

関連スライド

MCID（最小臨床重要差）20200906 ＜MID（群間差）でなくMIC（群間内MID)の説明となっている＞

ネットワークメタ分析の論文の図表の理解しよう第1弾：サルコペニアと運動のNMA

「人年」という単位を勉強しよう

ネットワークメタ分析の論文の図表の理解しよう第2弾 ：2型糖尿病の薬物療法

診療ガイドラインの説明2024年8月（エビデンスレベルとエビデンスプロファイルを作るとMindsの間違いあり）

Component network meta-analysis 公開版

各ページのテキスト

MCID（最小臨床重要差）20200906　＜MID（群間差）でなくMIC（群間内MID)の説明となっている＞

ネットワークメタ分析の論文の図表の理解しよう第2弾：2型糖尿病の薬物療法