209 Views
August 29, 24
スライド概要
全体的な確実性とAlper説明のNet effectの確実性についての考察だが、少し不十分なところもある
不精確さのところは、GRADE ガイダンス 34・35:不精確さにの評価の最新情報のが、上限と下限の比がありよい
診療ガイドライン作成のための システマティックレビューにおける 各アウトカムのエビデンスの確実性から エビデンス全体の確実性を評価する方法を 何度も読んで理解して欲しい解説 :EBM の実践にも役立つよ編 日本口腔外科学会・日本口腔腫瘍学会編「口腔癌診療ガイドライン 2019年度版)」の、「CQ: 切除可能で外科治療を予定している症例に対して術前療法を行なうべきか?」を、Alperらが提案 している完全コンテキスト化アプローチを用いて再検討しながら解説する。 Alper によるNet effectの確実性(事例もある)のスライドも、必ず参照してね 湯浅秀道(Yマークタイトルは湯浅のみ) 協力・助言:辻本 康 指導・監修:相原守夫 内科医のエビデンスに基づく医療情報 http://aihara.la.coocan.jp/ メイン論文:Alper BS, Oettgen P, Kunnamo I, et al. Defining certainty of net benefit: a GRADE concept paper. BMJ Open 2019;9:e027445. https://bmjopen.bmj.com/content/9/6/e027445 参考:Monica Hultcrantz, David Rind, Elie A. Akl, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol. 2017 Jul;87:4-13. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6542664/ 相原守夫.診療ガイドラインのためのGRADEシステム第3版・内科医のエビデンスに基づく医療情報 1
本スライドの目的 システマティックレビューの結果を実際の臨床で使う、または、診療ガイドライン の推奨を決定するためには、システマティックレビューの結果を実際の臨床の現場 のいろいろな具体的な状況(文脈)に合わせて、総合的に考えなければならない。 しかし、アウトカムごとにエビデンスの確実性が異なっている場合・複数のアウト カムの臨床決断の閾値を同時に考慮しなければならない場合など、臨床決断・推奨 の評価が困難な事は多い。 そのため、それらの複雑な状況を整理しながら 考えるアプローチの開発が望まれている。今回 は、診療ガイドライン作成に対して提案された、 Alperらの完全コンテキスト化アプローチについ て解説する。 2
流れ ⚫ まず、エビデンスの確実性の意味を考える ○「エビデンスの確実性」の定義 ○「不精確さ」の定義 途中で、2021年報告されたGRADE guidelines 32のエビデンスの確実性と、信頼区間と 従来からの不精確さの評価方法の解説(流れは悪くなるが診療ガイドライン作成者は、 必須のため、あえて解説) ○「エビデンス全体の確実性」について ○少し、流れをまとめてみる ⚫ 各アウトカムの結果から、推奨を考えるために ⚫ Alperらの完全コンテキスト化アプローチとは(紹介)? ⚫ その前に:今回考察する実際の診療ガイドラインは? ⚫ ⚫ Alperらの、完全コンテキスト化アプローチの解説の前に Alperらの完全コンテキスト化アプローチとは(解説)? 〇Generation of the net effect estimate・正味の効果推定値の生成 Step1・2・3 〇Rating the certainty of net benefit・純利益の確実性の評価 Step4・5・6 〇少しまとめてみる ⚫ 正味の効果の確実性(エビデンスの確実性)を推奨の強さに関係づける(EtD) ⚫ EBMの実践で・・・ 3
まず、エビデンスの確実性の意味を考える 世界中の研究から、選択基準にあった研究を系統的・客観的に集めてまとめるのが系統的レ ビュー・システマティックレビューの論文である。そのシステマティックレビューで集めた研 究の結果を統計学的に統合するのが、メタ分析・メタアナリシスの手法であり、死亡とか心筋 梗塞とかのアウトカムごとに効果推定値(点推定値と95%信頼区間)を算出する。 たとえば、B治療に対してA治療の生存率が1.62倍の効果があったとする。もし、この効果推 定値の元になる研究が、左図のようにバラバラで一貫していない研究の値をまとめた推定値と、 右図のように一貫した値をまとめた推定値では、どちらのが、システマティックレビューにお いて推定値が真の値に対する確実性が高いであろうか。 もちろん、右図の場合である。 1.0 メタ分析:1.62 1.0 メタ分析:1.62
このような、集めた研究の結果が一貫してないとか、エビデンスの確実性を下げる 要因をまとめると、以下の5つあるとされている。これをグレードダウンの5要因と 言う(とりあえず、この5つがあると覚えること)。 もし、そのアウトカムの結果を構成する元の研究にバイアスが多く存在し ていたら・・・、 バイアスのリ スク もし、研究間で、結果が異なっていれば・・・、 非一貫性 もし、最初に想定した臨床の疑問の患者層など(PICO)と、選択した論文 の患者層が、原因不明で異なっていれば・・・、 非直接性 もし、複数の研究を集めたにもかかわらず症例数が少なく精確さに欠ける などをしていれば・・・、 不精確さ もし、有意差がなかったからと報告されなかった研究や、都合が悪いので 論文に書かなかったアウトカムが、たくさんありそうな状況だった ら・・・、 その他(出版 バイアス)
Y:システマティックレビューの質とその中のエビデンスの確実性(質)の関係 ステップ2: 元となる各研究のバイア SRの質とエビデンスの確 ステップ1: 臨床判断に使えるのか? SRそのものの作り方は? スや症例数、研究間の不 実性をまとめると? 一致や疑問との相違は? しっかりと作られてな いSR ---→ SRの質が低い 得られた結果を使って はいけない SRの質は高いが、そ 得られた結果を使うが できの良くない研究や、 の中のエビデンスの確 臨床判断に使えない可 各研究結果が不一致 実性が低い 能性がある しっかりと作られた SR SRの質は高く、その 良質な研究であり、各 得られた結果を使うこ 中のエビデンスの確実 研究結果も一致 とが十分にできる 性も高い 6
すなわち、診療ガイドラインの推奨や EBMの実践の場面で、いくらシステマティックレ ビューの質が高くても、エビデンス(SRのまとめた結果)に基づいて、その治療を行なうか 行なわないかの臨床決断する場合に、 そのエビデンスの確実性(certainty of evidence)が低ければ、推奨や決断は弱いものとな るのは言うまでもない。 参考文献:Andrews JC , Schünemann HJ , Oxman AD , et al . GRADE guidelines: 15. Going from evidence to recommendationdeterminants of a recommendation’s direction and strength. J Clin Epidemiol 2013;66:726–35.doi:10.1016/j.jclinepi.2013.02.003 そのためエビデンスの確実性が重要な要因となる。そして、そのエビデンスの確実性には、先 ほどの5要因の中でも「不精確さ」が、重要な要因、かつ、診療ガイドラインとシステマ ティックレビューでは評価が異なっているので注意が必要である。 よって、本スライドでは、まず、従来からGRADEアプローチで採用されている「エビデンス の確実性」と「不精確さ」について説明する。その後に、Alperらが提案している完全コンテ キスト化アプローチを説明する。 ポイント:エビデンスの確実性と不精確さは、同じような意味なので混乱しやすいという指摘(これに対してSchünemann は反論)もあることより、理解は難しいと思ってもよい( Anttila. Conclusiveness resolves the conflict between quality of evidence and imprecision in GRADE. Journal of Clinical Epidemiology 75, 2016, P1-5 https://www.jclinepi.com/article/S0895-4356(16)30068-3/fulltext )
「エビデンスの確実性」の定義 近年、エビデンスの確実性の定義で最も使われているのが、GRADE Working Groupによる GRADEアプローチである。そこで、本スライドは、その多くがGRADEアプローチに従って解 説する。本スライドでは、診療ガイドラインにおけるエビデンスの確実性の定義に従って解説 する。 システマティックレビュー ある効果推定値が正しいという確実性(certainty ) 診療ガイドライン 真の効果が特定の範囲または特定の閾値の片側にあることの確実性 (the certainty that a true effect lies within a specified range or on one side of a specified threshold ) A 特定の閾値 参考文献:Hultcrantz M, Rind D, Akl EA, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4–13. 注意:相原守夫.診療ガイドラインのためのGRADEシステム第3版:「効果推定値に対する確実性が、ある特定の推奨を支持する上でどの程度十分 か」とあるが、その後の変遷に関しては、相原先生のブログを参照されたい(内科医のエビデンスに基づく医療情報)。 8
もう少し具体的に、診療ガイドラインでのエビデンスの確実性を説明する。 たとえば、抗血栓療法を使用するかどうかの決定について患者が脳卒中の2%減少 の閾値を選択したとする。抗血栓療法を使用するかどうかの決定については、2% 減少の閾値を超えている限り、真の効果が脳卒中の2.1%の減少(A)であるか、 3%以上の減少(B)であるかは重要でない。 したがって、点推定が真の効果を表すという確実性ではなく、真の効果(減少)が 2%以上であるという確実性が担保されれば良い。もちろん(C)の場合では、確実 性は低くなる。 A B C 2% 参考文献:Hultcrantz M, Rind D, Akl EA, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4–13. 9
「不精確さ」の定義 研究に比較的少数の患者と少数のイベントが含まれていて、そのために効果推定値を取り巻 く信頼区間が広くなっているならば、そのデータは不精確(imprecise)であると定義する。 注意: impreciseの日本語訳だと、不正確が多く用いられている。「正確」という表現は、「何が正しいのかの基準が明 確な場合に、間違いがなくて正しいこと」を意味するため、真の値が不明な医療の場面なので「精確」となっている。 そして、その評価方法は、臨床判断の閾値の関係などより、システマテックレビューと診療 ガイドラインでは、評価方法が異なる。また、アプローチには、「閾値を用いる方法」と 「Hultcrantzらによる完全コンテキスト化アプローチ」の2つの方法がある。詳しくは、相 原GRADE第3版を参照して欲しい。どちらも、アウトカムごとに不精確さを評価する方法 である。 最も単純に述べると、信頼区間が広くて、下図のような状況なら、そのデータの不精確さは、 深刻と言える。また、症例数そのもの(信頼区間のはば)だけでなく、信頼区間が「特定の 閾値」をまたいでいれば、不精確さがあるとも言える。 A治療で利益← →A治療で害 参考文献:Hultcrantz M, Rind D, Akl EA, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4–13. 10
Y:GRADE guidelines 32より 2021年時点で、あらためてエビデンスの確実性の解説が必要な理由 アウトカム死亡:最小臨床的効果(MID) 効果なし -4.0% 介入A優位 -2.0% -0.5% -1.0% RD=0 対照優位 2021年にあらためて確実性を解説する論文が、GRADEワーキンググループより発表された。その理由は、 GRADE を使っている者が、何をもって確実性を評価しているのか(すなわち、証拠の確実性の評価のター ゲット)を明示しないことが依然として多いためこの解説となったらしい。 例えば、介入Aとプラセボの死亡率の差が100人あたり2人少なく、95%信頼区間(CI)は100人あたり0.5人 から4人少ないという状況を考えてみる。 ある評価者(システマティックレビュー作成者)は、効果なしを評価のターゲットとして、介入Aがプラセボと 比較して死亡率を減少させることが確実であり、不精確さの評価を下げる必要がないとする。また、他の評価 者は、1%減少というMIDをターゲットとして、不精確さのために確実性を下げるかもしれない。またSRの利 用者は、この両方の情報を吟味するかもしれない。 SR評価者は、コンテキストの程度と閾値を述べることで透明性が確保される。 なお、この解説では、閾値(必ずしも一点でなくても良い)の根拠を述べることは重要だが、それには触れず に解説する。 GRADE guidelines 32: GRADE offers guidance on choosing targets of GRADE certainty of evidence ratings. 2021. https://doi.org/10.1016/j.jclinepi.2021.03.026 11
Y: GRADE guidelines 32より エビデンスの確実性(質):certainty (quality) of bodies of evidence 大きい効果の閾値 中等度 小さい Large moderate small 効果なし trivial エビデンスの確実性:真の効果が、閾値の片側(例えば、図の小効果閾値の左側)、または、選択した範囲内(例えば、 図の小効果の範囲内)にあるという確信 最小コンテキスト化:グループ間に差がない(RR=1、RD=0だけ)、または、重要な効果(MID)だけが明確になって いる場合に対しての確実性。すなわち、図の効果なしと小さい閾値(これをMIDと呼ぶ)の2つだけを考える。 部分コンテキスト化:小さい・中等度・大きい効果の閾値から2つの閾値で囲まれた範囲(・小規模small・中程度 moderate・大規模large)の確実性(些細trivial は使わないような事が最初にあるが、途中から使っていた?)。 この、 GRADE guidelines 32では、最小と部分コンテキスト化について述べるので、システマティックレビューや医療 技術評価用の解説である。まだCPGの完全コンテキスト化の論文が報告されてないので(GRADEワーキンググループで 議論承認されてから論文化されたもの)、この解説とする。 注意:信頼区間の意味に関しては、古典的な方法とベイス流の方法で若干解釈が異なるようだが、本解説では、概念を示 しているような感じで、厳密でない議論の部分もあることに注意されたい。雰囲気的には、ベイス流だと、点推定値がそ の区間に含まれる確率が95%という一般的に考えてしまう(古典的には間違いとされている)解釈で良いようだ。 参考文献: https://link.springer.com/article/10.3758/s13423-015-0947-8 12
Y: GRADE guidelines 32より エビデンスの確実性を評価する対象を選択するための4つの原則 大きい効果の閾値 中等度 小さい 効果なし Large moderate small 原則1:レビュアーは、確実性評価のターゲットを決める必要がある。 ある閾値の上か下か、または、ある2つの閾値の範囲内かどうかを決める。 原則2:確実性評価のターゲットは、コンテキストの程度、選択された閾値、および点推定値によって異なる。 コンテキストの程度は、SRならば、最小か部分コンテキストとなる。 閾値は、先のスライドでコンテキストの具体例で示したのに準じる。ベースラインリスクによっては、相対値 と絶対値が大きく変わる場合があるので、閾値と点推定値を絶対値で示す必要がある。また、閾値を点でなく 範囲で示す必要がある場合もあるが、複雑になるので、本解説では点で示す。 点推定値は、上図で、緑ならば真の効果が重要な効果であることの確信度を評価することになる。しかし、赤 ならば、真の効果は些細なものか重要ではない(すなわち、小効果閾値より小さい)という確実性を評価する ことになる。 13
Y: GRADE guidelines 32より エビデンスの確実性を評価する対象を選択するための4つの原則 アウトカム死亡:最小臨床的効果(MID) 効果なし アウトカム死亡:最小臨床的効果(MID) 効果なし 中等度 -1.9% -0.99% -0.1% 介入A優位 -1.0% RD=0 -1.9% -0.99% -0.1% 対照優位 介入A優位 -1.0% RD=0 対照優位 アプローチ1(上左):点推定値が選択した閾値(すなわち、MIDの閾値)に非常に近いが、レビュ アーは真の効果がその閾値以下であるという確実性を評価することができる。この場合、レビュアーは 効果が小さいという確信性を評価することになる。 アプローチ2(上右):レビュアーは隣接する2つの閾値(すなわち、効果なし(ヌル効果)と中等度の 効果の閾値)に関連して確実性を評価することができる。この場合、レビュアーは真の効果が些細な効 果であることの確実性を評価することになる。 アウトカム死亡:最小臨床的効果(MID) 効果なし 介入A優位 -1.0% RD=0 害 対照優位 点推定値が効果なしに位置するか、それに非常 に近い状況では、点推定値のみで確実性を評価 することは不可能であるので、アプローチ2を適 用する方がよいかもしれない。 有益な小さな効果のしきい値と有害な小さな効 果のしきい値の間の些細な効果の範囲に関連し て確実性を評価することになる。 14
Y: GRADE guidelines 32より エビデンスの確実性を評価する対象を選択するための4つの原則 MID2 MID1 効果なし 原則3:レビュアーがどこに閾値を設定するかによって、確実性の評価のターゲットが決まる。 レビュアーが閾値1を選択すれば、真の効果が小さな効果の閾値よりも大きい(すなわち、真の効果が 重要な効果である)という確実性を評価することになる。閾値2に設定した場合、真の効果が小さな効 果の閾値よりも小さい(すなわち、真の効果が些細なものである)という確実性を評価することになる。 原則4:95%信頼区間が複数の閾値を越える場合、特定の閾値を選択することには意味がなく、した がってエビデンスの確実性の評価対象を決めることにも意味がない。 このような状況では、特定の閾値に関連してエビデンスの確実性を評価するのではなく、「レビュアー は真の効果をほとんど知らない」という結論が適切であろう。また、エビデンスの確実性を少なくとも 2段階は下げるでしょう。 原則の適用については、コンテキスト化の程度と閾値の選択は、レビュアーによって異なる。また、そ れは、ユーザー自身が行うことも可能である。 15
Y: GRADE guidelines 32より 具体例:もう少し詳しい具体例が付録にあるので参照すること アウトカム死亡:最小臨床的効果(MID) 効果なし 中等度 -4.1% ステロイド優位 -3.0% -1.8% 0.8% -0.5%RD=0 ステロイド不利 最小コンテキスト化:このレビューの著者は、null effectに関連して確実性を評価することで、コルチ コステロイドが死亡率を減少させる(すなわち、効果がある)という確実性を評価する事とする。する と、95%信頼区間が効果なしと交差しているため、不精確さのために確実性を低く評価する。 部分コンテキスト化:著者は、MIDの閾値を100人あたり0.5人の死亡者数減少、中程度の効果の閾値 を100人あたり3人の死亡者数減少に設定したかもしれない。そうすると、ステロイドによる死亡率の 減少が小さいという確実性を評価し、95%CIが小さい効果と中程度の効果の両方のしきい値を越えてい ることから、不精確さを評価することになる。 ポイント:価値判断を必要としない非文脈化アプローチ( non-contextualized approach)というラベルか ら,最小コンテキスト化アプローチというラベルに変更した。価値判断を必要としない「非文脈的」と いうラベルの合理性はほとんどない。 16
Y: GRADE guidelines 32より 付録2より:信頼区間と確実性の範囲の概念 概念的には、GRADEの他の4つの領域は、効果の最 良推定値の不確実性の分布関数を、95%CIで定義さ れる範囲を超えて拡張・修正するものである。 確実性の範囲の幅は、他の4つの領域に関する深刻が 大きければ大きいほど広くなる。しかし、その範囲 内の推定値の確率分布の幅と形状については知られ ていません。 左上図に示すように、点推定値は変わらず、偏りや 間接性のリスクにより確実性の範囲が95%CIを超え て広がると考えられるなら、点推定値は、依然とし て小さい効果のしきい値よりも大きい効果を示唆し ているため、真の効果が小さいことの確実性を評価 し、偏りや間接性のリスクのために確実性を下げま すが、不正確さについては評価しません。 左下図は、一方向に動く可能性を示した概念図だが、 レビュアーがバイアスの方向性を認識し、その大き さを十分に明確に認識して、自信を持って点推定値 を動かすことができる状況は、現状ではない。 GRADE guidelines 32: GRADE offers guidance on choosing targets of GRADE certainty of evidence ratings. 2021. https://doi.org/10.1016/j.jclinepi.2021.03.026 17
Y: GRADE guidelines 32より 付録2より:信頼区間と確実性の範囲の概念 先の概念を、よりわかりや すく図示したものが、 「Schünemann JH. Interpreting GRADE‘s levels of certainty or quality of the evidence: GRADE for statisticians, considering review information size or less emphasis on imprecision? Journal of Clinical Epidemiology 2016;75:615.」の図である。 相原守夫.診療ガイドラインのためのGRADEシステム第3版 実際は、上図のような釣り 鐘でなく、下図のような、 いびつに変形している可能 性が高い。 18
Y:信頼区間とは Neymanの定義に厳密に従うと身も蓋もない…Moreyらの解説 定義1:パラメータ(一般的にはθと呼び、母平均、中央値、分散、確率、その他の未知の量)のX%信頼区間とは、θの すべての可能な値に対して、繰り返しのサンプリングでθの真の値を含む確率がX%となる手順で生成された区間(L,U)の こと (Neyman 1937)。 解説:母集団から標本を取ってきて、その平均から95%信頼区間を求める、という作業を100回やったときに、95回は その区間の中に母平均が含まれるという意味であり、観測されたデータからパラメータを推論してはいない( 95%に調 整して幅を決める感じ)。母数を囲む信頼区間が95%の確率で得られるということと、母数が1つの計算された区間に 95%の確率で含まれるということとは同じではない。 誤解1:正規分布に従う母集団から標本を取ってきてその平均から95%信頼区間を求めた時に、その区間の中に95%の 確率で母平均が含まれる(これは、違う解説からの説明)。 誤解2:信頼区間の幅は、パラメータに関する知識( knowledge)の精確さ(precision)を示す。信頼区間が狭いと精 確な知識があることになり、広いと不精確な知識があることになる。 誤解3:信頼区間は、パラメータの可能性の高い値を含む。信頼区間の内側の値(inside)は外側の値よりも可能性が高 い。この誤謬にはいくつかの種類があり、パラメータに関する信念のもっともらしさ、信頼性、または妥当性に関わるこ ともある。 それでは、データを収集し、信頼区間を計算した後、その区間をどのように解釈すればよいのか? 答えはとても簡単で、解釈しない。少なくとも信頼区間理論ではそうではない。 と言うことで、身も蓋もなくなるが、誤解2に関しては、もう少し解説する。 少なくとも、真の値θが、95%信頼区間の間を動くことはなく、不変なものである(たぶん、そうなると定義的に、 95%信頼区間の上限と下限にθがくることは、ほぼないような気がする(湯浅の見解))。 https://link.springer.com/article/10.3758/s13423-015-0947-8 https://bellcurve.jp/statistics/course/8891.html https://www.sciencedirect.com/science/article/abs/pii/S0732118X17301691 ( https://daneshyari.com/article/preview/6810990.pdf ) 19
Y:信頼区間とは Neymanの定義・信頼区間・ precision・ accuracy • WikiPediaなどによると、「一連の測定では、 accuracyは測定値が特定の値に近いことであり(系統的誤 差・観察誤差)、precisionは測定値が互いに近いこと(ランダムエラー)。」、「精度accuracyとは、信 頼区間に真の母集団のパラメータが含まれているかどうかという点で定義。precisionとは、信頼区間の幅 のことである。」とある。 • Anttilaらによると、GRADEのimprecisionは、このように、統計的検出力、信頼区間、指定された限界(言 い換えれば、クリティカルマージン)の複数の側面の組み合わせである。 In statistics , “accuracy” is a familiar concept expressing closeness between a parameter value and an estimate; it encompasses both bias and sample precision.統計学において「精度」とは,パラメー タ値と推定値の近さを表す身近な概念であり,バイアスと標本精度の両方を含んでいる。 • Moreyらの解説:推定値の精度(precision)と信頼区間の大きさには、必ずしも関連性はない。信頼区間 にはいろいろな計算方法があり、ノンパラメトリック法や一様分布法などでは、パラメータが推定される不 確実性(尤度で表現か?)が増すと、信頼区間の幅が小さくなる場合もある。よって、関連性がないとなる。 • そのため、Msaouelらは、論文内に「本記事では、信頼区間が狭いと精度が高くなるという一般的な仮定を 置き、興味のある方には、頻出主義の信頼区間とベイズの信頼区間の詳細な概要を参照して、関連するニュ アンスについて議論しています。」として議論を展開していた。 ⇒このような誤解2について、他の統計学者による考えを次のスライドで紹介する。 https://en.wikipedia.org/wiki/Accuracy_and_precision http://researchhubs.com/post/ai/data-analysis-and-statistical-inference/accuracy-vs-precision.html https://theebmproject.wordpress.com/fundamentals/hypothesis-testing/confidence-intervals/ Anttila. Conclusiveness resolves the conflict between quality of evidence and imprecision in GRADE. Journal of Clinical Epidemiology 75, 2016, P1-5 https://www.jclinepi.com/article/S0895-4356(16)30068-3/fulltext https://link.springer.com/article/10.3758/s13423-015-0947-8 https://www.mdpi.com/2072-6694/13/11/2741 20
Y:信頼区間とは Ranstamによる解説では 信頼区間は、対象となる母集団のパラメータが計算された区間内にある確率を提供できないことはよく知られている。母 集団パラメータは固定されているから動き回ることができず、確率を持つことはできない(ベイズでは異なる)。それに もかかわらず、信頼区間は広く支持されている。 このような支持は、信頼区間は精度を測定するものであり、広い区間は精度(precision)が低いことを示し、狭い区間 は精度が高いことを示すという議論(仮定)に基づいている。 平均値の信頼区間は、式より標準偏差をサンプルサイズの平方根で割った平均値の標準誤差に依存する。よって、サンプ ルサイズが大きくなると、平均の標準誤差は小さくなり、標準偏差が大きくなると、平均の標準誤差は大きくなる。 また、平均の標準誤差がサンプルサイズに影響されるだけでなく、標準偏差にも影響される。重要なことは、標準偏差は 全分散の平方根であり、式は、全分散がランダム分散(測定時におこるランダムな誤差)と系統的分散(母集団が、均一 な集団か不均一な集団化で、そこから得られるサンプルにおいて均質性が異なる)の両方(一般的に両者を「誤差」とい うカテゴリーでまとめている)に影響されることを示している。つまり、平均値の標準誤差に影響を与える要因は、サン プルサイズ、ランダム分散、系統的分散となる。 よって、母集団のパラメータが計算された区間内にある確率を割り当てることができなくても、実験の精度を測定できる と考える。精度には、サンプリング精度(sampling precision)、測定精度( measurement precision)、均質性の精 度( precision of homogeneity )の3種類がある。 よって、precisionを「測定値が互いに近いこと(ランダムエラー)」と定義すると、信頼区間の幅は、 precisionを表すとも言える。 もっとも、 Ranstamは、その後の解説で、「信頼区間(平均の標準誤差を用いて計算)は、これらを混同してしまう危険性がある。 したがって、精度に興味のない人にとっては、信頼区間を計算する理由はない。また、精度に関心のある人にとっては、3種類の精 度を別々に推定する方が良いため、やはり信頼区間を計算する理由はないことになってしまう。」と書いてあり、信頼区間を否定 していたので、身も蓋もなかった。ここでは、別々に推定しない方が、理解しやすいという論旨を前提とする。さらに指摘すると、 信頼区間に均質性が含まれるならグレードダウンの不精確さでない要因の非一貫性も含まれることになるが、これを指摘すると、 ランダム効果モデルや、、between study heterogeneityを考慮できているHartung and Knappの方法などを使うとかの話になる ので、ここではそんなこともあるという程度で流します。 https://www.sciencedirect.com/science/article/abs/pii/S0732118X17301691( https://daneshyari.com/article/preview/6810990.pdf ) 参考:https://www.quarkeducationconsulting.net/single-post/2019/04/01/uncertainty-error-and-confidence-in-data(不確実性(Uncertainty)は、データ 21 に存在するエラーの定量的推定です。すべての測定値には、系統的誤差やランダム誤差によって生成された不確かさが含まれています。 )
Y:信頼区間とは Gordon H. Guyattらの説明 信頼区間は、ランダムな誤差がエビデンスの確実性に与える影響を示すものであることが多い。ベイズ派とは 異なり頻出派(frequentist)の枠組みでは信頼区間は、実験を何度も繰り返し、実験ごとに信頼区間を再計算 した場合に、信頼区間の特定の割合(通常95%)が真の基礎値を含む結果の範囲を表します。 この定義よりも概念的に簡単なのは、信頼区間を「真実がもっともらしく存在する範囲」と考えることです。 95%信頼区間は、真の効果があることを95%確信できる範囲を示していると解釈されることが多い(A 95% confidence interval is often interpreted as indicating a range within which we can be 95% certain that the true effect lies.*)。この表現は緩い解釈ですが、大まかな目安としては有効である。 メタアナリシスの信頼区間の幅は、個々の研究の推定値の精度と、組み合わせた研究の数に依存する。 また、ランダム効果モデルでは、異質性の増加に伴い精度が低下し、それに応じて信頼区間も広がる。 なお、固定効果モデルとランダム効果モデルでは、信頼区間と点推定値の解釈が異なる。固定効果の推定値と その信頼区間は「効果の最良の(単一の)推定値は何か」という問いに対応しているが、ランダム効果の推定 値は効果の分布があることを仮定しており、「平均効果の最良の推定値は何か」という問いに対応している。 さすがに*の文章は、誤解を増やす(#の議論もあるが)。ともかく、定義ではなく、概念として、信頼区間を「真実が もっともらしく存在する範囲」と考えることで議論している。そのため、不精確さの評価では、サンプルサイズ・イベン ト数・閾値で評価しており、単純に95%信頼区間の幅が大きいとか小さいとかでは評価していない事に注意されたい (このような評価は、散見されるが、JCEの解説論文のGRADE guidelines 6には記載されていない)。 注意:これらのスライドの解説文は、論旨展開に都合良く論文を選んでおり、系統的に選択しておりません。 https://libraryguides.neomed.edu/c.php?g=324183&p=2172309 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC516199/ https://www.jclinepi.com/article/S0895-4356(11)00206-X/fulltext https://libraryguides.neomed.edu/c.php?g=324183&p=2172309 https://www.researchgate.net/publication/15378007_Basic_statistics_for_clinicians_2_Interpreting_study_results_Confidence_int ervals *https://training.cochrane.org/handbook/archive/v6.1/chapter-15 #https://ultrabem-branch3.com/statistics/basics/confidence_interval・ https://www.healthknowledge.org.uk/e-learning/statisticalmethods/practitioners/standard-error-confidence-intervals・https://www.youtube.com/watch?v=s4SRdaTycaw 22
Y:CPGにおける不精確さ GRADE guidelines 6より 不精確さの検討は、本当に混乱するので、理由・概念を中心に解説 不精確さ⇒確実性なので、GRADE guidelines 32の前に解説するか悩んだが、あえて、後にした。 不精確さ(imprecision): 1. もし、95%信頼区間の上端と下端で、臨床判断の閾値をまたいでいたら、そのデータは不精確。 2. 基本的にランダム化比較試験は、2つの治療に臨床的に差があると判断できる最小の値を利用して 必要な症例数を計算して行っているはず。しかし、たとえ、閾値をまたいでなくても、そもそも、 メタ分析として複数の研究を統合した全体の症例数が、必要な症例数に満たなければ、不精確と言 える(1つでも、症例数を適確に計算してある論文が含まれていれば、必要な症例数以上になるが、 残念ながら、そうでないことが多い)。または、症例数・イベント数そのものも評価も検討(後で 説明) 用語:GRADE guidelines 32よりで述べたように、閾値(Clinical Decision Threshold)としては、そ の診療ガイドラインのパネリストが、大きい・中等度・ 小さい効果の閾値を決めて、それに対して確実 性があるかを評価する。その中で、小さい効果の閾値は、minimally important difference(MID)と 同じと考えて良い。そして、多くが、MID( small effect)で評価することが多い(後のスライドで MIDの注意点を解説)。 追加説明:1.2.を逆に考えても同じ。 必要な症例数がなければ、そもそも不精確。これは、感覚的にも納得できる。 必要な症例数があっても、臨床判断の閾値をまたいでいたら、不精確である。 3.7. Clinical decision threshold and minimally important difference https://processbook.kce.fgov.be/node/134 Minimal clinically important difference: The basics https://www.medwave.cl/link.cgi/English/Reviews/MethodlogicalNotes/8150.act?ver=sindiseno *GRADE guidelines 6. Rating the quality of evidenced imprecision. 23
Y:CPGにおける不精確さ GRADE guidelines 6より 1.もし、95%信頼区間の上端と下端で、臨床判断の閾値をまたいでいたら、そのデータは不精確。 閾値(多くは、MID)の決定は、困難だが、1つの値を決定できれば、95%信頼区間の上端と下端で、判 断が異なれば、不精確となる(効果なしのラインではない)。 しかし、閾値を1つの値として決定できないことも多い(1つぐらいのアウトカムなら可能でもすべての アウトカムの閾値は不明なことが多い)。そのため、臨床決断の具体的な閾値を決定せずに不精確さを 評価する方法もある。医療の状況(コンテキスト)によって異なるが、できる限り状況を仮定した場面 での方法である(あくまでも、「できる限り」だが、fully contexualized approach 完全コンテキスト 化アプローチとよぶ)。 アウトカム死亡:最小臨床的効果(MID) 効果なし 介入Aを使用 介入Aを使用しない -4.0% -2.0% 介入A優位 -0.5% -1.0% RD=0 対照優位 判断が異なるので、不精確となる Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidenced imprecision. J Clin Epidemiol 2011;64:1283e93 24
Y:CPGにおける不精確さ GRADE guidelines 6より 1. Hultcrantzらの、完全コンテキスト化アプローチ。 不精確さを検討するアウトカム(ア)以外のアウトカム(イ・ウ・エ・オ)の点推定値を利用して、 (ア)のアウトカムの95%信頼区間の上端と下端で利益と害のバランスが逆転するかを判断する。 前提条件:(1)利益と害の両方の重大なアウトカムがすべて、数値化されていること。 (2)アウトカム間の相対的価値が効用値などで数値化されていること。 具体例:数値が小さい方が、介入Aが良いとする。よって、ーが利益で+が害。 (1)不精確さを検討するアウトカム(ア):絶対効果差RD -14 [+32~-53] (2)それ以外のアウトカムのRD(イ)-34、(ウ)-33、(エ)-6、(オ)+5(害) (3)相対的価値: (イ) (ウ) (オ) が1とすると、(エ)が2倍(ア)が3倍 手順:(1)それ以外のアウトカムの利益と害のバランス:(-34)+(-33)+(-6)×2+(+5)=-74 益 (2)(ア)の95%CI下限(+32)を考慮すると:(+32)×3+(-74)=+22 害 (3)(ア)の95%CI上限(-53)を考慮すると:(-53)×3+(-74)=-233 益 判断:信頼区間の下限と上限で決断は変ることから不精確さが深刻となる。この判定を、(イ)~ (オ)のアウトカムで繰返して判定していく。 もし、この時点で上限と下限で決断が同じでならば、次に、不精確さの評価の2.として症例数の検討 へ進むことになるが、上記の例では、深刻だったので、1.の検討まで。 感想:たしかに閾値はないが、たまたま(イ)~(オ)の合計がバランスが拮抗していたら影響を受けないのか?腑に落 ちない(3.のスライドで少し解説)。そもそも、害(オ)などの研究は、バイアスのリスクが大きい場合がある。それ を、点推定値を信用して計算することの不確実性はないのか?前提条件を満たすのが困難という問題もあるし、次にOIS を検討なら閾値(差・デルタ)必要となってしまう。 Hultcrantz M, Rind D, Akl EA, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4–13. 25
Y:CPGにおける不精確さ GRADE guidelines 6より 2. イベント数・症例数。 閾値のみでの検討ではダメな理由:そもそも検出力を満たさないほどの少ない症例数では、不精確となる。ま た、イベント数が少ないと信頼区間が脆弱(fragility)であるから。 2-1.システマティックレビューに含まれる患者の総数が、1回の十分な検出力のある試験の従来のサンプルサ イズ計算によって生成された患者数より少ない場合は、不精確さの評価を下げる。この値を「最適な情報サイ ズ」(OIS)と呼ぶ。 オンライン計算機 http://www.stat.ubc.ca/∼rollin/stats/ssize /b2.html OISのための臨床的に意味のある差の大きさが決定できない場合は、20%から30%のRRRを使用することを GRADEでは薦めている。 また、検出力は、サンプルサイズよりイベント数と大きな関りをもつため、OISでなく、イベント数とRRRの大 きさで不精確さを評価する方法もある。また、信頼区間の幅について、サンプルサイズは二次的決定要因であ り、一次的要因はイベントの絶対数です。よって、イベント数の条件によっては、サンプルサイズが大きくな ると幅が広くなることがあることに注意すること。 注意:ただし、Robaysらによると、サンプルサイズを「minimally clinical importance」のRRRだけでよいと 思わないようにしたい。これは、研究を立ち上げる際のサンプルサイズ計算には適しているが、脆弱性の判断 には適していない(パラドックス)。MICIが小さいために、期待される効果が臨床的に重要な効果よりもかな り大きい場合(例えば、小児の死亡率に対する小さな効果が重要であると考えられる場合)、必要なサンプル サイズが大きすぎることになり、正当な理由なくダウングレードされる危険性がある。OISは信頼区間の安定性 を判断するためのものであり、研究が差を検出するのに十分な大きさであったかどうかを判断するものではな い。 Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidenced imprecision. J Clin Epidemiol 2011;64:1283e93 https://jamaevidence.mhmedical.com/content.aspx?bookid=847§ionid=69031477 Robays. https://processbook.kce.fgov.be/node/140 26
Y:CPGにおける不精確さ GRADE guidelines 6より 2. イベント数・症例数。 2-2.イベント数が極めて小さい場合は、サンプルサイズが大きくても信頼区間が広くな る。 まず、相対効果と絶対効果と信頼区間の関係を説明する。7つのRCTのシステマティック レビューでA治療1,482例中16例(1.1%)、B治療1,465例中19例(1.3%)が死亡。RR は、0.85[0.43-1.66]であり、利益と害をまたぎ、不精確である(イベントが少ないと相 対効果では信頼区間が広くなる)。しかし、絶対的な差は0.2%[-0.5%~1.0%]であるの で、絶対差1%(MIC)を臨床判断の閾値の境界とした場合、どちらの治療も有用となるの で不精確とならないような矛盾が生じるので、絶対効果を利用する。 次に、ベースライン(対照)のイベントが低い状況(<5%)の場合、群間の臨床的な差が かなり大きくないと(もちろん大きくない場合が多い)、OISを計算すると10,000人ぐら いになることも多く、基準を満たさないことが多くなる。しかし、このような場合でも、 合計4,000人の患者(グループあたり2,000人の患者)の場合では、信頼区間は脆弱とな らないと判断して、不精確としなくてよいとされている。 Schünemannは、もっともらしい効果の大きさとして、modified OIS or review information size (RIS)の用語を述べており、今 後、更新されるかもしれない。 Interpreting GRADE's levels of certainty or quality of the evidence: GRADE for statisticians, considering review information size or less emphasis on imprecision? 27
Y:CPGにおける不精確さ GRADE guidelines 6より 3. その他 OISを十分に満たすにもかかわらず、信頼区間が効果なしを除外できない場合を考える。 たとえば、非心臓手術におけるβブロッカーのシステマティックレビューにおいて、総死 亡については、295名の死亡者と10,000名以上のサンプルサイズがあり、βブロッカーに よるRRの点推定値と95%CIは1.24(95%CI:0.99, 1.56)である。 この場合、サンプルサイズとイベント数が多いにもかかわらず、信頼区間が効果なしをま たいでいるので(システマティックレビューの場合の定義)、精度が十分であると結論づ けることには抵抗があるかもしれない(*)。 ↑元の文章のため、どうしてもこんな訳となる。逆の意味のがすっきりするが、少なくと も推測するに、サンプルサイズとイベント数が大きく95%信頼区間が狭いにも関わらず、 臨床判断の閾値をまたいでいるから「不精確」だった場合、定義的には理解できても、漢 字のイメージより感覚的に納得いかないかもしれない。 *の原文:Despite the large sample size and number of events, one might be reluctant to conclude precision is adequate when a small reduction in mortality with β blockers, as well as an increase of 56%, remain plausible. 他の所には、despite the huge sample size and very large number of events, trial results are insufficiently precise to support a treatment recommendation, and rating down quality by one level for imprecision is mandated. Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidenced imprecision. J Clin Epidemiol 2011;64:1283e93 GRADE guidelines: 12. Preparing Summary of Findings tables—binary outcomes 28 GRADE guidelines: 13. Preparing Summary of Findings tables and evidence profiles—continuous outcomes
Y:CPGにおける不精確さ GRADE guidelines 6より 4. 連続量の場合 連続量のOISでよく問題となるのが、アウトカムを測定する方法が異なるためOISの計算に用いる平均差(デルタ)を決 める事が困難である(よってメタ分析の推定値が、標準化平均差を用いて算出される) 。このような場合、レビュアー は利用可能な測定方法のうち1つを選択し(理想的には、最小重要差の推定値が利用可能な方法)OISを算出する。 以下は、本文を私なりに超訳したので、正確には原文を読んで: 連続変数の適切な精度に必要な患者の絶対数に経験則のしきい値を使うと、本来の研究の群間のバランスを保つのに、サ ンプルサイズが少ないにもかかわらず、計算できてしまうので、誤った安心感を与える可能性がある。 たとえばα(0.05)β(0.20)を用い,経験則で用いられることがある効果が小さいことを示す0.2標準偏差の効果量を 用いると、合計で約800人(各群400人)のサンプルサイズが必要となるので、これをOISとして評価したいが、実は、 これは、研究を通じて2群間のバランス( prognostic balance)を確保するのに十分ではない可能性がある。 そのため800人以上でも、不精確な可能性があるが、それを評価するのは困難だろう。 そのため、とりあえずサンプルサイズが800未満の場合は、レビュアーやガイドライン作成者は、必ず不精確さの評価を 下げることを検討するしかない 。 注意:ネットワークメタ分析NMAに関しては、ここでは取り扱わない (https://www.biorxiv.org/content/10.1101/597047v1.full)。 prognostic balance:研究の割付・介入・結果の評価にわたって両群でバランスが取れるという意味。 ( https://www.bristolctoralsurgery.com/files/2015/03/practical-approach-to-evidence-based-dentistry-III-how-toappraise-and-use-an-article-about-therapy.pdf ) 2021年に元の400人(各群200人)から800人に訂正があった。 Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidenced imprecision. J Clin Epidemiol 2011;64:1283e93 29 Corrigendum to GRADE guidelines 6. Rating the quality of evidence-imprecision. J Clin Epidemiol 2011;64:1283–1293
Y:CPGにおける不精確さ GRADE guidelines 20より 5. フローチャート GRADE guidelines: 20. Assessing the certainty of evidence in the importance of outcomes or values and preferences —inconsistency, imprecision,30 and other domains
Y:CPGにおける不精確さ 信頼区間の確認 信頼区間が、推奨と推奨しな いの間の決断閾値をまたいで ないか? GRADE guidelines20より 5. フローチャート 不精確さダウン サンプルサイズの確認 サンプルサイズは、レビュー の情報に対して充分なサイズ か? 不精確さダウン 不精確さダウンしない GRADE guidelines: 20. Assessing the certainty of evidence in the importance of outcomes or values and preferences —inconsistency, imprecision,31 and other domains https://www.jclinepi.com/article/S0895-4356(17)31061-2/fulltext
「エビデンス全体の確実性」について さて、エビデンスの確実性に関係するグレードダウンの5要因を検討し、死亡とか心筋梗塞と か入院とかの、各アウトカムのエビデンスの確実性が評価された(システマテックレビュー では、ここまでである)。 しかし、死亡のアウトカムのエビデンスの確実性は高いが、心筋梗塞のエビデンスの確実性 は低いなどバラバラでは、臨床決断に役立てることはできない。そのため、診療ガイドライ ンでは、患者にとって重大なアウトカムの全てを同時に検討し、その治療のアウトカム全般 にわたる全体的なエビデンスの確実性を評価する必要がある。 この治療法としてのエビデン ス全体の確実性は? 32 https://www.cochranelibrary.com/cdsr/doi/10.1002/14651858.CD013587.pub2/full
GRADEアプローチによる、エビデンス総体(Body of evidence)の確実性の評価 ある推奨を行なう場合、その推奨を行なうために参考にしたエビデン ス(効果推定値の全体的)の確実性を明示することは、利用者にとっ て、その推奨の使用の判断に極めて役立つ。 よって、システマティックレビューでは、アウトカムごとの確実性の 評価であったが、診療ガイドラインにおいては、臨床疑問の推奨に対 して1つのエビデンスの確実性を示す必要がある。 本解説の主目的のアプローチでは、この基準と違う方法となる。 一応、次のスライドで解説する。 注意:先のスライドでも述べたように、システマティックレビューと診療ガイドラインでは、グレードダ ウンの5要因の1つである「不精確さ」の評価が異なる。よって、システマティックレビューで評価した各 エビデンスの確実性の評価をそのまま使用することができない。 そのため、あらためて「不精確さ」を診療ガイドラインでの評価で再評価して、各アウトカムのエビデン スの確実性を求めてから、エビデンス全体の確実性の評価を上記の基準で行なう。 33
Body of evidenceの確実性:相原先生・辻本先生のチェック受けていないスライド 原則:(どうも、同じ方向なら最も高いものっていうことでもないようだ) 意思決定に重要なアウトカムについては、全体的な確実性が各アウトカムの最低の確実性よりも高くな ることはないというのが論理的である。この原則に基づいて、全体的はエビデンスの確実性を解説して いく。 1. アウトカムが、臨床決断にとって、重大(必須)か、重要(判断に直接関与しない)かを区別する。 どのアウトカムが重大かは、作成プロセスの初期段階で重要と判断された結果から得られるとは限ら ない。例えば、ある有害事象(例:重度の吐き気や嘔吐)は、当初は重大であると考えられていても、 発生頻度が非常に低いことが判明した場合(例えば、患者の3%未満)、その有害事象は重要だが重 大ではないと最終的に判断されることもある。 2. 重大なアウトカムの中で、最も確実性が低いものを、全体的なエビデンスの確実性とする。←原則 3. ただし、マレではあるが、ある介入を支持する決定を支持するいくつかの重大な結果に高い確実性がある場合(すな わち、重大な結果の利益が介入の望ましくない効果を明らかに上回り、それについても確実性の高い証拠がある場 合)、同じ勧告を支持する他の重大な結果の確実性が低いからといって、確実性を低く評価する必要はない。 例:冠動脈性心疾患(CHD)でないがリスクの高い人のスタチン服用の推奨について。重大としたアウトカムは、心 筋梗塞(有意に減少・確実性高)、脳卒中(有意に減少・確実性高)、有害事象(マレで回復した・確実性高)、 CHDによる死亡(有意に減少しなかった0.77(95%CI、0.56-1.08)・確実性中(不精確さ))。この場合、「ほ とんどの患者は、脳卒中と主要冠動脈イベントのリスクがスタチンにより減少することが証明されれば、薬を使用す る説得力のある理由を見つけるだろう。冠動脈疾患死亡率が減少するかどうかは、(増加する可能性が極めて低い限 り)もはや決定には関係しない。このように考えると、総合的な確実性は高とするのが最も適切である。」と判断す ることもある。 GRADE guidelines: 11. Making an overall rating of confidence in effect estimates for a single outcome and for all outcomes 34
少し、流れをまとめてみる 疑問の定式化・PICO アウトカムごとにメタ分析を行った後に、 アウトカムの選択・重要性の評価 アウトカムごとに複数の研究を統合・メタ分析 統合したエビデンスを一覧表にする 各アウトカム のエビデンス の確実性の等 級付け・グ レードを下げ る5要因 Risk of bias 非一貫性 非直接性 その他の考慮事項(出版バイアス) 不精確さ 診療ガイドラインとして、グレード下げる5要 因を検討して、アウトカムごとのエビデンスの 確実性を決定する(赤の矢印の流れもあるので 注意すること)。 その後、それらのアウトカムごとの確実性から、 アウトカム全体としてのエビデンスの確実性を 評価する。 各アウトカム別に確実性を決定 利益と害のバランス 推奨の強さと 方向の評価の 基準“criteria” 推奨文作成 全体的なエビデンスの確実性 価値 必要なら、必要資源量(コスト)・ 公平性など そして、推奨の強さと方向を、利益と害のバラ ンス・全体的なエビデンスの確実性・価値観と 意向などの要因から評価する。 本スライドでの説明は、コスト以下その他の要 因を考慮しない。 35
各アウトカムの結果から、推奨を考えるために ここまでで、その治療のエビデンス全体の確実性が明らかとなった。しかし、システマテックレ ビュー・メタ分析で行なった効果推定値は、アウトカムごとに提示されている。 診療ガイドラインでは、これら複数のアウトカムから、いろいろな医療の状況(context)を考えて、 その治療を奨めるか否かの決断をすることになる。 このようないろいろな状況をしっかりと考えるということを、完全に文脈化・コンテキスト化されたア プローチと呼ぶ。逆に、システマティックレビューでは、データを統合するまでが目的のため、これら のいろいろな状況をすべて考えなくても良いので、部分コンテキスト化で良い場合が多い。 そうすると、利益のアウトカムAの閾値が2%減少で、利益のアウトカムBの閾値が10%減少で、害の アウトカムCの閾値が5%増加、、、などのように、利益と害が混じり合った複数の閾値を同時に検討 することになる。そのような検討は、現実的に一般的な者の能力を超えている可能性がある。 害アウトカムCの閾値5%増加 アウトカムBの閾値10%減少 アウトカムAの閾値2%減少 36
Alperらの完全コンテキスト化アプローチとは(紹介)? このような、すべての重大なアウトカムとそれらの相対的 価値を同時に考慮しながら、望ましい結果と望ましくない 結果のトレードオフを決定するアプローチを、Dynamed の創設者のAlperらが提案した。 これは、GRADEアプローチとして認められたものでなく、 議論を刺激するために公開されたものである。 しかし、そのコンセプトを理解することが、診療ガイドラ イン作成だけでなく、システマティックレビューを読みこ なしEBMの実践するために重要と判断し、解説を行うこと とした。 https://www.ebsco.com/blogs/health-notes/end-era-dynamed-founder-begins-new-chapter 37
その前に:今回考察する実際の診療ガイドラインは? 9 切除可能な進展例の治療の KQ と SR KQ:切除可能で外科療法を予定している症例に対して,術前治療を行うべきか(SR1) ⚫ エビデンスの確実性:低 ⚫ 価値観・意向:全生存率をもっとも重大なアウトカムとする・早期の外科療法を 希望するなど、ばらつきは少ないと考えられる。 ⚫ コスト:高額療養費制度によってバラツキは少ない。 ⚫ 利益と害のバランス:全生存率において、メタ分析の結果,術前治療( 3 クー ル)によって死亡が 1000 人中 12 人減少(95%信頼区間 105 人減少~ 95 人 増加)となった。3 クールの化学療法の有害事象の可能性を考慮すると、点推定 値では死亡という重大なアウトカムが減少だが、利益より害が大きいと判断され た。 推奨:切除可能な進展例に対して、導入化学療法による術前治療を行なわないことを弱く推 奨する(弱い推奨/エビデンスの確実性:低)。 注意:術前治療の推奨は手術療法を含む局所治療に関するものである。早期に治療を行えない場合 もあり、すべての術前治療を制限するものでない。 38 注意:説明のため、一部、言葉を追加しています。評価の根拠は診療ガイドライン本文を参照。
今回のCQ(できる限り包括に行った)では、少しPICOが不明確との指摘があるので、 もう少しPICOを明確化して整理してから解説に進む。 CQ:切除可能で外科治療を予定している症例に対して術前療法を行なうべきか? P=切除可能な伸展例(Stage2~3以上) I=術前化学療法は、シスプラチンやフルオロウラシルを中心とした 多剤併用療法で、2~3サイクル C=術前化学療法なし O=パネル(SRチームや利害関係者を含む)はアウトカム(O)を、 最初に、以下のように8個選出したと仮定(口腔癌診療ガイドライン2019 より・後のスライドで競合アウ トカムなどを整理することになる)。 1.全原因死亡(OS) 2.口腔癌そのものによる死亡 3.局所再発 4.遠隔転移 5.発熱性好中球減少 6.QOL 7.重症有害事象(Grade 3以上) 8.口腔機能 (一部のデータや解釈には仮想的なものが含まれています) 39
Alperらの、完全コンテキスト化アプローチの解説の前に このアプローチは、以下の3つの仮定に基づいているが、ここでは、そうなんだという程度で解説をすすめる。 1.効果推定値は正規分布に準拠したデータを表す。 2.統合される効果推定値は独立しており、互いに相関していない。 3.統合される効果推定値に、換算係数を掛けて、一貫した測定単位を使用する。 本解説では、「正味の効果・net effect」、「正味の利益・net benefit」など用語がでてくる。厳密な区分がないが、原文に以下の記載がある。少し細かいが、 たぶんエビデンスの確実性の定義の本質的な問題のため説明する。 「Consistent with the recent clarification of ‘certainty of evidence’—the certainty that a true effect lies within a specified range or on one side of a specified threshold3 — one can express the certainty of the net effect (or balance of benefits and harms) in terms of a range or in relation to a threshold. The situation when benefits and harms are perfectly balanced (net benefit or harm=0) represents a natural threshol d for certainty of the net effect. Using this threshold, the certainty of net benefit is the certainty that the overall or net effect lies on the si de of benefit. The certainty of net harm is the certainty that the net effect lies on the side of harm.」 このポイントは、以下であるが、これは先に「「エビデンスの確実性」の定義」で解説した内容でもある。 ・エビデンスの確実性は、正味の効果が特定の範囲または特定の閾値の片側にあることの確実性と明確化された。 ・正味の効果・net effect(利益と害のバランス・balance of benefits and harms)の確実性は、範囲または閾値に関連して表現することができる。 ・利益と害が完全にバランスをとれている(正味の利益または害が0)の状況は、正味の効果の確実性の自然な閾値(閾値0)とも言える。 ・この閾値0を用いると、正味の利益の確実性(certainty of net benefit)とは、全体または正味の効果が利益の側にあるという確実性であり、正味の害の確実性 (certainty of net harm)とは、正味の効果が害の側にあるという確実性である。 この文章より、メタ分析の各アウトカムの値を利用して 「正味の効果」を算出した場合や、一般的なエビデンス全体に対して「正味の効果」 という用語と使用し ている。そして、その「正味の効果」に対して、利益・害のどちらかを、自然の閾値であるゼロを起点に分類したものを、「正味の利益」・「正味の害」と表記 して区別していると推察される。すなわち、「正味の効果」が0.5 (0.6-0.4)と明らかに「利益」であっても、閾値を考慮する前は、あくまでも「正味の効果」と して表現している。さらに、閾値を考慮した後でも、一般的なエビデンス全体として用語を使用する時は、「正味の利益」でなく「正味の効果」としている。 利益 利益 害 正味の効果 正味の効果 正味の利益 正味の効果 正味の効果 利益 利益と害が完全にバランスをとれている閾値0 正味の害 害 40
Alperらの完全コンテキスト化アプローチとは(解説)? 以下のアプローチは、システマティックレビューが終了後に、その結果の一部 を診療ガイドラインのために再検討しながら行う Generation of the net effect estimate・正味の効果推定値の生成 Step1:組み合わせるアウトカムの決定 システマティックレビューが終わった後に、重大なアウトカムの再検討の必要が出てくる場合があ る。例えば以下のような場合である。 例1:当初、ある特定の有害事象が重大と考えられたが、エビデンスをまとめてみると、 非常に頻度が低く、推奨決定においては重大ではないと判断された。 例2:当初、全死亡、心血管死亡、心筋梗塞、有害事象が重大と考えられていた。SRの結 果、全死亡、心筋梗塞、有害事象は高い確実性を持って、推奨を支持する結果であった。 しかし、心血管死亡については推奨を支持する結果であるものの、中等度の確実性だった 。このような場合に、心血管死亡は他のアウトカムと独立していない(全死亡と関係があ る)こともあり、推奨をする上で必要でないと判断された。 41
アウトカムを、重要性・独立性より、どの組み合わせで採用するか決める 重大性の低いアウトカムによる正味の効果推定値への希釈的影響を回避するためアウトカムの数は 最大でも7個とするのが望ましい(7個でも多く、解釈に困ることがある) # アウトカム 重要性(1-9) 独立性 アウトカムの採用 1 全原因死亡(OS) critical (9) 独立している 採用 2 口腔癌そのものによる死亡 critical (8) 独立していない 採用しない 3 局所再発 critical (8) 独立している 採用 4 遠隔転移 critical (8) 独立している 採用 5 発熱性好中球減少 (*) important(4) 独立していない 採用せず 6 QOL (¶) important (6) 独立していない 採用せず 7 重篤有害事象(Grade 3以上)(†) critical (8) 独立している 採用 8 口腔機能 important (6) 独立していない 採用せず *:好中球減少による発熱は重篤有害事象と重複する可能性が高い。 ¶:他のアウトカムと重複する可能性が高い。また、反応が異なる個々の患者への影響を考慮すると、 連続スコアの平均を使用すると誤解を招く可能性がある。 †:重篤有害事象(SAE)の定義は、非血液毒性のGrade(3-5)とした。 42
アウトカムを、重要性・独立性より、どの組み合わせで採用するか決める 重大性の低いアウトカムによる正味の効果推定値への希釈的影響を回避するためアウトカムの数は 最大でも7個とするのが望ましい(7個でも多く、解釈に困ることがある) # アウトカム 重要性(1-9) 独立性 アウトカムの採用 1 全原因死亡(OS) critical (9) 独立している 採用 口腔癌そのものによる死亡 critical (8) 本当に、7個のアウトカ 局所再発 critical (8) ムすべてを考えて、診 遠隔転移 critical (8) 療していますか? 発熱性好中球減少 (*) important(4) もっとシンプルに考え QOL (¶) important (6) て決断しているのでは 重篤有害事象(Grade 3以上)(†) critical (8) ないでしょうか? 独立していない 採用しない 独立している 採用 独立している 採用 独立していない 採用せず 独立していない 採用せず 独立している 採用 独立していない 採用せず 2 3 4 5 6 7 8 口腔機能 important (6) *:好中球減少による発熱は重篤有害事象と重複する可能性が高い。 ¶:他のアウトカムと重複する可能性が高い。また、反応が異なる個々の患者への影響を考慮すると、 連続スコアの平均を使用すると誤解を招く可能性がある。 †:重篤有害事象(SAE)の定義は、非血液毒性のGrade(3-5)とした。 43
決定したアウトカムのメタ分析の結果を確認 アウトカム 相対危険度(95%CI) 2019年版における確実性 全原因死亡 HR 0.96 (0.68-1.33) 非常に低 局所再発 HR 0.94 (0.64-1.38) 非常に低 遠隔転移 HR 0.91 (0.64-1.30) 非常に低 重篤有害事象 RCTの論文から抽出 非常に低 HRの抽出した値など、若干問題も指摘されているが、今回は、この値を利用して解説する。 また、重篤有害事象に関しては、口腔癌診療ガイドラインでは、 RCTの論文から抽出した項目の列 挙のみであった。そのため、メタ分析の点推定値は、いずれも介入優位であった。しかし今回は、 新たに以下のように数値化して検討することとした。そのため、次のスライド、または、Step3で 示すような点推定値となる(害の数値化で正味の効果が変わるので、慎重に行う必要がある)。 *: エビ デンス の確実 性につ いて不 精確さ のため の評価 (等級 ダウン )はし ない。 注1 .オリ ジナル のエビ デンス プロフ ァイル :ev idence_profile_0501.pdf 注2 .重篤 有害事 象アウ トカム のフォ レスト プロッ ト:forest_plot_SAE.jpg 44
各アウトカムのエビデンスの確実性については、GRADEダウンの5要因の中の 不精確さ以外の4要因のみの状況確認 エビデンスの確実性を検討するための要因の1つである、不精確さ (imprecision)については、定義がシステマティックレビューと診療ガイド ラインとでは異なる。そのため、システマティックレビューでのエビデンスの 確実性の再評価が必要となる。 アウトカム 患者1000人あたりの絶対効果 推定値(95%CI) 効果推定値の確実性 全原因死亡 -12 (-107 ~ +93) Low (RoB, indirectness) 局所再発 -17 (-109 ~ +98) Low (RoB, indirectness) 遠隔転移 -9 (-35 ~ +28) Low (RoB, indirectness) 重篤有害事象 +59.5 (+1.4 ~ +700) Low (RoB, indirectness) 重篤有害事象:RR 20.50[1.49 to 282.60]、この時のコントロールは、研究1(0/99)、研究2(0/128)なので、イベン トが0なので、0.5の補正で、(0.5/99.5)(0.5/128.5)より(1/228)だから、(4/1000)。よって、RR倍で介入が (82/1000)なので、RDは、82+4(RRが1より大だったのでプラス)=86/1000人(これは、相原先生がブログに添付して いるエビデンスプロファイルと同じ数字になる)。よって、この+59.7は誤り。 相原先生のチェック後気がついたので、そ のままとする。 45
Step2:各アウトカムの相対的重要性(Relative importance of outcomes) の決定 GRADEアプローチでは、アウトカムの重要性の質的9ポイント評価のスコアより、7・8・9を選んでいる が、これを利用するのは目的が異なり困難であるため、一旦このスコアは関係ないものとする。 相対的重要性の決定の簡単な方法は、1つのアウトカムを参照アウトカムとして選択し、他のアウトカムご とに相対的な重要性の調整(すなわち乗数・よって0は使用しない)を定義するとよい。これは、決断分析 の不効用値(disutility = [1- utility])に類似した考えである。 注意:原文では、ユーティリティは0(死亡または最悪の転帰)から1(最適な生活の質または最良の転 帰)の範囲で報告されることが多いとされているが、最も重要なアウトカムを参照アウトカムとした。そ のため、その参照アウトカムにあうように他のアウトカムをそろえる(全死亡が参照なら局所再発数・生 存が参照なら局所再発の減少数となる) シナリオでは、表のような値と仮定する。 アウトカム 不効用値 全原因死亡 1 局所再発 0.5 遠隔転移 0.5 重篤有害事象 0.7 46
相対的重要性・価値について補足 GRADEアプローチでは、推奨の決定の要因の中で重要なものの1つとして、 「values and preferences(価値観や意向(選好))」との用語であるが、 GRADEpro/GDTでは、 「Values(価値)」となっている。その評価は、「uncertainty or variability(不確実性ま たは変動性)」があるかどうかであるが、それ以外にも効用値(utility値)も記載すること が望ましい。 もし重要な不確実性がないならば、効用値は1つの値として示すことができるが、不確実性 がある場合は、効用値の値も変動すると考えられる。1つの値でなく、範囲を持った値にな り、不確実性が強ければ、その範囲も大きくなる。また、たとえ1つの値として示すことが できても、実際には”ある範囲”で評価するのが現実的である。よって、Step6での感度分析 が重要となる。 患者の視点から相対的重要性を定量的に推定する方法としては、離散選択実験(discretechoice experiments)や患者嗜好調査(preference-eliciting surveys)、または、調査の システマティックレビューなどがある。 47
Step3:重要性調整効果推定値の併合 各効果推定値にその相対的重要性の乗数を掛けたものを、重要性調整効果推定値(Importance-adjusted effect estimate)と呼ぶ。 重要性調整効果推定値のそれぞれの点推定値を合計すると、正味の効果の点推定値(Net effect estimate)と なる(この例では34.5)。 統計式(原著論文付録:bmjopen-2018-027445supp001.pdf)により、正味の効果の95%信頼区間も計算 が可能で、本シナリオの場合の正味の効果(net effect)は、34.5 (95%CI: -333 ~ +402)。 これは「不精確さの分類」としては、本シナリオでは、マイナスが介入有益なのにプラスなので害・possible net harmとなる。ここで、診療ガイドライン委員会は、正味の効果の閾値を指定する。しかし、Alperらは単 純化のために「ゼロ効果」を用いることを提案している。しかし今回のシナリオでは、閾値を利用する(相 原)。 アウトカム 患者1000人あたりの 相対的重要性 患者1000人あたりの全原因死亡相当イベント単 絶対効果推定値(95%CI) 位による重要性調整効果推定値(95%CI) 全原因死亡 -12 (-107 ~ +93) 1 -12 (-107 ~ +93) 局所再発 -17 (-109 ~ +98) 0.5 -8.5 (-54.5 ~ +49) 遠隔転移 -9 (-35 ~ +28) 0.5 -4.5 (-17.5 ~+14) 重篤有害事象 +85 (+2 ~ +1000) 0.7 +59.5 (+1.4 ~ +700) -12-8.5-4.5+59.5=+34.5 重篤有害事象:86×0.7=60.2が正しい値だが、相 48 原先生チェック後に気がついたので、訂正してない。
正味の効果推定値のオンライン計算ツールも利用可能 https://computablepublishing.us/net-effect/ 4つのアウトカムの絶対効果推定値を95%CIを含めて入力し、相対的重要性 を乗じて得られた正味の効果の推定値が図と表で簡便に計算可能である。 49
Rating the certainty of net benefit・純利益の確実性の評価 コンテキスト化と精確さについて(確認) この例は、先のスライドの正味の効果でなく、ある1つ のアウトカム(死亡)についての説明ではあるが、これ らの事が理解できていることを前提に、以下の解説が進 むので、確認の意味もあり復習する。 アウトカム死亡:最小臨床的効果(MID) 効果なし -4.0% 一部の人は、介入 A が対照と比較して死亡率を低下させ るという確信を評価するかもしれない。したがって、不 精確さのために評価を下げる必要はない。 他の人は、死亡率の 1% の減少に小さな効果の閾値を設 定すると、不精確であるために評価が下がる。 また、コンテキスト化とは、以下の情報と考えると良い。 -2.0% 介入A優位 -0.5% -1.0% 大きい効果の閾値 中等度 MID Large moderate small RD=0 対照優位 効果なし trivial 最小コンテキスト化:RR=1、RD=0だけ、またはMID が明確になっている場合。 部分コンテキスト化:些細trivial・小規模small・中程度 moderate・大規模largeな効果の範囲が明確になってい る場合。 完全コンテキスト化:アウトカムの相対的重要性の効用 値まで明確になっている場合。よって、 Alperらが単純 化のため”正味の利益の閾値=0”を推奨していても、完 全コンテキスト化のアプローチとなる。 GRADE guidelines 32: GRADE offers guidance on choosing targets of GRADE certainty of evidence ratings. 2021. https://doi.org/10.1016/j.jclinepi.2021.03.026 50
正味の効果の点推定値(Net effect estimate)と精確さについて(確認) Step3における重要性調整効果推定値のそれぞれを併合して 得られた正味の効果推定値(Net effect estimate)は34.5 (95%CI: -333 ~ +402)。よって、1000人中34.5人なので、 約3.5%だから、-3.5 (-33~ +40)%。 つまり、Alperらが単純化のため推奨している”正味の利益の閾 値=0”として利益と害のバランスを評価するならば、”点推定 値は有害で、信頼区間の下限は有益で、その絶対値は正味の効 果の点推定値よりも大きい”ことから、95%CIからは”possible net harm”と判定される。 しかし、実際の診療ガイドラインパネルは、推奨のための 「臨床における最小重要差(MID:Minimally Important Difference)」を利用する事が多い。また、場合によっては 「中程度の大きさ」、「大きい効果」などの閾値も利用するこ とになる。 今回のシナリオでは、相原先生のブログに従ってMIDと大きい 効果の閾値を使って説明する。参考単位に効用値で合している ので、全原因死亡の閾値を利用することとなる。 上図はAlperらの原文でなく相原先生作成 51
Step4:シナリオにおける正味の効果推定値の精確さの分類 Classify the precision of the net effect estimate シナリオの場合に、全原因死亡が参照単位であ ることからMID=2%(20/1000)と設定した と仮定。また、大きな利益と大きな害として、 閾値=10%と設定したと仮定。 正味の効果推定値の点推定値(3.5%)は、こ のMID(害の閾値)(2%)に近く、信頼区間 は大きな利益と大きな害(10%・100人)の閾 値を超えてる。 つまり「精確さ」の評価は、“possible no net effect or harm”となる。 注意:Alperらは、imprecisionではなくprecision of effect estimateという言葉を使用。表1と図3を使 うが、ここでは相原先生の閾値が入っているので分かりにくいだろう よって、正味の効果推定値の「精確さ」は、非常に低い確実性(very low certainty)となる。 しかし現実的なパネルの判断としては、”95%CIが非常に広く真の効果がどこにあるのか全くわからな いほどの「不精確さ」なので、そもそもエビデンスの確実性のレベルを評価する意味が全くない”と判断 するパネルもあると思われる。 相原先生のブログの図(右上)では、-3.5とあるが、3.5の誤りと思われる。 52
表1・図3:Classification of precision of net effect estimate Pattern of net effect estimate Classification Entire CI is beneficial Net benefit Point estimate is beneficial, lower bound of CI is harmful and point Likely net benefit estimate has larger absolute value than lower bound of CI Point estimate is beneficial, lower bound of CI is harmful and point Possible net benefit estimate has smaller absolute value than lower bound of CI Possibly no net benefit or Point estimate is close to zero, wide CI* harm Net benefit or harm likely Point estimate is close to zero, narrow CI* near zero Point estimate is harmful, upper bound of CI is beneficial and point Possible net harm estimate has smaller absolute value than upper bound of CI Point estimate is harmful, upper bound of CI is beneficial and point Likely net harm estimate has larger absolute value than upper bound of CI Entire CI is harmful Net harm Precision of net effect estimate is consistent with … High certainty of net benefit Moderate certainty of net benefit Low certainty of net benefit Very low certainty of net benefit or harm Moderate certainty of little net benefit or harm Low certainty of net harm Moderate certainty of net harm High certainty of net harm
表1・図3:Classification of precision of net effect estimate 正味効果推定値のパターン 分類 純効果推定の精度は...と一致する CI全体が有益 Net benefit 純便益の確実性が高い 点推定値は有益で、CI下限は有害で、点推定値はCI下限よりも絶 Likely net benefit 対値が大きい。<下図の緑より赤のが大きいということ> 純便益の確実性が中程度 点推定値は有益、CI下限は有害、点推定値はCI下限より絶対値が Possible net benefit 小さい 純便益の確実性が低い 点推定値はゼロに近く、CI*は広い<下図では、狭いが上> 点推定値はゼロに近く、CI*は狭い Possibly no net benefit or harm Net benefit or harm likely near zero 純便益または害の確実性が非常に低い 純便益または害がほとんどないことの確 実性が中程度 点推定値は有害であり、CIの上界は有益であり、点推定値はCIの Possible net harm 上界よりも絶対値が小さい。 正味の損害の確実性が低い 点推定値は有害で、CIの上界は有益で、点推定値はCIの上界より Likely net harm も絶対値が大きい。 正味の損害の確実性が中程度 CI全体が有害 正味の損害の確実性が高い Net harm
Step5:正味の利益の可能性に重大なアウトカムの効果推定値の確実性を検討する Consider the certainty of effect estimates for outcomes that are critical to the likelihood of net benefit. 採用したシナリオでは、エビデンスの確実性が、正味の効果推定値の精確さが3段階ダウンするので、すでに「very low」が決定してしまうため、 このStep5は不要だが、一般的なコンテキスト化アプローチにおけるプロセスのためにさらに解説する。 まず、不精確さ(imprecision)は95%信頼区間を調べることにより(確実性の程度として)定量化できるにも関わらず、各アウトカムの他の4要 因(RoB・非一貫性・非直接性・出版バイアス)に懸念があると、95%信頼区間の範囲の推定値の確率分布の幅と形状を知ることができなくなる (すなわち、他の4要因で既にエビデンスの確実性が非常に低ならば、信頼区間を利用したここまでのアプローチそのものができないことになる)。 そのため、以下のような手順で考えると良いだろう。 (1)正味の効果推定値( net effect estimate)の精度( precision)の分類・評価を変える可能性のあるアウトカムを(差別化要因・ differentiator)探す。 〇あるアウトカムを除外した場合、正味の効果推定値の精度が変わるようなアウトカム 〇(確実性の低い効果推定値に対して)効果推定値への妥当な増加を追加した場合、分類が変わるようなアウトカム (2)(1)で探した重大なアウトカムの中でエビデンスの最も低い確実性を決定するには、各アウトカムの他の4要因( RoB・非一貫性・非直接 性・出版バイアス)を導く必要がある。個々のアウトカムの不精確さは、これまでの正味の効果推定値の検討ですでに検討されているので、ここ では扱わない。 (3)(1)で探した重大なアウトカムに対する確実性等級付けと、Step4の正味の効果推定値の精確さ( precision)と一致する確実性等級付け のうち、最も低いものが正味利益の確実性を表す。 (4)評価者は、全体的なフレームワークを考慮し、単一のアウトカムの限られた確実性が正味の利益の全体的な確実性を下げるのに十分かどう かを判断する必要がある。たとえば、 net benefitの計算に入れた個々のアウトカムの中で3つが確実性高、1つが非常に低だった際に、この1つの アウトカムをもって非常に低まで確実性を落とすべきか?ということを判断しなければならない。 これは、正味の効果の推定値の信頼区間が0に近い時は、 1つのアウトカムをもって確実性を下げないという判断もありうる(この判断は、理論的 な根拠ではなく、慣例に基づいて使用される)。下図は概念の把握に有効な図であるので、しっかりと理解して欲しい。 55
シナリオにおける正味の効果推定値の確実性(エビデンスの確実性)は? アウトカム (1)重大アウトカムとして 設定した4つのアウトカムの 中で、参照基準としての全原 全原因死亡 因死亡以外の3つのアウトカ 局所再発 ムで、重篤有害事象(明らか に別方向の推定値)を除くと、 遠隔転移 正味の効果推定値の精度が変 重篤有害事象 ると思われるので、重篤有害 事象が差別化要因と考えられ る。 患者1000人あたりの絶 対効果推定値(95%CI) 効果推定値の確実性(途中) -12 (-107 ~ +93) Low (RoB, indirectness) -17 (-109 ~ +98) Low (RoB, indirectness) -9 (-35 ~ +28) Low (RoB, indirectness) +59.5 (+1.4 ~ +700) Low (RoB, indirectness) (2)(1)による重篤有害事象の不精確さドメインを除いた4要因でのグレードは「Low] であった (Step2参照)。 (3)重大なアウトカム(重篤有害事象)に対する確実性等級付けが(2)より「low」で、正味の効果推 定値の「精確さ」は、 Step4より「very low certainty」なので、最も低いものが正味の利益の確実性を 表すため、 「very low certainty」となる。 (4)全体的なフレームワークを考慮しても、シナリオにおける正味の効果推定値の確実性(エビデンスの 確実性)は「very low certainty」と考えられる。 56
Step6:アウトカムに対する相対的重要性の範囲を検討する Perform a sensitivity analysis to determine the certainty of net benefit across this range. 感度分析を行い、この範囲における純利益の確実性を判断する。 step2で、各アウトカムの相対的重要性として効用値のようなものを各アウトカムごとに1つの値を決定した。しかし、実際の臨 床では範囲で考えることは述べた通りである。よって、アウトカムの相対的重要性の妥当的な範囲全体にわたって正味の効果の確 実性が変わらないかどうか(頑健性を)を感度分析で判断する。これによって、この完全コンテキスト化アプローチの実現可能性 を高めることになる。 このための明確なガイダンスは、現時点では開発されてないが、次のように考えるのが良いだろう。 これには、先に紹介した、オンライン計算ツールを使うとすぐに計算できる。以下のようであるが、これは文章で書くだけだと理 理解しづらいので、オンライン計算ツールで実際に行って欲しい。 まず、 Step3における全原因死亡が参照単位(=1)とみなされ、局所再発と遠隔転移の重要性を全原因死亡の0.5倍、重篤有害 事象を0.7倍重要視するという仮定における重要性調整効果推定値のそれぞれを併合して得られた正味の効果推定値(Net effect estimate)は34.5 (-333 ~ +402)であった。 シナリオのアウトカムをすべて同じ程度に重要視するならば(=すべて1)、正味の効果推定値は-38 (-185 ~ +109)であり、 正味の効果推定値の精確さが、大きな効果の閾値(±100人)をそれぞれ越えることより、「very low certainty」となり、その確 実性は変わらない。 また、重篤有害事象の重要性を全原因死亡の0.3倍とした場合でも、推定値は0.5 (-187 ~ +188)であり、その確実性は変わらな い。 つまり、「very low certainty」のままであり、アウトカムの相対的重要性の推定が不確実でも、頑健であることがわかった。 57
少しまとめてみる 疑問の定式化・PICO アウトカムの選択・重要性の評価 アウトカムごとに複数の研究を統合・メタ分析 統合したエビデンスを一覧表にする 各アウトカムの エビデンスの確 実性の等級付 け・グレードを 下げる4要因 Risk of bias 非一貫性 非直接性 その他の考慮事項 (出版バイアス) ここまでの議論で理解できたはずだが、このAlper らの完全コンテキスト化アプローチでは、ステッ プ途中で不精確さを除く4要因のみの評価はある が)、全体のエビデンスの確実性を直接評価して いる。 そして、その過程で、価値・利益と害のバラン ス・正味の利益の精確さを十分に検討しているの で、推奨の判断が容易となっている。 差別化要因のアウトカムのグレード 価値 推奨の強さと方 向の評価の基準 “criteria” 利益と害のバランス 正味の利益の精確さ 全体的なエビデンスの確実性 必要なら、必要資源量(コスト)・公平性などを考慮した 推奨作成 推奨文作成 これを記載すると、混乱のもとだが、一応知っておいて欲 しい。CDCやWHOのコロナワクチンのCPGでは、介入の 有効性のエビデンスの確実性と、介入の安全性のエビデン スの確実性とをまとめず、2つを並べた記載であった。 https://www.cdc.gov/vaccines/acip/recs/grade/covid-19-pfizer-biontech-etr-12-15-years.html https://www.who.int/publications/i/item/WHO-2019-nCoV-vaccines-SAGE-recommendation-BNT 162b2GRADE-ETR-annexes 本シナリオでは:正味の効果推定値の確実性(エビデンスの確実性)は、(1)非常に低い確 実性(very low certainty)、Step4で述べたが、一部のパネルは、(2)信頼区間の広さか ら確実性を評価することは無意味であると判断する可能性があるだろう。 58
正味の効果の確実性(エビデンスの確実性)を推奨の強さに関係づける (EtD) エビデンスから推奨へのプロセスに関するEvidenceto-Decision(EtD)フレームワークには、利益と害の バランスやエビデンスの確実性以外に、コスト、費 用対効果、公平性、許容可能性、実行可能性がある。 ここでは、正味の効果推定値とその確実性に基づい て推奨を考えてみる。図の赤の所で考える。 これまでのステップにおける判断から、パネルの決断は以下の可能性があると思われる (あくまでもパネルの判断ではあるので推察に過ぎず、どれが正解というものではない)。 ********************************************************************* 1. 点推定値は害の閾値を超えており、信頼区間は大きな利益と大きな害の閾値をまたいでいる。エビデ ンスの確実性は非常に低いものの、「Do no net harm」という原則から、「切除可能な口腔癌伸展例に おける術前化学療法(放射線療法併用)は推奨しない(GRADE 1D)」 2. 点推定値は小さな害の閾値に近いものの、推奨の方向性を決めることはできず、エビデンスの確実性 を評価することはできないため、推奨は作成しない(no recommendation) ********************************************************************* ここまで、このようなAlperらの完全コンテキスト化アプローチ思考を行なうことで、上記のような推奨判断が、多くのパ ネリストに共有されるはずである(パネリスト全員が知って欲しい)。すなわち、これでパネリストが同じ土俵に乗ったと いう感じになると考えると、このアプローチの有用性が理解できるのではないか? 59
EBMの実践で・・・ 診療ガイドライン作成ならば、厳密に手順を踏む必要があるが、EBMの実践で利用する場合は、この程度 で良いかもしれない(私案) • 不精確さ以外で、既にすべてのアウトカムがvery lowなら、 ほぼ効果推定値の利用は諦める。 • 不精確さ以外で、very lowで無ければ、以下に進む。 • アウトカムの相対的価値を考える。もし必要ならば目の前の 患者に直接、どれに重きをおくか聞いてみる。 • オンライン計算ツールで正味の効果を算出する。 http://net-effect.wisdmforafib.com/ https://www.cochranelibrary.com/cdsr/doi/10 .1002/14651858.CD013587.pub2/full • 価値を変えたり、選択するアウトカムを変更したりして、感 度分析してみる。 • この信頼区間が、自分が考える利益と害の臨床判断の閾値を 大きくまたぐならば、やはり効果推定値の利用は諦める。 • そうでないならば、そのエビデンスを利用して、患者への適 応(EBMのステップ4)を考える。 60