EBM診療ガイドライン作成編2:実際に利益と害の閾値を利用した海外の例を解説

620 Views

April 26, 23

スライド概要

Neumann I, Quiñelen E, Nahuelhual P, Burdiles P, Celedón N, Cerda K, Herrera-Omegna P, Kraemer P, Cancino KD, Valenzuela JP, Sepúlveda D, Morgano GP, Akl EA, Schünemann HJ. Using Explicit Thresholds were valuable for judging Benefits and Harms in partially contextualized GRADE Guidelines. J Clin Epidemiol. 2022 Jul;147:69-75. doi: 10.1016/j.jclinepi.2022.03.017. Epub 2022 Mar 30. PMID: 35364230; PMCID: PMC8963975.

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

部分的文脈化 partially contextualized GRADE_CPGの利益と害の閾値利用 Using explicit thresholds for benefits and harms in partially contextualized GRADE guidelines. Pilot experience from a living COVID-19 guideline: Journal of Clinical Epidemiology 147, July 2022, p69-75 https://doi.org/10.1016/j.jclinepi.2022.03.017 GRADEガイドラインにおける、利益と害の明示的な閾値の使用について: living COVID19ガイドラインのパイロット的な経験より 解釈が不安な所は英文を併記していますが、全体的な解釈の間違いがあるかもしれません。 正しくは、原文をお読み下さい。

2.

概要1:目的・結果(結論は当たり前・・・) 背景:診療ガイドライン委員会は、より良い推奨を作成するために、健康上の利益と害の 大きさを評価する必要がある。しかし、明確な閾値を用いることは、ほとんどない。 目的:この論文では、利益と害のための閾値についてパイロット研究を行ったので報告す る。 方法:我々は、チリのliving COVID-19ガイドライン(迅速に次々と新しいエビデンスを 追加しながら推奨を逐次更新する)で閾値の使用を試験的に行った。 重大( critical)なアウトカムのそれぞれについて、パネリストに、 「効果が大きい、中程度、小さい、些細なあるいは効果がない(large, moderate, small, trivial or no effect )」、という閾値の値を提案するよう求めた。 この情報は、アンケートとオンラインディスカッションで収集した。

3.

概要2:目的・結果(結論は当たり前・・・) 結果:12名のパネリストが、3つの重大なアウトカム(死亡率、人工呼吸の必要性、重篤 な有害事象:mortality, need for mechanical ventilation and serious adverse events)に対する閾値を決定した。 すべてのアウトカムにおいて、絶対的なリスクの減少(absolute risk reduction)は、50 イベント以上でより大きく、50イベント未満で中程度、25イベント未満で小さく、10イ ベント未満で些細なものとされた。 このように事前に閾値を設定することで、勧告の作成に大きな影響を与えた。 結論:明示的な閾値は、エビデンスの確実性を判断し、推奨の方向性と強さを決定し、更 新の必要性を評価するために、貴重な追加要素であった。これは、熟慮に値する研究分野 であると考える。

4.

背景1 ガイドライン作成委員会は、利益と害の大きさを評価する必要があり、GRADE Evidence to Decision(EtD)フレームワークにもこれらの効果の大きさを、 大きい、中程度、小さい、些細なあるいは効果なし large, moderate, small, trivial or no effect. と分類している。 しかし、これまでの診療ガイドライン委員会では、これらの分類に明示的な閾値を用いる ことはほとんどなかった。むしろ、パネリストは議論とコンセンサスを通じて暗黙の了解 で作成している。本邦だけでなく、海外でも、このような状況であった。 暗黙の了解にもメリットはある。すなわち、パネリストが異なる結果に置くかもしれない 価値を反復的に引き出し、分析されている特定の臨床状況に合わせた決定を行うという利 点がある<よくわからんな~>。

5.

背景2 デメリットは、パネリストが各アウトカムの相対的な重要性を判断するのに、患者ではな く自分の価値観を用いる可能性があることである。 一方、現実的な限界として、暗黙の閾値は、数ヶ月ごとに更新する診療ガイドラインにお ける利益と害の判断の一貫性を保つことができない。時代で変わる可能性はあるが。 さらに、異なる委員会が競合する介入を推奨する場合(例えば、どの新しい介入に資金を 提供するかを決める場合)には機能しないかもしれないということがある。 そのため、今回、閾値を利用したので紹介する。 実は、閾値を利用しない場合の推奨の作成についての方法論があります。これは、別の動 画・スライドで説明をしています。今回は、それでなく、単に暗黙の閾値を利用したコン センサスでの、客観性に乏しい診療ガイドラインが多いので、閾値を設定したという事を、 彼らは、記載している。

6.

方法 理想的には、部分的に文脈を考慮したアプローチ(partially contextualized approach)で利益と害の大きさを判断する場合、閾値は経 験的データから設定するべきである。 ガイドラインの利用者が、どのような利益や害を小さい、中程度、または 大きいと考えるかが重要である。そのため、診療ガイドラインのパネリス トとユーザーを対象とした調査が行われていることが望ましい。 しかし今回は、COVID-19のパンデミックの緊急性を考慮し、経験的な閾 値を特定するために実際的なアプローチをとり、パネリストの評価から直 接推定した。<よって、途中で、この診療ガイドライン作成当時は、緊急 性より、有用性の閾値が小さいような記載があった>

7.

パネルメンバー 専門家(関連学会および第一線の臨床医) 感染症 12名 5名 呼吸器 2名 救急医療 2名 critical care 1名 一般内科 1名 緩和ケア 方法論コーディネーター 2名 支払者・管理者代表 2名 payers and administrators 1名 この診療ガイドラインには、その他、システマティックレビューのため などに6名のサポートメンバーもいる。

8.

質問紙作成のため 最初に、12名の専門医で、利益と害の、閾値の見積もりを作成した。 オンライン質問調査を利用して、各パネリストに、重大なアウトカム(死 亡率、人工呼吸の必要性、重篤な有害事象)それぞれについて、どの程度 の効果を大、中、小、些細・効果無しと考えるか、を尋ねた。 部分的に文脈に沿ったアプローチに従って独立して検討された(独立の意 味は次のスライドで)。 死亡率や人工呼吸の必要性については、回答者が臨床医であり、これらの転帰が何を意味 するのかを理解しているため、詳細な説明を行わなかった。しかし、重篤な有害事象につ いては、一貫性を持たせるために、標準的なアウトカムの説明を作成した。 「治療を中止するほど深刻であるが、中止後に自然治癒または特定の治療により解決され る悪影響。」

9.

回答方法 回答の選択肢は、1,000人に1人の割合~1,000人に200人の割合まで、 のスライドバーとした。 各質問で、パネリストは、質問されている効果量に対応すると思われる大 きさを、独立して選択した。 例えば、「些細な効果に相当する効果の大きさとは?」という質問。 1,000人に1人の割合~1,000人に200人の割合まで間で、些細な効果であ ると考える固有の数字を選択する。 回答の選択肢の両極端は、既存研究の経験的データに基づいて選択された。 COVID-19患者で観察された薬理学的介入の最大の効果は、治療した1,000 人あたり150件のイベントの減少である[4]。 4:P. Horby, P. Horby, W.S. Lim, J.R. Emberson, M. Mafham, J.L. Bell, et al. Dexamethasone in hospitalized patients with COVID-19 N Engl J Med, 384 (2021), pp. 693-704

10.

回答後にさらにコンセンサスを得た 第二段階として、調査結果に基づいてコンセンサスを得た。 パネリストの回答を平均化し、正式な会議で発表した。 議論とコンセンサスを通じて、パネルはすべての重要な結果に対する最終 的な閾値に合意した。 その結果、調査結果の平均に近い5の倍数を使用することが決まった。 さらに、すべての重要な結果について同じ値を設定し、3つの結果について 同じ閾値を使用することを決定した。 以上は、結果のスライドで理解して下さい。

11.

結果 アンケート後の議論で、3つのアウトカムに対して同じ値を使用することとなった。 重大なアウトカム 些細な 小さい 中等度 死亡 10 25 51 人工呼吸器 14 37 68 重篤な有害事象 12 28 51 10 25 50 アンケート結果の平均値 コンセンサス後 すべての重大なアウトカム 1000人中の、絶対的効果の人数です。

12.

絶対効果のフォレストプロットの閾値の概念化

13.

今回作成した診療ガイドライン(探すも不明?)の概要 例 Precision(精確)な判断 その他の懸念 効果の大きさ 最終的な推奨 その他文脈化の要因 コルヒチン(例1) 精確(Precise) なし 些細なこと 強い反対 有害事象の大幅な増加 低リスク 精確 リスクオブバイアス 些細なこと 条件付き反対 有害事象の有意な増加がない 高リスク 不精確(Imprecise) 中等度 条件付き賛成 安価な薬 些細なこと 強い反対 有害事象の有意な増加はない 中程度のリソースを要する 大きい 条件付き賛成 実現可能性と公平性の懸念 Moderate Strong in favor No significant increase of adverse events Large Strong in favor Inexpensive drug Moderate Conditional in favor No significant increase of adverse events Large resources required Trivial Conditional against Feasibility and Equity concerns ブデゾニド(例2) トシリズマブ(例3) 軽症 精確(Precise) 重症 精確(Precise) なし Dexamethasone(例4) Moderate patients Imprecise Severe patients None Precise Remdesivir(例5) Before update Imprecise After update Imprecise Risk of bias

14.

実際の利用1:不精確さ・例1 明確な閾値で、判断が容易だった。 3件のランダム化試験(n=4,628)の我々のメタアナリシスでは、COVID-19患者におい て、コルヒチン(痛風・家族性地中海熱治療剤)の使用は死亡率(RR 0.47, 95%CI 0.18-1.23) および人工呼吸の必要性(RR 0.47, 95% CI 0.24-0.94) を減少させうるこ とが示されている 。 相対的な推定値に注目することで、特定の委員会は、信頼区間(CI)が効果なしと潜在的 な害を含むことを考えると、不精確ささによって死亡率のエビデンスの確実性をグレード ダウンして、低く評価することを決定することができる。 この方法を用いると、人工呼吸器の必要性は精確とみなされる可能性が高い。しかし、死 亡率は、より重大なアウトカムであるため(人工呼吸器も重大だが、死亡のがさらに重 大)、エビデンスの全体的な確実性は、不精確さ、を理由に評価を下げることになるだろ う。( However, since mortality is a critical outcome, rating it down for imprecision would lead to a lower overall certainty of the evidence. )

15.

絶対的効果では? 絶対的効果の図でも、95%信頼区間が、些細な効果の範囲内なので、より 重体なアウトカムの死亡を考慮して(人工呼吸器も今回は同じだったが)、 不精確さで下げないだろう。 Benefit:利益 Harm:害 ←先ほどの結果より

16.

実際の利用1:不精確さ・例2 非入院のCOVID-19患者におけるブデソニド(ステロイド系抗炎症薬)の使用。 2つのRCTのメタアナリシスでは、ブデソニドが死亡率や人工呼吸の必要性などのアウトカ ムに影響を与えないことが示されたが、入院の可能性は減少させた(RR 0.71、95%CI 0.53-0.95)。 試験に登録された患者は、一般に入院のリスクが高かった。65歳以上の高齢者で、合併症 が多い患者である。これは、COVID-19の患者のほとんどが入院を必要としない、通常の 診療とは異なっていた。そこで、適切なベースラインリスクを用いて文脈化することとし た。 入院の中程度のリスクとして、パンデミック時の全国平均を採用した。そして、高リスク と低リスクを示すために、高リスクの場合は平均値を2倍し、低リスクの場合は4で割った (任意ではあるが、より正確なデータがないため、パネリストはこの範囲が適切であると 考えた)。

17.

絶対的効果では? 低リスク患者:絶対効果に対するCIは、些細 な効果であると考える範囲内。 中等度(平均)リスク患者:CIは、些細な効 果、小さな効果、中等度の効果を横切る。 高リスク患者:CIは潜在的な利益の全範囲を 横切った。 高リスクまたは中リスクの患者では、低リス クの患者よりも不確実性が高い。 しかし、低リスク患者におけるCIは、その有益性が些細なものであることを確信させるに 十分な精度であった。 一方、高リスク患者のCIは非常に広く、不精確さによってさらにダウングレードが適切で あるかもしれない。 ベースラインリスクが異なると、同じ結果であってもエビデンスの確実性が異なることが 閾値を使うことで明示化できた。

18.

実際の利用2:推奨の方向と強さのガイダンス:例1 例1の、コルヒチンの使用は有害事象の増加に加えて、わずかな有益性しか もたらさないという観察から、その使用は推奨されないことになった。

19.

実際の利用2:推奨の方向と強さのガイダンス:例2 例2の、ブデソニドについては、リスクによって、絶対的な効果の違いを考 慮し、2つの条件付推奨を行うことにした。 一つは低リスクの患者への使用しないことの推奨、もう一つは中リスクと 高リスクの患者への使用することの弱い推奨である(表2)。

20.

実際の利用3:推奨の過程:例3 トシリズマブ(関節リウマチ、高安動脈炎及び巨細胞性動脈炎)の使用は、 10本のRCT(n = 6,700)のメタアナリシスで、死亡率の低下(RR 0.84, 95% CI 0.750.94)と関連する可能性があることが示されている。 ここでは、バイアスのリスク、非一貫性、非直接性、出版物バイアスに関する深刻な懸念 はありませんでした。 このようなエビデンスの場合、トシリズマブが入手可能で安価な環境では、トシリズマブ の使用を推奨することは、パネルにとって極めて合理的であると考えられた。 しかし、作成している国(チリ?)では、アクセスや購入のしやすさ、ひいては公平性に ついても懸念があった。 そこで、ベースラインリスクの異なる患者群を考慮し、トシリズマブの効果をさらに検討 する事とした。

21.

呼吸補助の程度によって分類するが・・・ 現在までのところ、トシリズマブと通常の治療を比較した最大の研究は、RECOVERY試験 である。 研究者らは、無作為化時の呼吸補助の程度によって患者を、以下のように分類した。「呼 吸補助無し、非侵襲的換気、侵襲的機械換気」である。 対照群の死亡率は、それぞれ23%、42%、51%であった。 無作為化時の重症度とトシリズマブの効果との間に相互作用は検出されなかった。した がって、試験の著者らは、呼吸補助の程度にかかわらず、幅広い患者さんでトシリズマブ の有用性が認められたと適切に結論していた。 この試験のデータで、懸念されるのは、呼吸補助のない患者さんで死亡率が予想外に高い ことであった。そこで、入院中のCOVID-19患者の死亡率を5%と報告した観察研究のシス テマティックレビューから、より保守的な推定値を使用することにした。

22.

死亡者数 軽症 Mild(死亡リスク5%の入院患 者):些細な効果(CI 3~13人)。 重症(死亡リスク51%):効果は 大きい(CI 31~128人)。 トシリズマブの使用は有害事象の リスクを有意に増加させなかった (RR 0.93、95%CI 0.78-1.10)。 基本的に推奨の方向性は、介入の利益の大きさとそのコスト、限られた在庫の存在とのバランスを とる必要がる。明確な閾値があることで、議論が大いに促進され、決定の透明性が高まる。 例3では、呼吸器系のサポートがない軽症の入院患者における些細なベネフィットは、資源、実現可 能性、公平性の観点から、トシリズマブの使用を正当化するのに十分なものではありませんでした。 しかし、大きな死亡率減少を得られる可能性のある患者さんでは、状況は異なっていた。 この分析から、患者群によって推奨の方向性が異なることがわかった。

23.

実際の利用3:推奨の過程:例4 デキサメタゾン(ステロイド)の使用で、死亡率が有意に減少する(RR 0.90, 95% CI 0.83-0.98, three RCTs n = 6,774 )。 しかし、利用可能な3つの試験の中で最大のRECOVERY試験 では、デキサメタゾンの効果 と患者の重症度との間に交互作用(interaction)があることを示す説得力のある証拠が示 された。 介入の交互効果は、疾患の重症度によって勾配(gradient )があり、交互作用検定 ( interaction test)は統計的に有意であった。

24.

重症患者(死亡リスク44%):CI は58~174人。 中等症患者(死亡リスク26%): CI 0~55人減。 バイアスのリスク、非一貫性、非直接性、出版物バイアスに関する懸念はなかった。 しかし、ベースラインリスクが異なる場合の推定値の、不精確さは同じではなかった。 重症患者では、信頼区間は完全に大きな効果の境界の中に入っていた。一方、中等症患者では、信 頼区間は効果の範囲全体を横切っていた。したがって、中等症患者のエビデンスの確実性を、不精 確さによってダウングレードした。

25.

デキサメタゾンのその他の推奨の要因については、以下であった。 有害事象は、比較的低用量かつ短期間での投与は、軽度の副作用(主に高血糖)があった。 コスト・公平性などは、高価な薬剤ではなく、広く入手可能でアクセスしやすい。 診療ガイドライン作成当時、死亡率減少をもたらす唯一の介入であったことを考慮すると、COVID19患者においてデキサメタゾンを強く推奨するための閾値は比較的小さかったと言える。(と、い きなり当時の反省の考察の記載が論文にあった) 重症患者の場合、この閾値は明らかに達成され、パネルはすぐに賛成を強く推奨することを決定した。 しかし、効果の絶対値(1,000人当たりの死亡数が120人対29人少ない)とエビデンスの確実性に著 しい差があることから、パネリストは中等症患者の判断に苦慮した。 最終的には、点推定値がまだ先験的に中等度の効果と考えられるものであったため、中等度の患者に 対しても強い推奨を行った。 しかし、重症患者に対するデキサメタゾンの推奨は、確実性の高いエビデンスに基づいており、確実 性の中程度のエビデンスに基づく中等症患者への推奨よりも、同じ強い推奨であっても、「より強 い」ことは注目に値する。

26.

実際の利用4:推奨の更新に利用:例5 逐次エビデンスを追加していきながら、診療ガイドラインを逐次更新する 場合、新しいエビデンスをいつパネルに提示するかという基準が必要であ る。 その基準の一つとして、重要な結果のいずれかについて「効果推定値に有 意な変化があった場合」というのがある。 ここで、事前に閾値を定めておくことは非常に有効であるので、紹介する。

27.

レムデシビル(はエボラウイルス感染症の治療薬と)では、 Solidarity試験が発表される前に行った、我々のメタアナリシスでは、死亡 率における有益性が示唆されていましたが、その値は、不精確であった (RR 0.76, 95% CI 0.57-1.01, 3 trials n = 1,882)。 対照群で観察されたベースラインリスクの中央値(計算を標準化するため に12%)を用いて、1,000人当たりの死亡数が29人少ない(95%CI 52人 少ない~1人多い)という絶対的効果を推定した。 この効果は、事前に設定した閾値によると中程度と考えられ、エビデンス の確実性は低い(含まれる試験のバイアスリスクに関する懸念があり、些 細な利益と害が含まれるため、結果は不精確と判断される)とされた。

28.

Solidarity試験の発表により、プールされ た推定値は RR 0.76, 95% CI 0.57-1.01 ↓ RR 0.93、95%CI 0.81-1.06 に変更さ れた。 同じベースラインリスク( 12%)を用い ると、絶対的効果は中程度の有益性から 些細な有益性に移行した。 1,000人当たりの死亡数が29人少ない (95%CI 52人少ない~1人多い) ↓ 1,000人当たりの死亡数が8人少ない (95%CIが23人少ない~7人多い) 新しい推定値は、わずかな有益性を含むため、まだ不精確であると考えられ、エビデンス の確実性は変わらなかった。 しかし、点推定値の変化は、勧告の更新のきっかけとしては十分であった。 条件付き賛成から、条件付き反対に、推奨の変更が行われた。

29.

考察1:各アウトカムの価値について 本パイロットの経験の特殊性は、パネリストがすべての重要なアウトカムに同じ価値を置 いていることである。 患者にとって異なるアウトカムが同じ重要性を持つわけではないことを示す証拠があるの で、今回の様に同じ価値に置いたことは、他の診療ガイドラインの推奨事項には当てはま らないだろう。 死亡率と人工呼吸の閾値を一致させたのは興味深いことで、調査結果では死亡率の回避に 重きを置いていることが示唆されたにもかかわらず、パネリストは死亡率と人工呼吸の閾 値を一致させた。 その理由の一つは、パンデミックの特殊な状況である、過剰な数の重症患者がすぐに重症 治療室を圧倒し、人工呼吸器が実際に不足していたことである。このような極端な状況で は、機械的換気の回避を死亡率と同等に重要視することは、公衆衛生の観点からは賢明な 判断である。 しかし、これは例外であると思われる。

30.

考察2:利益と害の閾値の違いについて もう一つの特殊性は、利益と害の閾値が対称的であると仮定していること である。 実用的であり、実施も容易であるが、診療ガイドラインの利用者が同じ結 果であっても、潜在的な利益と害に異なる価値を置く場合は、そうでない 可能性がある。 例えば、患者は死亡率の上昇を避けることに大きな価値を見出すであろう から、「害」のほうの閾値を低くすることが適切であろう。 実際、アウトカムによっては、有害性の大きさを定量化する必要がない場 合もある。有害性の重要な閾値を超えると、その介入は患者や臨床医に とってもはや受け入れがたいものとなる可能性があるからである。

31.

考察3: 本経験の限界の一つは、重大なアウトカムの効用(utilities)を評価していないことである。 賢明な方法で閾値を設定するために、パネルは、効果の大きさと相対的な重要性と大きさ を考慮する必要があります。( To stablish thresholds in a sensible way, panels should consider the dyad of magnitude and the relatively importance of the effect.) これらの値を明示することで、正味の利益や正味の害を推定するような、より定量的なア プローチにつながる可能性がある[13]。 13:B.S. Alper, P. Oettgen, I. Kunnamo, A. Iorio, M.T. Ansari, M.H. Murad, et al. Defining certainty of net benefit: a GRADE concept paper. BMJ Open, 9 (6) (2019), p. e027445 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6561438/ もう一つの限界は,パネルが1つしかないためサンプルサイズが小さいことである。 しかし、我々の試験的な経験は、非常に肯定的なものであった。利益と害に明確な閾値を 用いることで、パネルでの議論と勧告の更新に関する意思決定が非常に容易になった。ま た、1ヶ月間隔で作成された勧告の間の一貫性を高めることができた。

32.

本論文を役立てるために 本論文によって、海外の一流の診療ガイドラインでは、どのように推奨が 作られているかの詳細を知ることができます。 今回は、COVID-19のパンデミックという時期に行われたため、閾値の調 査や、閾値の設定からアウトカムの重要性などが、簡略化されている。 そのため、そのまま真似るなと考察にあるが、現実的には、この程度の簡 略がなければ、普及しないのではないか? ともかく、パネリストは、この論文を理解してから、パネル会議に望むこ とが必要であると考えられる。