修正予定だが、進まず:GRADE ガイダンス 34・35:不精確さにの評価の最新情報

2.2K Views

April 26, 23

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

GRADE Guidance 34: update on rating imprecision using a minimally contextualized approach GRADE ガイダンス 34: 最小コンテキスト化アプローチを使用し たグレーディングの不精確さに関する最新情報 Journal of Clinical Epidemiology Volume 150, October 2022, Pages 216-224 GRADE guidance 35: update on rating imprecision for assessing contextualized certainty of evidence and making decisions GRADE ガイダンス 35: 状況に応じた証拠の確実性を評価し、意 思決定を行うための評価の不精確さに関する最新情報 Journal of Clinical Epidemiology Volume 150, October 2022, Pages 225-242 基本、赤字は、私の補足・感想

2.

GRADE Guidance 34: update on rating imprecision using a minimally contextualized approach Journal of Clinical Epidemiology Volume 150, October 2022, Pages 216-224 本論文を読むための前提(厳密には違うが) • エビデンスの確実性は、以前は、単なるその効果の大きさであったが、現在は、大きな 効果・中等度の効果・小さな効果・些細な効果のどれについてかを、複数の閾値より決 めて、その効果の大きさの確実性を評価する。今回は最小コンテキスト化なので、MID の閾値一つで解説されている。 • システマティックレビューは、コンテキスト化なし(これは無くなった)・最小コンテ キスト化で、診療ガイドラインは、部分・完全コンテキスト化となっていた。ここでは、 診療ガイドラインも、最小コンテキスト化で、アウトカムは一つのみを考えている。そ して、閾値はMID(最小臨床差)なので、益と害の間なら(内側)、些細な効果か効果 なし、閾値の外側なら、重要な効果とする。現実的には、多くの診療ガイドラインが最 小コンテキスト化を行っている。 • 不精確さは、システマティックレビューと診療ガイドラインでは、評価基準が違うと なっていたが、最近では整合させるとなっている。この論文では、どっちの事なのとい う感じで、ごちゃまぜに書いてあるが、一部で分けており(Box 2)、分かりにくい。 • 従来の不精確さの説明は、基本的に1段階ダウンについてであった。2段階下げる場合は、 とんでもない場合のみだったようだ。しかし、グレードダウンの5要因の4要因が問題無 く、不精確さのみがダウンする場合、症例数が少なく、確実性が低そうなのに1段階だ けしか下がらず、「効果はおそらく存在する」との表現になると、パネルなどが納得し ない場合がある。よって、積極的に2段階下げるために、本論文で2段階下げる場合を明 記した。

3.

2011年当時の、GRADEアプローチの「不精確さ」の評価 CIアプローチ: CIを決定閾値に、CIが閾値を超える場合はグレードダウンし、超 えない場合はダウンしない。 問題点:相対効果が大きく、サンプルサイズとイベント数が両方とも少ない場合、 CIが狭く見えても、結果は脆弱になる可能性がある。 OISアプローチ:最適情報量(OIS)に基づいて不精確さの評価をグレードダウン する。(OISの考慮とは、メタアナリシスにおける参加者数またはイベント数の合 計が、十分に検出力のある単一の試験に対する通常のサンプルサイズ計算で生成さ れる参加者数またはイベント数よりも多いかどうかを考慮することである。) 問題点:本来、ガイドライン開発者の決定の中心となるとしきい値の設定には、シ ステマティック レビュー担当者にとって実行不可能な可能性のある価値判断が含 まれている。 よって、システマティックレビューの場合は、OISアプローチが良いとされていた。

4.

2011年当時の、「不精確さ」の評価、その2:ガイダンス35より SR:95%CIが、1.0の相対リスク(RR)を除外する場合 95%CIが、1.0のRRを含むがCIに評価できる有益性や 有害性を含まない場合 イベントやサンプル数が最適情報量(OIS)を超えている場合 不精確さを下げない。 CPG:CI、または確実性の範囲(certainty ranges) の上限と下限が(図のコンセプトのようだが、文章 として不思議な気もする)、真の効果を表し、臨床 行動または公衆衛生上の対応が変わらない場合、 不精確さが十分であると判断すべきである。 このためには、閾値(すなわち、決定に影響を与える効果の境界)の設定や、異な る程度のコンテキストを考慮する必要がある。 GRADEガイダンスでは、このような状況下で1段階評価を下げることを推奨して いた。(どうも、これまでは、基本は1段階で、2段階はよほどの時に下げるのが 前提だったようだ・・・知らんかったぞ!)

5.

10年間のGRADEアプローチでの知見 1. システマティックレビューの著者が、可能な閾値に関 連する判断が対象読者にとって最も有用である場合、 不精確さを判断するためにOISアプローチではなく、 CIアプローチを使用する可能性が高い。 2. CIが関心のある閾値を明確に超える場合、システマ ティックレビューやガイドラインの著者は、不精確さ の評価を、1つでなく、2つまたは3つのレベル下げる ことが必要な場合があることがわかってきた。

6.

コンテキスト化の分類と適応 1. 最小コンテキスト化(通常はシステマティックレビューで使用さ れる):1つのアウトカムだけを考慮し、効果が実際に存在するこ とを確信する確度を評価するために、ヌルに関するものか、最小 限に重要な差(MID)に関するものかに関して、それぞれ評価を 行います。 2. 部分コンテキスト化:1つのアウトカムに対して、効果が些細な、 小さな、中程度の、または大きな影響を表す範囲内にあるという 確信を評価します。 3. 完全コンテキスト化(通常はガイドラインで使用される):複数 のアウトカムを同時に考慮し(つまり、介入の望ましい影響と望 ましくない影響をトレードオフする)、介入を推奨するための決 定的な閾値を設定し、その閾値以上では介入を勧め、それ以下で は介入を勧めないようにします。

7.

現在GRADEアプローチでは、不精確さの評価において主要な基準としてCIア プローチを使用し、SRとCPGの基準を整合させることを提案している 最適なSRには、必然的にいくつかの価値判断が含まれることがわかり、 その基盤となる閾値と不精確さの評価の概念は、臨床家の聴衆にとって 直感的であり、かつ、有用であることがわかりました。 閾値を設定する場合、SRの著者は、CPG開発者と同様に、関連する価値 判断をラベル付けし、最終的に判断が必要であることを認める必要があ ります。 明確さのために、以下の議論では、他の4つのGRADEの確実性のドメイ ン(つまり、バイアスのリスク、非一貫性、非直接性、出版バイアス) に関しては深刻な懸念がないものとしています。 まとめると、従来、SRの場合は、閾値は考えないと言うことだったが、 価値判断が必然的に含まれるという認識が高まっているとのこと。

8.

システマティックレビューにおける不精確さの判断基準として信頼区間法を適用した例 敗血症患者に対する副腎皮質ステロイド投与と非投与のSR。副腎皮質ステロイ ドにより患者100人当たりの死亡数が2.2人減少し、CIは、4.1人減少から0人減 少(図)。 アウトカムの重要性を考慮し、最小コンテキスト化アプローチを用いることで、 著者らは最小重要差(MID;すなわち、関心の閾値)を患者100人当たり0.5人 (すなわち、患者1,000人当たり5人)の死亡の減少に設定することにした。 • • 点推定値がMIDを上回ったため、著者は副腎皮質ステロイドが死亡の重要な 減少をもたらすという確実性を評価する(確実性の評価目標:以前は、単に エビデンスの確実性と行っていたが、最近は、まず点推定値が些細か小さい か中等度か大きな効果か、どの大きさの確実性をみるのかを決めなければな らない)。 信頼区間はMIDの0.5%を超えるため(すなわち、副腎皮質ステロイドの効果は、点推定値 の重要な現象ではなく些細なものかもしれないにCIの下限がなる)、著者は不精確さについ て少なくとも1段階評価を下げるであろう。 • 著者らは不精確さを2段階下げるべきだろうか?答えはおそらくそうではない。第一に、CI が閾値を超える程度は100あたり0.5と比較的控えめである。第二に、CIは副腎皮質ステロ イドによる死亡の増加を含んでいない。 • 従って、有益であるという結論が誤っていても、(95%CIの下限が害になってないので) 患者や臨床医を致死的な介入を行う危険にさらすものではない。よって、著者らは、副腎皮 質ステロイドはおそらく敗血症患者の死亡を有意に減少させるという結論に達するであろう。

9.

過去 5 年間の GRADE の重要な進展によって、表の要約に結果の平易な言葉による要 約が含まれることが提案され、そのような要約で使用する言語に関するガイダンスが作 られた。このスライド重要! 確実性の高いエビデンスが存在する場合、SRやCPG著者は、“effects present ” 「効果あり」 ”と要 約することができ、中程度の確実性のエビデンスが存在する場合、著者は “effects probably or likely present ” 「効果はおそらく存在する」 と結論づけることができ、低品質のエビデンスがある 場合、わかりやすく要約すると “effects possibly present” 「効果が可能性として存在する」 とな る。エビデンスの確実性が非常に低い場合、著者は、” the evidence is very uncertain「エビデン スが非常に不確実」“であることを示す声明を出すことになる。 これを平易な言葉で考えると、例えばCIに有害な効果が含まれる場合を想定する。不精確さを1段階 だけ評価したとすると(従来は、基本が1段階だった)、平易な言葉で要約すると、「介入は「おそ らく“probably” 」重要な効果がある」となり、有害な効果が含まれるのに、「おそらく」では、 違和感を持つかもしれない(どうも、この文章的に、5要因の不精確さ以外の4要因でダウンしない 前提で、不精確さのみを下げる場合で考えて、何段階のダウンが「推奨を述べるときの確実性の表 現(A治療に“おそらく”効果がある)」にマッチするかを論じているようなので、読んでもわかりに くい)。 このような場合、不精確さを2段階評価した結果の要約(すなわち、介入は重要な効果を有する「か もしれない“may”」)、または不精確さを3段階評価した結果の要約(すなわち、介入の効果につ いてエビデンスが非常に不確実(very uncertain)である)の方が、著者にとってより適格な表現 となるかもしれない。 よって、従来は、ほぼ1段階ダウンを中心に表現してきたが、2段階でなく3段階下げる場合を、明確 に提示して、不精確さを下げるべきは下げて、現状と「推奨の表現」が一致するようにする必要が あるとの事で、この論文が作られた。

10.

点推定値が重要な効果を示唆する場合の、不精確さを2段階下げる場合を検討する場合は? 1. 点推定値は重要な利益(ここの文章は、ともかくMIDを越えると中等度などでなく、重要な利益・害と表現す るようだ)、を反映するので、著者は死亡者を大幅に減少させるという確実性(すなわち、確実性評価の目 標・重要な効果をどのように表現するかを決める)を評価することになる。 CI には重要な利益と重要な害が同時に含まれているため、著者らは不精確さのために評価を下げることにな る。もし著者らが不精確さを理由に 1 レベル下げるだけであれば、この治療には「おそらく」重要な利点が あると結論付けることになるが、この結論は重大な害が残る可能性と矛盾する。よって、2段階の「かもしれ ない」の表現のが適切である。(これは、基準でなく、言葉の雰囲気で2段階のが良いと言っているようなも のだ??また、ここでは下げるべきと言っているのではなく、下げることを検討すると言っているだけ) 2. 点推定値は重要な害を反映し、CIの境界は利益(特に重要な利益)の可能性を含む場合(よって、重要な効 果があることの確実性を考える事になる)。重要な害の正確な閾値を指定せずに考える(下左図・現実的には、 この状況が多い)。閾値がなくても、100人中5.7人という事より重要な害を目標にすると思われる。 CI の 下限 (100 あたり 1.6 少ない) が重要な益を示していると、著者らが考えるならば、点推定値は重要な害に もかかわらず、CIの一端が重要な益なので、不精確さが、際立っており2段階下げるべきとなる。 グラフ左方向が益、右方向が害

11.

点推定値が些細な効果を示唆する場合の、不精確さを2段階下げる場合を検討する場合は? 3. 点推定値は、些細な効果またはまったく効果を及ぼさないという確実性を評価することになる (確実性評価の 目標)。CIは重要な有益性と重要な有害性の両方の可能性を含むので、2段階下げることを検討するだろう。 4. 点推定値は、1と同じで些細な効果・効果なしが目標となる(よって効果なしの確実性を考える)。CIの下端 のみがMIDを越えるので、基本は1段階下げる事になる。しかし、この4.3%は、かなり大きいので、2段階下 げるかを検討する必要がある。もし、このアウトカムが重要ならば、4.3%を無視できないので2段階下げて もよい。さらに、点推定値が些細な効果なので「おそらく効果なし」と言う声明を出した場合、この4.3%が 存在するのに納得できるだろうか。納得できなければ、「効果なしかもしれない」という2段階下げたときの 表現のが良いとなる。(これも基準でなく、表現で決めている??) 5. 点推定値は些細な効果と一致し、CIは実質的な(おそらく大きな)重要な有益性の可能性を含んでいる。上 の2と同じで、著者らが、治療の 11.2% の減少は十分に大きいと考え、かつ、治療によってほとんど影響を 与えない「かもしれない」(「おそらく」ではなく)という記述に納得できる場合、著者らは不精確さにつ いて 2 段階評価を下げることを検討することになる。 グラフ左方向が益、右方向が害

12.

閾値が不明だが、点推定値が明らかに、有益か害のどちらかである場合の、不精確さを2段階下げ る場合を検討する場合は? 6. ゼロではない有益性の確実性を評価する例を、下左図。-2.1%なので、閾値がないが、点推定 値は有益性を示唆すると考えて目標に設定。そしてCIは重要な有害性の両方の可能性を含む と思われる。著者は、A治療が死亡を有意に増加させる可能性が残っている(3.6%だから) 場合に、A治療が死亡を減少させる益を有する「可能性がある」という表現をすることに問題 がないかを検討する必要がある。平素な言葉なら 「かもしれない 」ということである。これ に納得するならば、不精確さのために2段階評価を下げる事になるだろう。 7. 害の確実性を評価する場合、点推定値は害を示唆し、CIは重要な益の可能性を含んでいる。 閾値はないが、2段階下げる検討が必要だろう。 *1-7の例は、CI の一方または両方の境界が点推定とは明らかに異なる推論を示唆する関心の閾値 を CI が大幅に超えている状況を示した。このような状況では、GRADE は不精確さのために 2 レ ベルの評価を下げることを検討することを提案します。

13.

信頼区間が対象となる閾値を超えず(すなわち、これまでのスライドの例1-7と異なり、 CIが閾値をまたがない小さな場合)、相対的な効果が大きい場合、GRADE は、(CIの 上限と下端の大きさでダウンするかどうかを考えるのではなく)最適な情報サイズ (OIS)が満たされているかどうかを検討することを提案します(逆に言えば、CIが閾 値を越える場合は、CIで考える) 4.1 システマティックレビューやガイドラインの著者が最適情報量を確認すべき場合 OISを考慮するとは、メタ解析における参加者数またはイベント数の合計が、十分に検 出力のある1つの試験について従来のサンプルサイズ計算で得られた参加者数またはイ ベント数より多いかどうかを検討することである。 CIが関心のある閾値と重なる(越える)場合、著者は不精確さを(CIで)評価し、OIS を考慮する必要はない。 著者は、CIが関心のある閾値と重ならず、効果が十分に大きい[例えば、相対リスク (RR)の減少や30%を超えるRRの増加]にもかかわらず、著者が、その結果があり得 ないと考える場合、OISの実施を検討すべきである OISを満たす場合、著者は不精確さについて評価を下げる必要はない。OISの計算は効 果の相対的推定値に基づいているため、OISアプローチにおけるすべての評価とステッ プは、効果の相対的推定値に焦点を当てていることに注意することが重要である(効果 の絶対的推定値に基づいて行われるCIアプローチとは異なる)。

14.

OIS基づく場合:二値変数 従来と変更になった理由:ネットワークメタ解析の文脈で二項結果の不精確性に対処す るためのGRADEガイダンスに情報を提供するために実施されたシミュレーションは、 OIS を考慮する際に、ペアワイズメタ解析における不精確さを何段階まで評価するかに ついての洞察を提供した。 その結果: 1)これらのシミュレーションは、CI の上限と下限の比率がオッズ比ORで 2.5、リスク 比RR で 3 より大きい場合、サンプル サイズは、ベースライン リスクと治療効果の合 理的な組み合わせにおいて、基準を満たすには程遠いことを示唆した(OISに、まった く足らないぐらい少ない)。 したがって、著者は OIS を計算する必要がなく、証拠の確実性を 2 段階下げることが できる(ボックス5、状況1)(NMAの確実性を評価するスプレッドシートなどでは、た ぶん1段階のみ下げているが、ここでは2段階とある)。 2)効果が大きく、その比率がこれらの2.5と3より小さい場合、著者はOISを計算し、メ タアナリシスで利用可能なサンプルサイズと比較する。<コクランでは、意味のある利 益または害の判断として、経験則である、リスク比0.75未満と1.25以上を使う( RRR 25%が意味がある)が使われていたので、RRR25%でサンプルサイズやイベント数を計 算する図の利用が多かった> この後者の状況でOISの基準を満たさない場合、著者はエビデンスの確実性を1段階下げ て、不精確さを評価する。

15.

OIS基づく場合:連続変数 連続変数でOIS を使用すると複雑さが生じるので、2値変数のように、現在ではCIの上限と下限の比率 でのガイダンスを作成することができない。 よって、基本は、普通に頑張ってMIDとSDを設定してOISを計算して、評価する事になる。 しかし、著者が OIS の計算に必要な MID または標準偏差 (SD) に自信がない場合が多いのではない だろうか。 よって、その場合の考える例を示す:具体的に臨床的な最小閾値が不明なのでコーエンのdの感じで、 小さな効果を表す 0.2 SD の効果サイズを使用するのが良いだろう(効果の大きさの閾値を決めてゾー ニングする場合も含めて「0.2を小さい効果、0.5を中程度の効果」、よりRDを小さな効果0.02~0.0 としたり、小さい効果の2.5倍が中等度の効果のように判断することが多いようだ)。 これによって計算すると、サンプル数は合計で約800(グループあたり400)となる。(これまで、集 団の総数が400未満なら、ダウンするとのGRADEアプローチの説明があったが(このダウンは、基本 の1段階)、この場合の小さな効果は、0.28SDを使っていたので400だった。しかし今回は、0.2SD を使っているので800と増加した。もともと、OISに自信がない場合の、アバウトな基準なので、0.3 ~0.2の間がある。よって、従来の400でも悪くなく、評価前に決めておけば良いだけ。)。 GRADEでは、メタアナリシスの総標本サイズがOISの30~50%という任意の閾値より小さい場合、 OISのアプローチに基づいて、不精確さを2段階下げることを提案している。 著者がより保守的であることを選択した場合、OISの50%を閾値として選択することができ(すなわ ち、全体で400)、より保守的でないことを選択した場合、OISの30%を閾値として使用することがで きる(すなわち、全体で240)。と言うことは、 OISの30%を閾値とするなら、総数が800~240なら ば、1段階下げることとなる。

16.

ベースラインリスクが非常に低い場合、不精確さのためにグレードダウンしな いことが良いと考えられる ベースラインリスクが非常に小さい場合(ベースラインリスクがどの程度小さいかは、アウトカムの重要性に依存する)、意思決定に用 いられる効果の絶対推定値は、どれだけ新しいエビデンスが追加されたとしても、大きく変わることはないだろう。したがって、ベース ラインリスクが非常に小さい状況に直面した場合、著者は相対効果に関する不精確さについてエビデンスの確実性を下げるのではなく、 ベースラインリスクの全体的な確実性を評価するべきである。 たとえば、A治療よりB治療のが、100人あたり6人多く異常を経験する患者が得られ、CIは1人多いから11人多いことが示された(1~ 11人) 、OR:2.48、95%CI 1.08~5.71; RR 2.34 、95%CI 1.06~5.17の場合(具体的な病名があったがはぶく)で、かつ、ベー スラインリスクは1%が確実である場合を想定する。 有害性のMIDを15%増加(100人中15人増加)の場合は、RDの全CIは、 1~11人のため、 MIDの閾値の15人よりも小さくなる。すな わち、CIアプローチでは、閾値Eをまたがないので、著者は不精確さを評価することはないだろう。 よって、次にOISを満たしているかどうかを確認する事になる。ORのCIの上限と下限の比(5.3)が、基準の2.5より大きいので、不精 確さを2段階評価することになる。 しかし、対象集団のベースラインリスクが1%程度であると確信される場合、ORの基準を2.5から4.5に増加しても、絶対効果(すなわ ちRD)周りのCI全体は関心の閾値(15%の増加)の小さい側に収まることが、計算するとわかる。これらのシミュレーションは、ベー スラインリスクが非常に小さい場合、相対効果がどれだけ変化しても、意思決定に用いられる効果の絶対推定値が大きく変化することは ない。 したがって、このような状況では、著者は不精確さを理由にエビデンスの確実性を評価しない方が良いと思われる。ベースラインリスク がそれほど小さくない場合(例えば3%や5%)、ORの変更に伴い、点推定値やRD周りのCI境界が顕著に変化するので、不精確さを理由 に評価を下げるのが良いだろう。

17.

不精確さを3段階下げる場合は、CIアプローチに基づく GRADEのガイダンスでは、確実性評価の対象をどのように選択するかについて、 CIが非常に広く(すなわち、CIの2つの端が非常に異なる推論を示唆する)、著者 が真の効果について非常に不確実であり、確実性評価の対象を決定する必要がない 状況の例をあげている。 このような状況では、不精確さを3段階下げることを評価することができる。この ような判断が可能な場合、CIをどの程度と判断することは、著者らの価値判断の 問題となる。 部分的および完全に文脈化された設定における精度評価を扱った関連論文では、不 精確さのために3段階評価を下げることに主眼を置いている。これは、最小コンテ キスト化にも適用できる。 Schünemann HJ, et. al.. GRADE guidance 35: update on rating imprecision for assessing contextualized certainty of evidence and making decisions. J Clin Epidemiol. 2022 Oct;150:225-242. ただし、GRADEのユーザーは、ランダム効果モデルを使用してメタアナリシスを 行う場合、不精確さと非一貫性を二重にカウントする可能性に注意する必要がある。

18.

GRADE guidance 35: update on rating imprecision for assessing contextualized certainty of evidence and making decisions Journal of Clinical Epidemiology Volume 150, October 2022, Pages 225-242 ここからは、見直してないので、誤りが多いかも・・・。

19.

部分コンテキスト化による不精確さの評価のステップ ステップ1. アウトカムを二値変数か連続変数かを明確化 ステップ 2. エビデンスBodyについて、アウトカムの絶対効果につい て、小さい効果、中程度の効果、大きい効果に対応する閾値を、望ま しいものと望ましくないものの両方について設定する(注:アウトカ ム、例えば死亡率は、減少すれば望ましいアウトカムであり、増加す れば望ましくないアウトカムである)。 閾値の決定は、他の意思決定者が既に設定している研究、関係者の合 意、絶対的な効果サイズとアウトカムの相対的な重要性を統合した閾 値に関する経験的な証拠、または何も利用できない場合はコンテンツ 専門家の最適な推測に従うしかない。いずれにしろ、閾値を設定する 方法を明示することが重要である。

20.

部分コンテキスト化による不精確さの評価のステップ ステップ3.絶対効果の点推定値について、それらの閾値 との関係でエビデンスの確かさの評価を選択する。 つまり、効果が2つの閾値の間(すなわち、小さな望まし い効果と望ましくない効果の間、または小さな効果と中程 度の効果、中程度の効果と大きな効果の間)にあるか、大 きな効果のための閾値を超えるかを評価するか、効果が閾 値を超えるか下回るかの確実性を評価するかを決める。

21.

部分コンテキスト化による不精確さの評価のステップ ステップ 4. 関心のあるアウトカムに対するbody of evidence に対して、ベースラインリスクと相対効果に基づく信頼区間を 含む絶対効果推定値、または、関係があるならば、研究間のリ スク差のメタ分析推定値、を計算する(例:研究におけるイベ ント数が非常に少ない場合)。 ステップ5.効果推定値が望ましい健康効果を示唆するか望ま しくない健康効果を示唆するかにかかわらず、信頼区間がいく つの閾値を越えるかを決定する(「 “no effect” 効果なし」を 閾値として数えない)。 ステップ6. 閾値が交差する数だけ、レートを下げる。

22.

部分コンテキスト化による不精確さの評価のステップ 選択的ステップ 7. 効果が大きい(すなわち、点推定値が大きな効果の閾 値を超える)場合、および明らかに少数のイベントまたはサンプル数に基 づいている場合、 RISが満たされないためにさらなるレーティングダウンが必要かどうかを 判断するために、そのアウトカムについて、小さな効果、中程度の効果ま たは大きな効果の必要サンプルサイズを計算してreview information size (RIS)の使用を検討する(本論文の計算機を参照)。そうでない場 合は、ステップ 6 のレーティングを使用する。 効果が些細なものかないように見える場合(すなわち、点推定値が些細な ものかない効果から小さな望ましい効果、望ましくない効果の閾値に入 る)、例えば介入の同等性の評価のために、些細なものかない効果のRIS が満たされているかどうかをチェックし、さらなるレーティングダウンが 必要かどうかを決定する。そうでない場合は、ステップ 5 のレーティン グを使用する。←なぜステップ5?、5に注意した6では?

23.

いろいろな例、まずゾーニングして、そのゾーンの間の、効果の 大きさに対してのエビデンスの確実性を求める 緑:ダウンしない 青:1段階ダウン 紫:2段階ダウン 赤:3段階ダウン 黄:なぜか3段階ダウンのところに記載があった、ステップ5で「 “no effect” 効果なし」を閾値として数えないのだから、2段階では?

24.

連続量について 連続的なアウトカムに対する小効果、中効果、大効果の経験的な推定値が利用できる場合は、 関連する閾値を定義するために使用する必要がある。最小重要差(MID)は、通常、小さな 効果の閾値を示す。 このような経験的な推定値がない場合、効果量を標準化し、標準化平均差(SMD)として表 現することを提案する。そうすれば、評価者は、小さな効果(SMD=±0.2)、中程度の効果 (SMD=±0.5)、大きな効果(SMD=±0.8)の閾値の指針を使用できる。 この標準化は、メタアナリシスに含まれる研究が同じものを使用していたとしても、閾値を 設定する目的でのみ行うことができる。 SMDが-0.2~0.2の間に位置する、より普遍的な健康影響のない些細なカテゴリー以外では、 効果の大きさを決定する際に、結果の望ましさとSMDの符号を考慮しなければならない。し かし、絶対値で見ると、境界線は望ましさに関係なく同じで、小さな効果は0.2<|SMD| ≦0.5、中程度の効果は0.5<|SMD|≦0.8、大きな効果は|SMD|>0.8に対応することに なる。1つの閾値を超えたら1段階、2つの閾値を超えたら2段階、3つの閾値を超えたら3段階 のレーティングダウンを提案する。

25.

OISとRISについて 以前のGRADEのアプローチでは、相対的リスク減少率とベースラインリスクを 仮定して、グレードダウンでのOISの使用が行われていました。たとえば、効果 が小さい場合には、(SMDが0.2に達するために)800人の参加者を含む二つの 比較を行うことが一般的に最適情報サイズを満たすことになります(400人ずつ のグループ、以前のガイダンスでは200人と誤って記載されていました)。今回 のGRADEのガイダンスでは、コンテキスト化アプローチを使用した場合の不精 確さの評価において、二値アウトカムと連続アウトカムの両方に対するRISの計 算方法についても提示しています(OISとは異なります)。 以降の文章・スライドは、論文の解釈に自信がありません! RISは、大きな、中程度の、小さな効果の閾値に基づいて、それぞれ対応する絶 対リスク減少や増加に基づいて計算することができます。すなわちOISの計算は、 1つの閾値(多くがMID)に焦点を当てるため、異なる健康効果のサイズに対す る閾値を使用する場合は、その直感に反するものになります。そのため、同様 の数学的アプローチに基づく別の概念と用語であるRISを使用しますが、その定 義は価値のある、一つの効果に依存しないため、より適切であると考えられま す。

26.

RIS:メタ分析の結果、絶対効果が大きい場合(すなわち、点推 定値が大きな効果の閾値を超える場合) 基本的な考えとして、review information size (RIS)は、95%信頼区間の下限がどの程度高い信頼性で得られるかに応じて、単一の研究 に必要なサンプルサイズと考える。OISは、点推定値そのものが単一研究で必要とされるサンプルサイズなので、RISは、 95%信頼区間の 下限なので、必要サンプルサイズはOISより少ない事になる。 そして、大きな閾値を超えて大きい場合、RISを用いると、大きな効果について過度に高い確実性で結論を出す可能性を減らすことができる。 すなわち、その95%信頼区間の下限が、大きな閾値に必要なRISより大きいなら、問題無いので、不精確さを下げない。しかし、大きな閾 値に必要なRISより小さく、かつ、中の閾値に必要なRISより大きいならば(当然、RISは、大きな閾値の数より少ない)、一段階下げる。 と言った感じを掴むと理解が進むのではないか? 例えば、合計100人の参加者を含むランダム化試験のシステマティックレビューで、メタ分析では、そうなったが、一見するとあり得ないと 思われる大きな効果(例えば、絶対的な死亡率の減少またはリスク差が、比較群の20%から介入群の10%になるなど)を示す場合を考えて みる。 RISを計算すると(計算用のスプレッドシートが用意されている)、大きな効果の閾値(9%)以上の精度を持つ場合は10,044、中程度の効 果(5%)以上の場合は1,116、小さな効果(MID)(2%)以上の場合は496となる。 そして、評価者は、実際のメタ分析でのサンプルサイズが本当に10,044より大きいか(評価を下げない)、10,044~1,116(評価を1段階 下げる)、1,116~496(評価を2段階下げる)、496以下(評価を3段階下げる)を確認することになる。すると、合計100人なので、496 人以下となり、不精確さが3段階下げることになる。 注意:サンプルサイズは、他の利用可能なガイダンスを使用して決定されるべき対照イベント率に依存する。 注意:3段階下げるので、明らかに効果がある事例に対して過度にダウンすることがある。そうなると考えられるときは(誰がそれを決め る?)、RISの計算の時に閾値間の間隔を修正するという方法がある。 オンライン計算機 https://www.gradepro.org/calc/reviewinformationsize。

27.

RIS:些細な効果や小さな効果の場合 RISは、かなり大きな効果の不精確さが問題であるかどうかを判断する際に最も役立つが、SRでも利用できる。 まず、RISは、小さな効果、中程度の効果、大きな効果に対して任意のRIS閾値を設定することが必要である。RISの閾値は、間 接的な証拠(他のアウトカムから)から導き出すこともできるし、実際的には、小さな効果(MIDとなる)のRISに2.5と4を乗 じて、中程度と大きな効果の閾値を任意に導き出すこともできる(ここで2.5は、中程度を小さな効果量0.5/0.2で割ることで 導き出し、4は大きな効果をコーエンの効果量0.8/0.2で割ることで導き出せる)。 メタ分析による絶対値の推定値が、些細~全くないの間の場合、その絶対値が本当に些細なものであることが、おおよそわかっ ている場合を考える。そうなると、実際のサンプルサイズとRISを比較し、些細な効果が実際にはランダムエラーによるもので はないと、どの程度の確信を持って言えるかを考える必要がある。実際のサンプルサイズが、1つ、2つ、または3つの隣接する 閾値のRISよりも小さい場合、それぞれ1つ、2つ、または3つレベルを下げるべきである。 例えば、小さな効果(2%)を示すために10,044人、中程度の効果(5%)を示すために1,116人、大きな効果(9%)を示す ために496人の参加が必要な場合、評価者はレビューのサンプルサイズが、10,044より大きいか(評価ダウンしない)、 10,044~1,116(1段階評価ダウン)、1,116~496(2段階評価ダウン)、496以下(3段階評価ダウン)かを確認する。 しかし、、Fig. 6. の図と文章は、”The RIS derived sample sizes would be 10,044 for being above the large (9%), 1,116 for being above the moderate (5%), and 496 for being above a small effect (2%) threshold in each group.”と 書いてあり、逆転している(たぶん間違い)。 このアプローチは、2つの介入が同等であることを確信を持って立証するのに役立つ。ここではガイダンスとして提供されてい るが、評価者は、例えば、他の間接的な証拠(上記参照)に基づいて効果が大きいか些細であると予想される場合、過度のペナ ルティを与えないように注意深く進めるべきである。

28.

完全コンテキスト化 完全コンテキスト化アプローチを使用するには、まず部分コン テキスト化アプローチを使用してすべてのアウトカムを評価す る必要があります。 その後手順の概要が記載してあるが、これは、他のスライド・ 動画で解説する。 ポイントは、閾値がいらなくなること。完全コンテキスト化ア プローチでは、他のEtD決定基準(例:コスト)や、すべての アウトカム(価値観で重みづけする)に基づく望ましい効果と 望ましくない効果のバランスを考慮することで、プラスマイナ スでバランスを評価できる。

29.

閾値の取得方法 GPT-4で翻訳 • 現在進行中の研究では、明示的な効用と絶対効果に基づいて経験的 な閾値を導出している。 • ガイドラインパネルを用いて事前に閾値を導出する方法もある。こ れには、検討される結果の重要性が含まれるべき。 • ガイドライン開発グループで閾値が導出される場合、注意深く検討 し、意思決定機関によって十分に理由付けされるべき。 • パネリストは、これらの決定の意味と影響を理解するために適切な トレーニングが必要。 • 閾値を非常に小さく設定することや密接に設定することは、精度が 低下する可能性が高まることを認識すべき。 • 閾値は、各結果の重要性を評価した後、証拠を評価する前に決定す ることを推奨。 • 新しい証拠が出てきた場合、閾値を更新する必要があり、結果の不 確実性の評価も更新する必要がある。

30.

非一貫性inconsistencyとの関係 GPT-4で翻訳 いくつかのシナリオでは、確実性の評価は非一貫性と不精確さの両方によって影響 を受ける。 ランダム効果モデルを用いた高度に異質な研究のメタ分析では、固定効果モデルよ りも信頼区間が広くなることがある。 この場合、非一貫性と不精確さの両方に対して評価を下げる必要はなく、どちらに 対して評価を下げるか慎重に検討すべき。 例えば、局所性腎腫瘍の患者では、部分腎摘出術が全摘出術に比べてがん特異的死 亡率が低いことがメタ分析で示された。効果は研究間で異なる(I二乗 = 63%)。 ランダム効果推定量(HR 0.79; 95%CI, 0.57–1.11)は、精度が高い固定効果推定 量(HR 0.71; 95%CI, 0.59–0.85)と比較して不精確さありと判断された。 この場合、非一貫性の評価のみを下げて、不精確さの評価は下げないことを検討す ることがある。 一方、信頼区間が非常に広い研究をメタ分析すると、個々の研究のポイント推定値 が大きく異なり、非一貫性が存在することを示唆しても、異質性が統計的に評価さ れることはまれ。