MCIDの論文の、抄録 ぐらいは読めるように なるための解説 Y先生のEBM講座:Minimally Clinically Important Difference(MCID)
Patient-Reported Outcome (PRO) 介入を行なう側(医師)の評価でなく、介入を受ける人自身(患者)の評価 には、乖離があるのは、想像つくと思う。 乖離の論文の例:https://pubmed.ncbi.nlm.nih.gov/17995565/ そのため、患者自身による評価が重要となるが。一般的にQuality of Life (QOL)の評価が用いられてきた。しかし、QOLという言葉は医療関係者の中 で様々な解釈 や誤解をまねいてきたため、それに変る用語が必要となった。 その1つが、 Patient-Reported Outcome(PRO)・Patient‐Reported Outcome Measures(PROM)である。 PROは、あらゆる健康面についての測定値であり、医師やその他の誰の解釈 も受けていない患者の反応であるため有用だとの声が高まった。ついに、ア メリカの薬剤を認可するU. S. Food and Drug Administration (FDA)は,新 薬の認可申請にPROを評価指標に 用いる際のガイダンスを発行。
COSMIN(COnsensus‐based Standards for the selection of health Measurement INstruments) そのため、既存の患者報告アウトカム測定(Patient‐Reported Outcome Measures:PROM)を再評価する動きがでてきた。 その結果、すでに広く使われている尺度であっても、科学的に明らかにすべき 尺度特性が十分に検討されていないことが、系統的レビューにより明らかに なった。 そこで、COSMIN(COnsensus‐based Standards for the selection of health Measurement INstruments)という、研究および臨床診療における アウトカム測定ツールの選択を改善する運動が広まった。より科学的に行なう ため、 「患者報告アウトカム測定(PROM)の系統的レビューのための COSMIN方法論ユーザーマニュアル」なども公開されている。
Minimally Clinically Important Difference(MCID) 臨床試験で測定したQOLは、研究対象となった 患者の治療やケアにすぐに生 かせることはほとんど な。実際には、将来の患者の医療に役立つべきもので ある。 そのため、医療現場ですぐ役立つQOL 評価尺度が求められるようになった。 たとえば、目前の患者のQOLに何点の変化があればQOLが改善したと言えるの か、という基本的な問題が、今さらのように議論されるようになった。 そして、その解答法として臨床的に意味のある差 (Minimally Clinically Important Difference:MCID) とは何か、という研究が精力的に行われる ようになった。
統計学的有意差・臨床的意味のある差 この違いについて、すでに知っている方も多い。 統計学的有意差:「同じような調査を何回もやれば、誤差としてたまたま生じ うる差」か、それとも「誤差として見逃すには大きく・はっきりした差」か、 これを専門的な計算によって判断。 すなわち、「差」が、誤差を少しでも上回っていれば、統計学的有意差がある ことになる。しかも、その計算上の数式的に、サンプルサイズが大きければ、 「差」が小さくても統計学的に有意差と判定される。 よって、たとえば、何十万人のデータなら99点と98点で「差」と判定される。 もちろん、これは、現場で意味が無い「差」である(合格の判定基準を点数で 決定している場合を除く)。
統計学的有意差・臨床的意味のある差 よって、統計学的有意差があっても、それが、臨床的に意味がある差で あるとは言えない。 そのため、P値(一般的に0.05で区切る)によって、統計的に「有意で ある」または「有意でない」という二項対立で臨床試験の結果を見ると、 集めたデータの広範な解釈を歪める結果に陥るとの意見がでてきた。 そのため、効果量・信頼区間・ベイズ的アプローチによって示される効 果の重大さや相対的重要性などが、臨床試験結果を報告する上で、より 頑健な指標と考えられて、多くの統計学者が声を大にしているが、残念 ながらP値信仰は強く広まっているとは言えない。
効果量(effect size) 先ほど、サンプルサイズで統計学的有意差が左右されると述べました。そこで、 サンプルサイズによらない効果を示す指標である「効果量」が必要となるわけで す。 臨床データの分析に効果量を含めると、グループ間における結果の差の大きさを 表すことができるため、臨床的有意性を評価する上で、これは効果的な手法です。 つまり、治療の効果量が大きいほど、実験群と対照群の間に大きな差があること、 患者により大きな効果があるということが示されます。 残念ながら、効果量に対する明確な定義や、解説がなく(特に日本語での)、多 くの統計学者は、すでに分かったものとして使っているのが現状である。 効果量の計算は、いろいろあって、たとえば、Cohen‘s dなどは有名である。
Cohen‘s d効果量 もちろん、Cohen‘s d効果量は、2群それぞれの大きさや、その差や、誤差(標 準誤差)などによって、計算されるが、有意差検定のようにサンプルサイズその ものが式に入らないので(次のスライドと矛盾するので覚えておく)、サンプル サイズが大きいから効果量が大きくなることはない。 また、効果量は、一般的な差ではなく、誤差を含めて計算しているので、その値 をみても、臨床的に効果があるかどうかが分かりにくい。 そのため、いろいろな方法が考案されているが、その簡易版としては、 Cohen(1988)が提唱した行動科学における効果量の目安が有名。 項目 相関係数 指標 r 効果量小 0.10 効果量中 0.30 効果量大 0.50 独立2群検定 d 0.20 0.50 0.80
サンプルサイズの計算 ここまで述べると、サンプルサイズの計算を思いだした方も多いだろう。 サンプルサイズの設計には「有意水準」、「検出力」、「効果量」の値が必要 です。有意水準は0.05もしくは0.01が用いられることが多く、検出力は通常 0.8に設定されます。 そのため、実際に算出する必要があるのは効果量だけになります。ここで使わ れる効果量は、先ほどのCohen‘s d効果量と異なり、単なる2群の平均値の差と か、比が使われることがほとんどです。 サンプルサイズに依存しないと定義された効果量が使われては、そもそもサン プルサイズを計算できなくなりますから、先ほどの効果量と定義が異なると判 断できます(諸説あり)。
連続アウトカム MCIDの説明の前に、もう一つ押えておきたい用語が、連続変数である。 研究の最後に1度だけ測定される2値アウトカム(生死など)と違い、連続変数は研 究の開始(ベースライン、つまり観察開始前または介入実施前)と終了の両方の時点 で測定されます。したがって、連続アウトカムは研究のベースラインから終了時にか けてのスコアの変化(すなわち、変化スコア)・研究の終了時における最終測定値 (すなわち、最終値)・手術前と比較して改善かどうかを評価したかのデータとして 表現することができます。 それが、2群(介入群と対照群)なので、2群の、平均差(MD)となる。そして、た とえば疼痛のVisual Analogue Scale(VAS)は、患者が評価しているので、PROで あり、かつ、連続アウトカムである。 システマティックレビューにおいては、しばしば異なる尺度を使った測定法により連続変数の研究を 扱う場合、標準化平均差(SMD)を利用することは、以前に動画で説明した。 https://youtu.be/8i0jq-IT5X4
Minimally Clinically Important Difference( MCID ) 臨床的に重要な違いは、重篤な副作用の有無や過度のコストと仮定すると(後 のスライド*)、臨床医や患者による重要かつ有益であると知覚されるアウト カム指標の変化や差として定義されている。したがって、MCIDはそのような変 更のしきい値です(よって、状況によって異なる)。 いろいろな表現がある。用語が混乱するので、どの定義を示しているか確認し ながら論文を読むこと。 MID:Minimally Important Difference MCID:Minimum Clinically Important Difference MCD:Minimal Clinical Difference MCSD:Minimal Clinically Significant Difference MCII:minimal clinically important improvement MIC:Minimally Important Change CID:clinically important difference
MCID・SDC・SWD MCID:Minimum Clinically Important Difference 患者にとって自覚可能な最低限の改善に相当するPROM (Patient-Reported Outcome Measure)上の得点差 SWD:Smallest Worthwhile Difference 二つの治療の間で、作用と副作用を勘案して最低これだけの差があればいずれ かの治療を優先しようと考えられるような差 との記載が、第1人者の古川先生の教室に日本語である。とすると、MCIDは、 先ほどのスライドの*の仮定は含まない事になる。 このSWDとMCIDを混同するなというレターが受理されたとのことなので、こ れが正しいのだろう(日本語でも解説して欲しい)。 http://sph.med.kyoto-u.ac.jp/news/5368/
MCID・SDC・SWD 用語ばかりでつまらないが、これも少し知っておかないといけない。 MCID:Minimum Clinically Important Difference SDC:Smallest Detectable Change SWD:Smallest Worthwhile Difference 差が誤差で 不明となり 検出すらで きない 誤差範囲を超えて検出できる差 患者にとって自覚可能な最低限の改善 二つの治療の間で、作用と副作用を勘案し て最低これだけの差があればいずれかの治 療を優先しようと考えられるような差 SDC MCID SWD
MCID・SDC・SWD 誤差が大きいと、MCIDで検出不可能な範囲がある。 差が誤差で不明となり検出すらでき 患者にとって自覚可能な最低限の改善 ない 誤差範囲を超えて検出できる差 MCID SDC さらに・・・。 SEM:Standard Error of Measurement 測定されたスコアの標準誤差 分布に 基づいた手法 MDC:Minimal Detectable Change 患者立脚型質問票の測定誤差を考慮して、 個々のレベルにおいて検出可能な最小変化値 という用語もあるらしい。
PROとMCID 近年、 Patient-Reported Outcome(PRO)が重要となったのは説明した。た とえば、腰痛に関連した健康関連 QOL 調査票では Oswestry Disability Index(ODI)がある。 ODIは、10 個のアンケート項目を用いた質問票で、腰痛関連障害を 0~ 100(%)で評価する。その中で 40(%)はどんな意味を持つのか、もしくは 10(%)改善したことがどのような意味を持つのかを、その PRO に慣れていない 臨床家や研究者には理解ができないと考えられる。 医療のプロだから、すべてのPROに精通しておかなければならないのが建前だ が、実際は不可能である。そのため、ODI が 15(%)であれば、患者にとって自 覚可能な改善であることを調べた研究がある。その研究を利用すると、治療後 に ODI が 20%減少していれば治療により臨床的に意味を持った改善がなされ たと判断できる。この15(%) が、MCIDとよばれるものである。
PROとMCID すなわち、PRO を用いた研究では、あるグループにおいて治療前後のスコアの 差を統計学的に差があるかどうか検討するだけでなく、個々の症例が MCID に 達しているかどうかを判断することで臨床により即した解釈となる。 よって、PROとMCIDの関係を調査した研究が行なわれるようになった。 しながら、そもそもMCIDと言われても、直感的わかりにくく、さらに同様の概 念のキーワードも多いため敬遠されているのが現状である。 MCIDを理解するには、あるPROのMCIDの算出方法が、どのように行なわれる かを、一度体験することで、理解が進むものと信じたい(二度と見たくないと 思うかも知れない・・・)。
MCIDを決定する方法 外的評価との比較によるもの(anchor-based) ①変化量の平均値 ②変化群と不変群の平均値差 ③ROC曲線 ④変化量の増分 数学的(分布に基づく)に決定するもの(distribution-based) その他:累積分布関数の推奨など
anchor-based あるPROと同時に、他の客観的判断、検査値などを調査し(これをアンカーと呼 ぶ)、その値が臨床的に有用かを判断することで、PROがどの程度変化すれば、 臨床的に有用かを判定する方法。この中にもいろいろな方法がある。 ここで、PROが重要と言われるのは、そもそも、患者と医師の判断の乖離がある からである。よって、このアンカーそのものが医師の判断では意味が無い。 そのため、患者自身が前回調査時と2回目調査時の状態について差があるか否かを 報告してもらう患者による報告と、スコアの変化量を検討する方法が主流となって いる。 もちろん、このアンカーは、その元となる PRO よりもわかりやすく、直感的な解 釈ができるものでなくてはならない(だったら、アンカーをPROとすれば・・・と言 うことは言ってはいけないようだ)。
anchor-based アンカー:初診と比較して、 1.とても改善した.2.改善した.3.変化なし.4.悪化した.5.とても悪化した. PRO:たとえば、 SRS-22usoという質問票を仮想的に考える。22 の質問で構成さ れており、活動・疼痛・セルフイメージ・精神健康・満足度の 5 つのドメインが、 それぞれ 5 点満点で算出され、スコアが高いほど良好の臨床成績を示すという複雑 な調査。 ①変化量の平均値 たとえば、2.改善した を、最小の改善の変化とすると、単純に、 2.改善した にチェックした人のPROの値の、初診と介入後の変化の値の平均値を求める。活動 が3.0だったとすると、 SRS-22usoの活動のドメインのMCIDは、3.0となる。
anchor-based ③ROC曲線 ①変化量の平均値は、研究としてはショボいので難しそうにしたいので、③ROC曲線 が使われている ということでなく、より正確に求めるために、ROC曲線がもっとも利用されているようだ。 手順1:アンカーで「変化群」と「不変群」を定義→これを確定基準とする。 「変化群」 1.とても改善した.2.改善した. 「不変群」 3.変化なし.4.悪化した.5.とても悪化した. 手順2:PRO、ここではSRS-22usoの活動の変化量をインデックス検査とする。 すると、以下のような表が作れる。 症例 アンカーの元の値 確定基準 SRS-22usoの活動の変化量 1 1 変化群 4.5 2 3 不変群 3.2 3 2 変化群 4.1 4 2 変化群 3.1 5 4 不変群 2.8 6 2 変化群 3.4
anchor-based ③ROC曲線 手順3:SRS-22usoの活動の変化量の値のどこかの値でもって、変化ありとなしの2 群に分ける。たとえば、3.0で分ける(例1:3.0)場合と、3.3で分ける(例2: 3.3)で分けた場合(これがカットオフ値)の結果を数えて、表を書き換えると。 症例 アンカーの元の値 確定基準 SRS-22usoの活動の変化量 例1:3.0 例2:3.3 1 1 変化群 4.5 変化あり 変化あり 2 3 不変群 3.2 変化あり 変化なし 3 2 変化群 4.1 変化あり 変化あり 4 2 変化群 3.1 変化あり 変化なし 5 4 不変群 2.8 変化なし 変化なし 6 2 変化群 3.4 変化あり 変化あり 例1:3.0 の場合 インデッ クス検査 確定基準 変化群 不変群 変化あり 4 1 変化なし 0 1 例1:3.3 の場合 インデッ クス検査 確定基準 変化群 不変群 変化あり 3 0 変化なし 1 2
anchor-based ③ROC曲線 手順4:それぞれの2×2表より、感度特異度を計算して、それを、プロットする。そ して、いろいろな方法があるが、簡単に言うと、感度と特異度の両方が高そうな妥当 な場所をみつける。その場所の、例●:○の場合の、カットオフ値を、MCIDとする。 例1:3.0 の場合 インデッ クス検査 変化群 不変群 変化あり 4 1 変化なし 0 1 例1:3.3 の場合 インデッ クス検査 確定基準 感度 1.0 特異度 0.5 感 度 確定基準 変化群 不変群 変化あり 3 0 変化なし 1 2 SRS-22usoの活動のドメイン のMCIDは、3.4となる このあたりは、感度も特 異度も高そうだ・・・ 感度 0.75 特異度 1.0 この時のカットオフ値が、 たとえば3.4だったとする このあたりは、特異度は 高いが、感度が低い 1-特異度 MCIDとして採用!
anchor-based もちろん、アンカーとした調査方法が良くなければ、このアンカーを使った求め方 は根本から崩壊する。すなわち、外部アンカーの適切性については議論があり、被 験者の年齢・言い回し・カテゴリレベル・時間枠に関しては、より根本的な弱点が ある。そこで、Dennis Revicki先生は、以下の方法を推奨している。こりゃ大変。 ともかく、大変な研究の結果によって、一見しただけでは臨床的にどの程度の効果 があったか分かりにくいPROの値の変化の値がどの程度なら、少なくとも臨床的に 意味がある変化の値だったかを示す基準値、これが、MCIDが求まる。 推奨事項 1. 複数のアンカーを使用すること 2. PROの変化量との相関が0.30-0.35以上のアンカーを選択すること 3. 臨床試験の結果を参照すること 4. 分布に基づく方法は参考程度にすること 5. 治療者の観点よりも患者の観点の臨床的有意性を重視すること 6. 複数の臨床的有意性の値を図示すること 7. 最終的な値は合意形成により決定すること
distribution-based そのPROの結果を集めて、いわゆる荷重平均と標準偏差などを求める。それらの値を 使って、検出可能な最小限の変化を求め、それを、MCIDとする。 よく使われるのが、MDC (Minimum Detectable Change)という方法で、測定-再測 定間のばらつきを用いる。 もちろん、この方法では、“患者や臨床医にとって意味があるか?”という本質を無視 して、数字のみで判断していることになる。 利点は、以前にスライドで示した、誤差が大きいと、MCIDで検出不可能な範囲があ ることを回避できるということである。
MCIDを1つだけ決める事の問題点 ある評価指標には、合計点の高低による変化量の意味が異なる場合がある。たとえば ある評価指標が0に近い場合と3に近い場合では、同じ0.125の変化の持つ意味合いは 異なるかもしれない。さらには、QOLの改善方向と悪化方向でもMCIDの値が大きく 異なることが報告されている。 これは、患者の知覚では、改善と悪化の間に「変わりない」という不確定な領域があ るからである。これを難しく、PROから取得した推定の非線形性に関連する問題と表 現する。 これらは、特にPROが、カテゴリー調査の場合に多いとされ、MCID がメトリックま たは間隔スケールで計算される場合、問題は少ないとされているようだ(それでも問 題は解決されてないように思うが)。 よって、カテゴリー項目の合計で計算される全ての指標のMCIDを含む数学的解析は、 Rasch(ラッシュ)変換(詳細知らない)した後に行うべきであるとの意見もある。
MCIDの論文を読んでみよう 実際の、算出方法などは、飛ばして、MCIDがどの値かを見てみます。算出方法(研究デザインも含めて)が、数 多くあり、その論文の質が高いかどうかまでの判断は、われわれ一般の臨床医にはできません。 1. Assessing the Stroke-Specific Quality of Life for Outcome Measurement in Stroke Rehabilitation: Minimal Detectable Change and Clinically Important Difference(Free) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3034658/ 2. Reliability, responsiveness and interpretability of the neck disability index-Dutch version in primary care(手に入る) https://www.researchgate.net/publication/262422597_Reliability_responsiveness_and_interpretab ility_of_the_Neck_Disability_Index-Dutch_version_in_primary_care 3. USE OF THE MINIMAL CLINICALLY IMPORTANT DIFFERENCE (MCID) FOR EVALUATING TREATMENT OUTCOMES WITH TMJMD PATIENTS: A PRELIMINARY STUDY (Free) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3423998/ 4. What is the minimal important difference of pain intensity, mandibular function, and headache impact in patients with temporomandibular disorders? Clinical significance analysis of a randomized controlled trial https://pubmed.ncbi.nlm.nih.gov/31999615/
1. 背景:本研究は、脳卒中患者におけるStroke-Specific Quality of Life Scaleの身体カテゴリーの最小検出可能変化(MDC)と 臨床的に重要な差異(CIDs)を確立するために実施された。 方法:脳卒中患者における2つのリハビリテーションプログラムの効果を調査するランダム化比較試験に登録された74人の参加 者のデータからMDCおよびCIDsスコアを算出した。これらの参加者は3週間の治療を受け、治療前後の臨床評価を受けた。 MDCを算出するためのテスト・テストの信頼性を得るために、慢性脳卒中患者25人を追加登録した。MDCは標準測定誤差 (SEM)から算出し、個々の患者について95%の信頼度を持つ実変化(MDC95)を示した。最小CIDの範囲を三角測量するた めに、分布に基づく方法とアンカーに基づく方法を採用した。スケール幅のパーセンテージは、MDCとCIDを各身体カテゴリー の合計スコア範囲で割って算出した。また、MDC95と最小CIDsを超えた患者の割合も報告した。 結果:可動性、セルフケア、上肢(UE)機能サブスケールのMDC95はそれぞれ5.9、4.0、5.3であった。これら3つのサブス ケールの最小CID範囲は1.5~2.4、1.2~1.9、1.2~1.8であった。可動性、セルフケア、UE機能の各サブスケールのMDC95 および最小CIDを超えた患者の割合は、それぞれ9.5~28.4%、6.8~28.4%、12.2~33.8%であった。 結論:個々の患者の変化スコアは、真の変化を示すためには、3つのサブスケールで5.9、4.0、および5.3に達しなければなら ない。これらのサブスケールにおける脳卒中患者群の平均変化スコアは、臨床的に重要な変化とみなすためには、1.5(尺度幅 6.3%)、1.2(尺度幅6.0%)、および1.2(尺度幅6.0%)のCID範囲の下限に達しなければならない。この情報は、脳卒中リ ハビリテーション後の患者が報告した転帰の解釈を容易にする可能性がある。これらの知見を検証するためには、今後の研究が 必要である。 www.DeepL.com/Translator(無料版)で翻訳。
1. 背景:本研究は、脳卒中患者におけるStroke-Specific Quality of Life Scaleの身体カテゴリーの最小検出可能変化(MDC)と 臨床的に重要な差異(CIDs)を確立するために実施された。 測定誤差で検出されない変化がないような最 方法:脳卒中患者における2つのリハビリテーションプログラムの効果を調査するランダム化比較試験に登録された74人の参加 MCIDの値を、anchor-basedで求めたと、こ 者のデータからMDCおよびCIDsスコアを算出した。これらの参加者は3週間の治療を受け、治療前後の臨床評価を受けた。 小の値ということなので、SDC:Smallest こまで読んで想像できる。CIDでは馴染みが MDCを算出するためのテスト・テストの信頼性を得るために、慢性脳卒中患者25人を追加登録した。MDCは標準測定誤差 Detectable Changeか、それにしても、 ないので、MCIDと表現して欲しい。 (SEM)から算出し、個々の患者について95%の信頼度を持つ実変化(MDC95)を示した。最小CIDの範囲を三角測量するた MDCとは、用語が混乱しそう。 めに、分布に基づく方法とアンカーに基づく方法を採用した。スケール幅のパーセンテージは、MDCとCIDを各身体カテゴリー の合計スコア範囲で割って算出した。また、MDC95と最小CIDsを超えた患者の割合も報告した。 結果:可動性、セルフケア、上肢(UE)機能サブスケールのMDC95はそれぞれ5.9、4.0、5.3であった。これら3つのサブス ケールの最小CID範囲は1.5~2.4、1.2~1.9、1.2~1.8であった。可動性、セルフケア、UE機能の各サブスケールのMDC95 および最小CIDを超えた患者の割合は、それぞれ9.5~28.4%、6.8~28.4%、12.2~33.8%であった。 結論:個々の患者の変化スコアは、真の変化を示すためには、3つのサブスケールで5.9、4.0、および5.3に達しなければなら ない。これらのサブスケールにおける脳卒中患者群の平均変化スコアは、臨床的に重要な変化とみなすためには、1.5(尺度幅 6.3%)、1.2(尺度幅6.0%)、および1.2(尺度幅6.0%)のCID範囲の下限に達しなければならない。この情報は、脳卒中リ ハビリテーション後の患者が報告した転帰の解釈を容易にする可能性がある。これらの知見を検証するためには、今後の研究が 必要である。 www.DeepL.com/Translator(無料版)で翻訳。
1. 背景:本研究は、脳卒中患者におけるStroke-Specific Quality of Life Scaleの身体カテゴリーの最小検出可能変化(MDC)と 臨床的に重要な差異(CIDs)を確立するために実施された。 方法:脳卒中患者における2つのリハビリテーションプログラムの効果を調査するランダム化比較試験に登録された74人の参加 者のデータからMDCおよびCIDsスコアを算出した。これらの参加者は3週間の治療を受け、治療前後の臨床評価を受けた。 MDCを算出するためのテスト・テストの信頼性を得るために、慢性脳卒中患者25人を追加登録した。MDCは標準測定誤差 (SEM)から算出し、個々の患者について95%の信頼度を持つ実変化(MDC95)を示した。最小CIDの範囲を三角測量するた めに、分布に基づく方法とアンカーに基づく方法を採用した。スケール幅のパーセンテージは、MDCとCIDを各身体カテゴリー の合計スコア範囲で割って算出した。また、MDC95と最小CIDsを超えた患者の割合も報告した。 結果:可動性、セルフケア、上肢(UE)機能サブスケールのMDC95はそれぞれ5.9、4.0、5.3であった。これら3つのサブス ケールの最小CID範囲は1.5~2.4、1.2~1.9、1.2~1.8であった。可動性、セルフケア、UE機能の各サブスケールのMDC95 および最小CIDを超えた患者の割合は、それぞれ9.5~28.4%、6.8~28.4%、12.2~33.8%であった。 結論:個々の患者の変化スコアは、真の変化を示すためには、3つのサブスケールで5.9、4.0、および5.3に達しなければなら ない。これらのサブスケールにおける脳卒中患者群の平均変化スコアは、臨床的に重要な変化とみなすためには、1.5(尺度幅 6.3%)、1.2(尺度幅6.0%)、および1.2(尺度幅6.0%)のCID範囲の下限に達しなければならない。この情報は、脳卒中リ ハビリテーション後の患者が報告した転帰の解釈を容易にする可能性がある。これらの知見を検証するためには、今後の研究が 必要である。 www.DeepL.com/Translator(無料版)で翻訳。
1. 背景:本研究は、脳卒中患者におけるStroke-Specific Quality of Life Scaleの身体カテゴリーの最小検出可能変化(MDC)と 臨床的に重要な差異(CIDs)を確立するために実施された。 方法:脳卒中患者における2つのリハビリテーションプログラムの効果を調査するランダム化比較試験に登録された74人の参加 者のデータからMDCおよびCIDsスコアを算出した。これらの参加者は3週間の治療を受け、治療前後の臨床評価を受けた。 MDCを算出するためのテスト・テストの信頼性を得るために、慢性脳卒中患者25人を追加登録した。MDCは標準測定誤差 (SEM)から算出し、個々の患者について95%の信頼度を持つ実変化(MDC95)を示した。最小CIDの範囲を三角測量するた めに、分布に基づく方法とアンカーに基づく方法を採用した。スケール幅のパーセンテージは、MDCとCIDを各身体カテゴリー の合計スコア範囲で割って算出した。また、MDC95と最小CIDsを超えた患者の割合も報告した。 結果:可動性、セルフケア、上肢(UE)機能サブスケールのMDC95はそれぞれ5.9、4.0、5.3であった。これら3つのサブス 想像通りの展開である。 ケールの最小CID範囲は1.5~2.4、1.2~1.9、1.2~1.8であった。可動性、セルフケア、UE機能の各サブスケールのMDC95 および最小CIDを超えた患者の割合は、それぞれ9.5~28.4%、6.8~28.4%、12.2~33.8%であった。 結論:個々の患者の変化スコアは、真の変化を示すためには、3つのサブスケールで5.9、4.0、および5.3に達しなければなら ない。これらのサブスケールにおける脳卒中患者群の平均変化スコアは、臨床的に重要な変化とみなすためには、1.5(尺度幅 6.3%)、1.2(尺度幅6.0%)、および1.2(尺度幅6.0%)のCID範囲の下限に達しなければならない。この情報は、脳卒中リ ハビリテーション後の患者が報告した転帰の解釈を容易にする可能性がある。これらの知見を検証するためには、今後の研究が 必要である。 www.DeepL.com/Translator(無料版)で翻訳。
1. 背景:本研究は、脳卒中患者におけるStroke-Specific Quality of Life Scaleの身体カテゴリーの最小検出可能変化(MDC)と 臨床的に重要な差異(CIDs)を確立するために実施された。 CID(MICDのこと)の閾値が、場合によっ MICDは、1.5程度の変化で臨床的に意味が ては試験データに対する臨床的解釈を弱めて 方法:脳卒中患者における2つのリハビリテーションプログラムの効果を調査するランダム化比較試験に登録された74人の参加 あったが、そもそも、誤差が大きいので、 者のデータからMDCおよびCIDsスコアを算出した。これらの参加者は3週間の治療を受け、治療前後の臨床評価を受けた。 しまう可能性があるため、一つの値ではなく 5.9の変化でないと、確実な変化がったと言 MDCを算出するためのテスト・テストの信頼性を得るために、慢性脳卒中患者25人を追加登録した。MDCは標準測定誤差 範囲として報告したらしい。 えないというとのようだ。 (SEM)から算出し、個々の患者について95%の信頼度を持つ実変化(MDC95)を示した。最小CIDの範囲を三角測量するた めに、分布に基づく方法とアンカーに基づく方法を採用した。スケール幅のパーセンテージは、MDCとCIDを各身体カテゴリー の合計スコア範囲で割って算出した。また、MDC95と最小CIDsを超えた患者の割合も報告した。 結果:可動性、セルフケア、上肢(UE)機能サブスケールのMDC95はそれぞれ5.9、4.0、5.3であった。これら3つのサブス ケールの最小CID範囲は1.5~2.4、1.2~1.9、1.2~1.8であった。可動性、セルフケア、UE機能の各サブスケールのMDC95 および最小CIDを超えた患者の割合は、それぞれ9.5~28.4%、6.8~28.4%、12.2~33.8%であった。 結論:個々の患者の変化スコアは、真の変化を示すためには、3つのサブスケールで5.9、4.0、および5.3に達しなければなら ない。これらのサブスケールにおける脳卒中患者群の平均変化スコアは、臨床的に重要な変化とみなすためには、1.5(尺度幅 6.3%)、1.2(尺度幅6.0%)、および1.2(尺度幅6.0%)のCID範囲の下限に達しなければならない。この情報は、脳卒中リ ハビリテーション後の患者が報告した転帰の解釈を容易にする可能性がある。これらの知見を検証するためには、今後の研究が 必要である。 www.DeepL.com/Translator(無料版)で翻訳。
1. 結果の表をみると、CID(一般にはMCID)を、Distribution-basedでも計算して いるようだ。この値をみると、MDC(一般的にはSDC:Smallest Detectable Change)より小さいので、 Distribution-based で計算すると、誤差を超える値 になりそうだが、越えなかったようだ。誤差のよって信頼性が低い程度の変化の 中にMCIDの値が含まれたようだ。よって、MCIDのDistribution-basedの計算方 法と、今回のSDCの計算方法は、かなり違ったと思われるが、その具体的な計算 方法まで理解できなくても大丈夫。
2. 目的:NDI-DVの信頼性、応答性、および解釈可能性の評価に基づいて、プライマリケアにおけるNeck Disability IndexDutch Version(NDI-DV)の実用的な使用に関するエビデンスに基づく勧告を確立すること。 研究デザインと設定/方法:ベースラインでは、ベルギーとオランダの97のカイロプラクティッククリニックに来院した頸部痛 患者337人がNDI-DVを完了した。対象とした3ヵ月後、265人の患者が反応性と解釈可能性を評価するためにデータを提供し た。信頼性は155人の患者(10日後に再検査)において、一致度のクラス内相関係数(ICCagreement)と測定誤差(測定標 準誤差、SEM)を計算することで評価され、後者は最小検出可能変化(SDC)をもたらした。最小重要変化(MIC)は、自己報 告された知覚回復をアンカーとして用いたアンカーベースのMIC分布によって評価した。SDCとMICを関連付けることで解釈可 能性を検証した。 結果:ICCagreementは0.88でした。SEMagreementは1.95で、SDCは5.40であった。NDI-DVは反応性があるようで、曲線 下面積が0.85で改善した患者と安定した患者を区別することができました。MICは4.50でした。 結論:NDI-DVは信頼性と応答性に優れており、ベルギーとオランダの臨床現場で使用されています。変化スコアが5の場合は 患者にとって重要ですが、測定誤差が原因である可能性が7%あります。 www.DeepL.com/Translator(無料版)で翻訳しました。
2. 頸部痛に特化したQOLのようだ。首の痛み が日常生活に影響を及ぼしている程度を測 定するための患者報告式アウトカム尺度。 目的:NDI-DVの信頼性、応答性、および解釈可能性の評価に基づいて、プライマリケアにおけるNeck Disability IndexDutch Version(NDI-DV)の実用的な使用に関するエビデンスに基づく勧告を確立すること。 研究デザインと設定/方法:ベースラインでは、ベルギーとオランダの97のカイロプラクティッククリニックに来院した頸部痛 患者337人がNDI-DVを完了した。対象とした3ヵ月後、265人の患者が反応性と解釈可能性を評価するためにデータを提供し た。信頼性は155人の患者(10日後に再検査)において、一致度のクラス内相関係数(ICCagreement)と測定誤差(測定標 準誤差、SEM)を計算することで評価され、後者は最小検出可能変化(SDC)をもたらした。最小重要変化(MIC)は、自己報 告された知覚回復をアンカーとして用いたアンカーベースのMIC分布によって評価した。SDCとMICを関連付けることで解釈可 能性を検証した。 結果:ICCagreementは0.88でした。SEMagreementは1.95で、SDCは5.40であった。NDI-DVは反応性があるようで、曲線 信頼性を、最初の検査と10日後の再検査の一 下面積が0.85で改善した患者と安定した患者を区別することができました。MICは4.50でした。 MCIDの値を、anchor-basedで求めたと。ROC曲線 致率と、測定誤差を使ったSDC:Smallest を求めて、感度特異度が伴に高くなるカットオフ値を 結論:NDI-DVは信頼性と応答性に優れており、ベルギーとオランダの臨床現場で使用されています。変化スコアが5の場合は Detectable Changeを求める事で評価。 算出してMCIDを求めているようだ。 患者にとって重要ですが、測定誤差が原因である可能性が7%あります。www.DeepL.com/Translator(無料版)で翻訳しま した。
2. 目的:NDI-DVの信頼性、応答性、および解釈可能性の評価に基づいて、プライマリケアにおけるNeck Disability IndexDutch Version(NDI-DV)の実用的な使用に関するエビデンスに基づく勧告を確立すること。 研究デザインと設定/方法:ベースラインでは、ベルギーとオランダの97のカイロプラクティッククリニックに来院した頸部痛 患者337人がNDI-DVを完了した。対象とした3ヵ月後、265人の患者が反応性と解釈可能性を評価するためにデータを提供し NDIは整数値なので、変化が4点では重要な た。信頼性は155人の患者(10日後に再検査)において、一致度のクラス内相関係数(ICCagreement)と測定誤差(測定標 変化でなく、5点であれば重要な変化と考える 準誤差、SEM)を計算することで評価され、後者は最小検出可能変化(SDC)をもたらした。最小重要変化(MIC)は、自己報 告された知覚回復をアンカーとして用いたアンカーベースのMIC分布によって評価した。SDCとMICを関連付けることで解釈可 能性を検証した。 結果:ICCagreementは0.88でした。SEMagreementは1.95で、SDCは5.40であった。NDI-DVは反応性があるようで、曲線 下面積が0.85で改善した患者と安定した患者を区別することができました。MICは4.50でした。 結論:NDI-DVは信頼性と応答性に優れており、ベルギーとオランダの臨床現場で使用されています。変化スコアが5の場合は 患者にとって重要ですが、測定誤差が原因である可能性が7%あります。 www.DeepL.com/Translator(無料版)で翻訳しました。 SDCが5.4なのに、5を採用しているので、少 し誤差に含まれる人がいるという意味だと思 うが、7%の算出方法は分からず。
2. 経過が長くなると、NDIの値で5以下の人が増 える。 SDCが5.4なので、これは、(1)スコ ア5のすべての患者が実際に頸部障害がないか 無視できるほどの障害を経験している場合、 (2) 患者に頸部障害が残っているが、NDI-DV がこれを検出しない場合、それは測定器の欠 点でのどちらかとなる。 著者らは、(1)と考察している。
3. 顎関節・筋障害(TMJMD)は、最も一般的な筋骨格系疾患の一つである。 本研究の主な目的は、最小臨床的に重要な差(Minimal clinically important difference:MCID)という新しい指標を用いて、 顎関節症の治療成績について臨床的に意味のある緩和をより客観的に定量化することであった。 101名の急性顎関節症患者のコホートを対象に、治療前と治療後の自己報告指標の変化を評価した。アンカーベースのMCIDア プローチは、興味のある臨床結果として客観的な咀嚼パフォーマンス指標を用いて、採用された。 受信機動作曲線分析を用いて、SF-36のフィジカル・コンポーネント・スケール(PCS)は、顎関節症患者の集団において MCIDとして使用する最も頑健な自己報告尺度であることが明らかになった。
3. アンカーの評価方法は複数でなく1つのみで行なった。それが、chewing performance measure serving (咀嚼機能評価の最も一般的に使用される尺度(Bates, Stafford, & Harrison, 1976; Buschang, 2006)無 味の錠剤(厚さ5mm、直径20mm)を合計20回噛んで砕けるまでの時間や、砕けた量を測定する方法)とあ るので、患者自身の判断がアンカーではない調査となる。 顎関節・筋障害(TMJMD)は、最も一般的な筋骨格系疾患の一つである。 本研究の主な目的は、最小臨床的に重要な差(Minimal clinically important difference:MCID)という新しい指標を用いて、 顎関節症の治療成績について臨床的に意味のある緩和をより客観的に定量化することであった。 101名の急性顎関節症患者のコホートを対象に、治療前と治療後の自己報告指標の変化を評価した。アンカーベースのMCIDア プローチは、興味のある臨床結果として客観的な咀嚼パフォーマンス指標を用いて、採用された。 受信機動作曲線分析を用いて、SF-36のフィジカル・コンポーネント・スケール(PCS)は、顎関節症患者の集団において MCIDとして使用する最も頑健な自己報告尺度であることが明らかになった。 SF-36 PCSのMCIDは、2.745だったが、この研究は、古く、どちらかと いうと、MCIDの値そのものを探すと言うより、どのPROの評価がMICDを 利用しやすいかを調べるために、MCIDを使ったと考えられる。
4. 背景:顎関節症(TMD)に関連する転帰については、臨床的に重要な最小差(Minimal Clinically Important Difference: MCID)を示す研究が不十分である。 目的: (1) Global Rating of Change Scale (GRCS)をアンカーとして、顎関節症に関連する転帰のMCIDを提供する。 (2)どのアウトカムが治療に対する中等度または大規模な反応を予測できるかを検証する。 研究デザイン:試験デザイン:TMD患者を対象とした無作為化比較試験の二次解析。 方法:顎関節症の女性61名を介入群と対照群に分けた。ベースライン時と5週間後の追跡調査時に、Visual Analogue Scale (VAS)、Headache Impact Test(HIT-6)、咀嚼筋の圧痛閾値(PPT)、Mandibular Function Impairment Questionnaire(MFIQ)、Craniocervical Flexion Test(CCFT)を収集した。 結果:○参加者は、GRCSに従って、治療に対する反応に基づいて分割された。MCID値は、治療に対して中等度または大部分 の改善がみられた被験者に提供された。 ○MCIDは、口腔内疼痛が0~1.90点、MFIQが2点前後、HIT-6が3~6.26点、咀嚼筋PPTが0.2kg/cm2前後、MMOが2.5mm 前後、CCFTが60~68点であった。 ○顎顔面痛とHIT-6は、患者が治療後に大なり小なり改善するか、あるいは改善しないかを判断する際の最も差別的な変数で あった。 結論:MCIDの値は、臨床と研究の両方の指針として使用することができる。痛みの強さと頭痛の影響は、TMDを持つ女性の一 般的な健康状態の改善を最も予測する結果であった。 www.DeepL.com/Translator(無料版)で翻訳しました。
4. Global Rating of Change Scale (GRCS)がアンカーの評価方法。また、中等度の反 応をみることができるかなので、誤差より大きい変化をみれるかということで、 背景:顎関節症(TMD)に関連する転帰については、臨床的に重要な最小差(Minimal Clinically Important Difference: MCID)を示す研究が不十分である。 SDC:Smallest Detectable Changeのようなことをするようだが、スモールではない 目的: (1) Global Rating of Change Scale (GRCS)をアンカーとして、顎関節症に関連する転帰のMCIDを提供する。 (2)どのアウトカムが治療に対する中等度または大規模な反応を予測できるかを検証する。 研究デザイン:試験デザイン:TMD患者を対象とした無作為化比較試験の二次解析。 方法:顎関節症の女性61名を介入群と対照群に分けた。ベースライン時と5週間後の追跡調査時に、Visual Analogue Scale (VAS)、Headache Impact Test(HIT-6)、咀嚼筋の圧痛閾値(PPT)、Mandibular Function Impairment Questionnaire(MFIQ)、Craniocervical Flexion Test(CCFT)を収集した。 以前行なった研究の2次 結果:○参加者は、GRCSに従って、治療に対する反応に基づいて分割された。MCID値は、治療に対して中等度または大部分 解析とのこと。いや~、こ • 本文にRoC曲線で判定とあった。 の改善がみられた被験者に提供された。 の解析後に、ランダム化比 • 方法の所に、「 The MCID for pain has been reported to range from ○MCIDは、口腔内疼痛が0~1.90点、MFIQが2点前後、HIT-6が3~6.26点、咀嚼筋PPTが0.2kg/cm2前後、MMOが2.5mm 較試験をするべきだという 前後、CCFTが60~68点であった。 1.5 to 3.2 points (Dworkin et al., 2008; Kovacs et al., 1976; Farrar ○顎顔面痛とHIT-6は、患者が治療後に大なり小なり改善するか、あるいは改善しないかを判断する際の最も差別的な変数で 突っ込みはしないように! et al.,2001; van der Roer et al., 1976; Maughan and Lewis, あった。 2010). 」などと、すでに、多くの研究からのMCIDが記載されていた。 • not improve・moderate improvement・large improvementとどの指 結論:MCIDの値は、臨床と研究の両方の指針として使用することができる。痛みの強さと頭痛の影響は、TMDを持つ女性の一 標で、どのように分けたのがわかなかった(誰かヘルプ)。 般的な健康状態の改善を最も予測する結果であった。 • Table 4で、各アウトカムを組み合わせて、中等度改善と著明改善を評価す るためのアウトカム群を探索しているようだ。MCIDから離れている・・・。 www.DeepL.com/Translator(無料版)で翻訳しました。
Global Rating of Change Scale (GRCS) 治療開始前の患者の状態と比較して、この患者の状態は: 「1=著明改善・2=中等度改善・ 3=軽度改善・ 4=変化なし・ 5=軽度悪化・ 6=中 等度悪化,7=著明悪化」 患者自身が記載するならば、「1:はるかによくなった」「2:少しよくなり生活上 意義がある」などの質問となる。 よって、介入前(ベースライン)と介入後の2回の調査の変化ではない。 • GRSは表面的妥当性は高いが、回想による回答の信頼性・妥当性の問題がある(Norman et al., 1997)※COSMINでは、GRSを構成概念アプローチで使うことを推奨 • 測定している構成概念が同一ならゴールドスタンダードとして用い、異なるなら構成概念アプロー チという立場もある (Henrica et al., 2011) • 多くの長所と短所の論文がある。 • いろいろな分野で、少し改変されて妥当性などの評価がされて使われている。
4. 背景:顎関節症(TMD)に関連する転帰については、臨床的に重要な最小差(Minimal Clinically Important Difference: (1)GRCSで3分割したようだ。「MCID値は、治療に対して中等度または大 MCID)を示す研究が不十分である。 部分の改善がみられた被験者に提供された。」と言うことなので、小さな改善 であるMICD値が誤差内だったと言うことになってしまう。 目的: (1) Global Rating of Change Scale (GRCS)をアンカーとして、顎関節症に関連する転帰のMCIDを提供する。 (2)そうなると、赤にMCIDの値が記載されているが、その範囲の小さい方は、 (2)どのアウトカムが治療に対する中等度または大規模な反応を予測できるかを検証する。 誤差内というように解釈して良いだろう。 研究デザイン:試験デザイン:TMD患者を対象とした無作為化比較試験の二次解析。 (3)そんな中で、顎顔面痛とHIT-6は、小さな変化でも改善を評価できた(誤 方法:顎関節症の女性61名を介入群と対照群に分けた。ベースライン時と5週間後の追跡調査時に、Visual Analogue Scale 差が小さかった)ので、MCIDとして使いやすいということ。 (VAS)、Headache Impact Test(HIT-6)、咀嚼筋の圧痛閾値(PPT)、Mandibular Function Impairment Questionnaire(MFIQ)、Craniocervical Flexion Test(CCFT)を収集した。 結果:(1)参加者は、GRCSに従って、治療に対する反応に基づいて分割された。MCID値は、治療に対して中等度または大 部分の改善がみられた被験者に提供された。 (2)MCIDは、口腔内疼痛が0~1.90点、MFIQが2点前後、HIT-6が3~6.26点、咀嚼筋PPTが0.2kg /cm2前後、MMOが 2.5mm前後、CCFTが60~68点であった。 (3)顎顔面痛とHIT-6は、患者が治療後に大なり小なり改善するか、あるいは改善しないかを判断する際の最も差別的な変数 であった。 結論:MCIDの値は、臨床と研究の両方の指針として使用することができる。痛みの強さと頭痛の影響は、TMDを持つ女性の一 般的な健康状態の改善を最も予測する結果であった。 www.DeepL.com/Translator(無料版)で翻訳しました。
4. 本文の考察から: 一般的な慢性疼痛のMCIDはVASで1.5~3.2cmの範囲であることが報告されている、または疼痛軽減の30%である。 女性の顎関節症患者では、最大疼痛が1.2cm、現在の疼痛が1.9cm、最小疼痛が0.9cm減少した場合、一般的な健康状態が大 きく改善した。 したがって、慢性顎関節症の患者にとっては、文献で報告されているような効果があったと結論づけるためには、治療後にVAS 上で3.2cmの縮小を行う必要はないかもしれない。 過去の調査では、VASの介入前後の変化量の、MCIDは、1.5~3.2cmだが、自分たちの研究では、最大疼 痛が1.2cm、現在の疼痛が1.9cm、最小疼痛が0.9cm減少した場合に、臨床的に大きく改善していたので、 MCIDの値として3.2cmの変化は、大きすぎると考察している。 よって、本研究で、VASのMCIDを、あらためて求めた訳でもないようだ。 いずれにしろ、本研究の結果、各アウトカムは、誤差が多い。でも、MCIDは、これまで報告されていたよ り小さいかもね、という事だろう。 このようにMCIDの論文とあっても、純粋にMICDのみを算出しているのではない論文が増えているようだ。
参考文献 Outcome Measures in Rheumatology Clinical Trials (OMERACT) 2014に参加して(4/4) 池田 啓(千葉大学医学部附属病院アレルギー・膠原病内科) http://rheumaticdisease.jp/eye/eye-2014-ikeda-04.html リウマチ学に適用される最小限の臨床的に重要な違い:OMERACT Raschワーキンググループの系統的レビューと批評(Google翻訳) https://www.jrheum.org/content/43/1/194 Minimally Important Difference(MID) (14:00 ~ 14:25) 宮崎 貴久子 (京都大学大学院 医学研究科 社会健康医学系専攻) https://www.csp.or.jp/hor/nenkai/08/ QOL 評価の臨床的意味:Minimally Important Difference(臨床における最小重要差:MID) https://www.jstage.jst.go.jp/article/jjbm/21/1/21_1501/_pdf/-char/ja 健康状態の測定:最小限の臨床的に重要な違いの確認(Google翻訳) https://www.researchgate.net/publication/223867787_Measurement_of_Health_Status_Ascertaining_the_Minimal_Clinically_Important_Difference COSMIN(COnsensus-based Standards for the selection of health Measurement INstruments)チェックリストについて日本語で紹介 http://jabt.umin.ne.jp/journal/Tsuchiya_2015.pdf COSMIN検索フィルターについて https://www.cosmin.nl/tools/pubmed-search-filters/ COSMIN ガイドライン:1.アウトカムの測定特性 http://aihara.la.coocan.jp/?cat=468 メタアナリシス:異なる尺度を使った連続変数の効果サイズの5つの表示法 http://aihara.la.coocan.jp/?p=3464 医療における健康アウトカム評価-意義,現状と課題 http://www.saitama-med.ac.jp/jsms/vol35/01/jsms35_085_086.pdf 第16回 患者報告式アウトカム尺度における臨床的有意性の分析 http://blue.zero.jp/yokumura/Rhtml/session16.html Minimal Clinically Important Difference(MCID)の概念と算出方法 https://webview.isho.jp/journal/detail/abs/10.11477/mf.1408201288 臨床的有意性の書き方 https://www.slideshare.net/okumurayasuyuki/ss-37610985 「臨床的有意性」の報告事例 https://docs.google.com/viewer?a=v&pid=sites&srcid=ZGVmYXVsdGRvbWFpbnxzYXRvc2hpeW9rb3lhbWFzaXRlfGd4OmFiMDU1ODQxZmIzZmRmYg