SQLiteを使ったNDB サンプリングデータセット標準データセット作成の試み

12.1K Views

October 07, 23

スライド概要

profile-image

一般社団法人臨床疫学研究推進機構

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

SQLiteを使ったNDB サンプリングデータ セット標準データセット作成の試み 奥村泰之 一般社団法人臨床疫学研究推進機構 代表理事 第6回NDBユーザー会 2023/9/15 (金) 15:20~16:00 日本科学未来館 未来館ホール 自由集会 NDB 分析して困ったこと、できたこと等

2.

NDB・介護DBの申出経験数(新規申出ベース) 3

3.

構成 ◼NDB特別抽出のハードルとサンプリ ングデータセットの利点 ◼研究成果の飛躍的創出に向けた戦略 ◼標準データセット作成のSQLプログラ ム 4

4.

NDB特別抽出のハードルとサン プリングデータセットの利点 5

5.

NDB特別抽出のハードル ◼煩雑な申出手続き ◼膨大な初期費用 ◼柔軟性を欠く手数料 ◼膨大なデータ提供までの時間 ◼膨大な技能習得の階段 ◼利用規定違反に伴うリスク 6

6.

煩雑な申出手続き ◼書類が膨大 ◆規定策定に内部承認プロセスが必須 ◆初回準備は200hを超える ◆介護総合DBの併用時は,2倍の書類が必要 ◼審査が厳しい ◆地域情報(二次医療圏以下)の審査は厳しい ◆介護総合DBの審査は,NDBより厳しい 7

7.

膨大な初期費用 項目 概算費用 考え方 データ抽出手 数料 50~150万円 情報機器等 200~300万円 民間企業の常識からすると安い。 アカデミアの常識からすると高 すぎる。 成功確率が危うい割に導入コス トが高すぎる。 個室の整備と 維持費 ?円 個室整備と維持には相当なハー ドルがある。 人件費 600万円以上/ 人年 技術習得に要する年数が不透明 な割に高い。アカデミアの場合 は,任期が短く,成長後に囲い 込める可能性が低い。 8

8.

柔軟性を欠く手数料 ◼公的研究費の多くは手数料免除の対象 外 ◆科研費/AMED*の大部分は手数料免除対象外 (例外の条件は,要確認) *AMEDは2023年10月の改定で免除対象に? ◆厚生科研はOK ◼支払時期が全く読めない ◆データ提供時期の不確実なのに,データ提供 時まで支払えない 9

9.

膨大なデータ提供までの時間 厚生労働省: NDB利活用促進に向けた取組について (https://www8.cao.go.jp/kiseikaikaku/kisei/meeting/wg/2210_03medical/221107/medical02_020103.pdf#page=3) 10

10.

膨大な技術修得の階段 年齢 主なデータ源 研究時間/週 40~44歳 NDB特別抽出 5000万人以上×8年 自治体の医療介護データ 電子カルテデータ NDB特別抽出 ・900万人年 ・6万人年 NDBサンプリングデータ JMDCデータベース 処方箋データベース DPCデータベース 大規模調査データ 60h 37~39歳 34~36歳 31~33歳 24~30歳 60h 60h 70h 80h 11

11.

利用規定違反に伴うリスク 不適切利用発生時の対応について (https://www.mhlw.go.jp/content/12400000/000734034.pdf) 12

12.

入門はサンプリングデータセットを推奨 NDBの利用を検討している方へのマニュアル (https://www.mhlw.go.jp/content/12400000/001074007.pdf) 13

13.

層別抽出法による代表性のある単月デー タセット NDBの利用を検討している方へのマニュアル (https://www.mhlw.go.jp/content/12400000/001074007.pdf) 14

14.

層別抽出法は標本抽出理論により代表性 が担保される レセプト種別 (医科入院/医科入院外/DPC/調剤) × 性別 (男女) × 年齢 (0~9各歳,10~100歳[5歳ごと],100歳以上) WallStreetMojo (https://www.wallstreetmojo.com/stratified-sampling/) 10%抽出 OR 1%抽出 15

15.

特別抽出 vs サンプリングデータセットの ハードルの比較 特徴 特別抽出 サンプリングデータセット 審査の厳しさ 厳しい場合もある 易しい セキュリティルームの整備 必要 不要 倫理審査の承認注 必要 不要 データ入手までの期間 承認後1年ほど 承認後すぐ 情報機器等の費用 200~300万円 30~100万円 データ抽出手数料 50~150万円 30~50万円 データハンドリングのハードル 困難 少し難しい 公表制限 あり なし 注. NDBの規定上という意味であり,倫理審査委員会の内部規程に依存する。 16

16.

特別抽出 vs サンプリングデータセットの データ構造の比較 特徴 特別抽出 サンプリングデータセット 点数表区分 医科・DPC・調剤・歯科 医科・DPC・調剤 診療月 通年 単月 患者の追跡性 ○ ✕ 公費単独 ○ ✕ 匿名医療機関コード ○ ✕ 都道府県コード ○ ✕ 高額レセプト・出現 頻度の低いコード ○ ✕ 介護DB等との連結 ○ ✕ 17

17.

サンプリングデータセットの提供期間 直近の経験では待機期間は約6か月 その他は約3か月 提供申出者 国立精神・神経医療 医療経済研究機構 臨床疫学研究推進機構 研究センター 申出日 2012年5月14日 2017年6月30日 2021年10月8日 承諾通知日 2012年7月12日 2017年9月8日 2022年1月12日 手数料決定日 NA NA 2022年7月13日 データ提供日 2012年10月20日 2017年11月20日 2022年7月25日 手数料 NA NA 375,797円 18

18.

研究テーマの設定例 ◼診療の質の評価 ◼急性疾患の発症率の推計 ◼薬剤の年間処方量の推計 ◼診療報酬改定前後の診療の質の変化 19

19.

研究成果一覧① 主著者 奥村泰之 關真美 飯原なおみ 木村通男 荒川亮介 Naomi Iihara 標題 日本全国の統合失調症患者への抗精神病薬の処方パターン: ナ ショナルデータベースの活用 サンプリングデータセットを用いた併用禁止医薬品等の処方実 態研究 わが国のナショナルレセプトデータベースが示した運転等禁 止・注意医薬品の使用実態 レセプト情報データベースを用いた調査: 紹介時同月内異施設同 一検査実施状況 ナショナルデータベースを用いた外来診療における抗不安薬・ 睡眠薬の処方実態の検討 Polypharmacy of medications and fall-related fractures in older people in Japan: a comparison between driving-prohibited and driving-cautioned medications [日本の高齢者における薬物療法 と転倒骨折のポリファーマシー:運転禁止薬と運転注意薬の比 較] 雑誌名 IF 臨床精神薬理 NA 医療情報学 NA 医療薬学 NA 医療情報学 NA 臨床精神医学 NA J Clin Pharm Ther 2.51 佐藤悠子 ナショナルデータベースを用いた,がん患者の死亡2週間前の Palliat Care Res NA 終末期医療の質の評価: サンプリングデータセットの活用とその 限界 Hiromi Hagiwara The survey of the compliance situation to the antihypertensive Yakugaku therapy guideline by analyzing Japanese National Claims Data [ Zasshi ナショナルデータベースの分析による降圧療法ガイドラインの 遵守状況の調査] NDBを活用した査読付き論文リスト (https://icer.tokyo/materials/ndb_references/) 0.30 20

20.

研究成果一覧② 主著者 Mai Sato 標題 雑誌名 IF Nationwide survey of severe postpartum hemorrhage in Japan: J Matern Fetal 2.40 an exploratory study using the national database of health Neonatal Med 日本における分娩後異常出血の全国調査:全国 insurance claims [ 健康保険請求データベースを用いた探索的研究] Hidetoshi Igari A retrospective observational study of antimicrobial treatment J Infect for non-tuberculous mycobacteria disease using a nationwide Chemother claims database in Japan [全国の保険金請求データベースを用い た非結核性マイコバクテリア疾患に対する抗菌薬治療のレトロ スペクティブ観察研究] 2.21 Hidetoshi Igari Epidemiology and treatment outcome of pneumonia: analysis J Infect based on Japan national database [肺炎の疫学と治療アウトカム: Chemother 日本のナショナルデータベースに基づく分析] 2.21 Hidetoshi Igari A retrospective observational study of antibiotics treatment for J Infect sepsis using a nationwide claim database in Japan [日本における Chemother 敗血症に対する抗菌薬処方のナショナルレセプトデータベース を用いた後ろ向き観察研究] 2.21 Ai Kido 2.69 Nationwide incidence of central retinal artery occlusion in Japan: BMJ Open an exploratory descriptive study using the National Database of Health Insurance Claims (2011-2015) [日本における網膜中心動脈 閉塞症の全国発生率:全国健康保険請求データベース(2011~ 2015年)を用いた探索的記述的研究] NDBを活用した査読付き論文リスト (https://icer.tokyo/materials/ndb_references/) 21

21.

研究成果一覧③ 主著者 Yamazaki Shingo 標題 雑誌名 Antibiotics prescriptions for pneumonia analyzed by claim Int J Clin information in Japan [日本のレセプト情報の分析による肺炎に対 Pharmacol する抗菌薬処方] Ther IF 0.98 Taisuke Yatomi Prescription patterns of psychotropics in patients receiving Acta Psychiatr 6.39 synthetic glucocorticoids [合成グルココルチコイド投与中の患者 Scand における向精神薬の処方パターン] Atsushi Mizuno Differences in aggressive treatments during the actively dying Heart Vessels phase in patients with cancer and heart disease: An exploratory study using the sampling dataset the National Database of Health Insurance Claims [がんと心疾患患者の終末期における積 極的治療の差: NDBサンプリングデータセットを用いた探索的研 究] Misuzu Yahaba Antibiotics for hospitalized children with community-acquired J Infect pneumonia in Japan: Analysis based on Japanese national Chemother database [日本における市中肺炎により入院した子供への抗菌薬 処方] 1.81 竹下康平 NA NDBサンプリングデータセットを利用した急性期脳梗塞の入院 脳卒中 期間に関連する因子の研究 NDBを活用した査読付き論文リスト (https://icer.tokyo/materials/ndb_references/) 2.21 22

22.

研究成果一覧④ 主著者 標題 雑誌名 IF Shin Kuramochi Drug combinations for mood disorders and physical comorbidities that Pharmacopsychi 2.54 need attention: A cross-sectional national database survey [気分障害 atry と身体疾患における注意が必要な併用療法: 全国データベースに よる横断的調査] Tami Sengoku 下川 尚子 Noriko Tsuji Prevalence of type 2 diabetes by age, sex and geographical area among two million public assistance recipients in Japan: A crosssectional study using a nationally representative claims database [日 本の生活保護受給者200万人における2型糖尿病の年齢・性・地 域別有病率: 全国代表的レセプトデータベースを用いた横断的研 究] National Databaseオープンデータおよび外来サンプリングデータ 解析で明らかにする本邦の小児鎮静MRI検査の実態 J Epidemiol Community Health 6.29 脳と発達 NA Trend of anticoagulant therapy in elderly patients with atrial Sci Rep 高齢 fibrillation considering risks of cerebral infarction and bleeding [ の心房細動患者における脳梗塞および出血のリスクを考慮した 抗凝固療法の変化] NDBを活用した査読付き論文リスト (https://icer.tokyo/materials/ndb_references/) 5.00 23

23.

外来患者に対する抗不安・睡眠薬の処方実態 荒川亮介,奥村泰之,池野敬,金吉晴,伊藤弘人: 臨床精神医学 44 (7):1003-1010. 2015. 研究の背景 • 診療ガイドラインでは,抗不安・睡眠薬処方に対する推奨は慎重であり,短期間の処方に留めるなど, 限定された状況に限られている。加えて,抗不安・睡眠薬の多くを占めるベンゾジアゼピン受容体作動 薬同士の併用については,その有効性を支持する根拠はなく,不合理な多剤処方とみなされている。 これまでの抗不安・睡眠薬の処方実態に関する研究は,健保組合の患者に限られるなど限界があった。 • 研究の方法 • レセプト情報・特定健診等情報データベースの2011年10月診療分のサンプリングデータセットを用いて, 外来患者 (精神科32,968名,非精神科649,577名) に対する抗不安・睡眠薬の処方率と抗不安・睡眠薬の2剤 以上の処方率について評価した。 主要な結果 • • 抗不安・睡眠薬の処方率は,精神科では75%,非精神科では14%であった。 2剤以上の多剤処方率は,精神科では55%,非精神科では20%であった。 抗不安・睡眠薬の処方率 2剤以上の抗不安・睡眠薬の処方率 75.3 精神科 54.5 精神科 診療科 精神科 非精神科 14.4 非精神科 0 20.4 非精神科 20 40 処方率 (%) 60 0 20 処方率 (%) 40

24.

統合失調症に対する抗精神病薬の処方実態 奥村泰之,野田寿恵,伊藤弘人: 臨床精神薬理 16: 1201-1215, 2013. 研究の背景 • 統合失調症に対して抗精神病薬を3剤以上の併用することを支持する科学的根拠はない,一方で,高用量 の抗精神病薬使用は副作用発現リスクの増大と関連することが知られている。 これまでの抗精神病薬の処方実態に関する研究は,一部の病院の患者に限られるなど限界があった。 • 研究の方法 • レセプト情報・特定健診等情報データベースの2011年10月診療分のサンプリングデータセットを用いて, 統合失調症患者 (入院7,391名, 外来5,710名) に対する抗精神病薬の3剤以上の処方率について評価した。 主要な結果 • • 朝日新聞 2013年8月20日 入院における抗精神病薬の多剤処方率は42%であった。 外来における抗精神病薬の多剤処方率は19%であった。 入院における3剤以上の抗精神病薬の処方率 全体 全体 42.1 11.5 80歳以上 外来における3剤以上の抗精神病薬の処方率 19.4 年齢区分 2.7 80歳以上 全体 23.1 70-79歳 38.6 60-69歳 11.6 70-79歳 80歳以上 70-79歳 17.9 60-69歳 60-69歳 50.8 50-59歳 50-59歳 22.1 40-49歳 56.3 40-49歳 22.8 30-39歳 57.0 30-39歳 22.2 52.9 20-29歳 0 20 40 処方率 (%) 80 30-39歳 20-29歳 10-19歳 15.5 10-19歳 60 40-49歳 18.7 20-29歳 37.8 10-19歳 50-59歳 0 20 40 処方率 (%) 60 80

25.

研究成果の飛躍的創出に向けた 戦略 26

26.

10年以上の活用経験があるのに研究成 果は,いまだにプア NDBを活用した査読付き論文リスト (https://icer.tokyo/materials/ndb_references/) 27

27.

研究成果を20倍にするための戦略 分散化アプローチ 集約化アプローチ 28

28.

戦略の基本的考え方 要点 分散化アプローチ 集約化アプローチ 利用するデー タの種類 サンプリングデータ セット 特別抽出 人材育成 データに触れる人を とにかく増やす 大きなデータに触れ る人を最小化して, 長期間育成する コスト 個々の研究機関が必 要なコストを最小化 する 日本全体のコストを 最小化する 29

29.

分散化アプローチの戦略 ① NDB利用希望者は手数料免除になるよう 徒党を組み,厚生科研の研究課題として 位置付ける ② 手数料が必要な場合,データをシェアす る ③ 申請書や運用管理規定は,ひな形を準備 して共有する ④ データハンドリングの手続き (+プログラ ム) は標準化したものを作成して共有する ⑤ 研究デザイン等のスーパービジョンは, 経験者間の互助により行う 30

30.

標準データセット作成のSQLプロ グラム 31

31.

SQLプログラム使用のイメージ 元データ 命令 データベース 整然化 32

32.

前提条件 ① 各自が,NDB利用申出をする ② 各自が,スタンドアローンの環境で,端 末とストレージを整備する ③ 各自が,SQLiteとRをインストールする ④ Rプログラムが共有される ⑤ 各自が,Rプログラムを実行する 33

33.

開発環境 あえて貧弱な環境を設定 ワークステーション Dell Mobile Precision Workstation 3551 CPU 6コア/2.7GHz メモリ 64GB (32GBでも稼働) ストレージケース STARDOM SR2-B31 ストレージ Micron MTFDDAK1T9TDS-1AW1ZABYY 1.92TB SSD 5300×2 34

34.

SQLiteはファイルを設置するだけ SQLite: https://sqlite.org/index.html 35

35.

2つのRプログラムで整然化 複数月のファイルを1 つのテーブルに格納 複数のテーブルを整 理・統合 36

36.

元のcsvファイル,2178ファイル181GB 2012年1月~2020年1月診療分 5.72GB/66ファイル/診療月 37

37.

整然化済みのDB,サイズは565GB 38

38.

テーブル構成と情報源 名称 説明 情報源 統合REテーブル 患者背景テーブル RE,HO,BU 統合IYテーブル 医薬品テーブル IY,CZ,SH,CD CDとIYの重複分は除外 統合SIテーブル 診療行為テーブル SI,CD,SK CDとSIの重複分は除外 統合SYテーブル 傷病名テーブル SY,SB 39

39.

統合REテーブル 変数名 型 説明 recID 文字列 レセプトID ymonth 文字列 診療年月 type 数値 点数表区分 (1=外来; 2=医科入院; 3=DPC; 4=調剤) ward.type 文字列 病棟コード ten 文字列 合計点数 sex 文字列 性別 (1=男性; 2=女性) yage2 文字列 満年齢コード2 id1 数値 ID1 (保険者番号を基にした患者ID) id 文字列 診療年月とID1あるいはレセプトIDで一意な患者ID inp 数値 入院外来区分 (0=外来; 1=入院) admDate 文字列 REレコード由来の入院年月日 admDate2 文字列 SBレコード由来の入院年月日 40

40.

統合SIテーブル 変数名 型 説明 recID 文字列 レセプトID zissibi 文字列 実施年月日 code 文字列 診療行為コード ryou 文字列 数量 kouikai 文字列 回数 shikibe 文字列 診療識別コード ymonth 文字列 診療年月 id 文字列 診療年月とID1あるいはレセプトIDで一意な患者ID (後略) その他統合REの変数 41

41.

統合SYテーブル 変数名 型 説明 recID 文字列 レセプトID code 文字列 傷病名コード trDate 文字列 診療開始日 outcome 文字列 転帰区分コード dcode 文字列 修飾後コード utagai 文字列 疑い病名フラグ dmain 文字列 主傷病フラグ (01=主傷病) dtype 文字列 傷病名区分コード (01=医療資源を最も投入した傷 病名; 02=副傷病名; 11=主傷病名; 21=入院契機病 名; 31=医療資源を2番目に投入した傷病名; 4x=入 院時併存傷病名; 5x=入院後発傷病名) death 文字列 転帰区分死亡 (1=死亡) ymonth 文字列 診療年月 id 文字列 診療年月とID1あるいはレセプトIDで一意な患者ID (後略) その他統合REの変数 42

42.

統合IYテーブル 変数名 型 説明 recID 文字列 レセプトID zissibi 文字列 実施年月日 (処方日) code 文字列 医薬品コード ryou 文字列 数量 kouikai 文字列 回数 shikibe 文字列 診療識別コード ymonth 文字列 診療年月 id 文字列 診療年月とID1あるいはレセプトIDで一意な患者ID (後略) その他統合REの変数 43

43.

網羅的解析による基礎資料の公開 臨床疫学研究推進機構: https://icer.tokyo/materials/ndb_feasibility_check/ 44

44.

薬剤クラスごとの分析 ◼ ◼ ◼ ◼ ◼ 外来/入院の処方 年齢区分別・外来/入院の処方 外来/入院の上位 30 傷病 年齢区分別・外来/入院の上位 15 傷病 主たる適応症の診療期間別・外来の処方 45

45.

外来における抗不安・睡眠薬トップ10の 推移 46

46.

診療行為ごとの分析 ◼ ◼ ◼ ◼ ◼ 外来/入院の上位 200 傷病名 区分番号別の外来/入院患者数 年齢・区分番号別の外来/入院患者数 区分番号別・外来/入院の上位 50 傷病名 年齢・区分番号別・外来/入院の上位 30 傷病名 47

47.

精神科専門療法,外来患者数の推移 48

48.

公開に向けた開発ステージ 設計 2022年9月~ 応用 2022年10月~ 仕様検証 2023年4月~ • プログラムの開発 • 網羅的解析の公開 • 仕様書/マニュアル作成 • エキスパートレビュー 信頼性担保 2023年x月~ 人柱テスト 2023年4月~ 公開 • ダブルプログラミング • フィードバック • 仕様書/マニュアル • Rプログラム 49

49.

SQLプログラムの人柱を求む ① NDBサンプリングデータセットの利用 申出承認済みであること ② データベース化をして,適宜フィード バックをすること 50

50.

マニュアルとプログラムの提供 51

51.

ユーザーの声① ◼手始めに3回分のサンプリングデータ セットを申請し,ターミナルでコマ ンドを打ってなんとかしようとして いました。が,なんともなりません でした。 ◼こんなに簡潔に処理できると知って いれば全期間のデータセットを申請 したかったです。 52

52.

ユーザーの声② ◼分割された状態で提供されるNDBサ ンプリングデータセットを統合RE テーブル、統合SIテーブル、統合SY テーブル、統合IYテーブルに成型する プログラムは本当に助かりました ◼講義、研究指導、研究科運営の合間 を縫って進めることを考えると、数 カ月~1年の時間の節約になったと感 じています。 53

53.

Take Home Messages ◼NDBを活用した研究は臨床・政策に寄与 しうる ◼特別抽出の利活用は,ハードルが高い ◼サンプリングデータセットは,誰もが活 用できるようになる ◼人柱を募集中! 54