6.7K Views
October 07, 23
スライド概要
NDBデータハンドリングの工夫 奥村泰之 一般社団法人臨床疫学研究推進機構 代表理事 第6回NDBユーザー会 2023/9/15 (金) 13:15~14:50 日本科学未来館 未来館ホール NDB利用における経験談、特にデータ処理の観点から 苦労したこと・やってみたこと
NDB・介護DBの申出経験数(新規申出ベース) 3
発表の構成 ◼データベース化の工夫 ◼集計の工夫 4
データベース化の工夫 5
転写ファイル数・名称の確認 ◼ list.files() ◼ intersect(x,y) 転写データ 元データ 転写 6
最小限の列を指定してDBにインポート ファイル名=テーブル名に ◼ fread(file, select) ◼ dbWriteTable(conn, name=file) 転写データ インポート 7
インポートしたファイル・テーブル行数 の確認 ◼ ◼ ◼ ◼ list.files() dbListTables() tbl(conn) %>% count() %>% collect() fread(select=1) 転写データ 8
インポートする変数と変数名は別管理 別添8をベースにレコードごと に変数名を定義 9
インポート時のデータ整形 ◼患者ID (ID1/ID2) ➡ 整数値 ◼年月日の文字列 ➡ 整数値 ◼SI/IYレコード ➡ 縦持ち化 ◼調剤SH/CZ/IYレコード ➡ 統合 10
患者IDの整数化 ◼ ◼ ◼ ◼ 全患者IDの読み込み distinct() 整数値変換用テーブルの作成 整数値に置き換え インポート 時の整形 元レセプト ハッシュ値 奥村泰之 a894d9ac10eaadeabbf9004f1648437681a54e56e 1 d6aa27e23a2e6810da8cd43 11
年月日の整数化 ◼ ◼ ◼ ◼ 基準日の西暦を指定 基準日を1とした相対日を作成 年月日変換用テーブルの作成 整数値に置き換え 12
SI/IYレコードの縦持ち化 診療行為コード 1日の情報 2日の情報 ・・・ 30日の情報 31日の情報 *** *** *** *** *** 診療行為コード 実施日 回数 *** *** *** *** *** *** 13
リアルタイム・モニタリング 14
メモリのモニタリング 15
提供データが正しい? ① データの破損 ➡列数が一意でない ② 抽出の誤り ➡一部の患者の抽出漏れ 16
集計の工夫 17
統合DBのテーブル構成と情報源 名称 説明 情報源 統合REテーブル 患者背景テーブル RE,HO,BU 統合IYテーブル 医薬品テーブル IY,CZ,SH,CD CDとIYの重複分は除外 統合SIテーブル 診療行為テーブル SI,CD,SK CDとSIの重複分は除外 統合SYテーブル 傷病名テーブル SY,SB 統合入院テーブル 日毎の入院テーブ SI, BU, GA ル 18
統合データベース化の指針 症例数の大きさ 集計方針の計画性 ✓ 症例数が小さい ✓ 集計方針があまり決められていない 統合データ ベースの作成 ✓ 症例数が大きい ✓ 集計方針が事前に決められている 個別集計 19
全データの統合DB作成は必須でない 目的: 精神病床新規入院患者の在院日数 抽出 データ 一時切 り出し データ 2013年1月~2020年3月に精神科医 療を受けた患者のデータ 1. 2013年1月~2020年3月に精神病床関連入院 料の算定を有するレセプトID 2. 同レセプトの患者ID 3. 上記2の患者の全レセプトID 4. 上記3のうちSIレコードの入院料 5. 上記3のうちBUレコード 6. 上記4~5を基に日毎の入院テーブルの作成 大正大学地域構想研究所: 精神医療の提供と地域支援の連携に関する研究: NDB を基にしたモニタリング指標 (精神保健福祉資料:https://www.ncnp.go.jp/nimh/seisaku/data/ndb.html) 20
全年度の一括集計は必須でない 目的: ある年度に通院精神療法の算定を有する患者数 抽出 データ 一時切 り出し データ 2013年1月~2020年3月に精神科医 療を受けた患者のデータ 1. 2019年度における通院精神療法の算定を有 するレセプトID 2. 同レセプトの患者ID 3. 上記1~2と同様に,20xx年度に繰り返す 大正大学地域構想研究所: 精神医療の提供と地域支援の連携に関する研究: NDB を基にしたモニタリング指標 (精神保健福祉資料:https://www.ncnp.go.jp/nimh/seisaku/data/ndb.html) 21
部分集団の抽出ポイント ◼特定の算定 ◼年度 ◼地域 22
細分化と定期的な保存 ◼集計プロセスを細分化 ◼細分化された状態で経過の確認 ◼最大でも4時間程度で経過を保存 ◼統合された状態で結果の確認 23
傷病名マスタ変更履歴の確認と対応 事前・事後のコードを漏れなく 統一的に扱う 傷病名 (傷病名コード) 事前 事後 慢性疲労症候群 (3005011) F480 G933 昼間遺尿症 (7883005) F980 R32 夜尿症 (3076004) F980 R32 外傷性脳症 (8831776) S069 F072 急性肝炎 (0701005) K720 B179 24
医薬品マスタ整備はトリプルチェック 25
マスキングの自動化① ギャンブル等依存症 (注 一部架空の数値) 都道府県名 精神入院患者数 精神入院医療機関数 全国 364 126 北海道 15 7 青森県 20 1 都道府県名 精神入院患者数 精神入院医療機関数 全国 北海道 青森県 364 1-2の医療施設数 の患者数をマスク 15 非公表 126 1-2の医療施設 数をマスク 7 1-2 大正大学地域構想研究所: 精神医療の提供と地域支援の連携に関する研究: NDB を基にしたモニタリング指標 (精神保健福祉資料:https://www.ncnp.go.jp/nimh/seisaku/data/ndb.html) 26
マスキングの自動化② ギャンブル等依存症 (注 一部架空の数値) 都道府県名 精神入院患者数 精神入院医療機関数 全国 364 126 北海道 15 7 千葉県 8 3 都道府県名 精神入院患者数 精神入院医療機関数 全国 364 126 15 7 1-9 3 北海道 千葉県 1-9の患者数をマスク 大正大学地域構想研究所: 精神医療の提供と地域支援の連携に関する研究: NDB を基にしたモニタリング指標 (精神保健福祉資料:https://www.ncnp.go.jp/nimh/seisaku/data/ndb.html) 27
マスキングの自動化③ 知的障害 (注 一部架空の数値) 都道府県名 一般入院患者数 (主傷病) 全国 秋田県 山梨県 山口県 5910 非公表 都道府県名 一般入院患者数 (主傷病) 64 15 一般入院医療機関数 (主傷病) 664 1-2 3 4 マスクされる患者数・医療機関数が 1都道府県の場合 全国 5910 2番目に患者数が小さ 秋田県 非公表 い都道府県をマスク 山梨県 64 山口県 12-20 一般入院医療機関数 (主傷病) 2番目に医療機関数が小さ 664 い都道府県をマスク 1-2 3-4 4 大正大学地域構想研究所: 精神医療の提供と地域支援の連携に関する研究: NDB を基にしたモニタリング指標 (精神保健福祉資料:https://www.ncnp.go.jp/nimh/seisaku/data/ndb.html) 28
マスキングの自動化④ 再入院割合 (注 一部架空の数値) 都道府県名 在院日数 日時点の 180日時点の 365日時点の 退院患者数 90 区分 再入院患者数 再入院患者数 再入院患者数 北海道 全体 14458 2196 3218 4527 北海道 365日以下 14114 2140 3155 4450 北海道 366日以上 344 56 63 77 都道府県名 在院日数 日時点の 180日時点の 365日時点の 退院患者数 90 区分 再入院患者数 再入院患者数 再入院患者数 北海道 全体 2194-2202 北海道 10未満の差分を 365日以下 14114 マスク 14458 3218 2140 4527 下位集団を特定で 3155 きる全体をマスク 4450 北海道 366日以上 344 54-62 63 77 大正大学地域構想研究所: 精神医療の提供と地域支援の連携に関する研究: NDB を基にしたモニタリング指標 (精神保健福祉資料:https://www.ncnp.go.jp/nimh/seisaku/data/ndb.html) 29
可視化により異常性の確認 大正大学地域構想研究所: 精神医療の提供と地域支援の連携に関する研究: NDB を基にしたモニタリング指標 (精神保健福祉資料:https://www.ncnp.go.jp/nimh/seisaku/data/ndb.html) 30
複数言語で再生可能性の検証 完全一致 31
他のデータ源との整合性の確認 ◼他の悉皆調査 (630調査) ◼患者調査 ◼NDBオープンデータ ◼過去のNDB特別抽出 大正大学地域構想研究所: 精神医療の提供と地域支援の連携に関する研究: NDB を基にしたモニタリング指標 (精神保健福祉資料:https://www.ncnp.go.jp/nimh/seisaku/data/ndb.html) 32
Take home Messages ◼多段階のエラー確認 ◼集計単位の最小化 ◼マスタの精査 ◼マスキングの自動化 ◼集計結果の可視化 ◼参照基準となる情報の利用 自分を信じない 33