>100 Views
May 13, 25
スライド概要
連続量経時データに対するEstimandを考慮した臨床試験のデザインとシミュレーション
【演題1】Estimandの検討とサンプルサイズシミュレーション" 土居正明
横山雄一、大浦智紀、高橋文博、片岡尚子、兼清道雄、竹ノ内一雅、土川克、中西豊支、渡邊大丞
2018 【演題2】シミュレーションデータの発生方法とビジュアル化に関するtips 中西豊支
土川克
土居正明
竹ノ内一雅、横山雄―、大浦智紀、高橋文博、兼清道雄、片岡尚子、渡邊大丞
2018 【演題3】Reference based imputationの補完回数の検討 大浦智紀
土居正明
横山雄―
2018 SASによる時間依存性ROC曲線とC統計量 魚住龍史
矢田真城
篠崎智大
川□ 淳
浜田知久馬
2018 スパースな線型回帰モデルに対するベイズ推論 矢田真城
浜田知久馬
2018 MCMCプロシジャによるコンパートメントモデルを用いた母集団薬物動態解析 矢田真城
魚住龍史
浜田知久馬
2018 ポリコリック相関係数とスピアマンの順位相関係数のシミュレーションによる比較 小松邦岳
2018 離散型反応の経時データ解析における一般化推定方程式(GEE)及びベイズ流解析の検討 栃澤欣之
角元慶二
2018 SASによる競合リスクを伴う生存時間解析の理解 魚住龍史
浜田知久馬
2018 競合リスクが存在する下での生存時間分布の検定法の性能評価 今泉敦
魚住龍史
浜田知久馬
2018 SASによるがん第I相試験における区間に基づく用量探索デザインの実装の試み 北川忠行
角野修司、笹丼清史
2018 生存時間解析におけるRPSFT(Rank Preserving Structural Failure Time)モデルによる解析のSASプログラム紹介 菊池宏和/高橋伸平
山下拓人
2018 地域医療ネットワークの可視化とMR活動への活用 武藤猛
2018 SGPLOTプロシジャによる抗がん剤領域で用いるグラフ作成の事例 川原田貴広
2018 CDiSC Dataset‐XMLのSASによる作成 関根暁史
2018 DDE及びVBAを利用したSDRGの一部自動化について 藤原由
2018 SAS XML Mapperを用いたdefine.xmt内のメタ情報に基づく帳票作成 山本繁
林三男
2018 日本におけるSASグリッド・コンピューティング環境への移行事例 筒丼杏奈
小澤康彦
2018 PPK解析における%PKCONVRTの使用事例 逆丼佑来
川崎勝己、水畑淳之介、新城博子
2018 被験者レベルのフォーマットを利用する 三木悠吾
2018 「新版実用SAS生物統計ハンドブック[SAS09.4/R3.2.0対応]」の紹介とSASC OnDemand for Academicsでのハンズオンセミナー 土屋裕章
小松邦岳
小川直之
江森健人
2018 NLMiXEDプロシジヤによるスパース推定 伊庭克拓
2018 DOSUBL関数内で生成したビューをハッシュオブジェクトに格納することによりPROC DS2のハッシュパッケージの挙動を擬似的に再現する方法 森岡裕
2018 ods rtf+proc reportにおける解析帳票の日本語/英数字フォントの明示的制御 麻生美由紀
2018 PROC ODSTABLEを用いた帳票作成 山野辺浩己
2018 PK速報解析のレポートシステムの構築 吹谷芳博
藤澤正樹
2018 SAS/ACCESS for Relational Databaseにおける失敗しないための設計・開発ポイント 吉野祥
2018 バージョン管理システムを利用してSASプログラムを管理する上での問題とその対処方法について 川上貴弘
2018 SAS Programming Tips:CDISC編 松沢享
2018 PythonによるSASデータハンドリング 中嶋優―
2018 折れ線グラフの出力を工夫する 淺井友紀
2018 SASで始めようCentral Statistical Monitoring一JMP Cunicalをお手本にしたスタータープログラムの提案― 森田祐介
2018 品質管理を目的としたCDiSC成果物情報の一元管理のための技術的考察 山崎彰子
長谷和彦
2018 SAS Viya 0) CNN EiEH t/lc Process lnnovation~機械は解析図表をどう見ているのか~ 木□ 亮
平野勝也、北西由武
2018 SAS Viyaによる意識改革からみえたData Scientistの生き方~僕たちはどう生きるか~ 木□ 亮
北西由武
2018 品質管理を目的とした,CDISC自動マッピングシステムの開発と検討 (Naive Bayes Ctassfierと形態素解析器を用いた機械学習による自動マッピング機能の検討) 横丼章泰
長谷和彦、森田康司、下田泰士、高岡和子、小泉早織
2018 CAUSALTRTプロシジャを用いた傾向スコア解析について 中尾浩子
2018 用量反応実験での各種統計モデルに対する尤度比検定の適用 高橋行雄
半田淳
2018 SCAD罰則によるスパース推定法の実装 勘場大
惟高裕一、都地昭夫
2018 自治体の外国人向け観光紹介ページ開設の現状と課題―ロジスティック回帰分析とコンジョイント分析による評価一 有馬昌宏
王源
2018 標準化死亡比(SMR)の地域差の考察:オープンデータを活用したベイズモデルによる空間分析 竹村俊男
新谷彩夏、古勝大智、上田篤志
2018 SASを用いた吉本新喜劇(本公演)の現状分析 坂部裕美子
2018 CAUSALTRTプロシジャによる因果効果の推定―企業の労働生産性に対する人材活用施策の効果― 小林員弘
2018 個人情報保護とプログラミング~匿名化プロセスのセミオートメーション化~ 宮澤昇吾
竹内雅子、北西由武
2018 生存時間解析の評価指標に関する最近の展開一RMST(restricted mean survival time)を理解する一 長谷川貴大
田中慎―/棚瀬貴紀/若菜明/淀康秀
飯森孝行、鵜飼裕之、仲川慎太郎、三澤早織
2018 1.生存時間型応答の評価指標 長谷川貴大
仲川慎太郎
2018 2.RMSTの定義と統計的推測 田中慎―
棚瀬貴紀
鵜飼裕之
2018 3.RMSTの必要症例数計算 棚瀬貴紀
田中慎―
飯森孝行
2018 4.RMS下の参照値の見積リ 若菜明
三澤早織
2018 5.RMSTの性能評価シミュレーション 淀康秀
仲川慎太郎
2018 CDISC実装に関するJPMAアンケート結果update(2017年12月実施) 淡路直人
2018 SASの目指すA1/機械学習/深層学習とは!! 小野潔
2018 浜田知久馬先生追悼 岸本淳司
SAS言語を中心として,解析業務担当者・プログラマなのコミュニティを活性化したいです
● ▼ ■ ● ¬ も ̀''Ⅲ 綺tll ヽ ´ ▲ ● ■■ ・ 一■■U ︑ ● ■■■■■■U g や F】 論文集 会場 :東 京大学伊藤国際学術研究 センター 会期 :2018年 8月 8日 (水 )09日 (木 )
● ■ ■ ・ 一■ ■ U ︵■ ■ ■ ■ ■ ■ ● 論文集
SAS、 SASを 構成するプ ロダク ト群は、SAS lnstltute lnc.の 登録商標です。 その他、本論文集に記載されている会社名、製品名は、一般にそれぞれ各社の商標または登録商標です。 本論文集の一部または全部を無断転載する ことは、著作権法上の例外を除き、禁止されています。 本論文集の内容を実際に運用 した結果の影響 については、責任を負いかねます。
目次 生物統計・ 医薬関連 連続量経時データに対する Estimandを 考慮 した臨床試験のデザインとシミュレーション 演題 1】 Estimandの 検討とサンプルサイズシミュレーション 【 3 土居 正明 (京 都大学大学院 横山 雄一、大浦 智紀、高橋 文博、片岡 尚子、兼清 道雄、竹ノ内 一雅、土川 克、中西 豊支、 ) 渡邊 大丞 (日 本製薬工業協会 ) 連続量経時データに対する Estimandを 考慮 した臨床試験のデザインとシミュレーション 演題2】 シミュレーションデータの発生方法とビジュアル化に関するtips 【 4 中西 豊支 (日 本製薬工業協会) 土川 克 (日 本製薬工業協会)、 土居 正明 (京 都大学大学院)、 竹ノ内 一雅、横山 雄 ―、大浦 智紀、高橋 文博、 兼清 道雄、片岡 尚子、渡邊 大丞 (日 本製薬工業協会) 連続量経時データに対する Estimandを 考慮 した臨床試験のデザインとシミュレーション 演題3】 Reference… based imputationの 補完回数の検討 【 5 大浦 智紀 (日 本製薬工業協会) 土居 正明 (京 都大学大学院)、 横山 雄― (日 本製薬工業協会) SASに よる時 間依存 性 ROC曲 線 と C統 計量 6 魚住 龍史(京 都大学大学院) ‖□ 淳 (佐 賀大学大学院)、 矢田 真城 (エ イツーヘルスケア株式会社 )、 篠崎 智大 (東 京大学大学院)、 り 浜田 知久馬 (元 東京理科大学) r 0 2 スパ ー スな 線 型 回 帰 モ デル に対 す る ベ イズ推 論 矢田 真城 (エ イツーヘルスケア株式会社) 浜田 知久馬 (元 東京理科大学) 7 ︐ 3 MCMCプ ロシ ジ ャによる コンパ ー トメン トモ デ ル を用 い た母 集 団 薬 物 動 態 解 析 矢田 真城 (エ イツーヘルスケア株式会社) 魚住 龍史 (京 都大学大学院)、 浜田 知久馬 (元 東京理科大学) ポリコリック相関係数とスピアマンの順位相関係数のシミュレーションによる比較 小松 邦岳(株 式会社アスクレッ:カ ‑51 離 散 型 反 応 の 経 時 デ ー タ解 析 に お け る一 般 化 推 定 方 程 式 (GEE)及 び ベ イ ズ流 解 析 の 検 討 ‑61 栃澤 欣之 (大 塚製薬株式会社) 角元 慶二 へ﹀ 7 SASに よる競 合 リス クを伴 う生 存 時 間 解 析 の理 解 魚住 龍史 (京 都大学大学院) 浜田 知久馬 (元 東京理科大学) ︱ ´ 9 競 合 リスクが 存 在 す る下 で の生 存 時 間 分 布 の検 定 法 の 性 能 評 価 今泉 敦 (東 京理科大学大学院) 魚住 龍史 (京 都大学大学院)、 浜田 知久馬 (元 東京理科大学) SASに よる が ん 第 I相 試 験 にお け る 区 間 に基 づ く用 量 探 索 デ ザ イ ンの 実 装 の 試 み 北川 忠行 (武 田薬品工業株式会社) 角野 修司、笹丼 清史 ‑105
Si?E+F6ffitFl-dr116RPSFT(Rank Preserving StructuraI Failure Time) E/,t/l;d6 解析の SASプ ログラム紹介 菊池 宏和/高 橋 伸平 (シ ミック株式会社 119 ) 山下 拓人 (ブ ライトパス・ バイオ株式会社) 地 域 医療 ネットワー クの可視化 とMR活 動 へ の活用 武藤 猛(MarkeTech Consulting) 120 SGPLOTプ ロシジャによる抗 がん剤 領 域 で用 いるグ ラフ作 成 の事例 129 川原田 貴広 (日 本メディア株式会社) CDiSC Dataset‐ XMLの SASに よる作 成 130 関根 暁史(藤 本製薬株式会社) DDE及 び VBAを 利 用 した SDRGの 一 部 自動化 につ いて 藤原 由(株 式会社タクミインフォメーションテクノロジー) 131 治験 におけるメタデ ー タ管理 中尾 親彰(シ ミック株式会社) 132 PROC STREAMを 用 いた Analysis Data Reviewers Guideの 効率的な作 成 方法の提 案 ‑133 山崎 文寛(武 田薬品工業株式会社) SAS XML Mapperを 用 いた define.xmt内 の メタ情 報 に基 づ く帳票 作 成 154 山本 繁 (大 日本住友製薬株式会社) 林 三男 PPK解 析 にお け る %PKCONVRTの 使 用 事 例 逆丼 佑来 (エ イツーヘルスケア株式会社) 川崎 勝己、水畑 淳之介、新城 博子 155 被験 者 レベ ル の フォーマットを利 用 する 三木 悠吾(FMD K&L Japan株 式会社) 156 生物統計・ 医薬関連 チュー トリアル 「新版 実用 SAS生 物統計ハンドブック [SAS09.4/R3.2.0対 応 ]」 の紹介 とSASC OnDemand for Academicsで のハンズオンセミナー 159 土屋 裕章 (臨 床評価研究会/ヤ ンセンフアーマ株式会社) 小松 邦岳 (臨 床評価研究会/株 式会社アスクレップ)、 小川 直之 (臨 床評価研究会/株 式会社三和化学研究所 )、 江森 健人 (臨 床評価研究会/EAフ アーマ株式会社) SASシ ステム NLMiXEDプ ロシジヤによるスパ ー ス推 定 163 伊庭 克拓(大 塚製薬株式会社 ) 日本 にお け る SASグ リッド・ コン ピュー ティング 環 境 へ の 移 行 事 例 筒丼 杏奈 (ア ストラゼネカ株式会社 小澤 康彦 ) 175
DOSUBL関 数内で生成したビューをハッシュオブジェクトに格納することにより PROC DS2の ハ ッシュパッケー ジの 挙動 を擬似 的 に再 現 する方 法 森岡 裕(イ ーピーエス株式会社) 185 ods rtf+proc reportに お ける解 析 帳票 の 日本 語 /英 数字 フォン トの 明示的制御 ‑193 麻生 美由紀(イ ーピーエス株式会社) 0 0 2 PROC ODSTABLEを 用 いた 帳 票 作 成 山野辺 浩己(イ ーピーエス株式会社) 9 0 2 PK速 報 解 析 の レポ ー トシス テ ム の 構 築 吹谷 芳博 (あ すか製薬株式会社) 藤澤 正樹 SAS/ACCESS for Relational Databaseに おける失敗 しな いための 設計・ 開発 ポイント ー216 吉野 祥(株 式会社クレスコ) ∩︶ 3 2 バージョン管理 システムを利用 して SASプ ログラムを管理する上での問題と その対処方法について 川上 貴弘 (ジ ーリンクシステムコンサルティング株式会社 ) 一 ら︶ 4 2 SAS Programming Tips:CD:SC編 松沢 享 (株 式会社インターサイエンティフィックリサーチ) 6︶ 4 2 Pythonに よるSASデ ータハンドリング 中嶋 優― (ノ バルティスフアデマ株式会社) ,羹 / 一 4 2 折れ線グラフの出力を工夫する 丼 友紀 (エ イツーヘルスケア株式会社) SASで 始めようCentral Statistical Monitoring 一JMP Cunicalを お手本にしたスタータープログラムの提案― 251 森田 祐介 (杏 林製薬株式会社) 品 質 管 理 を 目的 と した CDiSC成 果 物 情 報 の一 元 管 理 の た め の 技 術 的 考 察 山崎 彰子 (株 式会社日本科学技術研修所) 長谷 和彦 264 SAS Viya 0) CNN EiEH t/lc Process lnnovation 〜 機 械 は解 析 図 表 を どう見 て い る の か 〜 木□ 亮 (塩 野義製薬株式会社) 平野 勝也、北西 由武 267 SAS Viyaに よる意識改革からみえた Data Scientistの 生き方 〜 僕 た ち はどう生 き る か 〜 木□ 亮 (塩 野義製薬株式会社) 北西 由武 282
生物統計・ 医薬関連 SASシ ステム 人工知能 O Al 品質 管理を目的 とした ,CDISC自 動 マッピングシステムの 開発 と検 討 (Naive Bayes Ctass雨 erと 形態素解析 器を用いた機械学習 による自動マッピング機能の検討 )‑285 横丼 章泰(株 式会社日本科学技術研修所) 長谷 和彦、森田 康司、下田 泰士、高岡 和子、小泉 早織 CAUSALTRTプ ロシジャを用 いた 傾 向 スコア解析 につ いて 289 中尾 浩子(イ ーピーエス株式会社) 用 量 反 応 実 験 で の 各 種 統 計 モ デ ル に対 す る尤 度 比 検 定 の 適 用 高橋 行雄 (BioStat研 究所株式会社) 半田 淳 297 SCAD罰 則 による ス パ ー ス推 定 法 の 実 装 307 勘場 大 (塩 野義製薬株式会社) 性高 裕一、都地 昭夫 金融 0経 済・ 経営関連 自治体の外国人向け観光紹介ページ開設の現状と課題 ―ロジスティック回帰分析とコンジョイント分析による評価一 311 有馬 昌宏 (兵 庫県立大学) 王 源 (は るやま商事株式会社) 標 準化死亡比 (SMR)の 地域差 の 考 察 オ ープンデ ー タを活 用 したベ イズ モ デル による空 間分 析 竹村 俊男(株 式会社分析屋) 新谷 彩夏、古勝 大智、上田 篤志 : 323 7 2 3 SASを 用 いた吉 本 新 喜劇 (本 公 演 )の 現状分析 坂部 裕美子(公 益財団法人 統計情報研究開発センター) / 3 3 CAUSALTRTプ ロシジャによる因果 効 果 の推定 ― 企 業の労働 生 産 性 に対 する人 材 活 用施策 の効果 ― 小林 員弘(株 式会社日経リサーチ) 個 人 情 報 保 護 とプ ログ ラミング 〜 匿 名 化 プ ロセ ス の セ ミオ ー トメー シ ョン 化 〜 宮澤 昇吾(塩 野義製薬株式会社 竹内 雅子、北西 由武 ) 338
企画 セ ッシ ョン RMST〉 〈 5 5 3 生存時間解析の評価指標に関する最近 の展開 一 Mκ T(restricted mean survival time)を 理解する一 長谷川 貴大/田 中 慎―/棚 瀬 貴紀/若 菜 明 /淀 康秀 (日 本製薬工業協会 ) 飯森 孝行、鵜飼 裕之、仲川 慎太郎、三澤 早織 6 5 3 1.生 存 時 間 型 応 答 の 評 価 指 標 長谷川 貴大 (塩 野義製薬株式会社) 仲川 慎太郎 (中 外製薬株式会社) 8 6 3 2.RMSTの 定義 と統 計 的推測 田中 慎―(日 本新薬株式会社) 棚瀬 貴紀 (大 ll島 薬品工業株式会社)、 鵜飼 裕之 (日 本ベーリンガーインゲルハイム株式会社) 5 8 3 3.RMSTの 必 要 症 例 数計算 棚瀬 貴紀(大 鵬薬品工業株式会社) 田中 慎― (日 本新薬株式会社)、 飯森 孝行 (杏 林製薬株式会社) 5 0 4 4.RMS下 の 参 照 値 の 見 積 リ 若菜 明 (MSD株 式会社) 三澤 早織 (日 本化薬株式会社) 3 1 4 5.RMSTの 性 能 評 価 シミュレー ション 淀 康秀 (大 日本住友製薬株式会社 仲川 慎太郎 (中 外製薬株式会社) ) CDISC〉 〈 CD:SC実 装に関する 」PMAア ンケート結果 update(201フ 年 12月 実施) 428 淡路 直人 (日 本製薬工業協会) CDiSC実 装 に関 す る 」PMAア ンケ ー ト結 果 update(2017年 12月 実施 )発 表資料 ‑429 淡路 直人(日 本製薬工業協会) (チ ュートリアル〉 SASの 目指す A1/機 械学習/深層学習とは 441 !! 小野 潔 (株 式会社インテック) SASの 目指 す A:/機 械 学習 /深 層学 習 とは‖発表 資料 442 小野 潔(株 式会社インテック) 浜 田知久 馬先 生追 悼 岸本 淳司(九 州大学) 479
3 intellirn 高齢世帯のポジティブな消費傾向の分析 505 512 付録 SASが そうさせ た 517 523 平成 30年 度税制改正による所得再分配効果の定量的評価 録 (寸 カ ― B:SAS/ 3 MOUNTAINS 共働き世帯と片働き世帯の収入 。支出動向の比較〜子供の数と妻の働き方を考慮した分析〜 0︶ 9一 r 0 付録 536 東 京商エ リサ ー チ 投資を行う世帯にみられる傾向 541 付録 547 カテゴリー C:豊 crew 全国消費実態調査 の擬似ミクロデータから学菫・未就学児のいる母子家庭の消費傾 向を探る 付録 中央大学 0 独居高齢者の生活実態からみる社会とのつながりの把握 付録 559 553 565 '4
一 .
連続量経時デー タに対す るEstimandを 考慮 した臨床試験 のデザインとシ ミュレーシ ョン 演題 1】 Estimmdの 検討 とサ ンプルサイ ズシ ミュレーシ ョン 【 2),片 2),兼 ○土居正明1),横 山雄 ̲2),大 浦智紀 2),高 橋文博 岡尚子 清道雄 2), 2),土 2),中 西豊支 2),渡 2) 川克 邊大丞 竹 ノ内一雅 1)京 都大学大学院 医学研 究科 社会健康 医学 系専攻 医療統計学 2)日 本製薬 工 業協会 医薬品評価委員会 DS部 会 TF4 Estimand検 討 チ ーム 2017年 9月 にICH E9(Rl)の stcp 2文 書 が公 開 され ,臨 床試験 の 計画段階 で適切 に estimandを 設 定 した上で試 験デ ザイ ンを検討 す ることに一 層注 目が集 ま ってい る.特 に,estimandの 構成要素 であ る 「関心 の あ る科学的疑 間を反 映す るために,中 間事象 を どの よ うに考慮す るか」を変更す る こ と に よ り,デ ー タの取得方法や サ ンプル サイ ズ等 を含 めた試験デ ザイ ンが大 き く変 更 され るこ とが想 定 され る . 本発表 では , うつ 病患者 に対す る,HAM― Dス コアのベ ー ス ライ ンか らの 変化 量 を主要評価 項 目 とす る架空 の 第 Ш 相試験 を例 に ,こ れまで比較 的 よ く用 い られ ていた試験デザイ ンお よび解析 方法 に対 して ,中 間事象 の取 り扱 い に着 目し, estimandを 変更 した場合 に どの程 度 サ ンプル サイ ズが 変化す るか ,を シ ミュ レー シ ョンによ り検討す る。なお ,サ ンプル サイ ズ に基 づ いてestimandを 決 定す ることを推 奨 してい るわ けではない点には注意 が必 要であ る . う︑︶
連続量経時データに対す るEstimandを 考慮 した臨床試験 のデザイ ン とシミュレーション 【 演題2】 シミュレーションデー タの発生方法 とビジュアル化 に関するtips ○中西豊支 1),土 川克 1),土 居 正 明2),竹 ノ内一雅 1),横 山雄 ‑1), 大浦智紀 1),高 橋文博 1),兼 清道雄 1),片 岡尚子 1),渡 邊大丞 1) 1)日 本製薬 工 業協会 医薬 品評価 委員会 DS部 会 TF4 Estimand検 討チ ー ム) 2)京 都 大学大学院 医学研 究科 社会健康 医学系専攻 医療統計学 応答変 数 が経 時的に測 定 され る臨床試 験 にお いて,中 間事象 の発現 は避 け られ な い こ とも多 い。 計画時 に試 験及び薬剤 の 特徴 を提 えた シ ミュ レーシ ョンデー タを発生 させ ,目 的に合 わせ た検討 を 行 い,臨 床 担 当者 と共 有す る こ とは重要 で あ る.本 発表 では ,中 間事象 を考慮 した シ ミュ レー シ ョ ンデ ー タ の発生方法 (特 に,中 間事象発現後 のデ ー タを収集 す る場合 )と 結果 の ビジュアル 化 の一 例 を示す . 4
連続量経時デー タに対するEstimandを 考慮 した臨床試験 のデザイ ンとシ ミュレーシ ョン 演燿郵】Retrcncc― bascd imputationの 【 補完回数 の検討 ○大浦智紀 1),土 居 正 明2),横 山雄 ‑1) 1)日 本製薬 工業協会 医薬 品評価委員会 DS部 会 TF4 Estimand検 討 チ ー ム 2)京 都大学大学院 医学研究科 社会健康医学系 専攻 医療統計学 ICH E9(Rl)Stcp2文 書にお い て 、 中間事象 へ の 対応方法 の一つ と して、仮想 ス トラテ ジーが示 さ れ てい る。例 えば 、割付 けられた治療 に加 えて 、倫理的な配慮 か ら レス キ ュー 治療 が行 われ る場合 に 、仮 に レス キ ュー 治療 を行わなか っ た場合 とい う仮想 的な状況 の 治療効果 に興 味がある場合 のス トラテ ジー とな る。本発表 では 中間事象 (レ ス キ ュー 治療開始 )後 の評価項 目の推移 につい ての仮 定 に注 目した方 法 として、多重補完 に基 づ く解析 につい て検討 した。 レス キ ュー 治療 が行 われ なか っ た場合 の治療効果 の推移 は、割付 け られた治療 の 終 了後に速や か に消失 し、参 照群 (プ ラセボ群 ) と同様 の推移 とな る と仮定 した。 これ に対す る補完 の 手法 の うち ,逐 次的に補完 モ デル を構 築 し てい く方法に Jump to retrence‐ like(J2R― like)が あ る 。解析方法 を事 前 に検討す る状況 を想定 し、二 つ の シナ リオにつ いてシ ミュ レー シ ョンを行 い 、補完 回数が推定値 や検定結果 に与 える影 響 を評価 した 。 5
SASに よる時 間依存性ROC曲 線 とC統 計量 1 ○魚住 龍 史 1京 2ェ 矢 田 真城 2 篠崎 智大 3 川 口 淳 4 浜 田 知久馬 5,† 都大学大学院 医学研究科 医学統計生物情報学 ィ ッ ̲ヘ ルスケア株 式会社 デー タサイ エ ンス本部 生物統計 第 1部 3東 4佐 京大学大学院医学研究科 生物統計学分野 賀大学大学院 医学研究科 生物統 計学 。生物 情報学分野 5元 東京理科 大学 Time-dependent ROC curves and concordance statistics using SAS RyuJi Uozumil,Shi刊 o Yada2,Tomohiro shinozaH3,Atsushi Kawaguchi4,and chikuma Hainada5,│ lDψ α″′ ′ι sプ ヶ G″ あ α ′ θ■ 力οο′げ ν″ た′ お′ たSα ″∂Bブ ο″ノ ら′ ″α′ 茨環Ъκッο′ οじ″ッθκ ″ι″′グ Bわ ″θ″たαJ S′ α′ 23ゎ S′ αノ お′ たSDo,α ″ ′ ″ ″′I,Dα ″ SCた 0″ ,И 2〃 Oα ′ ″εα″ COψ Orα ″0′ aDル おブ 3D"α ″′ θκ′ Sjク qfz♭ た ι■ 力00′ Q√ Mθ グた′ ″ι,動 θじ″ツθκ お万CS,Gス αttα ′ ッ0 ぽ BブOSlク ′ 4cι ツθ浴ブ ″た′ノ♭′CO燿″″力ι″Sブ ツι CO″ ″ツ′″ンMθ″ι″θ,Fα θ ソげ 九4貿力 ″θ,Sagα し″ブ ケ 57♭ "″ ″ ο ″げ■19″ (ル ′ ″ι οじ″ツ た ノ り ̀S′ ̀ι ̀ブ 要旨 ROC曲 線 は,縦 軸 に感 度 ,横 軸 に (1‑特 異度 )を 描 い た グ ラ フで あ り,そ の 曲線 下面積 (C統 計 量 )と 合 わ せ て ,陽 性 ・ 陰性 を与 え る検査 の精度 だ けで な く 2値 ア ウ トカ ムの予測性能 評価 に用 い られ る .SASで は LOGISTICプ ロシ ジ ャ を用 いて ROC曲 線 の描 出 と C統 計 量 の 算 出 が可能 で あ る。生存 時間ア ウ トカ ムの予測 性 能評 価 には,時 点 ご とのイ ベ ン トに対す る感 度 と特異度 か ら定義 され る時 間依 存性 ROC曲 線 お よび C統 , 計 量 が よ く用 い られ る。SAS/STAT 14.2(SAS 94 TSlM4)以 降 ,PHREGプ ロシ ジ ャにお い て も,PROC PHREG ス テー トメ ン トの PLOTS=ROCオ プ シ ョンか ら時間依 存性 ROC曲 線 お よび 2種 類 の C統 計 量 を算 出 できる よ うに な った。本稿 で は ,時 間依存性 ROC曲 線 お よび C統 計 量 を得 るため の PHREGプ ロシジ ャ実行方法 に 関 して 報 告 を行 う。 時 間依 存性 ROC曲 線 キ ー ワー ド :生 存 時 間 解 析 比例 ハ ザ ー ドモ デ ル 時 間 依 存性 AUC Harrellの C統 計 量 Unoの C統 計 量 overall― C C― indcx LOGISTIC PHREG ROC AUC CONCORDANCE 予 測 モ デル ROCOPT10NS 1zon+t2E2rFfr* 6 予測 性 能
1 は じめに 検 査 は疾患 の判断や 予 後 の 予測な ど様 々 な臨床判断 に利 用 され る。 あ る疾 患 に罹 患 してい るか ど うか を検 査 に よ り判 断す る状 況 を考 え る と,真 の 疾 患 の状態 と検 査結 果 の組 み合 わせ は以 下 の通 り分類 され る ● 疾 患 あ りで検 査 結果 が 陽性 :真 陽性 ● 疾 患な しで検 査 結 果 が 陽性 :偽 陽性 ● 疾 患 な しで検 査 結 果 が 陰性 :真 陰性 ● 疾 患 あ りで検 査 結 果 が 陰性 :偽 陰性 . 疾 患 を もつ 症例 に対 して 検 査 で 陽性 とな る確 率 を感度 (scnsitivlty),疾 患 を もた な い 症例 に対 して 検 査 で 陰性 とな る確 率 を特異度 (spcclcity)と 呼ぶ .こ の とき,縦 軸 に感 度 ,横 軸 に (1‑特 異度 )と して ,ROC(reccivcr .ROC曲 線 は ,連 続 変数 で あ る因子 を 2値 化 す る場合 opcrating characteristic)曲 線 を描 くこ とが可 能 で あ る , 連 続 変数 のカ ッ トオ フ値 を変動 させ る こ とで ,感 度 と特異度 の す べ ての組 み合 わせ を求 めて描 かれ るプ ロ ッ トで あ る.さ らに,ROC曲 線 下面積 で あ る AUC(arca mdcrthc cuⅣ e)は C統 計量 (COnCOrdanCC SttiStiCS, concordallcc index,Cindcx)と 呼ばれ ,0.5か ら 1.0の 値 を とる指 標 で あ り,C統 計 量 が大 きいほ ど ロジス テ ィ ックモ デ ル の予測性能 が 良 い こ とを示す .ROC曲 線お よび C統 計 量 は予測性 能 。診 断性 能 の指標 と して よ く 用 い られ る。例 えば ,著 者 の一 人が参画 した 臨床研究では,連 続 デ ー タのカ ッ トオ フ値 の設定 に ROC曲 線 を 用 い て い る αao ct al.,2018).ROC曲 線 の 描 出 と C統 計量 の 算 出 は ,SASの LOGISTICプ ロシジ ャで実施 で き る (古 川 ・杉本 ,2009;浜 田,2014). 2値 ア ウ トカムの場合 と同様 に,生 存 時 間 ア ウ トカ ムの場合 も ROC曲 線 の よ うな予測性能 の 指標 が求 め ら れ て い る.生 存 時間ア ウ トカ ムの場合 ,時 間依 存性 ROC曲 線 が提 唱 され て い る (Heagcrty ct al.,2000).時 間 依存 性 ROC曲 線 は ,時 点 ご とに算 出 した感 度 お よび特異度 を用 い て ROC曲 線 を描 い てい る。時間依 存性 ROC 曲線 の AUCか ら C統 計 量 を構成す るこ とも可能 であ り,各 時 点 まで の比 例 ハ ザ ー ドモ デ ル の予測性 能 を測 る尺 度 で あ る とい える。 これ まで の SASユ ー ザ ー 総会 におい て も,時 間依 存性 ROC曲 線 に関す る報 告 が行 われ たが (徳 田 。伊藤 ,2006),時 間依存性 ROC曲 線 をサ ポー トす るプ ロシジ ャあ る い は SASマ ク ロが提 供 さ れ て い な か ったため,SASで 時 間依存性 ROC曲 線 を描 くため には 自力 でプ ロ グラ ム を構 築 しな けれ ば な らな か つ た .そ のため,時 間依 存 性 ROC曲 線 を用 いた 臨床研 究 にお い て も,SAS以 外 の ソフ トウェア で解 析 報告 が行 われ てい る傾 向にあ つた (e.gり Ⅵ n den Wyngaci etal,2017).一 方 ,比 例 ハ ザ ー ドモ デ ル によ る予 測性 能 の指 標 と して ,時 間依存性 ROC曲 線 の よ うな特 定 の時点 まで で は な く,全 観 察 時 間 を通 して予 測性 能 を測 る 尺度 と して も C統 計量 が よ く用 い られ てお り,overa11‑Cと も呼 ばれ て い る (Pencina and D'Agostino,2004;篠 崎 。松 山,2016).Ovcrall‐ Cは ,モ デル か ら予測 され る生存時 間 と,実 際 の生 存 時間 の 大小 関係 が どの程度 ― 致 して い るか を示す指標 で あ り,本 稿 で は ,overall― Cを Harrcllの C統 計 量 あ るい は Unoの C統 計 量 と表記 す る (Harcll ct al,1996;Uno et al.,2011). 近年 ,SAS/STATの PHREGプ ロシジ ャで は ,ほ ぼ毎年機 能拡 張 が行 われ てい る (大 橋 ら,2016;浜 田・魚 住 , 2016;魚 住 ら,2017;浜 田,2017;魚 住 ら,2018).SAS/STAT 142以 降 ,PHREGプ ロシ ジ ャにお いて も,時 間依 存性 ROC分 析 が実行 で き る よ うにな った (SAS Institutc lnc.,2016).時 間依 存性 ROC曲 線 は,PROC PHREG ステ ー トメ ン トにおい て PLOTS=ROCオ プ シ ョンを指定す る と出力 され る。この とき,出 力 した各 時点 にお け る時 間依存性 ROC曲 線 の AUCと して ,C統 計 量 も算 出 され る。そ の一 方 ,Httellの C統 計量や Unoの C 統計 量 は ,PROC PHREGス テ ー トメン トにお い て CONCORDANCEオ プ シ ョンを指 定す る と算 出 され る。本 稿 で は ,PHREGプ ロシジ ャに よる時間依 存性 ROC曲 線お よび C統 計量 の 実行 方 法 につ いて報告 を行 う。 7
2 SASデ ー タセ ット 本稿 では,原 発 性 胆 汁性 胆管炎 患者 の デ ー タ (デ ー タセ ッ ト名 :Liver)を 用 い る (″ =392).デ ー タセ ッ ト L市 crは ,SAS/STAT PHREGプ ロシ ジ ャ のマ ニ ュアル か ら入 手 可能 であ る。本稿 では,デ ー タセ ッ トLiverの うち,以 下 の変数 を用 い る.な お ,3節 にお いて,ロ ジステ ィ ックモ デル を用 いた説 明 を行 うた め に,5年 時 点 で リス ク集合 を含 まれ てい るか ど うかでイベ ン トの有 無 を定義 した変数 0■ comcも 用意 して い る . ● Timc:観 察 時 間 (年 ) ● 0■ comc:イ ベ ン ト有 (0■ come=1),イ ベ ン ト無 (0■ COme=1) ● status:,ワ Z‐亡 (Status=1), 才 丁ち切 り (Stams=0) ● Agc:年 齢 ● Bilimbin:ビ リル ビン (mノ dl) ● Edcma:浮 腫 な し 。浮腫 に対す る利 尿剤 な し (Edcma=0),利 尿剤 な しで浮腫 あ り・利 尿剤 に よる浮腫 軽快 あ り (Edema=0.5),利 尿剤 あ りで も浮腫 あ り (Edema=1) 3 ROC曲 線 3。 l ROC曲 線 と LOGISTICプ ロ シ ジ ャ の 概 説 4節 において ,時 間依 存性 ROC曲 線 に関 して説 明す る前 に ,本 節 で は 2値 ア ウ トカ ム に対 す る ROC曲 線 の 復 習 を行 う。 こ こで は ,簡 便 に図 1の デ ー タ (′ =6)を 考 える.図 1で は ,横 軸 に検査値 と ロ ジステ ィ ッ クモ デル に よる予 測確 率 を示 し,疾 患 な しの群 と疾 患 あ りの群 ごとにデ ー タ を *で 表 して い る。ROC曲 線 は ,予 測確率 の 閾イ 直 (図 1で 上矢 印 と して表示 )を 逐 次 的 に変動 させ て計 算 した感度・特異度 か ら構成 され る . 表 1は ,各 閾値 に対 応 す る予測確 率 ,感 度 ,1‑特 異度 の 要約 を示 してい る .例 えば,予 測確 率 の 閾値 を 0.8 と した場合 ,い ずれ の 群 にお いて も閾値 を超 えるこ とは な い ので ,感 度 お よび 1‑特 異度 い ず れ も 0と なる . 次 に,予 測確 率 の 閾値 を 0.7と した場 合 ,疾 患 あ りの群 で は 閾値 以上が 1例 い るため,感 度 は 1/3=033と な るが ,疾 患 な しの群 で は閾値未満 が 3/3=1で あるた め ,1‑特 異度 =0と な る.同 様 の 手順 で ,7通 りの 閾 値 に対 して感度 お よび 1‑特 異度 を計 算す る と,図 2の よ うな ROC曲 線 が描 かれ る . 疾患 な し 疾患 あ り 4 4・ 0 介=u い 今回 ´ 谷=口 0. ︐ 合=日 α 4. ・ 7(0.55)8(0.63)9(0″ 1) 含 0.6 検査 値 (予 測確率 ) 含 ↑ 0.7 0.8 候補 閾値 図 1:サ ンプル デ ー タ (″ =6) 図 2の ROC曲 線 下面積 であ る AUCが C統 計量 に相 当 し,ロ ジステ ィ ックモ デル の予測性 能 を測 る尺度 と な る.図 1の デ ー タで は,AUC=0.67と な る。理想 的 な モ デ ル として は ,感 度 が 1,1‑特 異 度 が 0と な る閾 値 を有す るもの で あ り,こ れ に近 い ほ ど良いモ デ ル で あ る こ とを示す 。 8
表 1:サ ンプル デ ー タにお け る各 閾値 の予 測確 率 と感 度 ・ 特異度 閾値 疾 患 あ り群 疾 患 な し群 疾 患 な し群 で 疾 患 あ り群 で 閾値以上 で 閾値未満 閾値 以 上 で閾値 未 満 感度 1‑特 異度 0.8 0 0 0.7 0.33333 0 0.6 0.33333 0.33333 0.5 0.66667 0.33333 0.4 0.66667 0.66667 0.3 1 0.66667 0.2 1 1 感度 7 6 0 3 3 0 0 0.33 0.67 1 1‑特 異度 図 2:サ ンプル デ ー タか ら作成 され る ROC曲 線 ROC曲 線 の AUCは ,Mttn― Whitney検 定 と密 接 な関係 が あ る こ とが知 られ てい る (浜 田,2014).各 群 の個 体 で対比較 を行 うと,表 2の 結 果 が得 られ る.例 えば,疾 患 あ りにお け る検 査値 =9の 個 体 は,予 測確 率 が 0,12で あ るた め ,疾 患 な しの群 にお けるい ずれ の 個体 よ りも予 測確 率 は高 く,3勝 0敗 とな る.同 様 の 考 え 方 で ,疾 患 あ りにお け る検 査 値 =7の 個体 は 2勝 1敗 ,検 査値 =5の 個 体 は 1勝 2敗 とな る。以上 を累計す る と 6勝 3敗 とな り, この勝 率 6/9=0.67が AUCと な る . 表 2:各 群 の個体 の 対比較 疾患な し 疾患あ り 5 7 9 ● ● ○ ● ○ ○ ○ ○ ○ SAS/STATの LOGISTICプ ロ シ ジ ャにお い て ,PLOTS=ROCと オ プ シ ョン指 定 をす れ ば ,ODS に よ る機 能 に よ り,ROC曲 線 を簡 単 に描 く こ とが で き る (ALson,2012). 9 GRAPHICS
3.2 デー タセ ッ トLiverに 対す る ROC曲 線
2節 で紹介 したデ ー タセ ッ トLivcrに 対 して ,SAS/STATの LOGISTICプ ロ シ ジ ヤを用 い て ,ROC分 析 を行
う.目 的変数 を 0■ come,説 明変数 と して Bilimbin,Age,Edcmaの 3変 数 を含 めた ロジステ ィ ックモデル に
基 づ き,ROC曲 線 を描 いて み る
.
図 3は ,SASプ ロ グラムお よび そ の 出力結果 を一 部 ま とめて い る。PROC LOGISTICス テ ー トメン トで
PLOTS=ROCを 指 定すれば ,ODS G鮨ぜ HICSに よ る機 能 に よ り,ROC曲 線 を簡 単 に描 く こ とがで きる
MODELス テ ー トメ ン トでは,OUTROC=オ プ シ ョンを指 定 し,表 1で 示 した よ うな予測確 率 ,感 度 ,1‑特
.
異 度 が格納 され たデ ー タセ ッ トを出力 してい る.た だ し,予 測確 率 と一致 した 閾値 が示 され るので ,感 度 ・
特 異度 の値 に は注意 が必要で ,閾 値 ご とに感度・特 異度 を出力す る場合 ,MODELス テー トメ ン トの CTABLE
オ プ シ ョンで 出力 され る分割表 (図 3の SASプ ロ グ ラ ム を実行す る と,デ ー タセ ッ トCTABLE00と して出力 )
が 有用 で あ る .図 3の 左 下には ,ROC曲 線 の 出力 が示 され てお り,曲 線 下面積 =0.7328と 示 され てい る.図
3の 右 下には ,c=0.733と C統 計 量 が示 され てお り,曲 線 下面積 と値 が一致 してい る こ とが わか る.な お
,
デ ー タセ ッ トLivcrは ,392名 の うち C統 計量 の 出力 と して ,イ ベ ン ト有 が 209名 ,イ ベ ン ト無 が 183名 で
あ るため ,209× 183=38247の 組 み合 わせ で対 比較 を行 った こ とがわか る .そ の うち ,73.3%の デ ー タが予
測確 率 の 大小 と応 答 が 一致 してお り,残 りの 26.7%が 不 一 致 ,予 測確 率 の タイ は 0%で あ つた
.
なお ,図 3で 示 した SASプ ロ グ ラ ム に加 えて ,ROCス テ ー トメ ン トを指 定す れ ば,MODELス テー トメ ン
詳細 は,4節 の 時 間依存性 ROC
トで指定 した説 明変数 を減 ら した場 合 の ROC曲 線 お よび AUCを 確認 で き る。
曲線 として説 明す る。 さらに ,ROCCONTRASTス テ ー トメン トを指 定すれ ば ,モ デル 間 の AUCに 差 が あ る
か対比検 定 を行 うことができ る (浜 田,2014).
4節 以降で は ,生 存時間 ア ウ トカ ムの 場合 につ い て ,ROC曲 線や C統 計 量 を SASで どの よ うに出力 させ る
か考 える
.
°ー
SASプ ロ グラ ム ̲
.
‐
.
‐
‐‐
・
││ ││││ .││
│.│
,=轟 論機
ods graphics on; ods output Cfassification=ct.ableOO;
proc logistic data:Liver plots (only):roc;
model Outcome(event:r'1")=Bilirubin Aqe Edema / outroc=outrocOO ctab]e;
runi
蛹
│′
驚 ‐.:■ ‐■ ‐
t
│■
モデルに対するROC曲 線
予測確率 と観 測 デ ー タの応答 との関連性
一 致 の割合
73.3
Somers O D
不 一 致 の割合
26.7
)J
タイ の割合
0.0
Tau-a
0.232
c
0.733
組
38247
SpeciScに V
図 3:デ ー タセ ッ トLivcrに 対す る ROC分 析
10
>'"
0.466
0.466
│
4 時間依存性 ROC曲 線 本節 では ,3節 で示 した ROC曲 線 を,右 側 打 ち切 りの生存時 間デ ー タに拡張 した ,時 間依存性 ROC曲 線 に関 して ,SASに よる実行方 法 を報 告す る.SAS/STAT 142以 降 ,PHREGプ ロシ ジ ャにお いて も,時 間依 存 性 ROC分 析 が実行 で きるよ うにな った (SAS Instimc lnc.,2016).LOGISTICプ ロシ ジ ャで ROC曲 線 を描 い た よ うに,時 間依 存性 ROC曲 線 に 関 して も,PROC PHREGス テー トメ ン トの PLOTS=ROCオ プ シ ョンを指 定すれ ば出力 で き る.SASに よる時 間依存性 ROC曲 線 では,時 点 ご とに ROC曲 線 が 描 かれ るが ,こ れ は特 定 の 時点 までのイ ベ ン ト発生 の 累積 情報 に基 づ き感 度 お よび特 異 度 が 算 出 して ,ROC曲 線 を描 出 して い る . 同時 に ,時 間依 存性 ROC曲 線 の AUC(C統 計 量 )も 算 出 され るが ,5節 で説明す る Harrcllの C統 計量 ,Uno の C統 計量 とは異 な ることに留 意 され たい。本節 にお いて は,SASの 出力結果 に合 わせ て ,C統 計 量 で な く AUCと 示す こ ととす る . 4.1 時間依存性 ROC曲 線 を構成する感度および特異度 生存時間ア ウ トカムに対す る Coxの 比例ハ ザー ドモデルによる予測 を行 う場合 を考 える。ここで,rを イ ベ ン ト発現まで の時間を表す変数 ,β をパ ラメー タベ ク トル ,共 変 量 ベ ク トル を Z,線 形予測子 βTZを 予 測 に用いる連続変数 ,あ る時点 rに おいて Dι =I(7≦ ι )と 2値 のア ウ トカムを定義す る.た だ し,I(・ )は ・ であれば 1,そ れ以外は 0を とる指示変数 である。 さらに,β TZの 定義域における閾値 を cと す る と,時 点 ′における感度 SQ(c)と 特異度 S′ ι (c)は それぞれ : Sθ 。(C)=Pr(β TZ>̀ID.=1) TZ≦ σ 特異度 : Sρ (1) 感度 l襲 =o) (2) ̀(c)=Pr(β と表 す こ とがで き る。 この とき ,時 点 ノにお け る ROC曲 線 を ROCt(2)=Sθ ι[1‑Sp「 1(2)] とす る と,AUCに 関 して も AUCt=∫ ROC。 (2)α と して計 算可能 で あ る。 時 間依存性 ROC曲 線 を構成す るた めには,時 点 ′にお ける感度 お よび特 異度 を推 定 しなけれ ばな らな い . PHRECプ ロ シジ ャでは,時 点 ′にお け る感度 お よび特 異度 の推 定方 法 と して,4つ の 方 法 がサポー トされ て いる . 1)条 件付 き Kaplan‐ Mcier法 2)最 近傍 (ncarcst ncighbors)法 3)再 帰 的 (recwsive)法 4) IPCW(inverse probability Of ccnsOnng wcighting)法 Rプ ロ グラ ム に 関す る素養 が あ るユ ー ザ ー で あれ ば ,Rの パ ッケ ー ジ ̀̀suMvalROC'' を用 いて ,条 件 付 Mcicr法 お よび最近傍 法 を実行 可能 であ る。 この よ うな背 景 か らも,条 件 付 き K"lan― Mcicr法 と最 き K叩 1狙 ‐ 近傍 法が よ く用 い られ てい る。 ま た ,Rの パ ッケ ー ジ timeROC'' は IPCW法 が対応 してい る こ こで ,式 (1),(2)は ,ベ イ ズ の 定理 よ り , 7z>ε : %ι (σ )=(1‑S(ι β TZ≦ σ ι 特 異 度 : Sρ 感度 l .(c)=頭 l β )〕 )Pr(β Pr(β Tz>C)/(1‑S(ι )〕 TZ≦ C)/S(t) 11 .
TZ≦ ε で条件付 と表す こ とが で き る (Heagcrty ct al.,2000).条 件付 き K"lan― Meier法 は ,β 7Z>ε お よび β けた Kω lm‐ Mcier推 定量 (Kttlan and Meier,1958)を 用 いて推 定す る方 法 で あ る。PROC PHREGス テー トメ ン トにお け る ROCOPTIONで METHOD=KMを 指 定す る と実行 され る。 しか し,条 件付 き K叩 lm‐ Mcicr法 で推定 した感 度 お よび特異度 は ,範 囲 [0,1]を はみ だ して しま うこ とが あ る . これ に対 して ,(c,′ )の 2変 量 分布 の最近傍 推 定量 (Al tas,1994)を 時間依存性 の感 度 お よび特 異度 の推 定 (Heage■ y etaL 2000).PROC PHREGス に用いた方 法 が最近傍法で あ る テ ー トメ ン トにお け る ROCOPT10N で METHOD=NNEを 指定す る と実行 され る。生存 関数 の推 定値 は ,バ ン ド幅 に よ って 定義 され るカー ネ ル 関数 を用 い た重 み付 き Kaplan― Meier推 定値 で構成 され る。METHOD=NNEの オ プ シ ョン と して ,バ ン ド幅 の指定 (SPAN=)も 可能 で あ り,デ フォル トは SPAN=0.05で あ る。最近傍方法 で推 定 した感 度 お よび特異 度 は,範 囲 [0,1]内 の値 を とる .一 方 ,短 所 と して ,カ ー ネ ル 関数 に よる平滑化推 定 を行 うこ とか ら,複 雑 であるこ とが挙 げ られ る . 再帰 的法 は ,各 イ ベ ン ト時 間 にお ける リス ク集 合 の 大 き さを用 い て ,再 帰的計算 に よ り推 定す る方法で あ り,K叩 lm― Meicr法 に類似 した推 定値 が得 られ る (Chamblcss and Diao,2006).PHREGス テ ー トメ ン トにお け る ROCOPTIONで METHOD=RECURSIVEを 指 定す る と実行 され る。 本方法で推 定 した感 度 は範 囲 [0,1]内 の値 を とるが ,特 異度 は範 囲 [0,1]を はみ だ して しま うこ とが あ る . IPCW法 は ,打 ち切 り分布 の Kaplan― Meier推 定量 の逆数 を用 い て ,感 度 お よび特異度 を計算す る方法 で あ る (Uno et al,.2007).打 ち切 り分布 が生存時 間 7と 独 立で あ る と仮 定 して , 7z>c)〕 Pr(β 7z>C)/〔 1‑S(3)〕 感度 : Sθ t(ι )=〔 1‑S(ι β rz≦ C)/S(ι 特異度 :率 Kε )=S(ι β7z≦ ε ) )Pr(β l l と表す こ とが で きる.PHREGス テ ー トメ ン トにお ける ROCOPT10Nで METHOD=IPCWを 指 定す る と実行 され る方 法 で あ り,感 度 お よび特 異度 は範 囲 [0,1]内 の値 を とる なお ,以 上 の 時 間依 存 性 . ROC曲 線 の 作成 は ,累 積感 度 (cumuhivc scnsitivity)と 動 的 特 異度 (dynamiC specincity)を 用 いて描 いて い る。す なわち,式 (1),(2)で 条件 付 けて い る Dι =r(7≦ ι )よ り,時 点 ′よ り 前 に発 生 したす べ てのイ ベ ン ト発 生例 を対象 に感 度 を求 めてい るた め ,「 累積感 度 」とい え る.こ れ に対 して , イベ ン ト発 生感 度 (incidcnt scnsltivity)と 動 的特 異度 に よる方 法 もあ り (Heageゥ and Zhcng,2005),Kamarudin et al.(2017)に よって これ らの 違 いが解説 され てい る . 4.2 デー タセ ットLiverに 対する時間依存性 ROC曲 線 図 4は ,デ ー タセ ッ ト Liverに 対 して ,PHREGプ ロ シ ジ ャで 時 間依 存 性 ROC曲 線 を描 くプ ロ グ ラ ム で あ る.出 力 結 果 を 図 5に 示 して い る.図 4の プ ロ グ ラ ム で は ,比 例 ハ ザ ー ドモ デ ル の 生 存 時 間 を表 す 変 数 を Time, 打 ち切 り変 数 を Status,説 明 変 数 と して Bilimbin,Age,Edemaの 3変 数 を含 め て い る。 PROC PHREGス テ ー トメ ン トにお い て ,PLOTS=ROCを 指 定 す る こ とで ,時 間依 存 性 ROC曲 線 を出力 さ せ て い る .時 間依 存 性 ROC曲 線 の 詳 細 に関 して は ,ROCOPT10NSオ プ シ ョンで 指 定 して い る。METHOD=KM Meicr法 に 基 づ き ,感 度 お よび 特 異 度 を推 定 して い る .AT=(lto 7 by 2)で ,時 点 1,3,5,7 で 条件 付 き Kapl帥 ― にお け る 時 間依 存性 ROC曲 線 を描 くよ うに して い る。な お ,こ の とき注 意 す べ き点 と して ,こ の よ うに複 数 時 点 にお け る時 間依 存 性 ROC曲 線 を出力 させ る場 合 ,デ フ ォ ル トは OVERLAY=BYGROUPに 相当し , SGPANELプ ロ シ ジ ャ を用 い る場 合 の よ うに ,時 点 ご とに パ ネ ル を代 えて 出 力 され る (付 録 A).し か し,パ ネ ル の 構 成 や 縦 軸 ・横 軸 の 設 定 の た めのオ プ シ ョンが 充 実 され て い な い .そ こで ,PLOTS=の オ プ シ ョン と 12
して ,OVERLAY=INDIVIDUALを 指 定 す る こ とで ,各 時 点 の 時 間 依 存 性 ROC曲 線 を別 々 に 出力 して お り , そ の 出力 結果 を ROCPLOT=で ODS OUTPUTに よ る 出 力 を行 っ て い る 図 5に お け る各 時 点 の ROC曲 線 を 見 る と,右 下 に AUCの 値 . (C統 計 量 )も 出力 され て い る .3年 時 点 に お い て AUCは 最 も高 い 値 とな り,7年 時 点 にお い て AUCは 最 も小 さ い 値 とな つ て い る。 す な わ ち ,図 5で 示 した 4つ の 時 点 の うち ,3年 時 点 で は予 測 性 能 が 高 い 比 例 ハ ザ ー ドモ デ ル とな つ て い るが ,7年 時 点 で は若 干 予 測 性 能 が 下 が っ て い る こ とを表 して い る . ods graphics on; ods output RocPI-ot:rocp1ot00; proc phreg data=Liver plots (overlay:individual) : (roc) rocoptions(method=km at=(1 to ? by 2) outroc=outroc00); model Time*Status (0)=Silitrrbin Age Edemai run; 図 4:デ ー タセ ッ トLiverに 対す る時 間依 存性 ROC曲 線 作成 プ ログラ ム 1.年 時点 ││ ROC曲 線 at T商 e=1 ROC曲 線 at Time=3 ● モ ●∽ ,0 1‑specincity 1● │● │, ・ 卿 鰤 ROC曲 線 at Time=5 徴OC曲 線 at TIme=7 ¨ い セ の5 0 一 輌 ¨ I ●湧 晒 1‑specinc"y 図 5:ODS I -Specificity GRAPHICSに よ る 時 点 ご との 時 間 依 存 性 ROC曲 線 13 │ ・■
なお ,PHREGプ ロシ ジ ャ の ODS GRAPHICSに よる出力 をそ の まま用 い るの で はな く,カ ス タマ イ ズ を し
た グ ラ フ と して出力 したい場 合 ,PHREGプ ロ シジ ャで出力 させ たデ ー タセ ッ ト OUTROC00を 用 いて
,
SGPLOTプ ロシジ ャや SGPANELプ ロシ ジ ャ で グ ラフ作成 す る の が有用 で あ る (魚 住・浜 田,2011,2012;大 橋
ら,2016).付 録 Bに は SGPANELプ ロシ ジ ャに よる SASプ ロ グ ラ ム ,付 録 Cに は SGPANELプ ロ シ ジ ャで カ
ス タ マ イ ズ した グラフ と して ,対 角線 に比 べ て ROC曲 線 自体 を太 く出力 してお り,PHREGプ ロシ ジ ャのデ
フ ォル トで 出力 され る AUCの 値 を出力せ ず に示 してい る
また ,Rの パ ッケ ー ジ
.
suⅣ ivalROC'' を用 いて,条 件 付 き Kttlan― Mcicr法 に基 づ く時 間依 存性 ROC曲
線 を作 成 す るための Rプ ロ グ ラム を付録 Dに 示 してい る。付録 Dを 実行すれ ば ,PHREGプ ロ シジ ャの 出力
結果 と一致す る ことを確 認 で きる
.
表 3:比 例 ハ ザ ー ドモ デル に よる推 定結果
メー^夕
1標 準誤差
推 定値
│‐
Bilirubin
0.12328
0.01293
90.8449
く.0001
1.131
1.103
1.160
Age
0.03735
0.00831
20.2216
く.0001
1.038
1.021
1.055
Edema
1.41779
0.29758
22.6990
<.0001
4.128
2.304
7.397
ザ ー│ド 比
ド比 つ5%ツ ヽ
│
││ 1信 頼 限界 │
こ こで ,表 3は ,図 4で 指 定 した説 明変 数 が Bllirubin,Age,Edcmaの
3変 数 の 場合 の比例 ハ ザ ー ドモデ ル
に よる推 定結果 を表 してい る.い ずれ の 説 明変数 にお い て も,有 意水準 5%の も とで高度 に有意 とな ってい る
が ,説 明変数 を 3変 数 か ら 2変 数 あ るい は 1変 数 に減 らした場 合 ,時 間依存 性 ROC曲 線お よび AUCが どの
よ うに変化 す るだ ろ うか .図 4の SASプ ロ グラ ム に ROCス テ ー トメ ン トを指 定すれ ば,MODELス テ ー ト
メ ン トで指 定 した説 明変数 を減 らした場 合 の 時間依存性 ROC曲 線 お よび AUCを 確認 で きる
.
proc phreg data=Liver plots (overlay=individual) : lroc)
rocoptions (method=km at= (1) outroc=outroc00) ;
modef Time*Status (0) :Bifirubin Age Edema,'
roc "AgTe" Aqe;
run;
proc phreg data=Liver plots (overlay=individuaf): (roc)
rocoptions (method=km at: (1) outroc=outroc00) ;
model Time*Status (0):Blllrubin Age Edema;
roc "Bilirubin + Edema" Bilirubin Edema;
tun;
図 6:デ ー タセ ッ トLivcrに 対す る時 間依 存性 ROC曲 線 作 成 プ ログラム
図 6は ,1年 時点 の 時 間依存性 ROC曲 線 に関 して ,ROCス テ ー トメ ン トを用 いて ,説 明 変数 が Bilirubin,
Agc,Edcmaの 3変 数 の 場 合 (Modcl),Ageの み の場合 (Agc),BⅢ rubinと Edcmaの 2変 数 の場 合 (Bilhbin+
14
Edema)を 比較 してい る.図 7の 出力結果 で は ,そ れ ぞれ の 出力 で 時 間依存性 ROC曲 線 が 2本 描 かれ てい る . ROCス テ ー トメ ン トは複数 記 述 可能だが ,こ の とき時間依存性 ROC曲 線 が 3本 以 上 出力 され て 見 づ らい た め ,ROCス テ ー トメ ン トは 1行 の指定に留 めて い る.図 7よ り,Agcの み を説 明変数 に含 めた場 合 ,3変 数 の場合 に比 べ て ,1年 時点 の 予測性能が大幅 に低 下す るこ とが わ か る.一 方 ,Bllirubinと Edcmaの 2変 数 の 場合 ,3変 数 の場合 に比 べ て ,時 間依存性 ROC曲 線 はほ とん ど変 化 しなかった .ま た ,AUCの 値 は 0.8454 か ら 0.8675に 改善 され た。 ROC曲 線 at Time=1 ROC i駐 線 at Time=1 r ゴ ̲│ ●1 ■ ゝぢ 場 8 φ ● ︐ i -Spocifidty 1‑s,。 cnctty 図 7:ODS GRAPHICSに よ る 時 点 ご との 時 間 依 存 性 ROC曲 線 ods graphics on; ods output AUCPlot:aucp1ot0o; proc phreg data:Liver plots:auc SASプ ロ グラム rocoptions (method=km outauc=outauc00) ; model Time*Status (0)=Bilirubin Age Edema; run; Time-Dependent Area Under the Curve ‐ . │││ │. Φ く 腑 ││. │ ・ │‐ m │ ‐ 2 468 10 Follow-up Time in Years l-Tod-eil 図 8:デ ー タセ ッ トLivcrに 対す る時 間依存性 AUCの 作成 プ ログラ ム と出力結果 15 12
図 4の SASプ ロ グラムでは ,時 点 1,3,5,7に お け る時 間依存性 ROC曲 線 を描 き,各 時点 にお ける AUCを
算 出 してい る .各 時点 におけ る AUCの 推移 を確認 した い場合 は,図 8の SASプ ログラ ムの よ うに,PROC
PHREGス テ ー トメ ン トのオプ シ ョンで PLOTS=AUCと 記述すれ ば よい 。 図 8に 示 した時 間依 存性 AUCの
具 体的な値 を確 認 したい場合 は ,OUTAUC=で 指 定 した SASデ ー タセ ッ トに出力 され る.図 4の 時間依存
性 ROC曲 線 作 成 時 の SASプ ロ グ ラ ム と異 な り,AT=で 特 定 の時点 を指 定 して しま うと,時 間依存性 AUC
は作成 され な い の で注意 され たい
.
5 C統 計量
4節 では ,時 間依 存性 ROC曲 線 か ら AUCを 求 め る こ とで ,各 時点 にお け る C統 計量 を算 出 した .SAS/STAT
14.2以 降 の PHREGプ ロシジ ャで は , も う 1種 類 の C統 計量 と して ,全 観 察 時 間 を通 して予 測性 能 を測 る尺
C統 計量 は ,モ デル か ら予測 さ
れ る生存 時間 と,実 際 の生存 時 間 の大 小 関係 が どの程 度 一 致 してい るか を示 す 指標 で あ る .本 節 では,こ れ
らの C統 計 量 に 関 して ,SASに よ る実行方法 を報 告 す る
度 を算出で き ,Ha
11の C統 計 量 と Unoの C統 計 量 が該 当す る。 これ らの
.
5.l Harrellの C統 計量
をパ ラ メ ー タベ ク トル ,個 人 ′の生存時 間 を ■ 打 ち切 り時 間 を D′ ,共 変量ベ ク
4■ 節 と同 じよ うに,β
トル を Zi,観 察 時 間 を χ =minc,2),イ ベ ン トの 指 示 変数 を△,(△ ′
=1は イ ベ ン ト,△ ,=0は 打 ち切 り)と し
て ,ノ =1,2,̲,″ は互 いに独 立 で あ る こ とを仮 定す る .こ の とき,Harellの C統 計量 は ,CORRプ ロシジ ャ
で実行可能 な 2変 量 の相 関を測 る尺 度 で ある Kcndanの 順位相 関係 数 の 考 え方 を生存時間 ア ウ トカ ム に拡 張 し
た
εH=Pr(β TZl>β rZ2 1■ <7ち ,■ <min(Dl,D2))
とい う確 率 (Harell et alり 1982)を
,
7zt>β Tろ
´ Σ ノ△ (為 <為
‐)[J(β
し
″―
瓦軍
i≠
(3)
‐
̀′
:て
iフ
)+0.5r(β
rZι
=β
7ろ
、
t仕′′ノ
)]
,孫 :爾
で推定す る.式 (4)の Harrellの C統 計 量では ,個 人 ブと個人 プの生 存 時 間 が短 い方 が打 ち切 りとな ってい な
い ペ アに対 して ,生 存時間 と予測 値 の一 致性 を測 る尺度 である.し か し,式 (4)で は ,β 7Z:と β7ろ の タ
イ デ ー タは考 慮 してい るが,生 存 時 間 の タイデ ー タは考慮 していない 。生 存 時間 の タイデ ー タを考慮す るた
めに
,
sgn(β 7zt,β Tろ )=r(β Tzι ≧βTろ )̲′ (β 7z:≦ βTろ )
CSgn(χ ル
為,△ ル勾)=7(Xt≧
為)勾
I(χ:≦
ろ)△
t
を考 える。た だ し,sgn(・ )お よび csgn〔 )は (‑1,0,1)を とる関数 で あ る .こ の とき,Harellの C統 計量 は
ε″=:(二 壼
=翌 ::::if::i:│:│::::li:i::││lli:;│:::生
全二全12+1)
(5)
と推定で き る (Kang etaL 2015).PHREGプ ロシ ジ ャ で は ,式 (5)に 基 づ いて ,Harcllの C統 計量が推 定 さ
れる
.
なお,Harrellの C統 計量 の拡 張法 も多 く提案 され て い るが (c.g"Hayashi,2014,2018),現 在 の 最新 バー ジ ョ
ンで ある SAS/STAT 14.3で 算 出可能 な の は,Harrellの
あ る (SAS Institu
C統 計量 と 5.3節 で取 りあげ る Unoの C統 計量 のみ で
Incっ 2017).
16
5。
2 データセ ッ トL市 erに 対する Harrellの C統 計量
図 9は ,デ ー タセ ッ トLiverに 対 して ,PHREGプ ロ シ ジ ャで Harellの C統 計量 を算 出す るプ ログラム で
あ る.図 4と 同様 の説 明変数 を含 め た比例 ハ ザ ー ドモ デ ル を用 いて ,生 存 時 間 の予測 を行 ってい る.PROC
PHREGス テー トメ ン トの CONCORDANCEオ プ シ ョン を指 定す る と,Harellの C統 計 量 が 出力 され る.図 9
の よ うに,CONCORDANCE=HAⅢ こ LL(SE)と 記述 すれ ば,デ ル タ法 を用 い た式 (4)の 標 準誤 差 (Kang et al,
2015)も 出力す る こ とがで きる。
図 9の SASプ ロ グラ ムの実行結 果 と して ,表 4の よ うに Harcllの C統 計 量 が 出力 され る。 なお ,付 録 E
には ,PHREGプ ロシジ ャを用 いず に ,Harrellの
い る.表 4に お け る値 よ り,Harellの
^
r..=
・
C統 計 量 を DATAス テ ップで 計算す る SASマ ク ロを示 して
C統 計量 は
′
Concordance‐ +0.5× I'ied in Predictor
=
Concordance+:Discordance+rried in Predictor
29208+0.5× 12
29208+7542+‐
=0794R
2
と な り,表 4に お け る Estimateの 値 と一 致 して い る こ と が 確 認 で き る 。表 4の 結 果 は ,Rの パ ッヶ ― ジ
の COXPH関 数 に よ る結 果 と も 一 致 す る .付 録 Fに は ,Rの
COXPH関 数 の 情 報 を 用 い て ,HaFellの C統 計
量 を計算す る 2通 りのプ ログラム例 を示 してい る.Rの パ ッケー ジ と して , Hmisc"や
の C統 計量 の 計 算方 法 もあるが ,本 稿 で は割愛す る
suMval''
rms"を 用 いた Harcll
.
さ らに ,図 9の SASプ ログラム に 4.2節 で説 明 した ROCス テ ー トメ ン トを追加 指定す れ ば ,MODELス テ
ー トメ ン トで指 定 した説 明変数 を減 ら した 場合 の Harellの C統 計量 も確 認 で き る
.
proc phreg data=work concordance=harrell (se) ;
model Time*Status (0)=Bilirubin Age Edema;
run;
図 9:PHREGプ ロシジ ャに よる Harellの C統 計量の算 出プ ロ グラム
表 4:Harrcllの C統 計量 の出力
Modc1
0.7948
0.0192
29208
7542
5.3 Unoの C統 計量
5.1節 で取 りあげた Httellの C統 計 量 の短 所 として ,標 本 分布 と推 定 対象 で あ る式 (3)が 打 ち切 り変数 に
依 存す る点が挙 げ られ る.Unoの C統 計 量 では,打 ち切 り分布 を考 えた も とで ,推 定 の 際 に各 ペ アに対 して
重 み付 けを行 ってい る (Uno ct al.,2011).独 立打 ち切 りの 仮 定 の も とで ,Unoの C統 計量 の 標 本 分布 は打 ち切
り分布 と独 立 とな る。
Unoの C統 計 量 は ,式 (3)の うち ,時 点 τまでで順位 の一 致・ 不 一 致 の 定 ま る確 率
ευ=Pr(β Tz.>β 7z21■ <7ち ,■ <τ )
を,Harrcllの C統 計量の式 (4)を 以下のよ うに重み付けた
εび=
‑2r(χ
7zi>β 7ろ
TZ̀=β 7ろ
Σ[lΣ 卜1△ ε(χ ι
)]
:<為 ,xt<τ )[′ (β
)+0.5r(β
:〔
(6)
)〕
ε(為 ‑2r(χ :<為 ,x:<τ )
ΣLlΣ に1△ 」
〔
)〕
17
(7)
で推 定 す る .た だ し,ε (t)は 打 ち切 り分布 の Kaplan‐ Mcicr推 定 量 で ある。 4節 の 時 間依存性 ROC曲 線 の AUCも C統 計 量 と呼ぶ こ とは可能 で あるが,H̀rrellの C統 計 量 では全観 察 時間 に対す る一 致性 を測 って い る.特 定 の 時点 にお ける時 間依 存性 ROC曲 線 の AUCに 相 当す る C統 計量 と 区別 す るた めに,式 (6)を overall‐ Cと 表記 した報 告 も多 く行 われ てい る (Pcncina and D'Agostino,2004;篠 崎 。松 山,2016). 5。 4 デー タセ ットLiverに 対する Unoの C統 計量 図 10は ,デ ー タセ ッ トLivcrに 対 して ,PHREGプ ロシジ ャで Unoの C統 計 量 を算 出す るプ ロ グラム と出 力結果 を示 してい る.Harcllの C統 計量 同様 ,CONCORDANCE=UNO(SE)と 記 述すれ ば ,標 準誤 差 も出力 され るが ,攪 乱 リサ ンプ リン グ法 (pcmrbation sampling method)に よって近 似 したバ ラツキ を得 てい るため SEED=で 乱数 のシー ド,ITER=で リサ ンプ リング回数 を指 定 してい る.図 10の 出力結果 よ り,Unoの C 統計 量 は 0.7443と な り,Harcllの C統 計 量 よ りも小 さい値 とな った。ここで ,図 10で は τを指 定せず に実 行 して い るが ,デ フォル トで は最大生存 時 間 と して ,自 動 的 に τが 設 定 され る.す なわ ち,デ ー タセ ッ トLivcr の最 大 生 存 時 間は 13.1年 で あ るため,PROC PHREGス テ ー トメ ン トにお け るオ プ シ ョン と して ,TAU=13.1 と指 定 して も,図 10と 同様 の C統 計量 が 得 られ る。ただ し,式 (7)の よ うに ε(3)の 逆数 で重 み付 け した 推 定 を行 ってい るた め ,Harellの C統 計量 とは一致 しない . 次 に ,PROC PHREGス テ ー トメ ン トにお い て ,TAU=を 変動 させ た場合 の 出力 結果 を確認 す る.図 5で 示 した時 間依 存性 ROC曲 線 にお いて,時 点 1,3,5,7年 の うち ,7年 時点 の AUCが 若 千低 下 した こ とか ら,τ =5 と して Unoの C統 計量 を求 めてみ る.図 11の SASプ ロ グラ ム で は ,TAu=5と 指 定 してい る .図 11の 出力 結果 は ,図 10と 比 べ て ,UnOの C統 計 量 は高 くな り,最 終 時点 までの予測 に比 べ て ,時 点 5ま で の 方 が予 測 性 能 は 良 い こ とを示 して い る . ム proc phreg data:work concordance:uno (se seed=1234 iter:100) ; model Time*Status (0):Bifirubin Age Edema; run; ヽlode1 0.7443 0.0276 図 10:PHREGプ ロシジ ャに よる Unoの C統 計 量 の算 出 プ ロ グラ ム と出力結果 proc phreg data:work concordance:uno(se seed=1234 iter:100) tau:5,' model Time*Status (0)=Bifirubin Age Edemai runi Mode1 0.8110 0.0241 図 11:PHREGプ ロシ ジ ャに よる Unoの C統 計 量 の 算 出 プ ログラ ム (τ =5を 指 定 ) 6 ま とめ 本 稿 で は ,比 例 ハ ザ ー ドモ デル に よる生 存 時 間解析 を行 うた めのプ ロシジ ャで あ る PHREGプ ロシジ ャの 新機 能 に着 日した .SAS/STAT 142か らの PHREGプ ロシ ジ ャで は ,時 間依 存性 ROC曲 線 お よび 2種 類 の C 統 計 量 を算 出できる.3節 で は ,2値 ア ウ トカ ム に対す る ロ ジステ ィ ックモ デ ル か ら得 られ る ROC曲 線お よ 18 ,
び C統 計量 に 関 して復習 した .4節 では ,時 間依 存 性 に新 たに追加 され た PLOTS=ROCに よる時 間依 存性 ROC曲 線 の 作 成 方 法 に関 して解 説 した .デ ー タセ ッ トLiverに 対 す る具体例 として は ,条 件付 き Kaplan― Mcicr 法 に基 づ く時 間依存性 ROC曲 線 の 作成例 を示 した 。また ,PROC PHREGス テー トメ ン トに PLOTS=AUCを 指 定すれ ば ,時 間依存性 ROC曲 線 の AUCで 構成 され る C統 計 量 も出力 できる.5節 で は ,4節 の AUCに も 相 当す る C統 計 量 と異 な り,全 観 察 時間を通 して予 測性 能 を測 る C統 計量 として ,CONCORDANCEオ プ シ ョンを用 い る こ とで HaFellの C統 計 量 と Unoの C統 計 量が出力 で き る点 を解説 した 。 近年 , リアル ワール ドデ ー タ の 活用 な どを背景 に ,予 測 モデル 研 究 が 多 く行 われ て い る。予測 モ デ ル 報 告 に関す る声 明 と して ,Transparc威 Rcpo五 ng ofa multivariable prediction model br lndividual PЮ gnosis Or Diagnosis(TRIPOD)声 明 も公 開 され てお り (Comns ctal.,2015),今 後 も予測モデル研 究 は増加す るで あ ろ う . 医学統計家 が SASに 用 いて 予測 モ デ ル を作成す るた め に,本 稿 で報 告 した PHREGプ ロ シジ ャの新機 能 は大 変有用 で あ り,今 後 は SASに よる時間依存性 ROC曲 線 お よび C統 計 量 の解析報告 が 増 え るこ とを願 う.本 稿 で取 りあげ たす べ ての出力結 果 は ,付 録 を含 め ,本稿 に記述 され て い る SASプ ロ グ ラ ム で再現可能 で あ る。 また ,Httcllの C統 計量 を SASの DATAス テ ップお よび Rで 実行 す る方法 も付録 に示 してい る.生 存 時 間 解析 に従事す る国 内外 の多 くの 実務 家 に とって ,本 稿 の報告 内容 が お役 に立てれ ば幸 い で ある . 参 考文献 [1] Akritas MG. Nearest neighbor estimation of a bivariate distribution under random censoring. Annals of Statistics. 22:1299-1327 , 1994. [2] Allison PD. Logistic Regression Using SAS(R): Theory and Application (2nd edn.). SAS Institute Inc., Cary, NC, 2012. [3] Chambless LE, Diao G. Estimation of time-dependent area under the ROC curve for long-term risk prediction. Statistics in Medicine. 25:347 4-3486, 2006. [4] Collins GS, Reitsma JB, Altman DG, Moons KG. Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TzuPOD): the TRIPOD statement. Annals of Internal Medicine. 162:5543, 2015. [5] Guo C, So Y, Jang W. Evaluating Predictive Accuracy of Survival Models with PROC PHREG. Proceedings of the SAS Global Forum.SAS Institute Inc., Cary NC, 2017. Available at https ://support. sas.corrVres [6] Harrell FE Jr, Califf RM, Pryor DB, Lee KL, Rosati RA. Evaluating the yield of medical tests. Journal of the American Medical Association. 247 :25431546, 1982. [7] Hanell FE Jr, Lee KL, Mark DB. Multivariable prognostic models: issues in developing models, evaluating assumptions and adequacy, and measuring and reducing enors. Statistics in Medicine. 15:.361-387,1996. [8] Hayashi K. Bias reduction in estimating a concordance for censored time-to-event response. Journal ofthe Japanese Society of Computational Statistics. 27 :l-16, 2014 [9] Hayashi K, Shimizu Y. Estimation of a concordance probability for doubly censored time-to-event data. Statistics in Biosciences,20 I 8. DOI: I 0. I 007/s1 2561 -01 8 -9216-5. [10] Heagerty PJ, Lumley ! Pepe MS. Time-dependent ROC curves for censored survival data and a diagnostic marker. B iometric s. 56 :337 -344, 2000. [ 1 1 ] Heagerty PJ, Zheng Y. Survival model predictive accuracy and ROC cvrves. Biometrics. 6l:92-105,2005 . [12] Kamarudin AN, Cox T, Kolamunnage-Dona R. Time-dependent ROC curve analysis in medical research: current methods and applications. B MC Medical Research Methodology. 17 :53, 2017 . 19
[13]Kang L,Chcn W,Pe ick NA,Gallas BD.Comparing twO cOrclttcd C indices with right̲censOrcd survival α″ π s′ jcsノ ′iイθ Jι ′ ″ι.34:685‑703,2015. OutCOrne:a One― ShOt nOnpararnetriC approach.S′ ̀′ om incomplete Obscrvations.Jο ″″″α′(プ ″ιИ θ′たα″ S′ α′ ι s′ たα′ [14]Kaplan EL,Mcier R Nonparametric cstimttion金 jο Иssο c′ α′ ″.53:457‑481,1958. [15]Pcncina MJ,D'A3ostino RB.Ovemll C as a nleasure of discriminatiOn in survival analysisi model speciic pOpulatiOn ValuC and COnidenCC interval estirnation.S′ α′ IsJjcs′ ′1′ ♭ グブ ι′ ″ι.23:2109‑2123,2004. グθ.SAS Institutc lnc.,Cary.NC,2016. [16]SAS Institute lnc.SИ SZSZ4rr2ζ ソフイ.2 υsι ′ζGγ ′ [17]SAS InStitutC InC.SИ S/SZ4rイ 写ソ フイ3こ なι″ふC ブ グι.SAS Institutc lncっ Cary,NC,2017. ci LJ.Evaluating prcdictiOn rulcsお rt― year survivors with ccnsOrcd К gression modcls. [18]Uno H,Cai TX,Tian L,恥 石 Jο ″ ′ ″α′9′ ″′И ι ′ たα′S′α′ お′ たα′ Иssο ε ″″ο″.102:527‑537,2007. [19]Uno II,Cai T,Pencina MJ,D'Agostino RB,ヽ 石 ei LJ.On thc Cstatistics fOr cvaluating ovcrall adequacy Of risk prediCtiOn prOCedureSヽ ′ ith CCnSOred survival data.,S′α σs ι ″ ′イ│̀̀ノ IJι J″ ι.30:1105‑1117,2011. ̀zsr」 [20]Van dcnヽ ryngae■ ■ Hclsen N,Ca"L,Hakim S,:Maicns MJ,ct al.Fluorodcoxyglucose― pOsitrOn cmission tOmOgr"hプ computcd tomogrtthy aner concurrcnt chemor測 1。 thertty in locally advanccd hcd̲and̲neck squamous cell cancer:The ECLYPS study.Jο ″′ ″α′q/で ′ J″ たα ′0″ εο′ ο .35:3458‑3464,2017. ̀フ [21]Yao S,Yagi S,Uozumi R,Iida■ Nagao lM,Okamura χ et al.A high portal venOus pressure gradicnt increases gut― rclated bactcrcrnia and cOnscquent early nlortality a■ er living donor livcr transplantatiOn. 7ン α″sI′ ′ α″′ α′ ′ ο″ . 102:623‑631,2018. [22]魚 住 龍 史 ・ 浜 田知 久馬 .SC(Statistical GrThics)Procedurcsに よ る K"lan‐ Meierプ ロ ッ トの 作 成 .SASユ ー ザ ー 総 会 論 文集 2011,185‑199. [23]魚 住 龍 史 ・ 浜 田 知 久 馬 .が ん 臨 床 試 験 に お け る 腫 瘍 縮 小 効 果 の 検 討 に 有 用 な グ ラ フ の 作 成 ―SGPLOTプ ロ シ ジ ャ の 最 新 機 能 を活 用 ―.SASユ ー ザ ー 総 会 論 文 集 2012,151‑165. [24]魚 住 龍 史 ・ 森 田智 視 .生 存 時 間解 析 にお け る三 種 の神 器 .呼 吸 ,34:1083‑1089,2015. [25]魚 住 龍 史 .有 名 論 文 か ら統 計 の 基礎 を 学 ぶ :COURAGE試 験 に お け る生 存 時 間 解 析 の 側 面 .Cο ″″α7 1″ ″ θ′1,ι ″′ ′ ο″,13:38 43,2017. [26]魚 住 龍 史 ・ 矢 田真城 ・ 浜 田知 久 馬 .PHREGプ ロ シ ジ ャにお け る共 変 量 調 整 解 析 に 関連 した オ プ シ ョン機 能 .SASユ ー ザ ー 総 会 論 文 集 2017,237‑248. [27]魚 住 龍 史 。浜 田知 久 馬 .SASに よ る競 合 リス ク を伴 う生 存 時 間 解 析 の理 解 .SASユ ー ザ ー 総 会 論 文 集 2018. [28]大 橋 靖 雄 ・ 浜 田知 久馬 .生 存 時 間解 析 ―SASに よ る生物 統 計 .東 京 大 学 出版 会 ,1995. [29]大 橋 靖 雄 ・ 浜 田知 久 馬 ・ 魚 住 龍 史 .生 存 時 間 解 析 応 用編 ―SASに よ る生 物 統 計 .東 京 大 学 出版 会 ,2016 [30]篠 崎 智 大 。松 山裕 .ペ ア ワイ ズ 層 別 COxモ デ ル に よ る overall Cの 推 測 .統 計 関連 学 会 連 合 大 会 報 告 集 2016,336. [31]徳 田洋 介 ・伊藤 陽 一 .生 存 時 間 デ ー タ にお け る予 測 力 の 指 標 〜 時 間依 存性 ROC曲 線 法 〜 .SAS Forum ユ ー ザ ー 会 論文集 2006,181‑190. [32]浜 田知 久馬 .LOGISTICプ ロ シ ジ ャに よる解 析 と最 新 の機 能拡 張 :映 画 「タイ タ ニ ック」の ロマ ンテ ィ ッ ク回帰 .SASユ ー ザ ー 総会 論 文集 2014,781‑830. [33]浜 田知 久馬 。魚住龍史 .SASに よる生 存 時 間解 析 の拡 張機 能 .SAS Lcaming ScssiOn 2016.配 付 資料 .生 の 田知 久馬 の ス の 存時間解 SASで :競 ク PHモ の 析 実務 的課題 リ [34]浜 合 デル 被験者数設 計 解決 ,非 . , 最適被 験 者 数 配分 .SASユ ー ザ ー 総会 論 文集 2017,427. [35]古 川 敏 仁 ・ 杉本典子 .ロ ジステ ィ ックモ デル と ROC AUC分 析 を組 み合 わせ た検査性 能 の評価 と疫 学基 本 モ デル 評 価 方法 .SASユ ー ザ ー 総会 論文集 2009,125‑142. 連絡先 E― mail:ン ο乙盤212&盪2.皇 2ゎ ュ gcL滋 20
SASプ ロ│グ ラム
ods oulpul ROCPanel:rocpane100;
proc phreg data:Liver plots=(roc(tj-ck) )
rocoptions(at=(1 to 7 by 2) method:km outroc:outroco0);
model Time*Status (0):Bilirubin Age Edema;
ROC曲 線
Ю ^
OЮ
Time=1
10
0.8
Time=3
0.8
0̲6
0.4
0.2
0.0
0.6
2 Ю
・
0.4
︑一 >■ 一
oCO∽
0.2
00
0.0 0.4 0.8
0.0
Time=5
1.0
0.4 0.8
00 04 0.8
Time=7
10
0.8
0.6
0.4
0.2
00
0.0
0.4
0.8
1‑Spec,■ ●
│、 ′
付録 A:デ ー タセ ッ トLivcrに 対す る時間依 存性 AUCの 作成 プ ロ グ ラ ム と出力結 果
data outroc00,set outroc00, FN=■ ―Spec■ ficity, TP=Sensit■ v■ ty, t=T■ me, ■abel t='rT■ mer'′ run′
proc sgpane■ data‐ outroc00 noauto■ egend′
panelby t / columns=2 rows‐ 2, ser■ es x=FN y=TP / ■■neattrS=(th■ CkneSS=3),
neattrs=(pattern=3)′
1■ neparm x=0.5 :y=0.5 s■ ope=1 / ■■
rowax・ s values=(O to ■ by O.1) ■abel=:;惑 :'′
t0 1 by o.■ ) ■abel=̀1 ‑ 4寺 り
co■ ax■ s val
晏度 :′
refl■ ne O.2
6 0.8 / ax■ s― y ■■neattrs=(pattern‐ 35)
refl■ ne O.2
6 0.8 / ax■ s― x ■■neattrs=(pattern‐ 35)
!支
付録 B:SGPANELプ ロシジ ャに よ るカ ス タマ イ ズ した 時 間依存性 ROC曲 線 作成 プ ロ グ ラム
Time■ 3
Time = 5
Time = 7
議鸞
Timo・ 1
Ю
彼 銀 ∞
00 at 02 00 0.4 0.500α 70.809 1.0■ 0 ●1 0.20.304,S a0 07 0.809 10
1‐ 1時 願額
露
付 録 C:SGPANELプ ロ シ ジ ャ に よ リカ ス タ マ イ ズ した 時 間 依 存 性 ROC曲 線
21
付 録 D:Rに よる時 間依 存性 ROC曲 線 の 作成 プ ログラ ム
k PHRECプ ロシジャで線形予測子を含んだデ ータセ ッ トを準備 ′
prOC phreg data=L■ Ver′ mOdel Time★ Status(0)=3■ ■■rub■ n Age Edema′ output out=out00 xbeta=Y′
ン (,3Vフ ァイル と i″ て'デ ー タをエ クスボー
:ヽ
′
le= ''C:YUsersyUozum■ yDocumentsYSASuser201̲8YOutput.csv''
dbms‐ csv replace′
prOC eXPOrt data=Out00 0utfユ
ヽ ここか らはRで 実11, ′
###csvフ ァイルか らデータをインポー ト ###
setWd(・ C:/Users/Uozum■ /Documents/SASUser2018/")
data00 = read.csv(1'Output.csvt')
###パ ッケー ジを使 用 ###
library(surv■ va■ ROC)
##十 時間依存性 ROC曲 線 の構成 ###
ROC く― funCti On(Cut){
cutoff く― cut
troc = surv■ valROC(St■ me=data00ST■ me′ status=data00SStatus′
marker = data00,Y′ pred■ ct.t■ me = cutoff′ nethod=''KM'!)
plot(trocSFP′ trocSTP′ type=''1''′ xl■ m=c(0′ 1)′ yl■ m=c(0′ 1)′
xla:b=paste( ''FPl'′
rna■ n‐ paste('!Yn
''Yn''′
T■ ■le =''′
''AUC = ''7round(trocSAUC′
3))′
ylab="TP''′
cutoff))
ab■ ■ne(0′ 1)
trocSAUC
###時 点 ‐ 1′ 3′ 5′ 7に お け る時 間 依 存 性 ROC曲 線 を 出 力 十1+
AUC4 く― rep(0′ 4)
く― ROC(1★ 1)
AUC4[1〕
Aじ C4[2]く ― ROC(1★ 3)
AUC4[3]く ― ROC(1★ 5)
AUC4[4]く ― ROC(1'フ
)
###時 点 =1′
3′
AUC4
5′
7に お けるAucの 要約 ###
付 録 E:DATAス テ ップ に よる Harrcllの C統 計量 の算 出 マ ク ロ
☆ l̀ACRO: ::ARREI,1, C11、 IDEX ,
ヤ 引数 の説明
,
、
dat:,: ′
力対象デー タセ ット ′
time:生 存時間 ′
consor:イ ベ ン
│ヽ
(cen3●
Iヽ
‐ 1)と 打ら切
id:被 験者番 号を表す変数名 ′
o)を 表す指示変数
̀'(censOr‐
レにおける説明変数 ′
var:比 例ハザー ドモデ ′
olll:data: citttil‐
ヤマク
tmcro
l口
1・
:ヨ,び )i:│・
(J=結 」
表′
サ
::1始
′
harrell
cindex (daLa. time. censor, var,1d, outdata)
22
;
run′
ス 被験者 I■ 番 号 を表す変数の追加 ′
data work00,set &data′
&■ d= n
′run,
☆一――― 比例 /ヽ ザー ドモデル に よる線 り
│′ 予測 子 ′
proc phreg data=work00, mode■ &t■ me★ &censor(0)=&var, Output Out=pred00 Xbeta=Xbeta′
run′
― ――― ペ ア を構成 して対象デ ー^夕 を抽 出 ′
data tmp01,set predOo,
rename &■ d=■ d̲i &t■ me=x̲■ xbeta=xbeta̲■ ,censor‐ censOr̲i′ keep &■ d
data tmp02,set pred00′
rename &■ d‐ ■d̲j &t■ me=x̲j xbeta=xbeta̲コ
&time xbeta &censor;
&CenSOr=CenSOr̲j′ keep &■ d &time xbeta &censor,'
proc sql;
create table a1100 as
select *
from tmpo1, tmpo2
where id_j<>id_i;
quit,'
☆―――― 予測結 果 の判 定 ′
data pa■ r00,set al100,
■f xbeta̲iく xbeta̲] then ps■ 9n=1,
else ■f xbeta̲■ >xbeta̲j then ps■ gn=‑1′
else ■f xbeta̲i=xbeta̲j then psign=0′
data pairO0;set pairOOi
if x_i>x_j then doi if censor*j=1 then csign=1; else csign:0; end;
else if x_i<x_j then doi if censor_i=l then csign=-li else csign=0; end;
efse if x_i=x_j then doi
if censor_j:1 then doi if censor_i=l trhen csign=o,' else if censor_i:o then csign=L; end;
else do; if censor_i=l then cslgn=-L; else if censor i:0 then csign:0; end;
endi
num=csign+psign; den=csign**2;
if num=l then con=li else if num:-l then dcon=l; else if
csign"=0 and ps.ign=0 then tied=l,
run i
☆―――― ■arrellの c統
を構 成 す る 値 を 計 算 ′
ods ■isting c■ ose′=1量
ods output summary=num00′
proc means data=pair00 sum, var num′ run′
ods output suminary=den00′
proc means data=pa■ r00 sum′ var den, run′
ods output summary=con00,
proc means data=pa■ r00 n, var cOn′ run′
ods output sulrmary=dcon00′
prOc means data=pa■ r00 n′ var dcon′ run′
ods output sumlnary=t■ ed00′
proc means data=pa■ r00 n, var tied′
run′
ods l■ sting′
data &outdatai merge numo0 den00 con00 dcono0 tiedoo; run;
proc datasets lib=work nolist,
delete predOO tmp01 tmp02 a1100 pairoo num00 deno0 cono0 dcono0 tiedo0;
run i
quit;
★―――― Harrel■ のC統 オ1量 が 含まれ た デー タセ ッ ト ′
data &outdata′ set &outdata,
Concordance=con N/2, D■ scordance=dcon N/2′
T■ ed=t■ ed N/2, Harrell C=(num Sum/den Sum+■ )/2′
23
keep Concordance Discordance
Tied harrefl
C;
■ マ ク ロ終 了 ,
gmend harrell
cindex;
` マ ク 呼 び 出 し例 ′
1●
>.harre77_cindex (Liver. t.ime, status,Bifirubin
・ PIRECフ
"ン
Age Edema, id, cindex00) ;
ジャ│こ よる確 認 ′
ods output Concordance=concordance00;
proc phreg dala:Lj-ver concordance=harrel1; model Time*Status(0)=Bilj-rub.in Age Edema;
run;
data concordance00;set concordance00; concordance=input(Estimate,t-'est-.),
runi
付録 F:Rに よる Harellの C統 計 量 の算 出 プ ロ グ ラ ム
#+#パ ッケ ー ジを使用 │#十
1■
brary(SurVival)
###比 例 ハザ ‐―ドモ デルの あては め ###
SurV く― Surv(data00ST■ me′ data00SStatus)
― coxph(surv 〜 data00SB■ ■irubin + data00SAge + data00SEdema, t■ est''breslow'')
f■ t く
###Harre■ 1の c統 計量 の算 出方法 1 ###
SurVCOnCOrdanCe(SurV
〜 prediCt(fit))
│##Harre■ ■のc統 計量 の算 出方法 2##│
Sum.f■ t く― surcnary(f工 t)
sum.f■ tSconcordance
24
スパ ース な線 型 回帰モデル に対す るベ イ ズ推論 ○矢 田真城 1エ l浜 田知 久馬 2■ イ ツー ヘ ル スケア株 式会社 デー タサイ エ ンス本部 生物統 計第 1部 2元 東京理科大 学 Bayesian inference for linear regression model with sparsity ShinJo Yadal and chikuma Hamad′ ,│ lBブ Os′α ′ ′ s′ たs Dβ α ′ ″ ′″ "′ 27♭ I,Dα ″ Sθ ノ ιη(彙9D′ ν7s′ οκ,ノ 42」 ち 西 ια′ ″ θ お′ 00(:メ ♭ 脇ι ″ り0し″ツ クグ腱た″ ク) ′ pο ′ ″ Cο ′ α′ わ″ ̀α 要旨 適 切 な統 計 モ デル を構 築 す るにあた り,パ ラメー タ推定 の た め の 目的 関数 に罰則 項 を設 け る こ とで ,パ ラメ ー タ推 定 の縮小 と変数 選 択 を同時 に行 う手 法 が提案 され てい る.Lassoや Elastic Netは そ の代 表格 で あ り,SAS で は ,GLMSELECTプ ロ シジ ャの MODELス テ ー トメン トにお いて ,SELECT10Nオ プシ ョンに対応 す るキ ー ワー ドを指 定す る こ とで実行 可能 で あ る .こ れ らのベ イ ズ 流 アプ ロー チ で あ る Bayesian Lassoや Bayesi帥 Elastic Netで は,モ デル パ ラメー タ及び 罰 則 パ ラメー タに事 前 分布 を想 定 して ベ イ ズ流 に推論 を行 うが ,そ の 際 ,事 後 分布 か らの サ ンプ リングを効 率 よ く行 な うために ,潜 在 パ ラメー タ を用 い た階層 モ デ ル をあてはめ る こ とが多 い。本稿 で は ,ス パ ース性 を もつ 線 型 回帰モ デ ル を対象 に,こ れ らの 手法 につ いて簡 潔 にま とめ SASに よる適用例 を紹 介 す る , . キ ー ワ ー ド :ス パ ー ス 性 ,線 型 回 帰 モ デ ル ,Barsian Lasso,Baycsian Elastic Net,MCMCプ ロシ ジ ャ 1.は じめに 本 稿 で は ,解 析対象 とな る線 型回帰 モ デル にお いて ,一 部 また はほ とん どの説 明変数 が 目的変数 に影 響 し な い 状 況 を と りあげ る .目 的変数 に影 響 しない説 明変数 の 回帰係 数 はゼ ロで あ り,モ デル にゼ ロで はな い 回 帰係 数 が まば らに"存 在 す る とい う意 味 で , スパー ス な ''線 型 回帰 モ デ ル と表記 した。 統 計 モ デ ル を構 築す る 目的 は ,得 られ たデ ー タか らそ の 背 後 にあ る真 の分布 を表現す るこ と,あ るい は , 将 来 得 られ るデ ー タを精 確 に予測す る こ とに あ る.モ デル に含 め る説 明変数 を減 らす ことは ,必 ず しも得 ら れ たデ ー タに対 して うま くあてはま るモ デ ル を構 築す る こ とに はつ なが らな い。 しか し,将 来 のデ ー タを予 測 す るた めのモデル とな る と,少 数 の説 明変数 で表 現 され た シ ンプル な モ デ ル の ほ うが,説 明変 数 を多数含 めた 複 雑 な モ デル よ りもあて はま りが よい モ デ ル とな り得 る(岩 波 デ ー タサイ エ ンス刊行委員 会 ,2017).モ デ ル の 複 雑 さは,バ イ ア ス ーバ リア ンスの トレー ドオ フ(bias̲v 12017年 12月 21日 逝去 25 ance tradc̲Ooと して知 られ てい る.全 てのデー
夕集 合 に対す る予測値 の 平均 が理想 的 な関数 か らどの程 度 離 れ てい るか を表 す バ イア ス と,各 々 のデー タ集 合 に対す る予測値 が 特 定 のデー タ集 合 の 期待値 の周 りに どれ だ けば らつ い て い るかを表す バ リア ンス とは ト レー ドオ フの 関係 に あ る(ビ シ ョップ ,2006).線 型 回帰 モ デ ル の場合 ,少 数 の 説 明変数 で表 現 され た シンプル な モ デ ル ではバ イ ア ス は大 き くな るが バ リア ンスは小 さ くな り,説 明変数 を多数含 めた複雑 な モ デ ル ではバ イ ア ス は小 さくな るが バ リア ンス は大 き くな る傾 向にあ る . モ デル のあては ま りの よさを評価 す る基準 として用 い られ てい る AIC(Akalkc inね rmation criterion)な どの 情 報 量基 準は,モ デ ル の 予測分布 と真 の 分布 との近 さを表 す カル バ ック・ ライ ブ ラー情報 量 を利 用 した指 標 で あ る.カ ル バ ック・ ライ ブ ラー 情 報 量 には真 の分布 が 含 まれ るため ,そ の 値 を直接求 め る こ とはで きな い が ,カ ル バ ック・ ライ ブ ラー 情報量 か ら導 出 され る平均 対数 尤度 を用 いれ ば よい こ とがわ か る .情 報量基準 は ,デ ー タか ら計 算 で き る対数尤度 と,平 均対数尤度 の 代 わ りとして対数 尤 度 を用 いた ときに生 じるバ イ ア ス の 推 定量か ら構 成 され る(小 西 。北川 ,2005).例 えば ,線 型 回帰 モデ ル にお いて ,AICを 用 い て 目的変数 に 影 響 を与 える と考 え られ る変数 を選 択 してモデル を構 築 した い場合 ,GLMSELECTプ ロシジ ャ の SELECT10N ス テ ー トメン トにて ,オ プ シ ョン SECEET=AICと 指 定 す る こ とで実行 可能 で あ る.こ の 方 法 で は ,変 数増 減 法 な どのアル ゴ リズ ム に よ り,候 補 とな る説 明変数 の 中か らモ デ ル に含 め る説 明変数 の 出 し入 れ を行 うこ とで ,あ てはま りが よ い と考 え られ るモ デ ル を選択す る こ とにな る.一 方 , これ と別のア プ ロー チ として 候 補 とな る全ての説 明変数 をモ デ ル に含 めて推定す る も の の ,パ ラメー タ に あ る種 の制約 を設 け る こ とで 目的変数 に与 える影 響 の少 な いパ ラメ ー タの絶対値 を小 さ くす る方法 が あ る .Tibshirani(1996)が 提案 した , , , よばれ る方法 の最 大 の魅 力 は ,Zlノ ル ムの罰 則 項 を設 定 Lasso(leastめ sol■c shrinkage and selection opcrator)と す る こ とで,不 要 と考 え られ る説 明変 数 の 回帰係 数 をゼ ロ に縮小 させ ,パ ラ メー タの推 定 と変数 選択 とを同 時 に行 うことがで き る点 にある。 た だ し,Lassoも 万能 で はな く,い くつ か問題点が指摘 され てい る。Lassoが 抱 える問題 点 を克服 す るため ` Elastic Net(Zou and Hastie,2005),adaptivc Lasso(Zou,2006),adaptivc Elastic Net(Zou and Zhang,2009)な ど, い く , つ もの方法が提案 され て きた 。 これ らは いずれ も,対 数 尤 度 と罰則項 か らな る関数 を最小 とす る よ うなパ ラ メ ー タを求 める とい う,共 通 のス キー ム を もつ .以 下 で は ,ス パー ス な線 型 回帰 モ デル に対す る推 定方法 の 中 か ら Lassoと Elastic Nctを と りあ げ ,そ れ らのベ イ ズ 流 ア プ ロー チで あ る Baycsian Lassoと Bayesian Elastic Netに つ いてま とめ ,SASに よる適 用 例 を紹介す る . 2.Baycsian Lasso Lassoで は,Ll罰 則項 を設 けることで ,パ ラメー タ推 定量 を 0に 縮小 させ ることができ,変 数選択 とパ ラメ ー タ推定量の縮小 を同時に行 うことが可能 となった。いま,ブ 番 目の被験者 に対す る反応変数 を ッ′ ,′ 個 の説明 変数 を 和,x2,… .,為 ,(′ =1,2,… ,4),′ 個 の説 明変数に対す る回帰係数を βl,ん ,.¨ ,β′ ,定 数項 を αとお くと,線 型 を誤差項 として 回帰 モデル は ε ′ (2.1) γ ι=α +Σ 卜1島 χ り+ε j,(プ =1,2....,の × × 1), =(β 1),C=(ε と表される.y=(、 1,ヵ ,… ,乃 )T(″ 1),xi="1,χ 2,… ,し)To× 1),β l,ε ・ ・ ,ε ″ l,ん ,...,β′ )T(″ × )Tυ 2,・ /χ X= │: ll¨・ χ l′ 、 /xTヽ ・ ・ ・ :│=│:│=(Xl,X2,… χ ヽ ノ 、 π ■・… 布′ x1/ Xn)T (″ ×′) とお き,全 ての成 分 が 1と なる ″×1の 列 ベ ク トル を ln=(1,1,… ,1)Tと 表す とき,(2■ )は y=lnα +Xβ +ε (2.2) 26
と行列の形で表すことができる。ε は互いに独立に平均 0,分 散 ′の正規分布に従 うと仮定するとき,線 型 ′ パ 回帰モデル(22)の ラメータα,β の最小二乗推定量は 土│ッ :一 α―iβ′ ,為′ ′│ =(y‑ln α―xβ )r(y̲1.α ̲xβ ) ‐ 1 プ 1ヽ ノ '‐ を最 大 とす る よ うな α,β と して求 め るこ とがで き る.Tibshirani(1996)は ,α ,β の Lasso推 定量 を Σ β,│≦ え l とい う制約 条件 の も とで ilノ :一 :=1ヽ , α―チ βメ││ =1´ ・ノ ノ を最小とするようなα及びβと定義した。ここにス ≧0は 調整パラメータであり,χ ノは説明変数χ ′について 上士χ ″=0,上 士χ :=1 ´ ・ ″ ″ '=1 (2.3) '=1 を満 たす よ う標 準化 した値 で あ る (′ =1,2,。 ..,″ ;ブ =1,2,… ′).任 意 の スに対 して αの Lasso推 定量は フで あ るか ら , βの Lasso推 定量 は ,λ >0を 罰 則 パ ラメー タ と して け―X*β )T(y― X*β )+λ Σ推11島 を最小するようなβを求める問題に帰着される.こ こに,y=y‑lnフ であり,x「 =● .1*,χ 成…,Ⅲ *)T⑫ ×1)と し てX★ =(X∴ xダ ,.… ,x『 )T(′ ×′)で ある.λ を大きくするとモデルにとりこまれる説明変数は減少し,逆 にλを │ 小 さくとる とモデル に と りこまれ る説 明変数 が 増 加 す る。一 般 的 に ,ス の設定には ク ロスバ リデー シ ョンが用 い ら れ る .ク ロ ス バ リ デ ー シ ョ ン で は ,得 ら れ た デ ー タ を 訓 練 デ ー タ (廿 aining Set)と トデ ー タ (tCSting Se0 テ ス とに分 け ,訓 練 デ ー タを用 い て推 定 し,テ ス トデ ー タを用 いて そ の 予 測精度 を検証 す る . Lassoに よるモ デ リングは ,GLMSELECTプ ロ シ ジ ャの MODELス テ ー トメン トに お いて SELECTION= LASSOと 指 定す る ことで 実行 可能 であ り(SAS Institutc lnc.,2015),川 崎 ら(2017)が シ ミュ レー シ ョン実験 に よ りその有 用性 を検討 してい る.Lasso推 定量 は ,回 帰係数 の 事 前分 布 と して互 い に独 立 な ラプ ラ ス 分布 ′ え /(鳥 )=ォ cxp(― 1鳥 │)(プ =1,2,.。 .′ ) をあて はめた ときの事後 分布 のモー ドとして解 釈 で きる(Tibshirani,1996).Park and Casena(2008)は ,回 帰係 数 の事前分布 と して ′ の 条件 付 きラプラス 分布 ρ 2)=丘 鼻 えσ (24) │ら │′ (β lσ ノ‐lzc「 ̀― を用いることで,ベ イ ズ流に Lassoを 行 うことを考案 した.た だ し,(2.4)に は絶対値 が含 まれているため,(24) を事前分布 とす る線型回帰 モデルではその事後分布 が単峰性 を もたず ,サ ンプ リング された標本系列 が事後 分布 を うま く反映できない恐れがある.Park ttd Casella(2008)は ,(2.4)に よって表 され る んの分布 が,潜 在パ ラメー タ リを用いることで正規分布 と指数 分布 の混合分布 として定義 できるσ=1,2,̲の ことを用 いて ,以 下 のよ うに階層的に表現 した。 ylα ,X☆ ,β ,′ 〜Ⅳ″ (lnα +X'β ,′ In) 2〜 βl♂ ,τ 12,τ22,̲,τ ′ 場 (0,′ DD Dτ =diag(τ 12,τ 22,… ,ザ )0× ′) (2.5) 27
′ ,τ 12乃 2,̲,ち 2〜 π)″ 血 4exp(̲ル :/2)″ (′ ノ‐l Z 4τ 12,τ 22,… ,ザ >0 × )を もつ ′次元正規分布 ここに,Inは 単位行列(″ ×″ )で あり,場 (μ Σ)は 平均 μυ×1),分 散共分散行列 Σ⑫ ρ を表す.(2.5)に より表現されるモデルが Bayesim Lassoの 基本形であり (Lesattc ttd Lawson,2012),′ の事 )TO 前分布 ズめ として,1/′ あるいは逆ガンマ分布が用いられる.ギ ブス・サ ンプ リングで β=『 1,ん ,… ,β′ 2),′ の 完 ×1),T2=(τ 12,τ 22,… ,ら 2)T。 ×1),♂ の乱数を生成するためには,pの 完全条件付き事後分布 ′(β lえ τ 全条件付き事後分布 ′″ lβ ,T2),τ 事後分布は,β ,τ 2,′ 2の 完全条件付き事後分布 ′(τ 21β ,め が必要 となる.こ れ らの完全条件付き の同時事後分布を周辺化することで導出することができ,ノ の事前分布 として 1げ をあ てはめると lX'Ty',′ だ1) βl′ ,.2〜 ル (A‐ T D「 lβ ̲1)2+ノ 2,(y'̲X'β ‐ /2) G((″ ′lβ ,τ 2〜 ′ )T(y■ X'β )/2+β 1/121ん ,′ 〜κα 四(02♂ ィ)12,λ とな る (Park and Casella,2008).こ 2)σ =1,2,… (26) (2.7) ′) TX=+Dflで あ り,IC(ッ ,η こ に A=X■ (28) )は 形 状 パ ラ メ ー タ ッ,尺 度 パ ラ メ ー タ 2,′ のギブス・ 初 の逆ガウス分布を表す 。従って,β ,τ sso,ス )は 平均 μ,分 散 μ ηの逆ガンマ分布を表 し,ICα ν り (° (り サ ンプリングアル ゴ リズムは,た 回目の反復過程 において β ,♂ ,′ を得たとするとき , τ )か らβ 生成する (Hl),.2o)か ら ′岬 )を 生成す る Step l:(2.6)に よって表される′ (β l′ Q Step 2:(2.7)に よって表 され る ′(′ lβ Step 3:(2.8)に よって表 され る ′(τ と して ,適 当な初期値 β . 21β (rl),σ 2(た +1))か (0),τ 2(0),♂ 0)を (日 1)を 2(り 2(卜 1)を らτ . 生成す る . 決 めた後 ,マ ル コ フ連鎖 が収東す るまで step lか ら Step 3ま でを繰 り 返 す こと とな る .ギ ブ ス・ サ ンプ リングで は ,サ ンプ リングす る順番 を変 えて も詳細釣 り合 い 条件 は満 た さ 。 ,1995).よ つ れ るため ,ギ ブ ス・ サ ンプ リングの 不変分布 は 目標 分布 とな る こ とが保 証 され てい る(Liu α α′ て上記ではβ ,′ ノの順番でサンプリングを行っているが,サ ンプリングする順番を変えても問題ない.ま た , β,τ 2の ブ ロ ック化 によ り,得 られ るモ ンテカル ロ標本 の 自己相関を低減できる ことが期待 で きる(古 澄,2008). Bり esian Lassoで 罰 則 パ ラメ ー タ λを設 定す るにあた っては,2つ のアプ ロー チが存在す る .1つ は経験 ベ イ ズ法 に よる λの設 定で ある。 これ は,Cassela(2001)が 提 案 した EBギ ブ ス・ サ ンプ リング(EmpHcal Bayes Gibbs sampling)を ,Bayesian Lassoに 適用 した もの で あ る.EBギ ブス・ サ ンプ リングは ,ハ イ パ ー パ ラメー タ の周辺尤度推 定 量 を与 え,パ ラメー タ の ギブ ス・サ ンプ リング を行 う方法 で あ る。た回 目の反 復 過程 では,(た ‑1) 回 目の反復過 程 にて得 られ たハ イ パ ー パ ラメー タ の推 定値 を用 いてギブ ス・ サ ンプ リング を行 う.サ ンプ リ ン グ され た標 本 を用 いて ,モ ンテ カル ロ EM(MOnte Carlo EM;MCEM)に よ リハ イ パーパ ラメ ー タを推 定 し , これ を(た +1)回 目の 反復過程 に用 い る.こ れ を Bttesian Lassoに 適用す る と,(た+1)回 日の反 復 過 程 では,た 回 (い 1),♂ 卜1),τ 2(m)を )を 生成す 目の反復過 程 にお いて得 られ た スの推 定値 λ 用 いて Stcp lか ら Step 3に 従 い ,β (た る .生 成 され た これ らの標 本 を用 い て 2ρ λ= Σ;=1ら )[ザ (た │夕 ] に よ り更新 され た λ=λ (m)を (卜 1)回 目の反復過程 にお け る λの推 定値 と して ,(卜 2)回 日の 反 復過 程 に用 い る ここで ,条 件 つ き期待値 ら )[げ │夕 ]は λ )の も とで の 事後 期待値 で あ り,ギ ブ ス・ サ (Park and Casclla,2008)。 ンプ リングに よって生成 され た標 本 の 平均値 でお きか え る.罰 則 パ ラメー タ λを設 定す るた めの も うひ とつ (々 (た 28
2と
の アプ ロー チ が 事 前分布 の利 用 で あ る.Park and Cascna(2008)は ,λ 2の 事 前分布 と して 平均 ′
/δ ,分 散 ′
/δ
な るガ ンマ 分布 (以 下 これ を Gα (″ ,の と表記 す る)を 提 案 してい る.λ 2の 事 前分布 と して Gα (′ ,δ )を あて は め
2の
2+δ
2,′
た とき,(24)の もとでλ
完全条件付き事後分布は Cα (′ +′ ,Σ ′
の完全条件付き事後分
̲lτ ブ )と なる.β ,τ
(卜 1)を
布は変わらないため,ギ ブス・サンプ リングアル ゴ リズムにλ
生成す るステップを追加するだけでよい。
適用例 と して ,Eion αグ (2004)の 糖 尿病患者 の デ ー タ を と りあげ る .こ のデ ー タ (以 下 「E■ onの 糖 尿 病
患者 デ ー タ」 とよぶ )は ,ベ ー ス ライ ン 1年 後 の糖 尿 病 進行度 を反応 変 数 と した,442名 の糖尿病 患者 の デ
ー タで あ り,ベ ー ス ライ ン時 の背 景 情 報 と して ,年 齢 ,性 別 ,肥 満度 (BMI),平 均血圧 ,血 清検査所 見 (TC,
LDLコ レス テ ロール ,HDLコ レス テ ロー ル ,TCH,ETG,血 糖値 )が 含 まれ てい る。 これ ら 10個 の背 景 因
子 か ら,反 応 変 数 を予測す るた め に適 切 なモ デル を構 築 し,糖 尿病 の 進 行 に影 響 を与 え る重要な背景 因子 を
提示 す るこ とに あ った .そ こで ,ノ の 事 前分布 と して fG(ァ ィ)を ,λ 2の 事 前分布 として Gα (′ ,δ )を 想 定 した 下
記 のモ デル をあて は め,Bり esian Lasso推 定量か ら反 応 変数 に影 響 を与 え る と思 われ る背 景 因子 を選 択 す る
.
ylα ,Xtβ ,′ 〜Ⅳ 2(1442α +Xlち ′1442)
βl′ ,τ 12,τ22,… ,τ
2〜
l。
Ⅳ10(0,′ DD
Dτ =diag(τ 12,ザ ,.¨ ,τ 102)
′,τ 12,τ 22,… ,τ 102〜 ズ♂)グ ′貴■̲cxp(̲ノ イ
/2)グ τ
:
ソ
フ
<′ )=詰 (σ
2)― (ν
■
(2.9)
=12
′
1)cxp(,7/σ 2)(,0,η >0)
′,τ 12,τ 22,… ,τ 102>0
■2)=蕎
(ァ )″
‑1"(̲ノ
)●
2>0,>020)
こ こに ,x「 =cF,X,2*,… 着 10=)Tを J番 目の 患者 にお け るベ ー ス ライ ン 時 の 年 齢 ,性 別 ,.… ,GLUを 成 分 とす る列
ベ ク トル (た だ しカ テ ゴ リカル 変 数 で あ る性 別 以 外 は 全 て 標 準化 して あ る),ッ を ′番 目 の 患 者 にお け る反 応
′
変 数 と して o=1,2,.。 ,442),yは 442名 の 反 応 変数 ノ1,ノ2,… ,ノ 2を 成 分 とす る 442× 1の 列 ベ ク トル ,X*は x∴
2=(τ
X∴ 。
・
・,X44ダ を成 分 とす る 442× 10の 行 列 ,β =(β l,ん ,… ,β 10)T,τ
12,τ 22,… ,τ 102)Tで あ る
.
SASプ ロ グ ラ ム 1は ,Ehnの 糖 尿 病 患 者 デ ー タ に対 し(2つ )の モ デ ル を あ て は め ,Barsian Lasso推 定 量 を
得 るた め の SASプ ロ グ ラ ムの 一 例 で あ る(SAS Instimc lnc"2016).年 齢 ,性 別 ,… ,GLUの 合 計 10個 の 説 明 変
数 に対 す る変 数 名 を順 に AGE,SEX,BMI,MAR
TC,LDL,HDL,TCH,LTG,GLUと し,反 応 変 数 を表 す 変 数 を
Yと した SASデ ー タセ ッ トDiabetesを 用 意 した 上 で の 実 行 を想 定 して い る .STDIZEプ ロ シ ジ ャに よ り,(2.3)
を満 たす よ うモ デ ル に用 い る説 明 変 数 を標 準化 す る。 カ テ ゴ リカル デ ー タ で あ る性 別 を 除 く全 て の 説 明 変 数
を標 準 化 した SASデ ー タセ ッ トStd diあ etcsを 用 い て ,MCMCプ ロシ ジ ャ に よ リパ ラ メ ー タ の 事後 分 布 か ら
の モ ンテ カル ロ標 本 を生成 させ る。
SASプ ログラム 1:E■ onの 糖尿病 患者 デ ー タに対す る Bayesian Lassoの 適 用
proc stdize data: diabetes out: std_diabetes ;
var age bmi map tc ldl hdl tch ltg glu ;
run ;
29
proc mcmc data: std_diabetes seed = 180809 nmc:50000 nbi: 1000 thin: l0 stats : (summary interval) outpost: posterior ; array betafl0] betal-betal0 ; anay mu0[10] ; anay D[10,10] ; array data[l0] age sex bmi map tc ld1 hdl tch ltg glu ; begincnst; call identity(D) ; call zeromatrix(mu0) ; endcnst ; beginnodata; oZmacro loop ; Yodok: I %to 10 ; satau&k: exp(omega&k.) ; D[&k.,&k.] = sLsigma*sq-tau&k. ; %end ; oZmend loop ; Yoloop; endnodata; call mult(beta, data, xb) ; parms sq_lambda ; prior salambda - gamma(l, iscale: 10) ; parms omegal-omegal0 ; prior omega: - expexpon(iscale: sqlambda/2) ; parms sq_sigma 1 ; prior sq_sigma - igamma(shape : 0.1, scale : 10) ; parms alpha 0 ; prior alpha - general(O) ; parms beta ; prior beta - mvn(muO,D) ; model y - normal(alpha * xb, var : sq-sigma) ; run ; 以 下 ,MCMCプ ロシ ジ ャ の 記述 につ いて 補 足す る.4つ の ARIいYス テ ー トメ ン トで ,順 に回帰係 数 ベ ク トル β(10× 1),β の事前 分布 が従 う多変量 正 規 分布 の平均 ベ ク トル μ(10× 1),分 散 共分散行列 Σ(10× 10),10 個 の説 明変数 ベ ク トル を用 意 す る.BEGINCNSTス テ ー トメ ン ト及 び ENDCNSTス テ ー トメ ン トに よ り,μ が ゼ ロベ ク トル で あるこ と,Σ が非対角成分 を全 て 0と す る対称 行 列 であ る こ とを指 定す る.BEGヽNODATA 22を ステ ー トメ ン トか ら ENDNODATAス テ ー トまで で ,■ の事 前 分布 が従 う指数 分布 の パ ラメー タ ′ 設定 し,Σ の 対 角成 分 が ′ザDτ で あ るこ とを指 定す るが ,こ こで収 東性 の観 点か らザ を %で 置 き換 えてい るo=1,2, …,10).CALL MULTル ー チ ンに よ り行列 演 算 (xF)Tβ をセ ッ トした後 ,5組 の PARMSス テー トメ ン ト及 び PRIORス テー トメ ン トにて ,罰 則 パ ラメー タ λ2,%σ =12,̲,10),こ β,切 片項 αの事 前分布 を指 定 してい る。 SASプ ロ グ ラ ム 1で は,λ2の 事前分布 には Cα (1,10)を ,♂ の 事 前分布 には ′G(0.1,10)を ,α の事 前 分布 には無 2/2)の = 指数 分布 に従 うとき'ωノ 情報事 前 分布 を,そ れ ぞれ あてはめて い る .ザ の事 前分布 が パ ラメー タ 1/(λ cxp(.2)の 事 前分布 は尺度 パ ラ メー タ 1/(λ 2/2)の 指 数・指数 分布 (exponential― cxponential dismb面 on)に 従 うこ とか ら (詳 細 は付録 Aを 参 照 ),PARMSス テー トメ ン トにて omegal― omcga10と 指 定 した 後 ,PR10Rス テー トメ が ン トにて対応 す る指数 ・ 指 数 分布 を指定 して い る .最 後 に,MODELス テ ー トメ ン トに よ り,反 応 変数 ッ′ 平均 (xめ Tβ ,分 散 ′ の正 規 分 布 に従 うことを指 定す る . 出力 結 果 1は ,SASプ ロ グ ラ ム 1を 実行 して 得 られ る結 果 を ま とめ た もの で あ る。SASプ ロ グ ラ ム 1で は , PROC MCMCス テ ー トメ ン トの STATSオ プ シ ョン に よ り算 出 させ る統 計 量 を 限 定 した が ,OUTPOSTオ プ シ ョン に よ り生 成 され る パ ラ メ ー タ のモ ンテ カル ロ標 本 を用 い れ ば ,事 後 分 布 に 関す る様 々 な要 約 統 計 量 を 自 30
在 に算 出す るこ とが で き る。また ,PROC MCMCス テ ー トメ ン トにて MONITORオ プ シ ョンを指 定す る と , 指 定 した変数 に対 す る事後 平均 ,事 後標 準偏差 ,95%HPD信 頼 区間 の み SAS OUTPUT画 面 に算 出 され る。頻 度 流 の Lassoと は異 な り,Baycsian Lassoで は ,信 用 区間 が 0を また い でい る変数 をモ デル か ら除外す る と判 断 す る。出力結果 1を み る と,β l,β 5,島 ,β 8,β 10の 信用 区間 が 0を また い でい るた め ,対 応す る年 齢 ,TC,LDL コ レステ ロール ,TCH,血 糖値 がモ デ ル か ら除外 され る説 明変数 と判 断 され る . 出力結果 1:Eionの 糖 尿病患者デ ー タ に対す る Barsian Lasso推 定量 パ ーセ ン ト点 信用区間 25% 50% 2.7658 ‑2.4444 ^0.5984 1.3479 ‑5.8193 5.2227 ‑5.8505 5.1442 ‑22.1428 5.7768 ‑25.9639 ‑22.2659 ‑18.2242 ‑33.2517 ‑10.4697 ‑33.7834 ‑11.1109 β、 24.7261 3.1402 22.6810 24.6983 26.7715 18.5621 30.9076 18.5572 30.8825 ル 15.8232 3.2094 13.7882 15.8642 17.9693 9.3365 22.1178 9.5849 22.2603 ム ‑11.9253 10.7540 ‑19.1080 ‑11.5176 ‑4.7470 ‑33.4816 8.4292 ‑32.9657 8.8525 ん 4.5359 10.9470 ‑2.7033 4.2646 11.6060 ‑16.4867 26.2998 ‑16.5802 26.1359 β‐ ‑10.4190 3.4915 ‑12.7881 ‑10.4203 ‑8.0461 ‑17.4297 ‑3.6911 ‑17.4123 ‑36836 13.9481 ‑14.3858 14.0768 パ ラメー タ 平均 標準偏差 β ‑0.5331 ん l 75% 95%信 用 区間 95%HPD 角 ‑0.0806 7.3069 ‑4.9293 ‑0.0072 4.9120 ‑14.7084 ん 27.4673 6.1086 23.4032 27.6044 31.4804 15.4486 397893 16.0112 40.1052 3.8273 6.0097 ‑2.6039 10.3753 ‑2.6285 10.2503 0.4861 0.6459 0.1842 1.0472 0.1480 0.9683 3.8567 β10 2 λ 0.5185 3.3168 0.2253 1.6206 0.3511 3.Bayesian Elastic Net Lassoの 利点 は ,回 帰係 数 の縮 小推 定 と変数選択 を同時 に行 うこ とに あ り,多 くの場 面 で活 用 され て きた が , 1)説 明変数 の個数 ′ がデ ー タ数 ″よ りも大 きい場合 ,最 大 で も ″個 の 変 数 しか選択 され な い ,2)相 関 の非 常 に高 い 説 明変数 の グル ー プがある場 合 にはその うちあ る 1変 数 のみ選 択す る傾 向 が あ る, とい った 問題 点 が 指 摘 され てい る(Zou md Hastic,2005).Elastic Nctは これ らの 問題 に対 応 す るた めに提案 され た手 法 で あ り , Lassoと 同様 ,変 数 選 択 とパ ラメー タ推 定 の縮小 を同時 に行 うことが で き る.Elastic Netで は ,Lassoに て課 せ られ る罰則項 と リッジ回帰 にて課 せ られ る罰則項 との線 型 結合 えl Σlβ ′│+あ Σβチ ノ‐1 (3.1) ′=1 を罰 則項 とす る.Bayesim Elastic Nctの 適用例 として,E■ Onの 糖尿病患者デ ー タに対 しモデル(3.2)を あては め,反 応変数に影響 を与 えると思われ る変数 を選択す るこ とを考 える。(32)で は,β の事前分布 として ′ の 条件付 き分布 ′ 2)∝ (β lσ e〈 ̲筆 1島 │̲タ ン ) を考 え,絶 対値 庸│が ギブ ス・サ ンプ リングに もた らす影 響 を取 り除 くため,潜 在パ ラメー タ τを用いた階層 構 造 をとり,誤 差項 の分散 ′の事前分布 として逆ガ ンマ 分布 を,罰 則 パ ラメー タ λ12及 び λ 2の 事前分布 にガ ンマ 分布 を,そ れぞれ あてはめて い る(Lcsatte and Lawson,2012). 31
ylα ,X',β ,′ 〜地42(1442α +Xttβ ,′ 1442)
ん │%2〜 xO,σβ2)
2=′ 2+λ l
σ
(げ
β
σ=1,2,… ,10)
ザ〜ム
σ=1,2,… ,10)
σ=1,2,… ,10)
2)‐
2cxp(̲ム 2デ
/2)/2
π=詰 2)‐
(め
1)exp(̲η
(σ
/σ
2)=齢 (伊
λ
ズ
l cxp(̲昭
■2)=わ
C型
( δ 2′
(え 2)り
2)(,0,η
>0)
(32)
)● 12>0,δ >0/>0)
2)● 2>0,δ 2>0め >0)
SASプ ロ グラム 2は ,E■ onの 糖尿病 患者 デ ー タにモ デル (32)を あてはめ Bayesian Elastic Nct推 定量 を得 る
た めの プ ロ グラムの一 例 で あ る。λ12の 事 前 分布 に Gα (1,10)を ,λ 2の 事前分布 に Gα (1,10)を ,♂ の 事前分布 に
IC(0.1,10)を ,α の事前 分布 に は無情報 事 前 分布 をあては め ,SASプ ロ グラ ム 1と 同様 に,収 束性 の観 点か ら
ず を %で 置 き換 え,%=ep(ザ )の 事前 分布 と して指数・ 指 数 分 布 を指定 した σ=12,̲,10).
SASプ ロ グ ラ ム 2:E■ onの 糖 尿病 患者デ ー タに対 す る Bayesian Elastic Nctの 適 用
proc mcmc data: std diabetes seed: 180809 nmc:50000 nbi
: 1000 thin : 10
stats = (summary interval) outpost: posterior;
array beta[ 1 0] beta 1 -beta 1 0 ; array mu0[ I 0f ; anay D[ I 0, I 0] ;
anay data[l0] age sex bmi map tc ldl hdl tch ltg glu ;
begincnst ; call identity(D) ; call zeromatrix(mu0) ; endcnst ;
beginnodata;
oZmacro loop
;
%dok: I ohto 10
:
satau&k: exp(omega&k.) ; D[&k.,&k.] : sasigma*( l/(l/(sqtau&k.**2)+lambda2))
Voertd;
%mend loop I
o/oloop
;
endnodata;
call mult(beta, data, xb) ;
parms sqlambdal ; prior salambdal - gamma(l, iscale
parms lambda2 ; prior lambda2 - gamma( I , iscale
: 10) ;
parms omegal-omegal0 ; prior omega: - expexpon(iscale
parms sqsigma 1 ; prior sasigma
: 10) ;
: salambdali2) ;
- igamma(shape:0.1, scale: l0) ;
parms alpha 0 ; prior alpha - general(0) ;
parms beta ; prior beta - mvn(mu0,D) ;
model y - normal(alpha * xb, var: sasigma) ;
run ;
32
;
SASプ ロ グ ラム 2を 実行 して得 られ る結 果 の うち ,主 要 な モ デ ル パ ラメー タに関す る要約統計 量 を 出力 結 信用 区間 が 0を また いでい る変数 をモ デ ル か ら除外 す ると判断す るた め .Bayesian Elastic Net 果 2に ま とめ た。 を適用 した場 合 に も,年 齢 ,TC,LDLコ レス テ ロール ,TCH,血 糖 値 がモデル か ら除外 され る説 明変 数 と判 断 され る . 出力結 果 2:E,onの 糖尿病 患 者 デ ー タに対す る Bayesim Elastic Nct推 定量 信 用 区間 パ ー セ ン ト点 95%HPD 25% 50% 75% 95%信 用 区 間 2.6498 ‑2.1217 ‑0.3040 1.2110 ‑5.7976 4.7785 ‑5.7389 4.8152 ‑21.6793 5.8211 ‑25.7462 ‑21.5171 ‑17.6164 ‑33.1532 ‑10.6047 ‑33.5901 11.0880 ん 24.9693 3.1809 22.8025 24.9214 27.1030 18.8040 31.2178 19.0511 31.3961 ん 15.7978 3.3172 13.5548 15.8892 18.0139 9.0265 22.0423 9.1108 22.0616 ん ‑10.3095 9.8223 ‑16.3816 ‑9.5655 ‑3.7399 ‑31.4950 7.3254 ‑30.8979 7.7684 ‑15.5494 25.0626 ‑15.3950 25.0649 ‑17.1936 ‑4.2565 パ ラメー タ 平均 β ‑0.4195 ん l ん 3.1100 標準偏差 10.0165 ‑3.3593 9.0751 2.1333 β‐ ‑10.7865 3.4150 ‑13.2033 ‑10.7980 ‑8.5194 ‑17.0124 ‑4.0090 β8 0.5899 6.8749 ‑3.5303 0.8253 5.1579 ‑14.3426 13.5146 ‑13.3272 14.3980 15.7965 38.5689 β9 26.8465 5.6783 22.9990 26.7073 30.4519 16.1185 39.0075 β10 3.3575 3.2245 0.9928 3.2911 5.5600 ‑2.6946 9.8108 ‑2.9613 9.4120 λ12 0.3693 0.2482 0.1764 0.3237 0.5049 0.0437 0.9789 0.0281 0.8290 λ 2 0.3486 0.2287 0.1773 0.3086 0.4841 0.0270 0.8983 0.0002 0.7711 Bayesian Elastic Netは ,Elastic Nctに 対す るベ イ ズ流 アプ ロー チ で あ り,本 稿 で と りあげた以外 に も様 々 な 階層 モ デ ル 及 び事前分布 の 与 え方 が存在す る .Li and Lin(2010)は ,誤 差項 の分散 ′ に 一様事前分布 を ,♂ 所 与 の も とで の潜在 パ ラメー タ τの事前分布 と して互 い に独 立 な切 断 ガ ンマ分布 を ,′ 及 び τ所与 の も とでの 回帰係 数 βの 事前分布 と して 多変 量正規分布 を想 定 した 階層 モ デ ル を提案 した。罰 則 パ ラメー タ λl,λ 2は , Cassela(2001)が 提案 した EBギ ブス・ サ ンプ リン グを適用す る こ とで推 定 してい る.Huang and Cai(2015)は 2)‐ 2の 正規分布を設定し,92が 従 う分布としてλl,λ 2を パラ ′と独立にβの事前分布 として平均 0,分 散(λ l+げ , メ ー タ とす る 一 般 化 ガ ンマ 分 布 を あて は め て い る .こ のモ デ ル で は Markov chain MOnte Carlo(MCMC)に な い サ ン プ リ ン グアル ゴ リズ ム を用 い るた め ,高 次 元 の 統 計 モ デ リ ン グにお い て 計 算 機 され て い る .Huang alld Cai(2015)が 提 案 した Barsian Elastic Netは 頼ら へ の負 荷 が 少 な い と ,フ リー で配 布 され て い る統 計 分 析 ソフ ト ウ ェ ア Rの パ ッケ ー ジ "EBglmnct"に よ り実 行 可 能 で あ る(Huang,2016). 4. お わ りに Fan and Li(2001)は ,変 数 選 択 にお け る望 ま しい性 質 として ,1)変 数選択 の一 致 性 :目 的変数 に影 響 を与 え る と推 定 され た説 明変数 の集 合 は,デ ー タ数 ″→ ∞ の とき真 に影 響 を与 える説 明変 数 の集合 に確 率 1で 一 致 す る こ と,2)漸 近 正 規性 :β の 推 定量 βの分散 共 分散行列 を Vと 表 す とき V万 (β ―β)→ Ц O,V)が 成 り立 つ こ と , を提示 した 。オ ラクル 性 とよばれ るこの性 質 を有す るこ とが ,高 次 元デ ー タを想 定 した統計 モ デ ル の推 定 に 33
おいて,ひ とつの重要な点とされている (安 道,2014). Adaptive Lassoは ,オ ラクル性をもたない Lassoへ の改善策のひ とつ である.罰 則項 としてえΣ わりにえΣ′ =1均 1島 │を 用いる手法であり,あ る条件下のもとでオラクル性をもつ(Zou,2006). を付与す る こ とに よって,絶 対値 が大 きい 回帰係 数 にか か る罰則 を緩 和 させ る 角1島 │の 代 罰則項に重み とい うア イ デ ア を,他 の正 則 化 法 にお け る 目的 関数 に反 映 させ る こ とは 自然 な流 れ で あろ う.Adtttive Elastic Netは ,Elastic Nctに この アイデア を適 用 した手法であ り,罰 則 項 (3■ )の 第 1項 に重 み を付与す る(Zou and Zhang,2009).既 に,adaptive Lassoや adaptive Elastic Netに 対す るベ イ ズ流 アプ ロー チ で ある,Bayesim adaptive Lassoや Baycsian adaptivc Elastic Nctが 提 案 され てお り,あ わせ て実デー タヘ の 適 用例 が紹介 され て い る ,2014). (Leng α α′ 本稿 では , 目的 変数 が連続 量デ ー タであ る場合 に つ いて と りあげたが ,生 存 時間デ ー タヘ の応用 も可能 で あ る.例 えば ,生 存 時間に影 響 を与 え る遺伝子 を選 択 し,選 択 され た遺伝 子 を使 って生 存 時 間 の予測 を行 い た い場合 ,患 者 数 に対 して候補 とな る遺伝 子 は数 多 く存在 す るが ,真 に影 響 を与 える遺伝 子 は限 られ るこ と が 想 定 され る。 そ こで ,候 補 とな る遺伝 子発現量 を説 明変数 とした比例 ハ ザ ー ドモデル に 対 し,今 回紹介 し た手 法 を適用 す る こ とが考 え られ る .残 念 なが ら現 時 点 では,Bayesian Elastic Nctや そ の 発 展 系 に対応す る SASプ ロシジ ャ ,SAS Insutute lnc.か ら公 開 され て い る及 びサ ンプル プ ロ グ ラ ム は存在 しな い .し か し,本 稿 で 紹介 した よ うに ,あ てはめるモデ ル に よっては ,MCMCプ ロシジ ャを用 い るこ とで簡 単 に実 装す ることが 可能 で あ る.ま た ,統 計解析 ソフ トウェア Rで は各 手 法 に対応 したパ ッケ ー ジが用意 され て い るため,SAS か ら Rに デ ー タ を引 き渡 して Rで 推 定量 を求 め る こ とも考 え られ る。 今 日ベ イ ズの 法則 とよばれ てい る もの は, トー マ ス ・ ベ イ ズ に よ り考案 され ,ピ エ ール ・ シモ ン・ ラプ ラ ス に よ り定式 化 され た定理 であ る .ラ プ ラスの死 後長 い 問 ,ベ イ ズの 法則 は ,立 派 な統 計 学 者 が 口にす べ き で な い タブ ー と され ,忌 むべ き存在 と言 われ 続 けた (マ ク レイ ン,2011).そ れ がいまでは広 く受 け入れ られ , 近年 の計算機 器 の 処理能力 向上 と理 論研 究 の発展 と相 ま っ て ,様 々 な分 野 で ベ イ ズ流 ア プ ロー チ が組み込 ま れ るよ うにな っ た .Kyung αα′ 。 (2010)は ,シ ミュ レー シ ョン実験 を とお して ,Baycsian Lassoを 用 い ることの 利 点 として平均 二 乗 予測誤差 が Lassoを 下回 るこ とを示 した。スパ ー ス性 を もつ線形 回帰 モ デ ル に対 しベ イ ズ 流 に推 論 を行 い たい場合 に,本 稿 が少 しで もそ のお 役 にたてれ ば幸 い で あ る . 参 考 文献 [1]Casscla,G.(2001).EΠ lpirical Bayes Gibbs sainpling.Bブ ο″′″κs,2:485‑500. [2]E'On,B"HaStie,T」 .,Johnstonc,I.Mり and Tibshirani,R.(2004).Least Anglc Regrcssion(with Discussion). И″″α′ s9/・ S′α′ ′ s″ ,32:407‑499. [3]Fan,J.and Li,R.(2001).ヽ briable sclcctiOn via nOnconcavc penalizcd likelihood and its Oraclc propertics.ノ ′ 力 ̀И ο′ α′て プ 〃′′ ′ σα S′ α′ パ′ ブ ИSSOι ′ εα′ α″ ′ 0,296:1348‑1360. [4]Huang,A.and Liu,D.(2016).EBgノ ′ ″″′′ rE″フブ ″ たα′βα ツιS″ ″Zαssο α″グE′ αs′ κⅣ ì彪 ″ο グs。 ゎ′Gι ″ι′ α″z̀グ ιブ ″θα″ ̀′ ルわJι ′ s,URL tttps://sites.g00glc.cOm/sitc/anhuihny,R packagc version 2.1‑4.1. [5]Huang,A.,Xu,S.,and Cal,X.(2015).Empirical clastic netわ r multiple quantitativc ttait locus inapping.Iセ ″′ク 114:107‑115. [6]Kyung,M.,Glll,■ ,Ghosh,M"and Casella,G.(2010).Penalized Regression,Standard Err()rs,and Baycsian Lassos. βαッのプ α′И′αクs′ s,5:369‑412. 34 ,
を 動s′ ′ ″″ sq′ ′ [7]Leng,C.,Tran,M.N。 ,and No■ ,D.(2014).Bayesian adaptive Lasso.И ″′α′ 力ι α″ q′ S′ α′ たα′1イα′ お″ 66:221‑244. js′ たS.JOhn Wiley&SOnS,New York 2012. οs′ α′ [8]Lcsatte,E.and Lawson,AB.β αッιs″″βノ [9]Li,Q.and Lin,N.(2010).The Bayesian Elastic Net.Bα ッ̀sノ α″И″αヶsが ,5:151‑170. [10]Liu,J.s.,WOng,W.Hり and Kong,A.(1995).cOvanancc structurc and cOnvergcnce rate ofie Gibbs samplcr with ヵ ″α ′ variOus scans.Jο ″ グ′ ̀Rの たク几 57:157‑169. ′ ぉ″ ο α ′ 肋ι α′ S′ α [11]SAS Instimte lnc.(2015).sИ da SAS Instit■ e lnc.,Cary,NC. sだ :物 rrソ フ4f asι ′ζG″ ブ [12]SAs lnstimte lnc.(2016).SИ Sだ : rS″ 加ακ Exα ″′たSI Bクッの″″ZИ SSO.Available at https://supp。 ■.sas.cOm/mυ app/sねυexamplcs/BayesLassoAasso.htm(最 終 閲 覧 日 :2018年 [13]Tibshirani,R.(1996).RegrcssiOn shrinkagc and SclcctiOn via thc Lasso.Jο ′α′q′ ″ γ′ 7月 2日 ) パ′ たα′Sο ιたク ツα′S″α′ ̀Rο Sι ″as β ,58:267‑288. [14]Pak,T.and Casella,G.(2008).Thc Bayesian Lasso.Jο ′ S′ たα ′ИSSο αα″ο″,103: ′α′q′ ″′И″ι′たα″S′α′ ″′ 681‑686. お′ たα′ Иssο ε″″0″ ,101: rた α ′S′ α′ ″ ″α′ο/′力¢И″ο [15]Zou,H.(2006).The adaptivc lasso and its oracle propcrties.Jο ″ 1418‑1429. [16]Zou,H.and Hastie,H.(2005).Rcgulariz試 S′ α′ ぉ ̀′ ̀α ″ ″α′q′ ″ιRοツα′ lon and variablc selection via the elastic net.Jο ″ β,67:301‑320 ′Sο ιJο ゥ′ [17]zOu,H.and Zhang,H.(2009).On the adaptive elastic― net with a diverging number ofpaametcrs.rあ S′ s̀を′ ′И″″α′ α′ β′ ′ cs,4:1733‐ 1751. [18]安 道知寛 .(2014).高 次元デ ー タ分析 の方法 Rに よ る統計的 モ デ リング とモ デル統合 .朝 倉書店 「 パー スモ デ リング と多 エ [19]岩 波デ ー タサ イ エ ンス刊行委 員 会 .(2017)岩 波 デ ー タサイ ンス Vol.5特 集 ス . 変量デ ー タ解 析 」 .岩 波書店 . [20]川 崎勝 巳,有 光 導徳 ,新 城博 子 。(2017).GLMSELECTプ ロシジ ャにお け る LassOの 有用性 に関す る検 討 . SASユ ー ザ ー 総会 論文集 2017,392. [21]ク リス トフ ァー 訳 ,丸 善 出版 。Mだ` シ ョップ 。(2006).パ ター ン認 識 と機 械 学習 上 .元 田浩 ・栗 田多喜夫・樋 口知 之監 . [22]小 西貞則 ,越 智 義道 ,大 森裕 浩 .(2008).計 算統 計 学 の方法 一 ブー トス トラ ップ MCMC.朝 倉 書店 。EMア ル ゴ リズム・ . [23]小 西貞則 ,北 川 源 四郎.(2005).情 報 量基準 .朝 倉 書 店 . [24]シ ャ ロン・ バ ー チ ェ・マ グ レイ ン.(2011)異 端 の 統 計学 ベ イ ズ .冨 永星訳 ,草 思社 . [25]古 澄英男 .(2008).マ ル コフ連 鎖 モ ンテ カル ロ入 門 .21世 紀 の 統 計科学 .日 本 統計 学会 HP版 http:〃 parkoitc.u― tOkyoac」 p/atstattss75shunen″ o13.pdf(最 終閲覧 日 :2018年 7月 2日 ). 連 絡先 E― mail:ノ ο″ α′ ″ ″ε αグα― s〈@α 2カ ι ̀α 35 .
付録 A:指 数 分布 の対数 変 換 確 率 変数 χがパ ラメ ー タ ″ (>o)の 指数 分布 に従 うとす る .こ の とき , y=10g(χ ),θ>0 (Al) に よ り定 義 され る確率 変 数 yは ,以 下に示 す とお り尺度 パ ラ メ ー タ 1/λ の指数 ・ 指数 分布 に従 う 確 率変数 χ が パ ラメー タ 1/λ の指数分布 に従 うとき,そ の確 率密 度 関数 分(χ )は ル(χ )=λ eXp(力 )(― ∞ 守 く∞ ) (A2) で あ る。 (Al)に よ り定義 され る確 率変数 yの 確 率密度 関数 /ル )は ,(Al)の とき χ =eXp(り で あ る こ と,か 0,一 ∞<χ <∞ の とき―∞くソ<∞ ,cxpO)>oで あ る こ とを用 いれ ば │ ./1/(ッ )=.′ χ(CXp(ッ ))│ =え CXp← 教 の え cxpし ))ICXp())│ )) (A3) =え eXp(ツ )CXp← えep(ツ とな る。 以 上 よ り,確 率 変数 χ が(A2)で 表 され る指数分布 に従 うとき,(Al)で 定義 され る確 率変 数 yは で表 され る指数 。指数 分布 に従 うことが示 され た。 36 (A3)
MCMCプ ロシジ ヤ に よる コンパー トメ ン トモデ ル を用い た母 集 団薬物動 態解析 ○矢 田 真城 1エ 1 魚住 龍史 2 浜 田 知久馬 3,† イツー ヘ ル ス ケア株式会社 デ ー タサイ エ ンス 本部 生物統 計第 1部 2京 都 大学大学院 医学研究科 医学統 計 生物情報学 3元 東京理科大学 Population pharmacokinetic analysis from compartment models using MCMC procedure ShinJo Yadal,Ryllji Uozumi2,and chikulna Hamada3■ 13′ 21)。 pα ′ 0 筋ια42(〕 ο′ ια′ αScj̀″ ιaDブ ッおJο れ,И 2正ぷ ′ ι″′I,Dα ′ パ″ιs Dι ′α′ οs′ α′ ψO″ α′ 〃 υ a″ ι ブ ″ ιSC力 00′ グル 4siク G7・ α a α 。′ 。じ″ッ ι ′ たs,κ ッ q′ Bj。 ″ のα ′ グBゴ 。 ι ttι α ′ s′ α ′ ′″ ″ 加ι ′ ′ ″ヵr α 3 FO″ ′ ヴ ッ θ ヶグ駐たκθ b″7η θ θ ′ゐ″0しИ リ s′ (ア ̀s′ 要旨 薬物動 態解 析 は ,薬 物 の 吸収 ,分 布 ,代 謝 ,排 泄 まで の過程 に 関す る解析であ り,そ の 目的は,血 液 中薬物 濃度 の経 時的 なプ ロフ ァイ ル を提供 し,血 液 中薬 物濃度 の推移 と薬 効 との関連 を検 討 す ることに あ る .こ れ まで ,コ ンパー トメン トモ デ ル 解 析 を SASで 行 う場合 ,微 分方 程 式 を解 いて得 られ る血液 中薬物 濃 度 の式 を 記述 せ ね ば な らず ,必 ず しも使 い勝手 が よい とは い えなか った 。 しか し,SAS/STAT 14.3に お いて ,MCMC プ ロシジ ャに CMPTMODELス テ ー トメ ン トが 追加 され ,代 表 的 な モ デ ルについ て簡 単 に解析 を行 うこ とが 可能 とな った .ま た,CALL ODEル ー チ ン を用 い る ことで 同様 の解 析 を行 うこ とが で きるよ うに な った .本 稿 で は , コ ンパー トメ ン トモ デ ル 解析 につ い て ま とめ,MCMCプ ロ シジ ャを用 い た適 用例 を報告 す る キ ー ワ ー ド :母 集 団 薬 物 動 態 解 析 ,コ ン パ ー トメ ン トモ デ ル ,MCMC,CALL . ODE,CMTMODEL 1.は じめに 薬物 は ,大 部分 が小腸 で 吸 収 され ,血 液 に よって全身 に運 ばれ ,肝 臓 で代謝 され ,腎 臓 で排泄 され る。 こ の 薬物 の 動 き の ことを薬物 動 態 とい う (加 藤 ,2016).ヒ トにお け る薬物動態 は ,臨 床 試験 で得 られ た 血 液 中 へ 薬物濃 度 な どのデ ー タを解 析 し,そ の結果 に基 づ いて検討 され る .血 液 中薬物濃 度 は ,体 内 の吸収 と分布 , 体 内で の 滞 留 ,体 外 へ の排 泄 に関す るパ ラ メ ー タ (薬 物動態 パ ラ メ ー タ)を 用 い て 表 され る。 この た め ,血 液 中薬 物 濃度 の デー タに対 して薬物動態解 析 を行 う場合 ,大 き くは ,1)被 験者 ご とに薬物動態 パ ラメ ー タを 推 定す る ,2)被 験者 が 属す る母集 団 の薬物動 態 パ ラメー タを推 定す る,こ とが考 え られ る.後 者 が母 集 団薬 物動 態解 析 で あ り,コ ンパ ー トメ ン トモ デ ル を用 いた解析 が行 われ る ことが多 い (矢 船 ・ 石黒 ,2004).コ ン 12017 + 12 F 2t F)fr.* 37
パ ー トメン トモ デ ル を用いた解 析 とは ,人 体 がい くつ かの 区画 (コ ンパ ー トメン ト )か ら構 成 され ると仮 定 し,血 液 中薬 物 濃 度 はある コ ンパ ー トメン トモ デル に よって表 現 で き る と考 える。そ して ,被 験者 の血 液 中 薬物濃度 が 異 な るの は ,あ て は め た コ ンパー トメ ン トモ デル に含 まれ る薬 物 動態 パ ラメー タが被 験者 ごとに 異 な るため と捉 え,被 験者 ご とに異 な る薬物動態 パ ラメー タを表 現す るた めに,あ る確 率 分布 を想定す る . 母集 団薬物動 態 解 析 では,薬 物 動 態 パ ラメー タに想 定 した確 率分布 を規 定す るパ ラメー タ を,得 られ た血 液 中薬物濃度 の 測 定値 か ら推定す る。 母集団薬物 動 態 解析 で推定 の 対 象 となるパ ラメー タ を母 集 団パ ラメ ー タ とよぶ .母 集 団 パ ラメー タをベ イ ズ流 に推定す る場 合 ,薬 物動態 パ ラメー タが従 う分布 を規 定す るパ ラメ ー タに対 し事前 分布 を想 定す る。例 えば,分 布容積 と消失速度定数 が 対 数 正 規分布 に従 うと仮 定す るので あれ ば ,対 数 正規 分布 を規 定す る平均 と分散 を表現す るた めに,事 前 分 布 と してある確 率分布 をあてはめ る .事 前分布 に ,得 られ た被 験者 ご との 血 液 中薬物濃 度 の 測 定値 を反 映 させ た事 後分布 を算 出 し,母 集 団パ ラメ ー タを推定 す る.こ れ まで,SASの MCMCプ ロシ ジ ャ を用 い て事後 分 布 か らのモ ンテ カル ロ標本 を生成 す る場 合 ,あ てはめたいモ デ ル に対す る 微 分方程式 を解 い て 得 られ る血 液 中薬物濃度 の式 をプ ロ グラム 中に記 述 しな けれ ばな らず ,他 の ソフ トウエ ア と比べ る と,必 ず しも使 い 勝 手 が よい とはい えなか った .し か し,SAS/STAT 143に お い て MCMCプ ロシ ジ ャに CMPTMODELス テ ー トメ ン トが追加 され ,代 表 的 な コ ンパー トメ ン トモ デル をあて は めたベ イ ズ流 の推定が可能 とな っ た(SAS Institute lnc.,2017)。 また ,MCMCプ ロシ ジ ャにて CALL ODEル ー チ ンを使 うこ とに よ り,微 分 方 程 式 を用 いた プ ロ グラ ミングを行 うこ とがで きる(SAS Instimc lnc"2017).本 稿 では,コ ン パ ー トメン トモ デル を用 いた母集 団薬 物動態解析 に つ い て ま とめ,MCMCプ ロシジ ャを用 い て母 団パ ラメ 集 ー タを推定す る方 法 に つい て解 説 す る . 2.コ ンパー トメン トモデル コ ンパー トメ ン トモ デ ル は ,薬 剤 の 投与経路 と コ ンパ ー トメン トの数 に よって分類 され る .例 えば ,薬 剤 の 投 与経路が点滴 静注 であ り,体 内 を 1つ の コ ンパ ー トメ ン トと想 定 した 場合 ,そ のモ デ ル は点 滴静注 1‐ コ ンパー トメン トモ デル とよばれ る。 医薬 品開発 にお け る薬物動態 解析 で よ く用 い られ る コ ンパ ー トメン トモ デル は,点 滴静 注 1‐ ,2‑コ ンパ ー トメ ン トモ デル ,経 口投 与 1‐ ,2‐ コ ンパ ー トメ ン トモ デル で あ る (猪 川 ・ 田中 , 2015).以 下で は ,経 口投与 1‐ ,2‑コ ンパー トメン ト モ デ ル につ いて説 明す る .点 滴静注 1‑,2‑コ ンパ ー トメン トモ デル につ い て は ,付 録 Aに ま とめた。 D コ ンパ ー ト メ ン ト0 コ ンパ ー ト メ ン ト1 図 1:経 口投与 1‑コ ンパ ー トメン トモ デル 経 口投与 の場 合 ,血 管外 か らの投 与 であるため ,薬 物 が対象 とな る コ ンパ ー トメン トに流 入 す る前の吸収 過 程 をモデ ル 化 しな けれ ばな らず ,経 口投与 の コ ンパ ー トメン トモ デル で は ,吸 収過程 の コ ンパ ー トメン ト を想 定す る.図 1は ,経 口投与 1‑コ ンパ ー トメン トモ デル を示 した もの で あ る。 コ ンパ ー トメ ン ト0が 吸収 過 程 の コンパ ー トメ ン トであ り, コ ンパ ー トメン ト0で の薬物量 を 表),コ ンパ ー トメン ト 1で の 薬物量 を 石 とす る と , 38
学 =― げ0
(1)
(2)
参 =ヴ 0̲た 10χ l
パート
メント1の 消失速度定数である
メント1の 吸
。
ここに,ち はコン
収速度定数 10は コンパート
と
なる
,た
O).A=千 ―たα 0
XO=̀χ
`
′ χ ´
k たα ―た10
ヽ lり
ヽ
サ
とお くと,れ ,名 の微分方程式は aK(の ″ =AX(′)と 表す ことができ,解 は
X(′
)=[Xp(え lr)■ +CXp(え 2r)L}X(0)
で与 え られ る。 こ こに ,Aの 相 異 な る 2つ の固有値 を λl,λ 2と して
1
1
え21),P2=T LT̲(A― ム I)
町 =T̲土
=̲(A―
ん2 ん
んl ん
2
l
で あ る (登 坂 ,2015).λ l=‐ た10,λ 2=‐ ん を用 いて
.
/
I)=可 Tttt
町 可 あ
=不
(A―
1
1
P,=一一二――(A一
九I)=
` ̀´
―力α+た 10
え
2 ム
―力α+た α
0
0
0
―た10+た α)=〔たα/(た ´―た10)1
カα
ι +た
1。
υ
・
、r
0
l=│
│
l
│ヽ
リ
o、
一た
λ
lo)0リ
lo+た loり (― ち 。
α ―た
とな り,投 与量 を Dと して ′=0の とき れ =2X=0で あ るか ら
/(た
0
exp(-kat)
II=│̲L̲
ノ)}CXp(― た
{exp(― た )一 ep(― た
̲た
ヽ kヵ α
10
Jr;t
│ザ │={eXp( た 10r)Pl+eXp( け )P2】 Vノ
Alノ
ヽ
Dexp(一 た
ノ)
た ep( け
万
驚い
みn
│
=│
(一
t
10′ )
10′
10′
)一
、
)}
│
コ ンパー トメ ン ト 1の 分布容積 を る,時 間 ′での コ ンパ ー トメ ン ト 1の 血 中薬物濃度 を Gと して
Cl=紀
師
齢
(―
力 )一 eXp(― t)}
で あ り,分 布 容 積 を用 いず ク リア ラ ンス を用 いた 表 現 にすれ ば
ρ
し
̲
1
た
OD
CZl(た α―た
10)
[xp(―
た)一 eXp(一 け
10′
(3)
)}
である
D
コ ンパ ー ト
メ ン ト1
コ ンパ ー ト
メ ン ト0
み
几
12
ち
1
コ ンパ ー ト
メ ン ト2
図 2:経 口投与 2‑コ ンパ ー トメ ン トモ デ ル
39
経 口投 与 2‑コ ンパー トメ ン トモ デル の場 合 (図 2),中 心 コ ンパ ー トメ ン ト (コ ンパ ー トメ ン ト 1)と 末梢 コ ンパ ー トメン ト (コ ンパ ー トメン ト2)以 外 に ,吸 収過程 をモ デル 化 した コ ンパ ー トメ ン ト (コ ンパ ー ト メン ト 0)が 必要 とな り,れ ,名 ,ぁ を コ ンパ ー トメ ン ト0,コ ンパ ー トメン ト 1,コ ンパ ー トメ ン ト2で の薬 物 量 と して 子 = げ0 (4) サ =ヴ 0 (た 10+た 子 =た 12)χ l+た 21χ 2 (5) 12χ l た 21χ 2 (6) となる.(4)か ら′=0の とき j‰ =Dよ りχb=D exp(̲り )と 解 くことがで きる よ つ て χlと χbは ,(5)と (6)か ら ′=0の とき れ=o,ぁ =0で あ ることを用いて X(′ )修A2ノ)A「 2竹 た )b(′ )「 κ 21ノ L l た 12 ヽ κ ヽ Dザ ] O 」 と して X(r) = r'Ax(O)+n'Afiu-'Ablryds = if e('-')Ablsyds (7) で与え られ る (金 子,2014).α ,β を Aの 固有値 α = β= - (kro + k,, + krr) - 10 +krr+krr)2 -4k2tkrc 2 - (kro + k,, + krr) + (kro + kr, + k2)2 - 4k2tk1o 2 と して ′ 力 10 た 12 β ′ A cxp(α θ =::: │ )̀ α〃 力 21 た 21 ) ).eマ Tア(β )̀ た 10 た 12 α た 21 β り 丁【 た 12 た 21 α リ l r (力 10+た 12+β )CXp(α ′ た )+(た 10+た12+α )eXp(β ′ ) 21 CXp(″ ) た 21 eXp(ル ) た 12 k αβ k た ) た 12 eXp(夕 ) 12 CXp(α ′ (た 21+β )e紳 ′ )+(た 21+α )C理 (ρ (α ヽ )リ であ り,λ l=― α,λ 2=プ とお くとき,α +β =く たlo+た 12+綴 )= 仏 +λ 2)で あることを用いて ´ =̲上̲ え2 ム ( ―s)Ab(S)= (た 21 え 1)CXp( え lr) (た 21 え 2)eXp( え 2′ ) た21 eXp( え ) た 21 CXp( え た12 eXp( 右 ′ ) た 12 CXp( ス 2″ ) (た 21 え 2)CXp( ム ′ )+(た 21 ム )eXp( え ハた ὰ(た 21 え1)eXp( え 十え ls― た が)― 1′ ス2 ̀(′ (た た12 eXp( え 1′ +え lS 々 aS) た えlk 1′ 十あs― た S)ヽ 21 え 2)eXp( あ ′ α 12 CXp( え 2′ +あ S 力 αS) 2′ ) 〕 2′ ) リ よつ て (7)か ら , χl=D (た 21 え 1) たα (θ ̲̲上̲ =堕 え (え l え 2)(た α 2) 笙 ―ι ′ ) +D■ ム′ ′ 力 (あ ― 1)(ち ― l) 亀 あ′ ― (′ ̀ t′ ) とな り, コ ンパー トメン ト 1の 分布容積 ろ を用 い る と,コ ンパ ー トメ ン ト 1の 血 中薬 物濃度 Gは 1‑え 1) CI= (え たα え 2 え 1)L(力 α (′ 1) ― λ lr̲ι ― 貯)+DlLl二生主 (え たα 1‑あ )И (た α え 2) l 40 0 ろ′ 礼 ―ι ′ )
とな る(Fishcr and Shaた ち2007). 3.母 集 団パ ラメー タの推定 母集 団 パ ラメー タの推 定 に は ,大 き く 3つ の 方 法 がある (緒 方 ,2010).ひ とつ は ,2段 階法 と よばれ る方 法 であ り,被 験者 ごとに薬 物 動態 パ ラメー タ を推 定 し,推 定 され た薬 物動態 パ ラ メ ー タの平均 と分散 を用 い て,母 集 団 にお ける薬物 動 態 の 平均 と分散 を推 定 す る (船 渡川 ・ 船 渡川 ,2015).2段 階法 を SASで 実行 す る ためには ,NLINプ ロシジ ャ に よ り被験者 ご とにモデル をあて は めて薬物動態 パ ラ メー タを推 定 し,平 均値や 分散 を算 出す る (五 所 。菅波 ,2005).:NPD(nat市 c pooled dao法 は ,各 被験者 の デ ー タをあたか もあ る 1名 の 被験者 か らのデ ー タで あ るか の よ うにみ な して ,プ ール し解 析 す る方法 であ り,被 験者 ご とのデ ー タが少 な く薬物 動 態 パ ラメー タが推 定 で きない場合 に用 い られ る.残 る も うひ とつの方 法 が ,非 線形混合 モ デ ル を用 いた解析 で あ る.全 被 験者 に対 して共通 の パ ラ メ ー タ (固 定効 果 )と 被験者 間で の 差 を表す パ ラメ ー タ (変 量効果 )と を用 い て薬 物動 態 パ ラメー タを表 現 し,血 液 中薬 物 濃 度 に対 して薬物 動 態 パ ラメー タ に 関 して非 線形 なモ デ ル をあてはめ る .非 線形混合 モ デ ル を用 いた解析 で は ,血 液 中薬 物濃 度 の推移 はあ るモ デル に よ って表す こ とができる と し,被 験者 間で の血 液 中薬物濃度 の 相 違 は ,被 験者 間 で の 薬 物動態 パ ラ メー タの相 違 に よる も の である と仮 定す る。この,被 験 者 間 で異 なる薬物 動 態 パ ラメー タ を表 す た めに確 率分布 を用 い , 実際 に得 られ たデ ー タに基 づ いて確率分布 を規 定 す るパ ラメー タ を推 定す る (丹 後 。上坂 ,2006).SASで は NLMIXEDプ ロシジ ャで 非線 形 混合 モデ ル を用 い た解析 を行 うこ とが でき,こ れ ま で に も適用例 が い くつ か 紹介 され て きた (五 所 。菅波 ,2005;長 谷川 ・ 浜 田,2007). 例 と して ,経 口投与 1‐ コ ンパ ー トメン トモ デ ル を とりあげ る。このモ デル で は ,血 液 中薬物濃度 の推移 は , 微分方 程 式 (1),(2)を 解 いて 得 られ る(3)に よっ て表 され る と仮 定す る.薬 物動態 パ ラメ ー タは,ク リア ラ ンス CZ,コ ンパ ー トメン ト 1の 吸収 速度定数 爆 コ ンパー トメ ン ト 1の 消失速度 定数 た10で あ り,被 験者 ご とに 血 液 中薬 物 濃 度 が異 な るの は ,こ れ ら 3つ の 薬 物 動態パ ラメー タが被験者 ご とに異 な るため と考 える。定式 化す る と,ブ 番 目の被験者 にお け る時間 了で の血 液 中薬物濃 度 を G傷 投与量 を D′ ,ク リアランス を CZ′ ,コ ン パ ー トメ ン ト 1の 吸収速度 定 数 場 ,コ ンパ ー トメ ン ト 1の 消失 速度 定数 た と して q()溌 10,ァ 鵠 た 和亀 ε [Xp(― )― (― )}十 とな る。誤 差 項 ε ″及び ブ番 目の被験者 にお け る薬 物動態パ ラメ ー タ CZ′ ,た″,た 10,′ を ,あ る確 率分布 を用 い て表 現す る こ とにな り,例 えば次 の よ うなモ デ ル が 考 え られ る(Pinheiro and Batcs,1995). CZ,=cxp(β l+al) 場 =eXpr2+ι 2) =eXp(β 3) れ′ ε 〜xO,イ ) ″ / ら,1 ,2 ) ヽら ' 〜 ハ石 (0,Σ ),Σ =( σ σ α σ̀L た α σ 島) cι ,た CL′ 2の 母集 団 パ ラメー タ βl,ん ,ん ,σ cz2,σ cι κ α ,σた .2,σε 推 定には ,最 尤 法 を利 用す るのが 一 般 的で あ る .最 尤 法 で 2,σ 2)Tと 母集 団 パ ラメ ー タを推 定す る場合 ,固 定効果 β=(β l,ん ,ん ,σ z2,σ αぁ σた 変 量効果 bi=(al,陽 )Tに 対す α ε (、 る同時尤 度 関数 を,変 量効 果 に関 して積 分 した周 辺尤度 関数 を用 い る こ とが 多 い 。 た だ し,非 線 形混合 モ デ ル の場合 ,周 辺尤度 関数 を明示 的に表現す る こ とができない た め ,積 分 の近似 計 算 と してテイ ラ ー 展 開で 1 41
次 近似 した 関数 を用 い る方法(Bcal ttd Shcincr,1988)や ,適応 的ガ ウス求積 法 (Pinhciro and Bttcs,1995)な 値 積 分 を行 う方 法 が採 用 され てい る どの数 . ベ イ ズ流推 定 で は ,薬 物動態 パ ラメ ー タに対 して , これ までの臨床試 験 に基 づ きデ ー タが得 られ る前の分 布 (事 前分布 )を あて はめ,得 られ たデ ー タが生 起 す る確 率 (尤 度 )か ら,ベ イ ズの 定理 を用 いてデー タが 得 られた後 の 分 布 (事 後分布 )を 求 め る ことにな る.上 記 の経 口投与 トコ ンパ ー トメン トモ デ ル でいえば,β l, ん,ん Σ,イ に対して,先 行する臨床試験の結果を参考に事前分布を設定し,事 前分布と得られた被験者の血 液 中薬物濃度 の 測 定値 か ら事後分布 を求 め,薬 物 動 態 パ ラメー タの推 論 に使 用す る . ︵ ぐ¨日︶ 赳 寝 S X I 輝 僣 0 5 10 15 投与後 の経過時間 (缶 20 25 ) 図 3:テ オ フ ィ リン を単回経 口投 与 した 12例 の 被 験 者 にお け る血 液 中薬 物 濃 度 推 移 の プ ロ ッ ト(Pimciro md Batcs,1995).縦 軸 はオ リジ ナ ル ス ケ ー ル で あ り,グ ラ フ 中 に示 され た a,b,… ,1は 被 験 者 番 号 を表す . 経 口投与 1‑コ ン パ ー トメン トモ デ ル 解析 の例 と して ,Pinhcm and Bates(1995)が 紹介 した テ オ フ ィ リンのデ ー タを と りあ げ る .こ れ は,テ オ フ ィ リンを単回経 口投 与 した 12例 の 被 験 者 にお ける投 与 後 25時 間以内 で 11回 測定 され た 血 液 中薬物濃度 のデ ー タであ り,SASで は NLMIXEDプ ロ シジ ャのマ ニ ュ アル で もとりあげ られ てい る(SAS Institute lnc"2017).図 3に 血液 中薬 物 濃 度推移 のプ ロ ッ トを示 した。グ ラ フの 中に示 され た a,b,… ,1が 被 験者 番 号 1,2,… ,12に 対応 す る。 このテ オ フ ィ リンのデ ー タに対 して ,β l,ぁ ,ん が それ ぞれ互 い に 独 立 に平均 0,標 準偏 差 100の 正 規 分布 Щ O,1002)に ,b,1及 び ら2が 従 う 2変 量正規分布 の 分 散 共 分散行例 Σ が自由度2,共 分散行列Sを もつ逆ウィッシャー ト分布 ′ ″の分散イ が尺度パラメータ3,形 K2Qに ,誤 差項ε G(3,2)に ,そ れぞれ従 うと仮定 した下記モデル を考える 状 パ ラメー タ 2の ガ ンマ分布 ′ . C:(の =η (の +ε ″ ()=乱 η ちいリーり (― CXp(― } CZ,=eXp(β l+ろ ,1) =eXp(β 2+場 ) ん′ =eXp(β 3) ん′ 2) ε 〜N(0,σ ε ″ l)〜 千 xO,Σ ク ヽ :′ ) J2ノ βl,ん ,ん 〜N(0,1002) 42
Σ〜′レ
(2,o
2〜
σε IC(3,2)
SASプ ロ グ ラ ム 1は ,上 記 モ デ ル を あてはめた解 析 を行 うため の プ ロ グラム コー ドで あ る。(1),(2)で 表 され
る微 分方程 式 の 解 として コンパ ー トメ ン ト1の 血 中薬 物 濃度 が(3)で 与 え られ るこ とを利 用 して,MCMCプ ロ
シ ジ ャにそ の解 を直接記述 して い る。ここで ,THEOPHは ,被 験者 番 号 を表す変数 SUBJECT,投 与後 の 経過
時 間 を表す 変数 TIME,血 液 中薬 物 濃 度 を表す変数 CONC,投 与量 を表 す変数 DOSE,体 重 を表す変数 WTを
もつ SASデ ー タセ ッ トであ り,SAS/STAT(R)14.3 Users'Guide,Example 61.1か
ら入 手 で き る(SAS Institutc lnc.,
2017).bum―in数 を 1,000,生 成 させ るモ ンテカル ロ標 本 数 を 10,000,モ ンテ カル ロ標 本 の サ ンプ リン グ 間隔
を 5と 指 定 した た め ,2,000個 のモ ンテ カル ロ標本 が SASデ ー タセ ッ トOUTSAMPLEに 出力 され る.PRIOR
2が
ス テ ー トメ ン トにて βl,ん ,ん ,Σ ,σ ε
従 う事前分布 を指 定 し,IRANDOMス テー トメ ン トにてオプ シ ョン
SUBJECT=に て被 験者 を表す 変数 を指 定す るこ とで ,被 験者 ご とに ら,1及 び 場 が 2変 量 正 規分布 N(0,Σ )に 従
2に
うもの と して ,β l,ん ,β 3,Σ ,σ ε つ い て事後分布 か らの サ ンプ リン グが行 われ る。
SASプ ロ グ ラ ム 1:経 口投 与
1‐
コ ンパー トメ ン トモ デル解 析
proc mcmc data: theoph
nmc
: 10000 seed: 1234 nbi : I 000 thin : 5 outpost : outsample ;
anayb[2];
array muB[2] (0 0) ;
anay covl2,2f ;
anay S[2,2] (l 0 0 1) ;
parms betal -3.22beta20.47 beta3 -2.45 ;
parms cov {0.03 0 0 0.a} ;
parms s2y;
prior beta: - normal(0, sd: 100) ;
prior cov - iwish(2,S);
prior s2y - igamma(shape = 3, scale : 2);
random b - mvn(muB, cov) subject: subject;
cl: exp(betal+bl) ;
ka: exp(beta2+b2) ;
: exp(beta3) ;
mu : dose*ke*ka*(exp(-ke*time)-exp(-ka*time))/cll(ka-ke)
ke
;
model conc - normal(mu,var: s2y) ;
nrn;
SAS/STAT 14.3で は ,MCMCプ
ロ シ ジ ャを用 い て 上 記 と同 じ解 析 を行 うに あた り,2つ の 異 な る実 装 方 法
が 可 能 とな った 。 ひ とつ がサ ブル ー チ ン CALL ODEを 用 いた 方 法 で あ り,も うひ とつ が CMPTMODELス テ
ー トメ ン トを用 い た 方 法 で あ る(SAS Institutc lnc,2017).SASプ ロ グ ラ ム 2は ,サ ブ ル ー チ ン CALL ODEを
用 い た SASプ ロ グ ラ ム コー ドの 一 例 で あ る.こ の 方 法 で は ,FCMPプ ロシ ジ ャ の SUBROUTINEス テ ー トメ
43
ン トに よ リサ ブル ー チ ン を 定 義 した 後 ,MCMCプ
ロ シ ジ ャ に て CALL
ODEル ー チ ン を用 い る こ とに よ り
,
微 分 方 程 式 の 解 を与 え て い る 。 SASプ ロ グ ラ ム 2で は ,FCMPプ ロ シ ジ ャ にお い て ,コ ンパ ー トメ ン ト 0の
薬物 量 と時 間 ′にお け る傾 き を y[1],dy[1],コ ンパ ー トメ ン ト 1の 薬 物 量 と時 間 ′にお け る傾 き を y[2],dy[2]
と して ,経 口投 与 1‐ コ ン パ ー トメ ン トモ デ ル で の 微 分 方 程 式 を記 述 し,OUTARGSス テ ー トメ ン トで ア ップ
デ ー トす る変 数 とな る dy[1],dy[2]を 指 定 して い る。 CALL
ODEル ー チ ンは ,1次 の 常微 分 方 程 式 を数 値 的 に
解 くた め の ス テ ー トメ ン トで あ り,FCMPプ ロ シ ジ ャで 作成 した サ ブ ル ー チ ン名 ,微 分 方 程 式 の 解 を もたせ
る変数 名 ,初 期 値 ,FCMPプ ロ シ ジ ャで作 成 した サ ブル ー チ ン の 引数 を指 定 す る .FCMPプ ロ シ ジ ャ に よ り
FCMPス テ ー トメ ン トの OUTLIBオ プ シ ョン に よ リサ ブル
ー チ ン を格 納 す る場所 を指 定 した 上 で ,OPT10NSス テ ー トメ ン トの CMPLIBオ プ シ ョン に よ りそ の 格 納 場
所 を指 定 す る必 要 が あ る (井桁 ,2010).SASプ ロ グ ラ ム 2で は ,PROC FCMPス テ ー トメ ン トにお い て OUTLIB
=WORK.FUNCS.PKと 指 定 した こ とに よ り,WORKラ イ ブ ラ リの デ ー タセ ッ トFUNCKSの パ ッケ ー ジ PKに
定義 した サ ブル ー チ ン を用 い るた め には ,PROC
,
サブル ー チ ン OneCompが 格 納 され る。
SASプ ロ グ ラ ム 2:CALL ODEに よ る経 口投 与 1‑コ ン パ ー トメ ン トモ デ ル 解 析
proc fcmp outlib: work.funcs.PK ;
subroutine OneComp(t, y[*], dy[*], ka, ke) ;
outargs dy ;
dy[] : -ka*y[l] ;
dy[2] : ka*y[]-ke*y[2] ;
endsub ;
run;
options cmplib
: work.funcs;
proc mcmc data: theoph
nmc: 10000 seed: 1234 nbi: 1000 thin: 5 outpost: outsample ;
anaybl2l;'
anay muB[2] (0 0) ; array covl2,2l ;
anay Sl2,2l (l 0 0 l) ;
parms betal -3.22beta20.47 beta3 -2.45;
parms cov {0.03 0 0 0.4} ; parms s2y ;
prior beta: - normal(0, sd: 100) ;
prior cov - iwish(2,S);
prior s2y - igamma(shape = 3, scale : 2);
random b - mvn(muB, cov) subject: subject ;
cl = exp(betal+b1) ; ka
: exp(beta2+b2) ; ke : exp(beta3) ; v = cl,&e ;
anay initl2l dose 0 ;
anay sol[2] ;
call ode('OneComp', sol, init, 0, time, ka, ke) ;
mu = (so1[2]/v) ;
44
model conc - normal(mu,var: s2y) ;
run
この よ うに,サ ブル ー チ ン CALL ODEを 用 い た方法で は ,微 分 方程式の解 をプ ロ グラム 中に記 述 す る必要
は な く,微 分方程式 の み を記 述すれ ば よい とい う利点 が あ る。
も うひ とつ の方法で あ る,CMPTMODELス テ ー トメン トを用 い た方法では ,微 分 方程式 を記述 す る必要す
らな く,あ てはめたい 薬剤 の 投 与経路 ,コ ンパー トメン トの数 な どをオプシ ョンで 指定す るだ け で ,パ ラメ
ー タの推 定 を行 うこ とが で き る.CMPTMODELス テ ー トメ ン トで は ,薬 剤 の 投 与 経 路 として静脈 内注射 ,点
滴 静 注 ,経 口投 与 ,コ ンパ ー トメン トの数 と して 1か ら 3ま で の ,合 計 9種 類 の コ ンパー トメ ン トモ デル解
析 が 可能 となった。
SASプ ロ グ ラ ム 3:CMPTMODELス
テ ー トメ ン トに よ る 経 口投 与 1̲コ ン パ ー トメ ン トモ デ ル 解 析
proc mcmc data: theoph
nmc: 10000 seed: 1234 nbi : 1000 thin = 5 outpost: outsample stats : all ;
wrayblZl;
array muB[2] (0 0) ; anay covl2,2l ;
array Sl2,2l (l 0 0 1) ;
parms betal -3.22bet0 0.47 beta3 -2.45 ;
parms cov {0.03 0 0 0.4} ; parms s2y;
prior beta: - normal(O, sd: 100) ;
prior cov - iwish(2,S);
prior s2y - igamma(shape :3, scale = 2);
random b - mvn(muB, cov) subject: subject ;
: exp(beta1+bl) ; ka: exp(beta2+b2) ; ke: exp(beta3) ; vl = cllke ;
cmptmodel admtype: oral ncomps: 1 time : time pconc: predConc
parmtype: I ka = ka klO: ke dose0: dose scalel : vl ;
model conc - normal(predConc,var : s2y) ;
cl
run ;
SASプ ロ グラム 3が ,CMPTMODELス テ ー トメン トを用 い た SASプ ログラ ム コー ドである。 ADMTYPE
オ プ シ ョンが薬剤 の投 与経 路 を,NCOMPSオ プ シ ョンが コ ンパ ー トメ ン トの数 を ,そ れぞれ指 定 す るた めの
キー ワー ドであ る。NCOMPSに は コ ンパ ー トメ ン トの数 (経 口投 与 の場合 ,吸 収 過 程 をモデル 化 した コ ンパ
ー トメ ン トは除 く)を 指 定 し,静 脈 内注射 な ら ADMTYPE=IVB,点 滴静注な ら ADMTYPE=INF,経 口投与
な ら ADMTYPE=ORALと 指 定す る.PARMTYPEオ プシ ョンは ,モ デル を表現 す るパ ラメー タの組 み 合 わせ
を指 定す るた めの もの で あ る。 コンパー トメ ン ト0の 吸収速 度 定 数 を除 き,各 コ ンパ ー トメン トの 吸収速度
定数 と消 失速度 定数 は ,各 コ ンパー トメ ン トの ク リアランス 及 び 分布 容積 を用 い て表 す ことがで き る。そ こ
で ,PARMTYPEオ プ シ ョン を用 いて どの組 み合 わせ でモデル を表 す かを指 定す る .経 口投与 1‐ コ ンパ ー トメ
ン トモ デ ル の場合 ,コ ンパ ー トメン ト 1の 消失 速度 定数 た10と ,コ ンパー トメ ン ト 1の ク リア ラ ンス CZl及 び
45
分 布 容積 4と には た =CZl″ 1と い う関係 が成 り立 つ .SASプ ロ グラ ム 3で は ,PARMTYPE=1と 指定 して 1。 い る.こ れ は ,吸 収 速 度 定数 と消失速 度 定数 を用 いてモ デル を表す こ とを意 味 してお り,よ って KAオ プシ ョンにて コンパ ー トメ ン ト 1の 吸収 速 度 定数 を表す変数 を,K10オ プ シ ョンにて コンパー トメ ン ト 1の 消失 速 度 定数 を表す 変数 を ,そ れ ぞれ 指 定す る。なお ,PARMTYPE=2と 指 定 す る と,ク リア ラ ンス及 び分布容 積 を用 いてモ デ ル を表 す ことを意 味す るた め,K10オ プ シ ョンの代 わ りに ,CLlオ プシ ョンに て コ ンパー ト メ ン ト1の ク リア ラ ンス を表す変数 を ,VOLlオ プ シ ョンにて コンパー トメ ン ト1の 分布容積 を表す変数 を , そ れ ぞれ指定 しな けれ ばな らない .DOSEOオ プシ ョンは コ ンパ ー トメ ン ト 0の 薬物量 を指 定す るための もの で あ り,経 口投 与 の 場合 のみ このオ プ シ ョンが有効 とな る。 SCALElオ プ シ ョンでは,コ ンパ ー トメン ト 1 の血 中薬物濃度 Gを 推 定す る とき の ス ケ ール を指定す る .経 口投与 1‑コ ンパ ー トメ ン トモ デ ル の場合 ,コ ン パ ー トメン ト 1の 薬 物 量 る に対 して Cl=x″ 1で あ り,4=CZ1/力 10で あ るた め ,ろ を表 す変数 を VLと して CZlと た10で 導 出 した 後 ,SCALEl=VLと 指 定 してい る。 出力結果 1は ,SASプ ロ グラ ム 3の 実行結果 を要約 した もので ある。母 集 団 パ ラメー タ βl,ん ,ん ,σcz2,σ Q滋 2に つい σ "2,σ ε て ,事 後 平均 ,事 後標 準偏 差 ,事 後分布 の 25%,50%,75%分 位 点 ,95%信 用 区間 の 下限 と上限 , , 95%HPD区 間 の 下 限 と上限 を示 した .SASプ ログラム 3で は ,STATS=ALLと 指 定 した こ とに よ り,25%,50%, 75%分 位 点及び 95%信 用 区間 もあわせ て 出力 され るが ,デ ー タセ ッ トOUTSAMPLEに 出力 され た モ ンテカル ロ標 本 を用 い る こ とで任 意 のパー セ ン ト点 も得 るこ とが で きる.OUTSAMPLEに は,ら ,1及 び ら″の事後分布 か らのモ ンテカル ロ標 本 も出力 され て い るた め,こ れ らを用 いて血 液 中薬 物 濃 度 の事後分布 をシ ミュ レー シ ョンに よ り推 定す る こ とも可能 とな る . 出力結果 1:母 集 団パ ラメー タの事後 分布 に関す る要約 統計量 パーセ ン ト点 95%HPD区 間 75% 95%信 用 区間 0.0977 ‑3.2493 ‑3.1824 ‑3.1207 ‑3.3587 ‑2.9754 ‑3.3484 ‑2.9685 0.3645 0.2250 0.2490 0.3989 0.5129 ‑0.1501 0.7274 ‑0.1104 0.7640 ‑2.4585 0.0519 ‑2.4943 ‐ 2.4586 ‑2.4217 ‑2.5595 ‑2.3587 ‑2.5591 ‑2.3585 0.1360 0.0663 0.0940 0.1215 0.1613 0.0573 0.3026 0.0501 0.2538 標準偏差 l ん β 50% 平均 ‑3.1804 ん ″ 信用 区間 25% パ ラメー タ ‑0.0041 0.1015 ‑0.0519 ‑0.00341 0.0466 ‑0.1920 0.1897 ‑0.1922 0.1891 2 0.6554 0.3780 0.4180 0.5674 0.7733 0.2481 1.5971 0.1879 1.3836 ぱ 0.5195 0.0697 0.4710 0.5140 0.5614 0.4007 0.6741 0.3940 0.6605 σ物 4.お わ りに 本稿 では ,経 口投 与 1‐ ,2‑コ ンパ ー トメ ン トモ デ ル につ い て説 明 し,MCMCプ ロシジ ャを用 い てベ イ ズ流 に SAS/STAT 14.3で 新規搭 載 され た CMPTMODELス テー トメ ン トを用いれ ば 解 析す るため の方 法 を報告 した。 , 微 分方程式 を解 い て得 られ る血液 中薬 物濃度 の式 をプ ロ グラ ム 中に記述 す る必要 はな く,あ て は めた いモ デ ル に応 じてオプ シ ョン指 定すれ ば よ い だ けにな った。薬 物 の投与経路 で 3種 類 (ADMTYPEオ プ シ ョンで指 定),コ ンパ ー トメ ン トの数 で 3種 類 (NCOMPSオ プ シ ョンで 指 定),モ デ ル の 表現方法 で 2種 類 (PARMTYPE オ プ シ ョンで指 定 ),合 計 18種 類 の コ ンパー トメン トモ デ ル をあては めた 解 析 が可能で あ る。 これ に対 して 46
CALL ODEル ー チ ン を用 い る方 法 で は ,FCMPプ ロ シ ジ ャにて微 分 方 程 式 を記述 した サ ブル ーチ ン関数 を定 義 した上で ,MCMCプ ロシジ ャに てそ の サブルー チ ン を使 用す る。微 分 方程式 さえ記 述 で きれ ば,あ とは数 値 的 にパ ラメー タ を推 定で き るた め ,CMPTMODELス テ ー トメ ン トで は網羅 されて い な い コ ンパー トメ ン ト モ デル を用 い た解 析 を行 う際 に有用 で あ ると思われ る . モ デル を用 いた 母集 団薬物動 態解 析 にお いて広 く使 われ てい る ソフ トウエ ア NONMEMで は,代 表 的 な モ デ ル は組 み込 まれ てお り,更 に微 分 方程 式 を用 い た プ ロ グラム に よ り複雑 なモデル を あて は めた解析 を行 う こ とも可能 で あ る.こ れ まで SASの NLMIXEDプ ロシ ジ ャ,MCMCプ ロシジ ヤで は ,微 分方程式 を用 い た プ ロ グラムが使 えなか ったた め ,あ てはめたいモ デル の 微 分方程 式 を解 き,血 液 中薬 物 濃 度 を閉 じた形 式 で 表現 しなけれ ばな らなか った 。NONMEMの デ ー タ を ,MCMCプ ロ シジ ャで利用 で き る よ うに加 工す るた め の SASマ ク ロ と して%PKCONVRTが 用意 され ,MCMCプ ロシジ ャ のマ ニュアル にそ の 詳 細 が記 載 され て い る(SAS Instit■ c lnc,2017).デ ー タハ ン ドリングや シ ミュ レー シ ョン 実験 が容易 に行 え る こ とに SASの 利 点 を 感 じてお り,SAS/STATの 機 能拡 張 が今 後 も行 われ てい く こ とで ,SASを 用 いた薬 物 動 態解 析 が普及 され る こ とを期待 した い 。 参 考文献 cs 1988,30:327‑338. 力″ο ′ [1]Bcal,S.L.,and Shcincr,L.B.HctcrOscedattic Nonlinear Rcgrcssion.17υ σ ̀″ [2]Fisher,D.,and Shatt S.PharmaCOknCtiC and PharmaCOdynamic Analysis with NONMEM:Basic Conccpts. Coursc matcrials for Fishcノ Shafer NONMEM Workshop,March 7‑11,2007,Ghcnt,Bclgiunl. [3]PinhcirO,J.Cっ and Batcs,D.M.Approximations to me Log‐ Likclihood FunctiOn in thc Nonlinear:Mixcd― Emects な′ たs1995,4:12‑35. ″α′q′ Gο P%″ ″ο″α′α′グG′ο MOdcl.Jο ν″ ′力たα′Srα ′ グι.SAs lnstitute lnc.,Cary,NC,2017. イ.3 υsa″ ζG″ ′ [4]SAS Institute lnc.SИ S/S7]4zィ 写ソ′ [5]井 桁 正 尭 .MCMCプ ロシジ ャに よるベ イ ズ推 定 と ARSア ル ゴ リズ ムの 実装 .SASユ ー ザ ー 総会 論 文集 2010,3‑21. [6]猪 川和郎 。田中潤 .PK解 析 の基 礎 一Phasc Iを 中心 に 一.計 量生 物 学 2015,36:S3‑S18. [7]緒 方宏 泰 .医 薬 品開発 ツール と しての母集 団 PK― PD解 析 入 門 か らモ デ リング&シ ミュ レー シ ョン.朝 倉 書店 ,2010. [8]加 藤 基浩 .薬 物 動態 の イ ロハ .南 山堂,2016. [9]金 子晃 .微 分 方 程式講義 .サ イ エ ンス社 ,2014. [lo]五 所 正彦・菅波秀 規 .SASを 用 い た二段階法 と非線 形 混合効果 モ デル 法 の性能 比較 .SASユ ー ザ ー 総 会 論 文集 2005,31■ 1. [11]丹 後俊郎 。上 坂浩 之 .臨 床試 験 ハ ン ドブ ック ーデ ザ イ ン と統 計 解 析 ―.朝 倉書店 ,2006. [12]登 坂 宣好 .微 分 方程式 の解 法 と応 用一 たたみ込 み積 分 とス ペ ク トル 分解 を用 い て .東 京 大学 出版 会 , 2010. [13]長 谷川 千尋 ・ 浜 田知久馬 .母 集 団薬物動態解析 にお け る異 常個 体 の統計的検 出法 .SASユ ー ザ ー総 会 論 文集 2007,177‑196. [14]船 渡川伊 久 子 ・ 船 渡川 隆 .母 集 団薬 物動態解析 の 基礎 :線 形 混 合 効 果 モ デル ・ 非 線 形 混合効果 モ デ ル の 数理 .計 量 生物 学 2015,36:S33‑S48. [15]矢 船 明史 。石 黒真 木夫 .母 集 団薬物 デー タの解 析 .朝 倉書店 ,2004. 47
連絡 先
E― mall:ツ
クaα ―
S@α 2カ ω′
′
力cα κでο″
付録 A:点 滴 静注 1‑,2‐ コ ンパ ー トメ ン トモ デ ル
点滴 静 注 1‐ コンパー トメ ン トモ デル にお い て ,コ ンパー トメ ン ト 1の 薬物 の 吸収速度 定数 を 結
コ ンパ ー
トメ ン ト 1か らの薬物 の 消失 速度 定数 を た とす る と,投 与 開始 か ら点 滴 静注 終 了 rま での 間 は コ ンパ ー トメ
1。
ン ト 1の 時 間 ′での体 内 の薬 物 量 る は
=ち
子
力
10χ
l
(Al)
と して表 す こ とができる.ノ =0の とき れ =0で あ るこ とを用 いれ ば ,(Al)の 解 は
χ
ep(た
l=CXp( λ )肝 α
10′
′
10̀)″
=斎 [― eXp(― た
(A2)
10′ )}
とな る.コ ンパー トメン ト 1の 分布容積 を /1,コ ンパー トメ ン ト 1の 血 中薬 物濃 度 を Clと す る と,X=Cl× /1
であ るか ら(A2)の 両辺 を ろ で割 って
q=率
/1κ 10
{1‑exp(―
た )}(0≦ ノ
<Э
10′
とな る .コ ン パ ー トメ ン ト 1の ク リア ラ ンス を CZlと す る と た10=CZ1/ん で あ るか ら,消 失 速 度 定数 た10の か
わ りに CZlを 用 いて
q=書 [―
eXp(―
け
/α l)}(0≦
く
′
の
と表現 す る こ ともできる .点 滴 静注終 了後 の 微 分 方程 式 は
=― ヵ
単
10χ
″
l
とな り,′ =0の とき
χ
l=■
[―
κ
cxp(―
た
107)}=χ r
10
で あ る こ とを用 い る と
Xl=χ r eXp(為 oD eXp(― ム )=χr cXp(‐ た10(′ ‑3),
0″
よつて, コ ンパー トメン ト 1の 分布容積 ‰ を用 い ると
q=書 [― C理 た
r/α l)}"(― ちr)/α l)(′ ≧
α
⊃
(―
とな る
(̀―
.
点滴 静 注 2‑コ ンパー トメ ン トモ デ ル では ,中 心 コ ンパ ー トメ ン ト (コ ンパ ー トメ ン ト 1)の 吸収速度 定数
紘 コ ンパ ー トメン ト 1か らの消失速 度 定数 た ,コ ンパ ー トメ ン ト 1か ら末梢 コ ンパ ー トメ ン ト(コ ンパ ー ト
1。
メン ト2)へ の移行速度定数 た12,コ ンパー トメ ン ト2か らコ ンパ ー トメ ン ト1へ の移行速度 定数 た21を 用 いて
48
,
投 与 開始 か ら点滴静 注終 了 rま での 間は
参 =た α 10+た 12)χ l+た
(た
=た 12χ l た 21χ
準
グ′
21χ 2
2
と表 され る .こ こに れ は コ ンパ ー トメ ン ト 1の 薬 物 量 ,れ は コ ン パ ー トメ ン ト 2の 薬 物 量 で あ る
き 名 =0,ぁ │=0で あ る こ とを用 い れ ば
′=0の と
,
A=r た 10 た 12た 21)
( た12 た
21リ
の 固有値 α,β を用 い て
)"1
=-q=
あ =― β=
(た
+ k12 + k2)2 - 4k2&n
10+た12+た 21)+
2
(た
(k1x+kp+k2)z - 4k2tho
10+た12+た21)
2
とおくとき
t(た 21 ス 1)(1̲θ
χl=市
iム
々
あ′
21 え 2)
(た
)+
―θ
(ム ー
ち)あ
)ム
)
― +̲二 重立̲̲rl̲ι ―
々、
ふ4(え
=̲LL̲̲(1̲ι
ヽ 々、
ン ̲九
2 ム )ム
(ム
)え 2`
とな り, コンパー トメン ト1の 分布容積 ろ を用 いて コンパー トメ ン ト1の 血 中薬物濃度 Clは
―
二⊆笙二∠立̲(1̲ι
1‑ι
c=三
)+重丞L上 二企ユィ`
` 々´
・
ム
あ
)ム
る(え 1 え 2)れ
石(あ
で あ る .点 滴静 注終 了後 の微 分方程 式 は
サ
)(0≦ ′<n
´`
(A3)
= (た 10+た 12)χ l+た 21χ 2
αχ2=た
1っ
χ:― 4・
ん
ぅ
"χ 4
=4・
″
とな り,こ れ を ′=rの とき
―
χ17=L竺 笙 =生2(1̲ι
` ィ)+
1・
(λ 2 λ l)ム
χ″場
2r≡
イ
(1 ι
(た
(え
、
ι ―ム
4リ
『
21 え 2)
1‑あ )あ
ι ル.^
)+ぷ
粉
̲′ ^7、
(1‑ど ,
の も とで解 くと
― λ r)+
1‑あ
χ
(1̲ι
l=生 .lL≧ =生 主
` 々、
・
̀―
―
λ
(え 1 あ )え 2
(あ
̲二
l(r―
)
あ
る
―ι ′
)ι
r)
(′
l)ム
よ り
― ――
r)+ たo(た 21
1⊇̲(1̲ι 々)θ ム
cl=̲Ll̀生 2二 ■
`
' 4(あ ―λ
l)ム
(′
4(え1 え 2)λ 2
_r-hty-h(t-r) Q>r)
(A3)と (A4)を ま とめ る と
49
(A4)
福― れ+勢弁 ― あ― あ q絆栽 ― (1‑′ )ι (1‑ι 1)θ ここで 0≦ ′<rの とき ′ 1=′ ,′ 2=0,ノ ≧7の とき ′ 1=■ ち=′ イ と表す ことがで きる(Fisher md Shab,2007). 50
ポ リコ リック相 関係数 とス ピアマ ンの順位相 関係数 の シ ミュ レー シ ョンによ る比較 o月 ヽ 松 邦岳 (1株 式 会 社 ア ス ク レ ップ ) Simulation comparison qf polychoric correlation coeffrcient and Spearman's rank correlation coeffrcient Kunitake Komatsu Asklep Inc. 要旨 順位 を持 っ た質 的変数 につ い て 、 ポ リコ リック相 関係数 とス ピアマ ンの順位 相 関係数 のシ ミュ レー シ ョン実 験 を行 った。 本稿 では 、 ポ リコ リック相 関係 数 の紹介 と、 シ ミュ レー シ ョン結 果 について 発 表す る。 キー ワー ド :ポ リコ リック相 関係 数 、 ス ピアマ ンの順位相 関係 数 は じめに 生物統計 学 にお いて 、順 序 を持 った 質 的変数 ど う しの相 関係 数 を求 め る とき、 ス ピアマ ンの順位 相 関係 数 が広 く用 い られ てい る。 しか し、二 変 量正規分布 に従 う連続量 を背 景 に持 つ 質 的変 数 につ いては 、 ポ リコ リ ック相 関係 数 を用 いて 、背景 に あ る連続 量 の ピア ソンの積率相 関係 数 の推定 をす る こ とも考 え られ る。 ここで 、 正 規分布 に従 う連続 量 を背景 に持 つ 質 的変数 とは、本 質 的 には正規 分 布 に従 う連続 量 で 得 られ る と考 え られ る値 を、順序 尺度 と して測 定 した 質 的変数 の ことで あ る。 特 に心理 学 や 社 会調査 にお いて は、直 接 測 定 は不 可能 で あ るが、本 質 的 には正規分布 に従 う連続 量 と考 え られ る測定項 目が 存在 してお り、 リッカ 2]そ の ー ト尺度 な どで収集 され る。 〔 よ うな場 合 にポ リコ リック相 関係 数 が用 い られ る こ とが ある。 生物統 計学 の分野 におい て は 、厳 密 な直接 測 定 が可能 な項 目が 多 い た めか、 この よ うな項 目は問題 にな っ てお らず 、 ポ リコ リック相 関係 数 もあま り論 じられ てい ない よ うに感 じる。 しか しなが ら昨今 の 医療 用 デ ー タベ ー ス の 多様 化 を考 える と、今 後 、生物 統計学 にお いて もポ リ コ リック相 関係 数 を利 用す る よ うなデ ー タ が生 じ得 るので はないか と考 え、 ポ リコ リック相 関係数 につい て今 論 じるこ とに は価値 が ある と考 えた。 今 回 、 ポ リコ リック相 関係 数 を紹介 す る と ともに、 ス ピアマ ン の 順位相 関係 数 とシ ミュ レー シ ョンに よ り 比 較す る こ とで ポ リコ リック相 関係 数 の性 質 を確 認 し、使用 に慎 重 にな るべ き場 合 につ いて検討 した 。 51
ポ リコ リック相関係数 背景 にあ る連続 量 同 士が二 変 量正規分布 に従 う 2つ の順序 尺度 につ い て 、背 景 の連続 量 の ピア ソンの積 率 相 関係 数 を推 定 した相 関係 数 が ポ リコ リック相 関係 数 で あ る。 概念 と しては 、得 られ た順 序 尺度 は背景 にあ る連続 量 を閾値 で 区切 って作 られ た もので あ る と考 える。 背 景 の連続 量 が 二 変 量正規 分布 に従 ってい る と仮 定 した とき、得 られ た順序 尺度 の頻度 が最 も実 現 しや す くな る相 関係 数 ρを推 定 した ものが ポ リコ リック相 関係 数 とな る。 具体 的 なイ メー ジ を、以 下 の 枠 内 に示 す。 <デ ータとして得られた順序尺度 (2変 数 )> <順 序尺 度 の 背景 にある 2変 量正規分布 > y 順序尺度ε C2 ε4 C5 51 62 26 39 52 63 21 16 22 25 ・﹄ 4 α4 ρ τ . α3 И ・ 23 16 % 37 α2 ■ 26 4 αl 4 順序 尺度 D ε3 4 Cl 順 序尺度 εは 5つ のクラスに分 けられているが、これ は背景 にある γ1 72 γ3 γ4 連続 量χが閾値 均 〜れ によって区切 られているものと考 える。(こ こで 、 ̀i 連続 量χは、測 定されていない。)同 様 に順序 尺度 Dは 4つ の C2 C3 ●4 CS クラスに分 けられているが 、これ は背 景 にある連 続 量 yが 閾値τ■〜τ3に よって 区切 られているものと考 える。この ・Dの 各頻度 から連続 量χ。 とき、順 序 尺度 ε 7の 相 関を推 定したものが、ポリコリック相 関係 数 である。 ポ リコ リック相 関係数 も、そ の他 の相 関係 数 と同 じく、‐ 1〜 1の 間 の値 を と り、0の とき無相 関、 1の とき 正 の完全相 関、‑1の とき負 の 完 全相 関 とな る。最 大 のカテ ゴ リの端 と最小 のカテ ゴ リの端 は 、∞お よび―∞で なけれ ばな らない。 カテ ゴ リ数 は変数 間 で異 な って いて も構 わない。 また 、各 カテ ゴ リの幅 は等距離 でな く て も構 わない。 2つ の順序 尺度 の カテ ゴ リ数 が共 に 2つ だ った場合 は、テ トラ コ リック相 関係 数 (■ 廿∝horic coneは ion coemcient、 四分 相 関係 数 )と 呼ぶ こ ともあ る。 なお 、一方 が 連続 量で他方 が順 序尺度 であ る変数 間 の相 関は、ポ リシ リアル相 関係 数 (Polyscrial correlation coe伍 cient)に よ り推 定す る こ とが 出来 る。 【 導出】[2][3][5] 以下 に、数 式 を用 いて導 出過 程 を簡 単 に記す 。 (詳 しく知 りたい方 には、参 考文献 [2][3〕 [5]を お勧 めす る。) 二変量正 規 分布 (変 数χとy、 相 関係 数 がρ)は 、以 下 の数 式 で表 わ され る。 2̲2ρ +y)} φyρ )=薫島プχ ρ η Iが場 (χ (χ ここで 、順 序 尺度 ε、Dと 、背 景 にあ る連続 量χとッの 関係 につ い て、χとッを閾値 で区切 リカ テ ゴ リ化 した と 考 える。 この とき、順序 尺度 εの カテ ゴ リ数 がrで あ り、そ の二 番 目のカテ ゴ リをQと あ らわす とき、閾値γを 52
用 い て各 カテ ゴ リは式 1.1の よ うに書 き表 せ る。同様 に順 序 尺 度 Dの カテ ゴ リ数 がsで あ り、そ のプ番 目の カテ
ゴリをらとあらわすとき、閾値τ
を用いて各カテゴリは式 1.2の ように書き表せる。
εl:χ
dr'. Y I t,
dz'.rt<!1Tz
<γ l
62:γ ■ ≦ χ <γ 2
(式 1.1)=
Q:γ ,‑1≦ χ <γ
(式 1.2)
d"'. tr-1 I Y
年 :γ r‑1≦ χ
カテ ゴ リ
̀,か
τ
ー1≦ ツ <η
ノ
ケ
:
つ カテ ゴ リdプ に同時 に該 当す る確 率P〃 は、式 2の よ うに表 す こ とが 出来 る。
鳥
′γ φ )dガχ
=」
(χ
yρ
(式 2)
il.ム
こ こでサ ンプル 総数 を鳳 カテ ゴ リσ
,か つ カテ ゴ リdブ に同時 に該 当 したサ ンプル 数 をη とす る。 (す なわ ち、
iプ
Ⅳ=Σ fΣ ;η け。
)こ のとき、母数ρのもとでⅣ人のデータが観測される確率は式 3で 表される。
L=κ
ィ
ΠΠ
ノ
:プ
i=1
は
定
数
(式 κ
3、
)
=1
式 3か ら最尤推 定 を行 うこ とで相 関係 数 ρが得 られ 、 これ が ポ リコ リック相 関係数 とな る。
なお 、 上記 の過 程 にお いて 、相 関係 数 ρ以外 に も未 知 の 値 と して 閾値 γ τ
プが存在 してい るた め 、 これ らも
̀、
推 定 が必要 とな る。 相 関係 数 と同時 に閾値 を推定す る方 法 と、閾値 を推 定 してか ら相 関係 数 を推 定す る方法
SASで は同時推 定 を採用 してい る。 ポ リコ リック相 関係 数 及 び 閾値 の 最尤推 定 につ い ては 01sson
が あ るが、
[4〕
(1979)[2]が 詳 しい。
検定】
【
SASで は帰無仮説 ρ=0の 検 定 が 、 Wald検 定 と尤度 比検 定 にて行 われ る。
SAS program】
【
[416]
cOrrプ ロシジ ャに て ポ リコ リック相 関係数 を求 める こ とが 出来 る。ま た 、SAS ver9.4の メ ンテ ナ ンス リリー
ス 3か らは、ポ リコ リック相 関係 数 を格納 したデ ー タセ ッ トを出力す る こ とが出来 る。 なお 、閾値 の推 定結
果 は出力 され な い。
rDSN②
prOC COF data=IⅣ DSⅣ polychoric① outplc=0こ ′
;
var"Rχ レИRy;
run;
① p01
honc: ポリコリック相関係数を算出する。同時に検定も実施される。
② Ou01c=: ポリコリック相関係数を格納 したデータセ ットをアウトプットする。 (SAS9.4〜 )
※
同様に polyse五 alオ プシ ョンでポ リシ リアル相関係数の算出ができる。また、ou"Isオ プションでポ リシアル相関係数を格納 したデ
ータセ ットをアウ トプ ッ トできる。
53
上記 に加 えて 、Ne輌 on‐ Rtthson法 に関す る設 定及び順序 尺度 の 1変 数 あた りの 最大カテ ゴ リ数 (デ フォル トで は 20)を 設 定す るオ プ シ ョンが存 在 してい る。 [6] 生物統計学におけるポ リコ リック相関係数 の利用 生 物 統 計 ではポ リコ リック相 関係数 は あ ま り用 い られ てい ない印象 が あ り、 生物統計 学 を扱 つてい る書 籍 で もあま り見か けな い。 お そ らく、連続 量 で測 定す べ きパ ラメー ター は、連 続 量 で測定す る こ とが出来 る分 野 で あ っ たため、 ポ リコ リック相 関係 数 を利 用す る場面 が無 か ったので は な い か と推察す る。 しか しなが ら昨今 の 医療 用デ ー タベ ー ス の 多様化 を考 え る と、今 後、生物 統 計学 において もポ リコ リック 相 関係 数 を利用す るよ うなデ ー タが生 じ得 るので はないか と考 えた。 例 えば 、連続量 で収集 され たデ ー タが非特 定化 のため に ク ラ ス に変換 され て しま うよ うな場 合 が 考 え られ る。 デ ー タを利用す る者 に とっては 、収集 時 の連続量 は未 知 の値 とな り、公 開 され た順序尺 度 の み が利 用 で き る形 とな るであ ろ う。 この よ うな変数 の 相 関係数 を求 め る場合 、本質的 に は元 の連続量 に興 味 が あるのだ か ら、連続 量の相 関係 数 を推 定 した ポ リコ リック相 関係 数 が 妥 当 とな る可能 性 が ある。 ポ リコ リック相関係数 とス ピアマ ンの順位相関係数 の比 較 順 序 尺度 の相 関係 数 と してス ピアマ ンの順位 相 関係数 が あ る。 ポ リコ リック相 関係数 は、 背景 にあ る連続 量 同士の ピア ソンの積 率相 関係 数 に興 味がある場合 に利用す る こ とを考 える と、ポ リコ リック相 関係 数 とス ピアマ ンの順位 相 関係数 を比較 した 場合 に、背 景 に あ る連続 量 同 士 の ピア ソンの積 率相 関係 数 にポ リコ リック相 関係数 が よ り近 い値 を示す よ うに推定 され な けれ ば、用 い る意義 が 疑 われ る と考 えた。 シ ミュ レー シ ョン実験 シ ミュ レー シ ョン実験 と して 、2変 量正規 分布 に従 う 2つ の 連続 量 の乱数 を発 生 させ 、それ ぞれ 閾値 で分割 した 2つ の順序尺度 の 変数 を作成 、 ポ リコ リック相 関係 数 とス ピアマ ンの順 位 相 関係数 を算 出 し、 もとの連 続 量 の ピア ソンの積 率相 関係 数 と比 較 した。 実施 イメージ 2変 量正規分布に従う2つ の連続量の乱数 闘値で分割し、順序尺度 に変換 1獲 4 即F L ■ ̲̲̲̲\ / σ ′ θ グ′ ″′ ′ ′ ′′′ ″ .,′ ノ ′ィァ ′ 7,′ 場 どθ ″ダ ソ ″fF ′ 7θ′ ″ ′ 7,′ ′ 2/″ ″′駿 ′ ,′ ′ ″イ ., ′2,9 ″ ̀ ′ ,7̀ ′ ,′ V ′ 2θ ′ 2イ ′ 綺に ,″ 0′ ̀ ̀′ ̀ ポ リコ リック相 関係数 > 一 54 θ′ 夕 酎 ′ 検 ノ 一 . 較 比⊂ ら ﹁ ■● 丁L r鮨 ピア ソンの積 率相 関係 数 類 序 尺 度 序尺度 0′ ス ピアマ ンの順 位 相 関係数
シ ミ ュ レー シ ョン 1: ● は じめに相 関係 数 の分布 の イ メー ジを散布 図 にて 目視確認 す る。散 布 図 で示す た め、 シ ミュ レー シ ョン回 数 は各 100回 に とどめた。 発 生す る乱数 の設 定 は 、以下 の とお りと した。 なお、参 考 と して乱数 発 生 の SAS Proramを Appcndixに 掲載 した。 二 変 量正 規分布 に従 い 、それ ぞれ の 平均 と標 準偏 差 が以 下 の 2つ の乱数。 乱 数 1:平 均 :μ .=0、 標 準偏差 :q=1。 乱 数 2:平 均 :μ 2=0ヽ 標 準偏差 :c=1。 相 関係 数 ρ は 0、 0.2、 サ ンプル 数 (n)は 50、 0.6、 0.4、 300、 100、 0.8と 変化。 500と 変化 。 <順 序 尺度 へ の変換 > 乱数 1は 5カ テ ゴ リ、乱数 2は 4カ テ ゴ リの 順 序尺度 に変換 した。各 カテ ゴ リの 幅 が 、乱数 1は 0.8■ 、 乱数 2は の になる よ う以 下 の通 り閾値 を設 定 した。 ` 舌L数 1の カテ ゴ り : <‑1.2、 ‑1.2≦ <‑0.4、 ‑0.4≦ <0.4、 0.4≦ <1.2、 1.2≦ 乱数 2の カテ ゴ リ : <‑1.0、 ‑1.0≦ <0、 0≦ <1.0、 1.0≦ 少数 サ ンプル時 には、 カテ ゴ リが 5× 4と な らな い 可能性 もあ るが 、そ のまま結 果 を採 用 した。 シミュレーション 1の 結果】 【 結果 を グ ラ フ 1に 示 した。100回 の試行 の 結 果 を 目視確認 した ところ、元 とな る連 続 量 の相 関 が強 い とき (ρ コリ =0.6、 0.8)に 、 ス ピアマ ンの順位相 関係 数 は ピア ソンの積 率相 関係 数 よ りも低 い値 を示 し、対 して ポ リ ック相 関係 数 は同等 の 値 を示す傾 向が示唆 され た 。 一 方 、相 関 が強 くはない とき (ρ =0、 02、 0.4)は 、視 認 で き る違 い は見 られ なか った。 なお、乱数 の性質として相関が低いほど及び例数が少ないほど、得 られる連続量 のピアソンの積率相関係 2)/、 /η に近似 数のバ ラツキが大きくなる傾向がみられる。これはピアソンの積率相関係数の標準誤差は(1‑ρ すること[7]か ら、性質上やむを得ないと考 える。 ● シ ミュ レー シ ョン 2: シ ミュ レー シ ョン 1に よ り示唆 された こ とを よ り明確 とす るた め、下記 の乱数 を 10万 回ず つ発生 させ %)を 確かめた。 て、相 関係数 が以下の式 4に 当てはまる割合 〈 1(ポ ノコノン′猫 ″″夕 ピ ′ノンの疲 i率薦饉″夕)│ く │(ス ピアマンの顔 ″夕閣″数 ― ど′ノン´″事猶″察数)│ (式 4) 式 4に 当てはまる関係 の とき、ポ ソコ リック相関係数はス ピアマ ンの順位相関係数 と比べて、 ビア ノンの 積率相関係数 に近い値 が出力 されていると考 えることが出来 る。 二 変 量正規分布 に従 い 、それ ぞれ の 平均 と標 準偏差 が 以 下 の 乱 数。 乱数 1:平 均 : μl=0、 標 準偏 差 :q=1。 乱数 2:平 均 : μ2=0ヽ 標 準偏 差 :e=1。 相 関係数 ρ は 0よ 0.6、 0.4、 02、 0、 サ ンプル 数 (n)は 10、 30、 50、 100、 300、 ‑0,、 ‑0.4、 500、 ‐ 0.6、 ‑0.8と 変化。 1000、 55 3000と 変化。
<グ ラフ 1> 各散布図の縦軸 は相関係数、 横軸 は試行回 シミュレーション1 5 ∞ 7 1. 0 〇 一= 麟 郷 0. a 蛉 鬱 慾 蕃 0 薇 0 O. t 私x 0 5 一 │ , l x■ 態E d□ 撼 饉曜 基E J 0 0 ︒ 壕 錮む 5 2 ︲ a OO 摯 饉 ︱ 一 ● ∞ ち 鱒 1. 0. α │ 5 2 一 ︐ 0 5 ■ 0 0 1. 5 0 ︐ 0 5 0 5 2 Q 一 一 l盤 O O ml 饉 蛉l饒露 魃躙聰 ■ 一 ■ 釉夢 麒 猾申 0 ● a ・ t 0 5 一 3 2 一 t 0 0 l 5 7 O 0 5 住 鶉蘊鰤 5 2 Q 0 0 ゆ= 菫 0 ︲ 0 α t 5 2 t 0 5 麟 ‐韻蛉 鶴朦 参麟鐵顧機 40 ρ =0 80 0 40 80 繭費鮨餞 0 40 ρ =0.4 ρ =0.2 奪 PEAttSON 80 △ SPEARMAN 56 0 40 30 ρ =0.6 x POな YCHO獄 10 40 80 ρ =0.8
<順 序尺度 へ の 変換 >
乱数 1は 5カ テ ゴ リ、乱数 2は 4カ テ ゴ リの順 序 尺度 に変換 した 。 各 カテ ゴ リの 幅 が 、
乱数 1は 0.8の 、乱数 2は の に な る よ う以下 の通 り閾値 を設定 した 。
舌L数 1の カテ ゴ リ : <‑1.2、 ‑1.2≦ <‑0.4、 ‑0.4≦ <0.4、 0.4≦ <1.2、 1.2≦
乱数 2の カテ ゴ リ : <‑1.0、 ‑1.0≦ <0、 0≦ <1.0、 1.0≦
少数サ ンプル 時 には、カテ ゴ リが 5× 4と な らな い 可 能性 もあ るが 、 そ のまま結果 を採 用 した。
シミュレーション2の 結果】
【
結果 をグラフ 2に 示 した。また、 グラフの元デー タを表 2に 示 した 。
<グ ラフ 2:ポ リコ リック相関係数が ピアソンに近 い値 を示 した割合 >
麟30
畿50
●100
鑢300
ag"t'
艤500
鰯
鸞1000
酬
ア マンよ
値を 示し
L\H
咄 酬 酬
リ コ リ ツク が
ポ﹁
りもピ ア ソンに
た割
dfr.7
●10
爾3000
0.6 0.4 0.2
0
‑0.2
‑04 ‑0.6 ‑0.8
ρ
<表 2:ポ リコ リック相関係 数 が ピア ソンに近 い 値 を示 した割 合 >
サンプル数
30
50
100
300
500
1000
3000
08
66.4%
750%
862%
97.9%
99.6%
100.0%
100.0%
06
59.1%
65.4%
74.4%
89.1%
94.8%
99.0%
100.0%
0.4
52.0%
58.3%
654%
77.7%
84.0%
92.3%
99.4,6
02
537%
64.0%
68.4%
75.4%
887%
‑0.2
54.0%
64.2%
68.400
755%
886%
相関係数ρ
10
‑04
52.1%
584。 。
655%
77.6%
839%
92.2%
99.4%
‑0.6
58.9%
65.5%
743%
89.1%
94.7%
99.0%
100.0%
‑08
65.9%
74.9%
861%
97.9%
99.6%
100.0%
100.0,6
※90%を 上回 つたセルに下線、50%を 下回つたセルをグレーで着色。
サ ンプル 数 が 多 い ほ ど及び相 関 が 高 い ほ ど、ポ リコ リック相 関係 数 は ス ピアマ ンの 順位 相 関係数 と比 べ て、
ピア ソンの相 関係 数 に近 い値 が 出 る割 合 が 高ま る こ とが示唆 され た。 また、 ピア ソンの積 率相 関係数 を 0と
57
して発 生 させ た乱数 で は 、 い ずれ のサ ンプル 数 にお い て も ス ピアマ ンの相 関係 数 が ポ リコ リック相 関係 数 よ りも ピア ソンの相 関係 数 に近 い値 を示す確 率 が高 か った。 この こ とよ り、サ ンプル 数 が 多 いほ ど及 び相 関 が高いほ どポ リコ リック相 関係 数 を用 い る意 義 が 高 い と考 え られ る。 逆 に無相 関 を仮 定 して相 関係数 を求 め る場合 は、 ポ リコ リック相 関係 数 を用 い る意義 は疑 間が あ る。 0 シ ミュ レーシ ョン 31 シ ミュ レーシ ョン2と 同様 の乱数について、相 関係数の大 き さを比較す るため、シ ミュレーシ ョン結果 の相 関係数の平均の比率を以下の通 り算出す る。 ① (ポ ′コノンクタ″ 夕のア●)/け ノンの済≠鶏″″数の物 ② (ス ピ′マンの幅″″″″巌の平:勁 /(ピアンンの丼≠″闊κ数多平,) ー ュレ シミ ショ ン3の 結果】 【 以下の表 3‑① 、3‑② に結果を記す。なお、ρ=oの ときの比については、0に 近い値同士の比であるため、 適切 な結果 となっていない ことが考えられ るため、参考程度の提示であることに注意 していただ きたい。 <表 3‑① (ボ'グ コグック有│″ │″数)/(ど アン > サンプル 数 相 関係数ρ 10 30 50 100 300 500 1000 3000 0.8 107 1.02 1.01 1.01 1.00 1.00 1.00 100 06 1.08 1.02 1.01 1.01 1.00 1.00 100 1.00 0.4 109 103 1.01 1.01 1.00 100 1.00 1.00 0.2 1.08 102 1.01 1.01 1.00 100 1.00 1.00 ‑02 1.09 1.03 1.01 101 1.00 1.00 1.00 100 ‑04 108 103 1.01 101 1.00 1.00 100 100 ‑0.6 108 103 1.01 1.01 1.00 1.00 1.00 100 ‑0.8 1.07 1.02 1.01 1.01 1.00 1.00 1.00 1.00 <表 3‑② (ス ピ/7ン 凋│″κl数 )/(ピ アン > サンプル数 相 関係数ρ 10 30 50 100 300 500 1000 3000 0.8 092 0.92 092 092 0.92 0.92 092 0.92 0.6 092 091 0.91 0.91 0.91 091 091 0.91 04 0.91 0.91 091 0.90 0.90 0.90 090 0.90 0.2 091 090 0.90 0.90 090 0.90 090 090 ‑02 0.91 0.91 090 090 0.90 090 090 0.90 ‑04 0.91 0.91 091 0.90 0.90 090 090 090 ‑06 092 091 091 0.91 091 091 0.91 091 ‑08 092 0.92 092 092 0.92 092 0.92 092 58
設 定 した乱 数 にお いて は 、ポ リコ リック相 関係数 は ピア ソンの 積 率相 関係数 との比 が 1に 収束す る こ とが示 唆 され る結果 とな った。 一 方 、 ス ピアマ ンの 相 関係数 は比 率 が 0.9に 収束す る こ とが示唆 され た 。 この こと か らも、 ポ リコ リック相 関係 数 は ピア ソンの 相 関係数 を推 定 で きて い る と考 え られ た。 しか しな が ら、少数 サ ンプル 数 にお いて は、 ポ リコ リック相 関係 数 は よ り相 関 が強 い 方 向に結果 を出力 す る傾 向 も認 め られ た。 ポ リコ リック相 関係数 とス ピアマ ンの順位 相 関係数 の違 い は 1割 程度 とな って お り、相 関が低 い ときには値 の 差 は微 小 とな るこ とが示 唆 され た。 考 察 ・ 結論 :今 回 の シ ミュ レー シ ョンか ら示 唆 された こ と ポ リコ リック相 関係 数 とス ピアマ ンの順位 相 関係数 のシ ミュ レー シ ョンに よ る比 較 か ら、今 回 の 設 定 にお い て は二 以下 の こ とが示 唆 され た。 > 相 関 が低 い及 びサ ンプル 数 が少 な い 場 合 、 ポ リコ リック相 関係 数 よ りもス ピアマ ンの順位 相 関係 数 の 方 が背景 にあ る分布 の 相 関係 数 と近 い 値 となる確 率 が高 くな る。特 に無相 関 の場合 は、サ ンプル 数 に よ らず この傾 向 とな っ た。 > ポ リコ リック相 関係 数 とス ピアマ ンの 順位 相 関係 数 の違 い は 1害1程 度 に収 東 した。相 関 が 低 い ときに は相 関係数 の値 の 差 は微 小 とな った 。 > 総 合 して、相 関が低 い 及 びサ ンプル 数 が少 ない場合 は、 ポ リコ リック相 関係 数 の使用 には疑 間 の ある 結 果 となった。 ま とめ 二 変 量 正 規分布 に従 う連 続 量 を背景 に持 つ 2つ の順序尺度 につ い て、背景 に あ る連続量同士 の 相 関 に興 味 が あ る場 合 、 ポ リコ リック相 関係数 で推 定す るこ とが出来 る。 しか し、 ス ピア マ ンの 順位 相 関係数 を比較 した シ ミュ レー シ ョンか ら、以下 の よ うなケー ス にお い ては 、 ポ リコ リック相 関係数 の 使 用 に慎重 にな るべ きで あるこ とが示 唆 され た。 > 相 関が低 い及 び サ ンプル数 が少 な い 。 最 後 に、本 稿 で示 した シ ミュ レー シ ョンデ ー タがポ リコ リック相 関係数 の 理 解 や 、 生物統計 にお け るポ リ コ リック相 関係数 の利 用 の 検討 に役 立 て ば幸 いで ある。 59
Appcndix SAS progam:任 意 の Pcarsonの 積率相 関係数 を母数 に持 つ二 変量正規乱数 の発 生 data RANDVAR ; attrib N R MEANl STDl MEAN2 STD2 VARl VAR2 1ength=8; call streaminit(1783)i /*舌 L数 Seedの 指定*/ N =300i /*サ ンプル 数 */ RHO =06: /*Pearsonの 積 率相 関係数*/ MEANl=0: /*変 数 1の 平 均 */ STDl・ 1: /*変 数 1の 標 準偏 差 */ MEAN2=0; /*変 数 2の 平 均 */ STD2 =1; /*変 数 2の 標 準偏 差*/ do SUBJID=‐ l to N i VARl=RAND('NORMAL', MEANl, STDl); MEANl),sqrt((1‑(RHO**2))*STD2**2) )i VAR2=RAND('NORMAL', MEAN2+RHO*STD2/STDl*(DISTl― output ; endi run ; 生成 した乱数 の 要約 変数 平均 標 準偏 差 Pearsonの 相 関係数 VARl ‐ 0.0425967 0.9228380 0.57485 VAR2 0.104034 0.9991858 χ,7か らなる 2変 量 正 規 分布 につ い て 、χ =χ の ときyの 条件 付 き分布 は、 以 下 の分布 に従 う。 この こ とを利用 し、 上 記 のプ ロ グ ラ ム を作成 した。 N(μ y‐+2‑,IF̀× (χ ― μ χ ) σY2× (1̲ρ 2) (文 献 [5]を 参 考 に改変 ) yの 母分散 、ρ :母 相 関係数 (Pearson) μx:Xの 母平均 、 σx2:Xの 母分 散 、μy:yの 母平均 、 σy2 参 考 ・ 引用文 献 1 豊 田秀樹 著、「共分 散構 造分析 [入 門編 ]― 構造方程式 モ デ リン グー 」、朝倉書店 「Maximum Likclibood Estimation ofthc Polychonc Corelation Coef1lcient,」 2 01sson,U(1979)、 3. :Drasgo、 v,F(1986)、 「Polychonc and Polyscrial C(,)riclations」 Scicnces,volunlc 7,68‑74,Ne、 4. 、 in S.K.otz,N.L Johnson,alld C B Read,edsっ Encyclopedia of Statistical v York:John Wiley&Sons. 「Base SAS(R)9 4 Procedures Guidc:Statisical Proccdurcs,Third Edition/Thc CORR Procedure/Polychoric Correlation」 照 )h山匹 sttpon s笙comttog堕 lQュtaiOn/cdy錘 ∠ 2ocsta些 :z望 遇 埜曇 /′ 5. 、Psychometika,12,443‑460 ̀1lIMLム =1/vicx=:b堕 童pェ 。螢 at̲ctQ=」 塑 1里 14.him 竹 内 啓 (編 集委 員代 表 )、 「統計学辞典 」 page 40、 東洋経済新 報社 6. SAS Instinc hc、 「Base SAS 9.4プ ロシ ジ ャガイ ド 統計 プ ロシジ ャ 第 四版」 7. RAmitagc、 GBcrッ 著 、椿 美智子 、椿 広 計 翻訳 、「医学研 究 の た めの統計的方法 」、 サ イ エ ンテ ィス ト社 60 (2017/12/26参
離散型反応 の経 時デ ー タ解析 における一般化推 定方程式 (GEE)及 びベ イ ズ流解析 の検討 o栃 澤欣 之 、角元慶 二 (大 塚製薬株 式会社 ) The analysis of repeated measured ordinal data using generalized estimating equations (GEE) by GENMOD procedure and Bayesian approach. oYoshiyuki Tochizawa, Keiji Kakumoto Otsuka Pharmaceutical Co., Ltd. 要旨 医学にお いて は、てんかん の発 作回数 とい っ た計数値 のア ウ トカ ムや 、病態 の グ レー ドな どの順 序 カテ ゴ リカル なア ウ トカ ム な ど、離散型反応 が 経 時的に繰 り返 し測定 され る場 面は多 い。しか し、 この よ うな離散 型反応 の経時デ ー タ解析 として、解 析 の利便性 や解釈 の容易 さか ら、ア ウ トカ ム と して正規分布 を仮 定 した解析 が実施 される事例 も多 く報告 され ている。本研 究 では、離散型反応 の 経 時デ ー タ解 析 について 、正 規分布 を仮定 した解 析 と比較 した後 に、一般化推 定方程式(generaliZed estimtting cquations;GEE)及 び ベ イ ズ流解析 を検討 した結果 に つ いて報告す る。 キ ー ワー ド :GENMOD、 順 序 カ テ ゴ リカル デ ー タ 、経時 デ ー タ、一般化推 定方程式、 generalizcd GEE、 ベ イ ズ流 estimating equttions、 1.背 景 医学にお いて は、てんかん の発 作回数 とい った 計数値 のア ウ トカ ムや、病態 の グ レー ドな どの順 序 カテ ゴ リカ ル なア ウ トカ ム な ど、離散型反応 が 経 時的に繰 り返 し測定 され る場 面は多 い。しか し、 このよ うな離散型反応 の経時デ ー タ解析 として 、解析 の利便性 や解釈 の容易 さか ら、ア ウ トカ ム と して正規分 布 を仮 定 した 解 析 が 実施 され る事 例 も多 く報 告 され て い る。 なお 、 GENMOD及 び GLIMMIXプ ロシジ ャの SASヘ ル プにおいては、順 序カテ ゴ リカル なア ウ トカ ムの事例では全 て順 序 ロジ ッ トモ デ ル が使用 され てい る。本研究 で は、離散型反応 の経時デ ー タ解 析 につい て 、正 規分 布 を仮定 した解 析 と比較 した 後 に 、一般化推 定方程 式(gcneralized estim前 ng equations;GEE)及 び ベ イ ズ流解析 を検討 した。 本研究 では 、検討す る状況 の概 要 を具体例 で紹介 し、離散型反応 の経時デ ー タ の解析 として GEE とベ イ ズ流解析 を評価 した結果 について報告す る。 61
2.検 討 概 要 社 内デ ー タを参考 に作成 した離散型反 応 の経時デー タの事 例 を用いて検討概 要 を説 明す る。デ ー タの 作成 方法は後述す る。 次に示す 図 1は 順序 カテ ゴ リカル な経時デ ー タの例であ る。 図 1の デ ー タに対 し、以下に続 く 3通 りの解析 につ いて解析 コー ド,解 析結果 ,モ デ ルに基 づ くデ ー タ 分布 を提 示す る。 g(0) = X;p * e;, g = ordered logistic regression o r●1 ︐ \ ヽ ︑ ̲■ 0 │ ! 上̲̲̲̲̲ │ η 0 ', ,,,13, 図 1:順 序 カテ ゴ リカ ル な経時デ ー タ (例 ;て んかんの病態 )。 上式 :モ デル 、 上 表 :標 本、上図 :平 均値 の推移 、下表 :期 待値 、下図 :期 待値 の推移 ● プ ロ グ ラ ム 1:図 1に 対 す る Mixcd procedurcに よ る正 規 分 布 を仮 定 した MMRM(Mixed e∬ cct Modelsお r Repeated Mcaswes) Proc Mixed data=datal ; class ID Dose Time Grade ; modet Grade = Dose Time Dose*Time / ddfm = Satterthwaite repeated Tine / subject = ID type = cs i Lsmeans dose ,/ tdiff adjust = dunnett ; Lsmeans dose*time / tdiff ; run ; つ ハ0
表 1:図 1に 対す るプ ログラ ム 1の 結果 の抜粋 「 lme Dose 1効 果 ‐ IDose ‐ Dose 1 │ 効果 ‐ Dose*Time i 10 20 1 Time l ̲Oose 1 0 0 │ ‑2. 1 1 1 1 20 0 2 0 3 20 10 0 3 20 ‐ 1 1.6 3 1 1.2 t 4 0. 0.27 1.63 0 39.9 . 0.7376 1 39.9 0.7376 1 39.9 1 2.6 :0.7376 39.9 3.8 :0.7376: 39.9 , 4 :0.7376,39.9 4 5 5 Pr > lt ,I 1.36 . 0.7376 2.8 3 : Dose*T i me 2 t値 0.7376 1 2 Dose*T i me Pr > 36 標 準 誤 差 :自 由度 10 t値 ‑3.12 , 0 1 Dose*T'i me 自由度 0.1828 0.7877 0.1116 ■1' 載 :鵜 嶽:撃 1.08 5.42 監data ■norr、 a:diゞ ribution 鈍︒ 駆 備絆 耀 ヽ掛や 相熟︱ト 9 7 ・ .0鑢0 Dose:20 54321543215432154321543 ■me3 ■mel ■me2 2 1 ■me4 ■嗜e5 図 2:図 1に 対す る Dose[20]に おける正 規分布 に基 づ くデ ー タ分布 ● プ ロ グラム 2:図 1に 対す る Genmod proccdureに よる poisson分 布 を仮 定 した一般 化 推 定方程 式 (generalized estimtting equations;GEE) Proc Genmod data=datal DESCENDING; class ID Dose Tj.me Grade; modeL Grade = Dose Time Dose*Time / dist=poisson REPEATED SUBJECT = ID ; Ismeans dose/tdiff adjust=dunnett; Lsmeans dose*time/tdiff ; run; 63
表 2:図 1に 対す るプ ロ グラム 2の 結果 の 抜粋 loos e 推定値 _Dose 整済 P 0.0064 10 ‑0.8834 IDose 1 1 :Tlme I Pr > 値 0 11 0. 01 11 2. 01 0 21 31 10 0.1769 1 0. 0.38 0.1784 0.33651 0.2783 0: 1 1291 0: ̲4」 ̲̲191 ̲̲̲41̲,.251,=̲̲Q=β ̲170 ̲ 41̲̲1.̲2 り: ら 10a,1̲ 5, ̲1.42711 ̲o.14911 51 1.6094. 0:. 01 41 01 51 10 0 51 20: 31 31 lzl: 0.1867 0 .06048. 0.1731 101 1.32 1.59 0.1126 2.16撃 ::裁 :││:│:││:│:│1義 1.21 :1場 │1議 0.2267 1.o叩 │:̲̲o.蒸 力 ̲̲11.1鉤 鰈隕吻玲 Dose:20 1 9 8 7 爾poisson dstribution 5 4 3 2 1 0 ・ ・ 撻撻絆耀 ヽ辮禅 担ヽ︱ト 黎data 543215432154321543215432 頂me■ ■me2 ■m● 3 ■me4 ■me5 図 3:図 1に 対 す る Dosc[20]に お け る Poisson分 布 に基 づ くデ ー タ分 布 ● プ ログラム 3:図 1に 対す る Genmod procedureに よる順序 ロジ ッ トモ デル を仮 定 した一般化 推定方程式 (gCnerahzed cstimating equations;GEE) ods output LSMeans=LSMeans; Proc Genmod data=data1 DESCENDING; class ID Dose Time Grade; modet Grade = Dose Time DosexTime / dist=muttinomiat covb; REPEATED SUBJECT = ID ; lsmeans dose/tdiff adjust=dunnett; Lsmeans dose*time/tdiff ; run; data LSMeans;set LSMeansi CumPred=l/(1+exp(-estimate));run;proc print;run; proc detete data=LSMeans;run; 64
表 3:図 1に 対す るプ ロ グラム 3の 結果 の抜粋 ― bも ξ ぎ 標準誤差 l │ ̲Dose i推 定 値 ztt Pr>│'│1調 整済 PI 16 o l‑11.bb441 b.910t l‑13.07目 国爾凸赳雉 く.00011 2o 1 0 1‑22̲56亨 111'2111111.′ ′鱚眩隕躊隕m、 .0001 0' 10 1 1推 定 イ 直 -Time 標 準 1. 0 1 20‐ 01 2 10 2 0: 3 10 3 0‐ 3 0.7887 26.05 ② 4 201 101 0.99 1.4104 1.2538 0.3222 27 1.08 1.2208 3.7836 01 01 1諄 ,lzl l Z 1.437 1.3415 4232 0.2821 2.6%隋 躙隋鰈 │ 4:̲2Z.70071 2.,22■ │ 511 29.751 1,253ol 51 54.0345. 2.・ .022̲3‐ 1 Dose:20 8 ・岬∞ 0 2 ・﹂︒ 0 倒 辮絆 耀 ヽ絆仲 粗黙︱ト 離data , ordinal logit model 543215432■ Time■ ■ime2 54321543215 7:m● 3 4321 ■me4 TimeS 図 4:図 1に 対する Dose[20]に おける順序 ロジットモデルに基づくデー タ分布 表 1と 表 2と 表 3の 検定結果 を比較す る と,検 定 の結論 は表 3の Time[2]の Dose[0]と Dose[10] の比 較 にお いて 有意 であった こ とを除き,3解 析 とも同 じ結果 で あ った。表 3の Dosc[0]と Dosc [20]の 比 較 にお いて ,表 1の t― valucは 436,表 2の z‐ valueは ‑9.42,表 3の z¨ valueは ■8.44で あ った。 図 2,図 3,図 4よ り,順 序 ロジ ッ トモ デル が標本 に対 して のあてはめが よい ことが示 唆 さ れ た。以上 の結果 か ら,順 序 カテ ゴ リカル 経 時デ ー タの解析 にお いて は,順 序 ロジ ッ トモデ ル に 基 づ く解析 と,正 規分布や Poisson分 布 を仮定 した解析 では大 きな違 いが あ る こ とが確認 で きた。 以下では以 上の結果を踏ま えて,離 散型反応 の経時デー タに対す る一般化推定方程式 (GEE) 及びベイ ズ流解析 の検討 を行 った。 65
3.GEEに ついて 本章 では GEEを 実施す る上での注意 点及 び解析結果 の解釈 につい て説 明す る。 なお ,詳 細 は引 用文献 を参照 されたい [1,2]。 引用文献 を参照す る際は定 義 が 異 な ってい るため ,注 意 が必 要であ る (特 に,ア ウ トカ ムの 分散や擬似尤度 の数 式が若千 異 な ってい た りす るが ,確 率 モ デ ル として 設定す る指数型分布族 の 定義が異なるためで ある。)。 以降 の数式 の記号 の定義 は Appendixに ま と めたので ,そ ち らを参照 され たい。 離散型 反応 の経時デ ー タ解析 において は、一般 化線形 モ デ ル (Generalized Linett Model;GLiM)が 用 い られ る と、 ア ウ トカ ムの確率分布 を正確 に特定す るこ とが困難 であることか ら、 しば しば過 分散 の 問題 が生 じる。そ のため GLiMか ら拡 張 され た解析 で ある一般化推定方程式 (Generalized Estimating Equttions;GEE)を 検討す る。 GEEは 、GLiMに お けるア ウ トカ ム が指数分布族 に含 まれ る分布 に従 う 。ア ウ トカ ム がそれぞれ 独 立で ある、 とい う 2つ の仮定 を取 り払 い拡張 した もので ある[3]。 ⊆塑』笙≧⊆:NMQi≧ ∠二立金当型2董:当 ユ̲:型用する性質 ● GEEで は平均構造 (1次 モーメン ト)を 正しく特定する必要がある。 ● GEEで は分散共 分散構 造 (2次 モー メン ト)を 誤特定 して も,周 辺 モ デ ルの平均構 造 を表す パ ラメー タの一致推 定量 (consistent cstimatOr)と そ の漸近分散が得 られ る。 > ● なお ,最 尤法 では確 率分布 ,す なわ ち全てのモー メン トを正 しく特定す る必要 がある。 回帰係 数 ベ ク トル βの 推 定量ρは,多 変量正規分布 M7Ⅳ に分布収 東す る。個体数κを用いて次 式 で表 現 で きる。 なお ,以 下 のV̀(β )は GENMODプ ロ シジ ャの Repeatcdス テ ー トメ ン トのオ プ シ ョンで cOvbを 指 定すれ ば出力 され る。補足 と して ,GENMODプ ロシジ ャ の Modclス テ ー トメ ン トのオプシ ョンで cOvbを 指定 して 出力 され るのは一般化線形 モ デル に よる分散共分 散行列 で あ り GEEと は異 なるので注 意す る。 κ '(β ● ―β)→ νyⅣ (0,V6) 作業相 関行列R」 は必ず しも真 の相 関を特定す る必要 はない。 (補 足 ;GENMODプ ロ シジ ャで は Modelス テー トメ ン トのオプシ ョンで順序 カテ ゴ リカル モ デ ル を意 味す る multinomialを 指 定 した 場合 ,作 業相 関行列 の構造 は independcntし か選択 で きないが ,GEEで は漸 近近似 によ りβの分布は求まる。) ● GENMODプ ロ シ ジ ャ に は Bttesス テ ー トメ ン トが 存 在 す るが ,Bγesス テ ー トメ ン トを利 用 す る と Repeatedス テ ー トメ ン トは無 視 され るた め ,経 時 デ ー タの 解 析 は で きな い こ とには注 意 が 必 要 で あ る。 ま た , GENMODプ ロ シ ジ ャ で は Modelス テ ー トメ ン トの オ プ シ ョンで順 序 カ テ ゴ リカル モ デ ル を意 味す る dist=multinomialを 指 定 した場 合 ,Bayesス テ ー トメ ン トは 無 視 され る。 66
3.ベ イ ズ流解析 につい て 3.1.ベ イ ズの定理 につ いて ベ イ ズ流にお いては ,過 去の 情報 (無 情報 も含 む )に 基 づ く事 後分布 を,こ れ か ら行 う解析 の 事前分布 に設 定す る。そ のために ,ベ イ ズ流解析 で はベ イ ズの 定理 を統計モ デ ル に適用す る。 こ こでは,連 続型 パ ラメー タのベ イ ズの定理 を説 明す る。 ア ウ トカ ムyと そ のパ ラメ ー タθのベ イ ズ の 定理 は,事 前分布 ρ(θ ),尤 度 L(θ レ),事 後分布 ρ(θ ly)を 用 いて 次式 となる。 )ρ ρ ly):=ァ │::il;│;│;;万 ラ(Xι レ (θ (θ (θ ) また ,事 前情報 ρ(の が一様事前分布 である場合 の ベ イ ズの定理 は次式 とな り,事 後分布ρ(θ レ)は 確 率分布であるた め ス ケール 化尤度 と一致す る。 ρ(θ レ)∝ L(θ レ)ρ (の ∝L(θ レ) ベ ズ この ことは ,頻 度 流 と イ 流 にお いて解釈 は異 な るものの ,事 前分布 に一 様 事 前分布 を採用 すれ ば解析結果 が一致 す るこ とを意 味 してい る。本研 究 にお いて は ,頻 度流 の解 析 との整合性 を 得 なが ら,ベ イ ズの 定理 に基 づ き事前情報を利用 し解析精度 を向上 させ ることを 目的 としたた め ,事 前分布 に一様 事前分布 を仮 定 した (た だ し,一 様事前分布 を採用す ることはベ イ ズ流 にお いて は一般的でな い ことに注意 )。 32.検 討 したベ イ ズ流解析 につい て 本解析 では,頻 度流 の解析 が 実施 で きる状況で あれ ば,簡 便 にベ イ ズ流解析 が で きる ことを 目 標 と してベ イ ズ流解析 を検討 した。 本研究 では ,頻 度 流 との整 合性 を維持 して既 存 プ ロシジ ャの 解析結果 を利用 しなが ら,ベ イ ズの 定理 に基 づ く事 前情報 の利用 に よる解析精度 の 向 上 を 目的 と してい る。 ただ し,GENMODプ ロ シジ ャには Bり esス テ ー トメ ン トが存在す るが ,Bυ esス テ ー トメ ン トを利用す る と Repeatcdス テ ー トメン トは無視 され るため ,経 時デー タの解 析 はできない こ とには注意が必要 である。 また , GENMODプ ロ シジ ャでは Modelス テー トメ ン トのオプシ ョ ンで 順序カテ ゴ リカルモ デル を意味す る dist=multinomialを 指定 した場合 ,Bayesス テ ー トメン ト は無 視 され る。 本研 究で検討 したベ イ ズ流解析 につ いて説明す る。 同一の試験 を 2回 行 った と して ,そ れぞれ 試験 1,試 験 2と す る。そ の具体的 な手順につい て 次 に説 明す る[4]。 試験 1の デー タッ1= ,yl.1),試 験 2の デ ー タン2=〔 ソ21,… ,ソ 2● .},モ デ ル パ ラメ ー タθ={θ …′θρ〕,試 験 1に 対 (ノ 1.′ … l′ す る初 期 事 前 分布 を 一 様 事 前 分布 と してρ。(θ 16。 ),試 験 1の み の 結 果 と して の尤 度 Ll(θ lyl),試 験 2の み の結果 と して の 尤 度 L2(θ ly2),あ るパ ラ メ ー タ 0≦ α。≦ 1と す る。 ここで はα。=1の 場 合 を 考 え る。 この 時 の 事 後 分布 ρ(θ lα 。,yl,y2)に つ い て 以 下 が 成 り立 つ 。 L2(θ ly2) ρ(θ lα O,yl,y2)∝ ρO(θ 160)L■ (θ lyl)α ° ∝ Ll(θ lノ ■ )L2(θ lノ 2) α。=0の 時 には試 験 1の デ ー タは無 視 され ,α O=1の 時 には試 験 1の デ ー タは試 験 2と 同 じ重 み が 与え られる。また ,L(θ レ)∝ ρ(θ レ)で あることか ら,Ll(θ lyl),L2(θ ly2)を スケール 化 した 2(θ l夕 1),ρ 2(θ ly2)を 考 えると次式が成立する。 L■ (θ lyl)L2(θ ly2)∝ 67 ρl(θ lノ 1)ρ 2(θ ly2)
整理す る と次式にな る。 ρ(θ ly■ ,y2)∝ ρl(θ lノ 1)′ 2(θ lノ 2) つ ま り,各 試験 のみ を考 えた場合の事後分布 を求め られ て いれば,そ の積 よ り全体 の 事後分布 を 構成 す る ことがで きる。 本研 究 では GEEに 基 づい て算出 したた め,尤 度ではな く擬似尤度 に基 づい た。 Ll(θ lyl), ′ ′ L2(θ ly2)に 対応する擬似尤度をメ1(θ lyl),ι 2(θ レ2)と し,こ れに対応 して〆1(θ lyl),ρ 2(θ ly2)と して,次 のメ(θ lyl,y2)を 考える。 ′ )L′ 2(θ ly2) ρ (θ lyl,y2)∝ L′ 1(θ lン ■ ′ ′ →∝ ρ 1(θ lyl)ρ 2(θ ly2)(■ → ∞) GEEか ら求まった〆1(θ lyl),/2(θ ly2)は 共役分布族である多変量正規分布に従い,メ (θ lyl,y2)に ついて も GEEの 定理は成立するため,こ れよりθが推定できる。 3.3.算 出方法につい て ρ(θ ly■ ,y2)の 計算方法 について説 明す る。 GEEで は パ ラメー タについ て 次式 が求ま る。 κ '(β 一β)→ ν7Ⅳ (0,V6) ここではβをθで対応して表記する。ρ(θ lyl,y2)は 確率密度関数なので積分して 1に なる必要が あ る の で ,規 格化定数 αを利用 して 次式 が成 立す る。 1=∫ ρ (θ ly■ ,y2)dθ θj:=(夕 ″ =α ル■ (θ lyl)ρ 2(θ lノ 2)α θ =務 Σ ■ [lρ (θ [lyl)ρ 2(θ jly2) 分 にお ゲろθの影 う+蒜 ×(ガ勧匿Z篇分 にお ゲ ろθの数 t・ ど芳詐グ の月 リ この 関係 に基づい て ,次 の数値的な経験分布 ら (の を求 める[5]。 為)=7)Σ (θ j≦ (θ θ ) II[11″ M y2) ″=ア ρ l(θ ι レ 2(θ 」 1)ρ i=1 、 ● ′り ̲fρ l(θ ilノ 1)ρ 2(θ jlソ 2)ガ f θj≦ θ ″フ υ、ー .,′ ヽ [ゝ ノ 1 0; Oι んθrwお θ ら (θ ly)が 得 られ た ら,こ こか ら期 待 値 及 び 95%信 用 区 間 を推 定す る。以 上 の 計 算 は ,頻 度 流 の 解 析 を基 本 と して比 較 的 簡 便 に実施 が で き る。 68
4.シ ミュ レー シ ョンについて 4.1.シ ミュ レー シ ョンデ ー タの生成 デ ー タについて は ,以 下 のよ うに順 序 ロジ ッ トモ デ ル の リンク関数 を設定 してデ ー タを生成 し た。 なお ,図 5は 順序 ロジ ッ トモ デル の説 明図であ る。 g(θ 計)=μ r+Xjβ +ε ι θ:=ordered logistic regresslonの リンク 関数。 θ静 :=cumulative category probあ 1litiesの 第 rカ テ ゴ リー ` ` ‐ ` μr(∵ r=1,2,… ′クレ ー ハの数 ‑1):=Ordered 10gistic mOdelの 第γカテ ゴ リーの切片 )=[デ ル Xiβ =μ 」:=あ Sθ +ι ι θσ 7れ θ+dOSθ *ι れ jγ εi=MyⅣ (0,Rj) ` :` │(グ `カlβク κ そρ:=:05) R :==1/′ : │´ :多 ・ 2ノ `1・・ グレード1に なる→ 確率=0̲301 pl=0̲699‑→ 露モ ヮー ブ レ2 出現率 ド2に なる ニ0̲453 ニ 番 産ヨ t:T)V I ← シ 0246 0. 確 率 =0̲246 X 説明変数 図 5:順 序 ロジ ッ トモデルの各グ レー ドになる確率の説明[6] 乱 数 生 成 の概 観 に つ い て は図 6に 示 し,パ ラメ ー タ設 定 に つ い て は 図 7に 示 した 。 なお ,今 回 は GENMODプ ロ シ ジ ャ の Rcpcatedス テ ー トメ ン トにお い て typeオ プ シ ョン を independe」 と して作 業相 関行 列 を指 定 し,今 回 の シ ミュ レー シ ョンで は作 業 相 関行 列 Rι を誤 特 定 させ た 上 で 性 能 を評 価 した 。 ̲.=,̀● 1、 ,■ :f[■ it 3 1 4 1 ̲̲̲■ 11 11 1: ̲̲■ , ,│ 。 1 11 ll 1 11 10, 11 21 21 01 ql 010鶏 1̲ =1 2 -1...pta!.?. 3, -1.6!979. + -1-9!it9: ::三 :■ 2 01 「 , 01 2. 01 ││ :1,,, 1, -r-65579 ̲ iO.1,,,0● 2.■ :,,Q̀ 0. 0.01 1 -O- 5726, 2 -6-5126: ― L l撃 ::'・ 雲11:Ч :!::: 図 6:Excelを 用 いたシ ミュ レー シ ョンデー タ の生 成 ,I Q︶ 0 ハ
Trial:シ ミ ュ レ ー シ ョン研 究 に 用 い る試 験 ID(1000試 験 ID: ) イ 固体 ID Dose: 用 量 (0,10,20の 3用 量 で ,n=20) Time: 時 点 (5時 点 ) ID̲effect :そ の個 体 が 線 形 予 測 子 に与 え る effectで ,N(0,1)と す る。 =IF(RE‑1]C[‑3]=RC[‑3],R[‑1]C,NORM.S.INV(RAND())) Dose̲effect:そ の用 量 が 線 形 予 測 子 に与 え る effectで ,用 量 ×0.1と す る。 =RC[‑3]*0.1 Time̲effect:そ の時 点 が 線 形 予 測 子 に与 え る effect(交 互 作 用 項 含 む )で ,用 量 ×0.1× 時 点 とす る。 Error =R(〕 E‑4]*RCE‑3]*0.1 :そ の観 測 が 線 形 予 測 子 に与 え る effect(誤 差 項 )で ,N(0,1)と す る 。 =NORM.S.INV(RAND()) Total̲effect: ̲1■ 言 己4つ の effectの 総 和 三SUM(RCE‑4コ :RCE‑1]) Predictor :Total̲effectか ら 5を 減 算 し ,反 応 変 数 の乱 数 生 成 に 用 い る線 形 予 測 子 =RC[‑1]*0.4 Probl:反 応 変 数 の カテ ゴ リ ー に つ い て 2未 満 とな る発 生確 率 =1/(1+EXP(1‑RC10)) Prob2:反 応 変 数 の カテ ゴ リ ー に つ い て 3未 満 とな る発 生 確 率 =1/(1+EXP(2‑RC1 0)) Prob3:反 応 変 数 の カテ ゴ リ ー に つ い て 4未 満 とな る発 生 確 率 =1/(1+EXP(3‑RC1 0)) Prob4:反 応 変 数 の カテ ゴ リ ー に つ い て 5未 満 とな る発 生 確 率 (切 片 =‑1) (切 片 =‑2) (切 片 =‑3) (切 片 ‑4) =1/(1+EXP(4‑RC10)) Rand:0以 上 1未 満 の乱 数 で ,上 記 4つ の 発 生 確 率 か ら反応 変 数 を 生 成 す る 際 に用 い る 。 =RAND() Grade :生 成 された順 序 カテ ゴ リカル な反 応 変数 =IF(RCE‑1]>=RC[‑5],1,IF(RC[‑1]>=RC[‑4],2,IF(RCE‑1]>=RC[‑3],3,IF(RCE― 1]>=RC[‑2],4,5)))) 図 7:シ ミュ レーシ ョンデー タのパ ラメー タ設定について 4.2.検 討す る解析 に つ いて 本研 究では,1000回 のモ ンテカル ロ シ ミュ レー シ ョンによつて GEEと ベ イ ズ流解析 を評価 し た。順序 ロジ ッ トモ デ ルに従 う離散型反応 の経時デ ー タについ て乱数 生成 を行 い ,各 種解析 の薬 効 の パ ラメー タ推 定値 (doseOと dosc20の 差分 )に つ い て , MSE(mem square eror),信 頼 区間幅 被覆確 率 を評価 した 。推定す べ き真 の値 としては ,母 集 団に相 当す る 2000試 験分 の デ ー タをま と , めて 解析 した結果 を利用 した。 検討 した解析 は以 下 の 2通 りで あ る。 GEEに つい ての コー デ ィ ング は 2章 を参照 の こと。ベ イ ズ流解析 の コー デ ィ ン グについ ては Appcndixに て 記載 した。 70
● Genmod procedureに よる順序 ロジ ッ トモ デ ル を仮定 した一般 化推定方程式 (genediZed
estimtting equttions;GEE)
● ベ イ ズ流解析
>
今 回 のシ ミュ レー シ ョン設 定 として ,探 索的試験 と検証的試験 が実施 されたプ ロジェク
トを想定す る。今 回は計算 の便宜上 ,全 く同一の試 験 を 2度 行 うこ とを想定 し,そ れ ぞ
れ ,試 験 1,試 験 2と す る。
> 試験1,試 験2に 対し,上 記と同様にGEEを 行い,κ
'(β
―β)→ ν7Ⅳ (0,VG)を それぞれ
求 め る。
● GENMODプ ロ シ ジ ャ の パ ラ メ ー タ推 定値 に よ りρが 得 られ る。
O GENMODプ
ロ シ ジ ャ の Repeatedス テ ー トメ ン トの covbオ プ シ ョン に よ り■ が 得 ら
れ る。
> 以降はβをθで対応させて表記する。試験 1,試 験 2の MyⅣ (0,Vε )よ り,ノ
1(θ lyl),
メ2(θ レ2)を 求めた。
> /1(θ l夕 1),〆 2(θ ly2)の 分布を参考にして数値積分を実施 した。今回は〆.(θ lyl),
ノ2(θ ly2)の それぞれ95%CIに 基づき数値積分の範囲を決定した。詳細はAppendixを 参
照 の こと。
>
数値積分 のために生成 されたパ ラメー タに基 づ き, ら (の を算出 した。
′
今回,ρ 1(θ レ1),〆 2(θ レ2)は 多変量正規分布 に従 うので,試 験 1に よるθ,Σ の推定量
0
01,21を 用 いて,次 の関係 が成 立す る。
L(θ lyl)∝ eXpl― :(商
.・
1)T2・
(商 1)]=ρ・
ごおゲろθの創 う+寺 ×(妨 移
θι:=← 数磁多獲影ひ′
(θ
lyl)
におノ
ノろθι凛量大 ど別
のう
t・
リ
″
ρ 2(θ ly2)も 同様に定義 した。
。 ρ″1(θ lyl),ρ ″2(θ レ2)を 用 いて,ら (の を算出す る。今回はM=5000と した。
)=7争
14′ (θ
″=y
乙」
W(θ j≦
>
M
ι
=1
Σ[1″
(θ j≦
θ
)
″
′
′
ρ 1(θ jlyl)ρ 2(θ jly2)
′
θ
の={/1(θ 輩 2剛 汐
ャ
,lθ
1)ρ
j≦
θ
し
た
wを 求
を
求め
を95%信 用区
間と
,こ れ
。また,#Σ 推ι
ら =0.025,0.975と なる
(の
.θ
め ,こ れ を点推定量θι
oι α
ιとした。
71
5.シ ミュ レー シ ョン結果 につ いて GEEと ベ イ ズ流解析 の結果 を表 4に 示 した。薬効 の推定値 (doseOと dose20の 差分 ),標 準偏差 MSE,薬 効 の推 定値 の信頼 区間幅 にお いて,ベ イ ズ流解析 の方 が優れ る とい う結果 で あ った。標 準偏差 にお いてベ イ ズ流解析 では GEEの 約 1/、 厄よ りも更に小 さか った。薬効 の推 定値 の信頼 区間 幅にお いて ,ベ イ ズ流解析 では GEEの 約 1/、/フ であった。 また ,被 覆確率 につい て ,GEEと ベ イ ズ流解析 は共 に 0'5以 上で あ り,信 頼 区間 の 妥 当性 も保証 され てい ることが確認 で きた。以上 の 結果 よ り,ベ イ ズ流解析 を用 い ることで ,GEEの 推 定精度 を向上 した ことが確認 で きた。 本研 究 では頻度流解析 との整合性 を保証 した 中で ,頻 度流解析 をベ イ ズ流解析 へ と簡便 に拡張 す る方法 を検討す ることを 目的 としていた。 ベ イ ズ 流解析 へ と拡張 す ることによ り,事 前情報 を 利用す るこ とが可能 とな り,解 析精度 が向上す るこ とが理論的 に想 定 され る。 そ の こ とについ て,本 研 究 の シ ミュ レー シ ョン評価 によ り確認 し,本 検討 の簡便法 の 妥 当性 につい て も確認 し た。以 上の結果 を踏 まえて ,今 後 はベ イ ズ流 の解析 をよ り積極 的に活用 し,よ り柔軟 で 最適 な解 , 析 を実施 してい くことを考 えてい きた い。 表 4:シ ミュ レー シ ョン結果 GEE Estimate 95% CI 2.24 2 7.2 Est imate 4.7697 SD 1.2891 , MSE 1.3113 .241,1.3817) │(2. 1045,3.6,77) Range 被霜確率 2.8761 0.961 │ (r.23s6,r.3489) (1. True Bayes │ Estimate 4.7005 (3 0.7946 1(0 0.8129 1(0 2.0184 .(1 0.963 95% CI 1432,6.2579) , 95% CI Estimate 4.529(4.4982,4.5598) 761o,0.8314) 7709,0.8549) 6770,2.3597) . Estimatc:薬 効 の推 定値 ,SD:標 準偏差 ,MSE:mcan squarc cror,Rallgc:薬 効 の推 定値 の信 頼 区間幅。 Tmc:2000試 験 のデ ー タをま とめて GEEを 行 っ た結果。 6.引 用 文 献 [1]船 渡 川 伊 久 子 ,船 渡 川 隆 (2015)経 時 デ ー タ解 析 (統 計 解 析 ス タ ン ダ ー ド).朝 倉 書 店 [2]SAS/STAT(R)9.2 Useris Guide, Second Edition.Accessed 江 20180717, Available at: < https:〃 suppo■ .sas.com/document証 oゴ cdycゴ statuノ 63033/HTML/defauVviewerhm#statug̲genmod̲sect0 43.htin> [3]浜 田 知久馬 (2017)新 版 実用 SAS生 物統計 ハ ン ドブ ック.サ イ エ ンテ ィス ト社 [4]Emmanuel Lcsattc(著 ),Andrcw B.Lawson(著 ),官 岡 悦 良 (翻 訳 ),遠 藤 輝 (翻 訳 ),安 藤 英 一 (翻 訳 ),鎗 田 政男 (翻 訳 ),中 山 高志 (翻 訳 )(2016)医 薬デ ー タ解析 のためのベ イ ズ 統計学 .共 立 出 版 [5]田 川 聖治 ,官 永 峻 (2016)重 み付 き経験分布 に よる分位 点 の推 定方法 .平 成 28年 度電気 関係 学会東北支部連合大会 [6]我 楽 多頓 陳館 .統 計 学 入 門 ― 第 10章 .Acccsscd江 20180717,Availめ lc江 :<http://wwwsnap― tck.corn/room04/c01/staυ st江 10/st江 1005.html> 72
7.
Appendix
7.1.GEEに 関す る数 式 の 記 号 の 定 義
● ソ:ア ウトカム
● ノ::ご =〔 1,2,… ,κ }番 目の対象者 のア ウ トカム
● ソリ =(1,2,… ,4番 目の対象者 のプ={1,2,… ,η 番 目の時点のア ウ トカム
.,yれ
Ⅵ =レ 1,。・
・
:ι
j〕
]′
●
μ =E[ソ ]
● μι=Fレ :]
●
μり =EI均 ]
・′
μj=[μ jl,・・
μれ,]′
・
● Xiブ =[χ ″1,...′ χ抑
:ソ ザに対応 す る説明変数ベ ク トル で,要 員数 はρ
]′
● β :回 帰係数ベ ク トルで,要 因数はρ
● f(y;θ ,9)=eXp{Z七
>
:器
+c(ソ ′
の
例 )/(ソ ;μ )=ど 堅 二望 ≧
}:指 数型分布族 の確率密度関数
POissOn分 布 の 場 合
● θ(μ り)=x:プ β :θ は リンク関数。
>
例)logistic回 帰 であれば型生 =x:プ β
● Vi=ψ
l
l
《 R(0《 :Y:の 分散共分散行列。
> 9:局 外 パ ラメー タ(nuismce parameter)
> Aj:ν (μ ヴ)=b″ (θ )の れ[× ηiの 対角行列
> R(α ):作 業相 関行列
● φ=雨 1=Σ にlΣ μ.θ み:ψ の推定量
二
塁
望:Pearson residual
> θ
´=半二
i′
ν″
」
(μ
)
● S(β )=Σ 鷹lD:Ч 1(Yι ―μι
(β ))=0:擬 似尤度。 これ を 0と して推定量を求める。
>
「 aγ
lf号 =≒
θ(μ り)
lσ
where D:=2二
‐ ∂ ―│^:
β
l漱
●
:諭
∂θ(μ
:ノ
路 (β )=Σ θ=15111151=(Yι ―μ」
(β ))(Y」 ―乃(β ))′ (in cOmputing):β の分散共分散行列。
> I。 =Σ 絶.D:Ⅵ
lDι
> 11=Σ 絶lD:Ⅵ lVar(■ ) lⅥ lDj
73
7.2.ベ イ ズ流解析 の コー ド
use estimate;read all into estimate;Ctose estimate;
use range;read all var {LowerCL2 UpperCL2) into
rangeiCtose range;
do i=l to 5000;
zo[i]=range[1]+(rangeE2]― range[1])/5000*i;*estimates;
本 シ ミュ レー シ ョン研究で行 っ た ベ イ ズ流
解 析 の SASの コー ドについ て記載す る。 ここ
で は シ ミュ レー シ ョンデー タ 「S2018.datal」
end;
と して記載 した。
do i=l to 5000;
zl[i]=(zO[i]― estimate[1,1])*(20[i]―
estimate[1,1])/estimate[1,2]/estimate[1,2];
z2[i]=(20[i]― eStimateE2,1])*(20[i]一
Option nodate nonumber ls=160 ps=80 NONOTES NOSOURCE
NOSOURCE2 ERRORS=0;
PROC PRINTTO PRINT="C:ヽ SASout.tst'' LOG="C:ヽ SASLog.log"
NEW; RUN;/*出 力先 を OUTPUTウ ィン ドウに戻 す *//*PROC
PRINTTO;
estimate[2,1])/estimateE2,2]/estimate[2,2];
end;
do i=l to 5000;
RUN;*/
z3[i]=exp(― zl[i]/2)*exp(― z2[i]/2);
end;
/*確 率分 布の算出*/
ods output GEEEmpPEst=GEEEmpPEst;
Proc Cenmod data=S2018.datal;by Trial;
class ID Dose Time Crade;
modet Grade = Dose Time Dose*Time / dist=muttinomial;
REPEATED SUBJECT = ID /covb;
do i=l to 5000;
z4
=z4+z3[i];
run;
do i=l to 5000;
z6[i]=z5[i]*zO[i];
data result;run;
data CEEEmpPEst3(keep=Trial Estimate Stderr LowerCL
UpperCL);set CEEEmpPEst;
if Parm="Dose'' and Leve11=0 ;
end;
end;
do i=l to 5000;
25[i]=z3[i]/z4;*probability;
end;
do i=l to 5000;
27
=z7+z6[i];*mean̲estimate;
end;
print 20;print Zl;print Z2;print z3;print z4;print
run;
/*こ こか らマク回*/
z5;print z6;print z7;
CREATE zO FROM 20;append frOm 20;
CREATE z5 FROM z5;append from 25;
CREATE z7 FROM z7;append from z7;
%macro jigol;
%do i=1%to 1000;*解 析 の評 価のためのモ ンテ カル 回試行回
数
;
data estimate(keep=estimate stderr);
set GEEEmpPEst3;
if Trial=&i or Trial二 &■ +1000;
quit;
/*デ ー タ整理 と信 頼 区間 の産 出*/
data Jlgo;Set 25 zO;run;
PROC TRANSPOSE DAl A=Jlg0 0UT=31gO;RUN;
proc sort DATA=jigo OUT=Jigo;by CO12;RUN;
run;
data range;
set GEEEmpPEst3;
if Trial=&i Or Trial=8i+1000;
data jigo;Set Jigo;retain cum O;Cum=cum+co11;run;
data Jigo;Set jigo;
if cumく 0.025 then flag=1;
if cum>=0.025 and cum く=0.975 then flag =2;
run;
PROC TRANSPOSE DATA=range OUT=range;RUN;
data range;Set range;
co13=co11;
if ̲name̲='lLowerCL'' and co12く co1l then co13=co12;
if ̲name̲='lUpperCL'' and co11く co12 then co13=co12;
if cum>0.975 then flag = 3;
run;proc prlnt ;run;
data jigo(keep=co12);Set jigo;by flag;
if last.flag and flag=l then output;
if first.flag and flag=3 then output;
run;
PROC TRANSPOSE DATA=range OUT=range;RUN;
data range(keep=LowerCL UpperCL);Set range;if
run;
PROC TRANSPOSE DATA=Jlgo OUT=Jlgo;RUN;
̲name̲="cot3'';run;
data range(keep=LowerCL2 UpperCL2);set
range;LowerCL2=LowerCL*2‑UpperCL;UpperCL2=UpperCL*2‑
LowerCL;run;
data jig。 (drop=̲name̲);merge z7(rename=(co11=estimate))
jig。 (rename=(co11=low cot2=high));Trial=&i;run;
data result;Set resutt jigo;run;
%end;
proc imL;
zo=J(1 ,5000,0); *数 値 積 分
%mend;
%jigol;
data result;Set result;if trial>0;run;
proc print irun;
;
z|=J(,5000,0); *;
zz=J ( ,5000 ,0); *;
z3=J(1 ,5000,0); *;
z4=J(,1,0); *;
z5=J (1 ,5000 ,A); *;
z6=J (1 ,5000,0) ) *;
zl=J(,1,O); *;
74
SASに よる競合 リス クを伴 う生存 時間解析 の理解 ○魚 住 龍史 1京 1 浜 田 知久馬 2,十 都 大学大学院医学研 究科 医学統計 生物 情報学 2元 東京理科大学 Understanding for survival analysis in the presence of competing risks using SAS Ryuji Uozumir and Chikuma Hamada2'I I Department of Biomedical Statistics and Bioinformatics, Kyoto (Jniversity Graduate School of Medicine 'Tolryo Unir"rtity of Science (formerly) 要旨 生存 時間デ ー タは ,競 合 リス クの影 響 に よ り,関 心 の あ るイ ベ ン トが観 察 され な くな っ て しま うこ とが あ る . 近年 の SAS/STATで は,LIFETESTプ ロシジ ャや PHREGプ ロシジ ャ にお ける EVENTCODE=オ プ シ ョンを 活用す るこ とで ,競 合 リス クを伴 う生存 時間解析 が実施 で きるよ うに な った。 しか し,プ ロシジ ャに よ るオ プ シ ョン機 能 に頼 って しまい ,競 合 リス クモデ ル に関す る内容 の 理解 が乏 しい と,応 用 上 限界 が あ る とい え る.本 稿 では ,競 合 リス クを伴 う生存 時間解析 が どの よ うに実行 され て い るか,累 積発 生 関数 お よび Fine― Gray モ デル を題 材 に解 説 す る.さ らに ,競 合 リス クを扱 うた めのプ ロ シ ジ ャのオプシ ョン機 能 を利用せず に , Finc‐ Grayモ デル に よる生存 時 間解 析 を実施す る方 法 を報 告す る . キ ー ワー ド :生 存 時 間解 析 Finc― Grayモ デ ル 競 合 リス ク 部分分布 ハ ザ ー ド 累積 発 生 関 数 ロバ ス ト分 散 Meier推 定量 打 ち切 り分布 の Kapl帥 ― 変 数選 択 重み LIFETEST PHREG EVENTCODE WEIGHT 1 は じめに SAS/STATで は ,あ る個 体・対 象 が特 定 の事象 を発 生す るまでの時 間 を分析す るプ ロ シ ジ ャがサポ ー トされ てお り,LIFETESTプ ロシジ ャや PHREGプ ロシジ ャが該 当す る.医 学 分野 では,あ る対 象者 が特定 の原 因 に よるイベ ン ト発 生 までの時間が ア ウ トカ ム とな る.信 頼 性 工 学 の分 野 で は ,あ る対象製 品 が故 障す るまで の 時間 をア ウ トカ ム と して分析 され る。近年 ,LIFETESTプ ロ シジ ャや PHREGプ ロシ ジ ャを用 いた解析 手 法 は 様 々 な研 究領 域 で応 用 され てお り,犯 罪学 にお け る犯 人 の 執行猶 予 ま で の 時間 ,社 会 学 にお ける初婚 ま での 時 間 ,保 険 の 労働 者 災害補償 を請 求す るまで の時 間 な どが 挙 げ られ る (Kolosova md Berestizhevsky,2018). t zon+t2F2rEfi+^ 75
著者 らは ,LIFETESTプ ロシ ジ ャや PHREGプ ロ シ ジ ャを医学分野 で応 用 してい るた め ,本 稿 で は 「生存 時間 解 析 」と表 記 す る こととす る .生 存 時 間解析 手法 の 開発 は 日々行 われ てお り,SAS/STATに お いて も最新 バー ジ ョンが リ リー ス され るたび に ,新 たな機 能拡 張 が 行 われ てい る (大 橋 ら,2016;浜 田・魚 住 ,2016a,2016b;魚 住 ら,2017,2018).本 稿執筆 時 の 最新 バー ジ ョンは SAS/STAT 143(SAS Insthtc lnc.,2017)で あ り,SASユ ー ザ ー 総会 にお いて も,SAS/STAT 143を 活用 した報 告 が行 われ てい る (矢 田 ら,2018). 生存 時 間解 析 の特徴 と して ,打 ち切 りを考 慮 す る点が挙 げ られ るが ,多 くの生 存 時 間解析 手法 は無 情報 打 ve censoring)を 前提 として い る (大 橋・ 浜 田,1995).し か し,情 報 打 ち切 り (inb・ mttivc ち切 り (non― inお rm censoring)で あ るに も関わ らず ,無 情報 打 ち切 りとして扱 うと,推 定結果 にバ イ ア スが 入 るこ とが知 られ て い る。打 ち切 りが無情報 で あ るか明確 には確認 で きず (Tsは is,1975),感 度解 析 を行 うこ とが対 処方法 と して 挙 げ られ る。そ の場合 ,競 合 リス ク (competing risks)を 考慮 した感 度解 析 が選択肢 と して挙 げ られ る (Geskus, 2016). 例 えば ,が ん に よる死 亡 まで の 時間 を評価 す る場合 を考 える と,交 通 事故 に よ って死 亡 して しま った場合 , がん に よ る死 亡 を観測 で きな くな つて しま う。 最 近 の話題 で ,よ り親 しみやす い 例 と して ,2017年 夏 に映画 化 され た『 君 の膵臓 をたべ た い 』 で は ,膵 臓 の病 気 を患 い ,余 命 1年 を宣告 され て いた ヒロイ ンが ,膵 臓 の 病気 以外 が原 因で 亡 くな った 物 語 を描写 して い る (住 野 ,2015).こ の よ うに ,他 の原 因またはイ ベ ン トが発 生 す る こ とに よって ,本 来評価 したいイベ ン トを観 測 で きない 場合 ,イ ベ ン ト間で リス クが競合 してい る とい う意 味 で ,競 合 リス ク と呼 ばれ る (西 川 ,2008;Gcskus,2016).特 に ,死 亡 の よ うな終 了イ ベ ン ト (tcrminal cvcnt) を扱 わ な い 場合 ,競 合 リス クの発 生後 に本 来評 価 したいイ ベ ン トが観 測 され る と,競 合 リス ク発 生 に よ リイ ベ ン ト発 生確 率 が変化 して しま う場合 は広義 の 競合 リス ク と位 置 づ け られ る (浜 田,2017).す なわ ち,図 1 にお け る点線 の 矢印 で示 され た推移確率 が 変化 して しま うこ とを意 味す る。 さ らに ,再 発 と死 亡 の よ うに , 非終 了イ ベ ン ト (non― terminal event)と 終 了イ ベ ン トを扱 う場合 ,準 競合 リス ク (semi― competing risks)と 呼 ば れ る (Finc ct al.,2001).以 上 の よ うな競合 リス クの影響 を受 け る生存 時 間デ ー タの場合 ,競 合 リス クを考慮 し な い と,解 析結果 にバ イ ア ス が入 って しま う。 しか し,多 くの生 存 時 間解析 で は ,競 合 リス クに よる影響 を 無視 した 解析 が実施 され て きた .Austin and Fine(2017a)の 調査 に よる と,イ ンパ ク トファクター の高 い 医学 雑誌 に掲 載 され た臨床試 験 の うち,多 くは競 合 リス クの影 響 を受 けて い るに も関わ らず ,競 合 リス クを考慮 しない 解 析 が 実施 され てお り,競 合 リス クを考慮 した解析 は ご くわず かで あ った と報告 してい る 琴 ス ク 広義 の競合 │リ スク リス ク が ん がん に よ る死 亡 ξ 崎 交通事故 に よる死 亡 量 臨 無 臨 輛 臨 繭 纏 薦 輔 場 鋼 辞 ‐ ■│● て ,ヽ 再発 健常 生存 . 術後 機 鵞 置 菫 心疾 患 ヽ ″ 繭''露 瘤申饉 ヽ 1 死亡 : 襲 輌 疇 I 図 1:競 合 リス クの種類 SASに よる競合 リス ク を伴 う生存時間解 析 と して ,%CIFマ ク ロ を用 い れ ば ,特 定 の原 因 でイ ベ ン トを発 生す る累積発 生 関数 (部 分 分布 関数 ,subdistribution inction,cumulative incidcncc inction)の 推 定お よび群 間 76
の 累積 発 生 関数 の差 の Gray検 定が実施 で きた (Lin et aL 2012).こ の よ うに ,SAS/STATの プ ロ シジ ャでは実 行 で きな い 点で ,SASを 用 いた競合 リス ク を伴 う生存 時 間解 析 結果 の報告 が少 なか った要 因 と考 え られ る . しか し,近 年 は競合 リス クを考慮 した解 析 結 果 が示 され て い る医学論 文 は増加傾 向にあ り,MEDLINEで compcting risks''で 検 索 され た論文 数 は 2015年 か ら 2016年 で 3倍 以上 とな ってい る と報告 され た (浜 田 , 2017).特 に ,医 学論 文 にお いては,査 読 者 が 競合 リス ク を考 慮 した追加 解析 を求 め ることが 多 い 点 も,増 加 傾 向 の 要 因 になってい る と考 え られ る.臨 床 研 究者 向 けに ,競 合 リス クを伴 う生存 時間解析 の解 説 記事 も報 告 され て い る (Sap卜 Pichhadzc et al,2016).SAS/STATに お い て も,SAS/STAT 13.1(SAS 9.4 TSIMl)以 降 の PHREGプ ロシジ ャで Finc‐ Gr町 モ デ ル が サ ポー トされ ,SAS/STAT 14.1(SAS 94 TSlM3)以 降 の LIFETEST プ ロシ ジ ャで累積発 生 関数 の推定お よび Gray検 定がサ ポー トされ た。 さ らに ,SAS/STAT 14.3(SAS 94 TSlM5)以 降 の PHREGプ ロシジ ャで原 因別 ハ ザ ー ド (causc̲specl■ c hazard)に よるモデル 化 が で きる よ う にな っ た . SASユ ー ザ ー総会 にお い て も,浜 田 (2017)は ,生 存 時 間解析 に よる実 務 的課題 の解決 と して ,累 積発 生 関数 の 推 定 ,Gray検 定 ,Finc― Grayモ デ ル に 関 して ,チ ュー トリアル と して解 説 が 行 われ た。これ らの解析 は , いず れ も LIFETESTプ ロシ ジ ヤお よび PHREGプ ロシジ ャにお いて ,EVENTCODE=オ プ シ ョン を指 定す る こ とに よって実 行 で き る .今 泉 ら (2018)は ,LIFETESTプ ロ シジ ャの EVENTCODE=オ プ シ ョンで 出力 さ れ る Gray検 定の性 能評 価 を行 ってい る。以 上 の報告 に基 づ い て ,競 合 リス クを伴 う生存時間デ ー タの解析 を 依頼 され た ら,LIFETESTプ ロシジ ヤお よび PHREGプ ロ シ ジ ャにお いて ,EVENTCODE=オ プ シ ョンを指 定す れ ば ,解 決す る と思 ってい る SASユ ー ザ ー が多 いので は ないだ ろ うか。 しか し,PHREGプ ロシジ ャに お い て EVENTCODE=オ プ シ ョン を指 定 す る と,Fine― Grayモ デル に よる解 析 が 実行 され る一 方 ,他 のオプ シ ョンが 機 能 しな くな る こ とがある.特 に ,PHREGプ ロシ ジ ャは多 くのステー トメン トを有 してい るが (大 橋 ら,2016),Fine― Grayモ デル による解析 を行 うと,PHRECプ ロ シジ ャの機 能 を十分 に活用 で きな くな って しま う。例 えば ,多 変 量 Finc‐ Grayモ デル に 対 して ,MODELス テー トメン トの SELECTION=オ プ シ ョンに よる変 数 選択 を指定 で きな くな って しま う。 したが って ,現 在 の SAS/STATに お い ては ,EVENTCODE=オ プ シ ョン を指 定せず に ,PHREGプ ロシ ジ ャで Fine― Grayモ デル に よる解析 を実行 で きるこ とを理 解 す る こ と が必 要 で あ る。そ こで ,本 稿 では,競 合 リス クを伴 う生存 時 間解析 が どの よ うに実行 され てい るか ,累 積発 生 関数 お よび Finc― Grayモ デル を題 材 にひ も解 く。 さらに ,EVENTCODE=オ プ シ ョン を利 用せ ず に ,累 積 発 生 関数 の推 定お よび Finc‐ Grayモ デ ル に よ る部分分布 ハ ザ ー ド比 の推 定 を実施 す る方法 を報告 す る . 2 競合 リスクを伴 う生存時間デ ー タのノンパ ラメ トリックな推定 生 存 時 間デ ー タの可 視 化 と して ,Kapl狙 ‐ Mcierプ ロ ッ トに よ るグ ラフ化 は常套 手段 であ る とい え る (魚 住 ・ 森 田,2015;魚 住 ,2017)。 しか し,競 合 リス ク を含 んだ生 存 時 間デ ー タ の場合 ,K叩 lm― Mcicrプ ロ ッ トを構成 してい る各 時点 の生 存割 合 は ,過 大評価 され て しま うた め ,特 定 の原 因でイ ベ ン トを発 生 す る累積発 生 関数 を推 定 す る こ とが行 われ る .2.1節 では ,累 積 発 生 関数 の推 定 方法 の数理 を解 説 す る.22節 で は ,LIFETEST プ ロ シ ジ ャで累積発 生 関数 を推定す る方 法 を報 告す る . 2.1 累 積 発 生 関数 の 推 定 生 存 時 間デ ー タ と して ,″ 名 の被験者 デ ー タが 得 られ てい る場 合 を考 える.(■ ,c,■ )は ,被 験者 ′∈ {1,2, ̲,″ )の イ ベ ン ト発 生 時 間 ,打 ち切 り時 間 ,イ ベ ン トの種類 を表 し,観 察時 間 を χ =minc,c)と す る.イ ベ ン トの種 類 を表す εjは 77
lで 関心 の あ るイ
(時 点 ι
1
ベ ン ト)
0
(時 点 tiで 打 ち切 り)
{2
jで 競 合 イ ベ ン ト)
(時 点 ι
(1)
と定義 す る.ア ウ トカ ム として関心 の あ るイ ベ ン トは ε
t=1の ときに発 現 し,既 (ι )=′ (為 ≦ ちε
̀=1)を
時
点 ′にお け る個 体 Jの イ ベ ン ト発現 を表 す 変数,4(ι )=1‑銚 (ι ―)を 時点 ノにお いて個体 」が リスク集合
に含 まれ るか ど うか を表す変数 とす る。た だ し,I(・ )は 'で あれ ば 1,そ れ 以 外 は 0を とる指 示 変数 である
.
さらに,7(ι )=Σ ,4(ι )を 時点
̀に
お ける リスク集合 の大 きさ,「 (t)=Σ i既 (ι )を 時点 ′まで の 累積イベ ン
ト数,△ (ι )を 時点 ′におけるイベ ン ト数 とす る。 ここで ,4(ι )に は競合 イベ ン ト (ε j=2)も 含 まれるた
「
め,競 合イベ ン トを考慮 して,喝 (ι )で 重み付 け した リス ク集合 の大きさを 7*(ι )=Σ :″ )4(t)と する
.
̀(ι
重み w,(ι )は
0,1〕 )
′
(t≦ χl,ε j∈ 〔
″t(ι )=
(2)
ε(ι ―)/σ (min(X̀― ,t― )) (ε t=2)
で ,ε (ι )=Pr(t<ε l)は 打 ち切 り分布 の Kttlan― Mcicr推 定 量 で ある。
この とき,Nclson― Aalcn法 による累積 ハ ザ ー ド関数 Συ≦ι△Ⅳ(2)/7(2)を 拡 張 して ,関 心 の あ るイベ ン ト
(ε
̀=1)に
対す る累積 発 生 関数 は
■(3)=Σ
ギ鶏 ;s(2̲)
ッ≦
ι
(3)
ただしパ(ι )は ,時 点 ″における Kttlan― Meicr法 による生存関数 の推定値である
と推定することができる。
式 (3)で は,競 合イベ ン トを打ち切 りとして処理せず ,式 (2)の ∂:(ι ―)/ε i(min(χ :一 ,ι ―))に よつて重み付
.
け して,累 積発生関数 を推定している。一方,競 合イベ ン トを打ち切 りとして扱 ったもとで,通 常の
Mcier法 で推定 した
Kapl帥 ‐
)か ら計算 した 1‑S(ι )は
'(ι
1‑輸 =1‑Π 菌
(1‑讐
絆
)
と推 定 され るが ,1‑S(ι )≧ rl(3)と な り,過 大評価 され て しま う い ndcrscn ct al.,2002).
2.2 LIFETESTプ ロシジャに よる累積発生 関数 の推定
2.1節 にお け る式 (3)で 示 した 累 積 発 生 関数 の 推 定 に 関 して ,LIFETESTプ ロ シ ジ ャ に よ る 実 行 例 を示 す
.
競 合 リス ク を考 慮 した 累積 発 生 関数 の 推 定 は ,SAS/STAT 14.1以 降 の LIFETESTプ ロシ ジ ヤ で サ ポ ー トされ
て い る (SAS Insthtc lncり 2015).累 積 発 生 関数 の 推 定 を 行 うデ ー タセ ッ トと して ,簡 便 に 図 1の サ ンプル デ
ー タ (″ =12)を 用 い る こ ととす る 。 表 1は ,各 群 6名 の 2群 で構 成 され るデ ー タで あ り,関 心 のあ るイ ベ ン
ト (ε j=1)と 打 ち切 り (8:=0)に 加 え て ,競 合 イ ベ ン ト (ε :=2)も 含 まれ て い る
.
図 2は ,表 1の サ ンプル デ ー タ セ ッ トの 作 成 お よび 累 積 発 生 関数 の 推 定 を行 う SASプ ロ グ ラ ム で あ る .式
ベ
ベ
(1)の ε:に 相 当す る変数 ccnsOrは ,ccnsOr=1を 関 心 の あ るイ ン ト,Censor=2を 競 合 イ ン ト,Censor=
0を 打 ち切 り と して い る .被 験者 番 号 を表 す 変数 を ID,群 を表 す 変数 を Group,観 察 時 間 者 に 相 当す る変 数
を Timeと して い る .図 2の LIFETEsTプ ロシジ ャ で は ,TIMEス テ ー トメ ン トで EVENTCODE=オ プ シ ョ
ン を指 定 して お り (FAILCODE=と 指 定 して も よい ),変 数 Ccnsor=1が 関 心 の あ るイ ベ ン トで あ る と指 定 し
て い る .EVENTCODE=1を 指 定 しな い と,TIMEス テ ー トメ ン トで TIME*CENSOR(0)と 指 定 して い るた め
,
Ccnsor=0以 外 は す べ て イ ベ ン ト (す な わ ち ,競 合 イ ベ ン トで あ る Censor=2も 関 心 の あ るイ ベ ン ト)と して
処 理 され る .ま た ,PROC LIFETESTス テ ー トメ ン トで CONFTYPE=LOGLOGと 指 定 して い る が
78
,
EVENTCODE=を 指 定 しな い 場 合 と同様 に ,CONFTYPE=LOGLOGが デ フ ォ ル トで あ る.Kaplan― Meier法 に よ る生 存 関数 の 信 頼 区 間 と同 じよ うに ,累 積 発 生 関数 の信 頼 区 間 も 二 重 対 数 変 換 に基 づ く方 法 で構 成 され る こ とを 明確 に示 す 意 味 で ,図 2で CONFTYPE=LOGLOGを 記 述 した . 表 1:サ ンプル デ ー タ (′ =12) . ε 被 験者番 号 ′ 観察 時間 χ ‐ ‐ 観察時間l κl ̀ 4 対照群 (CrOup〒 0).│ 7 5 6 8 7 8 9 9 10 10 11 12 11 13 14 12 15 メ . 被験者番号,‐ ‐ . ︱ キ │ │ 1試 験群 │(Grlupl■ 11) .■ .゛ data Work; inpul ID Group Time Censor GG; proc lifetest data:Work conftype=Ioglog; cards,' 1141 2162 3 180 41100 51121 61141 70518072 9090 100111 110130 120151 time Time*Censor (0) / eventcode=l; strata Groupi format Group Grcupf. ; run; run′ 図 2:サ ンプル デ ー タセ ッ トの 作成 お よび累積 発 生 関数 の推 定 プ ロ グラ ム 図 2の 実行 結果 として ,イ ベ ン トの要約 を示 す表 が 出力 され る (表 2).EVENTCODE=1と 指定 した た め , Ccnsor=1を 関心 の あるイベ ン トと取 り扱 ってい る こ とを確認 で き,イ ベ ン ト数 を表す 死 亡事象 ,競 合 イ ベ ン ト数 を表 す 競合 事象 ,打 ち切 り数 が表 1と 対応 した結 果 となって い る こ とを確認 で き る.さ らに ,ODS GRAPHICSに よる出力 に よって ,図 3の 累積 発 生 関数 の推定結 果 の グラフを出力 で き る.累 積発 生 関数 の推 定結果 と して ,実 際 の数値 を使 った 説 明 の前 に ,打 ち切 り分布 の Kaplan― Meier推 定 量 ε(ι )を 算 出す るた め の プ ログ ラ ムお よび出力結 果 を図 4に 示 してい る . 表 2:イ ベ ン トの 要 約 fレ J′ ι ″Eッ ι″脅 Gι ″sο ″ =f ‐ ‐ ‐ 層 99up. 死亡 競合 打ち切 う .全 体 ‐ ‐ ‐ ││ │ ‐‐ ││ ││‐ 事象│1事象 ││ ‐ │‐ .‐ 1 試 験群 2 対 照群 6 12 Total 79
累積 発 生 関数 期酬澤懸 " 00 瑯 00 25 12̀ 10.0 ,,0 e m 図 3 サ ンプル デ ー タに対 す る累積発 生 関数 の推 定結果 デ ー タセ ッ トの作成 │̀● proc lifetest data=work; time Time*Censor (1,2) ,' strata Group; ‐ ‐ ‐ ‐.ε t‐ f ormat Group r.. ror,l,.'. ; 10 run,' t (3).. ̲'■ ̲ C(t) 8 1.000 0 9 1.000 10 0.750 9 13 0.750 14 0.500 13 15 0.375 図 4:打 ち切 り分布 の Kttlan― Mcier推 定量 ε(ι )算 出 プ ロ グラム と推 定結果 表 3お よび表 4は ,図 2で 出力結果 され る累積 発 生 関数 の推 定結果 に加 えて ,説 明 のた めに列 を追加 した 表 であ る . 累積発 生 関数 の 推定値 ■ (t)と そ の標 準誤差 (Aalcn,1978;Marubini and Valsccchi,1995)が 出力 され る。 LIFETESTプ ロ シジ ャの デ フォル トでは,累 積発 生 関数 の信 頼 区間 は二重対数変換 に基 づ く方 法 で構 成 され る.す なわ ち,rl(t)の 標 準誤 差 を ■ 「 (Fl(ι ))と す る と,Fl(ι )の 100・ (1‑α )%信 頼 区間 は m'(acrt) / eXpl eXpt log(‑log〔 鳥(ι )〕 )平 zα /2 (4) ( (ι )10g〔 (t)〕 )2 で構成 され る。表 3お よび表 4に お ける 95%信 頼 区間は,α =0.05と して,式 (4)に 基 づ き算出 される . ここで ,試 験群 の結果 を示 した表 3に お いて,累 積発生関数 の推 定値 几(ι )が どのよ うに計算 されてい る か,出 力結果 の補足 として追加 した 4列 を用 いて考 えてみ る.ま ず ,時 点 ι=4に おいては,関 心のある最 初のイベ ン トが発生 してお り,イ ベ ン ト数 △ (4)=1,リ ス ク集合 の大 きさ 7*(4)=6で ある。K叩 lm‐ Mcicr 「 法 による生 存 関数 の推 定値 ξ(t)は ,LIFETESTプ ロシジ ャ の TIMEス テー トメ ン トで Timc*Ccnsor(0)と 指 定 し,競 合 イ ベ ン トを区別せ ず に推 定 した結果 で あ る.し たが って ,S(4)=0333,S(4‑)=0と な る.こ の とき,△ Ⅳ(4)/7*(4)=0.1667で あ るので f'1(4) :り :│:;■ , 1000:=:01667 '(4‑):=01667× 80
と推 定 され る . 次 に関心 の あ るイベ ン トが発 生 してい る時点 ι=12で は ,関 心 の あるイ ベ ン ト発生 (ι =4)後 ,時 点 ι=6で 競合イベ ン トが 発 生 (表 1に お け る 」=2に 相 当)し ,時 点 ι=8,10で 計 2名 の打 ち切 リデ ー タが発 生 してい る.こ の とき ,イ ベ ン ト数 は △ (12)=1と な るが , リス ク集合 の 大 き さについ て は ,競 合 イ ベ ン 「 ト発 生 を考慮 して算 出 しな けれ ばな らな い .す なわ ち,式 (2)の 略 (ι )=ε (ι ―)/ε (min(χ 2 ″ ))を 求 める た め に ,図 4で 求 めた推 定値 を用 い る と 場 (12)=0.50と な る .し たがって ,時 点 ι=12で ま だ イ ベ ン ト お よび打 ち切 りが発 生 してい な い 2名 に加 えて , リス ク集 合 の 大 き さは 7*(12)=2.5と な り,S(12‑)= 0.833で あ るので , (12‑)=0.1667+04000× 0833=0.5000 ■(12)=鳥 (4)+7Tこ万ξ と推 定 され る.最 後 に 関心 の あ るイベ ン トが発 生 してい る時 点 ι=14に 関 して は ,特 に競合 イ ベ ン トを考 慮せ ず に ,■ (14)=0.8333と 推定 され る こ とを確認 で き るで あ ろ う . 表 3:累 積発生 関数 の推 定結果 と計算 方 法 の要約 (試 験 群 ) SAS 時点 │1 累積発生 へ ) (ι 9,4信 頼区‐ 間 1標 準誤差 0 0 0.1667 0.1667 0.5000 0.8333 │^=(│) Stl→ ‐ ‐ 0.00475 0.5488 1.000 6 0.1667 0.3578 0.00528 0.9125 0.833 2.5 0.4000 0.3742 1.31E‐ 10 0.9985 0.333 1 1.0000 対 照群 の結果 を示 した表 4に お いて も,表 3と 同 じよ うに累積 発 生関数 の推 定値 rl(ι )を 確 認 す る こ とが で き る。す なわち,時 点 ι=5に お いて は,■ (5)=0■ 667と 推 定 され るこ とを容 易 に確認 で き るだ ろ うが , 次 に関心 の あ るイベ ン トが発 生 してい る時 点 ι=11で は ,関 心 の あ るイベ ン ト発 生 (ι =5)後 ,時 点 ι=7 で競合 イ ベ ン トが発 生 (表 1に お ける プ=8に 相 当)し ,時 点 t=9で 1名 の打 ち切 リデー タが発 生 してい る . す なわ ち ,イ ベ ン ト数 は △ (11)=1と な り,図 4の 推 定値 よ り ″8(11)=0・ 75,7*(11)=3.75, 「 S(11‑)=0.833で あ る の で , Fl(11)==Fl(5)― 二 十 手 S(11‑)=:01667+02667× 0833:=03889 デ :ffチ と推 定 され る。 表 4:累 積発生関数 の推定結果 と計算方法 の要約 (対 照群 ) SAS 95% 0 0 0 5 0.1667 0.1667 0.0047 0.5488 1.000 6 0.1667 11 0.3889 0.2596 0.0229 0.7895 0.833 3.75 0.2667 15 0.8333 0.4758 2.08E‑37 0.9996 0.444 1 1.0000 81
3 競合 リスクを伴 う生存時間データのモデル解析 生 存 時間デ ー タに対 す るモ デル解 析 手 法 として ,COxの 比例 ハ ザ ー ドモ デ ル に よるセ ミパ ラメ トリックな 解 析 が よ く行 われ る (魚 住 ・ 森 田,2015;魚 住 ,2017).し か し,比 例 ザ ー ドモ デル は,競 合 リス クに よる影響 を考慮 してい ないた め ,競 合 リス クを含 んだ生存 時間デ ー タの場合 ,ハ ザ ー ド比 にバ イア ス が入 って しま う . 競 合 リス クを含 んだ生 存 時間デ ー タの場合 ,Fine― Grayモ デル が よく用 い られ ,部 分分布 ハ ザ ー ド比 に よつて 報 告 が行 われ る.3.1節 で は,Finc― Grayモ デ ル の数理 を解説 す る.3.2節 で は ,PHREGプ ロ シ ジ ャ の EVENTCODE=オ プ シ ョンを用 い た Fine―Grリ モ デ ル の 実行 方法 を報告す る .3.3節 では,PHREGプ ロシ ジ ャ の EVENTCODE=オ プ シ ョンを使 わず に,Fine― Grayモ デル を実行す る方 法 を報告す る。 なお ,特 に断 り の な い 限 り,2節 で示 した記法 は 同 じよ うに用 い るこ と とす る.ま た ,本 節 にお いて も,2.2節 で取 りあげた 表 1の サ ンプルデ ー タ を用 い る。 3.l Fine‐ Grayモ ト ラリレ 2.2節 の表 1の デ ー タに対す る部 分 尤 度 を構成す る条件 付 き確 率 を考 え る .関 心のあるイ ベ ン ト (ε :=1)に 対 す る個体 ′のハ ザ ー ド関数 を た :と す る と,関 心 の あ る最初 のイベ ン トが発 生 した時点 ι=4の 条件付 1′ き確 率 は た1 1′ (5) ん1,1+ん 1,2+ん 1,3+た 1,4+ん 1,5+た ■ ,12 ,6+た 1,7+た ■ ,8+た .,9+れ 1,10+λ l,11+ん ■ とな る。 一 方 ,競 合イ ベ ン トが発生 した後 の 時点 にお ける条件 付 き確 率 は どの よ うに表せ るだ ろ うか .例 えば,関 心 の あ るイベ ン トが発 生 した時点 t=11の 条件付 き確 率 は hr,ro (6) 0.625' h1,2 + h1,s + h,6 + 0.625. h7,8 + h7fi + h1,77 + h1)2 とな り,時 点 ι=11よ り前 のハ ザ ー ド関数 れ1,2と ん■ ,8も 式 (6)の 分母 に含 まれ る.し か し,い ずれ のハ ザ ー ド関数 に も 0.625と い う重み が用 い られ てい る。 こ こで ,2.1節 の累積 発 生 関数 の推 定で は ,式 (3)の 分母 の 重み付 け リス ク集 合 と して,競 合 イ ベ ン トを考慮 した重 み 疇 (ι )を 加 えた 7*(t)が 用 い られ た 。式 (6)の 条 件付 き確率 にお い て も,同 様 の考 え方 で ,打 ち切 り分布 の Kttlan― Meier推 定量 は ε(11)=0.625と 推定 さ れ るた め,重 み ル (11)=″ 8(11)=0・ 625と な る.た だ し,図 4と 異 な り,図 5の よ うに ,群 を考慮せず に 推 定 した打 ち切 り分布 の Kaplan― Meier推 定量 を用 い る . デ ー タセ ッ トの作成 c(t) proc lifetest data=Workt tlme Time*Censor (1,2) ; lun; │.│=││1 ̲二二二二二二 ∂(̀) 0 8 9 10 13 =̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲ 1.000 0.8750 0.7500 0.6250 0.4167 図 5:打 ち切 り分布 の Kaplan― Meier推 定量 ε(ι )算 出プ ログラム と推 定結果 (Finc― Grリ モ デル) 同様 に ,関 心 の あ るイ ベ ン トが発 生 した 時 点 ι=14の 条 件 付 き確 率 は λl,6 0.4167 . h7,2 + h1,6 + 0.4167 . h1,B + h7,12 82
とな り,式 (6)で 競合 イ ベ ン トを発 生 した個体 のハ ザ ー ド関数 に対す る重 み 場 (11)=″8(11)=0・ 625と は 異 な った重み ″2(14)=恥 (14)=0.4167を 用 いてい る。 これ は ,時 点 ι=13で 打 ち切 りが発 生 した た め , , 打 ち切 り分布 の Kaplan‐ Mcier推 定量 が変 化 したためで あ る。 式 (5),(6),(7)で は ,具 体例 と して 3時 点 におけ る条 件 付 き確 率 を示 したが ,各 時点 にお け る条件付 き確 率 を用 いて ,部 分尤 度 は ι =Π ヽ′(町 =1) λl,(χ ι ) 1 (3) 1 ノ=1 る(X:)Mゥ (χ :)ん .,(χ :) ノ ̀=■ と表せ ,関 心 の あ るイ ベ ン ト (ε :=1)が 発生 したデ ー タ の み が 部分尤度 の 式 (8)に 寄与す る。なお ,式 (5), (6),(7)の 条件 付 き確 率 の説 明で は ,個 体 ′のハ ザ ー ド関数 を た.,:と 簡 略化 したが ,式 (8)で は λ軍(Xι )と 観 察 時間 χ の 関数 と して示 してい る。 2節 では,累 積 発 生 関数 を関心 の あ るイ ベ ン ト (ε i=1)に 対 して解 説 した .す なわち ,累 積 発 生 関数 は , 特 定 のイベ ン トに よ る確 率部分分布 関数 (prob昴 11● subdismbution inction)で ある とい え る。Fine― Grayモ デ ル は ,競 合 イベ ン トを伴 う生存 時 間解 析 と して ,特 定 の イ ベ ン トに対す る比例 ザ ー ドモ デル に相 当す る (Finc and Gray,1999).特 定 のイ ベ ン トに対 してモデル化す るた め ,比 例 ハ ザ ー ド性 の仮 定 は ,累 積発 生 のハ ザ ー ド (部 分分布 ハ ザー ド)に 制 限 され る . ここで ,式 (8)に お け る た.,1に 関 して た1,(ι lZ)=た 1。 (ι , TZ) )eXp(β (9) と部 分分布 ハ ザ ー ドを考 える.た だ し,β は Fine― Grayモ デル で推 定す るパ ラメー タベ ク トル ,Zは 共 変 量 ベ ク トル ,た 1。 (ι )は ベ ー ス ライ ン部 分 分布 ハ ザー ドで あ る。式 (9)の Finc― Grayモ デル で推 定 され る exp(β T) は部分分布 ハ ザ ー ド比 (s昴 dis」 bution hazard r o)と 呼 ばれ る (Austin and Fine,2017b). ロ シ ジ ャ の EVENTCODEオ 3.2 PHREGプ プ シ ョ ン に よ る Fine― Grayモ デ ル 3.1節 で説 明 した ,部 分尤度 に基 づ くパ ラメー タ β の 推 定 に関 して ,PHREGプ ロシジ ャに よる実行例 を 示 す .競 合 リス ク を考 慮 した Finc― Grayモ デル による推 定 は ,SAS/STAT 13.1以 降 の PHREGプ ロ シジ ャでサ ポー トされて い る (SAS Institute lnc.,2013). proc phleg data=Work,' SAS .l Yr ," 7 A model- Time*Censor(0):Group / eventcode=l,' runi ● ︐ 実行結 果 一 . 定 夕 ■障 ●︱ ■ ■● ラ 一 メー推 ︱■ ● . ︱ Group 1 0.27827 12乗値 │カ イ . 0.1633 │││ ││ ‐ 0.6862 1.321 図 6:PHREGプ ロシジ ャに よる Finc― Grayモ デ ル による解析 プ ログラム と推定結果 表 1の サ ンプル デ ー タ セ ッ トに対 して ,Finc― Grayモ デ ル に よ るパ ラ メ ー タ推 定 の た め の SASプ ロ グ ラ ム お よび 出力結 果 を 図 6に 示 す .PHREGプ ロ シ ジ ャ の MODELス テ ー トメ ン トで EVENTCODE=オ プ シ ョン 83
を指 定 して お り (FAILCODE=と 指 定 して も よい ),変 数 Censor=1が 関心 の あ るイ ベ ン トで あ る と指 定 して
い る .EVENTCODE=1を 指 定 しな い と,Ccnsor=0以 外 はす べ て 関 心 の あ るイ ベ ン トと して処 理 され る .な
お ,SAS/STAT 143以 降 の PHREGプ ロ シ ジ ャ で 原 因別 ハ ザ ー ドに よ る モ デ ル 化 も追加 され て お り
,
EVENTCODE(COX)=1と 指 定す れ ば実 行 で き る 。 EVENTCODE=1の デ フ ォル ト指 定 は Fine‐ Grayモ デ ル に
相 当す る が ,SAS/STAT 14.3以 降 を用 い る場 合 ,原 因別 ハ ザ ー ドと区別 す るた め に ,EVENTCODE(FG)=1と
指 定 した 方 が よい だ ろ う
.
図 6の 実 行 結果 で は ,パ ラ メ ー タの推 定 値 は 0278,部 分 分 布 ハ ザ ー ド比 は 1321と 推 定 され た .こ の よ う
に ,EVENTCODE=オ プ シ ョン を指 定 す れ ば ,Finc‐ Grayモ デ ル に よ る部 分 分 布 ハ ザ ー ド比 の 推 定 が容 易 に実
行 で き る。その一方 ,PHREGプ ロシジ ャにお い て EVENTCODE=オ プ シ ョンを指 定す る と,他 のオ プ シ ョ
ンが機 能 しな くなるこ とが あ る.例 えば ,多 変 量 Fine― Grayモ デ ル に よる変 数選 択 を行 う場面 を考 える と
,
MODELス テ ー トメン トで SELECTION=オ プ シ ョンを指定す れ ば よい と思 うだ ろ う.し か し,''NOTE:The
SELECT10N=option(MODEL statement)is ignored for the Fine and Gray competing― risks analysis.''と ロ グ画 面
で表 示 され ,変 数選択 の 指 定 が無視 され た 出力 結 果 となって しま う。そのた め ,多 変 量 Fine― Grayモ デル に よ
る変 数 選 択 を行 う場合 ,EVENTCODE=オ プ シ ョンを指 定せず に ,Finc― Grayモ デル に よる解析 を行 わな けれ
ばな らな い .そ の他 に も,タ イデ ー タの処 理 方 法 に関 して ,デ フ ォル トの Brcslow法 以外 を指 定 で きない こ
とや ,Finhの バ イア ス補 正 法 (浜 田,2014)が 指 定 で きな い こ とが挙 げ られ る。そ のため,Finc― Grayモ デル
に よ る解 析 が実施 され た 臨床研 究では,SAS以 外 の ソフ トウェア で解析報告 が行 われ るこ とが 多 く,例 えば
Rに よ る解析報告 が行 われ て い る (e8,Gundle ct al,2018).臨 床研 究者 向けに ,Rに よる Fine― Grayモ デ ル の
解 析 方 法 も報告 され てい る (Scmcca etaL 2010).
3.3節 で は,EVENTCODE=オ プシ ョン を指 定せず に,Fine― Grayモ デ ル に よる解 析 を行 うた めの SASプ ロ
グ ラ ム を考 える
.
3.3 PHREGプ
ロ シ ジ ャ の WEIGHTス
テ ー トメ ン トに よ る Fine― Grayモ デ ル
3.2節 で は,部 分尤度 に基 づ くパ ラメー タ β の推定 に関 して ,PHREGプ ロ シ ジ ャの EVENTCODE=オ プ
シ ョン を活 用 した実行 例 を示 した。EVENTCODE=オ プ シ ョンは ,式 (8)の 部 分尤度 に基 づ き,式 (9)の 部
分 分布 ハ ザ ー ドにお け るパ ラメー タの推 定 を行 ってい る.こ こで ,3.1節 で は ,式 (8)の 部分尤度 が各時点 に
お け る条件 付 き確率 に基 づ き構成 され ,条 件 付 き確率 を計算す る際 に ,競 合 リス クを考慮 した重 み を考 えて
い る点 が ポイ ン トであ っ た .本 節 では ,DATAス テ ップで重み を構成 し,PHREGプ ロシジ ャの WEIGHTス
テ ー トメ ン トを活用 した Fine― Grayモ デ ル に よる推 定方法 を報 告す る。なお ,以 下 の手順 は,Kohl et al.(2015)
に よ る SASマ ク ロを参 考 に してい る
.
Step l)打 ち切 り分布 の Kaplall― Meier推 定 量 を含 んだデー タセ ッ トを用意す る
proc lifetest
data:Work outs=Cdist00 noprint;
time Time*Censor (L,2) ;
runi
data Cdist00;set cdistO0,' by Time; retain Cdist,' keep Time Cdist;
if Survj-va1^:" then Cdist:Survival;
if l-ast.Time=l then output;
runi
84
Stcp 2)関 心 の あ るイ ベ ン トお よび打 ち切 リデ ー タ を抽 出 し,生 存 時 間 の 区間 を表 す 変数 を用意 す る
data DataO1;set Work,' \^7here Censor ln(0,1),'
Censor2:Censor; Start=0; Stop:Time; Type=1;
runi
Step 3)競 合 イ ベ ン トが発 生 した被 験者デ ー タ を抽 出 し,Stcp l)の 情 報 を付加す る
data CompOO;set tr{ork,' where Censor:2; run;
Proc sort data:Compoo out=Compo0; by Time,' run,'
data CompO1; merge CompOO CdistOO; by Time; run;
Stcp 4)競 合 イ ベ ン トが発 生 した被 験者デ ー タに対 して ,重 み の 分母 の変数 を用意 す る
data CompO1,'set CompO1; where Censor:2; drop Cdist; Den W:Cdlsti runi
proc sort data:CompO1 out.=CompO1,' by time; run;
Stcp 5)競 合 イ ベ ン トが発 生 した被験者デ ー タに対 して ,生 存 時 間 の 区間 を表す変数 を用意す る
ods listing cfose;
ods output Summary=CdistO0min;
proc means data=CdistOO min; class Cdisti var Timei run;
ods output Surnmary:Cdist.OOmax;
proc means data:CdistOO max,' class Cdist,' var Time; run;
ods lisL ing,'
data Cdist0Otmp; merge CdistOOmin Cdist0Omax, by Cdist; run;
proc sort data:Cdist00tmp out=Cdist00tmp, by Time*Max; run;
data CdistOltmp;set CdistO0tmp,' drop Time_Min,' run,'
data CdistOltmp,'set Cdlst0ltmp; Tlme Min=f ag (Time Max) i run,'
Proc sql;
create table CompO2 as
select d.*, c.Cdist, c.Time_Min, c.Time_Max from CompO1 d, Cdist0ltmp c
where d.Time (= c.Time Max ;
quit;
proc sort data=Compo2 out=Comp02; by ID Time Max; run.'
Stcp 6)競 合 イ ベ ン トが 発 生 した被 験者デ ー タ に対 して ,重 み を表 す 変数 を用意す る
data CompO3; set CompO2;
Weight:Cdist/Den_W; Censor2:0i Type:2;
if Time_Min<Time then do;
Start=0; Stop:11*"' outputi
Start:Time; Stop=116e Max; output;
85
endi else do; Start=Time_Min; Stop=1ime_Max; output; end; run; data compO3.'set compO3; drop Den W Cdist Time Min Time Max; runi Step 7)す べ て の 被 験者 に重み を表 す 変数 を用意 す る data Out00;set Data01 Comp03; where Start < Stop; if Weight=. then Weight=L; runi Step 8)PHREGプ ロ シ ジ ャ の WEIGHTス テ ー トメ ン トを 活 用 し,Finc― Grリ モ デ ル に よ る解 析 を 行 う proc phreg data=Out0O covs (aggregate) ; model (Start,Stop) *Censor2 (0)=Group; weight Weight; id ID; run; 表 5:デ ー タセ ッ トOut00 IDIIl oroll. T,摯 , Censor Ccnsop S● 量 Stllll Tル ││ Weigllt 1 4 0 4 1 3 8 0 8 1 4 10 0 10 1 5 12 0 12 1 6 14 0 14 1 7 5 0 5 1 9 9 0 9 1 10 11 0 11 1 11 13 0 13 1 12 15 0 15 1 2 6 0 6 1 2 6 6 7 1 2 6 7 8 0.875 2 6 8 9 0.75 2 6 9 12 0.625 2 6 12 15 0.41667 8 7 0 7 1 8 7 7 8 0.875 8 7 8 9 0.75 8 7 9 12 0.625 8 7 12 15 0.41667 86
上 記 の 手 順 の うち ,Stcp l)か ら Step 7)を 実行 す る と,デ ー タセ ッ ト Out00が 作 成 され る (表 5).表 5に お い て ,変 数 Ccnsor2は 新 た に作 成 した イ ベ ン ト/打 ち切 りを表 し,競 合 イ ベ ン トも打 ち切 り (Ccnso2=0)と 扱 っ て い る .さ らに ,生 存 時 間 の 区 間 を表 す 変 数 (Sttt Stop),関 心 の あ るイ ベ ン ト/打 ち切 リデ ー タ (T″ c= 1)と 競 合 イ ベ ン ト (T″ c=2)を 区別 す る変数 Tpe,重 み を表 す 変 数 Wcightを 用 意 して い る . 最 後 に ,Step 8)で は ,表 5の デ ー タ に対 して ,Fine― Grayモ デ ル に よ る解 析 を行 って い る .EVENTCODE= を指 定 しな い 代 わ りに ,WEIGHTス テ ー トメ ン トで 重 み 付 け した 解 析 を行 っ て い る。 生 存 時 間 を表 す 変 数 Timcの 代 わ りに ,生 存 時 間 の 区 間 を表 す 変数 (Sta■ ,Sゎ p)を 指 定 して い るの で ,各 区 間 にお け る重 み を指 定 で き る。 ま た ,IDス テ ー トメ ン トで 被 験 者 番 号 を指 定 す る必 要 が あ る。 さ らに ,PROC PHREGス テ ー トメ ン トの COVS(AGGREGATE)オ プ シ ョン を指 定 す る こ とで ,ロ バ ス ト分 散 を用 い た 解 析 を行 っ て い る .通 常 の Fine― Grayモ デ ル で は ,ロ バ ス ト分 散 を用 い る こ とは 求 め られ な い が (Gcskus,2016),EVENTCODE=オ プ シ ョン を指 定 した 解 析 結 果 が Rの パ ッケ ー ジ ̀̀crr'' を 用 い た 解 析 結 果 (付 録 Aを 参 照 )と 一 致 す る よ う , ロバ ス ト分 散 の 指 定 を行 つて い る 。 Step 8)の PHREGプ ロ シ ジ ャ の 出 力 は ,図 6の 出力 結 果 と一 致 す る 。なお ,付 録 Bに は ,Stcp l)か ら Step 8)の 手順 を SASマ ク ロ と して示 して い る .ま た ,付 録 Aに 不 した Rプ ロ グ ラ ム を用 い て も ,PHREGプ ロ シ ジ ャ の 出力 結 果 と一 致 す る こ とを確 認 で き る .こ の よ うに ,EVENTCODE=オ プ シ ョン の 代 わ りに ,デ ー タ ハ ン ドリン グで 重 み に相 当す る変 数 を用 意 し,WEIGHTス テ ー トメ ン トを活 用 す れ ば ,多 変 量 Finc― Grayモ デ ル に よ る変 数 選 択 を行 うこ とも可 能 で あ る .そ の 他 に も,PHREGプ ロ シ ジ ャ の オ プ シ ョン と して ,Brcslow 法 以 外 の タイ デ ー タ の処 理 方 法 を指 定 す る こ とや ,Ftthの バ イ ア ス 補 正 法 を指 定す る こ と も可能 で あ る . 4 ま とめ 本稿 では,競 合 リス クを伴 う生存 時 間解析 として ,LIFETESTプ ロ シジ ャに よる累積 発 生 関数 と PHREGプ ロシジ ャに よる Finc‐ Grayモ デル に着 日 した.SAS/STAT 14■ 以降で あれ ば ,い ずれ の解析 も実施 可能 で あ る . 2節 で は ,競 合 リス クを伴 う生存 時 間デ ー タに対 して ,累 積発 生 関数 の推 定 が どの よ うに行 われ てい るかひ も解 き,簡 便 なサ ンプル デ ー タを用 い て ,LIFETESTプ ロシジ ャの EVENTCODE=オ プ シ ョンが どの よ うに 機 能 してい るか報 告 した。3節 で は ,競 合 リス クを伴 う生存時 間デ ー タの場合 ,部 分尤 度 が どの よ うに構 成 され るかひ も解 き ,PHREGプ ロシ ジ ャで Fine― Grayモ デ ル に よる解 析 を行 う場合 ,EVENTCODE=オ プ シ ョ ンが どの よ うに機 能 してい るか報告 した .し か し,3.2節 で報告 した EVENTCODE=オ プ シ ョンを指 定す る と,現 在 の最新 バ ー ジ ョンであ る SAS/STAT 14.3(SAS Institutc lnc.,2017)で は ,PHREGプ ロシジ ャが本 来 持 って いた機 能 を活 用 で きな くな って しま う.そ こで ,3.3節 では ,EVENTCODE=オ プ シ ョンの代 わ りに , WEIGHTス テ ー トメ ン トを用 いて ,Finc‐ Grayモ デル に よる解析 を実行す る手順 を報告 した 。 なお ,3.3節 の SASプ ロ グラム を よ リー般化 した SASマ ク ロが報告 され てい るが (Kohl et al,2015),本 稿 で は SASマ ク ロの 内容 を理 解す る こ とを 目的 と して ,簡 便 なサ ンプル デ ー タお よびアル ゴ リズ ム を用 いて ,デ ー タハ ン ドリン グを行 った . 近 年 ,医 学論 文 にお いて,競 合 リス クを考慮 した解 析 報告 は増加傾 向で ,SASの LIFETESTプ ロシジ ャや PHREGプ ロシ ジ ャで もサポー トされ る よ うにな ってか らは,SASユ ー ザー総会 において チ ュー トリアル も行 われ た (浜 田,2017).し たがって ,今 後 SASに よる競 合 リス クを考慮 した生 存 時間解析 は多 く応用 され る と 予想 され る.本 稿 で取 りあげたす べ て の 出力結果 は ,本 稿 に示 した SASプ ロ グ ラム で再 現 可能 であ る。生存 時 間解析 に従事 す る国 内外 の多 くの 実 務 家 に とつて ,本 稿 の報告 内容 がお 役 に立てれ ば幸 い であ る . 87
参考 文 献 だ′ たαノル″″οαs′ ″ルをグたα′ [1]Andersen PK,Abildsttonl SZ,Rosthtt S.Coinpeting risks as a multi― sttte model.S′ α″ Rιsι α ο力.11:203‑215,2002. [2]Austin PC,Finc JR Accountingね r colnpcting nsks in randolllizcd contro■ cd trials:a rcview and recommend江 lons for inlprovement.S′ α′ ,s′ Jι s′ ″ル 〃 υ′ ε′ ″ι.36:1203‑1209,2017a. ̀グ [3]Austin PC,Finc JP.Practical rccom■ lcnd江 lons for Кponing Finc― Gray modcl analyses for competing risk data. S′ ′ α′ s′ ′ cs′ ″i47̀′′ εj″ ι.36:4391‑4400,2017b. [4]Bakoyannis G,Touloumi G.Practical mcthods for compcting risk dtta:A rcvicw.S′ ′ s′ たα ′ルを″οαs′ ″iZθ ″ια′ α′ 」 Rθ saα ´ .21:257‑272,2012. ̀力 [5]Donoghoc MW,Gcbsk「 V Thc importancc of ccnsoring in compcting risks analysis of the subdistribution hazard. 3νiCル を″εα′Rω θακカル:ク ″οグο′ ο .17:52,2017. ̀ァ ″′ αノ ′″′И″,ι ′たα″ [6]FineJR Gmy RJ.A prOpO■ iOnal hazards mOdel br the subdistributiOn of a cOmpeting risk.Jο S′ α ′ ′ ια′Иssο ιι α′ ′ ο″.94:496‑509,1999. s′ ブ ,っ ̀λ [7]Geskus RB.Cause― specinc cuinulative incidence estilnation and the ine and gray lnodcl under both lctt truncation and right censoring̲6)プ ο″ ′ι′ ′Jcs.67:39‑49,2011. ι″ ″′グ′ αた S′α′ 6.Chapman&Hal1/CRC:Boca Raton,FL, [8]Gcskus RB.Dα ″ И′α夕sな ″ 力Cο ″′αj″gRお お α″グI′ ′ j′ 2016. ′ [9]Gundle KR,Kathinski L,Gupta S,GrifΠ n AM,Dickson BC,Chung PW,Catton CN,0'Sullivan B,Ⅵ under JS, Fcrguson PC.プ ヽnalysis of inargin classification systcins for asscssing thc risk of local reculTence atter soft tissue sarcoma rcscction.カ ン ′ "α げ [10]Kohl M,Plischkc M,Lc α j′ たα′0″ ιο′ οク .36:70牛709,2018. onと 6K,Hcinzc G.PSHREG:A SAS macroお r propomonal and nonpropo■ lonal 2,p″ ″ ヽ′ ″ subdistribution hazards regression.(3ο ′ ι″′ ″ο夕is α″グP´ οg′ α″ ,sJ′ βブ ο′ ηθグノ ″ι.118:218‑233,2015 ̀脅 ̀ノ r′ [11]Kolosova■ Bcrcstizhcvsky S.Thc Cox Hazard Modclお r Claims Daa.Pttε ιι″″gs q′ 力ιSИ S Gあ らα′Fο ″ν″ . SAS Institutc lncり Car"NC,2018.Availablc at hL如 ュ :/∠ wIIsttgQュ 立 プdam/SAs/§ 理 pQ達 左立sas』 ≦ ≧ Q■ t堅 ュ bLLLmm攣 ⊇QCQdin至 2理 ̲82空 曼 2塑 二重亜 [12]Lin G,So Y,Johnston G.Analyzing Survival Data wi■ : Competing Risks Using SAS(R)Sonwarc.PЮ ′ ″′ ,gsグ ′ 力ιSИ S G′ οらα′Лο′″″.SAS Institute lncっ Cary,NC,2012.Available at 122df h■ 2§迭 襲 pQ」 L饉 ≦KID娃 旦Qユ 墜 § 鮭 駆 型 p壼 整 痙 壼13二 塑 ユ44三と [13]Puttcr H,Flocco M,Gcskus RB.Tutorial in biostatisticsi Compcting risks and mu■ l̀υ 夕 │プ i― state l■ odels.S′ α′ ぉ′ ′ ̀sJ″ ′θ.2612389‑2430,2007. ̀ノ [14]Sapir‐ Pichhadzc R,Pintilic M,Tinckam KJ,Laupacis A,Logan AG,Bcycne J,Kinl SJ.Survival analysis in the prCSenCe Of COmpCting riSkSI ThC CXamplC Of WaitliStCd kidnCy tranSplant CandidatCS.И ″ιガια″ Jο ″″ ′α′91′ 2.16:1958‑1966,2016. 7レ α″ sr,′ α ″′ α′ ,ο ′ jグ [15]SAS Institute lnc.SИ SZS7〕 4銘 ソ′3.′ υs̀′ ζGν ̀.SAS Institute lncり Cary,NC,2013. ̀翼lソ フ /s′ ′ζGIク ブ イ.′ こ グθ.SAS Institute lnc"Cary,INC,2015. [16]SAS Institute lnc.SИ S/SZ4篤β [17]SAS Institute lnc.SИ Sン 4Si〕 4■(2,ソ フイ.3し sι ′ζG″ Jグθ.SAS Institute lnc"Cary,NC,2017. [18]Scrucca L,Santucci A,Aversa R Regression inodeling of competing risk using R:an in dcpth guidc for clinicians. 3ο ″ιi4α ″οlル,7)・ α″ si′ ′ α″′ α′ ,.45:1388‑1395,2010. ノ ο″ 力θNα ′ ′ 0″ α′ИOク ル 滋ツ (2′ [19]詢 江is A.A nonidcnt面 ability aspcct ofthc problem of competing risks.P Oε グJ′ gsゲ ′ Scた ′ε ω Q′ ′ を し″′ ″ S′ α嬬 ″lИ ′ たα 7220‑22,1975. [20]今 泉敦・魚住龍史・浜 田知久馬.競 合 リス クが存在す る下での生存時間分布 の検定法 の性能評価 .SASユ ー ザ ー総会 論文集 2018. [21]魚 住龍史・森 田智視 .生 存時間解析 にお ける三種 の神器 .呼 吸,34:1083‑1089,2015. αη [22]魚 住 龍 史 .有 名論文 か ら統計 の基礎 を学 ぶ :COURAGE試 験 における生存時間解析 の側 面 .6ο ″″ エ ン ツ ′ ′′ ′ 0″ ,13:38 43,2017. 7′ ̀′ 88
[23]魚 住龍史・ 矢 田真城 。浜 田知久馬 .PHREGプ ロシジャにお け る共変量調整解析 に関連 したオプ シ ョン機
能 .SASユ ー ザー総会 論文集 2017,237‑248.
[24]魚 住龍史・矢 田真城・篠崎智大・川 口淳・浜 田知久馬 .SASに よる時間依存性 ROC曲 線 と C統 計 量 .SAS
ユー ザー総会 論文集 2018.
[25]大 橋靖雄・ 浜 田知久馬 .生 存時間解析 一SASに よる生物統計 .東 京大学出版会 ,1995.
[26]大 橋靖雄 。浜 田知久馬・ 魚住龍史.生 存時間解析 応用編 一SASに よる生物統計 .東 京大学出版 会 ,2016
[27]住 野 よる.君 の膵臓 をたべ たい.双 葉社 ,2015.
[28]浜 田知久馬 .LOGISTICプ ロシジャによる解析 と最新の機能拡 張 :映 画 「タイ タニ ック」のロマ ンテ ィッ
ク回帰 .SASユ ーザー総会 論文集 2014,781‑830.
[29]浜 田知久馬 ・魚住龍史.SASに よる生存時間解析 の拡張機能 .SAS Leaming Scssion 2016a.配 付資料
[30]浜 田知久馬 ・魚住龍史 .SASに よる生存時間分布 の予測 「Death Noteの 統計学 」 .SASユ ーザー 総会論文
集 2016b,297.
[31]浜 田知久馬 .生 存時間解析 の実務的課題 の SASで の解決 :競 合 リス ク,非 PHモ デルの被験者数設計
最適被験者数配分.SASユ ー ザー総会 論文集 2017,427.
[32]矢 田真城・ 魚住龍史・ 浜 田知久馬.MCMCプ ロシジャによる コ ンパー トメン トモ デルを用いた母 集 団薬
.
,
物動態解析 .SASユ ーザ ー総会 論文集 2018.
連絡先
E‐ mail:こ
∠堕ι
互
ι
@:と 」
曇2」 壼
212:Zこ と
⊆立と
2乙
付録 A:Rに よる Fine― Grayモ デル による解析 プ ロ グラム
##│パ ッケー ジを使 用 ###
■■Orary(Cmprsk)
料 # F■ ne― Gray modellこ ̀よ る解 析 #絆
Crr(ft■ me=WOrkSTユ rne′ fStatuS=WOrkSCenSOr′
COVl‐ WOrkSGrot,p′ fa■ ■code‐ 1′ cencode=0)
付 録 B:WEIGHTス テ ー トメ ン トに よ る Fine― Grayモ デ ル 実 行 マ ク ロ
' MA(ラ R● : Fl:■・
4o4ol Wo■ ght
′
・ 引数 の 説 明 ,
*data:入 力対 象井 ‐タセ ノ 名
)`
X time:生 存 時間 を表十変数名
,
,
メ consor:関 心 の あるイベ ン ト
(cen30r‐ 1)/打 ち切 り ((len3o■ ‐ o)′′競 合 ィベ ン
‐
大
9roぃ p:部 分 分布 ハ デー ド比 で比較 する群 を表す 変数名 ′
ズ ,d:被 験 者番 号 を表 ―
う変 数名 ′
:ヽ
(censor‐ 2)を 表 ナ変数 名 ′
* -",2 ttlli4lsi; ;
tGcro
FcMode.l-_Weight (data, time, censor, group, id) ;
☆ 指 定 した変 数名 ′)読 み込み ′
data WOrk00'Set &data' CenSOr=&CenSOr′
T■ me=&t■ me, CrOup=&group′
ヽ Stcp l)打 ち切り分布 のKap■ an― Me■ Or推 定量を含んだデータセッ
lifetest
data:Work
■nt
outs=Cdist00
run′
トを用意する
time Time
89
工D=&■ d,
2); run;
data Cd■ st00,set Cd■ st00′ by Time′ retain Cd■ st′ keep Time Cd■ st , ■f Surv■ va■ ^=. then Cdist=Surv■ va■ , ■f ■ast.time=■ then output, ‐ 'step 2)1刀 心のあるイベ ン トおよび打ち切 リデー 々を抽出 し,生 作時間の区間を表 り変数を111意 する ′ data Data01,set Work00, Where CenSOr in(0′ ■), CenSOr2‐ Censor, Start=0, Stop‐ Time, Type=1′ ★ Step 3)競 今イ ベ ン トが発↑ した被 験者デ ー タを抽 出 し,Step run′ 1)の 情報を付加する data Comp00,set Work00, Where Censor=2, run′ proc sort data=Comp00 out=Comp00′ by T■ me, run′ data Comp01, merge Comp00 cd■ st00′ by Time′ run′ ■ Step 4)競 合 イ ベ ン トが発生 した被 験者 デー タにヽ1し て,重 み の 分母 の 変数 を用意す る , data cOmpol,set cOmpol, where censor=2, drop Cd■ st′ Den̲W=Cdist, run′ proc sort data=Comp01 out=Comp01, by T■ me′ run′ ★ Sい p5)競 合 イベ ン トが発生 した被験 者 デ ー タに対 して ,生 存時 間 の 区間 を表 す 変数 を用意す る 。ds ■■st■ ng close′ ods output SumIFiary=CdiSt00m■ n′ st00 m■ n, C■ aSS Cd■ St, Var T■ me′ run, proc means data=Cd■ Ods output Summary=Cdist00max′ proc means data=Cd■ st00 max, c■ ass Cdist, Var Time, run′ 。ds listing′ data Cd■ st00tmp′ merge Cd■ st00m■ n CdiSt00max′ prOc sOrt data=cd■ stootmp Out=cdist00tmp′ by Cd■ st′ run′ by Time̲Max′ run′ data cd■ s t o l tlmp,set cd■ st00tmp′ drop T■ me̲Min, run′ data cd■ s to ltrnp.′ set cd■ st0 1tnlp′ T■ me̲M■ n‐ lag(T■ me̲さ 4ax), run′ proc sq■ create tab■ e cornp02 as se■ ect d.★ ′c.cd■ st′ c.T■ me̲M■ n, c.T■ me̲Max from Comp01 d′ where d.T■ me く= c.T■ me Max ′ , Cdist01tmp c qu■ t′ prOc sOrt data=comp02 out=comp02, by ID Time̲Max, run, ★ Step 6)競 合 イベ ン トが発生 した被 験者 デー タに対 して,重 み を表 す変数 を用意す る ′ data Comp03,set Comp02′ We■ 9ht=Cd■ st/Den̲W, Censor2=0′ Type=2′ ■f T■ me̲M.nく Time then dO′ start=o, stOp=T■ nle′ Output, start=Time, Stop=T■ me̲Max, output, end′ else do, Start=T■ nle̲Min, Stop=T■ rne̲Max′ Output′ end′ data comp03′ set conlp03′ drop Den̲w Cdist T■ rne̲Min T■ me̲Max′ run′ 'step 7)す べ ての被験者に重 み を表 す変数 を用意う る data Out00,set Data01 Comp03, where Start え Step 3)■'HRE∈ ブ ロ ン ジ ヤ の WEIGHTス テ ーlヽ メン proc phreg data=Out00 covs(aggregate)′ , く Stop, ■f We■ ght= 1ヽ レ:こ よ る lit'千 ふ・イ iう を ,I■ it̲^ 卜ine― CIayt■ ガ ′ '夕 mOdel (start′ stOp)★ censor2(0)=Group, we■ 91lt We■ ght, * -r, |:i# t' =mend FGModel We■ ght, ′ク ロ呼 び 出 し例 ′ t 、 lode■ ̲:̀eigiht(WOrk′ T■ me′ CenSOr′ イ tFてコ then fileight=1; run; Group′ 工D)′ 90 ■d ID′ ′
競合 リス クが存在す る下での生存 時間分布 の検定法 の性能評価 o今 泉 敦 1 魚住 龍 史 2 浜 田 知久馬 3,† 1東 2京 京理科大学大学院 工 学研 究科 経営 工 学専攻 都 大学大学院医学研 究科 医学統計生物情報学 3元 東京理科 大学 Performance Evaluation for Statistical Tests on Survival Distributions under Competing Risks Atsushi lmaizumil,Ryuii Uozum12,and chikuma Hamada3,† lD"α ″ gθ ″ ′ ″ι ′ ′ 助Jι″ ι 。 ttα ′ θ■ヵ 。 。 ′ g,■ ″ου″ θ ″ブ ″ ′府クグ&′ ο κ ι ι ,c′ ά グνa″ α グE″gブ ″ 2Dψ α″′″θ″′ ` Bわ ″ げ ̀″ ̀α ̀″ α′″Bわ ノ ″ 浴ノ θSε み00′ 9/‐ ■を訪εノθ 4カ ′″α″ ,κッ0わ し″′ ク G′ α滅″α′ ′S′α″S″ 37♭ Oa″ツ ι おブ ″ ノ た タグ&′̀ θ b′ ″ι リ (ア 要旨 近年 ,競 合 リス ク(competing risks)を 考慮 した生存時間解析が注 目を集 めている.競 合 リス クとは, 日 的 となるイベ ン トと独立にはな らず競合 関係 となるよ うなイベ ン トの リス クを指す .競 合 リス クを打ち 切 りとして扱 い解析す ると,そ の解析結果 にバ イア ス が含 まれることが知 られている.よ って,生 存時 間解析 を行 ううえでは,競 合 リス クを考慮 して解析 を行 う必要がある.本 稿 では,競 合 リス クについて 概説 し,LIFETESTプ ロシジ ャを用 いて競合 リス クイベ ン トを含んだ場合 の生存時間分布 の検定法 の性 能 を評価 したシ ミュ レーシ ョンの結果 を報告す る。 キ ー ワー ド :生 存 時 間解 析 ,打 ち切 り,競 合 リス ク ,Kaplan‐ Mcier法 ,Cumulative lncidcnce Fmction, Cox比 例 ハ ザ ー ドモ デ ル ,Finc and Grayモ デ ル ,10g― rank検 定 ,Gray検 定 ,LIFETESTプ ロ シ ジ ャ , / cvcntcodeオ プ 3/ョ ン 1.は じめに あ る基準の時刻 か らある 目的 の反応 (観 察対象 とす る個体 に対 し一 度 だ け非再起的 に起 きる事象 ) が起 こるまでの 時 間 を対象 とした解析方法 の総称 を生存時間解析 と呼ぶ (大 橋 ら,2016).生 存時間解 析 は生存時間デ ー タのみを解析 の対象 にす るので はな く,金 融 工学や信 頼性 工学 にお ける経時デ ー タ等 に適応 させ るこ とも可能 で ある . 1 zofi F t2 fr 2t flfi*, 91
生 存 時間解析 にお いて は,生 存 関数や 累積分布 関数 を用 い た解析 が頻繁 に行われ る.イ ベ ン トを 死亡 ,生 存 関数 をS(t),生 存 時間を表す 非負 の確率変数 をTと す ると,生 存 関数 S(t)は 次 式 の よ うに 表す こ とができる。 S(0=P(t≦ T) これ は ,時 刻 tま で生 き残 る確率 を表す 関数 となる.こ の生 存 関数 に対 して ,累 積分布 関数 F(t)を 考 える と,生 存 関数 との対応 関係 は次 の よ うになる . F(t)=1‑SO これ は ,時 刻tま でに死亡す る確率 を表す 関数 となる。 生 存 時間解析 の特徴 として ,打 ち切 りを受 けたデ ー タを解析 に用 い る点 にある.臨 床研 究 におい ての打 ち切 りの例 としては ,脱 落や転院等 に よるそ の後 の フォ ロー ア ップの継続 が困難 な場合 な ど が 挙 げ られ る.こ の よ うな打 ち切 リデ ー タを除外 して解析 を行 う,ま た は打 ち切 り時点 を死亡時点 として解析 を行 うと,解 析結果 にはバ イ アスが生 じるこ とが知 られ てい る.こ れ は,打 ち切 り扱 い とな っ た被験者が打 ち切 りを受 けたあ とに 目的 とす るイ ベ ン トの発生 が あ った可能性 を考慮 して い な いた めに起 こるバ イア ス となる。この よ うな打 ち切 りの扱 い を誤 り解析す る問題 は競合 リス ク (cOmpeting五 sks)の 問題 と呼ばれて い る . 競合 リス クとは,目 的 とす るイベ ン トとは独立 とな らな い イベ ン トの リス クの ことを指 し,競 合 リス クを打 ち切 りとして扱 い解析す る と結果 にバ イア ス を生 じさせ る(浜 田,2017).目 的 とす るイベ ン トを肺 がんでの死亡 とした際 の解析 にお いて,あ る被 験者 が別 のがん腫 で死亡 した場合 を考 える 他 の 部位 へ の転移等 か ら,別 のがん腫 で の死亡は肺 がんでの死亡 と独 立 な関係 にある とはい えな い この よ うな場合 の解析 にお いて ,別 のがん腫 での死 亡 を打 ち切 リデ ー タ として扱 い解析 を行 うと , 解析 結果 にバ イア ス が生 じる。よって ,バ イア ス を生 じさせ ないため,本 来競合 リス ク となる打ち 切 リデ ー タは競合 リス ク として解析 を行 う必要 がある . 目的 イ ベ ン ト : 1:競 合 リス ク イ ベ ン ト 肺 が ん での死亡 生存 別 のがん 鍾 での死 亡 図 1:競 合 リス ク模 式 図 92
2.打 ち切 りに独立性 を仮定する解析方法 競合 リス クを考慮 した解析方法 を説明す る前 に ,打 ち切 りに独立性 を仮 定 している解析方 法 とし て ,Kaplan― Mcier法 ,log― rank検 定 ,Cox比 例 ハ ザ ー ドモ デル を説明す る.こ れ らの手法は ,生 存 時間解析 にお ける三種 の神器 と呼ばれてお り,生 存時間解析 の 常套手段 とい え る(魚 住 。 森 田,2015). 2.lK"lan― Mcier法 K叩 lm― Meier法 とは ,生 存 時間分布 に特定 の 分布 を仮定せ ず に,生 存関数 S(t)や 累積分布 関数 F(t) を推定す るノンパ ラメ トリックな解析方法 で あ る。イベ ン トが発生 した時点 をι ,時 点ιιの死 亡数 ι をdj,時 点ι jの 直前 の リス ク集合 をηjと す る と,生 存関数 の 推 定値 は次式で 表 され る . r 7 月 ゞ )=││(1‑■ う ■■ (ι 71J 2.2 1og¨ rank検 定 log‐ rank検 定 とは,生 存 時間分布 に特定の 分布 を仮定せず に,群 間 の生 存 時 間分布 を比較 す る際 に用い られ るノンパ ラメ トリックな検定方法 で あ る.ノ ンパ ラメ トリックな群 間比較 に用 い られ る 検定 として一 般化 Wilcoxson検 定や Ha nJon‐ Flcming検 定 もあるが,log― rank検 定は時間経過 後 に 生 存時間曲線 の差 が 開 いて くるよ うな ときに検 出力 が高 くな る とい う特徴 を持 つ (大 橋 ら,2016). 2.3 Cox比 例 ハ ザ ー ドモ デ ル Cox比 例 ハ ザー ドモデル は回帰分析を行 う際に用 い られ る回帰モデルのひ とつ である.共 変量ベ ク トル をzj,パ ラメー タベ ク トル をβ,時 点tに お けるハザー ド関数をλ(z〆 )と す ると,Cox比 例ハ ザー ドモデル は次式で表 され る . λ(Zj″ )=λ 。(ι )× eXp(β Tzj) ここで,λ 。(ι )は 基準ハ ザー ド関数 となる。 3.競 合 リス クを考慮す る解析方法 競合 リス クを考慮 した一連の解析方法として,Cumulativc lncidencc Function,Gray検 定,Fine and Gray モデル を説明する . 3.l Cun■ ulativc lncidcnce Function Cumulative lncidcnce Function(以 下 ,CF)と は ,特 定 の原 因か らイベ ン トが起 きる累積確率 の こと である。つ ま り,イ ベ ン トのハ ザ ー ドを原 因別 の発生確率 に 分解 した もの とな る。この原 因別 に発 生確率 を分 解 したハ ザ ー ドを原 因別 ハ ザー ドとい う.競 合 リス クイベ ン トの うち ,観 察 の 開始 か ら いずれ か最初 の イ ベ ン トが起 こ るまで の時間 をTと す る。また ,競 合 リス クイ ベ ン トの原 因を ,(1,2, …,m)と した とき,時 間tの 瞬間 に原 因jで 死 亡 す る原因別 ハ ザ ー ド関数 は次式 の よ うに表 され る . 93
^´ 、 ¨ Pr(t≦ T<t+△ t,I=jlT≧ t) AIitl==: 1lm ヤ ・ ノ ̀モ ソヽ 3b △t この原 因別 ハ ザ ー ドを用 い て 計 算 す る こ とに よ って ,原 因jの イ ベ ン トが 時 間tま で に発 現す る累積 発 生確 率 とな るCIFプ は次 式 で表 す こ とが で き る . CI時 =Pr(T≦ tJ=j) CIFは ,そ の性質上,全 ての CIFを 合算す るとそれは全原因についての CIFに 一致す る . 3.2 Gray検 定 Gray検 定(Gray,1988)と は,複 数群 の CIFの 比較 に用 い られ る検定であ り,log― rank検 定の拡張で ある。Grγ 検定 の特徴 として ,リ ス ク集合 の大きさを調整す る点が挙げ られ る.群 A,Tに ついて , :̲1),ダ (ι l̲1),時 点ti̲1で の原 時点り(j)の 直前 の リスク集合 を助ル ηり '時 点■̲1で の生存関数を "(ι ,調 整されたリスク集合Rl(ι j)は 次式で表され 因1に ついての生存関数をξ F(ι :̲.》年(■ ̲.)と すると る(西 川 ,2008). R()=物 翻 +れ 裾 3.3 Fine and Grayモ デ ル は,CIFに 対応する回帰モデルであ り,Cox比 例ハザ ー ドモデルの拡張である.Fine md Grayモ デル(以 下,FGモ デル)は ,部 分分布 のハザー ドについて のモデルであ り,原 因jに ついてのパ ラメータベ ク トルを島,共 変量ベ ク トルを としたとき,時 点 tに おける原因jに よる部分分布ハザー ド関数は次式で表 される Fine and Grayモ デル(Finc and Gray 1999)と z」 . 為 ″)=い )× eXp(げ (Zι (ι Zι ) .FGモ デルはパ ラメータについ ここで,勾 。は原因jの 部分分布 についての基準ハザー ド関数 となる て推定するときの部分尤度 の計算に重みを付加する点に特徴がある(魚 住 。浜田,2018). 4.競 合 リス クを考慮す る解析 と SAS 競合 リス ク を考慮 した 解 析 は ,SASに お い て も機 能 拡 張 が 行 われ て い る。2013年 以 前 は マ ク ロ を用 い な けれ ば競合 リス ク を考 慮 した 生 存 時 間解 析 が 実施 で きな か っ た が ,SAS/STAT 13.1で は PHREGプ ロ シ ジ ャが Fine and Grγ モ デ ル の 解 析 に対応 し,SAS/STAT 14.1で は LIFETESTプ ロ シ ジ ャ が 競 合 リス クを含 ん だ デ ー タに対 して の ノ ンパ ラ メ トリックな解 析 に対応 して い る(浜 田 , 2017).さ らに ,SAS/STAT 14.3で は PHREGプ ロ シ ジ ヤ が 競 合 リス ク を含 ん だデ ー タ に対 して 原 因 別 ハ ザ ー ドに つ い て の解 析 に対 応 して お り,SASに お け る競 合 リス ク を考慮 した 解 析 は ,よ リー 層 利 便性 を増 して い る(魚 住 ・ 浜 田,2018). 4.lSASに よる競合 リス ク を考慮 した解 析 例 SASに よる競合 リス クを考慮 した解析例 を示す .解 析 を行 うデー タは SASの ヘ ルプにあるBone mttow transplant(以 下,Bmt)を 用 い る.こ れは,137名 の骨髄移植 デ ー タであ り,変 数 Diseaseは 1 94
が ALL(急 性 リンパ 芽球性 白血病),2が AML‐ L(急性 骨髄性 白血病低 リス ク),3が AML― H(急 性骨髄 性 白血病高 リス ク)を 取 る。変数 Tは 無病 生 存時間 (disease― ■ee suMval)を 表 し,変 数 Sね tusは 0 が打 ち切 り,1が 再発 ,2が 死亡 とな る打 ち切 り変数 で あ る.プ ログラ ム 1に デ ー タセ ッ トの一部 抜粋 を示す . プ ロ グラ ム 1:Bmtデ ー タセ ッ トの一部抜粋 data Bmt; input Disease T Status @@; cards; run; このデー タセ ッ トに対 して ,再 発 を 目的イベ ン ト,死 亡 を競合 リス ク と して扱 い解析 す る ことを考 え,CIFの プ ロ ッ トと Gray検 定 の結果 を求 める。そ の とき のプログ ラ ム は次のよ うにな る . プ ログラム 2:競 合 リス クを考慮 した解析例 proc lifetest data:Bmt; time T*Status(0/eventcode: I ; strata Disease; run; 表 1:死 亡結 果 の 要約 死 亡結果 の 要約 層 Total Disease 死 亡事 象 競 合 事象 打 ち切 り 全体 12 12 14 38 16 29 54 21 13 11 45 42 41 54 137 プ ロ グラム 2に お ける cvcmcodcオ プ シ ョンは, 目的イ ベ ン トを指定す るオプ シ ョンで あ り,打 ち 切 り値 と eventcodeオ プシ ョンで指 定 した値以外 は競合 リス クとみな し解析 され る.今 回 の解析 で は Status=1の 再発 を 目的イベ ン ト,Status=2の 死 亡 を競合 リス ク として 扱 うた め, 目的イベ ン ト を示す evcntcodcは 1と なる.プ ログラ ム 2を 実行 し,CIFの プ ロ ッ トと Gray検 定 の結 果 が得 られ る(表 2).こ こで ,eventcodeオ プ シ ョン を指定 しない と,log―rank検 定 の 結果 が得 られ る(表 3).表 95
2,表 3よ り,log―rank検 定 よ りも Gr管 検 定 の 方 が カ イ 2乗 値 は大 き くな っ た 。 図 2の CIFプ ロ ッ トは ,ODS GRAPHICSの オ プ シ ョン機 能 を用 い て ,モ ノク ロ印刷 に対 応 した 出力 を して い る(大 橋 ら,2016;魚 住 ら,2016).い ず れ の 時 点 にお い て も,AML― Hは ALLや AML‐ Lよ りも高 い CIFの 推 移 とな っ てい る . 表 2:Gray検 定結果 累積発 生 関数 の 同等性 に対す る Grayの 検 定 カイ 2乗 値 自由度 Pr > Chi-Square 11.9229 2 0.0026 表 3:log― rank検 定結果 層 に対 しての同等性 の検定 カ イ 2乗 値 自由度 Pr > Chi-Square 13.8037 0.0010 累積 発 生関数 1.0 A一 0 遷嗽繹 蝶 4︑ 0 ″ ・ 「 」 ̲」 nv 「 「 ̲r― ″ ‐ .r̲r 金︺ 500 1000 1500 2000 2500 Disease― Free lSurvival in iDays 一 一 ― ‐AM Risk 一 ― 一 AML― Low Risk 図 2 i CIFプ ロ ッ ト 5.検 定法 の性 能 評価 シ ミュ レー シ ョン 打 ち切 りに独 立性 を仮定す る logtank検 定 と競合 リス クを考慮す る Gray検 定につい て ,複 数 の 96
状況下を想定 し,検 定方法 の性 能 を評価す るシ ミュ レーシ ョンを行 った 5.1シ ミ ュ レー シ ョン方 法 本 シ ミュ レー シ ョンでは,イ ベ ン トAを 死亡 ,イ ベ ン トBを 再発 とす る 2つ のイ ベ ン トについ て ,次 の よ うな 4つ の評価方法 を考 える . l I■ イベ ン トA,Bを 両方イ ベ ン トとして扱 い log― rank検 定で有意水準 0.05を 評価 し,有 意 であっ たな らば再び log― rank検 定 で片方 をイベ ン ト,他 方 を打 ち切 りとみな し,有 意性 を有意水準 OЮ 5 で評価す る イベ ン トA,Bを 両方イ ベ ン トとして扱 い log― rmk検 定で有意水準 005を 評価 し,有 意 であっ たな らば Grγ 検定 で片方 をイ ベ ン ト,他 方 を競合 リス ク とみ な し,有 意性 を有意水 準 0.05で 評価す る III.log― rank検 定で片方 をイベ ン ト ,他 方 を打 ち切 りとみな し,検 定 の多重性 の 問題 を Bo」灘 oni の方法で考慮 し,有 意性 を有意水準 0.025で 評価す る IV.Gray検 定で片方 をイベ ン ト,他 方 を競合 リス ク とみな し,検 定 の多重性 の 問題 を BOnお■Oniの 方法 で考慮 し,有 意性 を有意水 準 0.025で 評価す る 表 4:イ ベ ン トA,Bの ハ ザ ー ドの 設 定 設定 イベ ン ト 仮説設 定 群 1 群 2 a A 帰無仮説 0.14 0.14 B 帰無仮説 0.14 0.14 A 帰無仮説 0.14 0.14 B 対 立 仮説 0.07 0.14 A 対 立仮 説 0.07 0.14 B 帰無仮説 0.14 0.14 A 対 立 仮説 0.07 0.14 B 対 立仮 説 0.07 0.14 b C d なお ,イ ベ ン トA,Bの ハ ザ ー ドの設定は表 4の よ うに設定す る.シ ミュ レー シ ョン回数 は 10,000 回 ,1群 あた りの サ ンプル サイ ズ は 100と し,指 数 乱数 を用 いてい る.ま た ,イ ベ ン トA,Bに 相 関 を与 える場合 ,そ の相 関係数 は±0.30と す る。 相 関 の あ る場合 の指数乱数 の生 成 においては ,以 下 の手 │1贋 で行 った。 まず ,変 数 X,Yに つい て , σ′,母 共分散 をσら とす る。そ して ,平 均 0,分 散 1の 独 立 な 2つ の確 母 平均 をμ″μy,母 分散 を呼 ′ 率変数 81′ ε 2を 定義す ると,2変 量正規分布 に従 う X,Yは 次式 で表 され る . χ =μ χ+σχ×ε l 7:=μ y+τ (χ 7・ ― 一 μ )+イ σ χ ′ 号 × ε2 97
次 に, X,Yに 対 して PROBNORM関 数 を用 いて ,標 準 正 規分布 か らオブザ ベ ー シ ョンが 引数 以下 となる確 率 に変換 す る。得 られた値 に対 して 対数 を取 り,‑1倍 す る ことに よって ,相 関 の ある指 数 乱数 が生 成 され る。 これ らは SASの DATAス テ ップで 実行 す ることが可能 であ り,そ のプ ロ グラ ム は以 下 の よ うにな る . プ ログラ ム 3:DATAス テ ップにお いての相 関 の ある指数乱数 の生 成 data data; n=:10000; do i=l to n; mux=0;muy=0;*母 平 均 の 設 定 ; varx l;vary=1;*母 分 散 の 設 定 ; covxy=0.35;*母 共 分 散 の 設 定 ; x=mux+SQRT(vaⅨ )*RANNOR(4989);*2変 量 正 規分布 の生 成 ; y=inuy+covxy/varx*(x― mux)+SQRT(vary― covxy**2/varx)*RAN‐ NOR(4989); rx=probnorm(x);呼=probnorm(y);*標 準 正規分 布からx以 ドとなる確 率に変換 ex=‑log(Ⅸ );cF■ og(″ );*指 数乱数 の生 成 : ; output; cnd; run; 5.2シ ミ ュ レー シ ョン 結 果 以上 の 条件 でシ ミュ レー シ ョンを行 った結果 を表 5に ま とめた .表 の数値 は検定 で有意 と判定 さ れた割合 を表す .表 5に お いて ,イ ベ ン ト間 の相 関 の有無や仮説設定に関わ らず , Iと Ⅱを比 較す る と Iの 検 出力が高 く,Ⅲ とⅣ を比較す る とⅢの検 出力 が 高 い傾 向があるこ とがわか った。しか し , log― rank検 定 の αエ ラー はす べ ての場合 で保 たれ るわけではなか った log― . rank検 定 と Gray検 定 を比較す ると,検 出力 は log― rank検 定 の方が高 い結果 となった。しか し , この場合 の log‐ rank検 定 は 目的イベ ン ト以外 をす べ て打 ち切 りとして扱 ってい る (Cause― Spcciicモ デル にお けるイベ ン ト・ 打 ち切 りの取 り扱 い に相 当)た め,Cause― Spccncモ デ ル の よ うな , 目的イ ベ ン ト以外 をす べ て打 ち切 りとして扱 い検 定 を行 う場合 は検 出力 を過大に評価す る可能性 がある ことが 示唆 され る。 なお ,設 定aの 場合 の シ ミュ レーシ ョンプ ロ グラム を付録 に示 してい る。 6。 ま とめ 本稿 では ,打 ち切 りに独 立性 を仮定 した解析方法 として Kttlan¨ Meier法 ,log‐ rank検 定 ,Cox比 例 ハ ザ ー ドモ デル を,競 合 リス クを考慮 した解析方法 と して Cumulative lncidence Fmction,Gray検 定 ,Fine and Gr等 モ デル を概 説 し,SASに よる競合 リス クを考慮 した解析方法 を報告 した。そ して , 競合 リス クが存在す る場合 の ノンパ ラメ トリック検定 として ,log― rank検 定 と Gray検 定 に対 してシ ミュ レー シ ョンによ る性 能評価 を行 った。結果 ,今 回行 った シ ミュ レー シ ョンにお いて は ,Gray 98
検 定 よ りも 目的イベ ン ト以外 をす べ て打 ち切 りとして扱 った log― rank検 定 の検 出力 が 高 か ったが 同時 に今 回 の場合 の log― rmk検 定は検 出力 を過大に評価 す る可能性 があ る こ とが示唆 され た , . 近年 ,SASに よる競合 リス クを考慮 した解析 に対応す る機 能が拡張 され てお り,以 前 よ りも解析 が容 易 にな った とい えるだ ろ う。競合 リス クを考慮 した解 析 を行 う SASユ ー ザー に とって ,本 稿 が参考 になれ ば幸 いであ る。 表 5:シ ミュ レー シ ョン結果 相 関 関係 a帰 無仮 説 :帰 無仮説 イベ ン ト │ 相 関な し b帰 無 仮 説 :対 立仮 説 │ .T′ ‖ │‖ lV l I I ‖ │∨ A 0.018 0.018 0.026 0.021 0.007 0.011 0.026 0.068 B 0.018 0.008 0.027 0.026 0.358 0.318 0.637 0.576 0.382 0.382 0.638 0.583 0.008 0.010 0.037 0.117 AorB 0.052 0.052 0.053 0.043 A 0.016 0.008 0.024 0.024 │ 正 の相 関 B 0.018 0.009 0.023 0.024 0.280 0.280 0.687 0.685 AorB 0.050 0.050 0.047 0.045 0.289 0.289 0.698 0.696 A 0.017 0.006 0.024 0.026 0.062 0.022 0.036 0.047 0.421 0.680 0.571 0.547 0.694 0.575 │ 負 の相 関 相 関関係 B 0.019 0.007 0.023 0.025 0.505 AorB 0.052 0.052 0.046 0.044 0.547 c対 立仮 説 :帰 無仮説 イベ ン ト │ 相 関な し 正 の相 関 負 の相 関 d対 立仮 説 :対 立仮 説 │ ‖ │‖ │∨ l l ‖ ‖ IV │ A 0.358 0.318 0.637 0.600 0.764 0.500 0.678 0.388 B 0.025 0.012 0.027 0.067 0.759 0.473 0.665 0.370 AorB 0.383 0.383 0.647 0.607 0.967 0.967 0.895 0.609 A 0.279 0.267 0.685 0.686 0.655 0 446 0.556 0.347 B 0.016 0.009 0.038 0.115 0.659 0.445 0.557 0.343 AorB 0.289 0.289 0.698 0.698 0.922 0.922 0.802 0.624 0.573 0.888 0.565 0.829 0.452 0.049 0.886 0.563 0.826 0.336 0.996 0.996 0.972 0.788 A 0.513 0.429 0.682 B 0.058 0.023 0.037 AorB 0.550 0.550 0.577 0.693 99 │ │ !
参 考文献 1.Dignam JJ,Zhang Q,Kocherginsky M.The usc and inteTretation ofcompeting risks regresslon models. (Vル ″ε αノCα 4̀ι ′Rω ιακ力2012;18(8):2301‐ 2308. 2. Finc JR Gray RJ.A Proportional Hazards Model for thc SubdistributiOn Ofa c01mpeting Risk.Jο q′ ′ 力οИ″│,θ ′たα″S′ α′ な′ たα′Иssο α″ο41999;94(446):496‑509. ″α′ "′ ̀ブ 3. Gray RJ.A Class ofiK‐ SalnplC TeStS fOr C01■ paring the Cuimulative lncidcnce ofa Coimpeting Risk. И″″α′ s9/S′ α ′ お′ たs1988;16(3):114卜 1154. 4. Schuh R,:Kaider A,Windhagcr R,Funovics PT.I)Oes conlpeting risk analysis give uscn■ l infOrination abOut endOprOSthetiC SurViVal in e対 remity osteosarcoma?C′ ″たα′0″′ ノ 2ο′α θ湯の α″″R̀′αたグR(想 2015;473(3):900‐ 906. κ乃 ̀α 5.魚 住龍 史・森 田智視 .生 存時間解析 にお ける三種 の神器 .呼 吸 2015;34(11):1083‑1089. 6.魚 住龍史・ 吉 田早織 。平井 隆幸・ 浜 田知久馬 .K叩 1帥 ―Mcierプ ロ ッ ト・Forcstプ ロ ッ ト作成 の応 用 :グ ラ フ 出力範 囲内・範 囲外 へ の数値 出力 .SASユ ー ザ ー総会 論文集 2016;216‑232. 7.魚 住龍史・ 浜 田知久馬 .SASに よる競合 リス クを伴 う生存時間解析 の理解 .SASユ ー ザー総会 論文集 2018. 8.大 橋靖雄・浜 田知久馬・魚住龍 史 .生 存時間解析 応用編 :SASに よる生物統計 .東 京 大学出版会 2016. 9.竹 内啓 。市川伸 ― 。大橋靖雄・ 岸本淳 司・浜 田知久馬・ 下川元継・ 田中佐智子 .SASに よるデ ー タ解析入 門 [第 3版 ].東 京大学 出版会 2011. 10.西 川正子 .生 存 時間解析 にお ける競合 リス クモ デ ル .計 量生物学 2008;29(2):141‑170. 11.浜 田知久馬 .生 存時間解析 の 実務的課題 の SASで の解決 競合 リス ク,非 PHモ デ ル の例数設 計 ,最 適症例数配分 .SASユ ー ザ ー総会 論文集 2017;427. 連絡先 今泉 敦 (Atsushi lmaizumi) E¨ mail i [email protected] 100
付録 :シ ミュ レー シ ョンで 用 い た プ ロ グラ ム(相 関 の あ る場合 ・ ハ ザ ー ド設 定 a) キハ ザード設定 a 帰 無 仮説 :帰 無 仮説 ; *デ ータセット; data data; mux=0; muy=0;*母 平均 の設 定 ; varx=1;vary=1;*母 分散 の設 定 ; coⅧ y=0.35;*母 共分 散 の設 定; do sinl=l to 10000; n=100; g=1;hl=0。 14;h2=0.14;*群 1の ハ ザードの設 定; do l=l To n; x=mux+SQRT(varx)*RANNOR(4989); y=lnuy+covxy/varx*(x― mux)+SQRT(vary― oovxy**2/varx)中 RANNOR(4989): rx=probnorm(x);ry=probnorm(y); ex=‑log(Ⅸ );ey=‑log(ry);*相 関 のある指数乱数 の生 成 ; tl=ex/hl;t2=ey/h2; r tlく t2then do t=tl;c=1;end;"打 ち切り変数 の設 定 ; if tl〉 if t〉 t2then do t=t2;c=2;end; =5 then do;t=5;c=0;end; output; end; g=2;hl・ 0。 14;h2=0。 14;*群 2の ハ ザードの設定; do l=l To n; x=mux+SQRT(varx)*RANNOR(4989); y=Inuy+covxy/varx*(x― mux)● SQRT(vary― covxy**2/varx)*RANNOR(4989); rx=probnor■ 1(x);ry=probnor■ 1(y); ex=‑log(rx);ey=‑log(ry);*相 関 の ある指数 乱数 の生 成 : tl=ex/hl;t2=ey/h2; r tl〈 t2ぬ en do t=tl;c=1;end;*打 ち明り変数 の設 定 ; if tl〉 if t〉 t2then do t=t2;c=2;end; =5 then do;t=5;c=0;end; output: end; end; run; *A,B両 方をイベント としたときのlog― rank検 定; proc lifetest data=data l,lotable; 1()1
time t*c(0)lstrata g,/test=logranki ods output HomTests=OSi by simi runl data outOSiset OSi keep sim ProbChiSqi rename ProbChiSq=PrOS; runi *,y'-iyr.Al:?L r(A)lo S-rank&€i proc lifetest data=data notablei time t*c(0'2)istrata g/test=logrankl ods output HomTests=KM_Ai by simi runl data outKM-Aiset KM-A| keep sim ProbChiSqi rename ProbChiSq=p1ffi-1; runi *y'.\Yl-Biart t(O1o g-rank&Ei proc lifetest data=data notablei time t*c(0'1)istrata g/fss1=logranki ods output HomTests=KM_Bi by simi runi data outKM-Biset KM-BI keep sim ProbChiSqi renamc ProbChiSq=PrKM-Bl runi *r-iy hAl:rl t(4)Gray&f i proe lifetest data=data notablei time t*c(0)/eventcode= listrata gi ods output GrayTest=CI-Ai by simi runi data outCl-Aiset Cr-Ai keep sim ProbChiSql rename ProbChiSq=p191-4; runi *イ ベ ント BについてのGray検 定; r02
proc lifetest data=data notablei time t*c(0)/eventcode=2istrata gi ods output GrayTest=CI-Bi by simi run; date outCl-Blset Cr-Bi keep sim ProbChiSqi rename ProbChiSq=p1Qt-3; runi *結 果 の 出 力 ; *相 関 関 係 の 確 認 ; proc corr data=data; var ex ey, run; data out; mergo outOS outKl〔 ̲A outKM̲B outCLA outCI̲B:by sim: mm; *I:A,B両 方をイベ ントとして扱い有 意であった ドでのlog― rank検 定 の有 意 判定 data out:set out;inethodl̲AB='ns'; if PrOS le O.05&PrKM̲A le O.05&PrKll̲B le O.05 then m.ethodl̲AB='*'; rull: d前 8 0ut;Set O■ ;methOdl̲A='ns'; if PrOS le O.05&PrKM̲A le O.05&PrKM̲B gtO.05 then methodl̲A='■ '; rl11; data out;set out;methodl̲B='ns'; if PrOS le O.05&PrKM̲A gtO.05&PrKM̲B le O.05 thcn methodl̲B='お '; run; *判 定 結 果 出 力 ; proc freq data=out; tables methodl̲AB IIlethodl̲A lnethodl̲B; run; オⅡ:A,B両 方をイベントとして扱い有意であった ドでのGray検 定の有意判定 ; data out;set out;Inethod2̲AB='ns'; if PrOS le O.05&PrCI̲A le O.05&PrCLB le O.05 theln method2̲AB='*'; rull; data out;set out;m.ethod2̲A='ns'; if PrOS le O.05&PrCI̲A le O.05&PrCI̲B gtO.05 then method2̲A='*'; 103 ;
nEl; data out;set out;method2̲B='ns'; if PrOS le O.05&PrCLA gt O.05&PrCtB le O.05 then method2̲B='*'; rШ l; *判 定結 果 出 力 ; proc freq data=out; tables method2̲AB method2̲A method2̲B; rul; *Ⅲ :検 定 の多 重性 を考慮したlog― rank検 定 の有 意判 定 ; dat8 0ut;Set Out:methOd3̲AB='ns'; if PrKM̲A le O.025&PrKM̲B le O.025 then method3̲AB='*'; rlm; d就 80■ ;Set Out;me伍 Od3ユ ='ns'; r PrKM̲A le O.025&PrKM̲B gtO.025 then method3̲A='*'; run; data out;set out;method3̲B='ns'; if PrKM̲A gtO.025&PrKM̲B le O.025 then method3̲B='*'; rllll: *判 定結 果 出 力 ; proc freq data=out; tables method3̲AB me■ od3̲A method3̲B; rul; *Ⅳ :検 定の多重性を考慮したGray検 定の有意判定; d就 8 0ut;SCt Out;methOd4̲AB='ns'; if PrCI̲A le O.025&PrCLB le O.025 thcn method4̲AB='*'; rt■1; dtta out;sot out;method4̲A='ns'; │ if PrCI̲A le O.025&PrCI̲B gtO.025 thcn method4̲A='*'; n】 1; data out;set out;lnethod4̲B='ns'; if PrCLA gt O.025&PrCI̲B le O.025 then nlethod4̲B='*'; rlln; *判 定結 果 出 力 ; proc freq data=out; tables method4̲AB method4̲A method4̲B; Hnl; 104
SASに よるがん第 I相 試験 にお ける 区間に基 づ く用量探 索デザイ ンの実装 の試 み ○北川 忠行 、角野 修司、笹井 清史 (武 田薬 品工業株式 会社 日本 開発 セ ンター 生物統計室 ) Interval-based Dose-finding Designs for Phase I Cancer Trial Using SAS Tadaluki Kitagawa, Shuuji Sumino, Kiyofumi Sasai Takeda Pharmaceutical Company Limited 要旨 新規抗がん剤 の第 1相 臨床試験 のデザインとして、区間に基づ く用 量探 索デザイ ンで ある mTPI、 mTPI‐ 2、 Kc力 oard、 BOINに ついて紹介 し、SASに よる実行例 を紹介す る。 キ ワ ド :mTPI、 mTPI‑2、 Keyboard、 BOIN、 ODS EXCEL 1 は じめ に 新規 抗 が ん剤 の第 1相 臨床試 験 で は、最大耐用 量 (MTD)を 検討 す る こ とを主な 目的 と し、MTDの エ ン ド ポイ ン トと して は、用量制 限毒性 (DLT)の 発 現 の有無 が用 い られ る こ とが 多 い。 一 定数 の 患者 (例 えば 、3 例 )を 1コ ホー トと し、 コホー ト毎 に同 一 用量 を患者 に割 り付 け る。得 られ た DET発 現 の 有無 のデー タ に基 づ い て 、 コホー ト終 了時 は次 コホー トの用量割 付 (増 量 /現 コホー トの 用 量 を継続 /減 量 )を 決定 し、試 験 終 了時 は MTDを 選択 す る。 これ まで伝 統 的 に広 く用 い られ て きた方 法 は 3+3デ ザイ ンで あ るが 、3+3デ ザイ ンは 実施 が簡 便で ある一 方 、 選択 され た MTDが 正 しくない 可能性 が 高 い こ とが指摘 され てい る。 1990年 代 か ら連続 再評価法 (CRM)や そ の修 正 ・拡 張版 、BLRMな ど、用 量 ― 毒性 関係 にモ デ ル を仮 定す るモ デ ル ベ ース の デ ザ イ ンが提案 され て い 3+3デ ザイ ン と同様 の 簡 便 さと透 明性 を持 ちなが らMTDの 推 定精度 を改善 したデ ザイ ン と して 、 るが 、近年 、 mTPI、 mTPI‑2、 Ke力 oard、 BOINと 呼 ばれ る DET発 現割 合 の 区間 に基 づ く用 量探索デ ザ イ ン (inteⅣ al― bascdデ ザイ ン、 modcl― assistedデ ザイ ン とも呼 ばれ る)が 提案 され てい る。 本 稿 で は、 これ らのデ ザイ ン と利 用 可能 な ソフ トウェア とともに、SAS V9.4で 新 たに追加 され た SASの ODS EXCELを 用 いて 作 成 したプ ログラ ム を 紹介 した 後 、 シ ミュ レー シ ョンに よ り各デザイ ンの性 能評価 を行 う。 2 区間 に基 づ く用 量探 索 デ ザイ ン 105
2.l modiicd Toxicity PЮ bability ldcⅣ al(mTPI)法 Ji et al.(2010)に よって提 案 され た mTPI法 で は、まず 、3つ の用 量 区間 (過 小用 量 、適 正 用 量 、過大用量 ) を予 め設 定す る。 MTDの DLT発 現割合 で あ る 目標 DET発 現割合 φ =0.3、 日標 DET発 現割 合 の ±OЮ 5を 適 正用量 と考 え る場合 、過 小用 量 、適 正用 量、過 大用 量 はそれ ぞれ (0,0.25),[0.25,035],(0.35,1)と な る。各用 量 DET発 現割合 の 事 前 分布 にベ ー タ分布 Beta(1,1)を 、DLT発 現例数 に二 項分布 をそれ ぞれ仮定す る と、用量jに お け る DET発 現 割 合 の事後分布 はベ ー タ分布 とな り、次 の よ うに表 され る。 Beta(竹 +1'物 竹 +1) ρ │ら 〜 ノ 次 コホ ー トの 用 量 割 付 は 、現 在 の コ ホー トの 患者 に投 与 され た 用 量 (以 下 、現 行 の 用 量 と呼 ぶ )の DET発 現 jに お け る 割 合 の UPM(unit pЮ bability mass)に 基 づ い て決 定す る。 UPMと は 、 DET発 現 割 合 が各 用 量 区 間 に含 まれ る 事 後確 率 を各 区 間 幅 で割 っ た 値 で あ り、上 記 の 用 量 区 間 の 場 合 は 次 の よ うに表 され る。 ・ 過 小 用 量 の UPM:Prし ・ 適 正 用 量 の UPM:Pr(島 ∈ ([0,25,0.35]1島 ))/(0.35‑0.25) ・ 過 大 用 量 の UPM Pr(ρ ノ∈ ((0351)IIみ ))/(1‑035) ∈ ((002つ れ→ )/(025‑0) ρノ:用 量 jに お け る DLT発 現 割 合 場 :用 量jに お ける DET発 現有無 のデー タ (DET評 価 例数 、DET発 現例数 ) 3つ の用 量 区間 の UPMを 比 較 し、過小用量 の UPMが 最 大 の 場合 は一段 階 上の用 量 (増 量 )、 過 大用量 の UPM が最大 の 場合 は 一 段 階下 の 用 量 (減 量 )、 それ 以外 は現行 の 用 量 (維 持 )を 次 コホ ー トの 患者 に割 り付 け る。 また、安全性 の観 点か ら、過 大 用 量 と判 断 され る用 量 は次 コホー トの候補 用量 か ら除外 す る。 つ ま り、当該 用量にお け る DLT発 現割 合 が 日標 DET発 現割 合 を超 え る事後確 率 が あ る閾値 (例 えば、95%)を 超 えて い る 場合 、当該用 量 とそれ 以 上 の 用 量 を次候補用 量 か ら除外す る (以 下 、用量除外規則 と呼ぶ )。 そ して、最大症 例数 に到 達 した場合 、 あ るい は用 量除外規則 に従 って 最低 用 量 が除外 され た場合 に、試 験 を終 了す る。 MTDの 選 択 は、試験終 了後 の 各用 量 の DET発 現有 無 の デ ー タに基 づ いて行 う。 各用 量 の DET発 現有無 の デ ー タか ら isotonic回 帰 に よ り各 用 量 の DLT発 現割 合 の推 定値 を算 出 し、DET発 現割合 の推 定値 が 日標 DET発 現割合 に最 も近 い 用量 を MTDと 定義す る。 mTPI法 で は、試 験 開始 時 に DLT評 価例数 と DLT発 現例数 の組 み合 わせ ご とに次 コホ ー ト患者 の用量割付 を 示す こ とがで き る (図 2■ .1参 照 、以 下、Decision Tableと 呼ぶ )。 この こ とか ら、3+3デ ザ イ ン と同様 の簡便 さと透 明性 を持 つ 。 一 方で、mTPI法 に よる UPMに 基 づ く用量割 付 は、過 大用量 に割 り付 け る危 険性 が 高 い との指摘 があ る (Yan ct al.(2017))。 例 えば、 日標 DLT発 現割合 Φ =0.3で 、6例 中 3例 に DLTが 発現 してい る場 合 、DLT発 現割 合 の点推 定値 は 50%(=3/6)で あ るが、mTPI法 の 用 量割付 で は、現行 用 量 の継続 (維 持 )と な る。また、2.2 項 、2.3項 で 紹介 す る mTPI‐ 2(Keヵ oard)法 や BOIN法 に比 べ て 、過 大用量 に割 り付 け る患者 数 が多 くな る こ とが、 シ ミュ レー シ ョンに よ り示 され てい る。 図 2.1.l Dccislon Tablcの 例 106
mTPI D● cision Tabl● 2.2 mTPI‑2法 、Kcヵ oard法 上述 の 問題 点 に対応 す るために、Guo et al(2017)に よって mTPI‐ 2法 が提 案 され た。 mTPI‑2法 で は、過小 用 量 /過 大用 量 に対す る区間 を適 正 用 量 と同 じ幅 に細分 化 し (図 221)、 細分化 され た各 区間 に対す る UPM に基 づ いて用量割 付 を決 定す る。例 えば、日標 DLT発 現割 合 φ =0.3、 適 正用 量 の 区間幅 が ±0.05の 場合 、過 小 用 量 の 区間 を (0,0.05),(OЮ 5,0.15),(0■ 5,025)に 、過 大用 量 の 区間 を (0.35,0.45),(045,0.55),(055, 0.65),(06,0.75),(0.75,0.85),(0.85,0.95),(0,5,1)に 細分化 し、最 大 の UPMに 対応 す る (細 分化 され た )区 間 が過 小用 量 の 区間に含 まれ る場合 は増 量、過 大 用 量 の 区間 に含 まれ る場合 は減 量 、 それ 以外 は現行 の 用 量 (維 持 )を 割 り付 け る。用 量除外 規則 、試験終 了条件 及 び MTDの 選 択 方 法 は、mTPI法 と同様 であ る。 図 22 1 mTPI法 (左 )及 び mTPI‑2法 (右 )に お け る UPM 網 掛 け :適 正 用 量 区間、点線 :UPM Yan ct al(2017)に よって提案 され た Keybottd法 も mTPI‑2法 と同様 に 区間 を細 分化す る方 法 で あ る。Kcyboard 法 で は 区間幅 が短 い 両端 の 区間 (上 記 の 例 では (0,OЮ 5)及 び (0.95,1))を 無視 した上で 、UPMで はな く事 後確 率 が最大 の 区間 (Strongest key)と 適 正用量の 区間 (Targct kcy)と の位 置 関係 に よって次 コホー トの用量 割 付 を決 定す るが 、各 区間 の 区間幅 は等 しいため 、結果 的 に UPMを 用 い る mTPI‑2法 と同 じデ ザ イ ン とな る 107
(Zhou et al(2018b))。 ただ し、用 量除外 規 則 は、「当該 用 量 にお ける DET発 現 割合 が 目標 DLT発 現割合 を 超 え る事 後確 率があ る閾値 (例 えば 、95%)を 超 えてお り、 かつ 3例 以 上が評 価 され てい る場 合 、 当該用 量 とそれ 以 上 の用量 を次候補 用 量 か ら除外す る」 と下線部 の 条件 が加 え られ て い る。 2.3 BOIN法 Liu and Yuan(2015)に よって提案された BOIN法 1で は、コホー ト終了時に、現行 の用量における DET発 現 割合 の点推定値を計画時に算出した境界(λ 。 ,λ α )と 比較することにより、次 コホー トの用量割付を決定する。 具体的には、現行の用量 jに おける DLT発 現割合の点推定値を島 =竹 /乃 、予め設定 した増量/減 量の境界を (λ ,λ α )と したとき、ぁがλ θ 。以下の場合は次コホートの患者に一段階上の用量 (増 量)を 、島がλ a以 上の場合 は一段 階 下 の用 量 (減 量 )を 、それ以外 は現行 の用量 を割 り付 け る。用量除外 規 則 、試験終 了条件 、及び MTD の 選 択 方 法 は、Keヵ oad法 と同様 で あ る。 増 量 /減 量 の境界 は、現在 の 用量 の DLT発 現割合 と過 小用 量 ・ 適正用量・ 過 大 用 量 の DLT発 現割合 の大小 付 につ い て 、誤 った用 量割付 の決定 を行 う確 率 が最小 とな る よ うに定 め 関係 を比較 し、次 コホー トの 用量害」 られ る。 ここで 、「誤 った用 量割付 の決 定 」 とは、以下のいず れ かの決定 を指 す 。 0 現 在 の用量が過 小用 量 の場合 に、現在 の 用 量 を継続 また は減 量 と決 定 ・ 現 在 の 用量が適 正用 量 の 場合 に、増 量 また は減量 と決 定 ・ 現在 の用 量が過 大用 量 の 場合 に、現在 の 用 量 を継続 また は増 量 と決定 目標 DET発 現割合 をφ、過 小 用量 の DET発 現割 合 をφl、 過 大用 量 の DLT発 現割 合 をφ2と しヽ無 情報事前分 布 を仮 定 した場合 、増 量 /減 量 の境界 (λ e,λ a)は 、以下 の よ うにな る。 / 1‑ ι ° θk λθ= ι οθ 1‑ λa= ι οθ ι οθ } また、Liu and Yum(2015)は 、φl=0.6φ ,Φ 2=1・ 4φ をデ フォル ト値 とす るこ とを推奨 してお り、 この場合 の 目標 DLT発 現割合 と(λ e,λ a)の 関係 は次の よ うになる。 表 2.3.1目 標 DLT発 現割 合 Φご との境 界 (λ θ ,λ a)の 値 (φ l=0.6φ ,φ 2=14φ の 場 合 ) 目標 DLT発 現割 合 Φ 0.15 0.2 ・0.25 0.3 0.35 0.4 λσ 0.118 0.157 0.197 0.236 0.276 0.316 λa 0.179 0.238 0.298 0.358 0.419 0.479 3 利 用 可能 な ソフ トウェ ア 本 章 で は 、mTPI法 、mTPI‑2法 、Keyboard法 、BOIN法 の ソフ トウェア と、利 用 上 の注意 点 につ いて紹介す る。 l Liu and Yuan(2015)で は 、 Local BOINデ ザ イ ン と Global BOINデ ザ イ ンが 提 案 され て い る が 、本 論 文 で は Local BOINデ ザ イ ンの み を扱 っ た。 な お 、 Liu and Yuanは 、 Global B01Nデ ザ イ ン に比 べ て Local BOINデ ザ イ ン の 方 が 簡 便 で 、 か つ 有 限標 本 にお け る動 作 特 性 が 優 れ て い る点 か ら、 Local BOINデ ザ イ ン を実 用 す る こ と推 奨 して い る。 108
Ji ct al(2010)の mTPI法 の Dccision Tablcの 作成 及 び シ ミュ レー シ ョンを実施す るた めの Rプ ロ グ ラ ム は 、 MD Andcrsonが ん セ ン タ ー の サ イ ト か ら ダ ウ ン ロ ー ド 可 能 で あ る また、同 じプ ロ グ (L:墜 墜41重 優理二 重曇L■ ldaユ 圭墨Q』 LQrgttQ」 壁alQEと 2型lkと基1△ l量 壼 垂豊≧ 旦 翌■ 二 塁塁玉 ≧」 LSonWare ld=72)。 ラ ム は 別 サ イ トか ら も ダ ウ ン ロ ー ド可 能 で あ る が 、 プ ロ グ ラ ム 更 新 日 が 若 干 新 し い (L襲 1燿 」lL=墜 二Qhiき 墾翌 mTPI法 及 び mTPI‑2法 を Web上 で実行 で き る U‐ dcsign Q型 1塾 4y五 △21塑菫」 と 並里)。 また 、 l」 (http墜 //udcsLn.L菫 aconstllt塾 聾 om/)も 存在 す る。 U― Designは 、 2018年 6月 中旬 ま で ユ ー ザ ー登録 さえすれ ば無料 で利 用 可能 であ ったが 、現在 では有償版 とな ってい る。Yan ct al.(2017)の Keyboad法 と Liu alld Yuan (2015)の BOIN法 は、堕ュ〃wwwirialdcsi艶 .01g∠ にお いて 、Wcb上 で実 行 可能 であ る。 BOIN法 に つ い て は 、 Rパ ッケ ー ジ BOINや 、Windowsに イ ンス トール して実 行可能 な ソフ トウェア BOIN Design Dcsktop Progam も利 用 可能 で あ る。 この他 、Cメcl社 の EastO Escalateで も mTPI法 を実行 可能 で あ るが 、本 ソフ トウェア の 詳 細 につ い て は本 稿 で は割愛す る。 表 3.1試 験 デ ザイ ン と利 用 可能 な ソフ トウェア Rプ ロ グ ラム ○ U-Design ○ ○ Trialdesign.org ○ ○ BOIN Design Desklop Program* ○ Rパ ッヶ ― ジ *ht墜 塑互QS塁 盤壼望璽 鯉圭 ○ ̀迦 £鰹 m■Wall塾Imad∠ SinglQSQfLẁ二o」 2墾 2理 L迎 量 (‖ BOIN") C)C)か らダ ウン ロー ド可能 ̀≧ 表 3.1に 各試 験 デザイ ン とソフ トウェア につ い て ま とめたが 、 同 じデ ザイ ンで あ って も利 用す る ソフ トウェ ア に よつて シ ミュ レー シ ョン結 果 が 異 な るこ とに注意 が必 要 で あ る。 表 3.2は Ji ct al.(2010)に 示 され てい る mTPI法 に基 づ くシ ミュ レー シ ョン結果 の一 部 (Tablc lの Scena10 6に お ける、各用 量 を MTDと して選 択 した割合 )で あ る。 Rプ ロ グ ラ ム に よる結果 は論 文 と大 きな違 い は見 られ なか った一 方 、U― Dcsignに よ る結 果 は、用 量 2と 用量 4で は、論 文 の結果 と 10%程 度 もの 乖離 が 見 られ た。 表 32 mTPI法 に よるシ ミュ レー シ ョン結果 の比 較 真 の DLT発 現割 合 MTDと して 選 択 した 割 合 (%) 0.05 0.15 0.25 0.35 28 42 23 Ji ct al(2010) 0.45 0.55 Rプ ロ グラム 2.0 30.1 42.9 21.0 3.6 0.4 U-Design 3.6 38.9 42.6 13.3 1.6 0.1 0.65 0.75 目標 DLT発 現割合 :φ =0.25,ε l=ε 2=0・ 05,最 大症例数 :30,コ ホー トサイ ズ :3 109
この点 につ い て 、論文 の著者 で あ り U― Dcsi騨 の 開発 に も関わ ってい る Yum Ji教 授 に問 い 合 わせ た ところ、 U― Designで は論 文 には記載 され てい な い 以 下 の 安 全性 規則 が追加 され てい る との こ とで あ つた。 ・ 追加 され た安 全性規則 :試 験 終 了後 、DLT発 現割 合 の推 定値 が Φ+ε 2よ り大 きい用 量 は MTDと して選 択 しない 例 えば、 日標 DLT発 現割合 Φ =0.25ヽ ε l=ε2=0・ 05と し、試験終 了後 に、用 量 1及 び用 量 2で は DET評 価 され た 3例 中 DETは 発現せ ず 、用 量 3で 9例 中 1例 、用 量 4で 15例 中 5例 に DLT発 現 とい う結果が得 られ た場合 を考 え る (下 表参照 )。 この とき、DLT発 現割 合 の推 定値 が 日標 DLT発 現割合 に最 も近 い用量 は用量 4で あ る。 しか しなが ら、用 量 4に お け る DET発 現割 合 の推 定値 は、 φ +ε 2=0・ 3よ りも大 き いため、追加 された安 全性 規 則 に よ り用 量 4が MTDと して選 択 されず 、代 わ りに用 量 3が MTDと して選 択 され る。 DLT発 現 例 数 DLT評 価 例 数 15 これが、U― Designに よる mTPI法 の シ ミュ レー シ ョン結果 が Ji et al.(2010)と 一 致 しない大 きな理 由であ る。 また、U‐ Dcsignで は、mTPI法 だ けで な く mTPI‑2法 に も当該規則 が適 用 され るた め、U― Designに よる mTPI‐ 2 法 の シ ミュ レー シ ョン結果 と Trialdcsi騨 .orgに よ る Kcル o"d法 の シ ミュ レー シ ョン結 果 は一 致 しない 。 U― Dcsignに 追加 され た安全性 規 則 に つ いては 、 マ ニ ュアル に特 に記載 が な く (2018年 7月 現在 )、 シ ミュ レ ー シ ョン結果 に も影響 を及 ぼす こ とか ら、特 に注意 が必 要であ る。 4 0DSEXCELを 用 い た Decision Tableを 作 成 す る マ ク ロ SAsシ ス テ ム を用 い た 解 析 結 果 を Excelに 出力 す る方 法 に つ い て は SASユ ー ザ ー 総 会 等 で 幾 度 とな く紹 介 さ れ て き た。 例 え ば 、 DDE機 能 を利 用 して SASデ ー タ セ ッ トを Excelに 送 り、 トピ ック名 SYSTEMを 使 用 し て Excelの マ ク ロ を制御 す る とい っ た 手 法 や 、 ODSね gsetsExcclXPを 使 用 す る方 法 な どが あ る。 SASバ ー ジ ョン 94か ら実 装 され た ODS EXCELを 用 い る こ とに よ り、今 ま で 以 上 に簡 単 か つ 直感 的 に SASの プ ロシ ジ ャ 出力 を Excclフ ァイ ル と して 作 成 す る こ とが 可 能 とな った 。 利 用 方 法 と して は 、ODS EXCELと ODS EXCEL CLOSEと い う 2つ の ODSス テ ー トメ ン トで 挟 む だ けで そ の 間 の プ ロ シ ジ ャ に よ る出力 がす べ て Excclフ ァイ ル と して作 成 され る。ま た 、ODS RTR HTML,PDF等 と同様 に 、 STYLEオ プ シ ョンを使 って セ ル の 書 式 設 定 をす る こ とも可能 で あ る。 プ ロ グ ラ ム 4■ で は 、 フ ォ ー マ ッ トを利 用 して 背 景 色 を変 更 して い る。 な お 、 同 プ ロ グ ラ ム 中 の shcct interval='nonc'は 複 数 の プ ロ シジ ャ に よ る 出力 を 1つ の シー トに 出力 す るた め 、embeddcd̲titlcs=!yes'は タイ トル を シー ト上 に 出力 す るた めの指 定 で あ る。 プ ログラ ム 4.1 0DS EXCELの 使 用例 11()
data _DATA;
A=0; B=0; output;
A=1 ; B=2; output;
run;
proc format,
レ
卜」
value BGCF l="Cyan" 2="llagenta"i
run;
ods excel options(sheet_interval=' none'
title'r4 ts)t':
embedded_t itles=' yes' ) ;
proc tabu late data=_DATA;
テキスト
varAB;
tables (A B)*{style={background=BGCF.
font_we i ght=bo I d] ]
;
run;
t it le;
ods text='7+Z F' ;
ods text=' ' ;
ods graphics/heieht=200 width=300;
proc sgplot data=_DATA ;
series x=A y=B;
run
ods excel close
;
;
この ODS EXCELを 利用 して 、mTPI法 、mTPI‑2法 、BOIN法 の Decision Tablcを Excclフ ァイル として作成
す るマ ク ロ%mTPI DTを 作成 した。マ ク ロの実行方法及び実行結果 を以下に示す。なお、Liu md Yuan(2015)
で提示 されてい る BOIN法 の用量割付 の表は Ji ct al.(2010)の mTPI法 にお ける Dccision Ъbleと 形式が異 な
り、 よ り簡潔 な ものであるが、含 まれ る情報量 としては同等 と考 え られ る。本マ ク ロではいずれ のデザイ ン
に対 しても Dccision Tablcを 作成す ることで、
デザイ ン間の違 いを確認す る ことがで きる。例 えば図 4.1よ り、
mTPI法 は mTPI‐2法 及 び BOIN法 と比 べ て 「S(維 持
)」
を割 り付 け る組 み合 わせ が 多 く、mTPI‐ 2法 と BOIN
法 の用量割 付 が類 似 してい る こ とが わか る。
マ ク ロプ ロ グ ラ ム の ソー ス コー ドは付 録 を参 照 され た い 。
プ ロ グラ ム 4.2 マ ク ロ 「%mTPI DT」
の 引数
%MACRO mTPI̲DT(MAX̲SS
PT
二
EPSl
一
一
EPS2
A
B
Pl FACT
P2 FACT
XI
MIN̲EXCL =3,
METHOD
= ,
FILE
=)│
表 4.1 マ ク ロ 「%mTPI DT」
MAX SS
の 引数
最大症例 数
111
PT 目標 DLT発 現割合 EPSl,EPS2 mTPI,mTPI‑2法 にお け る適 正 用 量 区 間 の 区 間幅 (デ フ ォ ル ト :ε l=ε 2=0・ 05) (&P■ &EPSl,&PT+&EPS2)が 適 正 用 量 区 間 とな る A,B 事 前 分布 のパ ラメー タ (デ フォル ト :Beta(1,1)) Pl FACT,P2FACT BOIN法 において過小用量、過大用量 と考 え られ る用量が 目標値 の何倍 かを表す係数 XI 用量除外規則 を適用す るための閾値 (デ フォル ト :ξ =0.95) (デ フォル ト :φ l=0.6φ ,Φ2=1・ 4φ ) MIN EXCL 用 量 除外 規則 を適用す るた めに必要 な DLT評 価 例数 (デ フォル ト :3) M:ETHOD 使 用 す るデ ザ イ ン FILE フ ァイ ル 名 。 パ ス は省 略 可。 何 も指 定 しな い場合 は sascxchlsxと い うフ ァイ ル が 現 (mTPI,mTPI‑2,BOINか ら選 択 ) 在 の 作 業 デ ィ レク トリに作成 され る 図 4■ マ ク ロ 「%mTPI DT」 の 実行例 %mTPI̲DT(MAX̲SS=18, PT=0 3, METHOD二 mTPl) %mTPI̲DT(MAX̲SS・ 18, PT=0.3, MET‖ OD=mTPI‑2) mTPI‑2D● cision Tablo mTPI Decision Tabl● ■, , , │ ̀ : .̲̲= 1̲ │ '̲: l l̲ 112
%mTPI̲DT(MAX̲SS=18, PT=0 3, METHOD=B01N) BOIN D● oision Tab:o こ こで 、引数 MIN EXCLに つい て補 足 してお く。2章 で説 明 した 区間に基 づ くデ ザイ ンは、い ず れ も過大用 量 に患者 を割 り付 け る機 会 を制御 す るた め に 、 「当該用 量 にお け る DLT発 現割 合 が 目標 DLT発 現 割合 を超 え る事後確 率が 95%を 超 えてい る場合 、 当該 用量 とそれ 以 上 の 用 量 を次候補 用 量 か ら除外す る」 とい う用量 除外 規則 を適用 してい る。 MIN EXCLは この 用量除外 規則 を適 用 す るために必 要 な最小 の DLT評 価 例数 を 指 定す る引数 であ る。 デ フ ォル ト値 は、B01N法 や Keヵ o征 d法 で は 3例 以 上 が 評 価 されて い る場 合 に用量除 外 基 準 を適用す るこ とに な ってい る こ とJi et al.(2010)は 「Wc gcncrally do notrccommcnd maLng a dOsc̲■ nding dccision on any dose、 vhcn fcwer than t、 vO paticnts are trcatcd.IIoweveL our solaware did not bulld this rule into thc computer code」 と述 べ て い るよ うに、 mTPI法 の Rプ ロ グ ラ ム で は特 に考慮 され て い な い もの の 1例 で判断 す る こ とは推奨 してい な い こ とを踏 ま え 、 3例 としてい る。 一 方 、 U― Dcsignの マ ニ ュ アル には用 量 除外 規則 を適用す るた め に必要 な評価 例 数 につ いて特 に明記 され てい な い が 、作成 され る Dccision Tableか ら判 断す る と mTPI法 、mTPI‑2法 とも 2例 以上 が評 価 され て い る場合 に 適 用 され るよ うで あ る (た だ し、 DLT評 価 例 数 が 2例 で用 量 除外 規 則 に該 当 した場 合 は「Ifat the■ rst dose,users Can Ch00Se tO Carly― terminttc thc trial or not bascd on tlleir own discrction.」 との注釈 力` 己され る)。 イ 寸言 5 シ ミュ レー シ ョン に基 づ く各 デ ザイ ンの 性 能評価 4章 で 紹 介 したマ ク ロは Decision Tablcの 作成 を 目的 と した も の で あ るが、同様 の ロ ジ ックを用 い て 、 シ ミュ レー シ ョンで各デザイ ンの性 能評価 を行 うこ とができる。 Yan et al.(2017)の 真 の DLT発 現割 合 の シナ リオ を用 い て 、各デザイ ンの性 能 評価 を行 っ た。 目標 DET発 現割合 :0.2 0.2 0.26 目標 DET発 現割合 :0.3 0.4 0.45 0.46 0.3 113 0.36 0.42 0.45 0.46
10 0.2 0.29 0.35 0.5 0.58 0.3 0.4 0.55 0.6 0.7 0.1 0.2 0.25 0.35 0.4 0.08 0.3 0.38 0.42 0.52 0.08 0。 2 0.3 0.45 0.65 0.13 0.3 0.42 0.5 0.8 0.04 0.06 0.2 0.32 0.5 0.04 0.07 0.3 0.35 0.42 0.01 0.1 0.2 0.26 0.35 0.01 0.12 0.3 0.41 0.55 0.05 0.06 0.07 0.2 0.31 0.06 0.07 0.12 0.3 0.4 0.02 0.04 0.1 0。 2 0.25 0.02 0.05 0.16 0.3 0.36 0.01 0.02 0.07 0.08 0.2 0.01 0.02 0.04 0.06 0.3 0.06 0.07 0.08 0.12 0.3 0.01 0.02 0.03 0.04 10 0.2 シ ミュ レー シ ョンに よ り比較す るデ ザ イ ン は 3+3、 mTPI法 、 mTPI‑2法 、BOIN法 とした。 なお 、 3+3デ ザイ ン に つ いて はアル ゴ リズムの違 いに よ りい くつかの種類 が 存 在す るが、本 稿 で は Yan et al(2017)と 同様 に、 日標 DET発 現割合 が 02の シナ リオ に対 しては Jiand Wang(2013)の 3+3Lを 、 日標 DLT発 現割 合 が 03の シナ リオ に対 して は 3+3Hを 用 いた。 ま た、mTPI法 、mTPI‑2法 及び BOIN法 の コホー トサイ ズ は 1と し、用 量 除外 規則 は 3例 以 上 が評 価 され て い る場合 に適用 し (MIN EXCL=3)、 シ ミュ レー シ ョン回数 は 10000回 と した 。 性 能 評価 は信頼性 と安 全性 の観 点か ら行 った。 まず 、信 頼性 の指標 と して 、真 の DLT発 現割 合 が 目標 DLT 発 現割 合 である用量 (表 中 の太字 )を MTDと 選択す る割 合 (以 下、MTD的 中率 )を 以下 に示 す。 図 5.l MTD的 中率 の比 較 ¨ ¨ ,",● ヽOt,い ヽ │・ 0′ Oti… ●0■ ,‐ ,■ ● ¨ ¨ ● ● ● A ● ● ● ,̲̀ ● ● ● ―‐ マ Yan ct al.(2017)や Zhou et al.(2018a)が 指摘 してい る よ うに、mTPI‑2(Kcヵ oard)法 と BOIN法 は異 な る 統 計 的 アプ ロー チ に基 づ いてい るに も関 わ らず、MTD的 中率 は驚 くほ どよ く似 ている。また 、上 図 の結果 は Yan ct al.(2017)の シ ミュ レー シ ョン結 果 (Figwc 3.及 び Figure S5.)を ほ ぼ再現 してい るが 、 mTPIの み全 体 的 に hn et al.(2017)よ りも高 い 結 果 とな ってい る。 これ は、Yan et al.(2017)の シ ミュ レー シ ョンでは 、 BOIN法 と mTPI‑2(Kcyboard)法 に用 量 除外規則 を 3例 以 上 の場合 に適 用 してい る一方 、mTPI法 には Rプ ロ グラ ム と同様 に用 量 除外規則 を 1例 か ら適用 したた め 、MTD的 中率 が 低 か った もの と推 察 され る。今回 の よ うに用量除外規則 を適 用す るた め の 条件 を 3例 以 上 にそ ろえた場合 、mTPI法 と mTPI‐ 2(及 び BOIN)法 の MTD的 中率 の差 は ‐ n et al(2017)よ りも小 さくな る ものの 、mTPI法 の MTD的 中率 が低 い傾 向があ る と い う結論 は変わ らな か った。 114
U― Dcsignで 追加 され た安全性 規則 (試 験終了後 、DLT発 現確 率 の推 定値 が φ +ε 2よ り大 き い用量 は MTDと して選択 しな い )に よる、MTD的 中率 へ の影響 につ い て検討 した。mTPI法 及 び mTPI‑2法 に追加 の 安 全性 規 則 を適用 した場 合 の MTD的 中率 は以 下 の通 りで あ った (点 線 が適 用後 )。 追加 され た安 全性 規則 に よ り、 シ ナ リオ に よって は MTD的 中率 が低 くな るが、過 大用 量 を MTDと して選択す る可能性 は低 くな るた め 、 どち らを重視 す るか に よって適用 す るか ど うか を検討 す るべ きだ ろ う。 図 5.2U‐ dcsignで 追加 され た安全性 規則 の MTD的 中率 へ の影響 7attet OLT t… 0■ !… ■0, γ tte=02 ●,● ̀=̀, 次 に 、安 全性 の観 点 か らの指標 と して、DLT評 価 され た患者 の うち、真 の DLT発 現割 合 が 目標 DET発 現割 合 よ り高 い用 量 に割 り付 け られ た患者 の割合 (以 下 、過 大用量投 与割合 )を 以 下に示 す。 図 5.3過 大用 量 投 与割 合 の比 較 工‐ ,● ,Ⅲ Ⅲ ■ 0, ̀0■ ヽ ̲.̲x 過大用量投与割合 について も mTPI‑2法 と BOIN法 の結果 は非常によ く似ている。mTPI法 は検討 したデザイ ンの 中で過大用量投与割合 が最 も高か った。Yuan ct al.(2016)は 、mTPI法 について、現行 の用量が過 大用 量である可能性 が高い状況で もそ の用量に患者 を割 り付 け続 ける傾 向があるため、過 大用量 に多 くの患者 を 割 り付ける危険性 が高い と指摘 してお り、今回のシ ミュ レーシ ョン もそれ を裏付 ける結果 となってい る。 115
6 ま とめ 用量探 索 デ ザイ ンの性能評価 は、Zhou ct al.(2018a)が CRMも 含 めて よ り包括 的 な比較 検討 を行 ってい る。 そ の シ ミュ レー シ ョンの結 果 か ら、 1)Keybo"d(mTPI‑2)法 、BOIN法 、CRMは mTPI法 と比較 して MTD を正 しく推 定す る可能性 が 高 く、過 大用 量 に多 くの 患者 を割 り付 け る可能性 が低 い こ と、2)Keヵ oard法 と BOIN法 は性 能 が極 めて よ く似 て い るこ と、3)用 量毒性 曲線 に関す る事 前情報 が 十分得 られ て い る場合 には CRMは Kcヵ oad法 や BON法 の性 能 を上 回 るが そ うで ない 場合 は Keヵ oard法 や BOIN法 の 方 が性能 が よい 場合 もあ る こ とが示 され てい る。 また、BOIN法 は、DET発 現割 合 の 点推 定値 を用 い て 、次 コホー トの用 量 割 付 を直 接 判 断 す る こ とが で き る こ と、 mTPI法 を使 用 した 経 験 の あ る人 に とっ て は そ の 改 良版 と して Keyboard(mTPI‑2)法 が有用 で あ るこ とを述 べ て い る。 本稿 で は 、SASを 用 いて 区間 に基 づ く用 量探 索デ ザイ ンの Dccision Tablcの 作成や シ ミュ レー シ ョンに よる各 手法 の性 能 比較 がで きる こ とを示 した。 今後 、 モ デ ル ベ ー スのデ ザ イ ン も含 め 、 よ り広 範 な シナ リオでの検 討 を行 い た い。 連絡先 tadayし よilkitag2璽 2(2ね keda.00m 参考 文 献 Fangrong Yan et. al. (20 1 7) "Keyboard: A Novel Bayesian Toxicity Probability lnterval Design for Phase I Clinical Trials", Clinical Cancer Research 23(15), 3994-4003) Heng Zhou et. al. (2018a) "Comparative review ofnovel model - assisted designs for phase I clinical trials", Statistics in Medicine 37 ,2208-2222 HengZhoLr et. al. (2018b) "Accuracy, Safety, and Reliability of Novel Phase I Trial Designs", Clinical Cancer Research, https://doi.org/1 0.1 I 58/1 078-0432.CCR-1 8-0 1 68 Suyu Liu and Ying Yuan (2015) "Bayesian optimal interval designs for phase I clinical trials", Joumal ofthe Royal Statistical Society. Series C, Applied statistics 64,Part3,507-523 Wentian Guo et. al. (2017) "A Bayesian interval dose-finding design addressing Ockham's razor: mTPl-2", Contemporary Clinical Trials 58, 23-33 Ying Yuan et. al. (2016) "Bayesian Optimal Interval Design: A Simple and Welt-Performing Design for Phase I Oncology Trials", Clinical Cancer Research 22(17), 4291-4301 Yuan Ji et. al. (2010) "A modified toxicity probability interval method for dose-finding trials", Clinical Trials 7, 653-663 Yuan Ji and Sue-Jane Wang (2013) "Modified Toxicity Probability Interval Design: A Safer and More Reliable Method Than the 3+3 Design for Practical Phase I Trials", Joumal of Clinical Oncology 31, 1785-1791 ﹁求 左ユ ■J ム ー %macro mTPI̲DT(MAX̲SS=30, PT=0 3, EPSl=0 05, EPS2・ 0 05, MIN̲EXCL=3, XI=0 95, A二 1, B=1, METHOD=mTPI 116
Pl̲FACT=0.6, P2̲FACT=1 4, FlLE=) / minoperator mindelimiter=',' ; %let ̲METHOD=: ″ %if %upcase(&METH00)″ =″ MTPI″ %then %doi %let ̲METHOD=1: %let METHOD=mTPI ; %end: %else ″ %if %upcase(&METHOD)″ in (″ MTPI‑2″ ,″ MTP12″ ) %then 90doi %let ̲METHOD=21 %let METHOD二 lnTPl‑2: %end; 1ん else ″ %if %upcase(&METHOD)″ =″ B01N″ %then %do; %let ̲METHOD=3: %let METHOD=301N ; %end; 。 if %length(&̲METHOD)=0 %then %do; 。 %put ERROR: METHOD should be mTPI, mTPl‑2 or BOIN : %goto EXIT: %end; data VVK DT; ̲XLABEL='Number of patients with DLTs' : ̲NLABEL='Number of patients treated' ; 。 ′ Oi f &̲METHOD=1 1 &̲METHOD=2 %then %dol N̲HI=%if &̲METHOD=1 %then l: %else ceil((1‑(&PT+&EPS2))/(&EPSl+&EPS2));i N̲LI=%if &̲METHOD=1 %then l: %else ceil( (&PT― &[PSl) /(&EPSl+&EPS2))i: do ̲N=l to &MAX̲SSi do ̲X=O to ̲N; 01=0; 02=0: 03=0; do l=l to N HI; INT̲R=%if &̲METHOD=1 %then l: %else min(&PT+&EPS2+(&EPSl+&EPS2)* 1,1)i: INT̲L= &PT+&EPS2+(&EPSl+&EPS2)*(1‑1); ̲01=(cdf('beta', INT̲R,̲X+&A,̲N― ̲X+&3)― cdf('beta',INT̲L,̲X+&A,̲N― ̲X+&B))/(INT̲R‑lNT̲L); if ̲01〉 01 then 01=̲01: end; 02=(cdf('beta',&PT+&EPS2,̲X+&A,̲N― ̲X+&B)― cdf('beta',&PT― &EPSl,̲X+&A,̲N― ̲X+&B))/(&[PSl+&EPS2); do l二 l to N Ll: lNT̲R= &PT― &EPSl― (&EPSl+&EPS2)*(1‑1)i lNT̲L=%if &̲METHOD=1 %then O; %else max(&PT― &EPSl― (&EPSl+&EPS2)* 1,0);; ̲03=(cdf('beta',INT̲R,̲X+&A,̲N― ̲X+&B)― cdf('beta', INT̲L,̲X+&A,̲N― ̲X+&B))/(INT̲R‑lNT̲L)i if ̲03〉 03 then 03=̲031 end; 01=round(01,le‑12); 02=round(02,le‑12); 03=round(03,le‑12); ′ if l― cdf('beta',&PT,̲X+&A,̲N― ̲X+&B) 〉&XI & ̲N〉 =&MIN̲EXCL then dol ACT10N=″ DU′ : ACT=4i end; if max(01,02,03)=02 then do: ACT10N=″ if max(01,02,03)=01 then do: ACT10N=″ else do: ″ S : ACT=2i endi else ″ D : ACT=3i endi else if max(01,02,03)=03 then do: ACT10N=″ E ″ : ACT=1: end; endi outputi endi endi %endi %if &̲METHOD=3 %then %doi PHll=&Pl̲FACT*&PT; PH12=&P2 FACT*&PT; LAMBDAl=log((1‑PHil)/(1‑&PT))/log(&PT*(1‑PHll)/(PHll*(1‑&PT))); LAMBDA2二 log((1‑&PT)/(1‑PH12))/log(PH12*(1‑&PT)/(&PT*(1‑PH12))): ′ ′ cali symput(′ PHll′ , cats(put(PHll ,6 2))): ′ call symput(′ PH12″ , cats(put(PH12 ,6.2)))i ′ ′ cali symput(′ LAMBDAl′ ,cats(put(LAMBDAl,6.3))); call symput(″ LAMBDA2″ ,cats(put(LAMBDA2,6.3))); do ̲N=l to &MAX̲SS: do X=O to N: ′ if l― cdf('beta',&PT,̲X+&A,̲N― ̲X+&B) 〉&XI & ̲N〉 =&MIN̲EXCL then do: ACT10N=″ DU′ : ACT=4; end; else do; ″ if round(̲̲X/̲N,le‑12)く 二round(LAMBDAl,le‑12) then do: ACT10N=″ E : ACT=1: end; else ″ lf round(̲X/̲N,le‑12)〉 =round(LAMBDA2,le‑12) then do: ACT10N=″ D : ACT=3; end; else do: ACT10N=″ S 117 ′ ′ : ACT=2; end;
end;
output;
end;
end;
%end;
proc format;
value ACTF 1="E " 2="5 " 3="0 " A="DU";
value BGCF 1="SkyBl ue" Z="Gold" 3="illed ium0rchi d" 4="Tonato"
:
run;
ods excel %if %length(&FILE)>0 %then fi le="&FILE";
options (embedded_titlss='!€s' absolute-column-width='4' sheet_name="&ilETH0D"
or i entat i on=' I andscape' center_hor i zonta l=' yes' f i ttopage=' on' )
TitIe height=l6pt "&METHOD Decision TabIe";
;
proc tabulate data=WK_DT:
class _X _N _XLABEL _NLABEL;
classlev
/ style={just=c vjust=c font-face='Arial'};
-X
classlev
/ style={just=c vjust=c font_face='Arial' cel lheight=27}
-N
c I ass I ev
/ sty I e= {just=c vjust=c font-face=' Ar i a l' tagattr="rotate:90"}
-XLABEL
classlev
/ style={just=c vjust=c font-face='Arial' cel lheight=27J
;
;
;
-NLABEL
var ACT;
tables -XLABEL="'*-X=",
_NLABEL=" *_N=" *ACT=" x Isty l e= {background=BGCF.
just=c vjust=c font_face=' Arial Black' cel lwidth=40
l l rqnean=" *,f=ACTF. /rts=l 0 m i sstext=" ;
run;
ods escapechar='-' ;
%if &-lllETH0D=l | &-l!lETH0D=2 %then %do;
ods text="Sample size = &MAX-SS, Tarset toxicity probability (p"[Sub tJ) = &PT, -{Unicode Epsilon]-[Sub lJ =
&EPSl, "{Unicode Epsilon}-[Sub 2] = &EPS2, Prior: Beta(&A, &B)";
%end;
%if &_[4ETHOD=3 %then %do:
ods text="Sample size = &[{AX-SS, Target toxicity probabi I ity (p-{Sub t}) = &PT, "{Unicode Phi}-[Sub 1] = &PHI1,
-{Unicode PhiJ-{Sub 2l &PHIZ "{Unicode Lambdal-[Sub 1] &LAMBDAI, -{Unicode Lambdal-[Sub 2J &LAMBDA2";
=
=
=
%end;
ods text="E: Escalate to the next higher dose; S: Stay at the current dose; D: De-escalate to the previous lower
dose; ";
ods text="DU: De-escalate to the previous lower dose and the current dose wi I I never be used again in the
ods text=' '
ods excel close;
;
%EXIT:
%mend mIPI_DT:
118
trial;";
生 存 時 間解析 にお け るRPSFT(Rmk PreseⅣ ing Structural Failurc Timc) モ デ ル に よる解 析 の SASプ ログラ ム 紹 介 ○菊池 宏和 ○高橋 伸平 1、 2ブ (1シ ミック株 式会社 、 1、 山下 拓人 2 ライ トパ ス・バ イオ株 式会社 ) 無作為化比較試験 において 、Placebo投 与群 の症例 にPlacebo投 与か らActivc Drllg投 与 へ のTrcatmcm Switchを 許容 したデザイ ンで生 存時 間解析 を実施す る場合、RPSFT(Rank Prcscrving Structural Failwc Time)モ デ ル による解析 を実施す るこ とがある。 Placebo投 与群 の症例 にTreatment Switchが 発生す る こ とによ り、Placebo投 与 の正 味 の影響 を測 ることがで きな くな る問題 に対 して 、このRPSFTモ デ ル ではeVを 導入 した潜在生存時間 を利 用 してTreatment Switchの 影響 を調整す ることが期待できる。 Rで はRPSFTモ デ ル のパ ッケ ー ジがす で に存在 し、Bond[1]の immedcfデ ー タセ ッ トを利用 した解析 例 が公 開 され てい る。 しか しなが ら2018年 現在 、SASの プ ロシジ ャにはRPSFTモ デ ルの解析 が 実装 され てい ない。 そ こで本発表 では RPSFTモ デ ル の概要 の説 明、な らび に Rで 公 開 され ている Bond[1]の immedef デ ー タセ ッ トを使用 した RPSFTモ デル の解析 を SASで 再現 したプ ロ グラムの紹介 を行 う。immcdcf デ ー タセ ッ トは臨床試験のデ ー タで あ り、症状 の な い HIV感 染者 に対す るジ ドブ ジ ンの二つの治療 方針 (す ぐに治療 を開始す る Immediate Trcatmcntと AIDS又 は AIDS関 連症候群 も しくは持続的 な 低 CD4の 発 生時 に治療 を開始す る DetFed Tre mem)を 比較 した もので ある。Dctrred Treatmc■ 群 に割 り付 け られ た症例の一 部 は各症例異な る時点 で Treatment switchが 生 じるた め 、RPSFTモ デ ル が適用可 能 であ る。 [1] Bond, Simon and Allison, Annabel. (2018). rpsftm: rank-preserving structural failure time models for survival data. htps ://cran.r-proj ect. org/web/packages/rpsft m/vignettes/rpsft m_vignette.html [2] Butler AA, Rosamilia M, Kunz T, Grouss K. (2011). A randomized, double-blind, placebo-controlled, multicenter phase III study in patients with advanced carcinoid tumor receiving Sandostatin LAR@ Depot and RAD00l 10 mg/d or Sandostatin LAR@ Depot and placebo. The Lancet Supplementary webappendix. http://www.thelancet.com/cms/attachment/2}9592460412077750'7l6/mmc l.pdf 119
地域 医療 ネ ッ トワー ク の 可視化 とMR活 動 へ の活用 武藤 猛 (MarkeTech Consulting) Visualizatlon of Local Medicare Network and Its Application to Pharmaceutical Marketing Takeshi Muto President, MarkeTech Consulting 要旨 人 口減 少 と高齢化社会 に対応 して 、医療 ・ 介護 を持続 可能 な もの とす るた めに地 域 医療 がます ます重 要 とな って い る。 このた め 、「地域 医療構想 」 の 具体化 が 各都 道府 県 で進 め られ 、 医療連 携 体制 の構 築 が 加 速 され てい る。 医薬 品 マ ー ケテ ィ ング も、 この よ うな 「地域 医療 ネ ッ トワー ク」 の 時代 へ の適応 が不 可欠 で あ る。本論 文 で は、公 開 医療 デ ー タを活用 して地 域 医療 ネ ッ トワー クを可視化 し、医薬 品 マー ケ ティングに活用す るために、①地域医療 中核病院 の発見、②地域中核病院 と診療所 のネ ッ トワー クの可 視化、 とい う二つの具体的な手法を提案す る。 これ らの作業は、MR自 身が公開医療デー タのみを用い て短時 間で実行 できる。 この結果 をMR活 動 (MR配 置、 ターゲテ ィング、地域医療連携支援)に 活用 す ることで、活動の効果ア ップ と効率化 につ ながると考 えられ る。 キー ワー ド :続 けてキ ー ワー ドを記載 地域 医療ネ ッ トワー ク、可視化、 DPCデ ー タの活用、地域医療 ハ ブ病院、診療圏、MR活 動へ の活用 1.は じめに 団塊 の世代が後期高齢者 の年代 に達す る 「2025年 問題」に見 られ るよ うに、 日本 では高齢化 と人 口減少が 同時進行 してお り、医療 ・ 介護 を持続 可能 な もの にす る こ とが喫 緊 の課題 とな って い る。 このた め、 医 療 ・ 介護 ・ 福祉 ・ 健康 増 進 な どを一 体化 して推進 す る 「地域 包 括 ケア」 とい うビジ ョンの 下 に医療 ・ 介 護 ・ 福祉 政策 が推進 され て い る。各都道府 県 で は 「地域 医療構 想 」 の具体化 が進 め られ 、医療連携 体制 の構 築 、 つ ま り 「地域 医療 ネ ッ トワー ク」 の構 築 が一段 と加 速 してい る。 医薬 品 マー ケテ ィ ング も、 この よ うな地域 医療 ネ ッ トワー ク の 時代 へ の適応 が不 可欠 であ る。本論 文 で は、公 開医療デ ー タ を活 用 して地 域 医療 ネ ッ トワー クを可 視 化 し、医薬 品 マー ケテ ィ ング に活 用す る ため に、① 地域 医療 中核 病 院 の発 見、② 地域 中核 病院 と診療 所 のネ ッ トワー ク の 可視化 、 とい う二つ の 具体 的 な手法 を提案す る。 これ らの作業 は、MR自 身 が公 開 医療 デ ー タ のみ を用 い て比 較 的容易 に実行 で き る。この結果 をMR活 動 (エ リア ター ゲテ ィ ング、施設 。医師 ター ゲテ ィ ング、地域 医療連携支援 ) 120
に活用す るこ とで 、活動 の効果 ア ップ と効率化 につ な が る と考 え られ る。 2.地 域 医療 ネ ッ トワー クの 可視化 の 方 法 各都道府県 の 「地域 医療構想」 の下で進 め られ てい る地域 医療 のネ ッ トワー ク化は、そ の構成 を図表 1の よ うにま とめることができる。 図表 1地 域 医療 ネットワークの 構 成 急性 期 病院 地域包括支援 センター ◆ 健康福祉セン ター (保 健所) 在 宅 医療 支 援 診療 所・病 院 高 度急性 期 病院 診 療所 か か りつ け 医 ) 〈 介護 医療 院 ■ ││ ■ 患書1家族 ‐ │ │││││■ ‐摯 ││││11電 :││‐ 訪間看護 ステーション 回復 期・ 慢 性 期 病院 歯 科 診療 所 薬局 居 宅介 護 支 援 事 業所 図表 1に 示す よ うに地域 医療 ネ ッ トワー クは 、 「医療 連携 ネ ッ トワー ク」 と 「医介 (医 療 ・ 介護 )連 携 ネ ッ トワー ク」 の二つ の サ ブネ ッ トワー クか ら構成 され る。 前者 は診療 所 (か か りつ け医 )、 急性 期病院 、高 度 急性期病院 、 回復期 ・慢性 期 病 院 な どか ら構成 され 、 医療 が主役 で あ る。 一 方 、後者 は診 療 所 (か か りつ け医)、 在 宅 医療 支援診療所 、地域包括支援 セ ンター 、保 健 所 、薬 局 、介護 関連事 業所 な どか ら構成 され 、 医療 に加 えて介 護 や福祉 が重 要 な役 割 を果 たす 。 二つ の サ ブネ ッ トワー クの結 節 点 に 当た るのが診療所 (か か りつ け医)や 在 宅 医療支援診 療所 で あ る。本論 文 で は、前者 の 医療連携 ネ ッ トワー クに注 目 し、単 に 「地 域 医療ネ ッ トワー ク」 と呼ぶ こ ととす る。 本論文 で説 明す る地域 医療 ネ ッ トワー クの可視化 と活 用 の 手順 を図表 2に 示す。 図表 2地 域 医療ネットワークの 可視化と活用の手順 対象都道府 (例 :栃 本県) 地域 医療 基本情報の 収集・分析 (都 道府県) 地域医療の ハ ブ病院発見 (DPCデ ータ 利用 ) 地域医療 ネットワーク 可視化 〈 診療圏分析等) 中核病院の 診療圏 (連 携医療 機関リスト) ・疾患別シェアグラフ化 ・地図へ のプロット ・診療圏算出 ・患者フローのlE極 121 エ リア戦 略 とMR活 動 への活用 ・担 当エリアの可視化 ・ターゲティング精度 ・地域医療 へ の貢献
図表 2に 示す よ うに、 まず 対象 とす る都 道府 県 (例 えば栃木 県 )を 決 めた上 で 、 そ の都 道府 県 に関す る地 域 医療 の基 本 情報 を収集 す る。 特 に保健 医療 計 画や地域 医療構想 、 さ らに全 国 を対象 とした公 開 医療 デ ー タ で あ る DPCデ ー タ (1)や NDBオ ー プ ンデ ー タ (2)な どが有用 で あ る。 次 に本論 文 の主 題 で あ る地域 医療 ハ ブ ① 病 院 の 発 見 と中核病 院 の診療 圏分析 を行 う。 地域 医療 ハ ブ病 院 の発 見 には DPCデ ー タ を用 い る (詳 細 は 3.)。 中核病 院 の診療 圏 は対象 とす る都 道府 県 の 中核病院 が公 開 してい る医療連 携 リス トを用 い る (詳 細 は 4.)。 なお 、デ ー タ加 工 に は SASを 、デ ー タ分析 には JMPを 用 いた。 3。 地 域 医療 ハ ブ病 院 の 可視 化 3.l DPC集 計データの加工と地域医療ハブ病院の発見手順 DPCデ ー タ①には病院毎 の疾患別患者数 な ど多様なデー タが含 まれている。 ここではその うち最 も利用 しやすい 「MDC(主 要疾患 コー ド)別 医療機 関別患者数デ ー タ」 を用いる。 DPCデ ー タの加 工手順 を図 表 3に 示す。 図 表 3 DPC集 計 デー タの 加 工 手 順 MDC別 (上 2桁 )医 療機関別 MDC別 (上 6桁 )医 療機関別 DPC集 計データ (MDC別 ・ 医薬品マーケ ティングヘの活用 医療機関別 ) (エ リアマーケティング等 ) ●エリア別患者数シェア ー都道府県別 (エ リア織難こ 菫要 一二次医療圏別 ) 産業医科大学 公衆衛生学教室 (松 田晋哉教授 ) ページ 「DPC分 析関連」 H26公 開データ医療機 関 二 次医療圏 (EXCEL) 二次 医療圏コードの 上2桁 が都道府県コード DPCデ ー タには医療機 関名 とデ ー タ しか な く、都道府 県名 。二 次 医療 圏名 が含 まれ ていな い。 そ こで 、 (3)を 用 いて 、 DPCデ ー タ 図表 3に 示す よ うに、産業 医科 大学 が作成 した 二 次 医療 圏付 き医療機 関名 リス ト とマ ッチ ング させ る こ とで 医薬 品 マー ケテ ィ ングに有用 な分析 用 デ ー タベ ー ス を生成 す る こ とが で きる。 地域 医療 ハ ブ病院 の発 見 に は、上記 デ ー タベ ー スの うちで対象 とす る都道府 県 の病 院 (DPC参 加病院 、 DPC準 備病 院お よび 出来 高病 院 のす べ て )を 抽 出す る。 地域 医療 ハ ブ病 院 は、対 象 とす る医薬 品が使 用 さ れ る疾 患 を選 定 し、そ の疾 患 に対す る各病 院 の都 道府 県 内 シェア を算 出す る こ とで発 見 で き る。 なお 、 シ ェ ア は 二 次 医療 圏ではな く都 道府 県 を対象 とす る方 が適切 で あ る。 そ の理 由は、 二 次 医療圏 間 の 患者移動数 は 全 患者 数 の 50%を 超 える こ とも珍 しくないか らで ある (都 道府 県 を越 える患者 移 動 も少 な くな い が 、残念 な (4)で が ら使 い や す いデ ー タが見 当た らな い )。 なお 、公 開医療デ ー タの可視化 サイ ト 容 易 に確認 で きる二 次 医療 圏 内 シェアは 、分析 前 の 当 りを付 け る 目的 で使用す るこ とが有用 であ る。 3.2 地 域 医療 ハ ブ病 院 の発 見 事 例 地域 医療 ハ ブ病院 の発見事例 を紹介す る。そ のためには、 「対象 医薬品」 と 「対象都道府県」 を選定す る 必要があ る。本事例ではそれぞれ 「血液凝 固剤 」 と 「栃木県」 を対象 とす る。 122
まず対 象 医薬 品 (血 液 凝 固剤 )と 対象疾 患 とを関連付 ける必 要 が あ る。 このた め に参 照す べ き基本 資 料 は 対象 医薬 品 の添付資料 (適 応 症 )と 関連学会 の ガイ ドライ ンで あ る。 今 回は 日本循 環器 学会 のガイ ドライ ン を参 照 して 、 「抗凝 固 。抗 血 小板療 法」 の適応 疾 患 は 「MD C05循 環器 疾患」で あ る こ とを確認 した 。 次 に、上述 の 分析用 デ ー タベ ー スか ら、栃木 県 の病院 を抽 出 (計 30病 院 )し 、 「MD C05循 環器 疾 患 」 のデ ー タを対象 と して各病 院 の 県 内 シェア を計算す る。各病院 の 患 者 総数対MD C05循 環器疾患 県 内 シ ェア を図示 した のが 図表 4で あ る。 図表 4地 域 医療ハ ブ病院の発見 (例 :栃 木 県の循環器疾患 ) 県 内 シ ェア︶ ︵ 循 環 器 系 疾 患 ︵M D c o 5︶シ エア 獨 協 医科大学病院 │ 済生会宇都 宮病 院 磯 13.8% 燿螢12.4% │ 鰺 ︱ ′ ′ ヽ 栃木県の30病 院の患者総数対循環器系疾患 (MDC05)シ エア 鬱 151% 自治 医科 大学附属病院 足 利 赤 十字 病 院 ̲̲̲´ ′ 。 ´ 患者総数 (病 院の規模) 図表 4か ら分 か るよ うに、栃 木 県 内でMD C05循 環器 疾患 県 内 シ ェアが突 出 して 大 き いのは、獨 協 大 学 病 院、 自治 医科 大学病院 、済 生会宇都 宮病院 、お よび足利赤十字病 院 の 4病 院 であ り、 これ ら 4病 院 の 合 計 シ ェ ア は 57%に 達す る。 した が って 、MD C05循 環器 疾患 に関す る栃 木 県 内 のハ ブ病 院 は これ ら 4病 院 と推 定 され る。 本 事例 で明 らかな よ うに、地域 医療 ハ ブ病 院発 見 のキーポ イ ン トは 、対象 医薬 品 と対象疾患 との 関連 付 け で あ る。 DPCデ ー タはあ くまで疾 患別 デ ー タで あ るので、 た とえ ば がん 、脳卒 中、急性 心筋梗 塞 、糖 尿 病 な ど他 の 疾 患 に適用 され る医薬 品 につい て は、 そ の都度 ガイ ドライ ン等 で慎重 に DPCデ ー タの対応 す る適 応症 を選 定す る必要が あ る。 4.地 域 中核病院 の診療圏の可視化 4.1 地域 中核病院 の診療圏 の可視化 「診療 圏」 とは、 当該病 院 に通院・ 入 院す る患者 の居住地 がそ の 病 院 か ら見て どの 範 囲 にあるか を意 味 し てお り、小 売 マー ケテ ィ ン グにお け る 「商 圏」 に相 当す る。診 療 圏 を求 め るために は まず 「診療 圏 曲線 」 を 描 く。 このた めには個別 患者 の 居住 地が必 要 で あ るが これ は もち ろん非公 開であ る。 そ こで代替 デ ー タ と し て病 院 の 連携 先診療所 の住所 を用 い る。 したが つて 、診療圏 (集 患 範 囲 )が ほぼ連 携 医療機 関の 分布 に等 し い こ とを仮 定 してい る こ とに な る。診療所 の診 療 圏 は病院 の診 療 圏 に比 べ て圧 倒 的 に小 さいので 、 この 仮 定 は妥 当 と考 え られ る (検 証 結 果 は後述 )。 つ ま り診療 圏 曲線 とは、 中核 病院か ら連 携 医療機 関まで の 直線 距 123
離 を横軸 に、そ の距離 を半径 とす る円内に含まれ る連携 医療機 関数 の比 率 を縦軸にプ ロ ッ トした 曲線である。 ここでは小売マー ケテ ィングにお ける商圏設定の考 え方 を参考に して 、直線距離 で全連携 医療機 関数 の 70% が含まれ る半径 を「70%診 療圏」 (以 下単に「診療圏」)と 定義す る。診療圏 曲線 の算出手順 を図表 5に 示す。 図 表 5診 療 圏 曲 線 の 算 出 手 順 対象地域の 基本情報 収集・分析 医療機関名でマッチング して緯度経度取得 エリア戦略 とMR活 動 へ の活用 中核病院 の 診療圏曲線 算出 中核病院の 連携医療 機関リスト ・距離算出 ・診療国曲線 ・診療目 ・患者フローの把握 ・担 当エリアの可視化 ・ターゲティング精度 ・地域医療 へ の貢献 【 経魔緯度付】 医療経済研究機構調査研究報告書│ (全 医療機 ・饉度韓度を持した資鱗 憲告書) ●饉所 図表 5に 示す よ うに、まず 対象 とす る病 院 が HP上 で公 開 してい る連 携 医療機 関 リス トを入 手 す る (た だ し、500床 以 上 で も この リス トを公 開 してい る病 院 は約 20%以 下で あ る)。 これ ら連 携先 の位 置 (経 度緯度 ) を得 るた め、医療経 済研 究機 構 調 査研 究報告書 「全 国保 険 医療機 関 (病 院・ 診療所 )一 覧 (H28版 )」 (5)を 用 い る。 この 「一 覧 」 は全 国 の す べ て の 医療機 関約 95,000件 の名称 ・住 所 とそ の経度緯度 を網 羅 した貴重 な資 料 である。 リス トと一 覧 との マ ッチ ン グには 「医療機 関名 」 を用 い る。 ただ し、 一 覧 には 医療 法 人名 が付 与 され てい るので 、名称 の ク リー ニ ン グが必要で あ る。 それ で もマ ッチ ン グせ ず に残 った もの に は手作業が必 要 となる。経度 緯度 を用 いた 二 点 間 の 直線 距離 の 算 出 に は、大 円距離 を用 い る。 この方法 は簡 便 であるが 、 た とえ数 千 kmの 距離 で あって も誤 差 が 0.5%以 内 と、実用 上十 分 な精 度 が あ るこ とが確認 され て い る 4.2 (6)。 栃木 県 にお ける診療 圏 の算出事例 まず 、本論 文 の診療 圏算 出 の仮 定 で あ る 「診療 圏 (集 患範 囲)が ほぼ連 携 医療機 関 の分布 に等 しい」 こ と を実際 の デ ー タで確認 した。 東京 医科 歯科大学病 院 が連 携 先 リス トと共 に地 域別 患者数 を HP上 で公 開 して い る。このデー タ を用 いて 「地域別 患者数対地域別 連携 機 関数 」の散布 図 を作成 し相 関係数 を求 めた ところ、 0.9929と 十分 大 きな値 が得 られ た。 従 って この仮 定 は妥 当 と考 え られ る。 診療 圏 を算 出す る対象 は栃 木 県 の 主要病院 とす る。 栃 木 県 の主 要 8病 院 とそ の地域 医療 連携 先件数 を図表 6に 示す。連携 先 リス トには、栃 木 県 立 がんセ ンター が公 開 してい る各 病 院 の リス トも含 まれ る。 図表 6栃 木 県の主 要病院 の地域 医療連携先 獨協 医科 大学病院 自治 医科 大学 附属病 院 済 生会字 都 宮病院 足利赤 十字病 院 独立 行 政法 人国立病院機構‐栃木病 院│ 佐 野厚 生総 合病院 栃 木 県立 がんセンター 日立病院 機構 宇都富病院 l*n' l+dr *rl untoo"nr*m 栃木県立がんセンターリ s+Eoecrro#H s+rooc+arrm 0 l*n,r+ro""lm*m O l+m, 卜 1191 ,, tl 1501 栃木県立がんセンター │, 成22年 度新規DPC■ 備病院 53r o 自院PDFお よび栃木県立 l**rooooo"nr*o l**r,oooo"n**u s24l o 他施設 も含 むリスト 栃木県立 が んセンター リ l-**a**u 124 1431 341
図表 6か ら分 か るよ うに、地域連携 先 のほ とん どは地 元 の栃木 県で あ るが 、病院 に よっ て は近 県 に も分布 してい る。 これ ら 8病 院 と各連 携 先 の経度緯度 か ら前 述 の方 法で直線 距 離 を求 めた。各病 院 につ いて病 院 か ら連携 医療機 関 までの直線 距離 を横 軸 に、そ の距離 を半径 とす る円内 に含 まれ る連携 医療機 関数 の比 率 を縦 軸 にプ ロ ッ トした診療 圏 曲線 を求 めた結果 を図表 7に 示 す。 図表 7診 療 圏 曲線 (例 :栃 木 県 ) 急性期病院の診 療 圏曲線 (栃 木県 ) 100% ′ 〆 〜 90,る 機郵 :摯 繭雙揮 ̀̀il''llir'1lil ′ 酵メロ警=― 〜電轟鬱躍 鐵理 80% 11.3km ア 20.8km 爆麟鮮 tfl60% 広城型 70%診 察圏 B 始嶽麺 :送 7 *. F華蟻 01̲獨 協医科大学病院(■ ■67床 ) ・o社 自治医科大学附属病院(1126床 ) ヒ…… *sov" 地 元密 着 型 0 / 燿緑鰺 ノ ノ oo/o ′ 70% 議髯︒ ∫ ′み 206 ∫ 蛛 ガ ′ ・ ″ 半 30% 燿″ 黎蘇 ︻ ・ 動 乙 YqoN ̲足 利赤十宇病院(545床 ) OS̲独 立行政法人口立病院機構 栃木病院(443床 ) 。∝佐野厚生総合療院(531床 ) .̲栃 木 県立 がんセンター (324床 ) 03̲日 立病院機構宇都富病院(380床 ) 議,1爾 広城型痢院平均診薇日曲線 (栃 木県) 峯 ‐=― 地え密着型病院平均惨療日曲線 (栃 木集) ̀饉 10 20 15 25 30 35 40 45 連携診療機関からハブ病院までの直線距離 (km) 図表 7を 観 察す る と、連 携 先 が比 較 的近距離 に集 中す る 「地元密着型 病 院 」 と、かな りの遠 距離 も含 まれ る 「広域型病 院」 に分 類 され る こ とが分 か る。後者 は大 学病 院 とい う特 徴 が あ る。 両 タイ プ の 平均診療 圏 曲 線 も図表 7に 記入 して あ る。 診療 圏 の 半径 は、地元密 着 型 の場合 11.3km、 広域型 の場合 20.8kmで あ る。 各病院 の病床 数 と診 療 圏 の 半径 との関係 を図表 8に 示 す。図表 に示 す よ うにかな り高い 相 関 が観察 され る。 図表8病 床数と70%診 療 圏の 関係 (例 :栃 木県) 病床数対診療日の関係 (70%診療圏) 25 自治 医科 大学 附属 病 院 診 療 日 の 半 径 ︵k m︶ 饉 獨 協 医科 大学病院 栃 木 県立 がんセンター 罐 響 国立 病院機構 済 生会 宇都 宮病院 警 佐野厚生総合病院 ◆ 独立行政法 人国立 病院機構 栃 木病 院 N=8 4∞ 600 800 病床数 125 1000 1200 1400
鍮 一霧 図表 9地 域 中核病院 とその診療圏 (例 :栃 木 県南部 ) ● .″ ●●. ̀ I議 ::事 │:轟 広壌型病院 : か ち ■ 毎 │ 子… `‐ ・‐ 。` 摯‐ .繊 ‐ ・ 省 ・ .r 3"・ ヽ t齋 <亀 ●.・ │. ::│ ´ ‐ 繁漁饗鸞饗 麟鐵 その他病院 ,た ‐ハ 卿 診療所 鶴 足利濠十 ヽ .ヽ ■ 鬱 :亀 .メ ‐ ..,壕 ...、 ̀轟 ̲鳳1轟懸 栃 木 県 南部 の 地図上 にす べ て の 医療機 関 を表示 し、同時 に 中核病 院 の診療 圏 をプ ロ ッ トした のが 図表 9で あ る。 経 度緯 度 か ら医療機 関 をプ ロ ッ トす るに は、地理情報 分析 支援 システ ムMANDARA(7)の HPに あ る 「Geocoding」 機 能 を利 用 した。各病 院 に通 院・ 入 院す る患者 の 多 くが、各病 院 の診 療 圏 か ら集 ま る と考 え る こ とで 、地域 の患者 フ ロー をイ メー ジで き る。 また病 院 間 の競合 関係 も診 療 圏 の 重 な り合 い と して容易 に 読 み取 る こ とがで きる。 診療 所 を標榜 科 目別 に分類 して図示すれ ば、特 定 の疾 患 に関す る患者 フ ローが一 層 鮮 明 に な る。 4.3 診 療 圏半径 の一 般 性 栃木県 に対 して算出 した診療圏半径が一般的 か どうかを検証す るために、医療環境 が全 く異 なる東京都 の 3病 院 について同様 に診療圏 曲線 を算出 し、栃木県 の平均診療圏曲線 と比較 した。結果 が図表 10で ある。 図表 10診 療圏曲線 (栃 木 県の平均と東京都 の3病 院 の比較 ) 急性期病院 の診療圏曲線 (東 京都 ) roo% / t 4sov. tcox ′′ソ ′ ガ / ノ び ‑01̲東 京医科歯科大学附属病院 (753床 ブ護 30% 20% = 一 ″一 ilaoy" 70%診 療 圏 ● 70% 一一 ︺′ R ﹄ ♂ ^ メ なノ ao% ´ ´ 一 押 ´一 ″ 90% ) ・0社 東京女子医科大学病院 (1407床 ) 一― ∫ …… 03̲東 京大学医学部付属病院 (1217床 ) 護 ∫ 饗 轟 広城型病院平均診療圏曲線 (栃 木県) 10% 蝉 綴 地元密着型病院平均診療日曲線 (栃 木県) 0% 10 15 20 25 30 35 40 連携診療機関からハブ病院までの直線距離 (km) 126 50
図表 10か ら分 か るよ うに、病 院数 は少 ないが東 京都 の場合 も 「地元 密 着型 」 と 「広 域 型 」 に分類 され 、栃 木 県 の 平均診療 圏 曲線 が概 ね妥 当で あ る こ とが分 か る。 栃木県 に対 して 算 出 され た平均 診 療 圏 曲線 は、 日本 全 国 に適用 可能 と考 え られ る。 た だ し、今 後検証例 を増 やす必要が あ る。 医薬 品マー ケ テ ィ ングに活用す る た め、医療機 関 の種類別 の診療 圏 を ま とめたのが 図表 11で ある。 図表 11 医療機 関 の種類別診療圏 の比 較 診療所・病院の種類 70%診 療 圏の半径 (目 安 ) 説明 診療所 0.5km 0 5kmは 都市部での目安であり、都市部以外では、1 〜3kmと なる 5km 地元密着型病院 1 0krn 地元密着型病院 15km 地元密着型病院 20km 広域型病院 (大 学病院などの特定機能病院 ) 小規模病院 (250床 前後) 中規模病院 (500床 前後) 中規模病院 (750床 前後) 大規模病院 (1000床 以上) 図表 11の うち、診療所 の診療 圏 は文献 による(8)。 500床 お よび 1000床 以 上 は栃木 県 に対 す る結果 、それ 以 外 は内挿 に よる推 定値 の数字 を (活 用 に便利 な よ うに)丸 めた もので あ る。 5.地 域医療ネ ッ トワー クの可視化 を活用 したMR活 動 地域 医療 ネ ッ トワー ク時代 の 医薬 品 マー ケテ ィ ングは必 然 的 にエ リア マ ー ケテ ィ ングで あ る。 エ リア マ ー ケテ ィ ングの 重 要 な三要素 は 「エ リア に対す るター ゲテ ィ ング」、 「エ リア に対す るMR活 動 の量」 、お よ び 「エ リア に対 す るMR活 動 の 質」 で あ る (9)。 今 回取 り上 げた地域 医療 ネ ッ トワー クの可視 化 は、ター ゲテ ィ ング (エ リア の他 、施設や 医師 )の 精度 向上 に役 立つ と考 え られ る。 MR活 動 へ の活 用 のための 可視 化 は次 の よ うに して行 う。担 当エ リア に対 して、① DPCデ ー タを用 いた 主要疾患患者 数 の 各病 院 シェア を算 出 し、② 医療機 関位 置 の地図上 へ の プ ロ ッ トと中核 病 院 の診療圏 を記入 す る。 これ らの 作業 は比較的容易 に実行 可能 であ る。 このよ うな可視化を前提にすると、次のよ うなMR活 動への活用が考えられる。①医療圏の地域医療ニー ズ と課題の理解、②医療圏の医療施設偏 りを考慮 したMR活 動配分、③ 自社 の対象疾患別 の患者 フロー想定 ④上記 フローにおいて、キー となる医師・施設の リス トア ップとターゲティング、⑤診療圏を考慮 した医療連携支援 (病 院への診療所紹介、診療所へ の病院紹介、地 (診 療所⇒地域医療支援病院⇒特定機能病院)、 域医療に関する講演会開催)、 ⑦病院の得意分野調査 と医療連携支援へ の活用、③診療所医師のニーズ把握 と医療連携 コンサルテ ィング。いずれ もエ リアにおけるMR活 動の質を高 め、同時に効率的な活動を可能に す ると考えられ る。 6.ま とめ 本論文では、①DPCデ ータを用いた地域中核病院の発見、②中核病院の診療圏の算出、という二つの方 127
法 で エ リア 内患者 フ ロー を可視化 で きる こ とを事例 で示 した。 上 記 の 可視化 は、次 の よ うにMR活 動 の効果 ア ップ に活 用 可能 で あ る。 ① エ リア内地 区別 MR活 動 量配分 、② エ リア内各地 区担 当MRの 連携 方針 (病 院 間連携 を 中心 に)、 ③ エ リア 内患者 フロー を踏 ま えたMR活 動 (例 :施 設・ 医師 ター ゲテ ィ ン グの精度 向上 、 医師 へ の有 用 な地域 医療 連 携 情報提供 、病 院 ・ 診 療所 間 の地 域 医療連携推進協力 )。 以 上 の 活動 を支店・ 営 業所全 体 で取 り組 む こ とに よ リエ リア内医療 関係 者 満足度 が 向 上 し、結果 的 には業績 の 向上 につ なが る と期 待 され る。 本 論 文 で は、患者 フ ロー の 可視化 のた めの公 開 医療デ ー タの活 用 法 につ いて提 案 した。 この他 、 NDBオ ー プ ンデ ー タな どの活用 (10)と 合 せ る と、公 開 医療 デ ー タの活 用 が一 層広 が る と期待 され る。 こ う して 、エ リ ア マー ケテ ィ ングの 戦 略 立 案 か ら実践 まで の ほ とん どが 、公 開 医療 デ ー タの活 用 で 効果 的 か つ 効 率 的 に計 画 ・ 実行 で き る。 もちろん 、市販 デ ー タや社 内デ ー タも活用 可能 で あるが、公 開医療 デ ー タ の活 用 に よ り地 域 医療 の 全 体像 を把握 で き るので、市販 デ ー タや社 内デ ー タ との 相乗効果 が期待 で き る。 参考文 献 (1)厚 生 労働 省 HP:診 療 報 酬調 査専門組 織 ・ DPC評 価 分科 会 (最 新 の DPCデ ー タは、平成 27年 度第 7 回分科 会 資料 ) (2)厚 生 労働 省 HP:NDBオ ー プ ンデー タ (第 1回 2016年 10月 、第 2回 2017年 10月 ) (3)産 業 医科 大学公 衆衛 生 学 教 室 (松 田晋哉 教授 ):H26公 開 DPCデ ー タ医療機 関 二 次 医療 圏対 照 リス ト (4)石 川 ベ ンジ ャ ミン光 一 :DPCデ ー タを 中心 と した公 開 医療 デ ー タの可視化 サイ ト (「 石川 サ イ ト」、URL: https://public.tablea.comゎ ronle/kbishikawa#!/) (5)医 療 経 済研 究機構 :調 査 研 究報告書 「全 国保 険 医療機 関 (病 院 ・ 診療所 )一 覧 (H28版 )」 (6)三 浦英俊 :緯 度経度 を用 い た 3つ の距離 計算 方 法、オペ レー シ ョンズ 。リサ ー チ (2015年 12月 ) (7)谷 謙 二 :地 理情報分析 支援 システ ムMANDARA(URL:http:依 tgis鵬 プmmda″ ) (8)原 田裕 士 :納 得 そ うな ん だ !診 療所経 営 第 2版 、 日本 医事新 報社 (2008) (9)武 藤 猛 :医 薬 品エ リア マー ケテ ィン グヘ の 新 しいアプ ロー チ 、 SASユ ー ザ総 会 (2015年 8月 ) (10)武 藤 猛 :公 開医療 ビ ッグデ ー タを活 用 した 医薬 品 マー ケテ ィ ングの可能性 、SASユ ー ザ総 会 (2017年 8月 ) 128
SGPLOTプ ロシジ ャ に よる抗 がん剤領 域 で用 い るグラ フ作成 の事例 ○川原 田 貴広 (日 本 メデ ィア株 式会社 ) 近 年 、SAS9.4の バ ー ジ ョンア ップ に よ り、 SGPLOTプ ロ シ ジ ャ に よ る グ ラ フ作成 の 自由度 が 以 前 よ りも増 し、 よ り簡 単 に グ ラ フ を作成 で き る よ うに な って い る。 中 で もSGPLOTプ ロ シ ジ ャにお け るSTYLEATTRSス テ ー トメ ン トは 、これ まで簡 単 に行 え なか っ た グ ラ フ にお け るグル ー プ別 の ス タイ ル 設 定 (色 、線 種 、 シ ンボル な ど)を 可能 に して い る。 ま た 、GROUPLC OPT10Nを 用 い る こ とで 、被 験者 を グル ー プ と して 作 成 す る推 移 図 (Spider Plot) を 、 カテ ゴ リー グル ー プ別 で で ス タイ ル 設 定す る こ と も可能 とな っ た。 色 の 指 定 に関 して は 、Rick(2012)が 紹 介 して い るRGBマ ク ロ を用 い る こ とで 、RGB値 を用 い た色 の 指 定 がSASで 可能 とな る。 今 回 は 、前 述 の SGPLOTプ ロ シ ジ ャ に お け るSTYLEATTRSス テ ー トメ ン ト及 び Rickが 紹 介 して い るRGB マ ク ロに着 日 した 。 前 半 で は、 まず STYLEATTRSス テ ー トメ ン トにつ い て の 注 意 点や 使 い 方 の ま とめ及 び RGBマ ク ロ の 紹 介 を行 う。 抗 が ん 剤 領 域 の グ ラ フ に つ い て は 、魚 住 ・ 浜 田 が 本 ユ ー ザ ー 会 に お い て 、 Kaplan― Meler Plot及 び FOrest Plot(2016)、 Waterfall Plot及 び Swimmer Plot(2012)を 紹 介 して い る。 後 半 で は過 去 に紹 介 され て い るプ ロ グ ラ ム を参 考 に し、STYLEATTRTSス テ ー トメ ン ト及 びRGBマ ク ロ を用 い て 、Waterfall Plot(最 大 の 腫 瘍 縮 小割 合 )、 Spider Plot(腫 瘍 縮 小割 合 の 推 移 図 )、 Swimer Plot(二 通 り)の 作 成 例 を紹 介 す る。 また 、新 た に Waterfall Plotと Swimer Plotを 結 合 させ 、 一 つ の グ ラ フに ま とめ た 作成 例 も提 案 す る。 本発表は、 で きる限 リプ ログラム を簡潔 にかつ視 覚 的 に もよい ものに し、 論 文解析 な どにお けるグラフ作成 に役立 つ発表 を 目指す。 129
CDISC Datase● XMLの SASに よ る作 成 ○ 関根 暁史 (藤 本製薬株式会社 ) Dataset― XMLは 規制 当局 に提 出が認 め られ ていないためか 、そ の存在 自体 が余 り知 られ ていない よ うに思 われ るが、Deine― XMLと 並んで CDISCの 柱 として存在 してい る。 デ ー タセ ッ トのデ ー タ値 をDa● set― XMLに 、変数名 ・ 変数属性 ・ ラベ ル 等 の メタデ ー タをDeine― XMLに 分離格 納す るこ と がCDISCの コンセ プ トとな ってい る (図 1)。 XPTフ ァイ ル (SASi刈 Ю RT形 式 )と 比 較 した ときのDaね set― XMLの メ リッ トは、変数名 8文 字 ,ラ ベ ル 名 40文 字 ,文 字変数長200文 字 の制 限 に しば られ るこ とがない ことで あ る。 将来提 出 が認 め られ た 際 のオプシ ョン と して、SASデ ー タセ ッ トか らDataset― XMLを 作成す るプ ロ グラ ム をSASで 開発 した。 SASデ ‐タセット 分離格織 ヽ ている D 図 1.CDISC ODMの コンセ プ ト Dataset― XMLは ベ ン ダ ー に全 く依 存 しな い 形 式 な の で 、 そ の ま ま で は ソ フ トウ ェア で活 用 す る こ と が で き な い 。そ の た めDataset‐ XMLか らSASデ ー タセ ッ トに戻 す SASプ ロ グ ラ ム も併せ て 開発 した。 オ リジ ナ ル SASデ ー タ セ ッ トよ りDataset― XMLを 作成 し、 そ のDataset― XMLを SASデ ー タセ ッ トに復 元 し、 オ リジナル との 比 較 を行 った (図 2)。 数値 変 数 の 丸 め誤 差 以 外 は 完 全 一 致す る。 オリジナル 蝠 国 圏 圏 丸 め る 数値変数を 鰺 le‐ 8で SASデ ータセットからDataset― XMLを 作成するプログラム Dataset― XML + 1餐 11ユ : │ 《 oヽ 4 Dataset― XMLか らSAS データセットに戻すプログラム 量 │' 1鑽 吻 proc compareに よリー致を確 忍した 鰊 言 図2.SASデ ー タセ ッ トの 復 元 とマ ッチ ング 130
DDE及 び VBAを 利 用 した SDRGの 一 部 自動 化 に つ い て o藤 原 由 (株 式会社 タ ク ミイ ンフ ォ メ ー シ ョンテ ク ノ ロ ジ ー ) CDISC準 拠 の 申請 パ ッケ ー ジの うち 、 SDRG(Study Data Rcvicwer's Guide)は 申請 時 に必 要 な文 書 と な る。この SDRGに は 、SDTMや deine.xmlよ り取得 した 情 報 をそ の ま ま記 載 す る箇 所 が 多 々 あ るが 、 手 動 で 転 記 す る場 合 に は誤 記 載 を起 こす 可 能性 や 、ま た 作成 時 に他 文 書 との整 合 性 等 も加 味す る必 要 が あ るた め 、機 械 的 に作成 で き る箇 所 に つ い て 自動 化 を図 る こ とを 検 討 した 。 自動 化 のイ ンプ ッ トと して は、 SDTM、 deine.xml、 pinnacle 21 validation repo■ か ら取 得 で き る情 報 に絞 り実 装 を検 討 した 。具体 的 には 、タイ トル ペ ー ジ 、1.3章 の バ ー ジ ョン情 報 、3.1章 の screen hlwes に 関 す る情 報 、 3.3章 のデ ー タに つ い て の 情 報 及 び 4.2章 のIssucs Summaryを 対 象 と した 。 実 装 ツー ル と して は 、Base SAS、 VBAを 利 用 した 。そ の 際 に 、SASで は DDE(Dynamic Data Exchangc) を利 用 してVBAを 読 み 込 み 、実行 す る よ う制御 した 。 実装 にあた り、テ ンプ レー トに埋 め込 む形式 として、以下 の2パ ター ンに切 り分 け、制御 を行 った。 ● テ キ ス トを入力す る場合 :Word DDEで 入力 > 本 自動化 の 対象範囲 として貼付 けを行 う処理 のみ の箇所 :Word DDEで の貼付 け > 3.3.x章 のタイ トル :貼 付 けを行 った後VBAで 見出 しを設 定す る処理 をSASよ り実行 ● 表 を挿入す る場合 :Excel DDEで 入 力 した後、VBAで テ ンプ レー トに挿入す るよ う制御 > Excelに 必 要 な表 のフォー マ ッ トを作成 した 後 、DDEで 該 当 フ ォーマ ッ トに貼付 けを行 い VBAで 開発 したExcelか らWordに 貼付 ける処理 をSASよ り実行 SASの 処理では、デ ー タの属性や supplemental qualncrの 情報 を取得 した後、上 記VBAを DDEで 読み 込み 、テ ンプ レー トに貼付 けを行 うよ う実装 した。dcine.xml読 み込 み時には、xml Mttperを 利用 し て 読 み込み を行 った。 SDRGを 作成す る際 、3.3章 に記載す る項 目と しては 、 SDTMの 内容 に依存 し記 載 内容 が可 変 にな る た め 、繰 り返 し処理 を行 う必要があ る。 しか し、DDEよ りVBAマ ク ロ を実行す る際 には、マ ク ロパ ラメ ー タの引渡 しを行 うことが 出来 な いため、一 時的 にSASよ りExcelの セル にパ ラメー タを入力 し、 VBA上 でセル の 内容 をパ ラメー タ とす るよ う処理 を行 った。 本検 討 にお ける 自動化 では、テ ンプ レー トが定まってい る文書 につ い てのテ キス トや表 の挿入 は容 易 に行 えると考 え られ る。また、文 書 間 の整合性 を求 め られ る文書 につい ては機械 的 に実行す るこ とに よ り正確性や チ ェ ックす る際 の 時 間短縮 が期待 で きる。 今 後 の課題 として 、SDRGの 3.3章 にお け るハ イ パー リンクの設定は機械 的に行 える と考 え られ るた め 、本 処理 の 追加 を検 討す る。 ま た 、 4.2章 のIssues Summaryの Explanationに つ い て もPinnaclc2 1 validatiOn rcpo■ の情報 よ り自動的 に記 載 で きる箇所 (例 :extensiblc cOdclistの 説 明等 )が あ るため実装 を検 討す る。 また、RELRECの 関連性 の説 明 の追加 、及 びカ ス タ ム ドメイ ンの記載 の 追加 につい て も実装 を検討す る。 131
治験 にお けるメタデ ー タ管理 ○中尾 親彰 (シ ミック株式会 社 、 CDM事 業本部 ) SPONSORが 、DBエ ンジエアにCRF(SDTM or ADaM)の 設計を依頼すると仮定 します。その依頼時とデータ受領時にSASデ ータ のメタデータを管理をすると電子申請データの準備がシーム レスに完了します。Base SASの 機能を利用 した、メタデータ の参照方法とレポーテ ィングについて紹介 します。''dlCtiOnary table"及 び"xattr''を 利用 します。 申請電子データを提出す る際にメタデー タ (define xml)の 提 出は必須である。この電子 ファイルの作成方法には、い く つかの プロセスが あるが 、メタデータをあ らか じめSASの 機能 を利用 して管理する ことで 、全体の プロセ スの最適化を実 施す ることができる。具体的にいうと2つ のポイ ン トでのメタデー タの管理が望ま しい。1つ 目は、CRFな どの設計依頼時。 2つ 目は実際のデー タ受領 時である。共通 して言 えることは、 ここで どのような手段 で メタデータを管理 す るか というこ とである。本 プレゼ ンテー シ ョンでは、メタデー タ管理用のSASの マ ク ロを準備 した。機能 と しては、変数 のマ トリクス とデー タセ ッ トのマ トリクスのみ を管理す るシンプルなものに して いる。理由と しては、メタデータ管理 をデータベース の設計時 とデータ受 け入れ 時に実施す ると して、治験の場合、CRF設 計、SDTM作 成、ADaM作 成の3段 階の メタデー タ管理が 考 え られ るか らである。特 にCRF設 計に関 しては、申請電子デー タの準備の中で必須 とな つてないが、 この ステップを抜 きに しては以降の プロセスが煩雑になるのでCRFの 設計 を監理す る ことを強 く推奨す る。また他の属性 を管理するために 機能 を拡張することも十分 に検討するとよいと考 えている。 デー タセ ッ トや変数 に対 して、新規の属性 を付与 したい場合、SAS9 4の 新機能である"xattr''を 利用す る ことも手段 と して考 え られ る。この機能 は、データセ ッ トレベ ル と、変数 レベ ルの2段階で新規の属性が付与できる。これ までdeflne xml な どを作 る時に別途新規 に ファイル を作成 していた と思 うがSASデ ー タセ ッ トその もの でdeflne xmlの 要素 の管理ある程 度実現 で きる。 最後 にメタデー タを応用範囲は実に広い。define xmlの 自動作成 、sdtm変 換用の プログラムの半 自動作成 な どが考えられ る。今後 、 このよ うな メタデー タを利用 した プロセスの最適化が進 むように引き続 きSASの 機能を紹介 した い。 132
PROC STREAMを 用 い た Analysis Data Rcviewer's Guideの 効率的 な作成方法 の提案 ○ 山崎 1武 文寛 1 田薬 品工業株 式会社 日本開発 セ ン ター 生物統計室 Efficient Creation Method forAnalysis Data Reviewer's Guide Using PROC STREAM Fumihiro Yamasaki Biostatistics, Takeda Development Center Japan, Takeda Pharmaceutical Company Limited 要旨 承認 申請時電子デー タ提出における成果物 の一つで ある Analysis Da● Rcviewer's Guideに つい て ,PROC STREAMに よる効率的な作成方法を提案す る。 +*, * r^ : PROC STREAM, Analysis Data Reviewer's Guide, Pinnacle 21 Community 1 は じめに 新 医薬 品 の承認 申請 時 にお け る電子 デ ー タ提 出 の対象 とな る臨床 試験及 び そ の 電子デ ー タの形 式等 は ,「 承認 申請時 の電子デ ー タ提 出に関す る実務 的事項 につ い て 」(平 成 27年 4月 27日 付 け厚 生 労働省 医薬食 品局審査管理課 長通 知 ,以 下 「実務 的通知」 とい う)等 の 関連 通知 で述 べ られ てい る。提 出す る 電子 デ ー タは CDISC標 準 に準拠 した SDTM,ADaM及 びそれ らの デ ー タ定義 書 で あ る Deine.xmlで あ るが ,そ れ らの関連 文書 の一 つ として ,デ ー タガイ ドと呼 ばれ る電 子デ ー タの 内容 ・特徴 ,CDISC標 準 等 の PMDAが 受入 可能 なデ ー タ標 準群及 び そ のバ リデ ー シ ョン結 果等 を記載 した文書 を合 わせ て提 出 す る必 要 があ る.本 文書 の 記載 内容 の 多 くは各 電子デ ー タ及 び バ リデ ー シ ョン結果 等 の電子媒 体 か ら得 られ るが ,通 常はそれ らの電 子媒体 の情報 を元 に手作業で作成 され るた め,承 認 申請時 の多忙 な時期 に 担 当者 の工数 が増大 し,さ らには レビュー 漏 れ に よる各電子 デ ー タ及び バ リデ ー シ ョン結果 等 との 不整 合 が生 じる恐れ もあ る。 PROC STREAMは ,RTF,XML等 の外 部 フ ァイ ル にお け るテ キ ス ト情報 を SASに 読み込 み ,SAS上 で加 工 し,再 度外 部 フ ァイ ル に出力す る とい っ た処理 を行 うこ とが可能 で あ る。 また ,外 部 フ ァイ ル を 作成 す る際 に動的 に値 を代 入 したい箇所 を SASマ ク ロ変数 参 照 と してお き,PROC STREAMを 利 用 し て 当該 参 照 部 分 に値 を格 納 す る とい っ た こ とが可能 で あ る .さ らには ,事 前 に リッチテ キ ス ト形 式 (RTF)の フ ァイ ル で設 定 した 見 出 し,段 落 ,フ ォ ン トの種類 や サイ ズ とい っ た書式設定 も SASに 読 み 込む こ とが可能 なた め,そ れ らを維持 した ま ま再度 RTFフ ァイ ル と して 出力す る こ とも可能 で あ る .し たが つて ,PROC STREAMは ,テ ンプ レー トで記 載 内容 が あ る程 度 固定 され ,記 載 内容 の一 部 を作成者 133
が定 めたル ール や 条件 に従 って 動 的 に決 定す るよ うな文書 の作成 に有用 で あ る と考 え られ る Analysis Daね Reviewers Guidc(解 析 用デ ー タセ ッ トの デ ー タガイ ド.以 下 「ADRG」 . とい う)は ,作 成 対象 の臨床試 験 ご とに記載 内容 は異 な るものの,PhUSEに よって提 供 され てい るテ ンプ レー トで記載 内 容 がある程度 固定 され てお り,各 電 子デ ー タ及 び バ リデ ー シ ョン結果 等 の情報 は SASに よって取得可能 であ るた め,PROC STREAMの 利 用 が適 してい る と考 えた .本 稿 で は ,ADRGの 作成 を可能 な限 り自動 化す るこ とを 目的 と して ,PROC STREAMを 用 いた ADRGの 効 率的 な作成方法 を提案 す る . 2 PROC STREAMを 用 い た 文 書 作 成 治 験 の 総 括 報 告 書 等 の 最 終 的 に電 子 化 コモ ン・ テ ク ニ カル ・ ドキ ュ メ ン ト (eCTD)に 格 納 され る よ う な文 書 に用 い る解 析 図表 を SASプ ロ グ ラ ム に よ っ て外 部 フ ァイ ル に 出力 す る場 合 に は ,そ れ を文 書 中で 使 用 す る際 に体 裁 を維 持 しや す く,最 終 的 に PDFに 変 換 され る際 に 扱 い や す い こ とか ら,当 社 で は RTF フ ァイ ル を採 用 して い る。ま た ,PROC STREAMは ,RTFフ ァイ ル の 他 に テ キ ス ト出力 に よ って 作成 可 能 な XMLや HTMLも 出力 可 能 で あ り,Joseph Hinsonら (2015),関 根 (2017)で 紹 介 され て い るが ,正 式 な文書 と して そ の ま ま活 用 す る こ とは難 しい . SASか ら RTFフ ァイ ル を 出力 す る方 法 は大 き く 2通 りあ る。 1つ 目は SAS側 で RTFフ ァイ ル ヘ の 出 力 内容 の 体裁 の 調 整 が必 要 な PROC TEMPLATEと ODS RTF又 は ODS TAGSETSRTFを 利 用 す る方 法 , 2つ 目は本 稿 で提 案 す る PROC STREAMを 利 用 す る方 法 で あ る。 そ れ ぞ れ の 方 法 を表 2.1に ま とめた 。 出力可能 な内容 RTFフ ァイル の 体裁 の調整 (フ ォ ン ト,段 落 ,表 ) 利点 用途 テ キ ス ト情報 ,グ ラ フ テ キ ス ト情報 のみ SASプ ロ グ ラ ミン グで調 整 (PROC TEMPLATE等 を用 い る) RTFフ ァイル を手 作 業 で調整 デ フォル トのス タイル テ ンプ レー トを使用す るので あれ ば出力は非 常に簡単 SASプ ログラム に よ る体裁 の調整 比 較 的 簡 単 な表 か ら構 成 され る文 書 の 出力 複 雑 な体裁 の表 を含 む 文書 ,テ ンプ レー トが指 定 され て い る文書 の 出 が ほ とん ど不要 力 表 2.l RTFフ ァイル 出力方法の比較 2.l PROC STREAMの 基 本 構 文 PROC STREAMは ,任 意 の テ キ ス ト情 報 を SASと 外 部 フ ァイ ル の 間 で 入 出力 す る た め の プ ロ シ ジ ャ で あ る。 図 2.1.1に PROC STREAMの 基 本 構 文 を ,図 2.1.2に オ プ シ ョ ン を示 す . FILENAME″ /θ rθ F'出 力先 外 部 フ ァイル の フル パ ス ' ; PROC STREAM OUTFILE=F//θ ′θ√ ζθρ′/0″ ジ♪ ;BEGIN (名 text‑1 ぐ餅 ′切♪ RUN 図 2■ lPROC STREAMの 基 本 構 文 134
‖OD 出力先 の外部 フ ァイル を上書 きす るのでは な く,外 部 フ ァイル に追 記す る NOABSSCMT 「/*テ キ ス ト */」 で囲まれ たす べ てのテ キ ス トを外部 フ ァイル に 出力す る こ の オプ シ ョンを省 略す ると出力 され な い PRESCOL 外部 フ ァイ ル のカ ラム を保持 す る.レ コー ドサ イ ズが 32,767を 超 え る場合 は正 し く機 能 しない OUOTING= 他 の テ キ ス トと 同様 に 扱 う引 用 符 を 指 定 (SINGLEIDOUBLEIBOTH) RESETDELIM= %INCLUDEス テ ー トメン トや %LETス テ ー トメ ン トな ど,ス テ ー トメン トを展 開す る必 要 が あ る場合 に使 用 され る.こ れ らの ス テ ー トメ ン トは ,ス テ ー トメ ン トの境界 で始 ま る必要があ り,そ の 区切 り文 字 用 の ラベ ル を こ こに指 定す る。 ラ ベ ル とセ ミコ ロン は外部 フ ァイ ル に出力 され な い テー トメ ン トで 「RESETDELIM=lRESETl」 と指 定 した上 で 例 )PROC STREAMス , 任意 のテ キ ス トの 中で 「RESET;%include in■ le;」 等 と指定 (こ こで 「inmc」 は入 カ フ ァイ ル 参 照 を示す) NEWLINE 外部 フ ァイ ル 出力 時 に,任 意 のテ キ ス トの途 中で改行す る際 に使 用 図 2■ 2PROC STREAMの オ プ シ ョン PROC STREAMは ,最 初 に FILENAMEス テ ー トメ ン トで 出力 先 の 外 部 フ ァイ ル に対 して フ ァイ ル 参 照 名 を割 り当 て た 上 で ,出 力 す る任 意 のテ キ ス トとそ の 末尾 の 4つ の 連 続 したセ ミ コ ロ ン (嘉 )を PROC STREAMス テ ー トメ ン トと RUNス テ ー トメ ン トで挟 み 込 む の が基 本 的 な構 文 で あ る。 ま た PROC STREAMス テ ー トメ ン トの 「OUTFILE=」 に は ,FILENAMEス テ ー トメ ン トで 割 り当て た フ ァイ , , ル 参 照名 を指 定 す る . STREAMに よつて RTFフ ァイ ル を 出 力 す るプ ロ グ ラ ム 例 で あ る .1行 日 に「SASユ ー ザ ー 総 会 2018」 ,改 行 して 2行 日に「PROC STREAMを 用 い た Anal"is Daね Rcvicwcr's Guidc の 効 率 的 な作 成 方 法 の 提案 」 を 出力 す る.本 プ ロ グ ラ ム 例 で は 「SASユ ー ザ ー 総 会 2018」 の 直後 で 改 行 させ るた め ,PROC STREAMス テ ー トメ ン トに 「RESETDELIM='delim'」 を指 定 した 上 で ,「 SASユ ーーザ ー 総 会 2018」 の 後 に 「delim newlinc;」 と指 定 した .ま た ,出 力 す るテ キ ス トに 「'(シ ン グル クォ ー テ ー プ ロ グ ラ ム 2.1.1は ,PROC シ ョン)」 が 含 まれ て い たた め ,「 QUOTING=SINGLE」 を指 定 した 。 この 実行 結 果 を 図 2.1.3に 示 す . FILENAIMIE outfile 'C:¥SASUG2018¥TESTl.rtf' ; PROC STREメ 鵬 1 10UTFILE=outfile OUOTING=SINGLE RESETDELIM='delim' ; BEGIN SASユ ーザー総会2018 delim newiine; PROC STREAMを 用いたAnalysis Data Reviewer's Guideの 効率的な作成方法の提 案 RUN プ ロ グラム 2.1.l PROC STREAMに よるファイ ル の た めのプ ログラ ム例 SASユ ー ザー総会 2018 PROC STREA‖ を用 いた Analysis Data ReTlewer's Guideの 勤率的 な作成方法 の提案 図 2.1.3 PROC STREAMを 用 い た フ ァイ ル 出力例 留 意 点 と して ,PROC STREAMに は 図 を作成 す る機 能 は な く,フ ォ ン トの調整 に つ い て も 2.2項 で 述 べ る RTFの 制 御 文 字 を利 用 す る必 要 が あ る . 135
2.2テ ンプ レー トを活 用 した PROC STREAMに よ る フ ァイ ル 出力 PROC STREAMを 有 効 活 用 す るた め に は ,事 前 に 作成 した RTFフ ァイ ル の テ ンプ レー トと フ ァイ ル 中 に記 載 した SASマ ク ロ変 数 参 照 を併 せ て利 用 こ とが前 提 とな る。例 え ば ,本 SASユ ー ザ ー 総 会 2018 の 論 文 テ ンプ レー トに PROC STREAMで 論 文 の 内容 を出力 した い 場 合 ,最 初 に論 文 を MS Word形 式 の DOCXフ ァイ ル か ら RTFフ ァイ ル に変 更 し,次 に SASか ら内容 を出力 した い 箇 所 を SASマ ク ロ変 数 参 照 に 変 更 す るが ,そ の 変 更 例 を図 2.2.1に 示 した . 日本 語 論文 タ イ トル &AUTHOR.に 変 更 &TITLE.に 変 更 0著 者 Al、 著者 BL著 者 C' (1所 属 、 こ 所 属 、 1所 属 ) &TITLE E.に 変 更 &ORGANIZAT10N.に 変 更 English Title &AUTHOR E.に 変 更 Hame DeFartment, Corporate / Uniuersity &ORGANIZATION E.に 変 更 要旨 &BODYに 変更 以 下 に要旨を記輔 キ ー リニ上 :続 けてキーフ■ ドを記載 図 2.2.lPROC STREAM実 行 前 の 外 部 フ ァイ ル の 変 更 プ ロ グ ラ ム 221は ,PROC STRAMを 用 い て ,図 221で 変 更 した 論 文 テ ンプ レー トを読 み 込 み ,SAS マ ク ロ変 数 参 照 の部 分 を実 行 ・ 展 開 させ て ,RTFフ ァイ ル に再 出力 す るプ ロ グ ラ ム 例 で あ る。本 プ ロ グ ラ ム 例 で は ,%lctス テ ー トメ ン トで SASマ ク ロ変数 に値 を格 納 す る こ とに よ つ て ,PROC STREAMで の 読 み 込 み 時 に SASマ ク ロ 変 数 参 照 が 実 行 ・ 展 開 され る こ と と した .こ の 実 行 結 果 を図 2.2.2に 示 す 。 %let TITLE=PROC STREAMを 用いた¥l」 ne」nalysls Data Reviewer's Guldeの 効率的な作成方法の提 案 ; %let AUTHOR=山 崎文寛 ¥stter l mo旦 堅 L■ ub %let ORGANIZAT10N=武 田薬 品 工 業株 式会 社 日本開発セ ンター 生物統 計室 ¥stter l王 n堕 堕 erSubi %let TITLE̲E=Proposals on how to create an Analysis Data Reviewer's Guide using PROC STREAM; %let AUTHOR̲E=Fumihiro Yamasaki; %let ORGANIZAT10N̲E=Biostatistics, Takeda Development Center Japan, Takeda Pharmaceutical Oompany Limited; %let BODY=; FILENAME infile 'C:¥SASUG2018¥cover̲format̲2018 rtf' ; FILENAME outfile 'Ci¥SASUG2018¥TEST2 rtf' : PROC STREAM OUIFILE=outfile OUOTING=BOTH RESETDELIM='delim' ; BEGIN delim; %INCLUDE infile; RUN 136
プ ロ グ ラ ム 2.2.l PROC STREAMに よ る情 報 追 加 の プ ロ グ ラ ム 例 &TITLE.を 展 開 PROE STREAMを 用 いた Analysis Data Revieweris Guideの 効 率 的 な 作 成 方 法 の 提 案 &ORGANIZAT10N.を 展 開 &AUTHOR.を 展 開 0山 崎 文 寛 l (1武 田薬 品 工 業 株 式 会 社 日本 開 発 セ ン タ ー 生 物 続 計 室 ) Efficient Creation rethod for Analysis Data Reviewer's Gl』 &AUTHOR E.を 展 開 ide using PROC STREAM &TITLE E.を 展 開 Funihiro Yamasaki Biostatistice, TakedaDevelr'Hr*rtCenter Japan, Iakeda Pharmaceutical CnmFany LinLited &ORGANIZAT10N E.を 展 開 要 旨 図 2.2.2PROC STREAMに よ る情 報 追加 プ ロ グ ラ ム の 実行 例 プ ロ グ ラ ム 2.2.1の 下 線 部 は ,MS Rich TextFormtt eTF)Speclcationに 従 っ た制御 文 字 で あ り,PROC STREAMで RTFフ ァイ ル ヘ の 出力 を行 う際 に も利 用 可 能 で あ る。制 御 文 字 に は ,テ キ ス ト中の 改行 コ ー ドや フ ォ ン トの 大 き さ 。種類 とい っ た も の を 「制 御 」す るた めの も の が 用 意 され て い る .表 2.2.1に , 制 御 文 字 の一 部 を抜 粋 して示す 。 │:創 ¥b 文 字 を太字にす る .「 部 lain」 で元 に戻す ¥cell 横 方 向にセル を追加 .「 ¥ccll¥row」 Yfsn フ ォ ン トサイ ズ を指 定 .4に は フ ォ ン トサイ ズの 2倍 の値 を指定す る。例 )フ ォ ン トサイ ズ 12と した い 場合 は 「¥お 24」 を指定 ¥i 文 字 をイ タ リック にす る。「部 lain」 で 元 に戻す ¥line 改行 す る.「 和 ar」 と異 な り,段 落 を終 了 させ な い Ypar 改行 す る.「 ¥linc」 と異 な り,段 落 を終 了 させ る ¥sub 下付 き文字にす る。解除す る時は 「¥nosupcrsub」 Ysuper 上 付 き文字にす る。解 除す る時 は 「¥noswcrsub」 を指 定 ¥tab 次 の 文字 まで を タブ 区切 りにす る とす るこ とで ,次 の行 にセル を追 加 で きる を指定 表 2.2.l RTFフ ァイ ル 用 の 制 御 文 字 (MS Ritch Text Format eTF)Spcciicationよ り抜 粋 ) 3 Analysis Dtta Rcvicwcr's Guidcの イ 乍成 本 稿 で は ,ADRG作 成 まで に ,デ ー タ ベ ー ス が 固 定 され ,速 や か に SDTM,ADaM,及 び それ らの Dcinc.xmlの 作成 が 完 了 してい る状 況 を想 定す る . 3.l Analysis Dtta Revieweris Guideの 概 要 137
新 医薬 品 の承認 申請 時 における電 子 デ ー タ提 出 の対 象 とな る臨床試 験 にお いて は,」 ヽ Mデ ー タセ ッ トの デ ー タガイ ドを合 わせ て提 出す る必 要 がある。承 認 申請時 の電子 デ ー タ提 出等 に関す る技術的ガイ ド (以 下 ,「 技術 的 ガ イ ド」 とい う)の 「4.1.2.3デ ー タガ イ ド」 では ,以 下 の 内容 を含 め る ことが望 ま しい と述 べ られ て い る . 臨床試験名 、治 験 実施計画書番 号 等 ・ 解 析 デ ー タセ ッ トに関連す る臨床 試 験 計画 に関す る説 明 用 い られた標 準 、統制用語 、辞 書 及 びそのバ ー ジ ョン ・ 複 数 のデ ー タセ ッ トに共通す る留 意 点 デ ー タセ ッ トの 作 成 に 関す る留意 点 デ ー タセ ッ トの 説 明 デ ー タ標準 へ の 準 拠性 に関す る説 明 (バ リデ ー シ ョン結果 に関す る説 明 ) ADaMデ ータセ ッ トに関するデー タガイ ドのテンプ レー トは,Pharmacemcal Users SOtware Exchmgc (以 下 ,「 PhUSE」 とい う).)に よつて提供 されてお り,PMDAか ら発 出 された技術的ガイ ドにおいて も参考資料 として記 載 されている。 このテ ンプ レー トの構成を表 3.1に 示すが,そ の 日本語訳等は 日本 製薬 工業協会デー タサイエ ンス部会 2015年 度タス クフォース 2サ ブチーム 2(2015)を 参照 されたい . 1目 │IИ r Introduction 1.1 Purpose ADRGの 目的 1.2 Acronyms A:DRGで 使用 した ス ポ ンサー 特有 の 略語 と説 明 1.3 Study Data Standards and Dictionary Inventory 使 用 した ADaM等 の標 準群 のバ ー ジ ョン 1.4 Source Data Used for Analysis Dataset Creation ADaMデ ータセ ッ トのソースデー タ Protocol Description 2.1 Protocol Number and Title 治 験 実施計画書番 号 ,タ イ トル 及 び バ ー ジ ョン 2.2 Protocol Design in Relation to ADaM Concepts ADaM変 数 (TRTxxR APERIOD,APHASE等 )と 治 験 デ ザ イ ンの 関係 Analysis Considerations Related to Multiple Analysis Datasets 3.1 Comparison of SDTM and ADaM Content 3.2 Core Variables 3.3 Treatment Variables 3.4 ス ク リーニング脱落例のデー タが ADaMに 含 まれ るかどうか 継続 中の試験か ら得 られたデー タか どうか す べ ての ADaMデ ー タセ ッ トの共 通 変 数 SDTMの ARMと ADaMの TRTxxPの 関係 SDTMの ACTARMと ADaMの TRTxxAの 関係 TRTx想 ,TRTxxAの 解 析 で の 使 用 有 無 Subject Issues that Require Special Analysis 解析 に影響する個 々の被験者 の状況 Rules 3.5 3.6 Use of Visit Windowing, Unscheduled Visits, and Ⅵ sit Windowの 解 析 にお ける使 用 有 無 Record Selection 規 定外 Visitの 解 析 にお ける使 用 有 無 日時デー タ等 の 補 完 Imputation /Derivation Methods Analysis Data Creation and Processing Issues 4.1 Split Datasets デ ータセ ットの分割 4.2 Data Dependencies ADaMデ ー タセ ッ ト間 の従属関係 138
4.3 Intermediate Datasets 中間に作成 された解析 デ ー タセ ット 4.4 Variable Conventions Deine.xmlで 説 明 しきれ な い 重要な変数規 約 5.1 Overview 5.2 Analysis Datasets 5.2.1 ADSL - Subiect Level Analysis Dataset Analysis Dataset Descriptions 5.2.x ADaMデ ータセ ットの説明 ADaMデ ー タセ ットの一 覧 ADSLの 説 明 ADSL以 外 の解析デー タセ ッ トの説明 Dataset - Dataset Label Data Conformance Summary 6.1 ADaM ValidatiOn Checksで の適合性評価 に用 い た ソフ トウェア とバ ー ジ ョン,Coniguration ADaMデ ー タセ ッ トと DeineⅨ mlの ク ロス チ Conformance lnputs ェ ック実 施 の有無 6.2 Issues Summary Dcine.xmlの 適合性評 価 実施 の有無 Pimaclc 21の レポー ト内容 の ま とめ Submission of Programs 提出するプ ログラムの リス ト Appendix 表 3.l ADRGの 構成 3.2サ ンプルデー タの説 明 本 稿 で は ,SDTMの TS・ TIド メイ ン及 び Deinc.xml,ADaMの デ ー タセ ッ ト ADSL・ ADAEoADCM・ ADLB及 び Dcinc.xml,ADaMデ ‐―タセ ッ ト及 び Dcine.xmlに つ い て の Pinnacle 21 COmmunityの 実 行 結 果 を用 い て ,ADRGを 作 成 す る 。 なお ,Pinn¨ lc 21 Communityは 関 根 (2017)の 方 法 を用 い て SASで 実 行 す る .図 3.2.1に 示 す SDTMの TSド メイ ン は ,ICH‐ E3(治 験 の 総 括 報告書 の 構 成 と内容 に関 す る ガイ ドライ ン)で 要 求 され て い る 臨床 試 験 の 計 画 とデ ザ イ ンの 概 要 を 説 明す るた め に設 け られ た SDTMの ■ial Design Modelの 一 つ で あ り,治 験 実施 計 画 書 か ら得 られ る 情 報 を含 む .な お ,SDTMの 各 ドメ イ ン に 関す る詳 細 は CDISC Submission Data Standards Team(2013)を 参 照 され たい .図 3.2.2に 示す SDTMの TIド メイ ン は ,治 験 実施 計 画 書 で 定義 され た Inclusion/Exclusion Crite五 aが 治 験 実 施 計 画 書 の バ ー ジ ョン ご とに格 納 され る。図 3.2.3及 び 図 3.2.8に 示 す Deine.xmlは ,そ れ ぞれ SDTM及 び ADaMに つ い て の デ ー タセ ッ ト,変 数 ,変 数 の 取 り得 る値 及 び 統 制 用 語 や コー ドに 関 す る定義 を含 む .図 3.2.4か ら図 3.2.7 に示 す ADaMの ADSL,ADAE,ADCM及 び ADLBは ,ADaM Implcmcntation Guidc Vl.1(以 下 ,「 ADaM IG Vl.1」 とい う)に 基 づ き作 とい う)及 び ADaM StructuК おr OccuFcncc Data Vl.0(以 下 ,「 OCCDS Vl.0」 成 した,被 験者 レベルの解析 デ ー タセ ッ ト,有 害事象 の情報 を格納 した解析デ ー タセ ッ ト,前 治療薬/ 併用薬 の情報 を格納 した解析 デ ー タセ ッ ト及び臨床検査の情報 を格納 した解析 デー タセ ッ トである。な お,各 SDTMの ドメイ ン及び ADaMの デー タセ ッ トは変数及び レコー ドの一 部 を抜粋 して表示 してい る。また ,SDTM及 び ADaMの Dcinexmlは 一 部 の内容を抜粋 して表示 してい る . 139
STU醸 ∵E)
:DOI餞
ABC‐ 12:卜 DEF導56
T3
ABCt1213‐ DEF4‐ 5感
l‐
AllN TSPARMCD TSPAR細
I TSVAL
嗜
¨2
趨 彗al卜 撥面erJ 3義 eCtS
襲
一3
一4
¨5
丁3
AEIAPT
Adagive Deaign
‖
ABC 12,31DEF45C TS
ADDOIN
Added ento Bi*ing Treatments
劉
ABC■ 1231DEF454
TS
AGEttAX
Planned Ma*imurn Aqe sf Subiesta
P70∵
ABC 123DEF 4鶉 TS
ASE回 lN
Plこ nFed ttin頭 ■urà評 嘔ec「 st極 IedS
P20Y
[IRUG A
EF儡 TS
C!0綺 FTRT
f,onpardive Treatment Nama
TS
CRf̀41EIUIR
Confimed Response Minimrsn Duration
ABC‑1230.EF苺 [誠: TS
CURTRT
Cunerrt lhe-my or Treatmerd
ABC 123[〕
ABC 1230'EF 4‐ 1鷺
ABC‑123DEF韓 56 ITS
譲鬱
ACITSUB
ttDCUTDESC:D山 銀 釧 鶴 5顧
ABC‑123DEF聾 1膝 TS
IEICUT3TCi
│,じ
DATABASE LOCK
帥
20171{雑 卜
25
IDtta C戯 o「 8載 e
図 3.2.l SDTMの TSド メイ ン
SDTMの TSド メイ ン は項 目及 び 値 を縦 持 ち した構 造 とな っ て お り,変 数 TSpRM及 び TSPAIOICD
に はそれ ぞ れ SDTM■ minologyに 従 った 項 目名 及 び そ の 短 縮 形 ,変 数 TSVALに は治 験 実施 計 画 書番 号
等 の治 験 デ ザ イ ン に関す る情 報 が 格 納 され る。 SDTM■ nninologyは ,CDISCと N onal Canccr lnsthtc
「
(以 下 NCI」 とい う)に よ っ て 作 成 され た SDTMで 利 用 す る統 制 用 語 で ,各 製 薬 企 業 の 各 試 験 にお い て
共 通 で用 い られ て い る。本 稿 で は ,ADRG 3.1章 の COmparisOn OfSDTM md ADaM Co武 cntの 「Arc data
に必 要 な情報 を ,各 試 験 にお い て 作 成 した SDTMが デ ー タ ベ ー ス ロ ック等
taken iom m ongoing study?」
の ど うい っ た ス テ ー タ ス に基 づ い た もので あ る か の 情 報 が 格 納 され た 変 数 TSPARMCD="DCUTDESC"
の 変数 TSVALか ら取得 す る こ と とす る.な お ,ADRGは ADaMの デ ー タ ガイ ドで あ るが ,ADaMは SDTM
を ソー ス デ ー タ と して 作成 され るた め ,ADaM作 成 時 の デ ー タベ ー ス ロ ック等 の ス テ ー タ ス は SDTMと
同 一 で あ る と考 え ,本 情 報 を SDTMか ら取得 す る こ とは 問題 な い と考 えた
STUIE}YID
.
││1lETESTCD 1 lETEST
.001MAll‖
111::‖ [::」 lti「 1「
:「 :繭
ABC‑12)DEF4{翼 ま ¬
DttL11
ABC‑121:卜 DEF尋 :5S
TI
IEXCI■02
The eubjed is an imrnediate f arnily n:en&er, dudy site Ern... EメEILUS11● N
ABC‑1231DIEF458
Tl
lNCL01
h th‐ ● 中
DEF41%
TI
11卜
TII
│INCL[11:3
ABC 1213・
ABC‑1213.31EF‑4(感
11CIL額
礁 e5uttIX■ haS reCttV
2
AB101鶴 議洒 毬ding ptaCttbOllL
13EL邸
10利
niOn Jth=わ Ve哺 g計 。
Or S饉 :btte威 :蝉 Or,ti■ eS.
「
INCILUS10精
The sihjed *igns and dates a written, irfanned conser*
.:lNCLUS110棗
The slibiect is aoed 3S yeas sr older an the dav of sinnl...
11‖
掘
RIl彎 :11::11「
薔
1
1
鵞
CLUS1101H
図 3.2.2 SDTMの TIド メイ ン
SDTMの TIド メイ ン は ,変 数 IETESTに 各 試 験 の 治 験 実施 計 画 書 で 定義 され た選 択 除外 基 準 ,変 数
TⅣ ERに は治 験 実施 計 画 書 の バ ー ジ ョンが 格 納 され る .本 稿 で は ,ADRG 2.1章 の PЮtOc01 Numbcr and
Titleの 「Protocol■ rsions」
を 変 数 TIVERか ら取 得 す る こ と とす る。
<?xml version:" 1.0" encoding:"UTF-8"?>
<?xml-stylesheet type:"text/xsl" hreF"define2-0-0.xsl"?>
<ODM
xmlns:xlink-"http://www.w3 .orgl 1999 lxlink"
xmlns:"http://www.cdisc.org/ns/odm/v1.3 "
xmlns:def:"http://www. cdisc.orgl nsl deflv2.0"
ODMVersion=" 1.3.2"
FileType:"Snapshot"
FileOID:"ABC-l 23 -DEF -456. SDTM-IG.3.2 "
CreationDateTime:"20
1
8-06- 1 1 T 1 6:05: 1 3 ">
140
illl:i
<Study OID=
ABC‐ 123‑DEF‑456.SDTM‐ IG.3.2">
く(1lobalヽ 4ariables>
<StudyName>ABC‑123‑DEF‑456く /StudyName>
<StudyI)escrlption>A Multiccntcち Randonlized,I)ouble― Blind,Parallel― Group,Phasc 3 Study to
Evaluac thc E:伍 cacy and Satサ ofOral ABC‑123 10 mg comptted with Drug A in the Treatmcnt of
Hンpcrtension</StudyDcscription>
<ProtocolNaine>ABC‑123‑I)EF‑456<″ rotocolName>
</GlobalVa五 ablcs>
<MctaDataVcrsion OID="MDV:ABC‑123‑DEF‑456.SDTM‐ IG.3.2"
Namc="Study ABC‑123‑DEF‑456 Dda Deinitions"
Dcscnption="A Multicenter,Randolmizcd,:Double―
Blind,Parallcl― Group,Phase 3
Study to Evalutte tlle EIicacy and Satty ofOral ABC‑123 10 mgcompacd wi■
Drug A in thc Trcatment of
Hlpertension"
dc'Deineヽ 石
ersion="2.0.0‖
SDTM IGの バ ー ジ ョン
deiStandardNamc=‖ SDTM― IG'│
def:Standardヽ 石
crsion=‖ 3.2H
<ItemDef OID:"IT.DM.STUDYID" Name:"STUDYID" DataType:"text" Length:" 14"
SASFieldName:" STUDYID">
<Description>
<TranslatedText xml lang="sn">Study Identifi er</TranslatedText>
:
</Description>
<def: Origin Type:"Protocol"/>
</ItemDef>
<ItemDef OID:"IT.DM.DOMAIN" Name:"DOMAIN" DataT5,pe:"text" Length:"2"
SASFieldName:"DOMAN")
<Description>
<TranslatedText xml lang:"sn">Domain Abbreviation</TranslatedText>
:
</DcscHption>
SDTMの ドメイ ン名及 び変 数 名
<dcf:Origin Type="Assigned"/>
</1tcrnI)cf>
Length:"23"
SASFieldName:"USUBJID">
<Description>
<TranslatedText xml:lang="sn">Unique Subject Identifier</TranslatedText>
<lDescription>
<def: Origin Type="Derived"D
</ItemDef>
図 323SDTMの
Deine.xml
SDTMの Dcinc.xmlは ,SDTMの 各 ドメ イ ン及 び 変 数 等 の メ タ デ ー タ を格 納 した XML形 式 の フ ァ イ
ル で あ る .Dcine.xmlの 詳 細 は CDISC Dcinc‐ XML Team(2013)を 参 照 され た い .な お ,本 稿 で は ,ADRG
l.3章 の Stuψ Data Stttdards and Dictionav lnventoryに お け る ,使 用 した 標 準 群 の 一 つ で あ る SDTMの バ
ー ジ ョン に表 321に 示 す MctaDaaVcrsion要 素 を ,1.4章 の Sourcc Data Uscdお r Analysis Datasct Crcation
に お け る ,各 SDTMド メ イ ン の 変 数 情 報 に I mDefを そ れ ぞ れ 使 用 す る こ と とす る
.
141
def:StandardName
デ ー タ標 準 の名 前
SDT:M
MetaDataVersion
def: StandardVersion
データ標準のバー ジョン
3.1.2
ItcinI)cf
OID
デ ー タセ ッ ト名 及 び変数名
IT.DlVl.USUBJID
ItclnI)ef
Name
変数名
USUBJID
MetaDataVersion
表 3.2.lSDTMの Deinexmlで 使 用 す る要素及 び属性
IIり ,11,
I USUBJ10
ABC‑12131DEF・ 睾6
5‐
農Rtt
.
ACITAR翔
.TRT01P ̲ .TRT01A .
‐
AEC‑12》0.EF尋 51群 101種 }1 SG℃鶴 IFailu陀 Scrcen Failure
301課
ABiC‑12:3
麹 El鶴 1絲 g
AB012:31錦 ]
撻]A
IDtt A
Dl彎 A
IDШ g
1010斜 Dug A
膿 gA
gA
動」
D側 ]A
1動
1002
A‐
1010013
[〕
1曇
SDTM及 び ADaMの
投 与群 変 数 の 値
A
■,]A
AECI―
Dug A
Dug A
│]に ig A
AIEC 12131DEF‐ 453
ABC‑121}DEF 4路 1態 1lE感
ABG123
AIBC 123
ABCI‑1纂 1輸 g AEC■ 2310電
ABC‑12}DEF4弱
AEC 123DEF襲 1撼
ABC 123 DEF導 懸6‑181額37 Screen Failure Screen Failure
A8C‑12}DEF書 ‐
望卜101鍾卜 ABC‑123
Unplann*d Treatment AE豪 123 10mg
AIBC‑12■ DIEF‐博5'6
ABC‑12≫│]EF聾 56‑¬ 81警 03
ABC‑12}DEF導 髪
ABC 123DEF 456‑101簑 路1
︐
ABC 1231DEF458
一︱
,
8‐
「
図 324
USU‐ EIJ:D
燃 TttTA
1
:暴
ABC‑123
ARC 123
A麗 ‑1纂 1肺 ] 風BC 123 1麟 g
hin A
ln.ln A
n.1「 ]金
r"=薇 A
ADaMの デ ー タ セ ッ ト ADSL
ネFT「FI響
.事 FP三 年
10'p .AttE。 曇sYs
=5F9 acne vdgads
占算le
Skin and s:bcutanesus tissre disorder=
二IBC‑120,― DEF^453‐ 101番 02 ABC423 1最 ■]
s$jBaty
疇pettd細 翡
Skin and subfiJtaneous tigsue disrrdEf,c
A18:C‑12卜DIEF45多 10111閲 置 ABC‐ 1231曇 ng
h耐 ]agh
Hd flL:蔀
Vttclulご idis,組 e撻
2
A'EC‑123・ DEF415年 101{路 2 ABC 123 10η g
3
・苺
占EC‑121}DEF弩 56‑101{И :2 ABC‑1231曇 ■9
sleeplessness
insonnia
IP野 1由 ‐
1試 輌
c毬 鉛 de鶴
武BC‑12)DEF45群 101〔路2 AEC 123 1機 ■目
di認 ine駆
Dizziness
hlsvous sydenr dissrd€rs
図 3.2.5 ADaMの デ ー タ セ ッ ト ADAE
漆
鑢馳 T
凡E‖ DT
10jUN2017
3:CtlU構 2017
1悉 JUN2尋 17
1〔
Benzc.f Permdde
AEC‑12卜 IDEF導 5群 1患 11DD2
鶉inOttdi騰 鞭d総 由 nde
1競
九BC‑100、 DEF轟 5群 1101償 建│
REBAMiPIDE
IReLaFnⅢ ide
1象 JU‐ 精
1,5」
AEC‑12■ DEF45多 101質盪
Eetamdhasane Vslerate
Bdamdhasene valemte
01JUIL2017
05dUL2審 17
ABC.123‑DEF‑456‑1劉 驀 2
Gmdattyttn F:ho畢 lhま e
fiindEmycrn phosphate
01JUIL2017
鬱15」 UIL201 7
2
AEC‑123‑DEF‑458‑1010警 2
IBen2,」 pe肛 》
ide
1●
inottine hydttchl● nde
3
・4
8017
弱懇鵜2態 17
UIN2017
5
図 3.2.6 ADaMの デ ー タ セ ッ ト ADCM
ネ
vl,lT̲1じ 澤
lT 學攣T ̲ l FI甲 ネ響
USUIE」 │[}
417
417
1 lJl!賛
AEC‐ 12)31EF尋 56‑¬ 愚1鋼曇
12
Easeline
ⅥS」 T3
22JUL2017
燿
・5
338
417
ⅥSlT 2
ek 4
一S
ABC‑123 DEF‐ 456‑1014Ю 12 マ
Veek 3
0131lU‖ 2017
IRBC(10と 4ノ ut}
2017 RBC(1錨 輌u坤
IRIBC(10‐4メu時
'・
RBC
V:S1lT C
1罐 SEP2,D17
RIEC l10A4/u轡
ABC‑12)]EIF碑 5卜 101{鱚 12 摯デじた12 ViSlT 7
lⅨ 〕
CT藤 }17
RIBC(1げ4ノu鶴 R.8C
ABC 12多 DEF― 導5S‑101優卜
2 Bas*line
曇BJU‐ N2017 野 1露 仙 榛
iё
本 稿 で は ,ADRG
嬌iE C‖ G
RBC
REE
Ⅵ31T5 19AUG2曇 117 RBC(10・ 4メu鶴 RBC
ABC‐ 1230EF機 561101,額 10 Saseline
VVIさ
1騨
&ゝ 3
7131T l
ABC‑12:3:DEF韓 56‑101{X}2
.F暴 :響 囃cD AVAL‐
RBC
ABC‑12≫ DEF 4路 101覆}2 ‐
3as慧 lirle
ViS1lT l
第1.EC
図 3.2.7 ADaMデ ー タセ ッ トの ADLB
l.3章 の Study Data Standards and Dictionav lnvcntoヮ
142
417
‑1213
19
447
417
鶴
濤
417
編
4〔
4:博
導1.7
27
5=100
715特
‑1氣 播
に お け る ,技 術 的 ガ イ ドの
「4■ 1.4デ ー タ セ ッ トの フ ァイ ル 形 式 に つ い て 」で 求 め られ て い るデ ー タ セ ッ ト作 成 時 に 用 い た 文 字 セ
ッ ト又 は 符 号 化 方 式 の 情 報 は ,ADaMの デ ー タセ ッ ト ADSL,ADAE,ADCM及
び ADLBの デ ィ ス ク リプ
タ 情 報 を使 用 す る こ と とす る .ま た ,ADRG
3.1章 の Compaison ofSDTM and ADaM Coientに お け る
Screen Failureが ADaMデ ー タセ ッ トに 含 ま れ るか ど うか の 情 報 ,3.2章 の COre Vanablesに お け る ADaM
デ ー タ セ ッ トの コ ア 変 数 ,3.3章 の Trcdment V頷 め lcsに お け る SDTMの 変 数 ARM及 び ACTARMと
ADaMの 変数 TRTxxP及 び TRTxxAの 関係 性 ,及 び 3.5章 の Usc ofⅥ sit Windowing,Unschcdulcd Ⅵsits,md
Record Selectionに お け る Ⅵsit WindOwの 使 用有無 ,Unschcdulcd Ⅵ sitの 解 析 へ の使用有 無 につ いて は
,
各 ADaMデ ー タセ ッ トの情報 を用 い る こ と とす る。 さ らに ,各 ADaMデ ー タセ ッ トは Pinnaclc 21
COmmuniけ の実行 に用 い るが ,詳 細 は 3.4項 で述 べ る
.
<?xml version:"1.0" encoding:"UTF-8"?>
<?xml-stylesheet type:"text/xsl" hreF"./define2-0-0.xs1"?>
<ODM xmlns:"http://www.cdisc.org/ns/odm,/v1.3" xmlns:xlinle"http://www.w3.org/1999/xlink"
xmlns:def:"http://wwwcdisc.orglnsldeflv2.0"
ODMVersion:"1.3.2" Fi1eOID:"ABC-123-DEF-456-Define"
FileType:"Snapshot" CreationDateTime:"2018-06-15T08:09:08" SourceSystem:"tsclinical Define.xml
Generatorl'SourceSystem` ゛ersion="1.3.0">
治験実施 計 画 書番 号
<Study OID="ABC‑123‑DEF‑456">
<GlobalVariablcs>
治験課題名
allle>ABC‑123‑I)EF‑45
A
the Efficacy and Safety of Oral ABC- 123 10 mg compared with Drug A in the Treatment of
<ProtocolNaine>ABC‑123‑DEF
Deine―
ADaM IGの バ ー ジ ョン
</GlobalVariablcs>
ame=‖ ABC‑123
<:MctaDttaVcrsion OID=‖ ABC―
‑456 AI)a卜 4 data sctsI
Definitions"
XMLの バ ー ジ ョン
│ヽ
Dtta
石
ersion="2.0.0"
dcrStandardNamc="A:DaNI― IG"dctStandardヽ lcrsion=‖ 1
OID="IT.ADSL.AGE"Namc=‖ AGE"
SASFieldNape:"AGE">
Length-"8"
デー タセ ット名及び変数名
<Description>
<TranslatedText xml lang: "sn">Age</TranslatedText>
:
</Description>
<def: Origin Type="Predecessor">
ソースデー タ
'en">:
</Description>
</def:Origin>
MedDRAの バー ジ ョン
</ItemDef>
<CodcList OID=HCL.MEDDRA‖ Nainc="Adverse
" Version:"
DataType:"text">
.meddra.ory'"/>
</CodcList>
<CodcList OID="CL.ヽ VHODD"Nainc="WHO
Enhanced" DataTlpe:"text">
Version:"March 201
WHO‐ DDの バ ー ジ ョン
143
hreF"http ://www. umc-products. com,/"/>
</Codelist>
図 3.2.8 ADaMの Dcine.xml
本 稿 で は ,ADaMの Deine.xmlを ADRG l.3章 の Smdy Data Standards and Diclona″ hvcntowに お け
る ,使 用 した標 準 群 の 一 つ で あ る ADaM,DcincⅨ ml及 び 外 部 の コー ドリス ト (本 稿 で は McdDRA及 び
WHO‐ DD)の バ ー ジ ョンに 表 3.2.2に 示 す MetaD
attrsion要 素及 び E五cmalCodelist要 素 を ,14章 の
Source Data Usedお r Analysis Dataset Creation,5.2章
の Analysis Datasets及 び 7.1章 の PrOducing Analysis
Datasctsに お け る ,各 ADaMデ ー タセ ッ トの変 数 情 報 に ItcmDcf要 素 を ,2.1章 の PЮtocol Numbcr and■ tlc
に お け る ,治 験 実 施 計 画 書番 号及 び 治 験 課 題 名 には GlobalVanあ lcs要 素 を ,及 び 5.2章 の Analysis Datascts
に お け る各 デ ー タ セ ッ トの名 前 ,ラ ベ ル ,ク ラ ス及 び デ ー タ構 造 に ItcmGroupDcf要 素 をそ れ ぞれ使 用 す
る こ と とす る
.
ADaM
MetaDataVersion
def:StandardName
デ ー タ標 準 の名 前
MetaDataVersion
def:StandardVersion
デー タ標準のバージョン
1.0
MetaDataVersion
def:DefineVersion
Define.xml at\-)
2.0.0
GlobalVariables /
=
2
治験 実施計画 書番 号
ABC‑123‑DEF‑456
治験課題名
A Multicenter, Randomized,
StudyName
GlobalVariables /
Double-Blind, Parallel-Group, Phase
StudyDescription
3 Study to Evaluate the Efficacy and
Safety of Oral ABC- 123 l0 mg
compared with Drug A in the
Treatment of Hypertension
ExtemalCodelist
Dictionary
Version
辞 書 の名称
辞 書 のバー ジ ョン
M:EDDRA,WHODD
ExternalCodelist
ItcrnI)cf
OID
デ ー タセ ッ ト名 及 び変数名
IT.ADSL.AGE
mI)cf
Name
変数名
変数 の ソー ス デ ー タ
AGE
Name
デー タセッ ト名
ADSL
def:Class
デ ー タセ ッ トの ク ラス
Itc‐
ItemDef i
20.0,March 2017
DlVI.AGE
def:Origin /
Description /
TranslatedText
ItemGroupDef
ItemGroupDef
SUBJECT LEVEL ANALYSIS
DATASET
ItemGroupDef
def:Structure
デー タセ ッ トの構造
One record per subject
表 322 ADaMの DcincⅨ mlで 使 用す る要素及 び属性
3.3 Dcinc.xmlの SASへ の 読 み 込み
CDISC Dcinc‐ XML標 準 に基 づ い て 作 成 され た Dcinc.xmlは ,Worid Widc Wcb Conso■ lum(以 下 ,「 W3C」
と い う)の とい う各 種 技 術 の標 準 化 を推 進 す る団 体 の 規 格 に適 合 した ,CDISC Opcrational Data Modcl
(ODM)に 基 づ く XMLの 論 理 的構 造 を 定 義 す る XMLス キ ー マ に準 拠 して い る。 なお ,詳 細 は CDISC
Dcine― XML Team(2013)を 参 照 され た い .SASの XML LIBNAME Engincは ,W3Cの 規 格 に適 合 した
144
XMLフ ァイ ル の 出力 及 び 読 み 込 み が 可能 だ が ,本 稿 で は読 み 込 み の 機 能 の み を用 い る こ ととす る。 図 3.3.1に XML LIBNAME Engineに よ る XMLフ ァイ ル の 読み 込 み に 関 す る基本構 文 を ,表 3.3.1に オ プ シ ョン を示 す . FILENAME″ /θ ′θF'XMLフ ァイルの フルバ ス ' ; FILENAME″ /θ rθ ″ 'XML Mapフ ァイルの フル パ ス '; LIBNAME ,F/・ /θ rθ ′xmlv2 automap=く option〉 xmlmap=√ //θ ・ θκ2 ′ pref i xattr i butes=(opt i on) PROC 00PY IN = Fノ /θ ′θF OUT = WORK I RUN ; 図 3.3.l XML LIBNAME Engincに よ る XMLフ ァイ ル の 読 み 込 み に 関 す る 基 本 構 文 XMLフ ァ イ ル を読 み 込 む 際 に XML Mゃ フ ァ イ ル を 自動 生 成 (REPLASE I REUSE) AUTOMAP= PREFIXATTRIBUTES= 指 定 した XMLフ ァイ ル の構 造 を分析 した 上 で ,当 該 フ ァイ ル に含 まれ る XMLマ ー クア ップ を SASデ ー タセ ッ ト,変 数 ,オ ブザ ベ ー シ ョンに変換 す る方 法 を記述 した XMLMap構 文 を 自動 生 成 す る。作成 され た XMLM叩 は XMLフ ァイ ル を SASに 読 み込む際に使 用 され る 個 々の XML M中 の COLUMN要 素 の生 成 時 に ,要 素名 を属 性名 に結合す る XML‖ AP= こ とに よ り SAS変 数名 を定義す るか ど うか を指 定 (「 AUTOMAP=」 と併 用 ) XML Map構 文 を含 む ユ ー ザ ー 定義 の XMLフ ァイル を指 定 XMLマ ー クア ップ (構 造 )を 指 定 ・ GENERIC:ル ー ト (包 含 )要 素 と反 復 要 素 の イ ンス タ ン ス で 構成 X‖ LTYPE〓 ・ CDISCODM:CDISC ODM Vl.2で 定 義 され て い る標 準 に 従 っ た構 造 ・ MSACCESS:MS Access database(.mdb)の サ ポ ー ト規 格 に従 った構 造 ・ ORACLE:Oracle 8iの XML実 装 と同 等 の 構 造 ・ XMLMAP:XMLM中 に よ り決 定 され る構 造 (「 XMLMAP=」 表 3.3.l XML LIBNAME Engineの `° オ フ シ ョン を併 用 ) XML LIBNAME Engincに お け る XMLフ ァイ ル の 読 み 込 み 方 法 と して は ,XMETYPE=オ プ シ ョ ン に よ つ て CDISC ODMに 基 づ く XMLフ ァイ ル を 読 み 込 む こ と も可 能 で あ る が ,Denne―XML2.0に 使 用 され た ODM Vl.3.2に は 対 応 して い な い た め ,本 稿 で は XML Mapを 使 用 した .な お ,XML M叩 は SASが 必要 とす る物理構造を備えていない XMLフ ァイル を読み込む場合 に ,XMLマ ー クア ップを,SASデ ー タセ ッ ト,変 数及 び レコー ドに対応付ける方法を XML LBNAME Engineに 伝達す ることが可能である プ ロ グ ラ ム 3.3.1は ,XML Mapを 使 用 して ADaMの Dcinc.xmlを 読 み 込 む プ ロ グ ラ ム 例 で あ る FILENAMEス テ ー トメ ン トが 2つ あ るが ,1つ 目は フ ァイ ル 参 照 名 DEFINEAを ,ADaMの Deine.xml の フ ル パ ス に ,2つ 目は フ ァ イ ル 参 照 名 MAPAを ,XML M叩 フ ァ イ ル の フル パ ス に そ れ ぞ れ 割 り当 て る .ま た ,LIBNAMEス テ ー トメ ン トは ,フ ァ イ ル 参 照 名 WOR]隆へ を使 用 して ,Dcincxmlを 参 照 で き るよ うに している.図 3.3.2に プ ログラム 3.3.1を 実行 して得 られた SASデ ー タセ ッ トの一覧を示す が . . , デ ー タセ ッ トは大 よそ Dcinc.xmlに おける 「要素」 ごとに分割 して 作成 されることが分かる . FILENAME DEFINEA 'Ci¥SASUG201 8¥m5¥datasets¥abc‑123‑def‑456¥analysis¥adam¥datasets¥define xml' FILENA‖ E MAPA 'C:¥SASUG201 8¥MAP¥definexml̲auto.map' ; LIBNAME WORKA xmlv2 automap=REUSE xmlmap二 MAPA prefixattributes・ NO i PROC COPY IN = DEFINEA OUT = WORK : RUN ; プ ロ グ ラ ム 3.3.lXMLMり を使 用 した ADaM Dcinc.xmlの 読 み 込 み プ ロ グ ラ ム 例 145
驚ettDぎ
〉
ni
Ran.geCheck
ValtteLiistRtFr
A!:izls
Eleiclripti〔
All13重
Oescri離 :on2
ntrn,Gr。 けpDef
Al陽 5』 l
D∝ [「 :膵 ion3
D∝ Cr:澪 i。 :髯
ne田 ‐
Rご
SuPPlementalDc,c
壁e:Ⅵ Re載
Translatec,T舗
'hereClau:::eRef
leaf
DocuttettRぎ
聰:etaDateVe厖ion
TttnsletedT毬 逮
teョ饉
Do〔 uttentRe饉
MI毬 れodDiぎ
Tran,s:ateごTョ 職壼
.こ
れeckV3:u‐ ■
,CodeLi壺
CodeL15壺 C騎
:
WbeFeCttuSeDcf
T韻
iCodleL:壼 Ref
D.ocuttiettRぼ 2
(}D麟
Transiateご
CommettDご
.eratted登 lern
EnL:■ ■
CIri9in
下ranshtedT目 職14
Decode
Extern3iCodtLi:壼
pttFPag‐ eRicr
TttnslttediTα
P勝 FPagleRefl:
Valu,eListD♂
De‐SCri膵
bn
図 3.3.2XML M叩 を使 用 して ADaM
嶋
5
Deinaxmlを SASデ ー タ セ ッ ト化 した 結 果
3.4 Pinnacle 21 Communり の SASか らの実行
Pimaclc 21 Community/Eicrpriseは ,Pinnacle21社 が 開発 した CDISC標 準 へ の準拠性 の検 証等 が可 能
なアプ リケ ー シ ョンで あ る。Pinnacle 21 EntcTriscは 有料版 で あ るた め ,本 稿 では無 料版 の Pinnacle 21
Community(以 降 ,無 料版 の Pinnaclc 21 Communiり を 「Pinnaclc 21」 とい う
用 い た。通 常 ,Pinnacle 21
)を
は GUI画 面 上 か ら検証 が必 要 な フ ァイル や バ リデ ー シ ョンル ール (SDTM,ADaM等 )を 指 定 して実行 す
るが,Pinnaclc 21に は Command Linc lntcrfacc(以 下 ,「 CLI」
とい う)に よるバ リデ ー シ ョンが 可能で あ
り,Xコ マ ン ド等 によつて SASか らも直接 実行 す る こ とが可能 で あ る.プ ロ グラム 341は ,SASか ら
実行す るプ ロ グ ラ ム例 であ る.バ リデ ー シ ョン対象 は図 3.2.4か ら図 3.2.8に 示 した各 ADaM
デ ー タセ ッ ト及 び Deine.xmlで ある。また ,使 用 した PMDAの ADaMの バ リデ ー シ ョンル ール は「ADaM
Pillnacle 2 1を
l.0(PMDA).xml」 ,ADaM■ rminologyは 2016‑03‑25版 で あ る。なお ,Pinnaclc 21 Communityを
SASか ら
実行す る方 法 の詳細 は,関 根 (2017)又 は片 山 ら (2017)を 参 照 され たい 。
FILENATE _TEMP "C:YSASUG2Ol8Yadam_val
idation. bat" LRECL=32767 ;
PR0C STREAil 0UTFILE=_temp 0U0TING=both RESETDELIM="mylabel"
;
)ava -iar componentsYl ibYval idator-cli-2.1.5. jar -type=ADaM
-sou r ce=C : YSASUG201 SYmSYdatasetsYabc-l 23-def-456Yana I ys i sYadamYdatasetsY+. xpt
-source:type=SAS -config=YADaM" "1.0" "(P|I4DA). xml -config:cdisc=2016-03-25
-conf i g : def i ne=C : YSASUG20l SYm5YdatasetsYabc-] 23-def-456Yana I ys i sYadamYdatasetsYdef
-report=C: YSASUG2O1 SYadam_va I i dat i on. x I sx -report : type= Exce
i ne. xm I
I
-report:cutoff=l000-report.overvvrll6=yes)C:YSASUG20l8Yadam_validation.
logmylabel newline
exit ;;;;
options noxwait xsync;
X "C: YSASUG2O1 SYadam-va I i dat i on. bat"
X "DEL C:YSASUG2O]8Yadam validation.bat" ;
;
プ ロ グ ラ ム 3.4.l SASか ら Pinnacle 2 1を 実行 す るプ ロ グ ラ ム例
図 341は ,Excelフ ァイ ル に 出力 した Pinnacle 21の 実行 結 果 で あ る .シ ー トは 4シ ー トに分 かれ てお
―タセ ッ トご との Re」 ect/E■ oハ ぬ ming及 び 件 数 ,Issue Summaryは デ ー タセ ッ ト
り,Data Summaryは デ ‐
ごと及び バ リデ ー シ ョンル ー ル ご との各 Scvcrけ 及 び件数 ,Dctailsは Issuc Summaryの 内容 を さらに詳
しく,デ ー タセ ッ ト・ 変数 ・ レコー ド単位 で示 した もので あ る。Rulcsは 使 用 したバ リデ ー シ ョンルー
ルが列挙 され てい る
.
146
Pinnaclo 21 V.lidator Repod
a喩 轟 lo 21聰 1ldat●
:Ro"̀
畿爾
濶 靱膨ρ鑽愕鶉腑腑鑽愕鶴嘱
‐
‐ ‐‐ … ‐ ・ ‐ ‐
■″機瑯轟 ふ商議″
i響 1
κ痰1 911,苺 ̲.̲
‐
絆″11摯 11 ■館‐
‐
4r │││ど0
1雫
│││││1議
0
, o
議議││││││ヽ
0
1
・
̲̲E
︐一
●一
遣艤熾議
!鶴 1欝 lギ 撃││1轟 轟轟轟
・
Issue Summary
Dataset Summary
Prcsr* lq'
sftFr
d*o{ &{ re ev4t ,,r
Prar.no erot
lueria alr{
&dmrM
l(un&It
,*4!d
dd&A Wen'q
●1■饉tM奎い睾栞機014,苺
v.b6 S6tbY. N etul{mqon 1:Rft.
*1,ffi.Nld.
Erc.@?
COMPLFL'FSLJNR,MOTft
,ffi
W0R.ENRfL @rot& ndld d
,
Tordsdq
̀
(′
ゞ江̲8、 強澤■饉 lm
│・
輌S
響
犠
醸
К
澤い
・ lm
′
料̲ふ sc)恣 鴫●
̀バ
(ハ
●4‐ ●澪臨ン
瓢゛
ロツた・臨縣t藤 醸
Details
IE aaqN!@rt{fN} vaiabto is F€s€n!
6 c@esFdhgflE Cftsddd iE)
111
=・
1蒟
=・
Rules
Fl4nledcv6nabafN)
conskiorc
3.4.l Pimaclc 21の 実行結果
options xYvait
;
LIBNAilE EXLIB EXCEL "C: SASUG2018Yadam val idation. xlsx" HEADER=no
;
DATA ISSUE-SUM;
attrib Fl length=$100. F2 length=$100. F4 length=$2000. F5 length=$100.
set EXLIB.' Issue Summary$' n(firstobs=l1)
RUN
F6 length=$100
;
;
プ ログラム 342 Pinnaclc 21を SASに 読み込 む プ ログラム例
プ ログラム 342は ,LIBNAME Exccl Engincを 用 い た ,Pinnacle 2 1の 実行結果 (Excelフ ァイル )を SAS
に読 み込む プ ロ グ ラ ム例 で あ る.プ ログラム 3.4.2で は ,Issue Summaryの シー トを読 み込むが ,他 の
シー トについ て も同様 の処理 に よつて読み込む こ とが 可能 であ る
.
3.5 SASプ ログラムの紹介
図 3.5.1は ,ADRGを 半 自動 的 に作 成 す るた め の プ ロ グ ラ ム 「ADRG SEMIAUTO CREAT10N.sas」
用 い た ADRGの 作 成 フ ロー で あ る .本 プ ロ グ ラ ム は ,表 3.5.1に 示 す フ ァイ ル を事 前 に用 意 す る こ とで
半 自動 的 に ADRGを 作 成 す る こ とが 可 能 で あ る
.
147
を
,
SDTM ADalⅥ TS TI define.xml ADSL ADAE ADCM ADLB define.xml ②読込 ADRG l「 ⑦ SAS enlplate 出力 (SASマ ク ロ変 (DOC) 数 に値 を格納) ①変換 (手 作業) ④読込 ADRG ̀RTFヽ ⑥読込 :③ 実行 Pinnacle 21 Templa" Report Community (RTF) ADRG ⑤出力 図 3.5.l ADRG SEMIAUTO CREATION.sasを 用 い た ADRG作 成 フ ロー SDTMの 各 ドメイ ン ADaMの 各デ ー タセ ッ ト SASデ ー タセ ッ ト (sas7bd試 形式)及 び XPTフ ァイルの両方を用意する SDTM C)Deine.xml ADaM C)Dcinc.xml 本稿では富 士通株式会社 の tsClinical Dcine.xml Generator 麹堅璽」L亜」 ■」 ≦≧ 里1ヱiツ 1つ 1■1血至血1墨 L〕 ∠ O販上 上fO■ sュ 娘lК≦ 受∠ 堅』 埜≦ ∠堕 立)を 使用 して 作成 した ADRGの テ ンプ レー ト PhUSEで 公 開 され て い る DOC形 式 の フ ァイ ル を RTF形 式 に変 換 し,SAS Pinnacle 21 Community 本稿 では V2.2.0を 使 用 した マ ク ロ変 数 参 照 を埋 め込 ん だ も の 表 3.5.l ADRG SEMIAUTO CREATIONsasの 実行前 に用 意 す るファイル 図 3.5.2は ,ADRGテ ンプ レー トにお け る各試験 の電子 デ ー タに よって動 的 に変更 され る箇所 を,SAS マ ク ロ変 数参照に置換 した 一 例 で ある。ADRG l.3章 の Study Data Standards ttd Dictionary lnvcntow等 に お け る表 の部分は,実 際 の 電子デ ー タに よって行数 が動 的 に変 更 され るが ,表 221に 示 した RTFの 制 御 文 字 を用 い ることに よって ,自 動的 に行 数 を増やす こ とがで きるた め ,1行 分だ けを残 して他 は削除 して い る . 148
S織 曖
lllilil:│:│:│:│!lil:│::│:::llト
1̲I嶽
"毬
ロ■
日●
…
Asslyds Dde RsiBEdr &$idE
由:::│'雷 lillll11ユ 1111111:l口 │:I:lL:11営 111111111
l- I!ilro&clior
整巌 暴
:‐
1-1hrycrr
1■ Fロ ロ睡整
婢 瑯 鮨:隅 樹
轟
& &@ r& Bee er& e!&d d@ ed f&e$ & M tu&
ti6E -Ft b *dt&* &i&a* p&
rytuk r$d & $*Een&q k
tqcJNdcEeJrS
慶 義 .轟 ■饉 な 餞な画 義 農
場,,崚 轟 轟 轟 は 翡 絲 凛
鮨轟
一
=
彎 録 墨 ̀,・ 凛 転 糧 日`議 饉 ̀品 饗 圏 攀轟 織 馨
コ泰 電
A鐵 露 轟 ― ぉ 晨囀董 g,I
…
通墨 饉 ヽ 曇 藁
塵 絆 繊
"
a
ユ
̲2枷 國輌田
12A●r{1:l螂
& E"]E!&&r##*W*bg*dL&k
13 Sh灘 7〕 凛
燎3缶 諷壷
晨
nti=蹴
"由
ユ濃9議d,D■ 塩 S饉 基●1■ ̀由 壼」1玉 滋di4塵
̀n:疑
驚堡義苺
簗繭■建1躍 量 t,
1饉
̀重
鑽,破 FCe D晨 惚 曹彙d穏 眠
2'こ 里r●転 .鶴 11熙 理睦議
tu*alnir IHr*tCredfun
翻壺 Ti性
『
2- fratoolllsuiltiar
晨壼 螢 畿
2■ PIo加薔 lD覆 夢 懇 露由 義ュ綺 劇鮨菫 (撼 濠 理港
fk &Eq & rssl *ec
k tu
S織摯 くp爾 睦 ●lN電 屁短 や
eedh?i4
ぬ減 卵よ
彗D曇ュRtti鶴 ,電 'こ 〈
瓢襲
Asl:xiEkcA*iw'e
Sttty&ST口 五
「
6̲D■
6■
趣
C● 塁勧 籠 磨 緩 3議 鐘 理 麟疎 ヽ
Co―
角脚饉
6- Ddr{odo:nrm5mmrr
6lC*rfrI[relrpdr
‐ ユ̲̲̀1̲01.
鶴 鐘 嘔鶴に
。 )ヽ 轟壁轟 螂 議銀・
藤 ヨ菫凛
ヽ。
s6 tuM
d*#a&e*r&---*F
wE&ad#?
AgJ#*&a:d?
ikE&dkd;eEe*r*trl
■
,1鶏 種 お 三 i番 ●
矮誓 開 置鋒
=職
=壺
襲 A黎 嘲醸誠│
俸
。戯
機
■鮨
=熙
燎 慶
t=菫
麟 稼
轟
・
:
懇̲A,P國 患渡
(,kskE.dBee*!)
149
6eidr
図 3.5.2 ADRGの テ ンプ レー トにお け る SASマ ク ロ変数 参 照 に よる置換 表 3.5.2は ,本 稿 にて 作成 した ADRGの 半 自動化 作成 用 の SASプ ロ グ ラ ムが必要 とす る各 種 パ ラメー タの一 覧 であ るが ,ADRGに お け る項 目の一 部 は SDTM及 び ADaM等 の 各電子デ ー タか らは取得す る こ とがで きな いた め ,SASマ ク ロ変数 に よって 与 え る必 要 があ る.例 えば ,各 デ ー タセ ッ トが用い られ た解 析 内容等 は ,本 プ ログラムの 実行 前又 は後 に別 途 追記 が必 要で あ る。 なお ,詳 細 な SASコ ー ドは , 本 SASユ ー ザ ー 総 会 2018の サイ トにて公 開す る,SASプ ロ グラム を参 照 され た い。本稿 で は SASマ ク ロ変数 を用 いたが ,Excclで 入力 内容 を一 元管理す る こ とも作業 の効 率化 に繋 が る と考 え られ る . )v- l7 * )vF- @,J : c:YSASUG20IS) R00T PINNACLE ―ル フ ォ ル ダ (例 :C:¥CDISC¥pinn¨ lc21‐ communiサ ‐ Pinnacle 21の イ ン ス トヽ 2.2.0) CLI CLIフ ァイル の名 前 (例 :validator― cli‑2.1.5jar) CONFIG Conigurationの 名 前 (例 :ADaM l.0(PMDA)) RTF TEMPLAITE ADRGテ ンプ レーートの フル パ ス (例 :C:¥SASUG¥ADRG̲Template̲2015‑01‐ 2 出力するADRGの フルパス RTF OUT DEFINE SDTM DEFINE ADaM SDTM ADaM ADaMI XPT AI)aM PGM PGM RULES つ SDTMの Dcfinc.xmlの フル パ ス ADaMの Dcinc.xinlの フ ァレパ ス SDTMの SASデ ー タ セ ッ ト (sas7bd江 形 式 )が 格 納 され た フ ォ ル ダ の フ ル パ ス ADaMの SASデ ー タ セ ッ ト (sas7bdat形 式 )が 格 納 され た フ ォ ル ダ の フ ル パ ス ADaMの XPTフ ァ イ ル が 格 納 され た フ ォ ル ダ の フ ル パ ス ADaMの SASプ ロ グ ラ ム が 格 納 され た フ ォ ル ダ の フル パ ス SASプ ログラムのネ ー ミングルール (例 :「 adsl― sas.txt」 Lsas■ xt」 のよ うなルール の場合は を指定 ) WORK SDTM WORK ADaM COMPANY SDTM及 び ADaMの Deinc.xmlを SASデ ー タセ ッ ト化 す る際 に発 生 す る XML Map CT CDISC ADaM Tcrmin010gyの バ ー ジ ョ ン (例 :2016‑03‑25) EXT DS EXT DESC PRT DESC 3 1 ADD ADaM作 成 に使 用 した外部 フ ァイ ル 名 ADaM作 成 に使 用 した外部 フ ァイ ル 名 に関す る記述 ̲3̲3̲Q3 ADRG 3.3章 の Trcatmci Variあ lcsに お け る Usc of ADaM Trcatmcnt Va五 め lcs in フ ァイ ル を格 納 す る フ ォ ル ダ の フル パ ス 会社名 ADRG 2.2章 (D Protocol Dcslgn in Rclttion to ADaM Conccpts ADRG 3.1章 の COimparisOn Of SDTM and ADa卜 I Contentに お け る Additional Content of lnterest Analysis 3 4 SI DESC 3 5 ADD ADRG 3.4章 の Sub」 cct lssues that Rcquirc Spccial Analysis Rulcs ADRG 3.5章 の Use OfVisit WindOwing,Unschcduled Visits,and Rccord Selcctionに お け る追加 の記述 3 6 Ql 3 6 ADD 4 1 SP 431D 44 VC 5 1 Ql 5 1 ADD ADRG 3.6章 の Imputatioゴ Derivation Mcthodsに お ける欠 測補完 の有 無 ADRG 3.6章 の Imputatioゴ Dcrivation Mctllodsに お け る 追 加 の 記 述 ADRG 4.1章 の Split Datascts ADRG 4.3章 の Intcrmediatc Datasets ADRG 4.4章 の Variablc Convcntions ADRG 5.1章 の (ADaMデ ー タ セ ッ トに 関 す る )OvcⅣ icw ADRG 5.1章 の (ADaMデ ー タセ ッ トに関す る)追 加 の 記述 150
表 3.5.2プ ロ グラ ムの 実行 に必要 な パ ラメー タ
にお け る,PROC STREAMに よる ADRG
プ ログ ラム 3.5.1は 「ADRG SEMIAUTO CREAT10N.sas」
テ ンプ レー トの読 み込み及 び 出力部分 ,図 3.5.3は 実行結果 の一 部 を抜粋 した もの で あ る.な お ,PROC
STREAMに よる出力後 の RTFフ ァイ ル にお け るペ ー ジ設定等 の 体 裁 については ,読 み込みに用 い た RTF
テ ンプ レー トか ら変更 され る こ とはなか った .ま た ,表 3.5.2に お け る EXT DS以 降 のパ ラメー タに つ
い て は ,電 子 デ ー タか らは内容 の判 断 が難 しいた めに ,プ ロ グラ ム 実行前に別 途 記 述 が必要な内容 で あ
る。そ の他 必要 に応 じて ,プ ロ グ ラム実行 後 に適 宜追加 を行 う
.
レノくス ";
σ)テ ン プ レー トC)フ ァ
FILENAME INFILE"ADRG
FILENAMiE OUTFILE"出 力 す る ADRGの フル パ ス ";
PROC STREAM[OUTFILE=OUTFILE QUOTING=BOTH RESETDELIM=lreseti;
BEGIN
reset;%INCLUDE INFILE;
RUN
プ ロ グ ラ ム 3.5.l ADRG SEMIAUTO CREATION.sasに お け る入 出 力 部 分 の 抜 粋
職 逮ys億 憮 羹 Rtti‐椰 ピ ュ鍵 i議
SIBE AW-1X]-DEF456
StttT AB9 1選 ―
コ警456
Itta R嵐 1椰 ぎ E43,■i壺
̀ヽ
SDTM及 び ADaMの Deinc.xml,
ADaMデ ー タセ ッ トか ら取得
1̲I量 閾轟 顔 饉
1̲IP甕
=F●
5輌
M&ffiFl&E!**rAE
ryklr bq$d tud&er
eqdNeH;S
k
2̲勲
:バ
薔 螢 lD彗 頑
rskq
kedK,
*l&E*d*l k #&q
ADaM(の Dcine.xml'文 て
SDTMの TIド メイ ンか ら取 得
魯ユ
綽
eq
T*
*dI6 ktu
3dEnd,Mks&i**eru4b&tuI
1l IOqryd$*hAA&5E
dSrk-rrr#gf
ofl{2wr
[^3twryu
1爵
=士
表 3.5.2の PRT
権″
Lra麺 壌壼d椰 綱了臨n堅 ‐
:配.Bュ 機s彗 国
t
ej5dge*{tFL&
&dlGEiq
DESCを 出 力
軽 Rd 麟 te輩 観饉Itt ALttIIj3]醸 IS4彙
3̲4鵬 1、 13 Citti磁 壼螢燿
て
力
降ltttt
3■
雄
餞
轟
歯
饉
暴
C毅 ぼ AE■
麺●に
ADaM:の Dcinc.xml
繭
̀最
轟 饉
議
edな
'総
Y̲気 壕=ヒ L̀贅 =な 墨蓋=出 産 1震 露
か ら取 得
̀鼻
鑢
L饉
饉
墨
轟
風
議 驚
爛
議 務
欅
1華 纂 ,S園
=…
醸 惨 調12饉 曇 ■‐轟議薇凛 豪 嵐‰醸 議由饉輌
̲■DA亀 起x闘 .A3椰 雷
鷺晨
意 養
腱L
̀│
菫 s:藤 を
響
'
g
j&d&@llld
1壺 3● 種曖 Bョ 撻 憲熱 鮭 趣 由 議 職 麟量
k
ff
M#
Cr機 醜
tuaS &Eii&#*ffi&
rlES s#
&F
データセ ットから取得
暮ic.馳 下饗趣 u僣
k r#b : k
ffiKs:k&&*#qpg&&a
4e e'rt E+"; de
& G rd
ktaked*&de
‐ L鬱
亀警
・ ●3は
韓 t
森 CS` 通│
表 3.5.2の EXT̲DS,
EXT DESCを 出力
轟
轟
瑳
ノ/\
ADaMデ ータセ ットから取得
151
y AnC̲123^DEF→ j恣
島餞1脚 よ
晨恐識ュRtti黎 蒼'8G嶺て
盤
="感
5̲■
:恣
菫ま藩 j5Dュ 傾 送量
表
D督 観 pt銀
St棗 摯 ABD‑1趨 ‐
コ 警 ■ 56
3.5.2 の ̲5̲1̲Ql,
l ADDを 出力
7
5■ 01・ 葡nl■ ■
&sdq*
Fe.Sj***rypd!l
d@
1警燎 :騰純 蹂 撼 暉 ぎ 濃 G轟墜
最
ユ瑯 置̲撻 餞 轟 L轟諄嶽 y腱由 彙 n崚 雌
ff
Ed
&€g#!d4dr&
Pinnaclc 21 Conllnunity
6. Drtr{.*fuffim$ummry
d.#-**F&ry&*ie?
t"qdS*eI
A国
の 実行 結 果 を出力
611
マ察 銀 =場轟
ADaMの Dcine.xml
S2■ 頭 1■壼 B裁 謳歯
・ A工
か ら取 得
"&'1■ ̀P`
□
)^〕
き
電=・ =潔 議t
,α 8■ 1=書 詢
・
黎撼 嵐 轟 録 響 い 議 振 議 壺
ヽ
黎
̀=鰺
,'"
墨
蓋・
﹄
羹
一
・
普
e@dFe5*d
e@drEsr+F
轟 義 .量 3養 議
幅 =… 滅 膵 ■ 捧 鶴こ
`と
‐ ニ
… ■
ス電 羞轟i壼 島ら螢
│.颯
3*-{nmr
kBdFeEidF
!@F&
●
―島4‐軍
― な‐議
*?aLry&
11■ D誕,‑3■ 1緩 聰 颯 ■騒 彗壷 D薇 掛 1
壼‐
5■ ■
5lJ *IKl{ - Caai*d
理
●
■D銀:̲島お確織 ■騰歯 量眩お歯 D菫 彗離
― 一
"‐
}I. rsi6.{!dFiEO*re"t
̀"̀ニ
ユ 姻
̀―
ADaM C)Deinc.xml
か ら取得
Pinnacle 21 Commlinity
の 実行 結 果 を 出力
図 3.5.3 ADRG SEMIAUTO CREATION.sasの 実 行 結 果
4ま とめ
本稿 では ,PROC STREAMに よる,RTFテ ンプ レー トヘ の値 の 出力方 法 を紹介 した。ま た ,Deine.xml
の読み込 み方 法や Pimacle 21 Communityの SASか らの 実行方法 を紹介 した .ADRGの 作 成 を可能 な限
STREAMを 用 い た ADRGの 効 率的 な作成方法 を提案 した。そ
の 中で,各 試 験 で 作成 され る SDTM,ADaM及 びそれ らの Dcinc.xml,Pinnacle 21の 実行 結 果 の 中か ら
ADRGに 記載 す べ き情報 の 多 くが入手 で き るこ とを示 した .ADRGは ,承 認 申請時 に電 子 デ ー タの提 出
対象 とな っ たす べ ての試験及 び併合 解析 につ いて PMDAに 提 出が必 要 な文書 であ り,承 認 申請 前 の多忙
り自動 化 す る こ とを 目的 と して ,PROC
,
な時期 に作成 す る こ とが想 定 され るものの ,品 質 の確保 は必須 とな る.そ の ため,本 稿 で提 案 した方法
に よって ADRGの 作成 を効 率化 。半 自動化す る こ とは ,製 薬企 業 のデ ー タ作成 部 門 が承認 申請業務 を進
めるにあた っ て非 常 に大 きな助 け とな り得 る。 また ,ADRGの み な らず ,「 治験 の総括 報 告 書 の構成 と
内容 に関す るガイ ドライ ンにつ いて」(平 成 8年 5月 1日 付 け厚 生省 薬務 局審 査課長通知 )に て求 め られ
てい る 「死 亡 ,そ の他 の重篤 な有 害事象及 び他 の特 に重要 な有害事象 の 叙述 」 の よ うに ,記 載 内容が あ
る程度 固定 され てお り,記 載 内容 の一 部 を作成者 が 定 めたル ール や 条件 に従 っ て動的 に決 定 す るよ うな
文書 を作成 す る際 には,あ らか じめ情報 を出力 したい位 置 に SASマ ク ロ変数 参照 を埋 め込 ん だテ ンプ レ
ー トを作成 してお き,PROC STREAMに よって値 を出力す る こ とが可 能 で あ る。今後 ,様 々 な文書作成
において ,本 稿 で紹介 した手 法や さらな る PROC STREAMの テ キ ス ト情報 の外部 フ ァイ ル との入 出力
152
に関す る機 能 が活 用 され るこ とが期待 され る。 連絡先 imihirO.理 maSak壼 2丞 Cda.COm 参 考 文献 ・ Joscph Hinson et al.(2015).Proc STREAM:The Pertct Tool For Creating Patient Narratives;Pharma SUG 2015;Papcr AI)03 関根 暁 史 (2017).pЮ c STREAMに よ る Analysis Rcsults Mctadataの 作 成 ;SASユ ー ザ ー 総 会 2017; B‐ 01 ・ 片 山雅 仁 ら (2017).SASを 利 用 した Pinn¨ le 21 Communityの セ ミオ ー トメ ー シ ョン 化 に よ る業 務 効 率化;SASユ ーザー総会 2017;B‐ 15 Sergiy Sirichenko et al.(2017).Usage ofPinnacle 21 Comlmunity Toolset 2.2.0 1br Clinical Programmers; Pharma SUG 2017;Paper HT06 ・ Amy Garrett ct al(2018).How to Automae Valid江 lon with Pinnacle 21 Command Line lnterね ce and SAS; Pharma SUG 2018;Paper DS20 ・ Lori S.Parsons ct al.(2007).Enhancing RTF outpl with RTF Control Words and ln‐ Linc Forma五 ng;SAS Global Forun1 2007;Paper P(D04 ・ Lex Jansen(2018).Accessing the Metadata'om Deinc¨ XML;Phamla SUG 2018;Paper SS‑11 ・ Microsoft.Rich Text Format(RTF)Specinc誠 lon Version l.9.1 CDISC,SDTM Tenninology;Available誠 hl墜 二 ∠里里墜g墾 :∞LflQl∠ 二 〇≦ ≦22191重 ≦ 型堅≧ Q塾 型11菫 191g堅 ゝ 生理量 [Accessed 7 July 2018] ・ CDISC Submission Data Stmdads■ am(2013),Smdy Data Tabulation Modcllmplemc■ 試lon Guide: Human Chnical T五 als Version 3.2;Avalable江 httpsì△ vinttY.£ 」 iS9.0壺 型 但壺型堅 da型 1,生 OL堅 ≦ 董菫iQュ a1/Sd菫 lLig CDISC Deanc‐ XM:L Team(2013),CDISC Dcinc― XM:L Spcciic前 lon Vcrsion 2.0;Availablc江 hm旦:〃 IIw.c⊆ 量望 =g嵯 :ム 」 堕」 1̀』 皇 圭菫塾 」堅1重 l皇 撃 Q墨≦ 」lュ 型 ュHAcccsscd 7 Juサ 2018] =[亜 ̀≧ PhUSE,Analysis Dtta Reviewers Guidc;Availablc at 量lp二 ∠ [ェ 墜ェ 」 堕 L墜 =lki」 2ェg∠ =iki∠ SAS Institute lnc.Base SAS① ̀塾 hllrL∠ gl」 盤≦ とヒ ≧ =1塑 曇 鐘 △堅壺 塾 ̲』 ⊇ョ立L二塁≦コ 」塁型 コQ」 ミ̲≦ ll道 坐 [Accessed 7 July 2018] 22重 』 9.4̀LLplコ Procedures Guide,Seventh Edition;A:vailable at ligL=旦錘L≦≧ Ql⊇∠ [:d≦ ≧ 」 』 Q旦 ≦ Ll二 pェ Qご L≦lc̀2sslEEa二 ̀≧ ertton=94■ 19calc cll[Acccsscd 7 July 2018] 01三 11111塁 l二31lgLLS3」12S曖 12=22116≦ ly≦ ≧ こ12二 塾」 11■ 』 ヒ CL≧ CS芝 [ゝ r ̀聖 SAS Instimte hc.SAS 9.4 XML LIBNAME Engine:ユ ー ザ ー ガ イ ド;Available江 11鰹滋∠ zwlylY.sttL≦ と Q型 ムL堕 ・ ∠ 曼i旦 ]22≦ と 量:£ ∠ a:∠ 墜型 」 291≧ Ql,生≧ d」 z正 と 生竺墨12≦ 型1」p≦ 」 :[Accesscd 7 July 2018] 1彗 ≧ 「承 認 申請 時 の 電 子 デ ー タ 0517001号 独 立 行 政 法 人 医薬 品 医療機 器 総 合 機 構 機 次発第 ,f」 2§ (2018).薬 提 出等 に 関す る技 術 的 ガ イ ドに つ い て 」 の一 部 改 正 に つ い て ;Available前 h=L塾 迎II=理 堅1■ぶ ≧ ゴ1∝ )α 22(狐 ̲Imば [Accesscd 7■ ly 2018] ュ醸 :塾芝 日本製薬 工業協会デー タサイ エ ンス部会 2015年 度 タス クフォース 2サ ブチーム2,ADRG Completion Guidclincs解 説 ‐ ADRG作 成時 の留意点 ‐;Availめ lc江 ̀如 ht筆 :∠ =II」 ュma.or.lp/聾 Qdiclnc/shinyal製 ムlkQl1/211:Ql■ 19nt/ad18̲Q&L■ nl[Accessed 7 July 2018] 153
SAS XML Mapperを 用 いたdefine.xml内 の メタ情報 に基 づ く帳票作成 ○ 山本 (大 日本住友製薬株式会社 繁 、林 三男 開発本部 デ ー タサイ エ ンス部 生物統 計 グル ー プ) 2016年 10月 よ り医薬 品 の承認 申請時にCDISC標 準に準拠 した 電子デ ー タ提 出が開始 され 、2020年 4月 に完全義務化 を控 えてい る。 これ に対応 す るため、当社 で もデ ー タセ ッ ト (SDTM、 ADaM)、 デ ー タ ガイ ド(SDRG、 ADRG)、 定義 フ ァイル (define.xml)等 を作成 してい る。そ の 中でdefine.xmlは XML形 式 で記述 され多 くの メタ情報 が格納 され てい るにもかかわ らず 、作成後 は 申請時電子デ ー タ提 出の利 用 の み でXML形 式 の利 点 を統計解析業務 に有効活用で きて い な い。 我 々 は、define.xml単 体お よびdefine.xmlと ADaMデ ー タセ ッ ト間 の整合性確認や define.xmlを 用 い たADaMデ ー タセ ッ ト作成 プ ロ グラ ムの 効 率化 へ 向けた取 り組 み をSASユ ー ザ ー 総会 2016で 紹介 し た。今 回は、define.xmlを 参照 し帳票 を作成す る試 み を紹介す る。具体 的な帳票作成 の流れ は以下 の通 りである。① SAS XML Mapperを 用 いてdefine.xml用 のXML MAPフ ァイ ル を作成 、② libnameス テ ー トメ ン トでxmlv2エ ンジ ン を使用 しXML MAPフ ァイ ル を指 定 してdefine.xmlの メタ情報 をデ ー タ セ ッ ト化、③デー タセ ッ ト化 されたメタ情報 から変数属性や コー ドリス トの情報を取得、④ これ ら の情報 をADaMデ ー タセ ッ トに紐づ け帳票 を作成する。本発表ではこれ を被験者背景表に適用 した事 例 を紹介す るとともに、SAS XML Mapperを 用 い る際の留意点や業務上 の課題 も発表す る。 キー ワー ド : ADaM, define.xml, SAS XML Mapper 参照 : SASユ ー ザ ー総会 2016 SAS XML Mapperを 用 いたdefine.xmlの メタ情報 の有効活用及び 業務 効率化 の取 り組 み 154
PPK解 析 に お け る %PKCONVRTの 使 用 事 例 ○逆井佑来 、川 崎勝 己、水畑淳 之介 、新城博子 デ ー タサイエ ンス本 部 生物統計 第 1部 東京第 2グ ル ープ) (エ イツーヘ ル ス ケ ア株式会社 背景 。目的】 【 2015年 12月 に母集 団薬物動態・薬力学解析 ガイ ドライ ン (案 )が 発出され 、母集団薬物動態 (PPK) 解析 は、今後 の承認 申請時又は添付文書へ の情報提供 における活用について大きな期待 が寄せ られ ている。 PPK解 析 は 、 SASや NONMEM等 の ソ フ トを用 い て 行 わ れ る。 最 も 汎 用 され て い る ソ フ トは NONMEMで あ るが 、NONMEMは SASに 比 ベ ユ ー ザ ー 数 が少 な い こ ともあ り、 日本語 に よ る教 育 資 料 や 教 育 機 会 が充 実 して い る とは言 え な い 状 態 で あ る。 そ の よ うな状 況 の た めか 、初 心 者 に とって は使 用 難 度 が高い 。統 計 解 析 担 当者 はNONMEMよ りもSASに 馴 染 み の あ る人 が 多 い た め 、SASを 用 い て PPK解 析 を行 う こ とは 、解析機 会 の 増 加 とい う観 点 よ り有 用 で あ る。 PPK解 析は探索的なアプ ローチであるため、過去 のデ ー タや既存のデ ー タを用いて解析 を行 うこ とも少 な くない。 しか し、使用 ソフ ト (SASお よびNONMEM)に より解析用 デー タセ ッ トの構造 が異な るため、既存 のNONMEM用 の解析用デー タセ ッ トを流用 してSASで 解析す るためには、デ ー タセ ッ トの再作成 の作業 が必要であ っ た。 さらに、それ をNLMⅨ EDプ ロシジャ等 の SASプ ロシ ジャで解析す るには、微分方程式をプ ログラムで記述す る必要があ り、解析 自体が煩雑 であった。 そ ん な 中、 SAS/STAT14.3に お い て %PKCONVRT(auto callァ ク ロ)と CMPTMODELス テ ー トメ ン ト (NLMIXEDプ ロ シ ジ ャ等 )が 搭 載 され た こ とに よ り、 先 述 の手 間 が 大 幅 に削減 す る こ とが見 込 ま れ て い る。 本 発 表 で は 、NONMEM用 の 解 析 用 デ ー タ セ ッ トをSASで 解 析 で き る形 に 変 換 す る autO callマ ク ロで あ る、 %PKCONVRTの 使 用 事例 な どに つ い て 紹介す る。 方法】 【 NONMEMで 用い られ る様々なPPK解 析用データセ ッ トのパターン (単 回投与のデー タ、持続静 注のデータ、反復投与のデータ)を 想定 し、SASで 作成 した。その後、それぞれが%PKCONVRTに よりどのよ うに変換 されるかを確認 した。 結果 】 【 最大 の 関心は、NONMEMと SASで 異 なる投与情報 の 与え方が うまく変換 されるか ど うかであっ たが、 いずれ のデー タセ ッ トもSASの プ ロシジャで読み込 んで解析 できる形 に変換 され る ことが確 認 できた。ただ し、%PKCONVRTを 使用す る上で必須 の変数や、変数に格納 される適切 な値 の形式 があるため、input dataに 軽微な加 工が必 要な場合もあ った。 DATAス テ ップ で加 工 す るには煩 雑 な 作 業 を、%PKCONVRTを 用 い る こ とで 一発 変 換 され る点 は 、 既 存 の NONMEM用 の 解 析 用 デ ー タセ ッ トを流 用 して SASで PPK解 析 を行 う上 で有用 と感 じ られ た。 155
被 験 者 レベ ル の フ ォ ー マ ッ トを利 用 す る ○三木 悠吾 1 (lFMD K&LJ叩 範 株 式 会 社 ) どの様 なプ ロ グ ラ ミング コー ドで あ って も、コー ドレビューす るにあた って度 々 問題 になってい のが る 幾重 に もnestさ れたit丈 な どの難解 な コー ドで ある。SASに はselect statcmcntや whichnや ch00sc といった便 利 な関数 は実装 されて い るが、ど うして も複雑 にな りやす いプ ログラム は確 かに存在す る。例 えば 、解 析 用visitの 設定や併用薬 ・ 前治療薬 の分類な どは、試 験計画にも依 存 す るが難解 な コー ドを生み 出 して しま う事 が 多 々 あ り、コー ドの解釈 に苦 しむ 事 が 多 い。 これ らの コー ドの難解 化 を避 けるた め 、本稿 では被験者 情報 をおm誠 と して 取 り込み、プ ロ グラム 中で使 用 して 、被験者 毎 の 複雑 な条件 を フ ォーマ ッ トデ ー タセ ッ トと して可 視化す る技術 を 3つ の事例 を なぞ りなが ら 紹介す る。 技術 として はSASの おlmtt pЮccdure及 びp n又 はputc statementを 利 用す る。近年 のEDCデ ー タの トレン ドはSD.IM形 式 へ の変換 が 簡便 に行なえる事 を追求す る流れ が 存在す るため、rawdataに お い て被験者 の来院や 中止 、終了 とい っ た 情報 がSDTMに 近 い形式で格納 され る ことが 多 くな ってい る。 このため、 この よ うな被験者毎 の 情報 をcntlin optionを 使用 しておrin試 として取 り込 ん で しま うこと は容 易 である。作成 したユー ザ ー 定義おlm前 はpl statementで 使用す る こ とは難 しい が 、putn又 はputc statcme■ を使用 す ることで問題 な く使用す る事 が で きる。 この際 、 おmat化 す る際 の 中間デ ー タを レビューす る事 で 、条件分岐や適切 な許容範 囲 が設 定 されてい るか ど うか確認す る事 ができる。 こ れ に よってif文 の 多用 を避 け、 中間デ ー タを レビュー 可能 とした非常 に透 明性 の 高 い コー ドが作成 可能 となる。 156
生物統計 0医 薬関連 チユートリアル
「新版 実用 SAS生 物統計 ハ ン ドブ ック [SASヽ .4/R3.2.0対 応 ]」 の紹介 と SAS⑬ OnDcmand br Acadcmicsで の ハ ンズオンセ ミナ ー ○土屋 裕章 1,2、 小松 邦岳 1,3、 小川 直之 1,4、 江森 健人 1,5 4株 2ヤ ンセ ンフ ァーマ 株 式会社、3株 式会社 アスク レ ップ 、 式会社三和化学研究 (1臨 床評価研 究会、 所、 5EAフ ァーマ株 式会 社 ) 2017年 6月 に弊会は「新版 実用 SAS生 物統計 ハ ン ドブ ック [SAS①9″R3.2.0対 応 ]」 を出版 した。 新版 の 改訂 にあた り、最新 SAS① 94の 機 能拡張へ の対応 や 、近年話題 とな っている解析 手 法 を大幅 に追記 した。製薬 企業 の 統計解析担 当者 の みな らず ,基 礎 の 研究者 か ら臨床 で統計解析 を必要 とす る医療従事者 に とって も、 バ イブル と して活用できる一冊 に な った と考 えてい る。 学習用 に無料で使 え るSASQ OnDemand for Acadcmicsが リ リース され 、 SAS° を用 いた 個 人学習や 研 究 の環境 は大 きく進 歩 した。SASQ OnDcmand b Academicsに 関 してそ の 利用法を解説 し、解析 の 実行 を実演 にて行 うこ とで、SAS① と統 計学 の裾野 を広 げ る こ とにつ なが る と考 え、本 セ ッシ ョン を企画 した。 本 セ ッシ ョンではSAS① OnDemand br Academicsの 基本操 作 と、「新版 実用 SAS生 物 統 計 ハ ン ド ブ ック [SAS① 9.4/R3.2.0対応 ]」 か ら 4つ の統計解析事例 を題 材 として ハ ンズオ ンセ ミナ ー を行 う。 題材 とす る統計解析 事例 は① 2値 デ ー タの解析 、②連続 デ ー タの解析 、③ 順位デ ー タの解 析 、④ 生 存 時間デ ー タの解析 につ いて 取 り上 げ、基礎 的な統計学 とSAS① プ ログラ ムの書き方、 SASQア ウ ト プ ッ トの 見方 を解説す る。 ハ ンズオ ンセ ミナ ー の 受講者 はSAS社 のホームペ ー ジ よ り事前にSAS① OnDemand br Academics のアカ ウン ト登録 を済 ます こと。 また題材 とす る分析テ ー マ の演習 プ ロ グ ラム (550KB)は 弊会 の ホー ムペ ー ジ上 に公 開 され てお り、 こち らも事前 に受 講 者 のPCに ダ ウ ン ロー ドし持 参 す る こ と (墜 菫 生里 IIL墜 2コ を =極 」 堅ig∠旦k」]I△ liI辺 [玉 [XEXLΔ C]E鳳 1△L塁 ユ̈Q』 ユQユ lQ∠p)。 159
NLMIXEDプ ロ シ ジ ャに よ る スパー ス 推 定 o伊 庭 克拓 1 (1大 塚製薬株式会社 新薬 開発本部 バイオ メ トリックス部 統計解析室) Sparsc Estirnation using NLヽ 4:D(EI)Procedure Katsuhiro lba Otsuka Pharmaceutical Co., Ltd. 要旨 近 年 ,lasso(least absolutc shrinbge md SCICCtiOn OpCratOr)を 中 心 と した ス パ ー ス 推 定 が注 目を浴 び て い る。 SAS/STATで は ,GLMSELECTプ ロシ ジ ャ及 び HPGENSELECTプ ロ シ ジ ャ で ,一 般 線 形 モ デ ル 及 び 一 般 化線 形 モ デ ル で の lassoを 用 い た 変 数 選 択 を行 う こ とが 出来 る。本 稿 で は ,別 の 選 択 肢 と して ,任 意 の 対 数 尤 度 を 定 義 して パ ラ メ ー タ推 定 を行 え る NLMIXEDプ ロシジ ヤ を用 い ,対 数 尤度 に 正 則 化 項 を付 与す る こ とで スパ ー ス 推 定 を 行 う方 法 を検 討 す る。 NLMIXEDプ ロシ ジ ャ を 用 い る こ とで ,GLMSELECTプ ロ シ ジ ャ及 び HPGENSELECTプ ロシ ジ ヤ で サ ポー トされ て い な いモ デ ル や 正 則 化 項 も扱 え る 可 能 性 が あ る。 キ ー ワー ド :ス パ ー ス 推 定 ,正 則化 法 ,lasso,NLMIXEDプ ロ シ ジ ャ 1.は じめ に スパ ー ス推 定 の代表 格 で あ る lassoは ,線 形 回帰 モ デル の 回 帰係 数 の推定 にお い て ,残 差平方 和 に回帰係数 ベ ク トル のιlノ ル ム を正 則化 項 として加 えて推 定す る方法 で あ る。正則化 パ ラ メ ー タを調整す る こ とで ,lasso は い くつ か の 回帰係 数 をぴ った り 0に 推 定 す る こ とが出来 る。 0と 推定 され た 回 帰係数 に対応 す る説 明変数 は 目的 変 数 に寄与 しない こ とか ら,lassoは 回帰係数 の推 定 と変 数選択 を同時 に行 っている と解 釈 出来 る。 ま た ,説 明変数 の数 がデ ー タ数 よ り多 い場合 ,通 常 は回帰係 数 の 推 定値 が求 ま らな い が,lassoは そ の よ うな状 況 で も推 定 を行 える。説 明変数 が沢 山あ るが ,そ のほ とん どは 目的変数 に影 響 しな い よ うなデ ー タ に対 して , 疎 な モ デ ル を当てはめ る こ とが 出来 るこ とか ら,lassoの 様 な推 定方法は スパ ー ス 推 定 と呼 ばれ て い る。 線 形 回 帰 モ デル だ けで な く, 目的変数 の 分布 に二項分布 及 び ポ ア ソン分布 等 を含 む指数型分布 族 を仮 定出 来 る よ う拡 張 した一般 化線 形 モ デル ,生 存 時 間解析 で用 い られ る Cox回 帰 モ デ ル で も,対 数 尤 度 に正則化項 を加 え る こ とで スパ ー ス 推 定 を行 うこ とが 出来 る。 SAS/STAT 14.3で は ,GLMSELECTプ ロ シ ジ ャ及 び HPGENSELECTプ ロシ ジ ャで ,一 般線 形 モ デ ル 及 び一 般化線 形 モ デ ル にお い て ,lasso及 びそ の 拡 張 法 を用 いて 変 数 選 択 を行 うこ とが 出来 る。現在 の バ ー ジ ョンの SASで は ,適 用 出来 るモ デ ル と方法 は Table lの 範 囲に限 られ て い る。 163
Table l SAS/STATの lass。 関 連 の プ ロ シ ジ ャ GLMSELECT(一 HPGENSELECT(一 般 化 線 形 モ デ ル 般線形 モ デル) ) lasso group lasso elastic net adaptive lasso NLMIXEDプ ロ シ ジ ャは,本 来 は非 線 形混合効果 モ デ ル を当てはめ るた め のプ ロシジ ャで あ るが ,任 意 の 対 数 尤度 を定義 して パ ラメー タ推 定 を行 う機能が あ り,非 線形混合効果 モ デ ル の み な らず 様 々 なモ デル解析 に利 用 出来 る (伊 藤 2013,小 林 2013)。 パ ラメー タ推 定 値 を得 るだけで あれ ば ,必 ず しも対数 尤度 ではな く , 推 定 に用 い る 目的 関数 を定義す る こ とも出来 る。 した が つて ,NLMIXEDプ ロ シジ ャで対 数 尤 度 に正則化項 を加 え る とい う直感 的 に分か りやす い 方 法 で,比 較 的簡 単 に スパース推 定 を行 うこ とが 出来 る (SAS Instit■ c NLMIXEDプ ロシジ ャで は ,対 数尤度及 び 正 則化項 を 自分 で定 義す ることが 出来 る ので GLMSELECTプ ロ シ ジ ャ及び HPGENSELECTプ ロシ ジ ャ でサポー トされ て い ない モデ ル や ,他 の正則化項 も lnc 2017b)。 , 扱 え る可能性 が あ る。 以 下では,最 初 に本 稿 を通 して利 用 す る仮想 デ ー タの作成方法 を説 明す る。 次 に,lassoの 基礎 的な内容 を 説 明 した後 ,NLMIXEDプ ロシジ ャ を用 いて lassoを 実 行 す る方法 を説 明す る。 また,ス パ ー ス 推 定 を行 う際 に重 要 な正則化 パ ラメ ー タの選択 に つ い て も説 明す る。 そ の後 ,NLMIXEDプ ロシジ ャを用 い て一般化線型 モ デ ル 及び Cox回 帰 モ デル で スパ ー ス推 定 を行 う方 法 を説 明す る。最 後 に ,elastic nct等 の lassOを 拡張 した スパ ー ス推定 を行 う方 法 を説明す る。 スパ ー ス推 定 に 関す る詳細 は川 野 ら (2018)及 び Hastie et al.(2015)が 詳 しい。 1.1仮 想 デ ー タ の 作 成 本稿 で使用す る仮想デー タを作成す る SASプ ログラム を PЮ gam lに 示す 。デー タ数η=100と し,10個 ・,π J=1,… ,10を 独 立に標準正規分布 に従 う乱数で発 生 させ る。線形予測子η:を の説 明変数χり,̀=1,・・ ηι=1.5χ ,1‑1.0社 3+1・ 2■ 5 0・ 8χ :8 0・ 8■ 9 で 求 め る。つ ま り,10個 の説 明変 数 の うち 'χ :1,χ :5,χ :8,χ '9の '3,χ , (1) 5つ だ け が 非 0の 回帰係 数 を持 ち ,η lに 寄 与 して い る。 残 りの 説 明 変 数 の 回 帰係 数 は 0で あ る。 η:に 独 立 に標 準 正 規 分 布 に 従 う誤 差 項 を 付 与 し,目 的 変 数 (連 続 量 )を 求 め る。 乃 =η j+ε ルε Ⅳ(0,1) ̀〜 ま た ,同 じ線 形 予 測 子 ηjか ら生 起 確 率 πι を eXp(η j) π :=TTτ 覇7雨 に よ り求 め,生 起確 率πiの ベル ヌ ー イ 分布 に従 う乱数 で 目的変数 (2値 :1又 は 0)を 発生 させ る。 更に,イ ベ ン トまでの時 間 ι をハ ザ ー ド =exp綿 れ )の 指数 分布 に従 う乱数 で ,打 ち切 りまでの時間ι 「 fを ハ ザ ー ド0■ の 指 数 分布 に従 う乱数 で発 生 させ , 目的変 数 (生 存 時間 )を ti=min(イ ,ィ )と す る。 打 ち切 り指標 δiは ,tiが イ ベ ン トの場合 1,打 ち切 り場合 0と す る。 164
lassoで 解析す る際 ,説 明変数 の単位 が 変 数選択 に影響 しない よ う,説 明変数 を標 準化 してお く必要 が あ る。 また , 目的変数 が連 続 量 の場合 は ,一 般 的 に中心化 を行 つてモ デ ル か ら切 片 項 を除 く (上 記 の仮想デ ー タは そ の よ うに作成 して い る)。 Program l仮 想 デ ー タ作成 data SAMPLE; call streaminit(12345): array XA{*] Xl― X10; do i=l to 100; do j=l to 10; XA I」 l=rand('normal',0,1);*説 明変数 i endi eta=1.5*Xl‑1.0*X3+1.2*X5‑0.8*X8‑0.8*X9:*線 形 予 測子 Y=eta+rand('normal',0,1);*目 的 変数 (連 続 量 ); p=logistic(eta); Y2=rand('bernoulli',p):*目 的 変数 (2値 ); h=exp(eta): etime=rand('exponential')/h: ctime=rand('exponential')/0.1: time=min(etime,ctime);*目 的 変 数 (生 存時間 ); censor=(etimeく =ctime);*0:打 ち切 り,1:イ ベ ン ト ; outputi end; drOp l 」 etime Ctimei run; 2.lasso 2.1 lassoと は ・,ρ ついて最小化することで,線 形回帰モデルの回帰係数の推定を行う。 lassoは ,以 下の式をみブ=1,・・ / ′ ︲ ︲ ヽ πマム⁚ ′ ¬ ヽ y: 乙 Bixii ′ ヽ 1 1 : ヽ ノ + ^ztpi (2) (2)式 の様 な形 式 を用 いて推定 を行 う方 法 を正則化法 と呼 ぶ 。第 1項 目は線 形 回帰 モ デ ル の残 差 平方和 で あ り , モ デ ル のデー タヘ の 当てはま りが 良 い ほ ど小 さくな る。 第 2項 目は正則 化 項 と呼ばれ ,lassoで は回帰係 数 の 絶 対値 の和 (回 帰係 数 ベ ク トル のL.ノ ル ム)で ある。λ(≧ 0)は 正 則化 パ ラメー タ と呼 ばれ ,正 則化 の程度 を 調整 す るた めの ハ イ パ ーパ ラメー タで あ る。 (2)式 の 最 小 化 は,Σ 子1島 │≦ ιの制約 条件 下 での推 定 と同値 で あ り,制 約領 域 の 特徴 か ら,い くつ か の 回帰係数 をぴ った り 0に 推 定す る こ とが 出来 る。λを小 さくす る と,第 165
1項 目のモ デ ルの 当て は ま りが優先 され ,0と 推 定 され る回帰係 数 の数 が少 な くな り,λ =0の 場合 は最小 二 乗 法 に な る。λを大 き くす る と,第 2項 目が優 先 され て ,0と 推 定 され る回帰係 数 の数 が 多 くな る。 行 列 表 現 を用 いて(2)式 を )2+λ ‖ ‖ β 1 ΣOi̲ィ β (3) ・,χ :′ )及 びβ=『1,… ′ と書 き換 えることが出来 る。 ここで,χ :=(χ :1,・・ βρ )で ある。以降では,主 にこの表現 を説 明に用 いる。 2.2 NLMIXEDプ ロ シ ジ ャ に よ る lassoの 実 行 NLMIXEDプ ロシジ ャ で ,対 数尤度 を定義 して パ ラメー タ (回 帰係 数 )の 推 定 を行 うには ,model文 で LL=対 数尤度 の定 義 〜 model 目的変1数 general(LL)i i の よ うに指 定す る。 対数 尤 度 の 定義 (各 デ ー タ の 対数尤度 へ の 寄与 )は ,プ ロ グラ ミング文 を用 いて指 定す る こ とが 出来 る。NLMIXEDプ ロシジ ャで ,仮 想 デ ー タに対 して lassoに よる解 析 を行 う方 法 を PЮ gram 2に 示す。 LLは 対数尤度 で は な く,残 差平方 十正 則 化 項 を指 定す る。 lassoは (3)式 の最 小化 を行 うが ,NLMIXED プ ロ シ ジ ャは 目的関数 の 最 大化 を行 うた め ,(3)式 とは符 号 が逆転 してい る。Progam 2の 指 定 で は ,各 デ ー タ の残 差 平方 に(3)式 の正 則 化 項 が付与 され てい る こ とにな るた め ,正 則化項 が n(デ ー タ数 )倍 され るこ とに な るが ,λ の スケール が変 わ るだけで ,解 析 結 果 に本 質 的 な影 響 はな い。 SumabS関 数 は ,引 数 に指 定 した複 数 の 変数 の絶対値 の 和 を返 す 関数 であ る。 「of*:」 は ,「 頭 が *か ら始 ま る変数 全 て」 とい う指 定方 法 で あ る。なお ,こ の表現 を用 い る際は ,回 帰係 数 以外 の変数名 が *か ら始 ま らない よ うに注意 す る必 要 が あ る。ods output文 で ,「 parameterestimates=デ ー タセ ッ ト名」 を指 定す る こ とで ,回 帰係 数 の推 定値 をデ ー タセ ッ トに 出力 す るこ とが 出来 ,後 述す る解 パ ス 図 の 作成や ク ロスバ リデ ー シ ョンの 実行 等 に利 用 出来 る。説 明変 数 の数 が 多 い場合 , Program 3の よ うにマ ク ロ を利 用す る とプ ロ グラ ム を楽 に書 け る。 Program 2 NLMIXEDプ ロ シ ジ ャ で lassoを 行 う方 法 ods output parameteresti:nates=ESTi proc nimixed data=SAMPLE maxiter=500; lambda=0.0368;*正 則 化 パ ラ メー タ ; mu=bxl*xl+bx2*x2+bx3*x3+bx4*x4+bx5*x5+bx6*x6+bx7*x7+bx8*x8+bx9*x9+bx10*x10 LL=― (Y― mu)**2 /*残 差平方 */ ―lambda*sumabs(of bi): *IE貝 ll化 1頁 : model Y〜 general(LL): run; λ=0.368と した ときの lassoの 推 定値 を Tめ lc 2に 示す。い くつ か の パ ラメー タが 0と 推 定 され て い る。なお , NLMIXEDプ ロシジ ャ の 出力 は対数尤度 が 定義 され るこ とを前提 に してい るた め ,パ ラメー タ推 定値 以外 の 部分 は解 釈 出来 ないの で ,注 意 が必要 で あ る。 166
Progam 3マ ク ロ を用 いたモデル の 記載方法 Yotracro model (P) ; mu=bxl * xl %do i=2 %to &P %by 1; +bx&i x x&i %end; %mend; Tあ le 2仮 想 デ ー タに対す る lassoの 推 定値 bxl bx2 1.08 bx3 bx4 ‑0.83 bx6 bx5 bx7 0.95 bx8 bx9 ‑0.45 ‑0.70 bx10 2.3正 則 化 パ ラ メ ー タ の 選 択 正則化 パ ラメー タλを動か した とき,推 定値 が どのよ うに変化す るか示 した図 を解 パ ス図 と呼ぶ。仮想デー タに対す る lassoの 解パス図 を Figurc l(左 )に 示す。λを大きく してい くにつれて ,各 推定値が 0に 向 か って 縮小 され ,最 終的にす べ ての推定値が 0と 推 定 され る。lassoで は ,λ の値 に依存 して推定値が変化 し,そ れ によってモデルに含 まれ る (非 0の 推定値 を持 つ)説 明変数 も異 な って くるた め,正 則化パ ラメー タの選択 は非常に重要な問題である。 正則化 パ ラメー タの選択 には,Kお ld cЮ ss― validation(CV)が よ く用い られ る。 K― おld CVは ,モ デル の当 てはめに用 いたデー タではな く,将 来得 られ るデ ー タに対す る当てはま りが良いモ デルを選択す る とい う考 え方 に基 づいてい る。 ・,Dκ に分割す る。た番 目の グル ープを除 いたデータで推定 した回帰係 まず ,デ ー タをκ個 のグループDl,・ ・ た た 数 をρ とす る。β を用 いて ,た 番 目のグループのデータをテ ス トデ ー タと見な して残差平方和 ε ′ =Σ κ (光 『ρ)2. ̲χ ̲た ,cDた y=Σ ∬ 7が 最小とな に用いる。σ κについて繰り返し,そ の合計ε を求める。これをた=1,¨・′ =.ε 路を評価基準 るλに対応 す るモ デル を最適 と判 断す る。 仮 想 デ ー タに対す る lassoの 10お ld CVの 結果 を Figurc l(右 )に 示す。図 中 に ,横 軸 を ‑1以 下 の 範 囲に 絞 って ズー ム した図 も示 して い る。真 の 回帰係 数 が非 0の 説 明変 数 がモデル に含 まれ てい く段階 で は CV値 は減 少す るが ,そ の後真 の 回帰係 数 が 0の 説 明変数 がモ デル に含 まれ ると CV値 は増加 す る。 CV値 は ‑2.1 (λ =0.122)で 最小 にな る。 167
爾 翻 10 ︒ 0 4 製 贅響 ヽ︱ ヽいツヽ 彗ス6 ‐ 一 0 0 3 10 >0 bx4 b× bK7 / b× 2 ″ ︒ 0 2 ノ 5 一/ bx8 ‑4 ‑3 ‑2 畑 0 ´ ■li■ ―´ 6x9 ‑1 ‑4 0 正則化バラメータ(対 数変換 ) ‑3 ‑2 ‑1 0 菫則化パラメ…夕(対 数変換 ) ̀ Figure l仮 想デ ー タに対す る lassoの 解 パ ス図 (左 )及 び 10‑お ld CVの 結果 (右 ) 3.一 般化線形 モデル及び Cox回 帰モデル ー般化線形 モデル及び Cox解 析 モ デルでも,対 数 (部 分 )尤 度 関数 にιl正 則化項を加 えるこ とで,lassO型 のスパー ス推定 を行 うことが 出来 る。 パ ラメー タ推定の際 ‐1 ヽ 2J(β ;ん を最大化す る。 t(β ;ん χ ̀)は , χ ス ‖ ‖ β 1 ̀)― ,ι 番 目の デ ー タに対す る対数 尤 度 の 寄与 で あ る。 まず ,一 般化線 形 モ デ ルの特 別 な場合 で あ る ロジステ ィ ック回帰 モ デル につ いて ,NLMIXEDプ ロシジ ャで lassO型 のスパ ー ス推 定行 う方 法 を説 明す る。 続 いて ,Cox回 帰 モ デル につい て ,lassO型 のスパ ー ス推 定行 う方 法 を説 明す る。 3.1ロ ジステ ィ ック回帰 モ デ ル ロジステ ィ ック回帰 モ デル の 対 数 尤度 は eXP(χ 『β) :+(1‑光 )10g(1‑・ ),π 1+eXp(χ 2ガ Og π 『β ̀= ) で あ る。仮想 デ ー タに対 して ,NLMIXEDプ ロシジ ャで ロジステ ィ ック回帰 モ デ ル の lasso型 の スパー ス推定 を行 う方法 を Proram 4に 示す (nimixed文 は PЮ gram lと 同 じなので省 略す る,以 下 同様 )。 本 稿 の仮想デ ー タは切片 を持 た ない ので ,PrOgram 4で も切 片 を指 定 してい な いが ,2値 デ ー タは連続 量 の よ うに中心化 出 来 ないため ,実 デ ー タの解析 で は モ デル に切片 を含 め る必要 が あ る。 Proram 4 NLMIXEDプ ロ シ ジ ャで ロジステ ィ ック回帰 モ デル の lassO型 のス パー ス推 定 を行 う方法 lambda=0015;*正 則化 パ ラ メー タ ; xb=bxl*xl+bx2*x2+bx3*x3+bx4*x4+bx5*x5+bx6*x6+bx7*x7+bx8*x8+bx9*x9+bx10*x101 pi=10giStiC(xb); LL=Y2*log(pi)+(1‑Y2)*log(1‑pi)/*対 数尤度 */ ―lambda*SumabS(Of bi): *コ 三貝ll化 項 i model Y2〜 general(LL); 168
正 則化 パ ラメー タλを変化 させ た ときの解 パ ス図 を Figwe 2(左 )に 示す 。 また ,Figure 2(右 )は 逸脱 度 (de宙 ancc)を 用 い た CVの 結果 で あ る (3.3を 参照 )。 仮 想 デ ー タは共通 の 回帰係数 を設 定 してい るため , 線形 回帰 モデ ル の とき と似 通 った解 パ ス 図 が得 られ る。 なお ,対 数尤度 の 定義 を変 更す る こ とで ,ポ ア ソン 回帰 モ デ ル 等他 の一 般 化線 形 モ デ ル で もスパー ス推 定 を行 うこ とが 出来 る。 140 bxl bx2‐ > O o●●理>o● bx4 130 "̲̲̲‐‐ ■‐‐ なx10■ #‐ ル bx7 ‑'… ‐ ‐ ‑1 bx3 =̲■ 110 ″ bxO ‐ 熱×9 ■■̲■ 120 ′ 埋 似響 も︱ ヽいツヽ bxS― 一――――、…̲̲̲̲〜 ̲・ ― 100 ‑6 ‑4 ‑2 ‑4 ‑8 ‑2 正則化 バ ラメータ(対 数変換 ) 正則化パラメータ(対 数変換 ) Figue 2仮 想 デ ー タに対す る ロ ジステ ィ ック回帰 モ デ ル の解 パ ス 図 (左 )及 び 10おld CVの 結果 (右 ) 3.2 Cox回 帰 モ デ ル Cox回 帰モデルの対数部分尤度 (タ イがない場合)は η,「 、 ■l1 21イ ̀ L , ′ ヽ1 CR: ヽノ ノ」 1▼ ¬ !l β ‑10g12 eXp(イ β)││ で あ る。Cox回 帰 モ デ ル の対数 部分尤度 は ,イ ベ ン トが起 こった時点古 =1,… ,mに つ い て計算 され る。χ ̀は "ι j番 目にイ ベ ン トを起 こ した個体 の説 明変数 で ある。R̀は ,番 目の イ ベ ン トが起 こった時点 で の リス ク集合 と呼 ばれ ,ι 番 目の イ ベ ン トが起 こる直前 で ,ま だイベ ン トを起 こ してい な い 又 は打 ち切 りにな ってい ない個 体 の 添 え字 の集合 で あ る。 したが って ,j番 目の イベ ン トに対 す る対数部分尤度 を計算す る際 ,イ ベ ン トを起 こ し た 個 体 の説 明変数 だ けで な く, リス ク集 合 に含 まれ る個 体 の説 明変数 も参 照す る必要 が あ る。 SASは デ ー タ ス テ ップ をは じめ と して ,あ るオブザ ベ ー シ ョンの処 理 中 に他 のオブ ザ ベ ー シ ョンのデ ー タ を参 照す る のが 苦手 な ので,NLMIXEDプ ロシジ ャ で対数 部分尤度 の 2項 目を計算 す るた めの工夫 が必 要 とな る。本項 では , NLMIXEDプ ロシジ ャ内 で一 時配列 を定義 し,read̲array関 数 を用 いて全 個 体 の生 存時 間 と説 明変数 を配列 に取 り込み ,任 意 の デ ー タを参 照 出来 る よ うにす る。 この 方 法 は ,Cox回 帰 モ デル のた め の PHREGプ ロシ ジ ャに用 い るデ ー タセ ッ トを,力 口工せ ず にそのまま使 うこ とが 出来 る。 NLMIXEDプ ロシ ジ ャを用 いて ,仮 想 デ ー タに対 して Cox回 帰 モ デル の lasso型 のスパー ス 推 定 を行 う方 法 を PЮgram 5に 示 す 。 一 時配列 を定義す るには ,array文 で配 列名 [要 素 数]の 後 に̲temporary̲を 付 ける。通 常 の 配 列 は変数 を要 素 に持 つ が ,一 時配 列 は値 を要素 に持 つ 。 read̲array関 数 は配列 にデ ー タセ ッ トの値 を取 り込む 関数 で ″ read̲array(″ デー タセ ッ ト名 ,配列 名 ,'取 り込む変数 名 ')で あ る。 一 時配 列 へ のデ ー タセ ッ トの取 り込み , は ,最 初 のオブザ ベ ー シ ョン (N=1)の ときだ け行 えば 良 く,そ うしな い と処理 時間が増加 す る。NLMIXED プ ロシジ ャには ,where文 でイ ベ ン トのデ ー タのみ用 い れ ば 良 い (正 則化 項 はイ ベ ン ト数 倍 され る)。 一 方 , 一 時配列 には打 ち切 りも含 む全 てのデ ー タを取 り込む 必 要 が あ る。 ちなみ に ,こ のプ ロ グ ラ ム で は,イ ベ ン 169
卜の 時間にタイがある場合 ,タ イ の時点 の対数部分尤度 に対 して同 じリス ク集合 が用い られ るため,Breslow の近似 を行 ってい ることに相 当す る。 仮想デ ー タに対す る Cox回 帰 モデルの解 パ ス図を Figure 3(左 )に ,10お ld CVの 結果 を Figurc 3(右 )に 示す。 Program 5 NLMIXEDプ ロシ ジ ャで Cox回 帰 モ デル の lasso型 の スパー ス推 定 を行 う方法 lambda=0.041;*正 則 化 パ ラメー タ ; array XX [100,10] ̲temporary̲: array TT [100]̲temporary̲; if N =l then doi rc=read̲array(″ SAMPLE″ ,XX,'Xl','X2','X3','X4','X5','X6','X7','X8','X9','X10')i ′ rc=read̲array(″ SAMPLE′ ,TT,'Time'); end; den=0;*対 数尤度 の 2項 目た めの計 算 : do i=l to 100; den=den+(TT[i]〉 =Time)*exp(bxl*XX[1,1]+bx2*XX[│,2]+bx3*XX[i,3]+bx4*XX[│,4]+bx5*XX[i,5] +bx6*XX[i,6]+bx7*XX[1,7]+bx8*XX[i,8]+bx9*XX[1,9]+bx10*XX[i,10])i endi LL=bxl*Xl+bx2*X2+bx3*X3+bx4*X4+bx5*X5+bx6*X6+bx7*X7+bx8*X8+bx9*X9+bx10*X10‑log(den) ―:ambda*sumabs(of b:); *IE貝 」化 I頁 i model Time〜 genera:(LL); Where CenSOr=1;*イ ベ ン トの デー タのみ 読 み 込 む i 1.5 5 2 Ю b× ・‐¨̲̲̲ ̲ 5‑ ― ̲̲ ∞ 0 bス , 三:==:タ m bx2 bx4 5 7 >O o●E理>o● 5 埋 製翠 熟︱ヽいりヽ 難×6 bχ ;0 5 5 2 bx3 0 ‑5 ‑4 ‑3 ‑2 ‑4 ‑1 ‑3 ‑2 正則化 バ ラメータ(対 数変換 ) 正則化パラメータ(対 数変換 ) Figurc 3仮 想 デ ー タに対 す る Cox回 帰 モ デル の解 パ ス 図 (左 )及 び 10‑お ld CVの 結果 (右 ) 170
3.3正 則 化 パ ラ メ ー タ の 選 択
一般化線形モデル及び Cox回 帰モデルの場合 ,残 差平方和 の代 わ りに逸脱度 (‑2× 対数尤度)を 用 いて
CVを 行 うことが 出来 る。一般化線形モデル の場合 ,た 番 目のグループを除いて推定 した回帰係数ρた とた番 目
の グループのデ ー タを用いて
,
Dθ
υ
=‑2Σ ιり
κ
(β
,χ
̀)
'CDた
υが最小となるλに対応するモデルを最適と判断する。
を計算する。Dθ υCy=Σ ∬
=l Dθ た
Cox回 帰 モデルの場合 ,た 番 目のグループのデ ー タだけを用 いて対数尤度 を計算す る と,リ ス ク集合 に十分
なデ ー タが含 まれない可能性 がある。その よ うな場合
Dθ
υ
κ=Dθ υ(β
,
た
)一 Dθ υ (β
た
た
)
とい う計算 が用 い られ る こ とが あ る。右 辺 の 第 1項 目は全デ ー タを用 い て評 価 した逸 脱度 ,第 2項 目はた番 目
の グル ー プ を除 いたデ ー タを用 いて評価 した逸 脱 度 であ る。 逸脱度 の計算 には正則 化 項 が含 まれ な い ので
,
PHREGプ ロシジ ャで 計算す る方 が簡 単で あ る (Proram 6)。 NLMIXEDプ ロシジ ャで得 られ た lasso推 定値
を inestオ プ シ ョンで 初期値 として与 え,maxiterオ プ シ ョンで推 定 の反復 計算 回数 を 0と 指 定す れ ば ,初
期値 に対応 した逸脱度 (‑2× 対数尤度 )が 出力 され る。
Proram 6 PHREGプ ロシ ジ ャで推 定値 を与 えて対数 尤度 を計算 す る方 法
proc phreg data=SAMPLE inest=EST;
mode
I t mexcensor (0) =Xl -Xl 0 ,/max ter=0
i
i
run:
4.そ の 他 の正 則 化 項
NLMIXEDプ ロシジャを用 いて,lassoの 拡張である elastic net及 び goup lassoを 実行す る方法 を説 明す る。
線形回帰 モデルの場合 のみ説明す るが,一 般化線形 モデル及び Cox回 帰 モデルで も,同 様 の変更で clastic nct
及び gЮup lassoを 行 うことが 出来 る。
4.l elastic net
lassoは ,説 明変数 間 に強 い相 関 があ る場合 ,そ の 内 の 1つ だ け を選 択す る傾 向が あ る。 また ,デ ー タ数 よ
りも説 明変数 が 多 い 状 況
(ρ
>れ )で は ,高 々η個 の説 明変数 しか選択 出来 な い とい う問題 が あ る。 仮想 デ ー
タにお いて ,χ :3,χ :5を 相 関係 数 ‑0.9,χ ι
8,χ i9を 相 関係数 0.9の 2変 量標 準 正 規 分布 に従 う乱数 に置 き換 え,変
更 した仮 想 デ ー タに対す る lassoの 解 パ ス 図 を Figure 4(左 )に 示 す。 Fittrc lと 比 べ る と,回 帰係 数 bx5が
常 に 0と 推 定 され てい る。
elastic netは
,上 記 の 問題 点 を解 決 した lassoの 拡 張で あ り,以 下 の式 を最小化 す る。
)2+λ ‖
‖(1‑α β
β
β
Σ ̲χ『
(乃
{α
171
.十
)‖
ll分
β f+汚 +… + ここで,‖ β‖ 2= は,回 帰係数ベクトルの12ノ ルムである。elastic netの 正則化項は,ι lノ ル ム とι2ノ ル ムの 2乗 を合 わせ た形 を してお り,α =1の ときは lassoに ,α =0の ときは リ ッ ジ 回帰にな る。 NLMIXEDプ ロ シ ジ ャで clastic nctに よる解析 を行 うに は ,Proram 7の よ うに指 定す る。uss関 数 は,引 数 に 与 え られ た複 数 の 変数 の 2乗 和 を返す。 変 更 した仮想 デ ー タに対 して ,α =05に 固定 した ときの elastic nct の解 パ ス 図 を Fittre 4(右 )に 示す。 lassoと は異 な り,回 帰係 数 bx5は 途 中まで は 0と 推 定 され ていない。 Program 7 NLMIXEDプ ロ シ ジ ャ で elastic netを 行 う方 法 lambda=0368;*正 則化 パ ラ メー タ ; alpha=0 5; mu=bxl*xl+bx2*x2+bx3*x3+bx4*x4+bx5*x5+bx6*x6+bx7*x7+bx8*x8+bx9*x9+bx10*x10; LL=― (Y¶ u)**2 /*残 差 平方 */ ―alpha*lambda*sumabs(of b:)― (1‑alpha)*lambda*uss(of bi);*正 則 化項 i model Y〜 general(LL)i 1.0 1 埋 硬翠 も︱ヽい7ヽ 埋 投翠 も︱ ヽいけヽ bィ 6 bxヽ 6 bx4 影ス7 0 bx5 *-******: bxi ・′ bx8---‑1 bγ や 0b 鶴x̀ 象 6̲̲̲̲̲̲̲̲、 bx1 0 00 ̲^̲ヽ ̲、 .、 ̲ bx4 もス リーーーー bx2 ‑0.5 bx8‑― ^― ‐―― ̲̲̲̲、 ̲̲̲̲ ‑10 鼈x, / ノ ‑15 ‑4 ‑2 0 ‑4 正則化パラメータ(対 数変換 ) ‑2 0 正則化 パ ラメータ(対 数変換 ) Figure 4相 関を加 えた仮想 デ ー タに対す る解 パ ス 図 (左 :lassO,右 :elastic net) 4.2 group lasso 多項式 ,主 効果 と交互作用 効果 ,カ テ ゴ リカル 変数 (3水 準以上 )の ダ ミー変数等 ,説 明変 数 が グルー プ 化 され てお り,説 明変数 が個別 にモ デ ル に含 まれ るか ど うかで はな く,説 明変数 の グル ー プ が 同時 にモデル に含 まれ るか ど うか検討 した い場合 が あ る。 lassoで は ,各 説 明変数 が個別 に モ デル に含 まれ るか ど うか検討 され る。最 初 の 仮想 デ ー タの線 形予測 子 に ,今 度 は交互 作用項 を加 え る。 す な わ ち,(1)式 を η:=1.5χ il‑1.Oχ i3+1・ 2χ i5 0・ 8χ t8 0・ 8χ ι 9+0.5χ 'lχ '3+1・ 0社 8χ :9 と変 更す る。交 互 作用 を加 えた仮想 デ ー タに対す る lassoの 解 パ ス 図 (交 互 作 用 に含 まれ る変 数 の み )を Figure 5(左 )に 示 す。 bxl̲3が χ:1,穐 ,bx8̲9が χ:8,χ 対す る交互作用 の 回帰係 数 で あ る。 lassoで は ,そ れぞれ '9に の変数 が別 々 に扱 われ てお り,主 効果 の 回帰係数 が 0と 推 定 され てい るに も関 わ らず ,交 互 作 用 項 の回帰係 数 が非 0と な る よ うな状況 も起 こ りえる。 172
go叩 lassoは 説 明変数 をグル ー プ化 し,グ ル ー プ ご とにモ デ ル に含 まれ るか どうか検 討 出来 る。 以 下 の式 を最 小化す る。 ■ Σ (光 ̲中 )2+λ た β ノ Σ√‖ │12 ノ ' はグルー プ′に含 まれ る説 明変数 βプはグルー プリに含 まれ る説 明変数 に対す る回帰係数ベ ク トルであ り,ρ ′ の数 である。各グループに含 まれ る説明変数 が 1つ の ときは lassoに 帰着す る。NLMIXEDプ ロシジ ャで goup 0叩 lassoの 解パス図を Figwe lassoを 行 う方法 を Program 8に 示す。 交互作用項 を加 えた仮想デー タに対す る 5(右 )に 示す。 lassOの 解 パ ス図 と異な り,グ ループ化 した変数 が同 じタイ『ミングでモ デルに含まれ る。 Program 8 NLMIXEDプ ロ シ ジ ャで group lassoを 行 う方 法 lambda=0.0368;*正 則 化 パ ラ メー タ ; mu=bxl*xl+bx2*x2+bx3*x3+bx4*x4+bx5*x5+bx6*x6+bx7*x7+bx8*x8+bx9*x9+bx10*x10 +bx1 3*xl*x3+bx8 9*x8*x9: LL=― (Y― mu)**2 /*残 差平方*/ ―lambda*(sqrt(3*uss(bxl,bx3,bxl̲3))+sqrt(3*uss(bx8,bx9,bx8̲9)) +sumabs(bx2,bx4,bx5,bx6,bx7,bx10)): *IE貝 り化項 ; model Y〜 general(LL); 10 89‑ 10 ――――――――‐ ̲̲̲、 bxl̲3‑― ――‐ ‑10 ‐ …‐´ ノ /// ̲´ ′イ´ bx8‑一 ‐一・ bx9‑〜 ‐ ‑5 ‑4 5 〇 一 ‑05 ‑3 ‑2 ‑1 ― ―一 0 〇 00 bK8̲9‑ 5 0 製 製翠 鉢︱ヽいワヽ 製 艘編 も1 ヽいツヽ 05 b× い‐…‐ bx8‑‐ ― ‐ ‐ ‐ ‐ ´ ´ ‑10 /′ ´ ´ I:::´ ‑4 0 … ‑3 ‑2 ‑1 0 1 ■則化パラメータ(対 数変換) 正則化パ ラメータ(対 数変換 ) Figurc 5交 互 作 用 を加 えた仮想 デ ー タの解 パ ス 図 (左 :lasso,右 :group lasso) 5。 ま とめ 本 稿 で は ,NLMIXEDプ ロ シ ジ ャを用 いて ,lassoを は じめ と した スパ ー ス推 定 を行 う方法 を検討 した 。 NLMIXEDプ ロシジ ャで スパ ー ス推 定 を行 うこ とが 出来 ,現 在 の バ ー ジ ョンの SASで 実行 出来な い一 般 化線 形 モ デ ル での elastic nctや Cox回 帰 モ デ ル で の スパ ー ス推 定 も行 うこ とが 出来た。NLMIXEDプ ロシジ ャ で は , 対 数 尤度 及 び正則化項 を定義す る こ とが 出来 るの で ,本 項で紹介 した 以外 のモデ ル や 正 則化 も扱 える可能性 が あ る。 SAS/1ML等 を用 いて 一 か らスパー ス推 定 のアル ゴ リズム を実 装す るには ,高 度 なプ ログラ ムの 知識 173
が必要 で あ るが ,NLMIXEDプ ロ シジ ャの場合 は対数 尤度 に正則 化項 を加 え る とい う比較 的分 か りやすい方 法 で実装 出来 る。 一方 ,NLMIXEDプ ロシジ ャは ,ス パー ス推 定 に特 化 した アル ゴ リズ ム で はな く,汎 用 の 最 適 化 アル ゴ リ ズム を用 い るた め ,計 算速度 が遅 い とい う難 点が あ る。PC環 境や デ ー タに も依存す るが ,正 則 化 パ ラメー タ の選択及 び CVの 実行 も考慮 す る と,説 明変数 100〜 200個 くらいが 限界 の よ うに感 じた。 ち なみ に , GLMSELECTプ ロシジ ャ及 び HPGENSELECTプ ロシジ ャで は ,説 明変数 が数 1000個 で も実行 で きる。 以上 ,NLMIXEDプ ロシジ ャは ,適 用 出来 るデ ー タに限界 が あ るが ,SASで GLMSELECTプ ロ シジ ャ及 び HPGENSELECTプ ロシジ ャで実 行 出来 ないスパ ー ス推 定 を行 う際 の選択 肢 とな り得 る。 参考文 献 Hastic,■ ,Tibshirani,Rり and Wainwnght,M.(2015).StttiStiCal learning with sparsity.Chapman&Hal1/CRC. 伊 藤 要 二 (2013).NLMIXEDプ ロ シ ジ ャ を用 い た 生 存 時 間解 析 .SASユ ー ザ ー 総 会 論 文集 ,73‑82. 岩 波 デ ー タサ イ エ ンス 刊 行 委 員 会 (2017).岩 波 デ ー タサ イ エ ン ス 恥 1.5.岩 波 書 店 . 川 野秀 一 ,松 井 秀 俊 ,廣 瀬 慧 (2018).ス パ ー ス推 定 法 に よ る統 計 モ デ リ ン グ .共 立 出版 小 林聡 晃 (2013).NLMIXEDプ ロ シ ジ ャ紹 介 . PK解 析 及 び 生 存 時 間解 析 へ の 応 用 .SASユ ー ザ ー 総 会 論 文 集 83‐ 93. SAS Institutc lnc.(2017a).SAS/STAT(R)14.3 Uscr's Guide.SAS Institutc lnc,Cary,NC,USA SAS Institutc lnc.(2017b).Usagc Nbtc 60240:Rcgularization,reg℃ [h■p:〃 suppo■ .sas.con1/kb/60/240.htinl] 174 ssiOn pcnalties,LASSO,ridging,and elastic nct. ,
日本 にお けるSASグ リッ ド・ コ ン ピュー テ ィ ン グ環境 へ の移行事例 o筒 井 杏奈、小澤 康彦 (ア ス トラゼネカ株式会社 バイオメ トリックス部) An experience of migrating to SAS Grid Computing environment in Japan Anna Tsutsui, Yasuhiko Ozawa Biometrics Department, AstraZeneca K.K. 要旨 近年 、処理 時 間 の短縮及 び 解 析 業務 の効率化 を期待 し、SASグ リッ ド・ コ ンピュー テ ィ ング環境 の 導 入 。移行 事例 が 増加 してい る。 ア ス トラゼ ネ カ株 式 会社 におい て も、ア ス トラゼ ネ カ ・ グ ローバル で の 導入 に伴 い 、 2017年 に SASグ リッ ド・ コン ピュー テ ィ ング環境 に移 行 した。移行 後 は、短時間で解 析 結果 が得 られ 、 日本 での SASリ ソー スの管理 業務 も不要 とな っ た。一方 で解析環境 の 変化 に伴 い 、予期 せ ぬ SASの エ ラー 及 び Sh詭̲JISに 関す る問題 等 が生 じ、追加 の 調 査 と対応 が必 要 とな つた。 日本 で の 移行経験 か ら、SASグ リッ ド・ コ ン ピュー テ ィ ン グ環境 の特長 、移 行 前 に検討 した課題 と対策 、及 び移 行後 に生 じた 問題 点 と解決 策 につ いて報告す る。 キー ワー ド :SASグ リッ ド・ コ ン ピュー テ ィ ング環境 、 Linux、 SAS Studio、 文字 コー ド、 Shi■ JIS 1.は じめ に SASグ リッ ド・ コ ン ピューテ ィ ング環境 (以 下、SASグ リッ ド)へ 移 行 す る と処理 時 間 が短 縮す るた め [1, 2]、 近年 、SASグ リッ ドの導入 。移 行 事例 が増加 して い る [1,3]。 ア ス トラゼ ネ カ株 式会 社 の解 析部 門 (以 下 、 当部 門)に お い て も、ア ス トラゼ ネ カ ・ グ ローバル で の 導入 に伴 い 、 2017年 に SASグ リッ ドに移行 した 。 SASグ リッ ドヘ の移行 に よる解 析 環境 の変化 は、 単 にサー バー ヘ の接 続 が必要 とな る、 も しくはそ の 手順 が変 更 され る とい うだ けで はない。「SASグ リッ ドヘ 移 行 した多 くの SASプ ロ グラマ は 、Windowsか ら Linux に、 ロー カル ・ コ ン ピューテ ィ ン グか らサ ー バ ー・ コ ン ピューテ ィ ン グに、個人の リソー ス か ら共有 の リソ ー ス に」 [1]等 、様 々 な変更 を同時 に経験 してい る との 報告 があ る。 SASグ リッ ドヘ の移 行 に よる影 響 は 限 定的 と言 われ て い るが [1]、 プ ロ グ ラムや業務 へ の影 響 に関 し、海 外 で 複 数 の事例報告 が あ る [1,4,5,6,7]。 しか し、 日本 にお いては 、事例報 告 はほ とん どない のが 現状 で あ る。 当部 門で は SASグ リッ ドヘ の移 行 にあた り、移行 前 に対策 が必 要 とな り、移行後 も追加 の調査や対応 が 必 要 となった。 本稿 で は SASグ リッ ドの特長 に加 え 、 当部 門で の移 行 経 験 を報告す る。 175
Grid Client ● │「 ¬ ‐ .Lニ 2.1.グ リッ ド・ コ ン ピュー テ ィ ン グ と SAS ● 薔 彙 品 ∴ グ リッ ド・ コン ピュー テ ィ ン グ とは、1990年 代 か ら用 ● 1「 ■ い られ て い る IT用 語 で あ る。 高圧 送電線 (Powcr Grid) 織 島進 を語源 と し、 コ ンセ ン トに差 し込 めばいつ で も どこで も Grid Nede Central Server 議ヨ 《 :鶏 d Control e I r T 2.SASグ リッ ドの 特:長 server ● m 由 .臓 議 電気 を使 え るよ うに、必要 な ときに必要 な情報や サ ー ビ 図l スが得 られ る こ とを 目指す もの が グ リッ ド・ コ ン ピュー SASグ リッ ドの簡易図 詳細は構築方法によ り異 なる テ ィ ン グで あ る [8]。 電子行 政用語集 で は、「ネ ッ トワー クを介 して 複 数 の コン ピュー タ を接続 す るこ とで 、大規模 な処理 を可能 にす る仮想 的 なひ とつ の コ ン ピュー タシ ステ ム をつ くる技術 の こ と。 個 々の コ ン ピュー タの処理性能 が低 くて も、並列 に接 続 す る こ とで膨大 な 処理 を高速 に実行 でき るよ うにな る」 と記 載 され てい る [9]。 SASグ リッ ドは この技術 を活 用 し、SAS GHd Managerの コ ン トロール 下で、 SASの コ ン ピューーテ ィ ン グ・ タ ス クをネ ッ トワー ク上 の複 数 の コ ン ピュー タに 分散 す る (分 散処理 )[10]。 SASグ リッ ドの簡 易 図を図 1に 示す。それ ぞれ の グ リッ ド・ ク ライ ア ン ト (ユ ー ザ ー )が ジ ョブ をサ ブ ミッ トす る と、グ リッ ド・ コン トロー ル・ サ ー バ ー が処理 を分配 し、それ ぞれ の グ リッ ド・ ノー ド (コ ン ピュー タ)が 処理 を行 い (負 荷 分散 )、 結 果 がセ ン トラル・ フ ァイ ル・ サ ーバー に保 管 され る [10]。 分散処 理 は、SASグ リッ ド内で 自動 的 に処理 され るた め 、 ユ ー ザ ー の対応 は不 要 で あ る。 また SAS Entcrprisc Guide等 の特 定 のアプ リケ ー シ ョン を用 い るこ と に よ り、 1ユ ー ザ ーの ジ ョブ を複 数 の グ リッ ド・ ノー ドが並行 して実 行 可能 なた め (並 列 実行 )、 ユ ー ザ ー は 処理結 果 を よ り早 く得 る こ とが可能 とな る [10]。 昨今 、デ ー タベ ー ス の デ ー タ量 の 増 大 が進 ん で い る。 製 造販 売 後 デ ー タベ ー ス調 査 や 臨床 試 験デ ー タの CDISC標 準 対応 1等 で 、よ り大 き いサ イ ズの デ ー タ を扱 う機 会 が 予想 され る。SASグ リッ ドヘ 移 行 すれ ば、デ ー タの大 き さを意識せず 、解 析結 果 を短 時間 で 得 る こ とが期待 で き る。 さ らに、SASグ リッ ドは ビジネ ス上 のメ リッ トも大 きい [10]。 SASグ リッ ドは、重要 なサ ー ビス又 は SAS プ ロ グ ラ ム を実行 中の サ ーバ ー に何 らかの障 害 が起 きた場合 に、別 のホス トで 作 業 を 自動 的 に開始 させ る こ とがで き る等 (フ ェイ ル オ ーバ ー )、 継続 的 な稼働 能力 が高い (高 可用性 )[10]。 また、 ユ ー ザ ー 数 の多 い組 織 にお け る SASに 関す る リソー ス を、1カ 所 に集 約 す る能力 が ある [10]。 そ の上 、ユー ザー の 業務 へ の影響 な しに、 リソー スの 追加 又 は リプ レイ ス等 の メ ンテ ナ ンスが実施 可能等 、柔 軟 に IT基 盤 を整備 で きる特長 が あ る [10]。 2.2.Linuxと SASグ リッ ド Linuxと は 、 UNIXと 同様 の 仕 様 や 操 作感 を持 つ UNIX系 OSの 一 つ で 、 UNIX互 換 OSと も言 われ る。 な お 、 Linuxと UNIXは 歴 史 的 な経 緯 の た め 仕 様 や 操 作 感 が 似 て い るが 、 中身 は 全 く異 な る OSで あ る。 Linuxの マ ー ケ ッ トシ ェ ア 率 は 、ク ライ ア ン ト PCで は低 い が 、サ ー バ ー OSで は 高 く、「2020年 には 、国 内 l CDISC(Clinical Da● Interchange Standards COnsOnum)標 準 に 準 拠 した デ ー タ で は 、 SDTM(Study Data Tabulation Model)の LB(Laboratow Test Results)や QS(Questionnaircs)等 、特 定 の ドメ イ ン の デ ー タサ イ ズ が 著 し く大 き くな る場 合 が あ る。 176
サ ー バー OS市 場 にお け る Linuxの シ ェア は 5割 に達す る」と見込 まれ てい る [11]。 同様 に 、SASグ リッ ドで は 、 Linuxの 方 が Windowsベ ースの OSよ り効率性 と費 用 対効果 が優 れ てい るた め、多 くの IT業 者 に好 まれ て い る と報告 され てい る [5]。 しか しなが ら、OSが Windowsか ら Linuxへ 変更 され る と、ユー ザ ー には様 々 な対応 が必 要 とな るのは想 像 に難 くない。 実 際 、「SASグ リッ ドヘ の 移行 で生 じる問題 点 の 多 くは、 SASグ リッ ドそ の もので はな く、 SASの OSの 変 更 (Windowsか ら Linuxへ )等 が 関係 してい る」 と報 告 され てい る [7]。 OSの 変 更 に よ り生 じる問題 は、フ ァイ ル パ ス 、LIBNAMEス テ ー トメン ト又 は フ ォーマ ッ トライ ブ ラ リ等 に 関す る事項 で 、各 々 は 単純 か も しれ な い が 、 ユー ザー は一 つ ず つ 解決す る必 要 が ある [4]。 2.3.当 部 門 が 移 行 した SASグ リ ッ ド SASグ リッ ドヘ の 移 行 にあた り、 当部 門 が経験 した主 な変 更点 を表 1に 不 す。 OSが Windowsか ら Linux ーフ ェー スが Display:Managcrか ら SAS Studioに 、等 の様 々 な変 更 が あ った。 に 、 SASイ ンター 処 理 時 間 の短縮 に 関 しては、 1日 環境 の 実行 ログが参 照不 可能 のた め正確 な比較 は示せ な い が、 実感 と して は 効 果 が あ り、短 時 間 で解析結果 が得 られ るよ うにな った 。参考 まで に ロー カル・ コ ン ピュー タに SASを イ ンス トール した場 合 と SASグ リッ ドとの比較 を示す と、 SASで 45万 行 のテ キ ス トファイル の 読み込 むた め の処 理 時 間は、ロー カル・ コ ンピュー タ で は 139秒 に対 し、SASグ リッ ドで は 8.1秒 と違 いが あ っ た。反 面、 海 外 に設 置 され た SASグ リッ ドを用 い るた め 、ネ ッ トワー クの関係 で レス ポ ンスが遅 くな り、プ ロ グラムを 書 く又 は SASデ ー タセ ッ トを開 くな どの作 業 に時間が かか る よ うにな った。 ま た 旧環境 は、 SASグ リッ ド移行後 に廃 止 し、 日本 で の SASリ ソー ス に関す る管理業務 は不要 となった。 ユ ー ザ ーか ら見 た システ ムの構成 図 を図 2に 示す。ロー カル・ コ ン ピュー タの OSは WindOwsで あ る。Web ブ ラ ウザ か ら Cimxを 介 した リモー トデ ス ク トップに ロ グイ ン した後 、SAS Studioを 起動 し、Linuxベ ー スの SASグ リッ ドにア クセ スす る。SASグ リッ ドで作成 した プ ロ グラム 、デ ー タセ ッ ト又 は出力結 果 は、全 て Linux ベ ー ス で あ る。 SASグ リッ ドの 環境 設 定 は一元管理 され て い るが、SAS Studioで グル ー プ (例 :日 本 )や 個 人 単位 で環境設 定 が 可能 であ る。 当部 門では、旧環境 にて 作成 したプ ロ グ ラ ム を SASグ リッ ドで再実行 す る機 会 が 多 い 見込 表 1 当部門が経験 した主な変更点 新 環境 (SASグ リッ ド) 環境 項 目 1日 SASイ ンタ‐―フ ェ‐―ス E)isplay Manager SAS Stlldio SASバ ー ジ ョン SAS 9.3 SAS 9.4 SAS Viewer SAS Systcrn Vlcwcr 9.1 SAS Univcrsal Viewcr l.4 SASサ ーバー タ ー ミナ ル サ ー バ ー [a](Cimx) SASグ リッ ド・ コンピューテ ィング・ サーバー OS WindOWS SeⅣ Cr(WindOWS) Linux 管理者 当部 門 アス トラゼネカ・ グ ローバル ユ ー ザー範 囲 日本 アス トラゼネカ・ グループ全体 [a]複 数 のクライア ン ト (ユ ーザー)が 一つのサーバー に同時に接続 し、サーバー上 にイ ンス トール され た SAS等 のアプ リケー シ ョンを実行 で きるよ うに した もの 177
SAS Crid
み だ っ た た め、再実 行 時 の
で 、 エ ン コー デ ィ ン グ は 旧
● 1「 ■ Citrix
綱hム =ユ・
環 境 と同 じ Shin JISと し
{Windows 10}
影 響 を 最 小 限 に す る 目的
Laμ op
た。
SAS
SAS program,
.dataset,
Studio
SAS outpui
Remote
Deskop Folderaccess
図2
file server
ユ ー ザ ー か ら見た シ ス テ ムの構成 図
3.移 行 内容 の 検 討
当部 門 では SASグ リッ ドヘ の移行前 に、ITシ ステ ム担 当者 に よる確認 と調 査 、及 び ユ ー ザ ー テ ス トを実施
す る こ とで、事前 に予 測 で きた問題 に対 して は可能 な限 り対 策 を講 じた。 しか しなが ら、全 て の 問題 を事前
に取 り除 くのは不 可能 で あ り、移行 後 に問題 が生 じた。
そ こで 、移行経 験 の 振 り返 りを実施 した。 具体 的 には、 まず 、移行前 の課 題 と対策 につい て 、社 内 の ITシ
ス テ ム担 当者 か らの 間 き取 り調査 、及 び社 内導入資料 か ら確 認 した。次 に、移 行 後 に経験 した 問題 点 につ い
て 、 当部 門で活 用 して い るエ クセル フ ァイ ル 形式 の情 報 共 有 ツール (表 2)か ら確認 した。
情報 共有 ツール は 当部 門 の既存 の ツー ル で 、解析 プ ロ グ ラ ミング業務 で の 問題 点 が 見つ か った 場合 に、 こ
の 情 報 共有 ツール に内容 を記載 して 当部 門内 に共有 し、必 要 に応 じて協議 す る こ とで、知識 や 経 験 を共有す
る もの で ある。 SASグ リッ ド移行直後 か ら、各 ユ ー ザ ー が 同様 の 問題 を複 数 経 験 したため、対 応 と して この
情 報 共 有 ツール を積 極 的 に活用す る こ とと した。
本 報 告 の ため、この情 報 共有 ツール に 2017年 8月 か ら 2018年 5月 まで に報 告 され た計 32件 の 情報提供 に
関 し、記 載 内容 を確 認 した。
現 在 の 仕 様
使 用 上 ′
作 業 上 の
注 意 点 、 数 間 点
Progrffiing€
SAS System
VEwer 9- 1
SAS C 上 で 作 成 し た SASデ ー タ が
W読 ¨ ws tOの PC上 で 開 け な 、ヽ。
st,p̀xttx'」
:エ
:し た
の メ ッセ ー ジ が 出 る 。
表2
1現 状 で カ バ ー し て ヽヽる Opealon,
hOd,TipS
IPrOCeS m‐
:VVい お ws'Cの │ま だ 試 し て い な ぃ で す が 、 SAS u響 に rsa
lPC上 で SAS lvewgで
は ど うで し ょ う か ね 。
:改 善 案 ′リ ク
ス ト
``o
lSAS unⅣ ersalvlewerが イ ン ス ト ー ル さ れ
当部門の情報 共有 ツール
4.移 行前に検討 した課題 と対策
4■
.概 要
主な課題 に、OSの 変更による SASカ タ ログの移行及 びプ ログラムのパ ス記述 の修正 、並び に SAS Studio
での相対パスの使用 が あ った。また、本稿 では詳述 しないが 、エ クセル フ ァイ ルの読み込み プ ログラムの修
正 [6]、 集計図表 を Word形 式で作成す るための 当部門 の共通 マ クロ [12]の 更新及び作業手順 の見直 し、及
び 当部門 の既存 のフ ァイルサーバー と、SASグ リッ ドのセ ン トラル・ フ ァイル・サーバー との運用面の切 り
分 けが課題 とな り、それぞれ対策を講 じた。
なお
Windowsの 機 能 で あ る DDE(Dpamic Data Exchangc)、
DMス テ ー トメ ン ト、 %WINDOW及
び %DISPLAY等 も使 用 不 可 とな る と移 行 前 に把 握 して い た が [1,7]、 当部 門 は 不 使 用 の た め 影 響 は なか った 。
4.2.SASカ タ ロ グの移行 (Windows― Linux)
178
SASカ タ ロ グ (.sas7bc試 )は 「SAS Systcmに お け る さま ざまな種類 の 情報 を、カ タ ロ グエ ン トリと呼 ばれ る 小 さな単位 で格納 す る特殊 な SASフ ァイル 」 [13]で 、フォーマ ッ トや マ ク ロの情報 を含 めることが で き る。 SASカ タ ロ グの利 点 は多 いが 、 同 じ OS間 の み に互換性 が あ る。 そ のた め、Windowsベ ー スの SASカ タ ロ グは、Linuxベ ー スの SASグ リッ ドでは以 下 の エ ラー 。ログに よ り参 照 できない と想 定 され た [14]。 ERROR: File FORMATS.CATALOC was created for a different operatlng system. 当部 門 の影 響範 囲 を確 認 した ところ、臨床試 験 の収集デ ー タ (Rawデ ー タ)に 関す る フォーマ ッ ト情 報 は、 SASカ タ ロ グ と SASデ ー タセ ッ トの 両方 に格 納 していたため 、対応 は不要 だ っ た。 しか し、それ 以外 の試 験 デ ー タは フ ォー マ ッ ト情報 を SASカ タ ロ グ形 式 の みで格納 し、SASデ ー タセ ッ トに は格納 してい な か っ たた め、次 に示す 対応 が必 要 とな った。 一方 、 マ ク ロカ タ ログは使 用 して い なか った た め 、対応 は不要 だ っ た。 対策 と して は、 まず 、移行 前 の環境 にて FORMATプ ロシジ ャ を用 い て 、SASカ タ ロ グを SASデ ー タセ ッ トに変換 した。す なわ ち、移 行 前 の環境 で 、下記 のプ ログラム を実行 した [14]。 libname I i brary' location-of-exi sting-fornats-catalog' I libname out' path-to-directory' i proc format library=li51ary cntlout=out. cntlfmti 次 に、移行後 の環境 で下記 のプ ログラム を実行す ることで、移行後 の環境用 の SASカ タ ログが作成 され フォーマ ッ ト情報 が使用可能 となった [14]。 libname 1 ibrary' output-l i brary-for-fornat-storage' i libname in' data-set-nane-fron-sending-si te' i proc format library=li61ary cntlin=in. cntlfmti なお 、移 行後 に よ り古 いバ ー ジ ョンの SASを 用 い る場合 は、SASデ ー タセ ッ トで な く、SAS移 送形 式(Xpt) に変換 す る必 要 があ る と報 告 され てい る [14]。 また、 マ ク ロ情報 を含 む場合 の対応 は詳 述 しないが 、移 行 前 の 環境 で再 コ ンパ イル等 が必 要 で あ った [15]。 4.3.パ ス の 記 述 (Windows― Linux) Windowsの フォル ダは、Linuxで はデ ィ レク トリに相 当す る。 両者 はほぼ同 じだが 、大 きく 3点 異な る。 ・ デ ィ レク トリ間の区切 り文字が 「¥」 でな く 「 (フ ォワー ドス ラ ッシュ) 。デ ィ レク トリは 1つ のツ リー構造であ り、 ドライブの概念はない (例 :Cド ライブ) /」 。ケース・セ ンシテ ィブ (大 文字 と小文字 を区別す る) パ スの例示 として、Windows及 び Linuxの パ ス を下記に示す。 Windows F:¥ONC¥Proり ect123¥Smdy456¥Raw¥list.csv Linux /SASDATA/ONC/Proり ect123/Study456/Raw4ist.csv また ケ ー ス・ セ ンシテ ィブ の た め 、下記 の パ ス は全 く別 の フ ァイ ル だ と認識 され る。 Linux /SASDATA/ONC/Proり cct123/Study456/Raw/List.csv 当部 門 の影 響 範 囲 を確認 した ところ 、既存 プ ロ グ ラムのパ ス に関す る記述 は、 ほ ぼ全 て修 正が必 要 とな っ た。 ただ し、 ドライ ブの概念 が な くな った こ とは 、相対 パ ス を使 用 して いたた め影 響 が なか った。 179
対策 は、パ スの 「¥」 は 「 /」 に全 て 置換 し、パ スの記載 が ケ ー ス・セ ンシテ ィブで なか っ た場 合 は修正す べ き (例 :「 Listcsv」 か ら 「listcsv」 に)と い う情報 を、 当部 門 内に共有 した こ とで ある。 4.4.相 対 パ ス の 使 用 (SAS Studio) 移行前 の環境 において、当部 門では SASの カ レン トデ ィ レク トリをプ ログラムの保存場所 に設 定 し、フ ァ イルパス をこのカ レン トデ ィ レク トリか らの相対パ スで記載す るルール となっていた。 しか し SAS Studioで は、起動時のカ レン トデ ィ レク トリがプ ログラムの保存場所 と異 なるため、そ のままでは相対 パスが使用不 可能であった。 対 策 は 、 各 プ ロ グ ラ ム の 開 始 部 分 に 「前 処 理 」 を追 加 した 。 内容 は 、 現 在 実 行 して い るプ ロ グ ラ ムの フル パ ス (絶 対 パ ス )を マ ク ロ変 数 「̲SASPROGRAMFILE」 [16]に て 取 得 した後 、カ レン トデ ィ レ ク トリをア サ イ ン し直 す も の で あ る。 実 際 の プ ロ グ ラ ム は 下記 の 通 りで あ り、 これ に よ り相 対 パ ス が使 用 可 能 とな った 。 %1et revpath=%sysfunc (reverse (&_SASPR0GRAMFILE) ) ; %1et curpath=%sysfunc (reverse (Tosubstr ( &revpath, %evaI (%sysfunc (lndex (&revpath, /) ) +t) ) ) ) ; x "cd &curpath"i なお 、 プ ロ グ ラ ム の最 終行 で は Xス テ ー トメ ン トを使 用 して い る。 発 行 させ た CDコ マ ン ド (Change Directow:作 業 デ ィ レク トリの移 動 )は Windowsと Linuxで 共通 の構 文規則 だ ったが 、多 くの コマ ン ドの構 文規則 は OS間 で異 な るた め、移 行 後 は必要 に応 じて Linuxコ マ ン ドの構 文 に修 正 が必要 とな った。 5.移 行後 に生 じた問題 点 と解決策 5.1.概 要 情報共有 ツール の 32件 の記載 の うち、最 も多 か った の は SAS Smdioに 関す る事項 だった (13件 、40.6%)。 続 いて、OSの LinⅨ へ の変 更 に関す る事項 (7件 、21.9%)、 SASグ リッ ドに関す る事項 、及 び 当部門 の共通 マ ク ロに関す る事項 が あ った (そ れ ぞれ 6件 、18.8%)。 この 32件 の記 載 の うち、他 の SASグ リッ ド移行事例 で も起 こ り うる事項 につい て 、詳 細 を報告す る。 5.2.海 外 で 作 成 され た SASデ ー タ セ ッ ト (SAS Studio) SAS Studioに て、海外 で作成 され た 英語 の SASデ ー タセ ッ トの読み込 み を試 み た際、下記 の エ ラー・ ロ グ が表示 され 、 正 しく実行 で きなか った。 「ERROR:デ ー タセ ッ ト ADAM.ADAEの トラン ス コー ド時 に文字デ ー タが一部損失 しま した。新 しい エ ン コー デ ィ ン グで表せ な い 文字 がデ ー タに含 まれ て いた か 、 または トラ ンス コー ド時に切 り捨 てが発生 しま した。」 解決策 は、 トラ ンス コー デ ィ ングの 回避 で あった。 SASの トランス コー デ ィ ング とは 、 1つ のエ ン コー デ ィ ングか ら別 の エ ン コー デ ィ ン グにデ ー タを変換 す る処 理 の こ とで あ る [17]。 SASは 指 定 が な ければデ ー タ の読み込み 時 に トラ ンス コー デ ィ ングを行 うが 、 オ プ シ ョンを指定す る こ とで回避 可能 で あ った [17]。 す な わ ち、LIBNAMEス テ ー トメ ン トに INENCODINGオ プ シ ョンを追記 す る こ とで、 トラン ス コー デ ィングを 回 避 で き、問題 な く実行 で きた。なお 、代 わ りに OUTENCODINGオ プ シ ョンを用 いて も回避 可能 で ある [17]。 180
' inencoding=ASCIIANY; ∂aι ∂―′■ιノ:22り ′ l ibnaine ″:/fiゴ fθ s 'SИ ̀, 5.3.海 外 で 作 成 され た プ ロ グ ラ ム (SAS Studio) 前項同様 に、SAS Smdioに て海外 で作成 された英語 のプ ログラムの実行 を試みた際、下記 のエ ラー・ ダイ ア ログが表示 され て処理が停止 した。 「U̲UTF8̲CEか ら U̲SHIFT̲Л S̲CEエ ン コー デ ィ ン グ ヘ のデ ー タ の トラ ンス コー ドに 失 敗 しま した 。SAS セ ッ シ ョン の エ ン コ ー デ ィ ン グ で サ ポ ー トされ な い 文 字 が 含 ま れ て い ま す 。 SASシ ス テ ム オ プ シ ョ ン の encoding=と localc=を 調 べ て 、 処 理 デ ー タ の 受 け入 れ が 可 能 か ど うか を確 認 して くだ さ い 。 16進 表 現 に よ る ソー ス文字列 」 問題 を起 こ した プ ロ グラムの箇所 を図 3に 示す。 SAS Studio で は正常 に見 え るが (上 図)、 ロー カル ・ コ ンピュー タ上 の SAS 〜 Universal Ⅵcwcr l.4で は文字化 け 「 …」 を確認 で き る (下 図 )。 1毎 ° F澪 1雛 図3 鶴 ○ 静鰺 欝 奪攀 ャ ‡ ■‐0踪 確 。 .綴 驚 1機 .。 │ プ ロ グ ラ ム の 文字化 け SASグ リッ ド上 の SAS Studioで の 表示 Ⅵewer l.4で 開 いて 文字化 けす る箇所 を特 定 し、文 字 を こ とだ った。 結 果 、 SASの 実行 時 にエ ラー・ ダイ ア ロ グが表示 鑑 量 議 ss膠 1餞 解 決 策 は 、 プ ロ グ ラ ム を ロー カ ル ・ コ ン ピュー タ 上 の SAS 適切 に修 正又 は削 除 し、SAS Studioで プ ログラム を開 きなおす ‐ 醸 絆疇 麟 嬢 メ rd趣 ぽnoprittt; 〆 ord爾 よって 、原 因 は プ ロ グラム 中に あ る不 明な文字 と考 え られ た。 Univcrsal y魯 鼈 畿機 (上 図 )と ロー カル ・ コ ン ピュー タ上 の SAS Universal Vicwcr l.4で の表示 (下 図 ) されず 、問題 な く処理 を完 了で きた。 5.4.1日 環境 で 作成 したプ ロ グラムの再実行 (SAS Stlldio) 当部 門では原 則 と して集 計 図表 は英 語 で作成 し、製 造販 売後調査 にお け る安全性 定期 報 告 等 の 日本語 の集 計 図表 が必要 な も の に限 つて 日本 語 で集 計図表 を作 成 して い る。 なお安 全 性 定期報告 とは 、再審査期 間 中 の 医薬 品につい て 、製 造販 売後 調 査 等 の 医薬 品 リス ク監 視 活 動 よ り得 られ た結 果 を報告す る ものである。 集 移行後 に旧環 境 で 作成 したプ ロ グ ラ ム を再実行 した ところ、英語 の集 計 図表 に影 響 は見 られ ず、 日本 語 の ダ ッシ ュ 計 図表 に もほ ぼ影 響 は見 られ なか った。 しか し、 1日 環 境 で作成 した プ ロ グラ ム に、「〜 」 )又 (波 は 「① 」等 の 特 定 の 文字 が含 まれ て いた場合、SAS Smdioで 最初 に開 い た ときには正 しく表 示 され たが 、編 集 ・保存 した 後 に開 きなおす と 「 に変 わってい るケ ー スが複数報 告 され た。特 に安全 性 定期 報告 で は、既 '」 定 の様 式 [18]に 「〜 」が含 まれ てい たた め (表 3)、 当部 門 の 関係す る表 に全 て 「〜 」が あ り、影響 があった 。 原 因は、 プ ロ グ ラム 中に Linuxで は正 しく扱 えな い 文 字 が あったた め と考 え られ 、 問題 の 文字 の種類 は 2 つ あ る と考 え られ た。1つ 日は、環境 に よ り文字化 けが起 きやす い文字 「〜 」であ る [19]。 2つ 日は、Sh遺̲Л S の JIS規 格 の 文 字 コー ドに含 まれ な い 、MicЮ so■ 外 字 で あ る (表 4)。 す る場 合 が 多 く、解 決 策 と し これ らの 文字 は Linux上 では文字 化 け 使 用 成 績 調 査 時 承認時迄 期 年月轡 年月 霧 年月 目 の状況 て該 当 の 箇所 に 対 し 、「〜 」 を 緊計 年 月震 「 ―」及 び「① 」 調査施設数 を 「(1)」 等 の表 譲薔虚例数 表3 使用成績調査の 年月 日 年月 日 別紙様式 2「 使用成績調 査 における副作用 ・感染症 の発現状況一覧表」 181
表 4 Microso量 外字 の例 ¨NEC特 殊文字 (一 部)
十F
リ皿
⑩ ミ
一
ジ軌
Π
21
CC
+E
⑮
十D
⑭ x湯
ド︐
リッ
十C
⑬ Ⅸヽ
い
ヽ
V
イ=ヽ
IV
+B
カン ¶
⑨
+A
ヽン Ⅱ
任ヽ V
③
+9
︑
ヽ
+8
ヽ
一
升ル
+7
ヽⅢ
ン 4
⑤
+6
⑦ Ⅲ筋
+5
ヽり´
8770
+4
″︑ Ⅱ
8760
+3
g
④ ⑩ ル
ムk
8750
+2
g
③ ⑩ 傷 m
8740
+1
② ⑩ ″
チh
m
① ⑫ キロ c
+0
現 に修 正 した結 果、適切 な表 示 が可 能 とな った 。
Windows上 で 出 カ テ キ ス トフ ァ イ ル を 開 く (Linux)
当部 門では、解析デー タセ ッ トの QCを COMPAREプ ロシジ ャにて実施 し、結果 をテキス トフ ァイル形式
5.5。
(.txt)に て 出力 していた。移行後、同様 にテ キ ス トファイル を出力 した ところ、 ロー カル・ コンピュー タ上の
「メモ帳 」 で開いた時に改行 が されず 、読み辛 くなった
(表 5)。
COIPARE
1
SASIELP CLASS
7 AR 数
03S 数
と
WORK CLASS の比較
データセ
シジヤ
トの要 約 レポー ト
1^\)V
WORK.CLASS
},{onday
プ
18〕
デー タ
SASHELP.CLASS 271AYl 5 :22 16: 00 271AYl
18MAR18'08: 57:31
19
tAR18: 08 :57:31
1
9
ン の数
(
表 5
19
合計
べ ての比 較 変 数 が 同等 な オ ブザベーシ
同等 で した 。
:22:16100
作成 日
5
19
更新 日
学生 デー タ
共通変数の数 :5
変 数 の要 約 レポ ー ト
オ ブザ ベ ー シ ョンの要 約 レ ポ ー ト
最 初 の OBS
だオブザベ ― シ
(METHOD=EXACT)
ン
03S
1
共通のオブザベ ーシ ョンの数 : 19
基準
比較
最後 の
WORK.CLASSか ら読 み込 ん だ オ ブザ ベ ー
ないオ ブザ ベ ー シ ョンの数 10
ちど
れかで等しく
携毅変警ρう
NOTE:不 等 な値 は あ りませ ん 。
COMPAREプ
ロシ ジ ャの 出力 結 果
原 因 は 、 改行 コー ドが OS間 で 異 な る (Windows:CR+LF,UNIX/Linux:LF)上 、 Windowsの 「メモ 帳」 が
CR+LF以 外 の 改行 コー ドに非対応 であ る こ とで あ った。解決策 は、 プ ロシジ ャ の 直前 に FILENAMEス テ ー
トメ ン トを追加 し、TERMSTRオ プ シ ョンにて 改行 コー ドは CR+LFだ と指 定す る こ とで あ った [20]。 結果 、
Windowsの 「メモ帳」 にお い て も正 しく表示 可能 となった。
filename outfl'path-to-text-file' termstr=CRlF;
proc printto print=outfl new;
5.6.Windows上 で SASデ ー タセ ッ トを開く (Linux)
セ ン トラル ・ フ ァイ ル・ サー バ ー に保 管 され た フ ァイ ル は 、 ロー カル ・ コ ン ピュー タか らフォル ダよ リア
クセ ス して 直接 に参照 可能 で あ る。 しか しなが ら、 ロー カル ・ コ ン ピュー タ上 の SAS System Ⅵewcr 9.1に て
SASデ ー タセ ッ トが 開 けず 、「SAS Data set ilc brmat notsuppO貢
ed.」
とい うエ ラー・ ダイ ア ロ グが表 示 され た。
原 因 は 、SASデ ー タセ ッ トが Linuxベ ー ス の た め と考 え られ た。解 決策 は、SASデ ー タセ ッ トを Ⅵcwcrに
て開 く場 合 は、SAS Universal Viewcr l.4を 用 い る こ とで あ っ た。
6.ま とめ
本稿 で は 、 日本 にお け る移 行 経験 か ら、 SASグ リッ ドの 特長 、移行 前 に検討 した課題 と対策 、及 び移行 後
182
に生 じた問題 点 と解 決策 について報 告 した。移行 した SASグ リッ ドの性 能 は高 く、 1日 環境 と比 べ て読み込 み の処理 時間が大幅 に短縮 した。 また 、 プ ログラムの一 括 再 実行 に よ り解 析 結 果 を求 め る場 合 の全 体 の処理 時 間 が減少 し、解 析 業務 の効率化 を実感 す るこ とがで きた。 一 方 で、海 外 に あ る SASグ リッ ドに 日本か らア ク セ スす るために全 体 の レスポ ンスが 遅 くな り、新規 の プ ロ グラムの作成 作 業 に時間がかか る よ うにな った 。 当部 門 の 旧環 境 と SASグ リッ ドで は 、OS及 び SASイ ンター フェー ス 等 の 様 々 な相違 点 が あ り、移行 前 に 当部 門 で対応す べ き課題 が明 らか に な っていた。 そ の た め移行前 に、 SASカ タ ログの移 行 準備 、及び各 ユ ー ザ ー の対応 が必 要 な事項 に関す る情 報 共 有等 の対策 を講 ず る ことで 、多 くの 問題 を回避 す る こ とがで きた。 そ の 対策 に もか か わ らず、移行 後 は 、各 ユ ー ザ ー が予 期 せ ぬ 問題 点 を同時 に複数 回経 験 す る状況が起 こっ た 。経験 した問題 点 の多 くは、当部 門 で初 めて使 用す る SAS Studio、 及 び OSが Limxへ 変 更 された こ とに 関 連 した文字 化 けや 改行 コー ドに よ る事 項 で あ り、そ の 多 くは 日本 の組 織 特 有 の 問題 で あ った 。 原 因 の候補 が 複 数 挙 げ られ 、 問題 の特 定に時 間 を要 したが、 一 度 問題 が特定で きれ ば プ ロ グ ラムの一 カ 所 の修正 で対応 で き る ものが 多 か った。 今 回、OSが Linuxへ 変更 され た こ とに よる影響 は大 き く、仮 に OSの 変 更 が なけれ ば、移 行後 に生 じた 問 題 は少 な く、 フ ァイ ル パ ス等 のプ ロ グ ラ ムの修 正 も不 要 だ った と考 え られ る。SASグ リッ ドは組織 の SASリ ソー ス を 1カ 所 に集 約 してシス テ ム を 一 元管理 で き る反 面 、各 ユー ザ ー は移 行 時 に 旧環境 との様 々 な相 違 点 を経験す る可能性 が あ り、移行 時 に ユ ー ザ ーの事前 準備 が必要 とな って くる。 本稿 で報告 した課題 や 問題 点 は原 因 が 単純 で、軽微 な問題 と感 じられ るか も しれ な い が 、 実際 には調 査 及 び 解 決 に時間 を要 した ものが 多 く、事 前 に把握す る こ とは有益 と考 え る。 SASグ リッ ドヘ の移行前 の準備 は 当然 重要だが 、 1日 環境 との相違 点 か ら生 じる問題 は様 々 で あ り、 これ ま で に報告 され て い な い よ うな問題 が 生 じる可能性 が あ る。 そ のた め 、移 行 後 は問題 が生 じる こ とを前提 に、 問題 点 とそ の解 決 策 を速や か に共 有 す る こ とがで き る仕 組 み として 、3項 に述 べ た よ うな情 報 共有 のシステ ムの 導入 を検討 す る こ とは有用 で あ る と考 え られ る。 以 上 、幾 つ か の 注意点 はあるが 、 SASグ リッ ドの性 能 は高 く、導入 。移 行 事例 の増加 が予想 され る。 本 報 告 が参考 になれ ば幸 いで ある。 7.引 用文 献 [1]E.C.Brinsield,‖ SAS① Program.mcr's Guidcto Lit On thc SAS Grid,Hin P″ α″〃αSυ G,Baltimore,2017. [2]SAs lnstitutc lncり licustOmcr stOries ̲ Bank of Amcrica,ll [Onlinc]. Available: https:〃 www.sas.cOm/en̲us/custOmcrs/bank̲0,america̲crcdit― risk.html.[Acccsscd 12 5 2018]. [3]E.David,G.S.Nclson ttd S.Wang,‖ Modem SAS① PЮ gramming:Using SAS① Grid Mmager and SAS① Entcrprise Guide(S)in a(31obal Pharnlaceutical EnvirOnrnent,1'in SIИ [4]S.:Miyers,I.Allrcd and iM.R.Thisscn,HMigrtting iom PC SAS⑬ 力ιtt Sο グ ″ Sr SИ S① こ ̀α S(]′ οbα ′̲Flο ′ ″″,,San Francisco,2013. to SAS Grid on Linux,H in τZι 25″ И″″ α′ z″ GЮ ″ ″ Cο 4ノ υκ″ ,Car‰ 2017. [5]A Pcrcdcry,N.Welke and I.Gomez,"FК ̀ι qucntlyAsked Questions about Getting Staned with SAS⑩ Grid,Hin SИ S ッ″,Denveち 2018. Gあ らα′Fο ′ [6]J.Specr,R.Johnson and S.Wheeless,"ATransition ioln SAS① on a PC to SAS on Linux:Dealing with Microso食 183
Exccl and MicrosoR ACcess,'tin SИ S(7′οらαノFlο ・ ′ à″ っ ,IDcnvcr,2018. [7]A.Wayka and E.Brinsield,‖ SAS Grid Migmtion‐ Challengcs,S01utiOns and Lcamings,1'in P力 aSE И″″″α′ Cο 4′ をκ″ε ′,Barcclona,2016. [8]国 立 情報学研究所 ,"グ リッ ドコン ピュー テ ィ ングが 牽 引す る第 4の 科学 ,l'F:立″″学″:究 所 ニ ュース 6"乃 あ〃,vol.50,2010. [9]日 立 製 作所 ,"電 子 行 政 用 語集 ,"[Onlinc].Available:h中 ://wwwhtachicOjpDi巧 klcg10ssaryん [Accesscd 15 5 2018]. [10]SAS Institutc lnc.,Grid Computingin SAS① 9.4,Third ed,Cary,NC:SAS Institute lnc"2014. [11]Impress Watch,"レ ッ ドハ ッ トが 気炎 "、 Windows Scrverか らの移行支援 で Linuxシ ェア 拡 大 へ ,"2014. [Online].Available:https://c10ud.watchoinlpress.cOjp/dOcs/news/679820.html.[Acccsscd 15 4 2018]. [12]田 村洋介,‖ 解析結果作成 の 自動化 につい て 一 解析結果 の Wordフ ァイルの SASに よる自動生成 ―," ‐ in f写 ″ SИ Sユ ーデー:会,大 阪,2005. [13]SAS Instime lnc.,SAS⑩ 9.4言 語 リフ ァ レ ン ス 解 説 編 ,Forth cdり Cary,NCi SAS Insthtc lnc.,2014. [14]SAS Institute lncり 1'Usage Note 22194:How to usethc CNTLOUT=and CNTLIN=optionsin PROC FORMAT to mOVe brmaS'Om One platお rm to anothcザ 'SUPPORT/SAMiPLES&SAS NOTES,2011.[Online].Available: http:〃 support.sas.con1/kb/22/194.htinl.[Acccsscd 15 4 2018]. [15]SAS Institute lncっ ‖ Usage Notc 46846:COmpttibility Of StOrCd COimpiled nlaCrO Catalogs across releases of SAS and aCrOSS OpCrating systcms,'' SUPPORT / SAIMPLES & SAS NOTES, 2012.[Online].Availablc: http://suppo■ sas.com/kb46/846.html.[Accessed 15 4 2018]. [16]SAS Institutc lnc"SAS① Studio 34:ユ ー ザ ー ガ イ ド,Cary,NC:SAS Institute lnc.,2015. [17]SAS Instituc lnc"SAS① 9.4各 国 語 サ ポ ー ト:リ フ ァ レ ン ス ガ イ ド,F■ h ed"Cary,NC:SAS Instimc lnc., 2016. [18]厚 生 労 働 省 ,"安 全 性 定 期 報 告 書 別 紙 様 式 及 び そ の 記 載 方 法 に つ い て ,H2013.[Online].Available: http:〃 www.mhiw.gojp/■ le/06‑ScisakwOuhOu‑11120000‑IyakushOkuhinkyOku/130517al.pdf [Accessed 7 5 2018]. [19]ユ ニ リタ ,‖ Oracleデ ー タ ベ ー ス で 、波 ダ ッ シ ュの 文 字 化 け は なぜ 起 き るの か ?,Hデ ー タ連 携 と統 合 を科 学 す る ブ ロ グ ,2014.[Online].Available:http:〃 wwwuninta.cO」 p/data̲utilizatiOゴ data̲linkagc/20141021.html. [Acccsscd 15 4 2018]. [20]SAS Institutc lncり ‖ Usage Notc 14178:Thc INFILE sね temcnt TERIMSTR=option facilitdes rcading iles bctwccn UNIX and WindOwsr' suPPORT / SAMPLES & SAS NOTES, 2009. [Online].Availablc: http://support.sas.corゴ kb/14/178.html.[Acccsscd 16 4 2018]. 連絡先 :Annarsutsui@astrazenecacOm 184
DOSUBL関 数 内で生成 した ビュー をハ ッシュオブ ジ ェ ク トに格 納 す ることによりPROC DS2の ハ ッシュパ ッケージの 挙動 を擬 似 的 に再現す る方法 森岡 裕 イ ー ピー エ ス株式会社 dosubl function * view = proc DS2 hash package + FedSQL Yutaka Morioka Statistics Analysis Deportmentl, EPS Corporation 要旨 Proc DS2に お け るハ ッシ ュパ ッケ ー ジの優 れ た点 と して datasetメ ソ ッ ドの指 定 に SQL文 に よって生 成 され る ビュー を指 定 で きる こ とが あげ られ る。 しか し、未 だ実務 で使 用 され る大 半 の コー ドは DS2言 語 で コ ー デ ィ ング され て い ない こ とが 多 い。 そ のた め ,通 常 の デ ー タ ステ ップで ,ハ ッシ ュ ォ ブ ジェク トを埋 め込 み マ ク ロ化 して使 用す る状況 を想 定 し,そ の 際 に DOSUBL関 数 に よる ビューの作成 を利 用す る こ とで DS2 言語 の挙動 を擬 似 的 に再 現す る方 法 を提案す る . 1.ハ ッシュオ ブ ジェク トの Findメ ソ ッ ドを マ ク ロ化 す る例 /'CODE l*/ %macro lookup(lnaster=,ke)「 ,var=); %10cal name̲key; if 0 then set &master(keep= &key &var)' %let name = &sysindexi if _N_ = 1 then doi o/olet _key = %sysfunc( tranwrd( %str("&key,,) , %str( ) , zstr(",") ) ); declare hash h&name.(dataset:"&master(keep= &key &var)", duplicate:'E')i h&name.. defi nekey(&_key) ; h&name..definedata(alI:'Y') i h&name..defrnedone0; end; if h&name..find0 ne 0 then doi call missing(of &var)i end; %mend lookupi 185
指 定 した デ ー タセ ッ トか ら,キ ー 情報 に よって マ ッチ ング され たデ ー タ の変数 を取得 したい とい う機 能 を
マ ク ロ化 した ものが CODElで あ る
.
なお ハ ッ シ ュ オ ブジェク トにつ いての基 本 文 法 は論 文 (森 岡 ・神 田 2014)を 参 考 され た い
.
l*coDB 2 *l
data ae-1i
set ae;
%lookup(master=dm,key=usubjid,var=sex age)
%lookup(master=llt,key=Iltcode,var=llt-name)
nln;
実装例が CODE2で ある (以 降 ,コ ー ド例は臨床試験分野).有 害事象デー タの 「ac」 を setし てデー タステ
。
ップを開始 し,患 者背景デー タの 「dm」 か ら変数 「usubjid」 の値 をキー として性別 年齢 (sex・ age)を 取得
し,有 害事象 の辞書 コー ドデ ー タ 「nt」 よ り変数 「ntcode」 の値 をキー として 「nt̲name」
を取得す るとい
った例 にな っている
.
ここでの前提条件は,「 dm」 が 「usuuid」 でユニー クになってい ること,及 び 「llt」 が 「1ltcode」 でユニ
ークにな ってい ることである.仮 にユニー クになっていなか った場合 ,CODElの ハ ッシュオブジェク トを
宣言す る際 のオプシ ョンで duplicate:!Elを 指定 してい る効果 によ り,エ ラーが生 じてデ ー タステ ップは終了
す る。
ハ ッシュオ ブジェク ト自体 はキー でユニー クにな ってい ない状態 (マ ルチデー タ)も オプシ ョンを指定すれ
ば,扱 うこ とが可能なので,duplicate:'Elを 外 し,multidata:"Y'を 追加 して,andメ ソッ ドの変わ りに do̲over
メソッ ド,或 いは find̲nextメ ソッ ドをマ ク ロに組み込む ことも考 えられ る.し か し,マ ルチデータの場合
に取得 され る複数デー タを連結処理で 1オ ブザベ ーシ ョンにま とめるのか,或 いは取得 ごとにオブザベー シ
ョンを作成 す るのかで必要な処理 が大 きく異 な る。マ クロに汎用性 を持たせ るためにキーでユニー クの場合
にのみ使 用 し,そ れ以外 の場合 はエ ラー にす る といった運用 を してい るユーザーが多い よ うに思 われ る。
2.取 得対象 はユニー クで あるが,非 取得対象 ユニー クにな らない ジ レンマ
/オ
CODE 3丼 /
data adsl;
A‑01
set dm;
8‑01
vstestcd="WEIGHT‖
;
vsbli="Y";
ア)lookup(master=vs,key=usubjid vstestcd vsbl壬 1,var=VSStreSn)
w・ eightbl=vsstresn;
Dハ V15
55.4
SCREENING
B‑01
B‑01
lYEIGHT
DAY8
A‑01
A‑01
A‑01
run;
DttY8
55.3
54.5
58.2
WEIGHT
WEIGHT
‖EIGHT
WE10HT
WEIGHT
WEIGHT
A‑01
B‑Ol
DAΥ l
SCREENING
DAYl
V
Y
85.1
64.8
66.2
CODE3は ,検 査項 目で あ る体 重 (vstestcd="WEIGHT")の ベ ー ス ライ ン (vsbm="Y‖ )の 値 (vsstresn)
を取得す る例 で あ り,duplicate:''E''で マ ク ロ化 した 際 に ,よ く問題 にな る.ベ ー ス ライ ン フ ラグは通 常
,
1項 目に つ き lobsの み"Y'と な り,取 得対象 で あ るベ ー ス ライ ンの値 はユ ニー クで あ るた め ,上 記 のプ ロ グ
ラム は問題 が な い よ うに思 われ る.し か し,CODE3を 実行す る と
ツ
ン
しました。
186
上 図 の よ うにエ ラー が発生 し,デ ー タ ス テ ップが 中止 され る
.
これ は,検 査項 目(vstestcd)に お い て ,取 得対象 が ユ ニー クだが ,非 取 得 対象 がユ ニ ー クにな らない た め
,
デ ー タセ ッ ト「vs」 を 「usubjid」 ,「 vstestcd」 ,「 vsbl■ 」 の 3数 をキ ー と してハ ッシ ュ オ ブ ジェク トに格 納
しよ うとして も,duplicate:Eの 働 き に よ り,処 理 が 拒 否 され るた め で あ る
.
つ ま り,仮 に メ ソ ッ ドで,キ ー に したい値 が定 ま っ てお り,そ の 値 で絞 った場合 に必 ず 一 意 にな る と し
て も,格 納 時点 にお い て全値 につ い て ,キ ー に よる一 意性 が確保 され て い ない とい け な い とい う制 限 が か
か る ことにな る
.
/*coDE 4 */
data vs-basei
set vsi
where vsblfl="Y";
run;
data adsll
set dmi
vstestcd="WEIGHT"i
%lookup(master=zs-base,kepusubjid
weightbl=vsstresni
vstestcd,var=vsstresn)
runi
CODE4は ,エ ラー 解 決 の 1例 で あ り,一 旦 ,ベ ー ス ライ ンフ ラグが "Y'と い う条件 で抽 出 をか けて新 しい
デ ー タセ ッ ト(サ ブセ ッ ト)を 作成 し,作 成 したサブセ ッ トをハ ッシュオ ブ ジ ェク トに格 納 す る方法 を とって
いる
.
た だ し,作 成 しな けれ ばな らないサ ブ セ ッ トの量が多 くな った場合 ,プ ロ グラム全体 の 記 述 量が増 え る こ
と,そ して%lookupで 指 定 してい るマ ス ター がサブセ ッ トの場合 ,サ ブ セ ッ ト作成部分 ま で立 ち返 らな けれ
ば ,処 理 を理解 で きな い な どのデ メ リッ トが生 じる
.
3.DS2言 語 の ハ ッ シ ュパ ッケ ー ジ に よる解 決
DS2言 語は SAS9.4か ら導入され、従来のデータステ ップに比べて、より柔軟で拡張 された処理を行
うことができる機能である。DS2に ついての基本文法は論文 (森 岡 2016)を 参考されたい
.
DS2の ハ ッシュパーケージにおいては,datasetメ ソ ッ ドを指定する際に,SQL文 を記述することが可能
となつている
.
/*coDE 5 */
proc ds2 libs=worki
data adsl(overwrite-yes)i
declare package hash h10;
dcl double weightbl;
method initO;
hl.dataset('{select usubjid,vsstresn as weightbl from vs where vsblfl='Y" and vstestcd="WEIGHT"}');
hl.duplicate('ERROR) ;
hl.keys([usubjid]);
hl.data([weightblJ);
h1.definedone0;
endi
method run0i
set dmi
h1.find0;
end;
enddatai
run;
quiti
187
CODE5は DS2言 語 に よって実装 された例 である.dttasetメ ソ ッ ドの指定部分にベース ライ ンの体重を
抽 出す る SQL文 が記述 されてい ることが確認 できる
.
SQLに よつて抽出 され た結果がハ ッシュパ ッケージに格納 され るため,CODE4の よ うに事前 にサブセ ッ
トを作成す る必要がな い ことがなく, どの よ うに して抽 出 され たサブセ ッ トに対 して findメ ソ ッ ドをかけ
てい るかが理解 しやす い
.
なお ,ハ ッシュオブ ジェク トの duplicate:"E"に 対応す るハ ッシュパ ッケージの記述部分 は duplicateメ ソ
ッ ドで ERRORを 指定 している箇所 とな る (datasetメ ソ ッ ドで定位置パ ラメー タ として指定す る ことも可
能 ).
ハ ッシュオブジェク トにお いて if̲N̲=1と して declareス テー トメン トを作動 させ るデ ー タステ ップの
プ ログラムに比べ て,initialメ ソッ ドを使 い ,メ イ ンの処理 が始まる前にハ ッシュパ ッケージ を定義できる
DS2言 語 の方がプ ログ ラム構造の観点 か ら見 ると合理的 とい える
しか し,実 務上 の問題 として,未 だ DS2言 語 を習得 してい るユーザー は限 られてお り,1日 来 のデー タス
.
テ ップでプ ログラム を構 築 しなければな らないケースが多 い
.
以降 ,本 稿 の 目的で あ る,DS2言 語 に よる SQL文 の抽 出結果 をハ ッシュパ ッケージに格納す るとい う挙
動 を,1日 来 のデー タステ ップにおいて見た 目上,再 現す る こ と方法について述 べ る
.
4.DOSUBL関 数
SAS公 式 の リフ ァ レンスでは DOSUBL関 数 の項 目で 「呼び 出 し環境 か らマ ク ロ変数 をイ ンポー トし、マ
ク ロ変数 をエ クスポー トして元の呼び出 し環境へ戻 します 」 といった説明が され ている
.
しか し,こ の説明は DOSUBL関 数 の本質 を捉 えてい る とは言い難 く, ミス リー ドを招 きやす い表現であ
るた め,本 稿 では,再 度説明を試みた い。
/1CODE 6・ /
data NIILL ;
call execute(lproc sql noprint;
select count(*)into:obsl■ om sashelp.class;
quit;1);
x=symget(lobsll);
y=1/input(x,best.)'100;
put x=y=;
Ч
OTE: 日轡敷 SV‖ GETt・ obsl・ ,1,テ 4 フ
]=三
■ 8,θ D弓 1111:Iヨ 熙‐
F力
'■
て
= y=.
10TEl健
.T.
〔
に より、以下の箇所で欠損値が生成されました.
垂鰐詳婁先ζ証デ
15:10
10TE:DATAス テー トメン ト処理 (合 計処理時間 ):
処理時間
0.00秒
CPU時 間
0.00秒
10TE :CALL EXEttTEが 生成 したラインです。
1
1
1
+ prOc sql noprint ;
+
select count{‖ ) into:obsl from sashelP,class
+
10TE l:PR
EDURE SOL処 理 (合 計処理時間 }:
処理時間
CPU時 間
0.01秒
0.01秒
188
CODE6と その下の図は call executeに よって,デ ー タセ ッ ト「sashelp.class」 のオブザベ ー シ ョン数 をマ ク ロ変数 「obsl」 に格納す る SQLを 実行 し,マ クロ変数 に格納 された値 と,そ れ を用いて計 算 した値 を call executeが 記述 され たデ ー タステ ップ と同 じステ ップ内で ログに出力 してい るプ ログラム とその実行 ログに な る。 実行 ログの結果か ら,正 しくマ ク ロ変数 の値が取得できてお らず ,意 図 した実行結果 を得 られ ていない こ とがわか る.そ の原因は,call executeに よって生成 されたテ キス ト列が実際にプ ログラム実行 され るのは , デ ー タステ ップが終わ った後である ことに起因 している。 つ ま り,「 x=symget(10bsl');」 が実行 され る時点では,ま だ生成 され た proc SQLの コー ドは実行 されて お らず ,そ のためマ ク ロ変数 「obsl」 も存在 しないこととな る . /*coDE 7 */ data _NULT: ; rc = dosubl('proc sql noprint i select count(*) into:obs2 from sashelp.classi quir i') ; x = symget('obs2') ; y = 1 /input(x,best.) *100; Put x= Y=; run ; 寸 閣 00L処 理 ( P C 理秒秒 処 08 計 ■■ 告 00 処 卵閣晶 帥時報 理鵬 R F 10TE: て =19 y=5.2601578947 10TE: DttTAス テー トメン ト処理 (合 計処理時間 ) 1.40秒 0.01秒 CODE7は DOSUBL関 数 を利用 して同 じ処理 を行った例 である.DOSUBL関 数 で実行 され た SQL文 は 処理時間 CPU時 間 , デー タステ ップが終わ る前の時点でマ ク ロ変数へ の値 の格納 が終了 している ことがわかる . この よ うな挙動か ら リフ ァ レンスの説 明が,マ クロ変数 のステ ップ内での利 用が可能である点 にフォーカ ス した 内容 となってい る と推 察 され る。 しか し,本 質的 には DOSUBL関 数 で実行 され る SASコ ー ドは データステップ , デ ー タ ス テ ップ本体 の 処 理 に割 り込む形 で実 行 され ,本 体 の 処 理 は DOSUBL関 数 内 の 実行 コー ドの処理 が 終 わ るまで,一 時停 止 し また DOSUBL関 数 を利 用す る際 に留 意 す べ き点 として ,本 体 の処 理 に割 り込む ための実 行 環 境 を生成 し,そ こで コー ドを実行 す る こ II▼ て い る と考 えた方 が現 実 の 挙 動 に近 い と思 われ る。 DOSUBL関 数 とか ら,処 理 時間が通 常 よ りも長 くかか る .加 えてメモ リ消 費 が大 き い .な お ,メ モ リの解 放 タイ ミングは本 体 の デ ー タステ ップ終 了時で る 通 常 の処理 であれ ば ,ほ とん ど気 にな らない レベ ル ではあ るが ,容 量 の大 き い デ ー タセ ッ ト(GBレ ベ ル)を 利 用 した い ,或 いは あま りに長 大 で ,単 体 実行 して も実行 時 間 が相 当かか る よ うな処理 は DOSUBL関 数 内 で行 わ な い方 が 賢明で あ る . 189
5.DOSUBL関 数 十SQL VIEW十 ハ ッシュオブジェク ト /*coDE 8 "/ data adsli length weightbl 8.; set dmi if _N_=1 then doi rc=dosubl("proc sqli create view v1 as select usubjid,vsstresn as weightbl from vs where vsblfl=Y'and vstestcd='WEIGHT'; qurt,"r' call missing(of weightbl); declare hash h1 (dataset:"v1"); hl.definekey("usubjid"); hl.definedata("weightbl") ; 2 h1.definedoneO; end; if h1.find0 ne 0 then doi call missing(of weightbl): endi drop rci run; CODE8は DOSUBL関 数 内に記述 した proc SQLに よって,必 要なデー タを抽出するための ビュー を作成 し,作 成 された ビュー をハ ッシュオブ ジェク トの 「dataset:」 で指定す るこ とで,DS2の ハ ッシュパ ツケ ジに SQLの 抽出結果 を格納す る挙動 を模倣 しているコー ドになる。 1の 部分 で ビュー を生成 し,2の 部 分 そ の ビュー を格 納 してい るが ,デ ー タステ ップ が実行 され , PDV(ProFam Data Vector)が 形成 され る時点では,ハ ッシュオブジェク トに格納予定の ビュー が存在 しない 状態 で もエ ラー にな らない こと,そ して 「dataset:」 が実際 に作動す るそ の 瞬間までに,ビ ューの生成が間に 合 えば,プ ログラム全体が正 しく実行 され るのが特徴的な点 である。 6.マ ク ロ化 の 例 次頁 の CODE9は CODElで 示 した例のよ うに,DOSUBL関 数 とハ ッシュオブジェク トの組み合 わせ に よ り,抽 出条件 の追加 が可能な indメ ソッ ドをマ ク ロ化 した例である.SQLの select句 の指定 が全変数指 定 を表す 「=」 であるため,抽 出 され る ビューの変数定義 は,&masterに 指 定 され るデー タセ ッ トと同一にな る。そのため,「 if O then set&master(keep=&key&var);」 によ り変数 の初期化 が行 えることとなる。ユー ザ ー は SQLで 新規変数 を合成できな い代わ りに,ハ ッシュオブジエク トの利 用に伴 う変数初期化 を意識す る 必要がな くなってい る。 また ,コ ー ドの特徴 的な点 と して③ の生成 した ビュー を消す機能 につ いて ,dosubl関 数 で はな く,call executeを 用 いてい るの は,実 行時間短縮及 び,CPUに 余計な負荷をかけないための工夫 とな る . 実際に CODE9の マ ク ロを利用 した例が CODE10に な る,こ のよ うに一つのデー タステ ップの中で,抽 出 条件 を変えなが ら値 を取得す るこ ともでき,マ ス ター とな るデー タセ ッ トを変 えてい くらで も組み込んで も 問題 ない.ま た,今 回は値 を習得す る findメ ソッ ドのみ を例 に したが ,キ ー の存在確認 を行 うcheckメ ソッ ドな どで同様 のマ ク ロを作成 して も有用 である . 6 190
/'CODE 9*/
%niacro lookup2(master=,key=,var=,wh=,dropviewng=Y);
%local name̲key;
if O then set&master(keep=&lkey&va⇒
%let naine =&sysindex;
if N =l then do;
/¨
;
①DOSUBL関 数 による SQLビ ュー生成部分
*/
%if%lentth(&wh)ne O%then%do;
К&name.=dOSubl("proc sd nOpnnt;
create Ⅵew h&name.(label=%unquote(%bquote(lmaster=&‐masteri)))as
select'froma&master
where&wh;
quit;・ );
drop rc&nalme.;
%end;
%Iet
-key = %sysfunc( tranwrd( %str("&key") , %str( ) , %str(",") ) );
/
/'② 対象 がデータセ ッ トか ビューかの分岐丼
%if%length(&wh)ne O%then%do;
declare hash h&nalne.(dataset:‖ h&name.(keep=&key&vaD", duplicate:'El);
%end;
%else%do;
declare hash h&name.(dataset:''&maste■ (keep=&key&va→ ‖, duplicate:;El);
%end;
h&name¨ deinekey(&̲keジ
h&name¨ deinedata(all:'Y');
h&name¨ deinedoneO;
/・
;
③生成 したビューを残すか消すかの分岐
'ノ
%if%length(&wh)ne O and%upcase(&dropv■
ewnD eqY%then%do;
can execute("proc sql nopnnt;
drop vlew h&name.;
quit;");
%end;
end;
if h&;name¨ indO ne Othen do;
call lmissing(of&vaD;
end;
%mend lookup2;
/*coDE 10 */
data adsli
set dmi
%lookup2(master=vs,wh=oZnrbquote(VSTESTCD="WEIGHT" and VSBLFL='Y"),key=usubjid,var=vsstresn)
weightbl=vsstresni
%Iookup2(master=vs,wh=Tonrbquote(VSTESTCD="HEIGHT" and VSBLFL="Y"),key=usubjid,var=vsstresn)
heightbl=vsstresni
run;
191
7. お わ りに 本稿では DS2言 語 のハ ッシュパ ッケージにおいて, ソースデー タに SQL文 の抽出結果 を とることができ る大変便利 な機 能 を紹介 し,そ れ を現状 のプログ ラム開発 において事実上 の標準 となってい る旧来のデー タ ステ ップで擬似 的 に再現する方法 を提示 した.さ らに,実 務 の場です ぐに利用できるよ うに埋 め込みマ ク ロ 化す る例につい て も示 した . DS2言 語 に比 べ て,あ くまで DOSUBL関 数 内で 1ス テ ップを実行 してい るため,表 面上 ,1ス テ ップに 見せかけてい るに過 ぎない。そのためパ フォーマ ンスの面で DS2を 上回 ることは難 しい と思 われ る . ただ し,1日 来 の デー タステ ップ において,本 来 コー ド上 ,分 散 しがちなサブセ ッ ト作成 か らソー ト,マ ー ジの連続処理 を,ま とめて明快 に管理できる点において画期的 といえる . 今後,SASの デ ー タハ ン ドリングの主体が DS2言 語 に移行 してい くのか否 かについてはユ ーザーの環境 に もよるため,不 明ではある.し か し,I日 来 のデー タ ステ ップが活 きて い る間は今回提示 した方法 も,有 用 なデー タハ ン ドリング技術 として活 き続 け られ る と考 える . 8.参 考 資 料 (1)森 岡裕 。神 田悟志 (2014)SASハ ッシュオブジ ェ ク トを利用 して医薬 品開発に使用す るプ ログラムを効 率化す る一有害事象 と併用薬、臨床検査値 と途 中変更 の ある施設基準値 のマ ッチ ングか ら SASプ ログラム コー ドの分析 まで 『 SASユ ー ザー 総会 2014論 文集』pp.688‑695 (2)森 岡裕 (2015)DS2言 語にお けるデー タハ ン ドリングについて『 SASユ ー ザー総会 2015論 文集』 pp.73‐ 84 192
ods J+proc repo■ にお け る 解析帳票 の 日本語/英 数字 フォ ン トの 明示的制御 ○麻 生 美 由紀 (1イ ー ピーエ ス株 式会社 1 統計解析 1部 ) How to set Japanese / alphanumerical font explicitly when you create a Rich Text Format by using SAS program code: ods rtf + proc report MiyukiAso Statistics Analysis Department 1, EPS Corporation 要 旨 日本語 と英数 字 が混在す る RTF(Rich■ xt Format)形 式 の帳票 の 作成 におい て ,SASに は 日本語 用 と 英数 字用 の フ ォ ン トを明示的 に制 御 す るオプシ ョンが 存在 しない .本 論 文では現状 実装 可能 な コー ドに て ,そ れ を実現す るた めの,SASプ ロ グラム 内で完 結 で きる方法 を提 案す る.イ ン ライ ンフォーマ ッ ト 関数 や プ ロシジ ャ のオプシ ョン等 を利 用 し,文 章 ご とに 日本語用 フ ォ ン トと英数字 用 フ ォ ン トを 2回 指 定す るだ けで ,そ の文 章内の 日本 語 と英数字 をそれ ぞれ指 定 した フ ォ ン トで表示 す る こ とがで きる . キー ワー ド :RTF,イ ン ライ ンフ ォ ー マ ッ ト関数 玄:レ モ■ T口 百 日本語 と英数 字 を 「MS明 朝 と Times Ncw Romall」 ,「 MSゴ シ ック と Arial」 とい うよ うに ,フ ォ ン トを使 い 分 けて表示す る RTF(Rich Tc対 Format)形 式 の帳票 を ,SASプ ログ ラ ム で 作成す る こ とは大変難 しい .な ぜ な ら,現 在 の SASに は 日本語用 と英 数 字用 の フォ ン トを明示的 に制 御 す るオプシ ョンが 用 意 され ていない か らで あ る . そ の よ うな状況 の 中,RTF形 式 の 帳 票 にて フォ ン トを使 い分 けて表 示 す るための様 々 な対 処法が実践 され てい る。そ の一 例 と して ,MicЮ so■ Wordの フォ ン ト自動 置 き換 え機 能 を用 い る方法が あ る .Timcs Ncw Roman を基本 の フ ォ ン トと して作成 した RTFフ ァイル を表 示 す る と,日 本語 の 部 分 が 自動 的 に MS明 朝 に置 き換 わ る。 しか し,こ の 方 法 は MicrosorWord 2013ま での 旧バ ー ジ ョンで しか 利 用す るこ とが で きな い .最 新 の バ ー ジ ョン Microsott Wom 2016で は , 自動 的 に置 き換 わ る フ ォ ン トが済 明 朝 になつてい るた めである。また , 他 の 対処法 と して ,RTFフ ァイル の RTFタ グ情報 に手 を加 える方法 が あ る .inmeス テ ー トメ ン トで RTFフ ァイ ル を読み込 み ,タ グ情報 をデ ー タセ ッ トの 中に格 納 し,適 切 な部 分 に フ ォ ン ト情報 (RTFタ グの構 文 ) を挿 入 し,加 工 した RTFタ グを再 び RTFフ ァイ ル と して 出力す る方 法 で あ る。しか し,RTFタ グについ て知 識 が必要 な点 と一度 作成 した もの を再加 工 ,再 構成 す る とい う点 に ,抵 抗 を感 じる人 も少 な くない だ ろ う . 193
更 に,今 挙 げた 2つ の方 法 だ と,2つ 以上 の 日本語用 と英数 字用 の フ ォ ン トの組 み合 わせ には対応 で きな い
とい う問題 点 が ある.例 えば ,一 つ の帳票 で , 日本語 と英数 字 を 「MS明 朝 と Times New Roman」 で表示す る
箇所 と 「MSゴ シ ック と Arial」
の組 み合 わせ で表 示す る箇所 が 同時 に存在 す る場合 で あ る.更 に ,別 の対 処
法 と して ,SASプ ログ ラ ム で の フォン トの使 い 分 け の実現 は諦 めて ,SASで 生成 した RTFフ ァイ ル を Word
の機能 を用 いて加 工す る (フ ォ ン トを一括 変換 す る)方 法 もあ るが ,Wodで RTFフ ァイ ル の加 工 を行 って し
ま うと,余 分 な情報が付加 され ,フ ァイ ル サ イ ズが増 大 して しま うとい う問題 が あ る
.
以 上 の こ とか ら, 日本 語 と英数 字 をそれ ぞれ 別 の フ ォ ン トで表示 す るた め の新 た な対処法 が必 要 で あ る と
考 えた 。そ こで ,本 論 文 で は ,今 までの対処 法 の 問題 点 を解 決 し,な お かつ一 つ の SASプ ロ グ ラ ム にお いて
シンプル な 出力 の みで完 結 す るよ うな対処法 の一つ を提案 す る.な お ,本 論文 で は ,一 般 的 な表 を作成す る
詳細 は SASの 公 式 の Rehcnce
際 に用 い る ods■ fと proc repo■ の組み合 わせ で の RTF出 力 を基本 と してい る。
等 を参 照 され たい[1][2].
方法
使 用 す る SASの バ ー ジ ョンは 9.3以 上 とす る.フ ォ ン トの 指 定 には ,イ ン ライ ンフ ォーマ ッ ト関数や repo■
プ ロ シジ ャ の stylcオ プ シ ョン,compucス テ ー トメ ン トを使 用す る。
イ ン ライ ンフォーマ ッ ト関数 (Inlinc Formatting)と は,ods ifや ods html等 で ODS出 力す る際 に,文 字 の
書式設 定 をす るための 関数 で あ る[3].こ の 関数 を用 い る と,文 字・文章 ご とに書式 を指 定す る こ とが可能 で
,
太字や 色 つ き ,上 付 き文 字 ,下 付 き文字等 が表 現 で きる。 この 関数 は ,本 論文 で 紹介す る コー ドに多数使 用
され てい る .本 論文で紹 介 す るプ ログラ ム コー ドで は,こ の 関数 を利 用す るた めに ,予 め ods escapechaF"〜 ";
と指 定 して い る (エ ス ケ ー プ文 字 を"〜 "と 指 定 してい る).こ の指 定 に よ り,"〜 "を イ ン ライ ンフ ォ ーマ ッ ト関
数 の構 文 の 前 に書 く こ とで ,イ ン ライ ンフ ォ ー マ ッ ト関数 の構 文 がプ ロ グラム上 の 文章 に干 渉す る こ とを防
ぐこ とが で き る.ま た ,書 式 設 定 は波括 弧 (}の 中に記述す る。本論 文で用 い られ るの は ,「 〜S={書 式 }文 字」
「〜
{stylc=[書 式]文 字 }」 「〜{unicodc XXXX)」
で あ る。
紹介 す る コー ドに共 通 す る のが ,「 文章 (行 )ご とに ス タイル 指 定 を行 う」「日本語 用 フォ ン ト,英 数字用
フォ ン トの順番 で 2回 ス タイ ル 指定 を行 う」 とい う 2点 で あ る。 また ,RTF出 力 の 際 に使 用 す るテ ンプ レー
ト (proc tcmplatc等 で作 成 され た もの)が 英数 字 ベ ー ス であ る (ラ ベ ル や表 タイ トル 以外 の 出力 の 大半 の部分
は英数 字 の み であるこ とか ら)こ とを前提 と して い る。
表 1の コー ドでは文 章 の 先 頭 に,イ ン ライ ン フォ ーマ ッ ト関数 で 2回 フ ォ ン トの指 定 を して い る.日 本 語
用 フ ォ ン トの MSゴ シ ック ,英 数 字用 フ ォ ン トArialの 順番 で ス タイル指定 の構 文 を並 べ てい る .こ の順番 を
逆転 させ る と,英 数字 も MSゴ シ ックで表 示 され る.こ の 方法 の 特徴 的な点 は ,文 章 の先頭 に この構 文 を付
加 す るだ けで , 日本語 と英 数 字 がそれぞれ の フォ ン トで表 示 可能 な点 であ る。 この方 法 で は前 に基本 の フ ォ
ン トと して 日本語用 フ ォ ン トを適用 し,後 か ら英数 字用 の フォ ン トを適用 し直す こ とで ,英 数 字用 フ ォ ン ト
で は表 現 で きな い 日本語 の 文 字 を避 けて ,英 数 字 の み が変 換 され るの を利 用 してい る。 一 方 , この方法 の欠
点 は ,余 分 に ス タイル が変 更 され て しま う点 で あ る。例 えば ,文 字 の 大 き さや 文字 の位 置 な どで あ る.イ ン
ライ ン フ ォ ー マ ッ ト関数 で の ス タイル指 定 が優 先 され るた めで あ る.こ の方法 を用 い る際 は , この よ うな欠
点が あ る こ とを理解 した上 で ,挙 動 と出力結 果 を確 か めなが ら,帳 票 を作成す る必 要 があ る。
表 1:コ ー ド 1
194
titlel
=:l h=10pt
」
rS=Ifont̲face='MSゴ シ ック 'I〜 S=IfOnt̲faCe='Arlal'I表 1‑l SASユ ーザ ー 総 会 の参加者
内訳
表 2で は,proc rcpo■ にお けるス タイ ル 指 定 の例 を示 して い る.こ の コー ドの仕組 み は,表 1の コー ドの原
理 と基 本 的 に 一 緒 で あ る。 style(columm)=伸 吐ル ce="MS明 朝 ")と "〜 {sげ e[お ntね cc='Timcs New Romani]",
XXX,‖ )‖ で 2回 フォ ン トの指 定 を してい る .表 1の コー ドと違 う点 は ,〜 {style[お ntねcc='Timcs New Roman']
群 1)と いった具合 で ,括 弧 {)の 中 に英数 字 用 フォ ン トの ス タイ ル 指定 のイ ン ライ ンフォーマ ッ ト関数 と表示
した い 文章 を閉 じ込 めて い る とい う点 で あ る.こ うす る こ とで ,実 は ,表 1の コー ドの 問題 点 は解 決 され る
の で あ る.括 弧で 閉 じる こ とで ,ス タイ ル の 変更を 「この 文 章 の フ ォ ン トを変 える」 のみ に限 定 で き る.ま
た ,こ の コー ドは ,一 つ の 文章 ご とに フォ ン トを指定 して い る とい う特徴 が あ る。cOmputc xxx array・ ―の部
分 が重 要 な点であ る。 この computcで は ,霞 り で指定 した変数 に ,括 弧 と じの ス タイル指 定 の構 文 を付加 し
て い る。 この コー ドの 良 い 点 は,rcpo■ プ ロシジ ャのオ プ シ ョン と computeス テ ー トメ ン トを用 い る こ とで
,
フォ ン トの指定 を 1ス テ ップで完結 で き る とい う点 で あ る .一 方 ,こ の方 法 の 欠 点 は,出 力変数 の加 工 を要
す る点 と,フ ォ ン ト指 定 の構 文 を追加 す るた めに出力す る変 数 の長 さを少 し多 めに取 ってお く必 要 が ある点
で あ る。 この方法 を用 い る場合 にお い て も,挙 動 と出力 結 果 の確認 を慎重 に行 う必要 があ る。
表 2:コ ー ド2
proc report data=[input dataset] nOWlndOWS Split='#'
MS明 朝″
″
style(column)=〔 font̲face=″ MS明 朝
style(header)={font̲face=″
]
l
column .. (ft6)
outl out2 out3 sort
(ft6). .
define outl
/ display center style(colrrn;={cel lwidth=3cm}
'-{style[font-face='Times New Roman'] 1 EEI'
def i ne out2
/ display center style(column)-{cel lwidth=4cm}
'-{style[font_face='Times New Roman'] 2 EE]'
.. (ffi)
.
define sort / order noprinti
compute sort;
array XXX .. (BF).. outl-out3;
do over XXX;
XXX=cats ("" {sty I e [font-face=' T i mes New Roman' ] "
. (ffi)..
end;
endcomp,
run;
195
XXX,″ l″ )
最 後 に ,表 3に ギ リシ ャ文字 の対応 に つ いて,コ ー ドの例 を挙 げ る。上述 の 方法 を用いた ときに ,ギ リシ
ャ文 字 が 日本語用 の フ ォ ン トで表示 され る とい う問題 が生 じた .ど うして もギ リシャ文字 に は 英数 字用 フ ォ
ン トを適 用す る ときは ど うす るのか ,そ の解 決策 を示 した の が コー ド3で あ る .ギ リシャ文字 には ,括 弧 (}
の 中で フ ォ ン トを指 定 し,な おかつ〜{unicodc 03Bl)の よ うに ,イ ンライ ンフ ォ ーマ ッ ト関数 で unicode文 字
と して 指 定 しなけれ ば な らな い .こ の 方 法 は ,ギ リシャ文 字 が 出て くる度 に個 別 に対処 す る必 要 が あ り,非
効 率 で 煩雑 であるた め ,あ ま り良 い 方 法 とはい えない .た だ し,ギ リシャ文 字 の発 生す る頻 度 や 場所 が少 な
く予 め決 め られ てい る よ うな場合 (検 査 項 目な どの ラベ ル や タイ トル ,脚 注 な ど出力 が 固定 され てい る部分 )
に は ,あ る程度有用 と考 え られ る。
表 3:コ ー ド3
"A-r-{stylelfont_face=' Times New Roman '1"[unicode 0381]] "
結果
紹 介 した コー ドの詳 細 は ,別 添 1(出 力 部分 コー ド)を 参 照 され たい .ま た ,別 添 1の プ ロ グ ラ ム を実行 し
て得 られ た出力 結果 (RTFフ ァイル )は 発 表 ス ライ ド内で紹 介 す る
.
考 察 とま とめ
コー ド 2で の結果 の 書 き換 えを必要 最 低 限 に とどめたい 場 合 , 日本語 が 存 在 す る変数 にのみ deincス テー
トメ ン トで stylc(c01umn)={ゎ ntね cc=''xxxx''}と して ,cOmputc xxx aray… で もそ の変数 のみ を指 定すれ ば よ
い .仕 組 みが理解 で きて いれ ば,あ る程 度 カ ス タマ イ ズ は可能 で ある
.
帳 票 作成方法 は様 々 で ,RTFタ グを 書 いて RTFフ ァイ ル を作成す るプ ロ グ ラムや proc repo■ の代 わ りに
odstablcを 用 い るプ ロ グ ラ ム等 ,多 数 存 在 す る.今 回 は ,proc repo■ を用 い るプ ロ グラム での方 法 を提案 した
が ,RTFタ グを直接構 成 す るのでは な く 自動 生成す るよ うなプ ロ グラム で あれ ば ,こ の方法 は応 用 可能 と考
え る .繰 り返 しとな るが ,共 通す る原 理 は 「行 ごとに」「日本 語用 ,英 数字 用 の順 番 で 2回 ス タイル 指定」で
あ る こ とか ら,こ れ を実現 で きれ ば制御 は可能で ある。 なお ,ods pdfで この方 法 は使用不 可能 で あ る。
イ ン ライ ンフォー マ ッ ト関数 は個 々 の ス タイル を指 定す る上 で ,大 変便利 な 関数 であ る。 しか し,正 しい
構 文 を書 かなけれ ば ,出 力 が 制御 で き な い だ けでな く,構 文 がそのまま 出力 と して 出て くる こ とが あ る.出
力 結 果 で失敗 した部 分 は , 日視検証 (印 刷 体裁 のチ ェ ックな ど)を す る上 で分 か りやすい 目印 に もなるが
,
見逃 さな い よ うに特 に注意す るべ きで あ る。今 回紹介 した方 法 は ,あ くま で 挙 動 を理解 した 上 で使 うことを
前 提 と したい。
ま た ,将 来 の リリー ス にて , 日本 語 と英 数 字用 の フォ ン トを明示 的 に制 御 す るオプシ ョンが 出来 るこ とを
期 待 す るが ,そ の よ うなオプ シ ョンが な い 現段階では ,暫 時 的 に本論文 で 紹 介 した方 法 な どを実践 す る しか
な い 。 今後 は,SASの 機 能 の拡張や , よ り効率的で簡易 な フ ォ ン ト制御 法 が 開発 され るこ とを期 待す る
.
196
参 考文献 1. Base SAS(R) 9.3 Procedures Guide, Second Edition: REPORT Procedure http://suoport.sas.com/documentation/cdlienlproci65 145/HTML/delbult/viewer.htm#p0bqogcics9o4xn I Tyvt2qibe dpi.htm 2. SAS(R) 9.3 Output Delivery System: User's Guide, Second Edition: ODS RTF Statement http:/lsupport.sas.com/documentation/cd1/en/odsug/65308/HTML/default/viewer.htm#o I vvsv8ucnjzinnl wq5wrlpT 4mdb.htm 3. Eric Gebhart (2009), Inline Formatting with ODS Markup, Paper 222-2009, SAS Global Forum 2009 197
別添 1:
この コー ドを実行す る前 に,予 め proc templateで テ ンプ レー トを作成 してい る (省 略 ).
ods■ fで stylc=武 hylibicst̲typeと してい る部分 は あ くまで参考 な ので ,別 途 ,設 定す るこ と
/*
Proc templateで 自分のテンプレー ト〈
test̲type)を 作成 (省 略)
*/
* Footnotei
data
footi
length ft S1000 :
ft=″ フォン ト個別指定 しない :ア ルファ■unicode 03Bl}″
:
outputi
ft=″ フォン ト個別指定 している :ベ ータIstyle[font̲facer Times New Roman']〜
Iunicode 0332}〕
″
;
outputi
ft=″ おまけ :ギ リシャ文字4つ ■style[fmt̲face='Times New Roman']〜
gamma}〜 〔
unicode 033411′
′
unicode 0382ド 〔
unicode
lunicode 0381ド 〔
:
outputi
run:
proc sql noprinti
select ft into: allfootnote separated by '〜
Inewline l}' from ̲footi
quit;
*出 力部分作成
:
data al101:
length param subgr $200:
par anF″ 参加者数 n″ :paramn=0:output:
paramn・ li subgr=″ 男 male″ :
outputi
″
param=″ ;
paramn=li subgr=″ 」
そfemale″ : output:
param=″ 学 生 /一 般 student/adult″ : paramn・2: subgr=″ 学 生 student″ : outputi
″
param=″ ;
paramn=2i subgr=″ 一 般 adult″ : outputi
para!■ =″ 1生 男
l sex″ i
runi
data DS_RTF;
length param subgr outl-out3 $200. ;
set al 101;
by paramn;
array o outl-out3;
do over o;
if
eI
se
paramn=0 then o="99";
o="99 (99. 9%) ";
end;
*for I i ne;
if last. paramn then do;
inel=1
-l
end;
else _l inel=.
;
;
sort=_n_;
run;
198
別添 1
," RTF OUTPUT ;
%let borderstyle=%nrstr(borderbottomwidth=O.3pt
borderbottomcolor=black borderbottomstyle=solid);
options nodate nonumber;
opti ons or ientat ion=portrait
opti ons noquotel enmax;
ods escapeohar="-"
ods html close;
ods I isting close;
ods rtf fi le = ".
¥
¥SAS二 L― ザー総会 2018 rtf″ notoc̲data style=rtfmylib test̲typei
〜
titlel」 =lh・ 10pt″ S二 Ifont̲face='MSゴ シック'1〜 S=[fOnt̲faCe='AriaI'l SASュ ーザー総会 2018″
title2;
″
〜
title3 j=│″ S=〔 font̲face■
シック'}〜 S=〔 font̲face='Arial'〕 表 1‑l SASユ ーザー総会の参加者内訳
footnotel
″
=│ 2018/XX/XX″
」
j=c″ 〜S=Ifont=face='MSゴ シック'〕 〜S二 IfOnt̲faCe='Arial'〕 ペ ー ジ ■ thispage1/■ lastpagel″
j=r ″Tl̲1″
:
'MSゴ
proc report data=DS̲RTF nowindows split='#'
style(header)=Ifont̲face=″
style(column)二 Ifont」 ace=″
cOlumn
MS明 朝″
&borderstyle l
MS明 朝″
}
̲linel param subgr outl out2 out3 sorti
W Ⅳ
nopr i nt;
sty ,. 1"o r,16; = {ce lwidth=4.Scml " ;
sty le(column)={cel lwidth=3cml "
center sty ,.1.o1rrp)={cel Iwidth=3cm) ""lstyIe[font-face=' Times New Roman' ]1 E El]";
center sty le(column)=[cel I w i dth=3cml "- [sty I e [font-face=' T i mes New Roman' 12El el"
Iwidth=3cml "-{styIe[font_face=' Times New Roman' ]t{6}";
center sty
'.,.o1rrn;=fcel
nopr i nt;
I
I
W
inel/ disp
define
param / disp
define -l
define subgr / disp
define outl / disp
define out2 / disp
define out3 / disp
define sort / orde
eft
eft
1
I
;
:
compute sort;
array XXX param subgr outl-out3;
do over XXX;
XXX=cats ("" {sty I e [font-face=' T i mes New Roman' ] ", XXX, "] ") :
if inel=1 then cal l define (-R0W-, "style", "style=[&borderstyle. ]")
end:
-l
endcomp;
compute after
″〜
line
S= lfont-face=' M S Er#' just=left]
〜
S= [font-face='Times New Roman' foreground=red bordertopwidth=O.3pt bordertopcolor=black
borderbottomstyle=none bordertopstyle=sol idl&a I lfootnote. ";
endcomp;
ods rtf close;
199
PROC ODSTABLEを 用 い た帳票 作成 山野辺 浩己 イ ー ピーエ ス株 式会社 Uslng PROC ODSTABLE to Produce Tables Hiroki Yamanobe Statistics Analysis Deportmentl, EPS Corporation 要旨 SASに お いて ,帳 票 の 作成 には長 らく PROC REPORTを 用 いた テー ブル 出力 が用 い られ て きた .SAS OUTPUTに 出力 され るテ キ ス トか ら構 成 され た PROC REPORTの 出力 結果 は ,よ り人 が扱 い やす い形 の リッチ テ キス ト形 式 (RTDへ の 出力 に対応 し,SnLEを 当て るこ とで多様 な表 現 を可能 に して きた。しか し , PROC REPORTで RTF帳 票 を作成 す るに は ,PROC REPORTの 文法 が他 の SAS上 の文 法 に比 べ 特殊 で あ る こ とや ,イ ン ライ ン フ ォ ーマ ッ ト関数 に よる装飾 で可読 性 が低 くな る とい うデ メ リッ トを抱 えてい る . 一 方 ,SAS 9.4か ら追加 され た PROC ODSTABLEで は ,PROC REPORT同 様 のテー ブル 出力 が可能 と ODSTABLEは ,PROC TEMPLATEに 似 た文法 で構 造 化 しやす く,ODS EXCEL等 に へ RTF以 の し 対応 外 出力 の転用 も可能 で ,PROC REPORTと 同様 の こ とが行 え る.こ れ らテ ー ブル 作成 を 行 う PROC ODSTABLEと PROC REPORTの 機 能 を比 較 ・ 検討 し,PROC ODSTABLEを 用 い た帳票 作成 な って い る.PROC を提案 す る . ード :ODS RTF, PROC ODSTABLE, PROC REPORT キー ワー 1.は じめ に PROC REPORTを 用 いた RTF帳 票 出力 は ,SASに お け る作表 にお いて ,事 実上 の標 準 的方 法 となってい る。 しか し,SASプ ロ シジ ャの 中で もやや 特殊 な文法 は ,可 読性 ・保 守性 ・ 構 造化 の あ らゆ る面 で,プ ロ グ ラマ を悩 ませ て きた .特 に,ODS RTFで の 出力 にお い て は ,PROC TEMPATEや イ ン ライ ン フ ォーマ ッ ト 関数 (Inhne Formatting)に よる STYLEの 操作 が加 わ り,罫 線や ,ペ ー ジな どの調整 も必 要 に なる場合 が あ る。イ ン ライ ンフ ォー マ ッ ト関数 は ,ODS出 力す る際 に ,テ キス トの書式 設 定 をす るた めの 関数 で,罫 線 処 理 や 字 下げ処理等 の 表 現 に関わ る部分 で多用 され てい る . それ らの複雑 な操 作 や コー ドの解 説 が過 去 たび たび行 われ てお り,太 田(2017)が PROC REPORTを 用 い た RTF帳 票 の作成 に つ い て 言及 してい る。PROC REPORTは ,元 来 SAS OUTPUTに 出力 す るテ キ ス トが ベ ー ス となってお り,そ こに RTF用 の 属性 を SnttEと い う形 で付加 させ るた め ,そ の方 法 は 向 に あ った 煩 雑 になる傾 . 一 方 PROC ODSTABLEは ,PROC TEMPLATEを 介 さず に SnLEを 直接 設 定 で きるた め ,イ ン ライ ン POWERPOINT,ODS EXCELに フォー マ ッ ト関数 が 挿 入 され た コー ドに比 べ て可 読性 が 高 い .ま た,ODS 1 200
対応 してお り,RTF以 外 の帳票 へ の転用 が容易 に行 え る とい う特 長 が ある.し か し,PROC 現 可能 な挙動 の一 部 は ,PROC REPORTで 実 ODSTABLEで 実現 で きな い もの もあ り,注 意 が必 要 で あ る 本 稿 では ,PROC REPORTの コー ドと出力結果 を PROC ODSTABLEで 再現 し,比 較 を行 う.そ の 後 PROC ODSTABLEの 活用例 を確 認 し,PROC ODSTABLEを 用 い た帳票作成 を提 案 す る . . 2.帳 票作成例 PROC REPORTに て作成 した 表 を表 1,PROC ODSTABLEに て 作成 した表 を表 2に 示 した 表 1 TRT̲A A001 TRT B A002 VISIT1 20 18‑07‑01 VISIT1 20 18‑07‑04 V VISIT2 20 18‑07‑20 正常 2018‑07‑01 正常 正常 正常 異常 2018‑07‑04 2018‑07‑20 異常(検 出エラー) ′ヽ TRT B A002 TRT B A002 VIS1113 20 18‑08‑06 正常 2018‑08‑06 正常 TRT A A003 VISIT1 20 18‑07‑23 正常 2018‑07‑23 正常 TRT A A003 VISI・ 2 2018‑08‑09 正常 2018‑08‑09 異常幅 定値を超えて 「 ヽ` たため〕 TRT B A004 VISIT1 20 18‑07‑30 異常 2018‑〔,7‑30 工常 TRT B A004 VISIT[: 2018‑08‑15 正常 2018‑08‑15 正常 20 18‑07‑01 正常 2018‑07‑01 正常 「1 2018‑07‑04 正常 2018‑07‑04 正常 2 2018‑07‑20 異常 2018‑07‑20 異常(検 出エラー) に 常の場合、理 由を括弧内に付した 'k異 表 2 TRT A A001 TRT B A002 VISIT1 VISI・ ③ TRT B A002 TRT B A002 VISITl≡ 1 2018‑08‑06 正常 2018‑08‑06 正常 TRT A A003 VISIT.1 2018‑07‑23 正常 2018‑07‑23 正常 TRT A A003 VISI・ 2 2018‑08‑09 正常 2018‑08‑09 異常(規 定値を超えて いたため) TRT B A004 VISIT1 20 18‑07‑30 異常 2018‑07‑30 工常 TRT B A004 VISI・ 12 2018‑08‑15 正常 2018‑08‑15 正常 VISI・ I・ I・ 、理由を括彊内に付した 201 ,
/丼
programl‐ 1*/
column
("薬 斉嚇洋''
("症 例 "
("時 点
1'
li''
outl)
'‖ l
out3)
'l番 号 ‖out2)
("検 査値 "("検 査 A'l out4 out5)̀η
(‖
検 査 B" out6 out7))
sort line;
deline out1/style={celll″ ldth=100 just=center}││‖
;
deine out2/style=(cellmdth=100 just=center)‖ ";
deine out3/style={cell、 ndth=100 just=center)‖ ";
deine out4/stメ e={cellwidth=150 just=cente」 ‖
検査 日";
]三 異";
deine out5/stメ e={cellwidth=200 just=cente■ ‖
deine out6/stメ e={cellwidth=150 just=center}‖ 検査 日";
deine out7/style={cellwidth=200 just=center}‖ ]三 異";
deine sort/noprint order;
de:Ene line/noprint group;
表 1の 図 中① の ,ヘ ッダ ー を PROC REPORT内 で表 現 したのが prOgraml‑1の ① の部分 で あ る.PrOgraml‐
1の ① で は ,ヘ ッダー の多層 化 を表現す るた めに ,COLUMNス
テ ー トメ ン トで括弧 を複 数 用 いてい る。括
弧 を多重 に重 ね ることで ,ヘ ッダー 部分 を階層化 させ る PROC REPORTの 仕様 のた めで あ る。
/* programl-2 */
text"薬剤群 "; end;
define header headerli start=outl; end=out1i vjust=topi just=center;
define header header2i start=out2i end=out2i vjust=topi just=center; split=Ψ ';text‖ 症例#番 号t end;
l';
end;
text''日 寺′
ミ
、
ギ
define header headerSi start=out3; end=out3i vjust=topi just=centeri
‖
just=centeri
;
end;
text"検
査値
vjust=topi
header
header4_7i
start=out4i
end=out7i
define
,1
end;
text‖ 検査 A";
" define header header4-5i start=out4i end=out5i vjust=topi just=centeri
text"検 査 日"; end;
define headerheader4i start=out4; end=out4i vjust=topi just=centeri
te競 "正 異 ";
end;
define headerheaderSi start=outs; end=out5i vjust=topi just=centeri
text"検 査 B"; end;
define header header6_7i start=out6i end=out7i vjust=topi just=centeri
‖
te苅 "検 査 日 ; end;
define headerheader6i start=out6; end=out6i vjust=topi just=center;
text ilIE異 ";
end;
defrne headerheader7i start=out7i end=out7i vjust=topi just=centeri
対 して ,PROC
ODSTABLEで 表 した Programl‐ 2の ① で は ,ヘ ッダー を 1層 ご とに定義 し,そ の後 1変
数 (1列 )ご とに構成 を定義 して い る.[start=out4;end=out7;]の よ うに,変 数 の 開始 と終端 を決 め ,対 象 の 変
数 に跨 るセル を作成 で き る。 また ,SnLEを 別 途 定義 し,[end;]で 括 る こ とで終端 を宣言す る形 のため,構
造化 され てお り可読性 が高 い
.
l* program2'7 *l
define line / noprint groupi
compute linei
if line=l then do i=1 to 7:
6r
e
call define(cats('out',i),'style',"style={BorderBottomColor=BlACK
BorderBottomStyle=SOLID
BorderBottomWidth=1)") ;
end;
ifline=2 then do i=3 to 7i
call defi ne(cats('out',i),'style', "style={BorderBottomColor=BLACK
BorderBottomstyle=SOLID
BorderBottomWidth=1)") ;
end;
endcompi
Program2‑1の ② では,COMPUTEス テー トメ ン トを使 って ,罫 線処理 を行 っている.COMPUTEで フ
ラグ化 し,罫 線処理 を加 えるには,DEFINEス テー トメン トで当該変数 に GROUPオ プシ ョンを指定 してお
く必要が あ り,ま た列 をまた ぐ処理では複雑 な構成 になることがある
.
202
l* program2-2 */
cellstyle
,^
\')
line=l and _col_ >= 1 as data{borderbottomwidth=1}
,line=2 and _col_ >= 3 as data{borderbottomwidth=l-}
対 して ,Program2‑2の ② では,冒 頭 の CELLSTYLEス テー トメン トで罫線処理を行 ってい る
CELLttWLEス テー トメン トでは,条 件を値単位で記すことができ,ま た GROUPオ プションで指定等の制
約はない。列の指定をLcol」 という自動変数の形で指定することができ,加 えて PROC REPORT同 様に出
.
力 変数 の 値 に作用す る こ とも出来 る。
/* programS^1 */
compute gap / character length=200;
gap = " -S={BorderBottomStyle=hidden}";
endcompi
Program3‑1で は ,列 の空 白を表現す るた めに ,適 当な任 意 の 変 数 gapを 用 い て い る.変 数 gapを 作成す
るた め,COMPUTEス テ ー トメン トにて ,optionで 属性 [character length=1]を 宣言 して,内 部 に格 納す る
値 を して欠 損 を与 え,創WLEだ けを与 え る こ とで ,空 列 を作成 して い る
.
lx programS-2*/
compute as ("")i styte={cellwidth=5}; end;
define gapi
対 して ,Program3‑2で は ,他 の変数 同様 の DEFINE
る.PROC
COLUMNス テ ー トメ ン トを使用 して ,表 現 してい
REPORTの COMPUTEス テ ー トメ ン トで行 つて い る変数 の定義 も可 能 で ,新 たに変 数 を作成す
る こ とも可能 であ る
.
/'program4‐ 1ナ /
compute after page;
hne@1"〜 S={BOrderBOttOmStyle=hidden BorderЪ pWidth=1}※ 異常の場合 ,理 由を括弧内に付 した‖
;
endcoinp;
Program4‑1で は ,脚 注 の表 現 を,COMPUTEス テー トメ ン トを用 いて表現 して い る。PROC REPORTの
もつ 改 ペ ー ジ処理 を利 用 して ,[after page]ご とに文章 を打 ち出す .[compute after;]と 記述す る こ とで ,各 ペ
ー ジで は な く,フ ァイ ル の 末尾 にのみ打 ち出す こ とも可能 で あ る。
/'program4‐ 2'/
deine footer footerl;start=outl;end=out7;
just=le乱 ;style=(BorderBottomStyle=hidden backgrOund=white fOntsize=9pt};
text"※ 異常の場合 ,理 由を括弧 内に付 した‖
;
end;
対 し,Program4‐ 2で は ,DEFINE
F00TERス テー トメ ン トを用 いて脚 注 を表 示 してい る。STYLEの 適
REPORT
とは 異 な った表 現 であ る .フ ァイ ル の 末尾 にのみ 出力 したい 場 合 は ,ODS TEXTス テー トメン トを使 い ,直
用 も通 常 の DEFINEス テ ー トメン トどお りに表 現 できる.F00TERの み を別 の 構 造 で持 つ PROC
接 テ キ ス トを出力す る
.
3.PROC ODSTABLEで の み 可 能 な 表 現
PROC ODSTABLEで のみ可能な表現 を組 み込み作成 した表 を表 3に 示 した
203
TRT A
A001
VISITl
②
A002
TRT B
VISITl
③
VIS112
(4 weel6
TRT A
A003
VISITl
VIS112
TRT B
A004
VISITl
VISIT2
※異常の場合、理由を括取
2018‑07‑01
2018‑07‑01
正常
正常
2018‑07‑04
2018‑07‑04
正常
正常
2018‑07‑20
2018‑07‑20
異常
異 常(検 出エラー )
2018‑08‑06
2018‑08‑06
正常
正常
2018‑07‑23
2018‑07‑23
正常
正常
2018‑08‑09
正常
2018‑08‑09
異常(規 定値を超えていたため)
2018‑07‑30
2018‑07‑30
異常
工常
2018‑lJB‑15
2018‑08‑15
正常
正常
付した
表 3の ① は,通 常とは上下逆転 したヘ ッダーの階層を表現 している。一般的に使われる層 の表現では, ピ
ラミッド型に構成 されてお り,上 に登るほど集約 し,下 に降るほど多くの要素に分化する(表 1,表 2).表 3の
① で表現 したヘ ッダーの多層構造は,層 を一行ずつ構成 していくPROC ODSTABLEで のみ表現可能である
.
/* program5 */
define header headerli start=out1 i end=out1i vjust=topi just=centeri
defrne header header2i start=out2; end=out2i vjust=topi just=centeri split="#";
defrne header header3i start=outSi end=out8i vjust=topi just=centeri
define header header4i start=out4i end=out4i vjust=topi just=centeri
defrne header headerSi start=out5i end=out5i vjust=topi just=centeri
defrne header header6i start=out6i end=out6i vjust=topi just=centeri
define header header7i start=out7i end=out7i vjust=topi just=centeri
define header header4_7 I start=out4; end=out7l vjust=topi just=centeri
end;
text"薬 斉」
群 ";
;end;
text"症 例 #番 号 ‖
text叩寺′
点";
end;
text'験 1査 日'1: end;
end;
text''IE異 '7;
text''検 査 日'i;
end;
text''IE異
text‖ 検 査 値 ";
end;
,7;
end;
Program5は 該 当部分 の処理 に あた るが ,deine headerの 宣言す る順 序 に注 目した い。Programl‐ 2で 記
した deine headerで は ,header4̲7を 定義 した後 に header4か ら header7ま で を宣言 した。一 方 ,Program5
で は ,header4か ら header7ま で を定義 した後 に header4̲7を 宣言 して い る .Define headerで 宣言 した順
序 に よ り,層 が上 か ら構成 され る こ と とな るた め,プ ロ グ ラ ム 内で の指 定 の順 番 を入れ替 え るだ けで ,層 の
構 造 を入れ替 え る こ とが出来 る
.
表 3の ②は,2つ の変数 を 1列 に 2行 に分 けて表示 してい る.PROC REPORTで は Computeス テー トメ
ン トを使 い表示す るか,事 前に一つの変数に集約 しな くてはな らなか った .ど ち らの場合 も,新 たな変数 を
作成 しそこに二つ の変数 を結合 して格納す るとい うもので ,各 変数 の生の値 を表示 してい る とは言 い難 い も
ので あった。
/* program6 */
column outl - out3 (out4 out5) gap (out6 out7) line;
204
Program6の よ うに括弧 で結 ぶ こ とで ,PROC ODSTABLEで は複 数 の変数 に つ い て値 を変更 しない まま
1列 に表現 で き る.PROC ODSTABLEで も Computeス テー トメ ン トで各変数 を結 合 して表示す る こ ともで
き るが ,括 弧 内で結 ぶ本方法 で は ,あ くまで各変数 を 1列 に表示 す る とい うもので あ る
.
表 3の ③ は ,値 が連 続 して重 複 した列 に対 して ,重 複 分 の値 を非表示 に してい る。PROC REPORTで は
,
orderや groupを 用 い る ことで 可能 で あ ったが ,入 カ デ ー タの順 番 に関わ らず , ソー トされ て しま うとい う
注意 点 が あ った .そ のた め表 3の [薬 剤群]の 列 の よ うに L,B,B,B,A,A,B,B]と 2種 類 の 値 が不 規則 に並 ん でい
る場合 ,[A, , ,B, , , , ]と 表示 され るこ と とな る。一方 PROC ODSTABLEで は Program3の ③ の よ
うに [blank̲dups=on]と 入力す るだ けで ,入 力順 に関 わ らず連続 して重 複 した値 が非表 示 され る。1つ 前 のオ
ブザ ベ ー シ ョン と内容 が重 複 した もの を非表示 とす るた めに,表 3の 薬剤群 の列 の よ うに[A,B,B,B,A,A,B,B]
と不規則 にデ ー タ格納 され て い る よ うな場合 で も,[A,B, , ,A, ,B, ]と 順番 を崩 さず に連続 した値 の 重複
を非表示 にで き る
.
表 3の ④ は ,特 定 の値 の置 き換 えを行 い ,[Visit3]の 表記 を [week3]に 置換 してい る
/* programT */
endi
define outliprint-headers=offijust=lefti style={cellwidth=100}; blank-dups=oni
endi
define out2iprint-headers=off;just=centeri style={cellwidth=100}; blank-dups=on;
define outSiprint-headers=off;just=centeri style={cellwidth=100};translate (out3="VISIT3") into "week3"i end;
end;
define out4 iprint-headers=off; just=centeri style={cellwidth=300} ;
endi
style={cellwidth= 15}i
define gapicompute as (");
end;
define out6 iprint-headers=offjust=centeri style={cellwidth=300} ;
.
―トメ ン トは括 弧 内
Program7の out3で は,translateス テー トメ ン トが使 用 され て い る.translateス テ ‐
に設 定 した条 件 に 当て はま った場 合 に ,[into]以 下 で指 定 した値 に置 き換 える とい うもの で あ る。[into put(変
数名 ,5.1)]等 の記 述 もで きるた め,出 カデ ー タセ ッ トに数値 を持 たせ た ままセ ッ トす る こ とが出来 る
.
4.PROC REPORTで の み 可 能 な 表 現
PROC REPORTで は,[break after変 数名 /page;]を 使 って ,指 定 した変数 の値 が変 わ る ご とに改 ペ ー ジの
処理 を入れ る こ とが出来 る.し か し PROC ODSTABLEに お い て ,改 ペ ー ジの処理 を用 いた帳票 出力 の 方法
につ いては ,現 状発 見 出来 てい な い
また ,行 数 をま た ぐ computeを 使 った集 計処理 に つ いて も,PROC REPORTの み が可能 な処理 とな る
PROC ODSTABLEは ,computeを 用 いてデ ー タセ ッ トのデ ー タ を加 工す るこ とは 出来 る ものの ,オ ブ ザベ
ー シ ョン単位 の加 工 とな り,行 を跨 い だ処理 は行 えな い 。
.
.
5。
PROC ODSTABLEで 行 う複 雑 な 罫 線 処 理
一例に複雑 な罫線処理 を,PROC ODSTABLEで 行 う.表 の罫線 を コン トロール す ることで,疑 似 的に フ
ロー 図を表現 した ものが表 4で ある。
登 録症倒
3例
治験薬投与症例
治験薬未投与症倒
3倒
0例
6
205
表 4は 6行 5列 のデ ー タか ら成 り立 つてお り,セ ル に対 して上下左 右 の罫線 を引いてい る。罫 線 は STYLE に属性 を与 え る ことで表 現 し,CELLSTYLEス テ ー トメン トを用 いて ,STヽ LEを 変更 して い る /* programS */ cellstyle _row_=1 and _col_ in (1) , row =1 and col in (2) ,-row =2 and col in (1) . as {borderleftwidth=1 bordertopwidth=1 just=left} as {borderrightwidth=1 bordertopwidth=1 } as {borderbottomwidth=1 borderleftwidth=1 just=left} as {borderbottomwidth=1 borderrightwidth=1 } as {borderleftwidth=1 } as {borderleftwidth=l bordertopwidth=l } as {bordertopwidth=1 } as {borderrightwidth=l bordertopwidth=1 } as {borderleftwidth=1 bordertopwidth=1 just=left} ,_row_=2 and _col_ in (2) , row =3 and col in (2) , row =4 and col in (2) ,_row _=4 and -col_ in (3) ,_row_=4 and _col_ in (4) ,_row_=5 and _col_ in (1,4) ,_row_=5 and -col- in (2,5) ,_row_=6 and _col_ in (1,4) ,_row_=6 and _col_ in (2,5) as {borderrightwidth=1 bordertopwidth=1 as {borderbottomwidth=1 as {borderbottomwidth=1 } borderleftwidth=l just=Ieft} borderrightwidth=1 } CELLSTYLEス テ ー トメ ン トは [CELLSTYLE条 件 as{ShrLE}]の 形 で記 述 し,[,(カ ンマ )]で 区切 る こ とで , 複数の条件文を書くことが出来る。Program8で は,自 動変数Lrow」 と自動変数Lcol」 を使い,セ ルごとに Eを 変 えてい る 与 える STヽ■」 . 6.お わ りに 本稿 で は PROC REPORTと PROC ODSTABLEそ れ ぞれ を用 いた作表 に つ い て比 較 ,検 討 した .可 読性 の高 さや 複 数 列 の 1セ ル での 表示 な ど PROC ODSTABLEが よ り機 能 的で あ る一 方 で ,PROC REPORTで のみ行 え る とみ られ る改 ペ ー ジ処理 も存在 す る .ヘ ッダー ・ カ ラ ム等 の 定義 を明確 に分 けて コー デ ィング 出 来 る PROC ODSTABLEは プ ロ グラムの 管理 は行 いや す く,今 後 は場合 に よ って 両者 を使 い 分 けるこ とで , 効率化 が 図れ る と考 える。 参考資 料 (1)太 田裕 二(2017)ODS機 能 と REPORTプ ロシジャを用いた解析帳票の作成 『 SASユ ーザー総会 2017 論文集』pp.186‐ 197 (2)matsu a(2016)PROC ODSTABLEに よる レポー ト出力 『 SAS忘 備録』 http:〃 sas‐ boubi.blogspot.com/2016/11ノ proc‐ odstable.html(最 終確認 日2018年 07年 05日 ) 206
付録
out2
out4
2018‑07‑01
2013‑07‑04
2018‑07‑20
2018‑08‑06
2018‑07‑23
2010‑08‑09
2018‑07‑30
2018‑08‑15
oⅢ t,
VISITl
VISITl
VISIT2
VISIT3
VISlTl
VISIT2
VISITl
VISIT2
A001
A002
A002
A002
A003
A003
A004
A004
out5
常 常 常 常 常 常 常
正 具 正 正 正 具 正
コ ゴ J び ´ フ J J
画爾WW冊w市 爾
デー タ
2018‑07‑04
2018‑07‑20
2018‑08‑00
2013‑07‑23
2018‑08‑03
2018‑07‑30
2013‑08‑15
正常
1正 常
異常 (規 定 値 を超 えて いたた め )
正常
正常
イ
寸録 programl
ods rtf■ le=‖ x】 D【 ixx】 o【 x¥testl̲reportrtri;
proc report data=DTl nowd split="#"
style=(■ ame=hsides rules=g・ oups background=white};
'*colunln;
column ("薬 斉」群 ''
("症 例 'l
("時 点 "
:"'
outl)
ll番 号 ‖out2)
'"'
out3)
("検 査値 "("検 査 A'' out4 out5)
gap
(‖
検 査 B'' out6 out7))
sort line;
**deine;
dettne Outlノ style=(cellw■ dth=100 just=left} '‖
deine out2/style={cell、 71dth=100 just=center}1"';
:;
deine out3/style=(cellwidth=100 just=center}‖ ";
dettne out4ノ stメ e={cellwi&h=150 just=center}‖ 検査 日";
deEne out5ノ stメ e={cellwidth=200 just=center}"正 異";
deine gap /style={cellwidth=15 just=cente」
deine out6/style={cellwidth=150 just=cente」
deine out7/style={cellwidth=200 just=cente」
"";
"検 査 日";
"]二
異";
deine sortノ noprlnt order;
deine line/noprint group;
十オ罫線処理
;
compute line;
if line=l then doi=lto 7;
call deine(cats('Outi,i),'styleず
style=(BOrderBOttOmColor=BLACiK
BOrderBOttOmStyle=SOLID
BorderBottomWidth=1)");
end;
if line=2 then doi=3 to 7;
call deEne(cats(10ut',i),Istyle',"style={BOrderBOttOInColor=BLACiK
BOrderBOttOmStメ e=SOLID
BorderBottomWidth=1}");
end;
endcoinp;
**空 白列処理
;
colnpute gap/character length=200;
gap=''〜 S={BorderBottomStyle=hidden}‖
;
endcolYlp;
**footl■ ote;
cOnlpute after̲page̲;
hne@1‖ 〜S={BorderBottomStメ e=hidden BorderЪ pWidth=1}※ 異常 の場合 ,理 由を括弧 内に付 した";
endcomp;
ods rtf close;
207
イ
寸金
矛progran12
ods rtf file=‖ XXXX】 CK】 OK¥test2 ods.rtF:;
proc odstable data=I〕 )Tl;
style=(缶 aine=hsides rules=grOups backgrOund=white};
coluinn outl‐ out5 gap out6‐ out7 1ine;
*'罫 線処理
;
CellStyle
line=l and̲COl̲>=l and̲coL ne 6 as dataお orderbottomwidth=1}
,line=2 and̲coL>=3 and̲coL ne 6 as data{borderbottomwidth=1}
deine line;print=Of3end;
**header,
deine header headerl; Start=Outl;end=Outl;vwst=top;just=center;
text‖ 薬 」
群 "; end;
deine header header2; start=out2;end=out2;v〕 ust=top;just=center;split="#";textり 主 コ
#者 号";end;
」
『
deine header header3; start=out3;end=out3;v〕 ust=top;just=center;
text''日 寺′
end;
点:1';
de■ .ne header header4̲7;start=out4;end=out7;vwst=top;just=center;
text‖
;
end;
検査イ
直‖
deine header header4̲5;start=out4;end=out5;v]ust=top;just=center;
text‖
end;
検査 A'l;
deine header header4; start=out4;end=out4;vJust=top;just=center;
text'オ
癸査 日''; end;
deine header header5; start=out5;end=out5;vjust=top;just=center;
text"IE異 ";
end;
deine header header6̲7;start=out6;end=out7;v]lust=top;just=center;
text''tttZ墜 │]B";
end;
deine header header6; start=out6;end=out6;v]ust=top;just=center;
text i嗜 癸
end;
lz蜃 日'';
deine header header7; start=out7;end=out7;v〕 ust=top;just=center;
text'IE異 ";
end;
ヤ*column;
1斉
:ク
deine outl;
deine out2;
deine out3;
deine out4;
deine out5;
deine gap;
deine out6;
deine out7;
end;
print̲headers=of3
just=left;
style=(cell、 7idth=loo};
print̲headers=of■
idth=100};
end;
just=center;
style={cell、 ァ
print̲headers=of3
just=center;
style={cellwidth=100};
end;
print̲headerS=0壼 ` juSt=Center; style={cell、 vidth=150};
end;
prlnt̲headers=of3
just=center;
style={cell、 vidth=200);
end;
COmpute aS("");
style={cell、
ridth=15};
end;
print̲headerS=Of3
juSt=Center;
style={cellwidth=150};
end;
print̲headerS=Of■
just=center;
style={cenwidth=200};
end;
=*foOter,
deine footer footerl;start=outl;end=out7;
just=left;style={BorderBOttOmStyle=hidden backgrOund=white fOntsize=9pt};
text"※ 異 常 の 場合 ,理 由 を括 弧 内 に付 した ";
end;
ods rtf close;
208
PK速 報解析 の レポー トシステ ムの構築 ○吹谷 芳博 1、 藤澤 正樹 1 (1あ す か製薬株 式会社 ) Construction of a flash report creation system in PK analysis ⊂)Yoshihiro Fukiyal,:Miasaki FWisawal lClinical Managclllcnt I)ept.I)evclopnlcnt I)ivisiOn"Aska pllarnlaceutical co.ltd 要旨 背景 :薬 物動態 学的 (PK:Pharcacokinetics)解 析 の 手順 で は,往 々 に して PKパ ラメー タを Phoenix WinNonlinで 算 出 し,そ の 出力結 果 を SASデ ー タ と して取 り込み ,SASで 統計解析 を実施 してい る。そ のた め ,担 当者 が 異 な る場合 が あ る こ と,あ るい は ソフ トウェアが 異 な る こ とか ら,一 括 実行す ること が 困難 であ る。また ,意 思決 定 の 場 面 では,血 中濃度 デ ー タの即時解析 の 実施 が要求 され ,一 定 の 品質 を担保 した簡便 な レポー ト作成 を要す る . 目的 :吹 谷 (2016)は ,SASと Pandocを 組 み合 わせ た レポー ト作成 の 効 率化 につ い て検 討・報告 して い る。本報告 で は ,そ の技術 の応 用 と BE試 験 の デ ー タヘ の適用結果 を示 す 。SASと Pandocを 利用 した 環 境 下で ,文 書 ,プ ログラムの 実行 結 果 ,グ ラ フ を一つ の フ ァイル に集 約 し,Word又 は PowerPointに 一 括変換す る方 法 を提案す る。 また ,Pmdocの 変換 で は対応 で きな い詳 細 な レポー トの成 形部分 には , Windows Script Host(WSH)を 使 用 し,WSHの 処理 は JSON形 式 でデ ー タ を経 由 して 実行 す る仕組み を説 明す る。 結果 :SASと Pttdocを 組 み合 わせ た レポー ト作成 は ,SAS単 独 で図表 を個 々 に RTF形 式 での レポー トよ りも柔軟 に対応 可能 であった 。 と くに文章 を含 む レポー ト作成 は ,本 方 法 の適切 性 が示 唆 され た。 また ,既 知 の報告 であ る SASプ ロ グ ラ ム上で VBScnptを 記述 し実行す る方 法 は,UNIX版 の SAS環 境 下 で は使 用 で きな い 。本方法 は部 分 的 に切 り分 けて実行 す るこ とでそ の 問題 を回避 し,プ ロ グラム処理 の 柔軟性 の 高 い こ とが示 唆 され た。 課題 :今 回 の Pandocを 利用 した 変換 は Wordや Powerointで 使 われ る機 能 を十分 に網 羅 していない。 そ のため Pttdocの 機 能 を十分 に発 揮 させ る 目的 で Pttdoc ilterを 使 用 して ,さ らに効 率 の 良 い レポー ト 作成 を検討 したい . +- 7- F^ : NCA, PK analysis, Pandoc, Markdown, WSH, L,n-i- I-{FFli 209
1.序 に代 えて 臨床試 験 にお ける薬 物 動 態学的 (PK:Pharcacokinetics)解 析 では,主 と して ノン コ ンパ ー トメ ン (NCA)が 行 われ ,PKパ ラメー タを Phoenix WinNonlin(以 下 :WinNonlin) で算 出す るこ とが一 般 的 で あ る。また ,そ の 出力結果 を SASデ ー タ として取 り込み ,SASで 統計解析 ト・ モ デル に基 づ く解 析 を実施 す る 2段 階 の 手順 で往 々 に実施 され てい る . WinNonlinは Graphical User I威 e&ce(GUI)に よる操作 で解 析す るため ,比 較 的操作 ミス な く NCA を実施 可能 で ある。一 方 で薬物濃度デ ー タの取 り込 み はデ ー タ の前処理 を要す るた め,Microsoi Exccl 等 の別 の ソフ トウェア を用 いた非効率 な手作業 に よる実施 を余儀 な くされ る。 また ,SASと WinNonlin を異 な る担 当者 が実行 す る こ と,あ るいは ソフ トウェアが 異 な るこ とか ら,デ ー タ取 り込み か ら結果 の 出力 まで を一 括 で実行 す る こ とは不可能 で あ る . 意 思決 定 の場面 では ,血 中濃度デ ー タの即 時解析 の 実施 が要求 され ,一 定 の 品質 を担保 した簡 便 な レポ ー ト作成 を要す る.レ ポー トの作成 は 一 般 的 に Microsot Word(以 下 Word)の 使 用 が好 まれ るた め,SASで の レポー トの成 形 は複雑 とな る .そ のた め,VBScriptを SAS上 で記述 し,コ マ ン ドプ ロン プ トに よ り実行す る方 法 が 検討 され てい る (Ekatcrina,2017).た だ し,こ の方法 は UNIX版 の SASに よる実行 が 困難 とな る . 吹谷 (2016)は ,SASと Pttdocを 組 み合 わせ た レポー ト作成 の効 率化 を検討 してい る.Pttdocは テ キ ス ト形 式 の ドキ ュ メ ン トフ ァイル (例 えば ,Markdown)を Wordや MicЮ sott Poweroint(以 下 PowcrPoint)に 変換す るツ ール である.テ キ ス ト形式 の ドキ ュ メ ン トファイル は,シ ス テ ム環境 に依存 せず 実施 可能 であ り,修 正 の差分 を容易 に記録 で きる こ との利 点 を有す る . 本報告 で は,SASと Pmdocを 組み合 わせ た レポー ト作成 技術 の応用 と生物 学的 同等性 (BE:Bloequevalence)試 験 のデ ー タヘ の適 用結果 を示す .SASと Pandocを 利 用 した環境 下で ,文 書 , プ ロ グ ラ ムの 実行結果 ,グ ラ フを一つ の フ ァイ ル に集約 し,Word又 は PowerPointに 一 括 変換す る方法 を提案す る。また ,PmdOcの 変換機 能 で は困難 であ る詳細 な レポー ト成形 は ,Windows Scnpt Host (WSH)を 使 用 し,WSHの 処理 は JSON形 式 でデ ー タを経 由 して実行す る仕組 み を説 明す る。 2.周 辺 情 報 と問題 点 吹 谷 (2016)で は ,SASの プ ロ グ ラ ム 実 行 結 果 と ソー ス 情 報 を Word形 式 で 要 約 す る ツー ル を提 案 し て い る .そ こで は レポ ー トに集 約 す る こ とに重 点 を置 い て い た た め ,体 裁 等 の 調 整 は さほ ど考 慮 され て い な い .Markdownで Word形 式 に変 換 す る場 合 ,一 部 実 装 され て い な い 機 能 が 存在 す る。 そ の た め ,Dynamic Data Exchttge(DDE)や VBScript等 で 対応 す る こ とを要 す る 。 これ ま で SASか らの レポ ー ト生成 に は ,Output Delivery System(ODS)を 利 用 した Rich Tcxt Filc (RTF)や PowcrPointへ の 出カ ツール が提 供 され て い る .ODS RTFは ,大 量 の Listingを 作 成 す る場 合 に 力 を発 揮 す るが , ドキ ュ メ ン トの制御 や 結 合 に は不 向 き で あ る。 そ の た め ,繊 細 な部 分 で の 微 調 整 は DDEや VBs ptを 併 用 す る方 法 に頼 って い る .DDEは 古 くか ら利 用 され て い る技 術 で あ り,最 も利 用 頻 度 が 高 い .た だ し,Microsoaで の サ ポ ー トの 保 証 が危 うい . VBScriptは ,DDEよ りも wOrd上 で プ ロ グ ラ ム を容 易 に記 述 し,VBAの オ ブ ジ ェ ク トや メ ソ ッ ドを 活 用 で き るた め拡 張性 が 高 い 。 また参 考 とな る情 報 も豊 富 で あ る .た だ し,SAS UNIX版 で の 動 作 は 困 難 で あ り,プ ロ グ ラ ム の 拡 張性 と保 守 性 の 面 で 難 点 が あ る 210 .
上 記 の 問題 を解決す るた めに ,図 1に 示す フ ロー を考案 した 。 本 フロー は ,SASの 実行結果 を Pandocで 取 り込 んで wOrd形 式 に変換す るこ とを想 定 していた 。 しか し,統 計解 析結果 を RTF形 式 で 出力す る際 に ,上 記 の方法 に よる RTF形 式 の 取 り込みは不 可能 で あった.そ の た め,次 節 で RTF形 式 の 取 り込み を可能 とす る方 法 を提案す る。 ″ 輻 隕夕 項 目等勢鶴鐵 レポー ト 級 。r彎 図 1.吹 谷 (2016)で 報告 した方 法 を採用 した場合 の事例 舞 瘍 餃厖 VV奪 諄 レポー ■ 寧o燿 》 〔 図 2.最 終 的 フ ロー (Word形 式 の報告書作成 の イ メー ジ) 211
3.提 案 方 法 RTF形 式 で取 り込 めない こ との問題 は,VBscriptを 利 用す るこ とで容 易 に解 決 で きる .た だ し,プ ログラムの拡 張性 と保 守性 を加 味す る と,SASと VBScriptを 分 けた作成 が望 ま しい。 ま た ,SASの UNIX版 あ るい は Windows版 に依存 せ ず利 用す るこ との 問題 は ,SASで 解 析結果 を出力す る部分 と レ ポー トを作成 す る部分 とを分 離す る ことで解 決 で きる。そ のためには , レポー トの構 成 情 報 と解析結 果 の 出カ フ ァイ ル 名 の情報等 を SASか ら VBScnptに 渡す こ とを要す る.こ れ は ,JSON形 式 のテ キス トファイル を利 用す る こ とで実現可能 とな る . 本報告 で は ,JSON形 式 の フ ァイ ル を容 易 に読み込む た めに,Jscriptを 利 用 した。そ の た め , VBScriptと Jscriptを 共存 して使 用 で きる WSHを 用 い た。図 2に 図 1で の フ ロー の 問題 点 を解決 した処 理 のフ ロー を示 した .提 案 す る フ ロー の利 点 は ,SASに よる一 貫処理 が可能 であ るこ と,ま た レポー ト作成 の実行 完 了後 に途 中 の処理 の不具合 が発 見 され た場 合 ,途 中か らの 実行 が可能 な こ とである。 具体的 な フ ロー は,図 2を 用 いて P激 ご とに処理 の 内容 と留意 点 を説 明す る。まず Partlに おいて SASプ ロ グラ ミングに よる処 理 を薬物濃度デ ー タの前処理 ,NCAに よる PKパ ラメー タ算 出 (Soto, 2005及 び R― package"ph"),PKパ ラメー タの統計 解析 及 び レポー ト構 成 要 素 の作成 の 四 つ に分類す る。そ の うち レポー ト作成 の肝 とな る レポー ト構成 要素 の作成 に焦 点 を 当て る.レ ポー ト構成要素 の 作成 の処理 は ,Makdownの 構 成や wSH上 の処理 に必 要 なデ ー タ (JSON)を 出力す る こ とである。 ま た ,Tお lc,Figurc及 び Listing(TFLs)の 表示 は PhUSE 2014の ホ ワイ トペ ーパー (PhUSE CSS Dcvclopmentof Standad Scriptsお r Analysis and Plogramming Working Group,2014)に 倣 って 作成 した。 次 に,Pm 2で は M″ kdownか ら Wordま たは PowerPointへ の変換 を Pandocで 処理 す る .一 つの Markdownか ら Wordと POwerPOintの 両方 へ 変換す る こ とは可能 で あ るが ,用 途 に応 じた 対応 を考慮 し て Word用 と Poweroint用 と 2種 類 に分 けた 。 最後 に,Par 3で は レポー トの 作成 を WSHで 処理す る.VBScnptの 使 用例 として ,解 析 結果 (RTF 形式)を レポー ト (WOd形 式 )に 挿入す る仕 方 を図 3に 示 した .SASか ら出力 され た RTF形 式の Tめ lcs,Listing及 び Jpeg形 式 の Figresを Wordに 挿入 し,レ ポー トを成 形 す る.JSON形 式 でデ ー タを 読み込む た め ,OSが Windows環 境 下であれ ば SASに 依 存 せ ず 実行 可能 で あ り,バ グが発 見 され た場 合 もテ キ ス トエ デ ィタで容 易 に修 正 可能で あ る . 4.事 例検 討 本稿 では BE試 験 の予試 験 を想 定 して,提 案方法 を適用 して , レポー トを作成 した .試 験 デザイ ン は,単 回投 与 (経 日)の 2剤 ×2期 ク ロスオー バ・ デ ザイ ンで あ り,主 要 な薬物動態 パ ラメー タは , AUCO̲t,及 び Cmaxと して ,副 次 的 な薬物動態 パ ラメー タは ,AUCinf,tmax,t1/2,MRTO̲t,MRThf,kclと して 算出 した。利 用 した血 中濃度 デ ー タは ,過 去 に開発 され た R― packagcの ''ber'の デ モ デ ー タである.レ ートに出力す る内容 は ,血 中薬物濃度 の推移 図 ,薬 物 動態 パ ラメー タの要約統 計量 ,分 散 分析 の結 ポー 果 ,対 数変換 後 の 平均値 の差 の 95%信 頼 区間 ,及 び本試 験 を行 う場合 の必 要症例数 で あ る。 212
‐ ` . ̲ 椰 ヽ ‐ ・ 1,1,Fむ 341● ‐●│ヽ 1.11.1■.I■ ̀,■ │● 考争 li● 2■ フ ィtl イ liF‐ ■ '時 )''■ ■ ヽ . 'イ ′ ■ ■ │ン B 0 =¨ ′ ■Xヽ XXX藤 物濃震バ ラメ '夕 ぐ 曇別)゛ │● ● ●Ⅲ●ⅢⅢ, ・ ・Table 襲1類 纂1黄 ̀ヽ ,メ ータ (個 男1)● 詈 融 ま :驚 じ 嶽』 駕:'贈 τ 議 :̀:駿 鯉1斃 艤 ,脚 器 継朧器 ●=Ⅲ Ⅲ て い01 1. Aじ 輛 :(緩 Ⅲ ´率 12Ⅲ , :嘔 i ̀報 ("│,1・ 1̲ 藁` :軍 ・濃 ‐ eI PO".〜 a", "輌 e・ 〜 ,■ ", 1"745, ‐ 、‐1・ :嚇 ■ ■ ■ .1lt..■ 1↓ ず │ 津l奪 ‐ 、 ■̲̲ =中 ■ .i● :■ , .:、 ̲1..̲=̲1...「 ■,̲.‐ 1̲.̲....二 十 .■ ・ ・ ・ ヽ ミ=・ 1'・ =̀il:11■・=│■ ,1.1‐ 1.││ =11:̲, ― ・‐ r‐ ̲ Ⅲ .│、 .I・ ■ ・ デ │ギ ̲11ヽ .1111,.1̲′ = .̲■ i‐ ̀,■ lr● 11,1‐ ,・ .:■ ■1‐ ,議 1.:..11'■ ‐ ‐│■ ‐ ・ ││:i■ ■が手〔 1■ ̲ ││11‐ ― 11■ .tl‐ i.:11 ・ ■千t)を ,':li・ ̲ ││:■ it=tr:it.,1無 1,1,,I, ' ● ̲■ ‐ ̲̀: ‐│::│■ :'11二 │■ ・ 1.1.:ll.= ‐ 1・ ■1:,■ ''(1:│.:1摯 :111■ ■●:.̲11:‐ │二 11二 ■̲1:(1‐ ■1● ‐ =111● =■ ::11.■ 1̲│‐ lヽ 1..11■ ■ ・ 「 │‐ ̲‐ ●: │■ ■■ 1,■ :̲̲=■ ●‐ ・ ‐.̲.I ti二 ll■ ■t 図 3.RTFを Wordに 貼 り付 けた様 子 (挿 入時 のイ メーージ と VBScriptの ソー ス コー ド) 実装 した結果 で あ る最終 レポー トの生 成イ メー ジを 図 4に 示 した 。左 11の 図が血 中薬 物 濃度 の推移 図で あ り,左 下 が 薬 物 動態 パ ラメー タ の 要約統計量 で あ る。実装 した 結果 ,諸 種 の改 善 の 余 地が見 ら れ た が ,汎 用性 の 高 い レポー トシ ステ ム となった .従 来 の 方法では ,RTF形 式 での ドキ ュ メ ン ト構 造 の 作成 を余儀 な くされ たが ,提 案 法 で は ,Markdownで 大枠 を作成 し,WSHで 最終的 に成 形す ること 213
で文 字 情報 の操作 が よ り効 率 よくな っ た 。今 後 の改善点 は ,Wod形 式 の 場 合 に,挿 入す る RTFの Tablcの 余 自の大 き さ と Wordの 余 自の 幅 が一致 していな けれ ば ,イ メー ジ どお りの表示 にな らな い点 で あ る。 また Powcroint形 式 の場合 に ,RTFの 貼 り付 けは可能 で あるが ,位 置や大 き さの調 整 が必要 とな る点 である。 . コ 」 し ̀"¨ 薇 一■ 鰺 蒸 鸞 ̲̲̲̲̲==L̲=笙 ず ̲■驚 ` ' 繭燎 t(:難1機 =:̲=r■ 驀罐 難舗 発 隷黎 :夕 嶽無 ・ 鶴0毎 然│1鐵 く畿1構 舞 郵 苺 1麟 驚 ,'等 メーオ●驚澪 1議││:│″ 離 I≫ 鰤 継議 豪弾輌 キ : ¬ 「 図 4.レ ポー トの最終 生 成 イ メー ジ 5.結 び に代 えて SASと Pan cを 組 み合 わせ た レポー ト作成 は,SAS単 独 で図表 を個 々 に RTF形 式で作成 す るよ り も柔 軟 に対応 可能 で あ った。 とくに文 章 を含 む レポー ト作成 は ,本 方法 の利 便性 が示 唆 され た。既知 の 報 告 で あ る SASプ ロ グ ラム上で VBScriptを 記述す る方 法 は ,UNIX版 の SAS環 境下 で は使 用 で きな い こ との欠 点があ った 。そ の解決策 と して ,本 方法 は処理 を分割す るこ とで そ の 問題 を回避 した。ま た ,従 来 の方法に比 べ て本 方法 はプ ロ グ ラ ム処理 の柔軟性 の 高 い ことが示 唆 され た . 提 案 法 は,Pttdocの 機 能 の一 部 の利 用 に過 ぎない ため ,WOdや POwerPOintで 使用 され る機 能 を十分 に網 羅 していない .そ のた め Pandocの 機 能 を十分 に発揮 させ る 目的で Pandoc mterを 使 用 して ,さ ら に効 率 の 良 い レポー ト作成 を検討 した い . 本稿 の事例検討 で作成 したプ ロ グラ ム は SASプ レ ミア ム ラ ウンジ上 で 後 日にア ップ ロー ドす る予定 である . 214
参考 文献 1. Soto Matos― Pita A,dc Migucl Lillo B.[Accessed 28 Jun 2012];Noncompartmcntal pharmacokinetics and biccquivalcnce analysis.2005 http://www.lettansen.com/pharlnasug/2005/statisticspharmaco kinetics/sp07.pdf 2. Ekaerina Torchinskaya and Andrey Myslivcts.CTll(2017):Using VBScript for Pcrtcting Stttistical Reports. 3. Christophcr Johnson,Integmting MicrosottQ VBScript and SASQ(SESUG 2015,Savannah,Gcorgia). 4. Analyses and I)isplays Associated to Non― ConlpartmentaliPharmacokinetics‑1● rith a Focus on Clinical Trials [press rclcasc].http:〃 www.phusewiki.org/wiki/images/Jed/PhUSE̲CSS WhitePaper̲PK̲final ̲25March2014.pdi PhUSE CSSI)evclopmentof Standard Scnpts for Analysis and Progranllningヽ Morking G}roup,Creatcd 25March 2014. 5.the data analysis toolお r average biocquivalcncc(ABE)and bioavailability(BA)http:〃 pkpd.kmu.edu.tw /bear/ 6.吹 谷 芳博 (2016).SASに お け る文 芸 的 プ ロ グ ラ ミン グ ヘ の試 み 。 SASユ ー ザ ー 総 会 2016講 演 資 料 215 .
SAS/ACCESS for Relational Database に お け る 失敗 しないための設計・ 開発 ポイ ン ト ○吉野 祥 (株 式会社 ク レス コ) Knowledge for not failine when developing with SAS/ACCESS for Relational Database Sho YOSHIN0 CRESCO LTD. 要旨 SAS/ACCESS for Relational Databaseは 、 SASと デ ー タベ ー ス 間 に て デ ーータ の や り取 りを行 うた めの パ ッケ ー ジの ひ とつ で あ る。 本 パ ッケ ー ジ を導入 す る こ とで 、 SASを 通 して デ ー タベ ー ス ヘ のデ ー タの 読 み 込 み 、加 工 、 書 き込 み を行 うこ とが で き る。 ま た 、 SQLを 知 らな くて も リ レー シ ョナ ル デ ー タを意 識をすることなく、従来の DATAス テ ップやプロシジャを用いて、プログラミングを行える。逆に、SQL プ ロ シ ジ ャや FedSQLプ ロ シ ジ ャ を 用 い れ ば 、SASプ ロ グ ラ ミン グ を普 段 しな い SQLプ ロ グ ラ マ で あ つ て も、プ ログラミングすることが可能である。 SAS/ACCESS for Relational Databaseは 、容 易 に SASと デ ー タベ ー ス との 間 を繋 げ て くれ るが、SAS と各 デ ー タベ ー ス の 機 能 の 違 い を理 解 して い な い と、期 待 しないデ ー タ を作 成 す る こ とが あ る。例 えば 、 必 要 な レ コー ドが 取 得 で きな い 、過 剰 に取 得 して しま う、 思 わ ぬ欠 損 値 を含 ん で しま う、 SASと デ ー タ ベ ー ス とで計 算 に誤 差 が 生 じて しま う こ と、 な どが発 生 して しま う可 能 性 が あ る。 本 稿 で は、 SAS/ACCESS for Relational Databaseに お け るプ ロ グ ラ ム の 書 き方 か ら、 SASと デ ー タベ ー ス とで どの よ うな違 い が あ る の か 、そ の 違 い に よ る発 生 す るか も しれ な い 問題 や デ ー タ処 理 が どち ら で行 わ れ て い る の か を知 る方 法 な ど、 SAS/ACCESS for Relational Databaseを 用 い た 設 計 ・ 開発 にお い て気 をつ け るべ き ポ イ ン トを紹 介 す る。 キ ー ワー ド :SAS/ACCESS for Relational Database,デ ー タ ベ ー ス ,品 質 , ロ グ 1. データベースとの接続方法 デ ー タベ ー ス との接 続 方 法 につ い て 紹 介 す る。 紹介 す る接 続方法 は 3通 り、 1lbnameに よ る接続方法 、 connect toを 用 い た パ ススルー 方 式 の接 続 方法 、connect usingを 用 い た 接 続 方法であ る。 libnameに よ る接 続 1つ 日の接続方法は、1lbnaneを 用いた接続方法である。libnameに 対 して、接続するデータベース名、IP 216
ア ドレス 、ユ ー ザ ー名 、パ ス ワー ドな どを設 定 し接 続す る。接 続 す るデ ー タベ ー ス は、例 えば、Teradataで あれ ば teradata、 Oracleで あれ ば oracle、 DB2で あれ ば db2と そ の名 の 通 り記載すれ ば よい 。 H bname任 意 の ライ ブ ラ リ名 接続す るデー タ ベー ス Server=″ サ ー バ ー 名/1Pア ドレス ″port=″ ポー ト番号 ″ db=″ ス キ ー マ 名 ″ uSer=″ ユー ザー 名 ″ ″ password=″ パ ス ワー ド i 利 用方 法 は、通常 の libnameと 同 じよ うに利 用 できる。「libnameで 指定 した ライ ブ ラ リ名 .テ ー ブル 名 」 で 、DATAス テ ップで も、SQLプ ロ シジ ャで も使 用 で きる。以 TAス テ ップでは、byを 指 定す る とソー ト処理 を デ ー タベ ー ス に させ る こ ともで きる。 proc sql ; data TEST ; set ORAD3.TEST ; by AAA ; create table TEST as select * run ; from O藤 qu ‡ り 亀 鬱Sx TEST it comect toに よ るパ ス スル ー 方 式 で の 接 続 2つ 目の接続方法は、COnnCet toを 用 いた接続方法である。connect toは SOLプ ロシジャの 中で定義す る。記載 内容は、 libnameと ほぼ変わ らない。最後に disconnect fromで 接続 を終 了する。 COnneCt to接 続す るデー タ ベ ー ス 名 as別 名 パ ス スルー 方式の特徴 は記 載 した (SerVer=″ サー バ ー 名 /1Pア ドレス ″ 以下略 ) SOLが その ままデー タ ベ ー ス に渡 され る こ とで ある。文法 はデー タ ベ ー ス に依 存 し、SAS独 自の 関数 や処理 は行 う ことはできない。 実 行 方法 は複 数 あ り、 executeと COnneCtiOn toの 2通 りあ る。 proc sql ; 00斃 翻 00亀 tO OF饉 01e ttS CRA (SeFVer=″ XXX.XXX.XXX,XxX″ 鶴Se静 =″ 議議難1籠 ″ ″ 経蓬惨S'灘 0群 越薔 文XXXX″ ) execute ( insert into TEST̲2 ( NUM, STR ) select NU‖ , STR from TEST l ) by ORA : execttte ( commit ) by O驚 農.: 機:ooo論 欝oo鷺 ゞ静 o:鵞 orac:e : quit ; execute lま デー タベ ー ス 内のみ で処理 され る SOLを 記載す る。 Create table文 で テー ブル を作 成す る、 insert文 で別 テー ブル か デー タ を挿 入す る、update文 でテー ブル を更 新す る、とい った ことが実 行 で き る。 ス キ ー マ 名 を指定 していた 場 合 は 、記載 したス キー マ名に限 リス キー マ を省略 して記 載 す る ことが で きる。 executeで は、SASに 対 して デー タの読み書 きは行 われ な い。 COnnection to lま create tableと 共 に記 載 され 、デー タベ ー スか ら SASに デー タ を読み込み た い ときに 利用 され る。 COnneCtion toの 丸か つこ内 に記 載 され た select文 が デー タベ ー ス に実行 され る SOLで あ 217
る。サ ブク エ リを記載 してい るか の よ うに記載す る。 from connection to〜 proc sql (デ ー タ ベ ー スで実行 され る SOL) ; oo綺 nectt ttt orttcle as ORA (server菫 ″ ″ xxx.xxx.xxx.xxが usc鮮 霊 賤壌鶴:露 ″ pttsword=″ xxxxx″ ) create table TEST as select NUM label=″ 数 値 ″ format=corlina1 2. ″ ,FLG label=″ フラグ length=3 ″ , STR!abel=″ 文字 列 length=12 from co腱 翁ectま on to ORA ( select NUM , FLG, STR from TEST order by NU‖ ); disoon晨 oot 撃群 o雛 orattt e : quit i libnameを 用 い た connect usingに よ るパ ス スル ー 接 続 (SAS 9。 3以 上 ) connect toに よる接続では、デ ー タベ ースにデー タを読みに行 くたび にユーザー名やパ ス ワー ドを記載す る必要がある。 パ ス ワー ドの変更や実行 ユーザーの変更 のたびに、該 当箇所 を書き換 えなけれ ばな らず、保 守性 が低 い。 マ クロを用 い ることで回避す る こともできるが、簡 単に接続 できる方法 として SAS 9.3か ら提供 された connect usingを 紹介 したい。 libname ORADB oracle server=″ xxx.xxx.xxx.xxx″ user=″ admin″ password=″ xxxxxxx″ proc sql : 3o陶 8oo驚 機sI爾 議0驚 農OB ; (oonnecttoと 同 じの た め 省 略 ) disconnect from oracle ; quit i 記載方法は、事前 に libnameで デ ー タベ ースに宣言 し、connect usingラ イブラ リ名 ; と記載するだ け である。 これ に よ り、何度 もユー ザ ー名 とパス ワー ドを記載す る必要がな くなった。保守性 の観 点か ら SAS 9.3以 上であれ ば、connect toで はな く、connect usingを 使 うべ きだ ろ う。 パ スワー ドを秘匿す る方法 pwencodeプ ロシジ ャ 接続方法 を見 て の通 り、デ ー タベ ー ス に接続す るた めに ば、パ ス ワー ドが設 定 され て い る場 合 、パ ス ワー ドをプ ロ グラ ム上 に記載 しな けれ ば な らな い。pwencOdeプ ロシジ ャは パ ス ワー ドを秘 匿す るた めのプ ロシ ジ ャであ る。 in=に パ ス ワー ドを記 載 し、pwencOdeプ ロシ ジ ャを実行す る と、 ログに SASプ ロ グ ラム上で使 え proc pwencode i n="test" run ; , 75 proc pwencode in=XXXXXX : 76 run ; :sA3oo21 75『 霧2AttA僣 0重 53騒 議890霧 9醸 eo磯 218
るパ ス ワー ドに変換 して 出力 され る。 出力 され た パ ス ワー ドは、通 常 のパ ス ワー ドと同 じよ うな記 載 方 法 で利用で き る。 libname TERA teradata server=″ xxxx″ user=″ zzzz″ passwOrd=″ (iSASO懇 2175「 12A4A竜 6通 538680019D‐ 30.霧 ″ i パ ス ワー ドを変換す る こ とで、パ ス ワー ドを盗 まれ て も、SAS以 外 か らはア クセ ス す るこ とがで きな い。 し か し、SAS上 か らは利 用 で きて しま う。 プ ロ グ ラ ム の ア クセ ス 権 限 が プ ログラム所 有 者 以外 に も開 い て い る 場合 は、セ キ ュ リテ ィに注意 が必 要 である。 例 えば、パ ス ワー ドを記 載 してい る箇所 を、%incで 別 プ ロ グ ラ ム と して作成 、呼 び 出す よ うに し、そ の別 プ ロ グラ ムの ア クセ ス権 限 を所 有者 だ けにす る。 可 能 な らば、デ ィ レク トリの読込 権 限 も変更 して お くとよ い だ ろ う。 これ で所有者 以外 か らパ ス ワー ドを 隠す こ とがで き る。 2. SAS/ACCESS for Relational Database ‐ に C走菫き うる 問 是亘 SASで 読 み 込 めな い デ ー タベ ー スの型 :変 数 の 削除 データベースにおいて、16バ イ トで表現される Biglntな どは、SASに 読み込ませることができない。読み 込ませようとすると、下記のようなログに出力される。 NOTE:次 の ○○ 列 (○ ○)は 、そのデー タ型が この エ ンジンでサポー トされないため、 自動的に削除 され ま した も しそれ で も読 み込 ませ たい場合 は、パ ススル ー 方 式 を用 い 、 デ ー タベ ース側 で cast関 数 な ど de 型 を変換 した 後 、 SASに 読み込 ませ る必要が あ る。 cast( VARl as decimal(16,0) ) as VARl 格納できる 日付 の範囲 の違 い :欠 損値 の発 生 格 納 で き る 日付 の範 囲は、SAS、 各デ ー タベ ー ス で それ ぞれ異 な る。 そ して、範 囲外 の値 を読み書 きす る と き、欠損値 に変 換 され た り、 また はエ ラー とな る。 表 1:シ ス テ ム ご との格納 できる 日付 の 範 囲 それぞれ の システ ムが格 納 で き る 日付 の範 囲 を表 1に 示す。 も しデ ー タベ ー ス に格 納 され て い る 日付が 1年 1月 1日 であ る とき、SASに デ ー タ を読み込 ませ る と欠損 値 に変換 され る。 デ ー タベ ー ス か ら SASに 範 囲外 の値 を読み込 ませ る と、 ログに は 下記 の よ うに出力 され る。 219
NOTE: 列 〇 〇 (○ ○)の デー タ値 は、そのデー タ型 は、DBMSか らのデー タの取得 時 に、○ 回切 り捨 て られ た か 、範 囲外 で した。 ただ し、必ず しも出力 され るのではな く、Order byや group by、 joinな ど、内部的 に ソー トが行われ ている ときにのみ出力 され るよ うである。 ログに出力 されない場合、欠損値 に変換 され るこ とに気 づ きに く くなる。 デー タベ ー ス に範囲外 の値 を読み込ませ よ うとす ると、欠損値 ではな くエ ラー とな る。 下記 に Teradata に対 して 、範 囲外 の値 を書 き込 も うとした ときの ログを示す。 ERRORI Teradata日 付値 1ま 西 覆 9999年 12月 31日 を超 える こと鐘で きませ ん 。 数値計算 の誤差 SASに お いて も、デー タベ ー ス において も、大 きい数値や小数点以下を持 つ数値 の四則演算 をす る際には 計算誤差 が発 生す る可能性が ある。 下記は、SASに お ける計算誤差 の例 である。 75 76 77 79 80 data TEST : A = 0.3 ‑ ().2 ; B = 0.1 ; ″ ヽ:= B then putlog True″ if メ ″ False″ i else putlog putlog A= hex16 B= hex1 6. 81 run ; 78 False A=3FB9999999999998 B=3FB999999999999A ただ し、数 値 のデー タの持 ち方 がそれ ぞれ 異 な るた め 、同 じ計算 で も、SASで は発 生す るが 、デ ー タベ ー ス では発 生 しな い とい った こ とが発 生す る。誤 差 を許 容 で きな い 業務 を扱 つてい る とき、デー タベ ー ス か、 そ れ とも SASで 計算 させ るか、判 断で きてお くべ きで あ る。 読込時、実行 時 の数値 の誤差 SASの 数 値 型 は最大 8バ イ トで表現 され るが 、 8バ イ トを超 え る 16バ イ トで数値 を表 現 で き るデ ー タベ ー スが あ る。8バ イ トで表現 で きな い 大 きい数値 を扱 うとき、誤差 が発 生す る。計算 の誤 差 と同 じく、エ ラー に はな らな い た め 、発 生 して も気 づ きに くい 問題 で あ る。 誤差 は 、計 算 だ けでな く、デ ー タベ ースか ら SASに 読み込 ませ た ときに も発 生す る。誤 差 を発 生 させ な い ためには 、桁 を落 とす か 、cast関 数 な どでデ ー タベ ー ス側 で文字列 に変換 した後 、読み込 ませ るな どの対処 が必要 で あ る。 また 、デ ー タベ ー ス に実行 す る SQLを 渡す ときに も発 生す る。プ ロ グラ ム に あ る よ うに、8バ イ トでは表 現 で きな い 数 値 を扱 うと、実行 す る SQLを 渡す とき には誤差 が発 生 し、期待 した SQLが 実行 され な い。例 の よ うに、大 きす ぎ る数値や小数 点桁 数 の小 さい数値 を扱 うときに発 生す る。 SASロ グに出力 され る 市 ere句 と プ ログラ ム に記載 した where句 とで値 が異 な る場合 、誤 差 が発 生 してい る と気 づ くこ とがで き る。 data TEST i set LIBDB.TEST ; where A = 12345678901234567890 run ; 220
これ を回避す るた めには、パ ススル ー 方 式 に変更す るか 、またはデ ー タセ ッ トオプ シ ョン dbconditionを 使 え ば よい。 プ ロ グ ラ ムの よ うに記載 す る と誤差 が発 生 す る こ とな く、記 載 した内容 がそ の ま ま SQLに 渡 さ れ る。 た だ し、 dbconditionに 記載 した 内容 は、パ ススル ー 方 式 と同 じくデ ー タベ ー ス にそ の まま渡 され る た め、 SASの 関数 は使 えない ことに注意 した い。 dbconditionは 、whereだ けでな く、 group by,having,order byも 記 載す るこ とが で き る。 order byを 指 定 した場合 は、 byス テー トメ ン トは無視 され る。 data TEST ; ″ set LIBDB.TEST ( dboo翁 d:tio資 =″ where A = 12345678901234567890 ) run ; 読込 時 の文字列 の長 さ SASに お いて 、文 字列 の長 さを定義す る lengthス テ ー トメ ン トはバ イ トで表 現 され る。 デ ー タベ ー ス に お け る文 字列 は、デ ー タベ ー ス に よって 異 な り、バ イ ト数 で定義 され る場 合 もあれ ば、文 字 数 で定義 され る 場合 もあ る。 文 字 数 で定 義 され て い た場合 、SASに 読 み込 ませ た とき、デ ー タベ ー ス上 の 定義 の長 さ とは異 な る長 さに な る こ とが あ る。例 えば 、デ ー タベ ー ス上 で 10文 字 で定 義 され てい る項 目は 、SASに 読み 込 ませ た とき長 さ 20バ イ ト以 上で定 義 され るこ とが あ る。 この ときの長 さは 、デ ー タベ ー ス 側 の 定義 に よつて 異 な り、6倍 に な る こ ともあ る。 なぜ 長 さの定義 が 変 わ るのか。 マル チ バ イ トで 10文 字 の とき、バ イ トで換 算す ると UTF‑8で あれ ば 30バ イ ト以 上 が必要 で あ る。そのため、文字 切 れ が発 生 させ な い よ うに、SASに 読 み 込む とき、自動 的 に長 さが変 更 され 定義 され る。 この 長 さの変更 は、マル チバ イ トを含 む 文 字 で あれ ば 、基 本 的 に問題 はな い が 、1バ イ ト文 字 しか格納 され な い 、結 合 時 のキー 項 目に使 う文字 の場 合 に は問題 が発 生 す る。 1バ イ トの 文 字 が格納 され な い場合 で も長 さが変 わ る こ とが あ るた め 、結合時 に長 さが異 な り、下記 の よ うに WARNINGが ロ グに出力 され る こ とがあ る。 WARN ttG:入 カデー タセ ッ トに長 さの違 う BY変 数 Aが あ ります 。 期 待 した結 果 にな らない場合 が あ ります。 これ を回避 す るた め に は、文字の長 さを明示 的 に定義 し直す 必要があ る。下記 に DATAス テ ップ 、SQLプ ロ シジ ャにお ける定義例 を示す 。 proc sql ; create table TEST as data TEST : lettgth A 麟3. : se I ect set ORADB.TEST A lengti:=3 run ; from ORADB. TEST quit ; DATAス テ ップにて注意 したいのが 、 lengthス テ ー トメ ン トの位 置であ る。 も し setス テ ー トメ ン トよ り 後 に lengthス テー トメ ン トを定義す る と、次 の WARNINGが ロ グに出力 され る。メ ッセー ジに もあ るよ うに、 DATAス テ ップ の最初 に利 用す ることで回避 で き る。 221
WARNING:文 字変数 Aの 長 さはすで :こ 設 定 され て います 。 文字 変数 の 長 さを宣 言 す るには、 DATAス テ ップの最初 に LENCTHス テー トメン トを使 用 して くだ さい。 ソー ト順 の相違 SASで ソー トした とき とデ ー タベ ー ス で ソー トした とき とで は ソー ト結果 が 異 な ることが あ る。そ のため、 それ ぞれ で ソー トしたデ ー タセ ッ トを mergeで 結合 させ よ うと した とき結合 で きな い 問題 が発 生 す る ことが あ る。 これ は SASと デ ー タベ ー ス とで値 の持 ち方 が異 な る こ とが あ るために発 生 す る。文字 コー ドが異 な るとき、 マ ル チ バ イ トを持 つ 文 字型 の ソー ト位 置 が 異 な るこ とが 原 因 であ る。 マル チ バ イ トを含 む文 字 を キー 項 目と して 、 SASに て結合 す る ときには、結合 させ るデ ー タセ ッ トを全 て SASに て ソー トさせ るの が 良 い だ ろ う。 ま た、 ソー ト方 法 も異 な り、SASに お け る sortプ ロ シ ジ ャはデ フォル トで安 定 ソー トで あ る。 デー タベ ー ス にお け る ソー トは 、そ もそ もデ ー タ を順 序付 きで格 納 していないため、実 質 、非安定 ソー トと同 じにな る。 さ らに、欠損値 の ソー ト位置 も異 な る。 SASで は欠 損 値 は マ イナ ス無 限扱 い の た め、昇順 で 並 び変 えた と き、 一 番 上 に欠損値 が並 ぶ。 デ ー タベ ー ス で は、それ ぞれ の デ ー タベ ー ス に よつて異 な り、 一 番 上 に来 るこ ともあれ ば、 一 番 下 に来 る こともあ る。 利 用す るデ ー タベ ー ス に よって は、欠 損値 の有無 に よ って 、結合 で きな くな ることもあ る。 た だ し、Oracle, DB2, PostgreSQLで は順序 を Ansi SQL:2003か ら追加 され た nulls first/1astを order by句 で指 定す る こ とで、欠損値 の位 置 を設 定す る こ とがで きる。 order by XXX asc nu‡ Is f‡ 欝 st order by XXX asc n競 │‡ § ‡ ast 上記 の設定方法 がない場合は、order byに 下記 のよ うに頭 に is nullを 記載 して、欠損値 の位 置をコン ト ローー ルす るとよいだ ろ う。 order by XXX :s 識蟻‡‡ , XXX 欠損値 null=マ イナ ス無限 デ ー タベ ー ス を扱 っていたユ ー ザ ー が SASを 扱 い 始 めた とき気 づ く そ の 大 きな違 いのひ とつ が欠 損値 の 扱 い で あ る。SASに お い て、欠損値 は マ イナ ス無限 の よ うに振 る舞 う。対 して 、デ ー タベ ー ス で はそ の よ うな 振 る舞 いが な い。 例 えば、A〈 0と い う抽 出条件 を記 載 した とき、 SASで は欠損値 も抽 出 され るが、デ ー タベ ー ス では抽 出 され な い。 欠 損値 にお け る問題 は、デ ー タの絞 り込 みや条件 分 岐 を行 うとき、結果 が 異 な る可能性 が あ る点である。 また 、問題 が発 生 した とき、SASと デ ー タベ ー ス 、どち らで も実行 しない と、期 待 した結果 で は な い ことに気 づ きに くい。 マ イナ ス無 限 を含 ん だ分 岐 を行 う際 に は、 SASか デ ー タベ ー スか 、 どち らで処理 を実施 して い るかを知 る 必 要 が あ る。 222
欠損値 null、 空 白 ''、 スペース ' 欠 損 値 にはマ イナ ス無 限以外 に もも う一 つ 問題 がある。 それ は 、文字 の空 白や スペ ースの み を欠 損値 と し て扱 うかで ある。 SASに お いて、文字 に な に も入 ってい な い 空 自 ''や スペ ー ス の み の ' ' は欠損 値 と して 扱 われ る。 デ ー タベ ー ス では 、それ ぞれ のデ ー タベ ー ス に よつて扱 いが 異 な る。 例 えば 、Oracleで は、空 白は ''は 欠 損値 とな るが、 スペ ー ス ' 'は スペ ー ス として扱 われ る。 この 違 い は、欠損 値 を扱 う分 岐 を扱 う際 に 問題 が起 こる。 例 え ば、 つ ぎ の処理 の 結果 が期待 した結 果 にな らな い こ とに繋 が る。 A='' ● trim(A)='' ● ● A is null ● trim(A)is null 名称規則 の相違 SASで は変数名 の長 さは 32文 字 まで定義 で き る。デ ー タベ ー ス はそれ ぞれ 定義 で きる長 さは異 な る。 例 えば 、Teradataで は 30文 字 が上 限で あ るが 、SASか らデ ー タベ ー ス に対 して 30文 字 を超 えた変 数名 を 書 き込 も うとす る と、下記 の よ うにエ ラー が 出力 され る。 ERROR:変 数名 TESI̲678901234567890123456789012鐵 ファイル LIBD3.1霊 SI.DATAに 無効 です。 また 、デ ー タセ ッ ト名 で も同様 で、長す ぎる名称 を書き込 も うとす ると下記 の よ うにエ ラーが 出力 され る。 ERROR: ファイル LIBDB IEST̲678901234567890123456789012.DATAの メンバー 名 │ま LIBDBラ イブラ リでは長 す ぎます デ ー タベ ー ス か ら SASに デ ー タを読み込 ませ た とき、32文 字 を超 えた変数名 は切 り捨 てが発生 され る。 ま た、 SASが 許容 できない文 字 列 、例 えば 、空 白や @#%な どを変 数名 に含 んで い た場 合 は、読 み 込 み 時 にア ン ダ ーバ ー ̲に 変換 され る。 名 称 を期待 しない変 数名 に変 更 させ た くな い 場合 は、パ ス スル ー 方式 で 、SASに 読 み込ませ る前 に asを 用 いて別 名 にす る と良い だ ろ う。 しか し、 32文 字 を超 えた名 称 が あ るたび に、名 称 変 更 をす る必 要 にな って しま う。 根 本 的 に解決 す るな らば、デ ー タベ ー ス の設計 をす る際 に 32文 字 を超 えた名 称や 、空 白 @#%な どの記 号含 んだ名称 は極 力避 け るべ きだ ろ う。 3.SASと デ ー タベ ー ス の どち らで処理 され て い るか を知 る方 法 SASロ グに表示させるためのオプション SASと デ ー タベ ー ス に はそ れ ぞれ の処理 の違 い が あるた め 、デ ー タをや り取 りす る際 に問題 が発 生 す る。 問題 を検 知す るには、 どち らで処理 が行 われ るか を知 る必要 が あ る。 SASと デ ー タベ ー スの どち らで処理 さ れ て い るか を知 るには、 ロ グ を確 認す る しか な い。 しか し、オ プ シ ョンが設 定 され て い な い と、 ロ グに出力 され な い た め、 まず はそ のオ プ シ ョンを設 定 しな けれ ばな らない 。 options sas蓬 群ace=′ 、,,機 ' sastraceloo=se憲 :og・ 穐。s鼈 8鑢 ずf:x :難 sgtt eve‡ =: ; sastraceは 、デー タベ ー ス に渡 された SQLな どを出力す るため のオプシ ョンで ある。 223
sastrace=',,,d'と 設 定す る と、ロ グは最 も詳細 に出力 され る。実行 され る SQLや デ ー タベ ー ス か ら返 され た エ ラー ログな どが大 量 に出力 され る。 初期設定時 は 、',,,d'に 設定す る とよいが、',,,db'の 設 定 も試 す とよ い だ ろ う。デ ー タベ ー ス ヘ の書 き 込 み時 にお け る大 量 の ロ グを軽減 す る こ とができる。 例 えば 、Teradataの デ ー タ ロー デ ィ ング方法 のひ とつ で あ る Fastloadは 、設 定 され た件 数 が ロー デ ィ ン グ され るごとに ロ グが 出力 され る。 ロー デ ィ ングす る件 数 が少 な けれ ば よい が 、数 千万件 を超 え る と、該 当 箇 所 の ログのサ イ ズ が メガバ イ ト単位 に増 えるこ とが あ る。 ',,,db'に 設 定す る と、その ロ グが 出力 され な くな る。必要以 上 に ロ グが出力 され て い る と感 じた ら試 す とよいだ ろ う。 sastracelocは 、 sastraceの 結 果 を どこに出力す るか を設 定す るオプ シ ョンで あ る。 saslogを 指定す る と、その名 の通 り SASロ グに出力 す る。 nostsuffixは z/OSで は未 対応 で は あ るが、 sastraceに よる ロ グを軽 減 す る こ とがで き るオ プシ ョンで あ る。例 えば、 下記 の よ うに ロ グが 削減 され る。 ロ グの 見や す さが大 き く変 わ るた め、基本 的 に設 定す る こ とを推奨す る。 TERADATA_8I: Prepared: on connection 4 354 1531470 no-name 0 SOL (2) I TERADATA_8I: Prepared: on connection 4 msgleve!=iは 設 定す る ことに よ り、 ソー ト処理 が SASで 行われ て いるか を ログに出力す る。 NOTE:SASス レッ ドソー トを使用 します。 必ず しも出力 され るわけではな いが 、データベースにて ソー ト処理が実施 され ると、下記の よ うな ログが 出力される。 NOTE:ソ ー トが デー タ ベース に よ つて 実行 され ま した 。 ソー ト以外 の 箇 所が影響 して 、デ ー タベ ー スで処理 させ た つ も りが 、SASで ソー トされ る こ とが ある。本 オ プシ ョンを付 け る ことで 、期待 した結 果 にな つて いな い ことに気 づ きやす くな るだ ろ う。 ソー ト処理 はス トレー ジを大 き く使 う処理 であ る。SASに お けるソー ト処 理 は、元のデー タセ ッ トの 2〜 3 倍 、またはそれ 以上 にな る こと もあ る。ス トレー ジが小 さい環 境 では注 目 しなれ けれ ばな らな い ログである。 また、msglevel=iは 、mergeに よ る結合 時 に、BYに 指 定 していない 同名 の 変数 があ る と、 どち らのデ ー タ セ ッ トの変数 で上 書 きす るのか を ロ グに出力す る。 さ らに、文字列 関数 を使 用 時 に lengthが 200で 定義 さ れ た こと、イ ンデ ックス を使 用 して絞 り込みが行 われ た こ と、 な どを ロ グに 出力 して くれ る。 指 定 しないデ フ ォ ル トで は ロ グ に は 一 切 出 力 され な い 。 SAS/ACCESS for Relational Databaseを 使 用 して い な く とも、設 定 してお くべ き オ プ シ ョンで あ る。 SASロ グの見方 :デ ータベースで実行されてい る SQLを 見つ け出す sastraceを 指 定す る と、見覚 えの な い ログが大量 に出力 され るよ うに な るた め、初 めて で は ロ グを解析す るのには難 易度 が 高 い ことだ ろ う。 大量 の ログの 中で も、デ ー タベ ー ス で 実行 され てい る SQLを 探す のに 、 注 目す べ きは Executedだ けで あ る。 ORACLE 82: 慇xec遷 億ett on connection 4 3露 鮭 彗CT ″ ″ VA驚 磯 FR臨 書IttST.″ TttST″ )撫 上記の よ うに 、「接続 してい るデ ー タベ ー ス名 ̲接 続 連番 :Executed」 224 の順番 で出力 され る。接続 してい
。と出力 され る。 ・ と出力 され 、 DB2で あれ ば DB2̲・ 。 るデ ー タベ ー ス が Teradataで あれ ば TERADATA̲・ ・ Executedの 下 には SQLが 必ず 出力 され る。 この SQLが デ ー タベ ー ス にて実行 され てい る SQLで あ る。 も し、 プ ロ グラ ム に記 載 した SQLと ログに出力 され てい る SQLと で差異 があれ ば 、差 異があ る箇所 は SAS にて処理 され てい るこ とにな る。 類似 した ロ グで Preparedも あ り、 これ も SQLが 1行 下に出力 され る。 ただ し、読 み込むデ ー タの定 義 の チ ェ ックや SQLの 文法 チ ェ ックに用 い られ てい るだ けであ るた め 、実 際 にはデー タそ の ものの読 み 込 み は行 われ てい な い。 例 えば 、contentsプ ロシジ ャで定義情報 を読 み込 む と、Executedは 出力 されず 、 Prepared だ けが ロ グに 出力 され る。 ちなみ に、デ ー タのや り取 りが発 生 してい な い Preparedで も、デ ー タベ ー ス に対 してア クセ ス は発 生 し てい る。 そ の た め 、デ ー タベ ー ス のア クセ ス履 歴 には履歴 が残 る こ とだ ろ う。 例 えば 、 下記 の よ うな こ とを す る と、大量 の ロ グが残 る こ とにな る。 proc contents data=LIBDB. _ALL_ ; セ キ ュ リテ ィ上 、厳 しくア クセ ス履歴 をチ ェ ック してい る場 合 、デ ー タのや り取 りが発 生 して い な い Preparedを どの よ うに扱 うか決めてお く必要が あ るだろ う。 注 目すべ き SASロ グメ ッセージ 下記 ログは、from TABLE(obs‐ 1000)の よ うに、デ ー タセ ッ トオプシ ョンを指定 した ときに出力 され る ロ グである。 この とき、エ ラー となって処理が止 ま ることはな く、デ ー タセ ッ トオプシ ョンは実行 され な い。 SAS̲SOL:デ ー タセ ッ トォ プシ ョンをハン ドルで きません。 下記 ロ グは 、記載 した SQLが そのままデ ー タベ ー ス に渡 され る こ とな く、一 部 あ る い は全 ての処理 が SAS 側 で処理 され てい るこ とを表 す ロ グである。Executedの 下 の SQLを 見 な くて も判 断す る こ とが可能 に な る。 1つ 目の ロ グは 、エ ラー と記載 され てい るが 、処 理 が 中断 され る こ とはな い。3つ 目の ロ グは 、デ ー タベ ー スか ら渡 され た メ ッセー ジが この 後 に出力 され る。例 えば、Syntax errorで 予期せ ぬ 文 字列 が含 まれ てい る とい つた メ ッセ ー ジが 出力 され る。 SAS̲SOLiエ ラーの ため 、ク エ リを DBMS固 有 の SOLス テー トメ ン トに変換 で きませ ん 。 ACCESS ENGINEI SOLス テー トメ ン トは DBMSに 渡 され ません 。 SASが 処理 して いま す 。 ACCESS ENGINE: ERROR: 〜 4。 どの よ うな書 き方 をす ると SASで 処理 され デ ー タベース で処理 され るか ログか らどち らで処理 されてい るかを判断す るこ とはできる。 しか し、実行前に判 断 、または明示 的に定 義す ることはできないだろ うか。本章では、これ まで紹介 した接続方法 にお ける それ ぞれの特徴や どち らの システムで処理 され るかを記載箇所 ごとに紹介す る。 また、 どの よ うな とき SASで 処理 されやす いのか 、 さ らに明示的に どち らで処理 され るかを定義す るオ プ シ ョンも紹介す る。 225
DATAス テ ップ 、SQLプ ロシジ ャ、パ ススルー 方式 にお ける特徴 と処理 され る システム
DATAス テ ップ
●
従来 の SASの 書 き方で記載 で き る。
● keep=を 記 載 しない と、す べ て の変数 が SASに 読 み込 まれ 、パ フォー マ ンス が落 ちる。
● keep=を 必 ず記載す る よ うにす る と、SQLプ ロ シ ジ ャでの記載 量 とあま り変 わ らな くな る。
● whereは 基 本 デ ー タベ ー ス で処理 され るが 、 関数 に よっては SASで 処理 され る
●
それ 以外 は、 SASで 処理 され る
data TESI ;
keepl璽
至で菫
憂
圃
set LIBD3̲TESI(
keeP =
libnameに よ る SQLプ ロシジ ャ
● SASに 慣 れ て い ない SQLユ ー ザ ー で も記載 で き る。
● SAS独 自の 関数や書 き方 を して も、 どち らで処理す るか を 自動 的 に判 断 して処理 され る。
>
●
例 .SAS日 時、SAS日 付 、 SAS時 間 が 自動 的 に変換 :″ 01MAY2018″ d,mdy(1,5,2018)
パ ススル ー 方式 と比較 して 、 SELECTの 分 だ け記載 量が少 な い。
● SAS、 デ ー タベ ー スの どち らで処理 され るか、 プ ロ グラ ム だ けでは判 断 で きな い。
proc sqi stimer i
create table TEST as
SeleCt馨 ‐
タベ■ス:‡ li酢 掛ま黎黎::
frOm藝 li翻 i:艤 撤
inner iOin難 鐵l::鸞資
鸞l oni∴ セ
―
‐
∵だ││■本│ま 卜 》 黎蔓
―│―
Order byば ギダベ■スま
髪卜》
やま:僻 蔓
Where l丁
l幸
:
'ま
qu
!
it
パ ススル ー 方 式 に よる S飢 プ ロシ ジ ャ
● SASに 慣 れ ていない SQLユ ー ザ ー で も記載 で き る。
● SASに な い SQLの 機 能 が使 え る。 (例 .ウ ィ ン ドウ関数 、with句 、再帰 クエ リ)
●
どち らで 処理 させ るかが 明確 にな る。
●
記載 量 が libnameに よる SQLプ ロ シジ ャ と比較 して 、多 くな る。
●
デ ー タベ ー ス側 の SQLを 覚 え る必要 が あ る。
● SAS独 自の 関数 な どは、 cOnnection to、
execute内 では使 用 で きな い。
226
proc sql stimer connect using LIBDB create table TEST as proc sql stimer , execute ( SeleCti甍 1壷 彊 from connection to LIBDB ( ); ) 111:饗1驀蒸 彗 :藩饉 懇 disconnect frcrn LIBDB ; :: :職 ; connect using LIBDB ; quit ; disconnect from LIBDB ; quit ; デ ー タベ ース で処理 され る関数 と SASで 処理 され る関数 SQLプ ロシジ ャや DATAス テ ップ の whereス テー トメ ン トにて、関数 を用 い ると対応 して い る関数 はデ ー タ ベ ー ス にて 同 じ関数 または同 じ機 能 を持 つ 関数 に変 換 され て実行 され る。 しか し、対 応 していない関数 はデ ー タベ ー ス で は実行 され な い。 SASに デ ー タが読 み 込 まれた後 、該 当 の 関数 が処理 され る。 例 えば、ktrim関 数 は対応 され て い な いため 、SASに て実行 され る。whereに て ktrimを 使用 してい る と、 whereに よる絞 り込み は行 われず 、対象 テ ーブル にあ る全 レコー ドを SASに 読み込 ませ た後 、SASに て 絞 り込 み が行 われ る。 レコー ド数 が非 常 に大 きい場合 、デ ー タベ ース と SAS間 の ネ ッ トワー クや SASの ス トレー ジ ヘ の負 担 がかか り、処理 が遅 くな る可能性 があ る。 どの関数 が対応 してお り、対応 していないかはデ ー タベ ース に よっ て 異 な る。 libnameに て、下記 の よ う に、 sql̲functions='all'sql̲functions̲copy=saslogと 記載す る こ とで 、 ログに対応 してい る関数 を 出力 させ るこ とがで き る。 libname ORADB oracle sever='xxx' 3資 ‡ Ct:ons='all′ sql̲fじ 鶴Gξ :o禽 8̲oo勲 yttsa畢 ‡ Og ̲f餞 翁 ログには下記 の よ うに、SASと デ ー タベースでの関数 の対応 が出力 され る。 SAS Function Mappings provided by SAS ACCESS engine SAS DBMS FUNCT10N NAME FUNCT10N NAME S P G R W ABS EXP LOG L0010 SORT LOWCASE SASデ ー タセ ッ トとデー タベ ーステー ブル との結合 SASデ ー タセ ッ トとテ ーブル を結 合 させ る場合 、 どち らで処理 され て い るかを実行 前 に判 断す るこ とは非 常 に難 しい。 場合 に よっては、デ ー タベ ース で処理 され る場合 があ る た めで ある。 SASデ ー タセ ッ トのオブザベ ー シ ョン数 が少 な く、 select句 に SASデ ー タセ ッ トの 変 数 を記載 して い な い 場 合 な どに発 生 し、結合 が whereに よる絞 り込 み に変換 され 、デ ー タ ベ ー スにて実行 され ることが あ る。 実行 前 で 、 どち らで処理 され て い るか の判 断 は難 しい。 どち らで処 理 されてい るか 明確 化 したい場 合 は 、 SASデ ー タセ ッ トとテ ーブル の 結合 は避 けるのが 望 ま しい。 227
/*プ ログラムに記載した SOL*/ /*ロ グ に 出 力 され た SOL*/ proc sql ; select Tl.A select Tl.A from LIBDB TEST l as Tl from WheFe create table TEST̲3 as ‡1.0 :震 ( LIBDB.TEST̲l as Tl :織 .務 o聡 qu ″ xxx腱 イ ヽ γ 》 ̀′ 警 鮮jo‡ 醗鐵 簸RK.‡ 議 S‖ … 2 as T2 鷲鷺.0 機 筆2.0 it オプシ ョンか ら処理 され る システム を指定す る 一部 の機 能 において、明示 的 に処理 され るシ ス テ ム を設 定す る こ とが で き る。 システムオ プシ ョン dbidirectexec デ ー タベ ー スのテ ー ブル の み を用 いて 、デ ー タベ ー ス にテ ー ブル を作成 す る場合 で あ って も、 SASを 介 し て処理 され て しま う。例 えば 、 create table〜 as select〜 がそれ に該 当す る。 SASを 経 由せ ず 、デ ー タ ベ ースの み で処理 を完結 させ るオプ シ ョンが 出 idirectexecで あ る。 options dbidirectexecと 記載す る ことで使 用 で き る。デ ー タベ ー ス か ら SASへ の デ ー タ伝 送 が な い 分 、処理 が早 い メ リッ トが あ る。 libname オ プ シ ョン′direct̲sql= libnameオ プ シ ョン dlrect̲sql=は 、libnameに よる SQLプ ロシジ ャで の処理 において 、デ ー タベ ー ス で 処理 させ な い よ うにす るた め のオ プシ ョンで あ る。 下記 の よ うに記載 す る こ とで使 用で き る。 I ibname dbz dbz server='xxxx' direct_sql=' 指定で き る値 と して、nogensql,nowhere,nofunctions,nomultoutJoinsが あ る。 nogensqlは 、SQLプ ロシ ジ ャで のデ ー タベ ー スか らの読 み込み を禁止 したい ときに用 い るオ プ シ ョンで あ る。指定 され た状態 で SQLプ ロシジ ャでデ ー タを読 み込 む と、下記 の よ うにエ ラー が ロ グ に出力 され る。 DATAス テ ップ で読み込 んだ 際 に は出力 され な い。SASで 極 力処理 を行 いたい ときに有 効 なオ プ シ ョンだろ う。 ERROR:D:RttCI̲SOな l i bttatteオ プシ ョンの値 !よ NO,NONEま た 1ま NOG霊 鱚 SOL:こ 設定 されて しヽ ます。この SOL ステー トメン ト1譲 DttS l■ 渡 され ません。 nowhereは 、whereに よる絞 り込み処理 を SASで 行 い た い ときに用 い るオ プ シ ョンで あ る。指 定 された状 態で、whereを 用 い る と下記 の よ うな ログが 出力 され る。 228
ACCESS ENGINE:DIRECT̲SOL libnameオ プシ ョンの値 が NOWHEREに 設 定 され ています 。 where句 は DBMS に渡 され ません。 nofunctionsは 、関数 を SASの 関数 で処理 したい とき に用 い るオプ シ ョンで ある。他 と違 い 、特 に ロ グは 出力 され な い。 nomultoutjoins複 数 の外部結合 を禁 止 したい ときに用 い るオプシ ョンで あ る。複数 の 外 部 結合 とは、例 え ば下記 の よ うに、 2つ の外 部結合 が記 載 され てい るこ とを指 す。 from TEST l as Tl ‐ left 」 ol n 「EST̲2 as T2 ‐ 1eft 」 oin 「EST̲3 as T3 on Tl CIF = T2 CIF on Tl.CIF == T3 01F この とき、下記 の よ うな ロ グが出力 され 、デ ー タベ ー ス に て複数 の外 部 結 合 が され な い よ うにな る。 SAS̲SOLi複 数の外 部結 合 はで きませ ん 。 SAS̲SOL:エ ラー の ク エ リを DBMS固 有 の SOLス テー トメ ン トに変換 で きません。 ACCESS ENGINE:DIRECT̲SOL libnameオ プシ ョンの値 が NOMULTOUTJOINSに 設定 されて い ます 。 SOLス =テ ー トメ ン トは DBMSに 渡 され ません。 システムオプシ ョン sortpgm sortpgmオ プシ ョンは、 ソー ト処理 を行 うシステム を指定す ることがで きる。 options sortpgm=best bestを 指定す る と、基本 的 にデ ー タベ ー スで ソー ト処 理 が 実施 され る。ただ し、ソー ト前 に SASで しか処 理 を してい るな どが あ る と、SASに て ソー ト処理が実施 され る こともあ る。 options sortpgm=sas sasを 指定す る と、デ ー タベ ー ス で な く、SASで ソー ト処理 が実施 され る。 5。 ま とめ SASと デ ー タベ ー ス の違 い に よる発 生す る可能性 があ る問題 につい て 紹 介 した。 問題 を見 つ け るために は、 どち らで処理 され て い るか を見極 め る必要があ り、 それ は SASロ グか ら判 断可能で あ る。 また 、 ロ グを 見 な くとも、プ ロ グ ラ ムの書 き方 か ら、 どち らで処理 され るか を推測 す る こ とがで き、オ プ シ ョンか ら指 定 す る こ ともで きる。 デ ー タベ ー ス で基本 的 に処理 を させ た い 場合 は、パ ス スル ー 方式が 良 い だ ろ う。 SASで 処 理 させ たい場合 は、 direct̲sql='nogensql'を 指定 し、 SQLプ ロシジ ャで の 読 み込み を禁 止 す る手法 を選 ん で も良 い。 しか し、 どの 手段 にお い て も、SASロ グは確 認 し、 どち らで処理 され てい るか を調 べ るこ とを忘れ て はな らな い。 SAS/ACCESS for Relational Databaseは 便利 な機 能 で は あ るが、新 た な問題 が発生 しない よ う十分 に 問題 を理解 し、デ ー タベ ー ス 。SAS、 両方 の設 計、開発 を行 ってい くべ きで あ る。 本稿 が 、SAS/ACCESS for Relational Databaseを 使 用 す る、使用す る予 定 のあるユー ザ ー の一助 となれ ば幸 い で ある。 229
バー ジ ョン管理 システ ム を利 用 してSASプ ログラム を管理す る上で の 問題 と そ の 対処方法 について ○川上貴弘 (ジ ー リンクシステム コンサル テ ィ ング株 式会社 ) O. は じめに 昨年 のSASユ ー ザ総会 にお いて 、 「医薬 品開発 にお けるSASプ ロ グラ ムお よび関連 フ ァイル のバ ー ジ ョン管理 と共有 につい て」 とい う演題 で 、SASプ ロ グラム を管理す るためにバー ジ ョン管理 シ ス テ ム (以 下VCSと い う)に つい て調 査 した ところ、VCSを 使用す る こ とで、安全か つ 効率 よくプ ロ グ ラ ム作成、管理 が 可能 である と期待 されたが、本格 的 な稼働 には い くつかの懸念 点がある こ と が明 らかにな った。 そ のた め、VCSの 本格 導入 のために対応 が必要 と考 え られ る、以 下 の4つ の懸念点や 問題 へ の 対 処方 法 を検討 した。 1.文 字 コー ド 2.ク ラウ ドサ ー ビス利用 の安全性 3.SASの 実行結果 4.プ ログラムの書 き換 え な お 、今 回検 証 に使 用 した 環 境 は以 下 の とお りで あ る。 ()S :Windo、 vs10:Pro 64bit SAS:SAS9.4 TSlM4 ° VCSタ イ フ :Git VCSホ ス テ ィ ン グ :BitBuckct Cloud VCSク ライ ア ン ト :SouК eTК c 2.5.5 230
1. 文字 コー ドの問題 SASを イ ンス トー ル す る と、通 常 は 日本 語 版 、英 語 版 、 Unicodeサ ポ ー トが イ ンス トー ル され る。 この 中 で (日 本 に お い て )最 も使 用 され て い るの は SAS日 本 語版 で あ ろ う。 この SAS日 本 語 版 は Shi卜 JIS(以 後 SJISと い う)と い う文 字 コー ドで処 理 を行 っ て い る。 一 方 、 gitに お い て は 、世 界 中 の 文 字 や 絵 文 字等 を表 現 す るた めの規 格 で あ るUnicodcの エ ン コー デ ィ ング方式の1つ であるuti8と い う文字 コー ドがデ フォル トとして使用 され る。 utf‑8で エ ンコー ドされたSASプ ログラムフ ァイル をSAS日 本語版 で開 くと、場合によって は文字 化 けが発生 してデータが正 しく処理 され ない等の問題が発生する。場合 によっては、 とい うのは、 uti8の 中でもBOM(Bメ e Order Mark:Unicodeが どのよ うな形式で記述 されてい るか)が あるものと ない ものの2種 類 のフ ァイルがあ り、BOMが ある場合 は、SAS日 本語版 はut'8で 記述 され ているこ とを正 しく識別 できるが、 BOMが ない場合には正 しく識別できず、日本語等が文字化け して しま う。 SAS 日本語版 プログラムの 文字 コー ド 正 しく処理 され る SJIS ログ 結果 何 も出力され な い Unicodeサ ポー ト SJIS 正 しく処理 され な い 何 も出力され な い utf‑8(BOMあ り) 日本語版 正 し く処 理 され る NOTEが 出力され る Unicodeサ ポー ト utf‑8(BOM,た ,り ) 正 し く処 理 され る 何 も出力され な い utf‑8(BOMな し) 日本語版 正 しく処理 されない 何 も出力されない Unicodeサ ポー ト utf‑8(BOMな し) 正 し く処 理 され る 何 も出力され な い (表 1‑1)SAS日 本語版 とSAS Unicodeサ ポー トにお いて各 プ ロ グラ ム を開い た結 果 以 下 のプ ログラム を各文字 コー ドで保 存 し、SAS日 本語版 で 開 くとど うな るだろ うか。 θ′ /*こ れはテ ス トプ轟グラムです */ θ 2data test(label='テ ス トDS'); θ3 attrib varl length=$200 1abel='変 数X': イ varl='あ い うえお'; θ θ5 runi (コ ー ド1‑1)文 字 コー ドに よる違いを確認 す るため のサ ンプル プ ログラム 文字 コー ドがSЛ Sで あれば全 く問題 ない。uti8(BOMあ り)で も以下のNOTEが 表示 され るが、間 題 な く認識 され る。 HOT書 1フ ァ ィ ル 眸X:ヽ ̲sasヽ sa籠 ‐ Ple卜 鶴 tf8bo爾 ̲sasttrp 7´ ヾ̀ル 議0諄 凝〕輸バイ トオ…ダ…マー クが示雪データ①エ ン磯 膠 tf― 惑捜 1譲 鰻 で寧。 この霊ンコーデ ィングを謹麗 じ町、 ア Fギ レ竃j運 t理 !じ ます。 J‐ (図 1‑1)SAS日 本語版 で■ '8(BOMあ り)の フ ァイル を開 いた ときの ログ 231
問題 は■38(BOMな し)の 場合 で 、以下 の よ うに文字化 け して しま う。当然 なが ら、文字化 け した
ままでは想定 され た結果 にはな らな い上 に、文字化 けに よって クオ ー トが消 え、プ ロ グラム として
構 文 エ ラー とな って しま うことす らあ るので注意 が必 要 である。
関 'せ 市
間医 ・ 乖
間ュ纏 ― ウi聞 ・縫 7機 ・‡/
「 Xl:璽 難 1櫂 中諄
銀data test(label=!辛 聞・1」 〈聞・ S');
̀間
│=X':
attrl懸 varl length=$200 1abel='I瞑 画輩
・
vari='縫 ゅ>縫 ∴縫 ・
;
runi
(図 1‐ 2)SAS日 本 語 版 で 開 い た ■賀
(BOMな し)の SASプ ロ グ ラ ム
ただ し、SASで ■i8(BOMあ り)の フ ァイル を正常 に開けた場合で も、SASの エ デ ィタ で編集 して
上 書 き保存 をす る と、SJISと して保存 されて しま うこ とも注意 され たい。 これ を防 ぐには、 フ ァイ
ル を開 くメニ ュー で「エ ン コー ド」か らUTF‑8を 選 び 、BOMの 有 り無 しを選択 して開 く必 要 がある。
この 方法であれ ば、上書 き保存 を して も文字 コー ドが維持 され、SJISと して上書 き され て しま うこ
とはない。 さらに、■■8(BOMな し)の プ ログラム フ ァイルで も正 常 に開 くことが可能 である。
1議
イルを露く
キファ
ズ
「レ
ファイ
の.馬 :豪 :4:ト
・
一
・
隋一
m 倅 だけ 一
一
T一
.
夕て,タ アクセス
。
E]■
)
'ミ '卜
幾 prttenttion」 orrttt̲m18
国轟 継
圏 a腱 .簿
圏 れ隆鵬n羅
I崚 椰
図「
^
・ 鸞一
・議構囃.
檬.
■.
一
一
一
¨
燿
鷲
一
一
¨
.
︐ ´
骰
圏ヤ
《
酢縦 1鮮 働
5■
:Π
ジ
囲
鰺 疇 PI議 ‐詢 :=郊
国
鰺 1喉 PI=議 .u魏 .郡
ー
園騒睡Plettuttbo醜 轟5
囲駆じ舞5
□ltest鸞 5
圏t戯 2緊
5ms
国 彙題‐
ク
覇く(0〕
.(N):
ファイリ
レ
̀各
ファイル砂蓮類t蜀
│
:
キインセ
:
'♭
(E〉
エンコート
(図 1‑3)SASの 「開 く」 メ ニ ュー
ま た 、 SJISは い わ ゆ る半角 文 字 が 1バ イ ト、 全 角 文 字 が2バ イ トと して 扱 われ て い る が 、Unicode
で は SJISで 言 う と こ ろ の2バ イ ト文 字 の 殆 どに 3バ イ トが使 用 され る (一 部 4バ イ トが あ る)。 そ の
た め 、 変数 長 を少 な く とも1.5倍 す る こ とで 、デ ー タ の 文字 切れ を回避 す る必 要 が あ る。
例 え ば、 SAS日 本 語 版 で コー ド1‑2を 実 行 し、 SJISで 作 成 され た デ ー タ セ ッ トを SAS Unicodeサ ポ
ー トで 開 く と、 図 1‑4の エ ラー が 表 示 され る。
232
θf data s」 ls.a; θ 2 a='あ い うえお漢字 '; θ ̀ runi フ コー ド1‐ 2)異 な る エ ン コー ドで 開 くた めの サ ン プル プ ロ グ ラ ム づ ブ 響 0 temp \sas\ 讐 鑽 名 憲IIS 驚│次 礫 譲 ̀争 に動 つ壌 て ま した。 蓋 ン ジ ン :VD 罐 :薩 継 :̀:ヽ セを難p、 墨凛3、 3」 is dattt L; Set S」 iS̲3; ヂ ー タ フ アイル SttS.A.OAIA績 騨 転 豪 ス トに 議 で テ ィブな 彫 議 が 使 燿 さ 築 て 与1る か 、 ま 為 1感 エ ン 塾― デ イ ング が セ ツ シ ヨン エ ン 撥― デ ィ ン ダ と 一 数 して もヽ毅 せ ん .ク ③ 貫 麟 1饉 デ ー 鉾 ア クセ ス 鱗 鍵躍 専 窺 るた め 、 遺 購 のCPUリ ソー ス が轟 甕 とな り、 ノ驚フ ォ ー マ ンス が 機 下 し 畿 寧 鬱 run; 艤薔 整矢 しま し糞 。 新 しも`蓮 ン 垂― デ ギ ン グで 表 せ な もヽ文 字 が ギ ー タ :こ 機 議 驚 て もヽた か 、 また 4鱗 トラ ン ス 機― ド時 1こ 鸞 鬱1捨 て が 発 饉 じ護 じた 。 │:ヂ ー 壼セ ツ ト5JIS.晨 め トラ ン ス コ ド 醸 4こ 貴 寧 ギ ー タが (図 1‑4)SJISで 作 成 した デ ー タ セ ッ トをUnicodeサ ポ ー トで 開 いた とき の ロ グ このエ ラー を回避す るためには、libnameス テー トメン トにおいて 、cvpmultiplierォ プションを利 用す る。 01 I ibname sjis' c:YtempYsasYsjis' cvpmultipl ier='|. 5 コー ド1‑3)cvpmultiplierを 利用 して ライブラ リ参 照名 を割 り当て る cvpmultiplierオ プシ ョンを指定 す る と、文字変数長 を指定倍 に拡 張す る。 つ ま り、 10バ イ トだった 変数長 は 15バ イ ト、200バ イ トは300バ イ トに拡張 され る。これ に よって、文字デ ー タの切 り捨 て を 防 ぎ、デ ー タを正 しく処理 させ るこ とがで きるよ うになる。 もちろん、最近のEDCで は作成 され るデ ー タセ ッ トがもとも とUnicode形 式で あ り、 この よ うな 対応 が必 要 な い場合 もあるが、既存 のSJISデ ー タセ ッ トを扱 う場 合 には注意 が必 要 である。 これ に合 わせ 、使用す るプ ロ グラム 中でlenghを 指定 してい る もの につい て も長 さを再評価 し、 修正す る必要 がある可能性 が あ るので 忘れず に修正 してお く。 なお、今回VCSク ライアン トと して使用 した SourceTrecは 文字 コー ドを■f‑8か らSJISに 設定変 更 して も一 部 が文 字化 け して差分比較や コメン トを正 しく表示す る こ とができず 、追加 の設定 が必 要 な部 分 が 多 い ことか ら、本稿 ではut'8を 主 にお いて解説す る。 ただ し、各項 の結論 でSJISの 場合 に つい て も併記す るので参 考 に され たい。 <結 論 > 表 1‑1か ら分 か る通 り、文字 コー ドとしてuti8を 指定 してお けば、 SAS日 本語版 で もSAS UnicOdc サポ ー トいずれ で も動作 させ る こ とができるた め 、■38(BOMあ り)を 使用す る。 (余 談 だ が 、 多 くのテ キ ス トエ デ イ タで は BOMの 有無 を指 定 して 保存 す る必 要 が あ るが 、 Windowsの メモ 帳でUTF‐ 8を 指定す る と、BOMが 自動的に付与 され る。 (SЛ Sの 場合 、本項解説部分 は特 に対応 は必要 ない) 233 )
2. ク ラ ウ ドサ ー ビス を利 用 す る上 で の 問題 前回 のVCSの 比較時 にはGithubを 使用 した。 これ はVCSに お いてGithubが デ フ アク トス タ ンダ ー ドとな ってい るためであ ったが 、今回 は機密情報 を保存す る こ とを想 定 し、プライ ベ ー トリポ ジ ト リ、 つ ま り管理す る フ ァイ ル 及 び履歴情報 を非公 開 とす るこ とがで きるサ ー ビス を選 定 した。 Githubで は有料 プ ラ ンで 非公 開 リポ ジ トリを作成す ることができるが 、無料 プ ラ ンで は非公 開 リ ポジ トリを作成す る こ とがで きないため、無料 プ ラ ンで もプ ライ ベ ー トリポ ジ トリを無制限に作成 できるBttucktを 採用 した。 非公 開 とは いえ、 クラ ウ ドサ ー ビス にデ ー タを保存す るためには以下 の2点 に特 に注意 したい。 。漏洩 、不 正アクセ スの リス ク ・ デ ー タサイ ズ まず 、漏洩 の リス クにつ いては誤 って公 開 リポ ジ トリとして設 定 しな い 限 り大 きな問題 はな い 。 Bitbucketで は標準が非公 開 とな ってい るため、 リポジ トリ登録 時に誤 って公 開設定 に して しま うリ ス クは低 い 。 そ して、不正 なア クセ ス につい ては2段 階認証 を用 い る こ とで リス クを低減す る ことができる。 2段 階認 証 とは、ユ ー ザ名 とパス ワー ドの組 み合 わせ での ロ グイ ンに加 え、 さらに ロ グイ ン毎 に メール で通知 された専用 の コー ドや、スマー トフォ ンや専用 の機器 で発行す る コー ド (こ れ らは一 般 に トー ク ン と呼ばれ る)を 用 いて ログイ ンす る手法で ある。専用 の機器や手持 ちの スマー トフオ ンを使用す るためな りす ま しは非常に困難 で 、 トー ク ン を容易 に確認 できる環境 が整 ってい る状況 では必須 の設定 と言 えよ う。 data work. test2( read=abc write=def alter=ghi ) ; set work. testl l θ2 θ3 run; θf パ ス ワー ドを別 々 に指 定す るプ ロ グラム (コ ー ド2■ )3種類 の readは 読み取 リパ ス ワー ド、writeは 編集 パ ス ワー ド、alterは 属性 パ ス ワー ドであ る。 次 の よ うに 、pwオ プシ ョンを指定すれ ば、上記 3つ を 1つ の パ ス ワー ドで保 護す るこ ともできる。 01 data work. test ( pw=xyz ) i 02 set work. testi 03 run; (コ ー ド2‑2)3種 類 の パ ス ワー ドを 1つ 指 定す るプ ロ グラム パ ス ワー ドで保護 されたデ ー タセ ッ トは読み取 りや編集 の際 にパス ワー ド入力 を要求 され るため、容易に読み取 られた り、改 ざん され ることを防 ぐためにも設定 しておきたい。 しか し、デー タセ ッ トの保護 にはパス ワー ドだけでは不足であ り、cncryptデ ー タセ ッ トオプ シ ョン も指定すべ きである。以下 はreadパ スワー ドだけを指定 したデー タセ ッ トと、readパ ス ヮー ドお よびencryptオ プシ ョンを指定 したデー タセ ッ トを作成す るプ ログラム、そ して生成 さ れたそれぞれ のデー タセ ッ トをバイナ リエデ ィタで開いた結果 である。 234
θ′ data work.
testl( read=abc ) i
θ2
a='abcdefg' I
θθ run;
(コ ー ド2‑3)rcadパ ス ワー ドを指定 したデー タセ ッ トを作成す るプ ロ グラ ム
01 data work. test2 ( read=abc encrypt=yes ) ;
02
a='abcdefg' i
03 run;
(コ ー ド2‑4)readパ ス ワー ドを指定 した 暗号化 デ ー タセ ッ トを作成す るプ ロ グラ ム
プ ロ グラ ム2‑3で 作成 したデ ー タセ ッ ト(図 2‑1)で は 、 パ ス ワー ドをつ けて い た と して も中身
「おcde亀 」が確認 で きて しま う。変数やオ ブザベ ー シ ョン、値 に よってはデ ー タを識別す るこ とは
簡 単 ではない ものの 、 この よ うなデ ー タセ ッ トをそ の まま放 置す ることは好 ま しくない。
00 130 00 00 01 00 0〔 }00
61 62 (53 64 6ξ i 66 67
ab
参0
(図 2‑1)sample2‐ 3で 作成 したデー タセ ッ ト
一 方、プ ロ グラム2‑4で 作成 したデー タセ ッ ト(図 2‑2)で は、暗号化 されて い て全 く判読 できない。
E
0
A
4
9
3
0
A
2
5
D
3
5
B
3
5
D
4
0
6
3
A
B
7
B
D
9
0
F
4
C
0
4
4
E
0
彗
2
4
6
C
A
3
1
E
8
7
9
6
霧
匡
8
撥
5
0
9
C
4
6
D
0
7
麟
9
A
3
罐
8
C
7
D
3
4
9
O
7
匿
0
9
3
2
1
3
2
3
C
9
3
E
D
E
4
9
5
E
匿
7
E
4
C
l
1
0
宏
7
匿
E
D
1
8
4
0
6
3
2
6
2
6
9
8
5
2
l
5
2
4
C
5
9
B
5
6
3
8
1
5
7
3
D
3
2
6
8
0
5
l
6
8
b
D
4
7
9
C
3
8
2
9
6
8
5
8
8
D
7
4
5
7
4
3
3
l
6
E
2
8
7
5
B
2
2
M
l
4
B
1
E
6
2
D
3
5
9
轟
7
8
2
8
6
4
4
0
8
2
C
A
5
1
D
C
9
C
1
l
A
4
E
C
3
7
5
6
8
D
1
5
4
`
W
E 、.J9.R豊 .S撼 .{.
く│.0.D.+醸 .´ .̲,メ P
L.p.:̀1壺 .p̲̲書
9│̲NY^..
..̲.6b
%Q3ヽ ̲e̲Q7.b...
姿
.(lX.}TC3a
x.11
C
A
C
0
6
5
1
3
2
F
8
4
1
4
8
D
4
2
8
5
l
7
F
4
4
D
7
6
8
E
2
7
8
4
1
5
A
l
F
7
8
5
8
電
3
9
⁚
0
騒
9
2
1
5
8
く
F
E
麟
C
.V苺 Ⅲ
購A. $XqO.
0
4
E
F
ぬ撃 5
7 5
鶴
7
4
2
4
歴
D
A
9
C
9
E
3
6
0
8
E
0
8
2
F
7
F
導
4
8
6
A
6
3
2
8
C
7
0
3
A
8
6
6
「
K難 ..X.
V(f̲.,".
=く 瞬
・遭
A
0
A
C
4
5
2
慶
7
5
0
2
2
6
C
E
4
3
3
l
4
3
確
D
2
0
4
E
6
0
2
6
F
0
3
E
E
3
D
D
9
F
9
6
4
F
7
6
6
7
7
O
9
2
7
8
2
Cl
8 8
3
6
C
7
6
7
8
5
3
6
6
D
8
4
2
3
2
D
匠
4
7
2
C
3
0
3
C
7
1
8
4
電
5
風
6
1
9
4
置
4
D
6
7
E
B
0
l
7
6
6
F
4
ヽ S I
D
8
C
3
L
C
4
c.な 。F。 (
fN.02.w̲0‑..p曇 $・
.
│.X.F̲10NT.U.̲C
欄̲Nkc..換 3...(.̲。
q:.IF´ A警 .6.10、 f
(図 2‑2)samplc2‑4で 作 成 したデ ー タ セ ッ ト
さらに、パ ス ワー ドが記載 され てい るプ ログラ ム と、パ ス ワー ド保護 されて い るデ ー タセ ッ トを
一 緒 に保 管 してお く ことの リス クに も言及 したい。 ここでは 、社 内 の共有 フォル ダ上 にパス ワー ド
を保存 したテ キス トフ ァイ ル を保 管 しておき、プ ロ グラ ムでパ ス ヮー ド情報 を読み込む 、 とい う方
法 でパ スワー ド自体 をプ ログラム に記 載 しない手法 を提案す る。
(図 2‑3)
― タセ ッ トパ ス ワー ドを保存 したテ キ ス トフ ァイ ル (X:¥Project01¥DatasctPWixt)
235
θ′
filcname pwfile
″
X:¥ProJcct01¥DatasetPW.txt″
;
θ2
θθ
data -nu11 ;
θイ
infile pwfilel
θ5
length pwd $8;
θ6
input pwdi
θ7
call symput ("pwd", pwd) ;
run;
θ9 filename pwfilei
θ∂
′θ
ff
f2
′θ
data work. test3;
set work. testl (read=&pwd. ) ;
run;
(コ ー ド2‑5)外 部 フ ァイ ル か らパス ワー ドを読み込むプ ロ グラム
これ によつてパ スワー ド自体はgitに よる管理対象外 として安全に管理 され、万が一プ ログラム と
デ ー タセ ッ トがセ ッ トで不正に入手 されて も、デー タヘ のアクセスは非常 に困難 となる。
また、 クラウ ドサ ー ビス では利用す るデ ー タ容量 に よって課金金額 が 異 な るケー ス もあるため 、
可能 な限 り不要なデ ー タは排 し、必要 な フ ァイル もサイ ズ を抑 えるこ とが望 ま しい。
そ のため、compressデ ー タセ ッ トオプ シ ョン (デ ー タの圧縮機 能 )を 使 用す る。
01 data work. test3 work. test4( compress=yes ); /* 7Z*)vl-i*
lcompress=no) x/
02 array x {20,10} $20;
03 do i=l to 10;
do j=1 to 2A;
04
x {j, i} =put (ixj, best. ) ;
05
output test3 test4i
06
end;
07
08 end;
09 drop i j;
l0 run,
(コ ー ド2‑6)通 常 の デ ー タセ ッ トと圧縮 したデー タセ ッ トを作成す るプ
ログラム
上 記 のプ ログラム を実行 した結 果 、通 常 のデ ー タセ ッ トのサイ ズ は約 1.3MBと な っ た のに対 し、
圧縮 したデ ー タセ ッ トのサイ ズ は約 480KBで あつた。変数 が数値型 だ け の場合や、変数 お よびオブ
ザ ベ ー シ ョン数 が少 な い場合 には大 きな圧縮効果 がない (逆 に増加す る)場 合 もあるが 、それ以外
に も ソー トにかか る時間が短 くなる等 の副次的な メ リッ トもあ り、ぜ ひ とも普段か ら使用 したいオ
プ シ ョンで ある。
236
ソー ト方 法 │ sor‐ L l tagsOrt 条件 OS、 搭載 メモ リ 32bit,4GB 7% 53% 64bit, 80B 42% 51% 2048MB 21% 55% 256MB 2400 49% SORTSIZE 図2‑4)圧 縮 したデ ー タセ ッ トの ソー ト時間短縮比率 (注 コー ド2‑6で 作成 したデ ー タセ ッ トではない) な お 、 シ ス テ ム オ プ シ ョ ン で COMPRESSを 有 効 に す る 方 法 も あ る。 0l options compress=yes; (= '_ F^2-7) COMPRESSシ ス テ ム オ プ シ ョ ン を 指 定 す る コ ー ド SAS 6の 時代 には 、 一 部 のscl関 数 で圧 縮 され たデー タセ ッ トを正 し く扱 えない とい う問題 があっ たが 、現在 では解消 してい る。例 えば 、 curobsに つい ては 「This inctiOn shOuld be used only with an uncompresscd」 とい う注意書 きがRcimceに 残 ってい るが、実 際には使用 で きる との こ とである。 <結 論 > 非公 開 リポジ トリを利用 し、ログイ ン には二段 階認証 を設 定 して リポジ トリのセ キ ュ リテ ィ リス クを減 らす 。 デ ー タセ ッ トにはパ ス ワー ドお よび 暗 号化 、圧縮 のオプ シ ョン を指定 し、 セ キ ュ リテ ィを高め、 デ ー タ使 用 量 を減 らす。 (本 項解説部分は文字 コー ドに影響 され な い ) 237
3. VCSに お けるSASの 実行 とそ の結果 の扱 い について vcsは あ くま で もプ ログラムのバー ジ ョン管理 で あ り、SASプ ロ グラ ム を実行 して結 果 を得 るこ とはできな い。 そ のため、管理対象 とす るSASプ ロ グラム を実行 し、そ の ログや結果 を確実に保存 す るための方法 を検討す る必要 があった。 SASプ ロ グラ ムの実行 には、SASの デ ィスプ レイ マ ネ ージ ャ上でsubmit(F3,漁 )す る方法 と、SAS プ ロ グラム を右 ク リック して表示 され るメニ ュー か ら「バ ッチ実行」を選択す る方法 の 2つ がある。 この内、バ ッチ実行 について は、 SAS起 動 時にSYSINシ ステムオプシ ョンでSASプ ロ グラム を指定 す る ことで 同 じ処理 を させ る こ とがで きる。 さらに、バ ッチ実行 では 、指定 したSASプ ログラムの 実行 が終了す る とSASセ ッシ ョン も 自動的に終了 し、 ロ グお よび リス トがプ ログラ ム と同 じフォル ダに出力 され るた め、SourceTreeは 自動的 に管理 対象 として処理す るこ とが可能で あ る。 そ のため 、 SourccTreeか ら管理 対象 のSASプ ロ グ ラ ム をバ ッチ処 理 させ るた めの設 定 として、 SOurceTreeの ツール → オプシ ョン→ カ ス タム操作 タブ→ 追加か らス ク リプ トに以下 を記 述す る。 実行するス ク リプ トiC:¥Program FIles¥SASHome2¥SASFOundation¥9.4¥SAS.exe パ ラメー タ :― SYSIN$FILE (図 3̲1)SOurceTrccで SASを バ ッチ実行す るた め の設定 上 記設定 で は起動す るSASの 種類 (日 本語版 、unicOdeサ ポー ト)を 指 定す る ことはで きない。そ の た め、さらに以 下 の コマ ン ドを作成 して、そ の コマ ン ドに対 してプ ロ グラム を渡す 、 とい う方法 を 採 る。 なお、 ここでunicOdeサ ポ ー トを起動 させ る の は、出力 され る ロ グお よび 出力 結果 をuti8と す るためで あ る。 ″ C:¥Program FIles¥SASHome2¥SASFOundatlon¥9.4¥sas.exe″ ―CONFIG ″ C:¥Program FIles¥SASHome2¥SASFOundatlon¥9.4¥nls¥u8¥sasv9.cfg″ ―sysin %1 (注 :上 記を1行 で記述する) (コ ー ド3‑1)SourceTrccか らconigを 指 定 して SASを バ ッチ 実 行 す るた めの コマ ン ド 実行するスク リプ ト :コ ー ド3‑1の ファイル パ ラメー タ :$FILE (図 3‑2)SOurceTrccで SASを バ ッチ実行 す るた め の 設 定 た だ 、 SASプ ロ グ ラ ム を実 行 後 、結 果 デ ー タセ ッ トが見 た い 場 合 等 に はバ ッチ 実 行 で は適 さな い 場 合 もあ る。 そ の よ うな場 合 は 、 SYSINの 代 わ りにAUTOEXEcシ ス テ ム オ プ シ ョン を使 用す る。 AUTOEXECを 使 用 す る と、SASを 起 動 後 プ ロ グ ラ ム の 実行 が 完 了 した ところで 止 ま るた め、そ の ま ま SASか らデ ー タ セ ッ トを参 照 した り、慣 れ た 画 面 で ロ グを確 認 す る こ とが で き る。 た だ しこの 場 合 、 ロ グや リス トが外部 に 出力 され な い た め 、 自動 で保 存 され る仕 組 み を考 え る必 要 が ある。 そ こで 、次 の マ ク ロを作成 した。 238
01 %lrlacro dnpr int:
02 %if "&SYSPR0CESSM0DE. "="SAS DMS Session" Tothen %do;
03 dm log'print file="&logpath." replace'i
04 dm output'print fi le="&lstpath. " replace' i
05 Toend
i
06 %ilend dmpr i nt;
(コ ー ド3‐ 2)dmコ マ ン ドで ロ グお よび リス ト出力 を保 存す るSASマ ク ロ
SYSPROCESSMODEは SAS自 動 マ ク ロ変数 であ る。通常起動 す る と 「SAS DMS Scssion」
が 、バ
ッチ実行 であれ ば 「SAS Batch Mode」 が格納 され る。
この値 を利用 して 、バ ッチ実行 時は 自動 的 に ロ グ とリス トが 保 存 され、通常 実行 時は実行 時 の最
後 に作成 した マ ク ロによって ロ グ と リス トが 自動保存 され る、 とい う仕組み と した。
なお、lo"athと lstpathは 次項 で 解説す るSASマ ク ロ内で取得す る値 で 、それ ぞれ バ ッチ実行 時 に生
成 され る ロ グファイル名 と リス トファイル名 が格納 されて い る。
<結 論 >
sOurceTrccで カ ス タム設定 を行 うことでSASプ ログラム を実行 し、さらにSASマ ク ロを使用す るこ
とで 、 ログ等 を 自動保存お よび 管理対象 とさせ ることが可能 で あ る。
SJISを 使用す る場合 には 、起 動す るSASの conig(コ ー ド3‑1)を nl評u8→ nl鋼 aと すれば よい。
239
4. プ ロ グラムの 書 き換 え よく社 内ネ ッ トワーク上で使用 されるのは以下の よ うなケースではないだろ うか。 main.sasで はライブラ リ参照名、ファイル参照名 を割 り当て、実際の処理はsubl.sas、 sub2.sasで 記述 したものをincludcす る、 とい う形である。 X: YProject0l YCheck FRawdata 対象データセ ッ トが保存 されたフォルダ Fsasprg SASプ ログラムの保存フォルダ sub1. sas メインの実行 プ ログラム メインか ら呼ばれ るサ ブプ ログラム sub2. sas 同上 ma i n. sas FCheck I ist チ エ ック リス トの 保存 フォル ダ I チ ェ ック リス トフアイル checkl ist. xlsx L0utput 結果デー タセ ッ トの出力先 (図 4‑1)フ ォル ダ構造お よび フ ァイ ル 構成 の例 θ′ I ibname _entry' X:YProject0lYCheckYRawdata' θ2 I ibname _out 'X:YProject0lYCheckY0utput' access=readonly, ; θθ fi lename chklst 'X:YProject0lYCheckY0heckl istYcheckl ist. xlsx' ; θイ Toinc' X:YProject0lYCheckYsasprgYsubl. sas',/source2; θ5 %inc' X:YProject0lYCheckYsasprgYsub2. sas' /source2, (=* F^4-1)main.sas data templ; θ2 set entry. xxxx; θθ if ...; θf θイ run; (コ ー ド4‑2)subl.sas θ′ data temp2, θ2 set entry.yyyy θ ・ ・ ・ : ̀ if θイ run; (コ ー ド4‑3)sub2.sas 一方、バ ー ジ ョン管理 システ ム は基本的 に 自身 のPC上 の フ ァイ ル を管理対象 として動作す る。つ ま り、フ ァイ ル ー 式を ロー カル PCに コ ピー して動作す るよ う、次 の よ うな フォル ダ構造等 の修正が必 要 とな る。 240
X: YProjectOl Y0heck X : YProj ectO1 Y0heck FRawdata FRawdata F0heckl ist checklist.xlsx I F0utput F0heck I ist checklist.xlsx I L0utput C: YUsersYkawakam i YProject0l Y0heck I Lsasprg Lsasprg ma i n. sas ma i n. sas sub1. sas sub1. sas sub2. sas sub2. sas (図 4‐ 2)元 の フォル ダ構造 (図 4‐ 3)ロ ー カル で動 作 させ る場合 の フ ォル ダ構造 この ときmain.sasは 以 下太字部分 へ の 修正が必要で あ るが、 これ は ユ ー ザ別 のフォル ダであるため に 、複数人 で共 有す る場合には適 さな い。 θ′ I ibname _entry' X:YProject0lYCheckYRawdata' access=readonly, θ2 I ibname _out 'X:YProject0lYCheckYOutput' ; θθ fi lename chklst 'X:YProject0lYCheckY0heckl istYcheckl ist. xlsx' θイ %i θ5 i nc' C : YlJsersYkawakam i YProject0lYCheckYsasprgYsubl . sas',/source2 % i nc' C : YUsersYkawakam i YProject0lYCheckYsasprgYsub2. sas' /source2 ; ; (コ ー ド4‐ 4)フ ォル ダを ロー カル に変更 した main.sas C:¥SASの よ うな、 PCや ユー ザ に依 存 じづ らいフ ォル ダを指定す る方法 も一つで あ るが、それ を 強制す ることは困難 で あ り、指定 ミス や作成 ミス に よ ってプログラ ム が正 常に動作 しない可能性 も あ る。 そ のため、 ユ ー ザ の利用環境 に依存 しないプ ロ グラムの作成 方法 を検討 した。 まず 、main.sasの フル パ ス を取得す る。 これはSASの FAQで 記載 され てい る方法 を利 用 した。 01 ToLET execpath=" " i 02 %lilACRO setexecpath; 03 ToLET execpath=96SYSFUNC (GETOPTI0N (SYSIN) ) 04 %lF %LENGTH(&execpath)=0 0s ToTHEN %LET execpath=%SYSGET(SAS_EXECFILEPATH) ; 06 %lilEND setexecpath; (コ ー ド4‑5)実 行 プ ログラムのパ ス を取得す るSASマ ク ロ 次 に、取得 した実 行 プ ログラムの フル パスか ら、実行 プ ログラ ム フ ォル ダを取得す る。 考 え方 としては、実行 プ ログラムの フル パスか らプ ロ グラム名 を取 り除 けばよい。 sc鑢 関数 では第2引 数 に負 の数値 を指 定す ることで、後方 か らの文字 列 を取得す るこ とができる。こ れ を利 用 し、実行 プ ロ グラム名 を取得 す る。 241
% I et prgname=0/okscan (&execpath, -1, ' Y' ) ; (コ ー ド4‑6)実 行 プ ログラム名 を取得す る コー ド 続 い て 、 実行 プ ロ グ ラ ム名 を取 り除 き 、 フ ォル ダ名 を取 得 す る。 注 意 しな けれ ば な らな い の は 、 実 行 プ ロ グラ ム名 と同 じフ ォル ダ名 が あ る場合 で あ る。 そ の た め 、以 下 で は検 索文 字 列 お よび検 索 対 象 の 末 尾 に 「喜 」 を付 与 して い る。 Windowsで は 「¥」 は フ ァイ ル 名 と して使 用 で きず 、 また 、 「饗 SERVER01¥〜 」 の よ うにネ ッ トワ ー クパ ス を示 す 先 頭 以外 に喜 が 並 ぶ こ とは な い た めで あ る。 et prg i dx=%k i ndex (&execpath. YY, &prgname. YY) I et execd i r=Toksubstr (&execpath, l, &prg i dx-2) ih I 7o ; (コ ー ド4‑7)フ ォル ダ名 を取得するコー ド これ をもとに、以 下 のマ ク ロを作成 した。 θf %‖ACRO getpath(lv,subdir); θ2 9̀global execpath execdir 10gpath lstpatll; θ3 %LET execpath=%SYSFUNC(GETOPT10N(SYSIN)); θイ %IF %LENGTH(&execpath)=0 θ5 %THEN %LET execpath=%SYSGET(SAS̲EXECFILEPATH); θ6 θ7 %1et logpath=%ksubstr (&execpath. θ∂ ,1 θ9 ′θ , %kindex(&execpath. YY,. sasYY)-1). log; %1et lstpath=%ksubstr (&execpath. ′′ ,1 ′2 , %kindex (&execpath. YY, . sasYY) -1) . 1st; ′3 %do i=0 %to &1v. ; fイ %1et prgname=%kscan (&execpath. , -1, ' Y' ) ; ′5 %1et prgidx=; 26 %1et execpath=%ksubstr (&execpath. ′7 ,1 f∂ , %kindex(&execpath. YY, &prgname. YY)-2) ; ′9 %end; 2θ %iet execdir=&execpath. &subdir. i 2′ SiIEND eetpath; (コ ー ド4‑8)実 行 プ ロ グラムか らフ ァイル 名等 を取得 す るマ ク ロ マ ク ロパ ラメー タlvに 0を 指定すれ ばプ ログラムが あ る フォル ダを、1を 指定すれ ばそ の 更に 1つ 上 の フ ォル ダを返 し、更 にマ ク ロパ ラメ ー タsubdirに 指 定 したフォル ダ名 をサブ フォル ダ として結合 す る こ とで、実行 プ ロ グラムのフル パ ス をもとに、様 々 な フォル ダを参 照す る ことが 可能 となった。 242
%getpath(lv=0);
―→CI¥Users¥kawakaml¥Pro」 ect01¥Check¥SASprg
%getpath(lv=2,subdir=¥Other¥lnclude);
→C:¥Users¥kawakami¥Project01¥Other¥include
―
(コ ー ド4‑9)作成 した マ ク ロの使用例
<結 論 >
最終 的 にmain.sasは 以 下 の よ うに変更 され 、誰 が どのPCで 使用 して も、相対的なパ ス を参照 して
実行 す る こ とができるよ うになった。
θ′ %β
′ (lv=0);
iθ
̀ρ
̀力
2 1ibname ̲entry 'X:¥Project01¥Check¥Rawdata'
θ
θ3
cvpmultiplier=:1.5 access=readonly:
θィ libname ̲out 'Xi¥Project01¥Check¥Output;
θ5 filename chklst 'Xi¥Project01¥Check¥Checklist¥checklist.xlsx' ;
′
″
θ6 %inc &execdir.¥subl.sas′ /source2;
″
θ7 %inc &execdlr.¥sub2.sas″ /source2i
・
″オ
′
θ∂ 物 ′ノ
%θ
lρ
(コ ー ド4… 10)相 対参照 に変更 したmain.sas
(本 項解説部分は文字 コー ドに影 響 され ない)
243
5. 最後 に クラウ ドベ ー ス のVCSを 使用す る上 での課題 は今 回挙げた4つ だ けではない。社 内 のセキュ リテ ィ ポ リシー との整 合性確保や バ リデ ー シ ョンの 考 え方 等、新 しい手法 を導入す るた め には技術面だ けでな く、運用 面 での課題 もまだ残 ってい る。 しか しなが ら、今 回 の課題 へ の 対応 によ り、VCSで そ の結果等 を含 めSASプ ロ グ ラ ム を管理す る こ とが十分 に可能 であることが示 され た。ぜひ とも今 回提示 した手法 を参考に、VCSを 使用 してみ て ほ しい。 ^ h︶ 参考文 献 1.SAS hstitute lnc.:SAS 9.4各 国語 サ ポ ー トリフ ァ レンス ガ イ ド第 五 版 (2016) 2.SAS Institute lnc.:SAS 9.4マ ク ロ言語 :リ フ ァ レンス (第 5版 )(2016) 3.SAS Institute lnc.:SAS 9.4デ ー タセ ッ トオ プ シ ョン :リ フ ァ レンス (第 3版 )(2014) 4. SAS Institute lnc.:SAS Coimlponent Language 9.4:Rcference,Third Edition(2017) 5.SAS Instime hc■ 現在 実 行 してい るプ ロ グ ラ ムの フ ァイ ル 名 取 得 方 法 に つ い て (FAQ) WWW・ SaS・ COin/OfllCCSattl鍾 ≧aCiiC̀L堅 理 /SeⅣ lCe/tCChniCa1/曇 Q4iSL∠L,Ω dy∠ ba251.曇 1111 244
SAS Programming Tips: CDISC編 ○松 沢 享 (株 式会社 イ ンター サイ エ ンテ ィフ ィ ック リサーチ ) SDTM及 びADaMデ ー タセ ッ ト作成 時 の 、少 し役 立つ SASプ ロ グ ラ ミン グのTipsを 紹介す る。 また本発 表 はCDISCに 係 るプ ログラ ミング以外の用途 として も役 に立 つ 内容 となってい る。 245
Pメ honに よるSASデ ー タハ ン ドリング o中 嶋 優 一 (ノ バルテ ィスファーマ株式会社) 近年脚光 を浴びてい るプ ロ グラ ミング言語 であるPメ honで あるが ,そ のひ とつの 強み として,多 彩なパ ッケ ー ジ ライブラ リが挙 げ られ る。 Saspyは ,Pメ honに おいて SASデ ー タな らび にSASシ ス テ ム を利用す るためのパ ッケ ー ジ ライブ ラ リであ り,SASプ ロ グラマー がPメ hOnを 利 用す る事で ,通 常 のSASプ ロ グラ ミングに よる検証方法 の拡張や業務 の効率化 が期待 され る。加 えて ,Saspyを 利 用 す る事 に よ り,SASプ ロ グ ラマー がPythOnに お けるプ ロ グラ ミングの理 解 ,習 得 の 手助 けになる と 考えられ る。 Pythonに お いてSASデ ー タを加 工す る方法 は ,以 下 の様 に複数存在す る。最 もシ ンプル な方法 と して,SASデ ー タをDaね Frame(デ ー タフ レー ム)と い う形式 に変換 し,加 工 を可能 にす るPttdas とい うライ ブ ラ リを利用す る事 が考 え られ る。また ,よ り多 くの選択肢 を持 たせ る とい う点で,SAS デー タセ ッ トの ままPメ hon内 でデ ー タ加 工が 可能なSaspyの 利用 がある。例 えば複雑 なデ ー タハ ン ド リングに対 して ,既 存 の SASマ ク ロプ ロ グラム をPythonの 中で利用す る事 ができ,加 えて単純なデ ー タの集 計や描 画 につい て は豊 富なPメ honの ライブ ラ リを利 用す る とい う組み合 わせ が 可能 とな る。 Pandas HaldⅡ llg Data by Pttldas DF DataFrame reod ∫α お sヽ Crcttc O、 cct 8 Pそ mdas DF Handllllg I)ata by Saミ py、 API SAS dataset Rcpo鷲 (Summ裡 ァ/ Crcatc Obicd tt Pttdぉ DF Crcatc O,cctas SAS DS Handling Data by SAS code directly Apけ 山狙gcs by SAS codc 本 ポ ス タ ーーにお いて は ,Windows PC SASに 対 す るSaspyの イ ンス トール 方 法 ,さ らにSaspyを 用 い たPメhon内 に SAS sessionの 立 ち上 げ ,SASデ ー タセ ッ トの読 み 込 み 方 法 ,Pttdas DataFrameに 変換 し た後 の デ ー タ加 工 方 法等 を紹 介 す る。最 後 に ,Pandas DataFrameに 対 す る簡 単 な集 計 方 法 を紹介 し , ま とめ とす る。 246
折れ線 グラフの 出力 を工夫す る
○浅井 友紀
(エ イツーヘ ル ス ケア株式会社 )
【は じめにI
折れ線 グラフを出力する際には,群 毎にグラフをず らす ことや ,上 付 き文字,メ モ リラベルの改行
な どの体裁 上の調整 が要求 され る.本 発表ではそ ういった調整 の際に使用するSASの 機能を紹介す
る
.
方法】
【
SGPLOTの オプシ ョンを利用 し体裁 を整 えたグラフを出力す る.SGPLOTで 折れ線 グラフを出力す
るステー トメン トはvlineと senesの 二つがあり,そ の 両方でグラフを作成 した。また凡例を表示 させ
る際にはSAS94か ら追加 された%s」 e難 マ クロを使用 した。
結果】
【
SGPLOTの 機能を使用 し,図 1の グラフを出力 した
*a- {:At
*l* s!e*
ライ
'
崚'参 簸等
巌機蘇遷含奪
図 1出 力 した グ ラ フ
総括 】
【
今 回 の発表では凡例 の表示 に%sgextを 使用 したが ,SGPLOTの textや insctス テ ー トメ ン トで も判例
の表示 は可能で あ る。 SGPLOTに は様 々 な機能があ る ので ,そ れ を活用 したい。また 軸 ラベ ルは離
散値 の場合 に改行 で きる.グ ラ フ軸 が 連続値 の場合 で もラベ ル を改行す るオプシ ョンが 追加 され る
とさらに便利 にな るだ ろ う
.
参考文献】
【
高浪洋平,舟 尾暢男。もしも,SASの SGPLOTと Rの GGPLOT2を 比較 したら…,第 1回 ナニ ワデータサ
イ エ ンス研 究 会 ,2016.
247
輻 │‐ . 生物統計 ,医 薬関連 SASシ ステム , ・ │・ │. 、 1
SASで 始 めよ うCentral Sttistical Monitoring ―JMP Clinicalを お手本 に した ス ター ター プ ログラムの提案 ― 森田 祐介 (杏 林製薬株式会社 開発推進部 デ ー タサイ エ ンス グループ) Let's Try Central Statistical Monitoring Using SAS - Proposal of Starter Program based on JMP Clinical - Yusukc Monta Kyonn Phannaccutical Coり Ltd. 要旨 臨床試 験 に携 わ る SASユ ー ザ ー には ,介 入 の有効性 。安全性 の評価 だ けでな く,品 質 を担保す るため のモ ニ タ リング活動 に も貢献 でき るチ ャ ンスが広 が って い る.近 年 ,臨 床試 験 の被験者 保護 ,デ ー タの 品質 向上・ 効 率化 を 目的 と して ,中 央 モ ニ タ リン グが注 目され てい る。 中央 モ ニ タ リン グで は,リ ス ク に基 づ くモ ニ タ リン グ(RBM)へ の 関 心 が 高 ま って い るが ,一 方 で ,統 計 学 的手法 を活 用 した Central S●tistical Monitoring(CSM)も 提案 され てお り,JMP Clinicalな どのツール に実装 され てい る。しか し,SAS プ ロ グラ ム コー ドが示 され た CSM実 装例 の報告 は ,ま だ少 な い よ うで あ る。そ こで ,本 稿 では,CSM の 実装 を検討 してい る SASユ ー ザ ー を主対象 と して ,ル P Clinicalを お手本 と した SASプ ロ グラ ミング に よる CSM実 装例 を紹介す る.本 稿 が ,貴 組織 の CSM導 入 の一助 になれ ば幸 いで あ る . キ ー ワー ド :中 央 モ ニ タ リ ン グ ,Risk Bascd Monitoring,Ccntral Statistical Monitormg,JMP Clinical,ICH E6(R2), ODS Staistical Graphics, SGPANEL, SGPLOT 1.背 景 と 目的 臨床試 験 にお い て ,被 験者 の保護 ,デ ー タ の 品質 向上 と効 率化 の ため ,中 央 モ ニ タ リング に注 目が集 まっ て い る.ICH E6(R2)[1]で は ,「 中央 モ ニ タ リングは ,累 積 す るデ ー タの時宜 にか な った遠 隔 的 な評価 で あ り , 適 切 な資格 を有 し,教 育 を受 けた者 (デ ー タマネ ー ジ ャ ー ,生 物 統計学者 等 )に 補 助 され る .」 と定義 され て い る.ま た ,試 験 の性 質 に応 じて ,従 来 の施設訪 間 に よ るオ ンサイ トモ ニ タ リングや 中央 モ ニ タ リングな ど,柔 軟 にモ ニ タ リング戦略 を選択 す る こ とが推奨 され て い る。EDCの 普及 に伴 い ,よ リリアル タイ ム にデ ー タ を入 手す る こ とが可能 にな り,中 央 モ ニ タ リングが 実施 しやす い 環境 に な ってい る こ とも指 摘 され てい る . ま た ,本 邦 にお いて ,治 験以外 の 臨床 研 究 で も中央 モ ニ タ リングヘ の 注 目が集 まるもの と思 われ る.2018 年 4月 に臨床研 究法 [2]が 施行 され ,(1)製 薬 企 業か ら資金 提 供 を受 けて実施 され る臨床研 究 ,(2)未 承認 ・未適 251
応 の 医薬 品な どに関す る臨床研 究 を 「特 定 臨床研 究」 と位 置付 け,モ ニ タ リン グや 監査 が 義務付 け られ るこ とに な った。 他 に も,中 央 モ ニ タ リングに注 目が集 ま ってい る背 景 と して ,従 来 の施設訪 間 に よるオ ンサイ トモニ タ リ ン グ及 び SDVに つ い て ,そ の コス トに効 果 が 見合 って い な い との指摘 もあげ られ る。つ ま り,オ ンサイ トモ ニ タ リング及び SDVの コス トは ,治 験 の コス トの 17〜 25%を 占める との報 告 [3]が あ る一 方 で ,TransCclcmte Blopharma lnc.が 53の 治 験依頼者 か ら収集 した 1168の 治験 (PI〜 PIV)を 対象 に行 った調査 で は ,SDVに よつて 修 正 され たデ ー タが全 デ ー タに 占め る割 合 の 中央値 は 1.1%と 報告 され てい る[4].ま た ,SDVで は原 資料 か ら CRFへ の転記 エ ラー は見 つ け られ るが ,原 資料 そ の もの に含 まれ るエ ラー は見 つ け られ な い との指摘 もあ る[5]. 中央 モ ニ タ リン グで は , リス クに基 づ くモ ニ タ リング(RBM)へ の 関心が高 ま ってい るが ,一 方 で ,統 計学 的 手法 を活用 した Ccntral Statistical Monitonng(CSM)も 提 案 され てい る[6].CSMは ,収 集 され たデ ー タに統計 学 的手 法 を用 いて ,施 設 間(あ るい は国 ,医 師 な ど)の デ ー タ を比較す るこ とで ,系 統 的 なエ ラー が発 生 してい る こ とが疑 われ る施 設 ,ま たはデ ー タのね つ 造 。改 ざん等 の 不正 が疑 われ る施設 を特定す る もので あ る。 CSMは ,JMP Clinical等 の ツール に実装 され てい るが [7,8],SASプ ログラ ミングに よる実装例 の報告 は ま だ少 な い よ うで あ る。 一 方 で ,SAS V9.2以 降 の ODS Statistical Grtthicsの 登 場 。充実 に よつて ,SASプ ロ グ ラ ミングによる CSM実 装 のハ ー ドル は確 実 に下が ってい る , . そ こで ,本 稿 では ,CSMの 実装 を検 討 して い る SASユ ー ザ ー を主対象 に ,CSMの 概 要 を説 明 し,JMP Clinical をお 手本 と した SASプ ロ グラ ミングで の 実装例 を示す こ と と した .臨 床試験 に携 わ る SASユ ー ザ ー に とって CSMの 導入 は,新 た な貢 献 のチ ャ ンスで あ るこ とを伝 えた い , . 2. Central Statistical Monitoring (CSM) L iJ CSMは ,収 集 され た デ ー タに統計学 的手法 を用 いて ,施 設 間(あ るいは 国 ,医 師 な ど)の デ ー タを比較す る こ とで ,系 統的 なエ ラー が発 生 してい る こ とが疑 われ る施 設 ,ま た はデ ー タのね つ 造 。改 ざん等 の不正 が疑 われ る施 設 を特定す る もので ある.施 設訪 間 が必 要 なオ ンサ イ トモ ニ タ リン グ よ りも低 コス トで 実施 で き る 点 が魅 力 で ある。CSMの 詳細 は ,Oba[9]や Venet[10]を 参 照 い ただ きた い . 本 章 で は ,CSMの 概 要 について説 明す る。 まず ,CSMが どの よ うな考 え方 に基 づ いて 実施 され るのか を 説 明 し, どの よ うなチ ェ ックがで きるのか 事例 を紹介 す る.ま た ,RBMと CSMの 違 い につ い て簡 単 に触れ る .そ の 後 ,CSMの 性 能 評価 を行 った論 文 ,関 連す る規 制 文 書 につ いて紹 介す る .そ れ か ら,CSMの 課題 に つ い て 言及す る.最 後 に ,SASプ ロ グラ ミン グに よる実 装例 調 査 の結果 を報 告す る . 2■ .CSMの ベ ー ス にある考 え方 CSMは 以 下 の よ うな考 え方 に基 づ い て ,実 施 され る[10,11]. / 臨床試験 で は共 通 のプ ロ トコル が使 用 され ,参 加 して い るす べ ての施 設 で は ,同 一 の CRFを 用 いて 同 じデ ー タが収 集 され る.し たが って ,各 施 設 は同 じ構 造 の デ ー タを持 つ た め ,デ ー タに系統 的 な問題 が な いの な らば ,デ ー タベ ー ス 中 の どの変数 の 分布 も施 設 間で大 き く異 な らないはず で あ る / 多変 量構 造や 変 数 の 時点 間 の 関係 は ,改 ざん 。ね つ 造 に敏感 で あ り,人 間 がその よ うな 関係 を再現す る こ とが難 しい た め ,問 題 があれ ば統計 学 的 なチ ェ ックで見 つ け られ るはず で あ る 252
/ 人 間は乱数 を発 生 させ る のが 苦手 なた め ,改 ざん 。ね つ 造 され たデ ー タは , ラ ンダ ム性 の チ ェ ックで 検 出 で き るはず であ る / デ ー タベ ー ス 中 のす べ て の変数 は ,そ の意 味や重要度 に か か わ らず ,潜 在 的 にデ ー タ品質 を示 す もの で あ る.必 ず しも RBMの よ うに リス クに関連す る変数 に 限 定す る必要 は な く,あ らゆる変 数 を用 い てチ ェ ックを行 って も よい 2.2.CSMに よるチ ェ ック事例 Obaは ,表 1の よ うに CSMで 実施 可能 なチ ェ ックを分類 し,ま とめてい る[9] 表 1.CSMに よるチ ェ ック事 例 あ る時点 にお ける 要約統計量 ,ヒ ス トグラム,幹 葉 図 ,箱 ひ げ図 ,分 割 表 ,散 布 図,Inlierと Outlier 変数 (単 変量/多 変 量)の 分布 繰 り返 し測 定値 の分布 要約 統計量 ,経 時推 移 図 ,Parallel coordinatc plot 数 値 の 好 み (Digit 要約 統計量 ,分 割 表 ,Volcano plot, ヒス トグラム ,棒 グラフ,Mosaic Plot PretrCnCe) 来 院 の タイ ミング 欠 測デ ー タ 有 害事象 の発 現率 *Oba[9]の Tあ le2を 筆者 が翻 訳 した 2.3.RBMと CSMの 違 い RBMも CSMも 中央 モ ニ タ リ ン グの実 施 形 態 で あ り,デ ー タ に 基 づ い て 介 入 が 必 要 と思 われ る施 設 を特 定 す る点 で は 同 じだ が ,検 出 した い エ ラー や 検 出方 法 が 異 な る .両 者 の 違 い に つ い て ,Bwse[12],Oba[9], Williams[13]を 参 考 に ,表 2に ま とめた 。 Buyseは 「CSMは RBMを 補 完 し,サ ポ ー トす る もの で あ る」 と述 べ て い る。 表 2.RBMと CSMの 比 較 検出 被験者保護や試 験結 果 の信頼性 に影 響 を及 ぼす した い 重大 なエ ラー ・ ラ ン ダ ム ではない 系 統 的 なエ ラー (分 布 のずれ を生 じる もの) 。デ ー タ の改 ざん 。ね つ 造 な どの不 正 エフ 特定 の 閾値 を超 える 他 の施設 と比較 して異 なるデー タパ ター ンを 検出 Key Risk lndicators(KRIs)が 方法 施設 がないか確 認 す る 示 す施設 がないか確認 す る 利点 ・ 重 要 な リス クの発 現 が 疑 われ る施 設 に ・ KRIsの よ うな事前 の 閾値設定が不要 ・ KRIs以 外 のデー タ も利用 した評価 がで きる リソー ス を配 分 で き る ・ 当該施設 に十分 なデ ー タ数 が あれ ば評価 可能 (他 施設 の状況 に依 存 しない) 253
制限 KRIsで は検 出が難 しい タイプのエ ラー がある 施設 間 の比 較 が で き るだ けのデ ー タ量 が必 要 (不 正 な ど) 2.4.CSMの 性 能評価 TransCclcrate Biopharma lnc.は ,ア メ リカ の 178施 設 1554症 例 の被験者 が参加 した COPDの 臨床試験 の 固 定済みデ ー タベ ー ス を用 いて ,CSMの 性能評価 を行 ってい る[14].す なわ ち ,CSMの 性能評 価 の た め,COPD の 専門医に よって ,デ ー タベ ー ス 中 の 7施 設 43症 例 の被 験者 デ ー タ(呼 吸機 能 。バ イ タルサ イ ン)に 対 して 改 ざんを加 えた 。そ して ,こ の 改 ざん を含 むデ ー タベ ー スか ら,以 下 の規模 及 び進捗状況 の 異 な る 4試 験分 の デ ー タを作成 し,そ のデ ー タ を独 立 した解析 セ ンター ヘ 送付 した。解析 セ ン ター は ,改 ざん の あ る施設及 び 被 験者 を CSMに よって特定 を試 み た。 1.Studヲ A:小 規模試 験 か つ 試 験途 中 (61施 設 ,338被 験者 ,1施 設 あた り 19被 験 者 ) 1‐ 2.Smdヲ :小 規模試 験 か つ 試験完 了 (61施 設 ,627被 験者 ,1施 設 あた り 32被 験 者 3.StudylA:大 規模試 験 か つ 試験途 中 (178施 設 ,824被 験者 ,1施 設 あた り 1‑19被 験 者 4.Studyl :大 規模試 験 かつ試 験完 了 (178施 設 ,1554被 験者 ,1施 設 あた り 1‑32被 験者 1‐ ) ) ) そ の結果 ,小 規模 試験 かつ試 験 途 中 を想 定 した Study2Aを 除 いて ,CSMは ,施 設 レベ ル 及 び被 験者 レベ ル の 改 ざんの両方 で ,感 度及 び特 異度 がそれ ぞれ 70%を 超 え る良好 な結 果 で あ った。Smdy2Aで は ,施 設 レベ ル の感度 が 43%(3施 設/7施 設 ),特 異度 が 85%(46施 設 /54施 設 )で あ った .ま た ,4試 験 とも,施 設 レベ ル 及 び被験者 レベ ル の 改 ざん の 両方 で ,CSMが 改 ざん な しと判 断 した施 設 及 び被 験者 が,本 当に改 ざんがない施 設 及び被 験者 で あ る確 率 Ncgativc Prcdictive Valueは それ ぞれ 90%を 超 えて い た . 2.5.規 制 関連 文書 にお け る CSM 複数 の規制 関連 文書 で ,CSMと い う文言 こそ登 場 しない が ,中 央 モ ニ タ リングにお ける CSMへ の期待 が 読 み とるこ とが で き る。 ICH E6(R2)[1]で は ,中 央 モ ニ タ リングにお いて ,統 計 的解析 を用 い る こ とが推奨 され てい る。 中央モニ タ リングか ら累積す るデ ー タの評価 は,統 計的解析 を含 め,以 下の通 り利 用す る事ができる . (a)欠 測,不 整合 ,外 れ値 ,予 想外 の変動 の欠如及び治験実施計画書か らの逸脱 を特定 . (b)治 験実施 医療機 関内及び施設間にお けるデー タの範囲及 び一 貫性や変動な ど,デ ー タの傾向を検討 . (c)治 験実施 医療機 関内も しくは施設 間におけるデ ー タ収集及び報告の体系的 も しくは重大な過誤 ;ま たはデ ー タ操作の 疑 い もしくはデ ー タの完全性の問題 を示す可能性 を評価 (d)治 験実施医療機 関 の特性及び性能指標 を分析 . . (c)オ ンサイ トモニ タ リング実施対象 の治験実施 医療機 関及び (又 は)プ ロセス を選択 254 .
FDAガ イ ダ ンス 「Oversight of Clinical lnvestigations一 A Risk― Bascd Approach to Monitoring」 モ ニ タ リン グにお け る統 計 的解 析 へ の 言 及 が あ る [15]で も,中 央 . lDConduct statistical analyses to identifu data trends not easily detected by onsite monitoring, such as I I Standard checks ofrange, consistency, and completeness ofdata Checks for unusual distribution ofdata within and between study sites, such as too little variance (翻 訳 ) ●オ ンサイ トモ ニ タ リングでは容易に検 出 され ないデー タ傾 向を特定す るための統計的解析 を実施す る ■ 範囲,一 貫性 ,デ ー タの完備性 の標準的なチ ェ ック ■ 施設 内及び施設 間 のデー タの異常な分布 のチェ ック,あ ま りに も小 さい分散な ど 同 じく EMAの 「Renection paper on risk bascd quality managemcntin clinical trialS」 グ に お け る統 計 的解 析 へ の 言 及 が あ る [16]で も,中 央 モ ニ タ リン . The lack ofvariability in data can also trigger further monitoring, e.g. one digit preference for blood pressure measurements in hlpertension trials. There is potential to develop central monitoring systems using statistical methodology to monitor the quality ofthe trial conduct and data, with regular metrics reports and records produced that demonstrate the checks/activities that are being undertaken and that they are compliant with the defined monitoring strategy and procedures. This could lead to targeted on-site visits to address the issues that such visits are better placed to detect. (翻 訳 ) デ ー タのば らつ きの不足 もまた, さらな るモニ タ リングの契機 とな りうる,例 えば,高 血圧 の臨床試験 で ,血 圧 の Digit prcttcnce(特 定 の桁 の数値 の好み)の チ ェ ックがある . 統計学的手法を活用 した ,試験 の実施状況 とデー タの品質 を監視す るための中央モ ニ タ リングのシステ ム を開発す ること も考 え られ る.シ ステ ムか らは,チ ェ ック/活 動が実施 されて い るこ とを示す とともに ,そ れ らが規定 され たモ ニ タ リン グ戦略や手順に合致 してい ることを示す 定期的なメ トリクスの レポー トと記録が作成 され る.こ れは ,直 接訪間によっ て検 出す るのに適 してい る問題 に対処す る うえで,タ ー ゲ ッ トを絞 ったオンサイ トモ ニ タ リングにつ なが るであろ う . 2.6.CSMの 課 題 Vcnetは ,CSMの 主 な 4つ の課題 を挙 げて い る[10]. 1.施 設 間 の 症例 登録 の タイ ミングの違 い 施設 ご とに立 ち上 げ の タイ ミングが異 な り,さ らに症 例 登録 のペ ー ス も異 な る.し た が つ て ,特 に試 験 の早期 で は ,CSMに よる施設 間 の比 較 がで きな い 可 能性 がある . 2.デ ー タ量 の 不 足 CSMの 統 計解析 は ,十 分 なデ ー タ量 が ある ときのみ ,情 報 をもた らす (inお rmttive)が ,試 験 開始直後 は十分 なデ ー タが な い。また ,特 定 の疾患領域や 効 能 (indicatlon)で は ,1施 設 あた りの 症 例 数 が少 ない 場合 もあ り,問 題 が あ る施設 を検 出で きな い 可能 性 が あ る . 255
3.ク リーニ ング未 完 了デ ー タの利 用 実施 中の試 験デ ー タには ,タ イ プ ミスや 単位 の誤 りな どが含 まれ る。 これ らの エ ラー は ,デ ー タマ ネ ー ジ ャー に よって検 出 され ,訂 正 され るが ,CSMは ク リー ニ ングの完 了 を待 つ こ とはで きな い .そ の よ うなデ ー タの エ ラー は ,デ ー タ品 質 にお ける施 設 の パ フ ォーマ ンス を示 す か も しれ な い が ,時 に ノ イ ズ となって真 の シグナル を隠 して しま うこともあ る . 4.施 設 間 の 系統 的 な差 多施設共 同試験 では ,被 験者集 団 の 社 会経 済的な違 い や ,国 家 間 の 民族 。文化 的な差等 に よって施 設 間 の違 いが観 測 され る こ とが よ くあ る.典 型 的な例 は ,ア ジア , ヨー ロ ッパ ,北 ア メ リカ を含 む試験 で起 きるで あ ろ う身長 や体重 の 分布 の違 いで あ る.中 央 モ ニ タ リングシ ス テ ムは,そ の よ うな系統的 な差 を調整 で きな けれ ばな らな い . 2.7.SASプ ロ グ ラ ミング に よ る CSM実 装 例 調 査 CSMの SASに よる実 装例 を調 査 した 。そ の結果 ,JMP Clinicalに よる報告 は散 見 され たが ,SASプ ロ グラ ム コー ドが示 され た実 装例 は ,1報 [13]だ け しか 見 つ け られ なか った。 調 査 方 法 は,海 外 の SASユ ー ザ ー 会や PhUSEの イベ ン ト資料 が ま とめ られ た Lex Jansenの Wcbサ イ ト[17] に て ,表 3に 示す キー ワー ドでサイ ト内検 索 を行 い ,ヒ ッ トした文献 につ い て , 1報 ず つ 内容 を確認 した . 下 記 の 条件 に全 て該 当す るもの を SASに よる CSM実 装例 と した 。 / 臨床試験 の 品質 管理 に関連 してい る / SASプ ロ グラ ム コー ドが示 され てい る(一 部 で も可 / 単 な る KRIs評 価 で はない ,2.2章 で 紹介 した よ うな解 析 手法 が適用 され て い る ) た だ し,同 一の報告 で プ レゼ ンテー シ ョン資料 と論文 が ヒ ッ トした場合 は ,併 せ て 1報 と して集 計 した 表 3に 検 索 に用 いた キ ー ワー ドと ヒ ッ トした文献数 を示 す . 表 3.検 索 キー ワー ドと ヒ ッ ト数 "Statistical Monitoring" 13 "Risk Based Monitoring" AND Statistical 37 "Digit Preference" ‖ Fraud Detection"AND‖ Clinical Trial" "Central Monitoring" 36 11 (2018年 7月 1日 調 査 ) 256 .
3.SASに よ る Central Statistical MOnitOringの 実 装 本 章では ,SASプ ログラ ミン グに よる CSMの 実装 方 法 を紹介す る。まず ,最 初 にお手 本 と した JMP Clinical につ いて簡 単 に説 明す る。そ して ,SASに よる実装 を容 易 に して くれ る ODS Sは istical GrThicsに つ いて 紹 介 す る.そ の後 ,筆 者 が作成 した CSMス ター ター プ ロ グ ラ ム につ いて 説 明す る。なお ,統 計解析 ソフ トRで の 実装事例及 び プ ロ グラム は Kirkwood[18]を 参 照 い た だ きた い . 3.1.JMP Clinicalと は JMP Clinicalは ,SAS社 製 の デ ー タ可視化 ツール で あ り,プ ロ グラ ミン グな しで多種 多様 な レポー トを作 成 で き る[19].入 力 と して ,CDISC標 準 の SDTM,ADaM形 式 のデ ー タセ ッ トを用意す れ ば ,予 めプ リセ ッ ト され た様 々 な レポー トが利 用 で き る。それ らの レポー トには ,RBMや CSMに 関連す る も の も含 まれ てお り , 実施 事例 も報 告 され てい る[7,20]. 図 1.JMP Clinicalの レポー ト例 [7] ,@e*&AseJIidw ﹄ メ 粋赫﹄ 機﹄v 響澤︼い︒︸彎﹄摯編 ︐ 一 一 辮 ・ 赫 轡 一 誓 一 蝉 棘 織 一 赫 録 場 ﹄ 嬌 線﹄﹄一螂一続 鷺 臨 摯 蛹 蜀 鰤 ﹄ ︸ 機 毯 継 織秘 感納鑑議摯薇爾難棗撼轡ヽ簿岬薇粋落腱 慟檄鰺燕篠艤脇緊撃轡糠蕎鷺﹄畿議 ■1轟 1麟 ̲=:=│■ ■│ 麺菫:::懸=・ 懇 !毬 轟薙 (左 :RBMの ダ ッ シ ュ ボ ー ド,右 :CSM:Digit Prctrenccの レポ ー ト) 3.2.ODS Stttistical Graphicsと は SASに よる CSM実 装 を容易 に して くれ る ODS SLtistical Grtthicsに つ いて簡 単に説 明す る.SAS 9.2に て , 正 規版 の機 能 と して ODS Grtthicsス テ ー トメ ン トが提 供 され ,数 多 くの 分析 プ ロシ ジ ャにお いて静 的 な画像 フ ァイル を作成 す るこ とが可能 とな った .あ わせ て ,SGPLOT,SGPANEL,SGSCATTER,SGRENDERの 4 つ の SGプ ロ シジ ャが追加 され た [21].な かで も,分 類 変数 を基準 に して ,様 々 な タイ プ の グラフをパ ネ ル 状 に出力で き る SGPANELプ ロ シ ジ ャは[22],施 設 別 のデ ー タ分布 を比 較 す る CSMで は ,大 変有用 で あ る 257 .
図 2.SGPANELプ ロ シ ジ ャのサ ンプル コー ドと出力 例 [22]
0● 麟 麟
proc sgpanel data=sashelp.heart noautolegend;
",,鮨
11,0● 111晴 ●t,t● ,
title "Cholesterol Distribution in Heart Study'';
panelby sex;
histogram cholesterol;
density cholesterol;
run;
3.3ス ター タープ ログラムの紹介
JMP Clinicalに 実装 され て い る CSM機 能 の一 部 をお手本 として ,SASプ ロ グ ラ ミングに よ り実装 した .作
成 したプ ロ グラ ム は,ス ター ター プ ログラム と して公 開す る。実装 した JMP Clinicalの
CSM機 能 とス ター タ
ー プ ロ グ ラ ム猛 の対応 を表 4に 示す 。なお ,各 プ ログラムは,SDTMを 入 カ デ ー タ と してい る。 また ,各 プ
ログラム は容 易 に内容 が理 解 で き る よ うにエ ラー 処理 等 は省 略 してい る.プ ロ グ ラムの動 作確認 は SAS 9.4
TSlM3で 行 っ た。図 3に サ ンプル デ ー タに ス タ ー ター プ ログラム を適 用 した 際 の 出力例 とそ の解 釈例 を示す 。
表 4.JMPの CSM機 能 (一 部 )と ス ター ター プ ロ グラムの 対応
Weekdays and
来院 日やデー タ収集 日が休 日に偏 ってい る施設がないか
holidays
確認
Birthday and Initials
Constant Findings
weekdays.sas
DM,SV
重複登録 が 疑 われ る被 験者 が い な いか確認
birthdav.sas
DM
複 数 の 来 院 間 において 検 査値 が不変 で あ る被 験者 がい な
constant.sas
DM, VS-'
duplicate.sas
DM, VS-'
digitjreference.sas
DM, VS-'
multivariate.sas
DM, VS-'
いか確 認
Duplicate Records
同一施 設 内又 は同一被 験者 に関連す る複数 の検 査値 (例
えば拡 張期 血圧 と収縮 期 血圧 )の 重複 が な い か確 認
Digit Preference
検査値 の 特 定桁 の数値 の 出現傾 向が異 な る施設 が ないか
確認
Multivariate Inliers
複数 の 変数 か ら変数 間 の 相 関 を考慮 した マハ ラ ノ ビス距
and C)utliers
離 を算 出 し,Inlierと Outlicrが な いか確認
Summary Statistics
検査値 の 要約 統計量 が他 施 設 と異 な る施設 が な いか確認
surnmary.sas
DM, VS-1
Finding Time Trends
検 査値 の 経 時推移 が特異 な傾 向を示す施設 や被 験者 が い
time_trends.sas
DM, VS-'
schedule.sas
DM,SV
ac ratc.sas
DM,AE
な いか確 認
Perfect Scheduled
来院 日(Study day)の パ タ ー ンが他施設 と異 な る施 設 がな
Attendance
いか確認
(Kirkwood[18])
有 害事象 の 報告 が過大 ま た は過少 な施設 が な いか確認
*1:プ ログラムの理解 を容易にす るため,汎 用的な VSド メイ ンを使用 したが
ADaM(BDS)等 に も応用可能である
258
,LB,EG,PEな どの Findingsド メインや
図 3.ス ター タープ ログラム に よる出力例 とその解釈例
weekday. sas a fr h
Itlt Ef))
SITE】
Dご との 分 布 :W==К OAY
m
躙呂圏躙
口
目
目m
曰
鑢
闇
轟
満蠍
圏翻
翻
議圏
風
晨森 遍
i爾
電 ヽ
h`
ヽ
̲
ウト
国爾圏 囲圏
│:::::薇
ll1l
Fl l
ll口
日11日 ││
1111 111:│111
ちちヽ句%令 ち ヽ名ヽ毎えら
ちを%%今 ち
Mosaic plot(左 )は ,横 軸 が SITEID,縦 軸 が来 院 日の 曜 日割 合 ,タ イル の 面積 が頻度 の 大 き さを示す
ヒス トグラム(右 )は ,施 設別 に,曜 日別 の 来院頻度 を示 して い る
.
SITEID=11で は ,土 日の 来院割合 が ,他 の 施設 と比較 して ,多 い こ とが分 か る
.
digit-preference .sas O ff
fi ff{1-51j1
∞
∞
0
¨
日
0
轟
島鳳 ユ
轟 通
e*J-d-g* 鰺 轟 .̲量脇
…
∞
0
│
∞
∞
":
="1
I r-r 目
…
\Sre.d!o
":
̀0
麒
機
r rL. r 11-
漉肇織
一黒 棒
│:鵞 :":書
1,,F
0
驚,轟
轟
鰺 1
ヽ鋼薇
,r
鰺
L̲塾
ユ
鑢 範 量 鑢 申 轟 .韓 臨 議
」ι■』
LL墨 週饉
υヽ
ST.OG「
D
│.,「 口
■ NOTュ TE口 ,「 t
v01canO p10t(左 )は ,横 軸 が最 下位桁 (0‑9)の 出現割合 の 差 (当 該施設 ‐それ 以外 の施設 )の 最 大値 ,縦 軸 が 当該
施 設 とそれ以外 の施 設 の最 下位桁 の数 値 の 出現頻度 を検 定 したp値 を■ogloo値 )に 変換 した値 で あ る。
検 定 はFREQプ ロシ ジ ャ で下表の よ うな 2× 10の 分割 表 を施設 別 に作 成 し,TABLEス テ ー トメ ン トにCMH
SCORES=MODRIDITオ プシ ョンを指 定 し,Stmdadizcd Miむ ank Scoresを 用 い た [7,23].
最 下位 桁
当該 施設
#
それ 以外
ヒス トグ ラ ム (右 )は ,施 設 別 に ,当 該 施 設 とそ れ 以外 の 施 設 の 最 下位 桁 (0‑9)の 出現 割 合 を示 して い る
.
v01canO p10t(左 )の DIABPパ ネ ル (左 上 )で 外 れ 値 とな っ て い る SITEID=11に つ い て ,ヒ ス トグ ラ ム (右 )を 確 認
259
す る と,0の 出現割 合 が ,そ れ以外 の施 設 よ り大 きい こ とが 分 か る
.
なお ,こ こでは ,検 査 別 に評 価 した結果 を示 してい るが ,例 えば ,施 設 あた りの 症例数 が少 な い 場 合 は,デ
ー タ数 を増やす た め ,拡 張期 血圧 と収縮 期 血圧 をま とめ て評 価 す る工夫 も考 え られ る。
multivariate.sas A fr h $[
!6dldr eh&&
:.
・ 鶴。
∫
.・
︱︱ 巫舅蝠 晰 一
輻絋 m・⁝⁝・
︲
一
¨
檜鉤 一 ・
一一¨
⁚⁚︱ ︐
靡 颯鰈塚鰈 ⁚
隆隕鮨︱︲
︱〜
li
l l ⁝ 饉 獲甲
1
・
ユ■■〒
1 隋 躊隕隕隕鱚 鰈颯颯鰈 ・
II II 蝙趙隧鮨︱
o
l山■目T上
TIII■一
菫■甲︱︱■
く
ヽ
・
■⁚︐
︐山 国 目 回 国T⁝ ⁝⁝﹂
ふ
一
抒
笙
豊一
ヽ
薔
一
︒
骰・
場慶撫露
麒
露鶴輻
′′
瑯
鑽.
・´
L
.・
,
鼈
SitE ldcntiti6r
Dislancs
︱徊軋 笏
︻
斃
纂
⑮
膠
│
・摯
′警
Mahalanobis
一
.饒 一
写・
颯
︼
・
♂麟醸気
L:鼈
O$!!,& &blob
一
M
影は一
鷺・
.
︵
kbrsl.k*S*leH*
(- g))
散布 図行 列 (左 )は ,マ ハ ラ ノ ビス距離 の 算 出 に用 いた複 数 の ベ ー ス ライ ン変数 の 散布 図及 び ヒス トグラム を
示 して い る。
箱 ひ げ図(右 )は ,施 設 別 のマ ハ ラノ ビス距 離 の分布 を示 して い る.SITEID=22で Omicrが 見受 け られ る。ま
た ,SITEID=004は 他 の 施 設 と比較 して ,ば らつ きが小 さい 点 が注 目され る
time_trends. sa s a fr h lfrl
.
(- *$)
鑢 ボ 棄 諄 鍼 謬
>
V崚 峰
1飩
Ⅲ
■ 掟6'轟 織 線″
――鮮 ‑01‑‐
‑11‑ま
ヽ■滋 瀞 ヽわ勝 群
餞 ‐ へ ̲轟 夢
,
‑3,―
―
'2‑,3‑辟
‐―
,9
経 時推 移 図(左 )は ,横 軸 が VISIT,縦 軸 が 検査 値 の平均値 で あ り,一 本 の線 が 1施 設 に該 当す る .特 徴 的な推
移 を示 す施設 は見受 け られ な い .Paralcl Coordinatc Plot(右 )は ,横 軸 が標 準偏 差 ,縦 軸 が検 査 項 目で あ り,1
本 の 線 が 1被 験者 に該 当す る.SYSBPで SITEID=12,SITEID=19に 変動 が大 き い被 験者 がい る こ とが分 か る
.
施 設 別 に被 験者別 の推 移 図 も出力 され る の で確認 した ところ ,外 れ値 と思 われ る検 査値 が あ った 。
ま た ,Para■ cl CoOrdinatc P10t(右 )か ら,他 の施 設 と比較 して ,各 被験者 の検 査値 の 変動 が小 さす ぎ る と思われ
る施 設 は見受 け られ な い .一 方で ,TEMP(体 温 )は ,他 の 検 査 項 目よ り変動 が小 さいた め,施 設 別 の違 いが よ
く分 か らな い .こ うい った場合 は,標 準偏 差 ではな く変動係 数 を用 いた方 が 良 い か も しれ な い
260
.
ae_rate. sas A fr h Fl(- *{.) ″ '‐ S● ● Ⅲl‐ ,● ,い 曖 W● ●賤′ 熊 聰 .AE Tot6l AE OI Rate (N Ewnts Pntishtweke) │ 玲 ● 艤 鬱 ''¬ │ ● i o.2o 01 000 s ● 9 │■ ,,■ ,,い10鮭 ̲=● B ●● ● ,=● ̲=■ 0■ ●●●■̲,■ ●■, │ blc plot(左 )は ,横 軸 が施 設 あた りの症例数 ,縦 軸 が AEの 発 現 率 (発 現例数 /投 与期 間(週 )),バ ブル の 大 き さが施設 の投与期 間(週 )((最 終投与 日 ―初 回投与 日)÷ 7)を 示 す .要 約表 (右 )は ,プ ロ ッ トデ ー タ を リス ト 化 した ものであ る。SITEID=02は ,AEは 1件 だが ,症 例 が 2例 と少 な い た め,発 現 率 が高 く評価 され て い る こ とが分 か る . (な お ,各 ス ター ター プ ロ グ ラ ム では ,症 例数 が一定 数以下 の施 設 を除外指 定で き る よ うに してい る.) 一 方 で ,SITEID=04は ,症 例 17例 の うち ,5例 5件 の AEが 発 生 してい る。 この施 設 に さらな るモ ニ タ リン グを要す るか ど うかは ,発 生 してい る AEの 重 要度 ,他 施設 との比 較 ,疾 患領域 ,RBMの KRIsの 指標 等 を 考慮 して 検討 す るこ とにな る と思 われ る . 4.考 察 規 制 当局 に も CSMを 活 用す る動 きが あ る.既 に FDAは 査察対 象 とな る施設 を選 定す るにあた って ,CSM の 手法 を活用 してい る[24].つ ま り,査 察 を効 果 的・効 率的 に行 うた め に ,申 請者 か ら提 出 され た治験 デ ー タ に対 して ,監 査 的 に CSMを 適 用 してい る。また ,FDAは ,2016年 に ,CSMの Cloud Systcmを 提供す る ClucPoints 社 と共 同研 究 の契約 を結 ん で い る[25].FDAと 同様 な考 え方 に立 て ば ,臨 床試験 の ス ポ ンサーが 品質保 証 と して 自 ら監査 を行 う際 も,CSMが 有効活 用 で き る と考 える。 Obaは ,CSMを 実践す るにあた って ,統 計 学的手法 の 可能性 と役 割 につ いて ,専 門性 ・ 役割 の 異 な る関係 者 (治 験依頼者 。医師 。 デ ー タ マ ネ ジ ャー・モ ニ ター・生物統 計家 )で 共 有す る ことの重 要性 を指摘 してい る[9]. CSMを 自組 織 に紹介・ 提案 す る際 には,実 施 中又 は過 去の臨床 試 験 デ ー タに対 して ,CSMに よる解 析 結 果 を提 示 す るこ とが ,CSM理 解 の一 助 にな る と考 え る.ま た ,JMP Clinicalな どの ツール 導入 を検討 す る際 に も,ま ず は SASで の解 析結 果 を示 す こ とが ,CSMに 対す る理解 を促 進 して くれ るだ ろ う . JMP Clinicalで は実装 され て い るが ,本 ス ター ター プ ログラ ム で は ,残 念 なが ら実 装 で きなか った 重 要 な機 能 が 2つ あ る.1)着 目す べ き施設 のデ ー タを ドリル ダ ウンに よ り,被 験者 レベ ル まで追跡 で きる機 能 ,2)前 回 の CSMの 解析結果 との差分 を特 定 で きる Sn shot機 能 であ る。 これ らの機 能 は ,複 数 の 関係者 が 出席 す る 261
CSMレ ビュー の場 にお いて ,大 変 有 用 だ と思われ る.1)に つ いて は ,一 定 の基 準 を満 た した要 注 ロデ ー タの
リス テ ィ ング を出力す るプ ロ グラ ムの 追加 作成 ,2)に つ い ては ,フ ァイ ル 比較 ツール を利 用す る こ とで ,あ
る程度 は対応 で き る と考 え る
.
CSMの 実践 に あた っては ,ツ ー ル や プ ログラム以外 に ,プ ロセ ス も検 討 す る必要 があ る。例 えば ,ど の タ
イ ミングで ,ど の よ うな CSMチ ェ ックを実施す るのか ,CSMへ の入 力 とな るデ ー タの 品質 を どの よ うに担
保 す るのか ,CSMの 解 析結果 を どの よ うな専門性 ・ 役 割 を持 ったチー ム で解 釈す るのか ,そ して ,CSMで
エ ラーが 見 つ か った 場合 ,ど の よ うな ア クシ ョンを とる のか ,CSMに 関連 す る一 連 の作業 の 記録 を どう残 す
のか 等 で あ る。そ して ,そ れ らは ,SOPや モニ タ リング計画書 に反 映す る必 要 があ るだ ろ う
.
CDISC標 準 が ,私 た ち SASユ ー ザ ー が プ ロ グラ ム を共 有す る際 に ,共 通 のデ ー タ構造 と して も有効利用 で
き ることが分 か った .今 回 の ス ター ター プ ログラ ム は ,CDISC標 準 の SDTMを 入 カデ ー タ と して想 定 してい
る.SDTMを 利 用す る こ とで ,サ ンプル プ ロ グラ ム が どの よ うなデ ー タ(変 数 ・構 造)を 入 力 と して必要 とし
てい るか理解 しや す くな る と考 えた た めで ある.自 社 の EDCデ ー タに対応 した プ ログラム に書 き変 える際 に
も,そ うい った標 準 が な い場合 よ りは ,ス ムー ズ に対応 で き るで あろ う
.
5.ま とめ
今 後 ,中 央 モ ニ タ リングの普及 に よ り,RBMと 共 に注 目され てい く と思 われ る CSMの 概 要 に つい て説 明
し,JMP Clinicalに 実装 され てい る CSM機 能 の一 部 を ,SASプ ロ グラ ミン グで実装 した.ODS Sttistical
Graphicsの 登場・ 充 実 に よ り,SASで も簡 単に CSMが 実装 で きる こ とを示 した。作成 した プ ロ グラムは,ス
ター ター プ ログ ラ ム と して ,SASユ ー ザ ー 総会 サイ トで公 開す る.本 稿 が ,貴 組織 の CSM導 入 の一助 にな
れ ば幸 いで あ る
.
連絡先 :yttl山 興2」ta@■ 1219胆 重■山 重里≦
基
≧
艶
̀と
6.参 考文献
[1].ICH Harmoniscd Tripanite Guideline.Guideline for Good Clinical Practicc E6(R2)Integratd
Addendum,NOvcmbcr 2016<L雙 主〃里wwttmd̀L殷 」ゴ:量 L立
lと 1重 生
墜:≦ :ユ 」
レ
上△壁豆 望ユ 並 Sユ 量 聾輩迎 m里 墾 」ユ塁型 >
[2].厚 生 労働 省 .臨 床 研 究 法 に つ い て く興藝塾 亜 鯉・里blL毀̀X2Ω
[3].U.S.Dcpa貢 mc■ ofHcalth and Human SeⅣ ices.Examin江 lo■ ofCInical Trial Costs and Baricrsね r Drug
Development(2014)<h■ ps://aSpp.量 lDS40V/rcp理 立軽.銀 mlユ 笙⊇n‐ clinical― trlal― QQStS― 塁ld― barlers― dru&:devclopmcnl:>
.Evalutting Source Dtta Verinc威 lon as a Quality Control Mcasure in Clinical
[4].Nicole S,Brett W,Joannc B,α α′
Trials.Thcrapcutic lnnovation&,Regulatory Scicncc.2014;48(6)671‑680.
[5].George S.:Data Fraud in Clinical Trials.Clin lnvestig(Lond).2015;5(2):161‑173.
.The role ofbiostatistics in thc prcvcntion,dctection and treatrnent of iaud in
[6].Buysc M,Gcorgc SL,Evans S,ι ′α′
clinical ttials.Stat Med.1999;18(24):3435‑51.
[7].Zink R.Risk― Based Monitoring and Fraud De∝ ction in Clinical Trials Using JMIP① and SAS① .2014
[8].SAS Institutc lnc.Onlinc Documcntationお r JMiP① Chnical.
<hl艶 :̀/11ntilЩ ≧
里坐生clp/=璽 量里ュ」立量IWw壼 :heb.Lm>
≦
2Qlll△ ■
二
L生 lΩ
kと ad望 ![塾 ⊆
星C6と 二 製迎EШ五埜ュ∠
1コ 2≦ ≧
=⊇
Q‐
[9].Oba K.Statistical challenges fOr centtal inOnitoring in clinical trials:a revie、
21(1):28‑37.
262
v.Int J Clin Oncol.2016 Fcb;
[10]
Venct I),:Doffagne E,Burzyko、 ′
ski T,ι ′α′
.A statistical approach to central monitoring ofdata quality in
[11]
Timmermans C,Dofね gnc E,Vcnct D,ι ′α′S●tistical monitoring ofdata quality and consistcncy in thc
[12]
Stomach Canccr AdJuvant Miulti‐ institutional Trial Group Trial.Gastric Cancer.2016;19(1):24‐ 30.
Buyse M.Centralized Statistical Monibring As a Way to lmprove the Quality ofClinical Data.Applicd Clinical
・
「 rials.Mar 24,2014.
ials.Clin Trials.2012;9(6):705‐ 13.
clinical
<httュ //WWW.appllCdCliュ iCaltrialSOnlinC.C01=CCntraliZCd―
[13]
StatiStiCal― mQ■ lt011■
&Wi型 ■■⊇ ⊇ VC」 uali笙 ―CliniCal― dtta>
Laura W,Giulia Z.A statistics‐ based tool to infornl risk‐ based inonitoring approachcs.PhUSE US Conncct,
Ralcigh 2018.
<h襲 :ぬ堅 璽上 :壺 !墨 鯉 巫 塑 奎 1型:愛:墨 2:選 :堕 lД:■ 1■ :運 lp
[14]
David K,Annc S.,Gaurav S,ι ′α′
.Statistical Monitonng in Clinical Trials:Bcst Practiccs foriDctccting Data
Anomalies Suggestive ofFabrication or Misconduct.Thcrapeutic lnnovation&Regulatory Science.2016;50(2)
[15]
US Food and Drug Adininistration.Guidance R)r lndustry:Oversight ofClinical lnvestigations―
144‑154.
Approachedわ Monitoring,August 2013<虹 鯉
A Risk― Bascd
L重 :L曇 重lo、〜nloads′ DnttGllldそ 型 :ユ』
〔:ユ 12褒 !11独 ゴ>
[16]
Europcan Mcdicincs Agcncy.l■ cncction papcr on ̀zII】
risk bascd quality lmanagcment in clinical trials.2011.
くhttp:Z===.Qtta.Q旦 Op笙£υd≦ xS∠ Q聖」⊆Ettdg曼 里ncニ ユ量Itty全 塁丞狙山匡と摯」山山曼2Q里 ム墨△狙QttQ旦 ■1=2⊇コレ
[17]
Lex Jansen's websit<塁 匹 :/ル ww」 Q」 ansen.com>
Kirkwood A,Cox T,Hackshaw A.Application of methodsお r central stttistical monitoring in clinical trials.
Clin TriaL 2013;o783‐ 806.<■ programs ac ttailめ lc at:1」 :ユ生型 :旦 」塾 」=壺[昼lttTr二 1童 1聖 =墨]饉 :>
[18]
[19]
[20]
SAS Institutc lnc.JM:P① Clinical Fact Sheet.
<https://w=w」 聾2com/conteュ ヱda聾 』夏攣
>
umcnis4ゴ ェI丘 ェ笙Q:趣耳:昼 』Ш亜£」堕山Щ:墨:地 ‐
ュlca15 2:pttE口 │工 娘:襲滋コ輿迦〔
ムJMP Clinicalを 用 い るた め の 情 報 の整 理 ― セ ン トラル モ ニ タ リ
福 升 悠 一 ,藤 田 侑 子 ,畑 山 知 慶 ,α α
̀d∝
ン グ で の 活 用 を 目指 して 一 .JMP Discovcry Summit 2017
1塑 ュ
笙と望堅坐Z:ュ ̀螢 茎ovOttia2⊆ ■∞産 璽/19′ l∠ D41u:⊆ liFuku璽 奎updp
]さ 坐:≧ :Z重 型聾
=饉ュ∞型
̀堅
SAS Institute Japan K11.SAS
̀墨
Technical NeⅥ 7s 2009 sunllner.
<1」12,セ Zg£ 堅
コ
⊆
ュ:二 虹
[21]
<h:筆 :左
[22]
=w墜
望聾 Qm/Qf重≦
迷≧
墾壁lL:pa二 重≦
Z12F型
>
s∠ コ」
1ュ 螢至∠
1£ 【
12壁 旦.2」 」
塑二LQ」 L⊆ 星」
」壼
=」
SAS Institutc lnc.SAS Hclp Ccntcr SAS 9.4 0DS
Grtthics Procedurcs Guidc,6th editio■
<1■ 2//dQttmCnta」 ⊆墨釜£
ヨ 」 :g止褒狐 望望坐 皇」 CVerSlQュ
』重生並 墾 o」 生
ュ
望堕⊇壺璽 堅 sCtTarm
3
4
=2∠
=ニ
̀塑 :上 堕墾菫整曇
>
θ」
≦[Qコ 厘:.重 」
mL 巡上堅
=塑Analysis Using SAS,Third Edition.2012.
Maura S,Charles D,Gary K.Catcgorical Data
Paul S.Assuring Data lntcgrity and Dtta Quality in Sponsor Submissions.PhUSE US Conncct,Ralcigh 2018.
Qttg≧
:Ω
5
<h国 塁X」 //ヽ VWiWユeXianSl:旦 Q」 1212」 ユSQI」 ユ
∠
21:Ll.8生 g∠ 塁」
GL」 =2」 p̀lf>
=£
̀n∠
CluePoints lnc.FDA Signs Agreement
with ClucPoints to Explorc a Dtta‐
=L≦
p≦≧
in CliniCal TrialS.<1」 基≧
2を生
≧
lu≦ ≧
塾埜L≦ 塾
QI12■la【 )>
(す べての URLは ,2018年 7月 10日 にアクセスを確認 した.)
263
Driven Approach to Quality Ovcrsight
品質管理 を 目的 とした CDISC成 果物情報 の一元管理 のための技術的考察 ○ 山崎 彰子、長谷 和彦 (株 式会社 日本科学技術研修所 ) CDISC関 連 の 成 果物 は 、XPT,PDF,XML等 の 様 々 な形 式 の フ ァイ ル が あ る。 これ らの 情 報 を一 元 管 理 し、 品 質 を維 持 す る こ とを 目的 に、 各 フ ァイ ル 形 式 にお け るデ ー タ の 取 り扱 い 方 法 を検 討 した 。 本 報 告 で は 、Annotated CRF(以 下 aCRF)と deine.xmlに つ い て の 考 察 を報 告 す る。 XML Mapperを 使用 したXMLフ ァイルの制御 とデー タの利用 XML(E対 ensible Mttkup Lmguage)は 、 「テ キス トデ ー タ」 と 「属性」 を持 つ 「要素」 か ら成 る木 構造 の デ ー タ形式であ り、「Xpath」 に よ り階層 の位置 を特定す る。XMLV2(XML LIBNAME Engine) は、MAPフ ァイル を参照 し、XMLと SASを 相 互 に変換す るSASの 機能 である。 しか し、 自動 マ ップ によ リイ ンポー トされ たデ ー タセ ッ トで は要素間の紐付 けが煩雑 だった り、エ クスポー トできるデ ー タセ ッ トは 1つ のみだ った り、 とい う制 限 がある。そ のた め、使用 目的 に応 じて独 自のMAPフ ァ イル の 作成 を検討 した。 1)SASデ ー タセ ッ トと相 互 変換す る場合 XMLV2に よる相互変 換 が可能なXML構 造 を紹介す る。PDFの 注釈情報 を格納す るXFDFフ ァイ ル にお いて は、構造 を制御 す ることによ りXMLV2を 介 しての相 互 変換 が可 能 であ り、 また、プ ロ グ ラム的 に非表示 の情報 を付加 す る ことがで きる。 2)XMLフ ァイ ルの参照 の み を 目的 とす る場合 複数 の 要素 を 1つ のデ ー タセ ッ トに格納 す る、上位 階層 のOID(Objcct ldentineぅ の格納、異なる Xpathの 同名 要素につ いて デ ー タセ ッ ト名 を変更、 マー ジ用 に変数定義 を変 更す るな どが挙 げ られ る。弊社 での活用方法 を紹介す る。 aCRFの 注釈 。日次 。しお りの作成 と検証方 法 aCRFは 既存 のPDF(Po■ あ le Document Format)に 注釈 。日次 。しお りを追加 して作成す る。プ ロ グ ラム で 作成 。検証 を行 うには、PDFに つ いて技術的知識 が必 要 なため、SASに よる開発 を 目標 に検 討 した 内容 を紹介す る。 1)XMLV2 2)ODS PDFと PROC ODSTEXT PROC ODSTEXTは リス ト表 記 の 出力 が で き るプ ロ シ ジ ャ で あ り、 文 字 に リン クや 書 式 を設 定 す る こ とが 可 能 で あ る。 ODS PDFを 併 せ て 使 用 す る こ とで 、 リン ク付 き の 目次 を作成 で き る。 3)Javascriptお r Acroba API PDFフ ァイ ル そ の も の を プ ロ グラ ム 的 に制 御 す るに は 、 ア ドビシ ス テ ム ズ が提 供 して い るSDKを 介 す る必 要 が あ る。今 回 は 、Exccl VBAに よ るAPIを 使 用 した PDFの しお りを作 成 す る方 法 を紹 介 す る。 264
SAS Viyaの CNNを 活 用 した Process lnnovttion 〜機械 は解析 図表 をどう見て い るのか〜 o本 国亮 ,平 野勝也 ,北 西 由武 (塩 野義製薬 解析 セ ン ター ) Process lnnovation Making IJse ofCNlヾ by SAS Viya 〜How docs the Machinc cognize Analytic TLF(Tablc,Listing,Figure)?〜 Ryo Kiguchi,Katsunan Hirano,Yoshitakc Kitanishi SH10NOGI&CO.,LTD. 0.要 旨 2010年 頃 か ら始 まった 第 3次 AIブ ー ム は今 なお続 いてい るが , このブー ムの 牽 引役 は,機 械 学 習や Deep Leaming,強 化学習 な どが代表例 として挙 げ られ る。 これ らの 技術 の 中で も,画 像デ ー タの解 析 を 得意 とす る Cowol血 onal Ncural Nc節 o量 (CNN)は ,大 きなイ ノベ ー シ ョン技術 の 1つ と言 え るだ ろ う . 従来 の SAS製 品で CNNを 実装す るには ,デ ー タ収 集や デ ー タ加 工 ,ア ル ゴ リズ ム のプ ログラ ミン グな ど,多 くの ク リアす べ き課題 が あ り,実 装 には大 きな労力 を要 した 。 しか しなが ら,2016年 4月 の SAS Global Forum 2016で 発 表 され ,同 年 9月 に正 式 に リリース され た SAS Ⅵyaの Pメ honイ ンター フ ェー ス を使 用す る こ とで ,CNNを 簡潔 なプ ロ グラ ム で容易 に実装す る こ とが可能 にな った 。本発表 で は ,SAS Institutc Jttanが 公 開 してい るプ ログラム を利 用 した CNNの 解 析 事 例 を紹介 しな が ら,SAS Viyaが 提 供 す る ヒー トマ ップ による解 析 結果 の考察 を行 う.解 析事例 と して ,弊 社 が開発 した SASプ ログラ ム 準 自 動 生成 システ ム ̀AI SAS PЮ grammer'の 一 部 と して構 成 され る 「図表 計画書 の解 析 」を紹介す る .CNN を通 じて ,機 械 が どこに注 目 して ど う判 断 したか を解釈す る こ とで ,CNNは Process lnnovationを 起 こ す起爆剤 にな るこ とを理 解 して頂 くと同時 に,CNNの 可能性 を体感 して頂 きた い 。 +-7* I-": SASViya, CNN, Plthon, AI 1.は じめに 1950〜 60年 代 の第 1次 AIブ ー ム ,1980年 代 の 第 2次 AIブ ー ム を経 て ,現 在 2010年 頃 か ら始 ま っ た第 3次 AIブ ー ムの真 つ只 中で あ る.各 ブー ム にお ける主要 な解析 アプ ロー チを表 1に ま とめた。表 1に 示 した よ うに第 3次 AIブ ー ムの 牽 引役 は ,機 械 学 習 (Machinc Lcaming)や 深層 学 習 (Dccp Lcaming),強 化学 習 (Reinお rcement Leaming)が 代表例 で あ る。 これ らの技術 の 中 で も,画 像 デ ー タの解析 を得 意 と す る Convolutional Neuml Network(以 降 ,CNN)は ,世 界 に大 きなイ ンパ ク トを もた ら したイ ノベ ー シ ョ ン技術 の 1つ と言 えるだ ろ う.CNNは ,言 葉 の 通 りNeural Network(以 降,NN)に Convol血 on(畳 み込 267
表 1:各 ブー ム にお け る主要 な解析 アプ ロー チ 第 1次 AIブ ー ム (1950〜 60年 代) 探索及び推論 第 2次 AIブ ー ム (1980年 代 ) 知的表現 第 3次 Alブ ー ム (2010年 代 ) 機械学習 ,深 層学習 ,強 化学習 み)を 追加 した もので NNを ベ ー ス に した手法で あ る●NNの 歴史 は古 く,1943年 に W.McCullochと W Pitsが 原型 とな るモ デル を発 表 したのが始 ま りで あ る.CNNは 画像 デ ー タ解析 に長 けて い るため , 医療業界 で も画像 診 断等 の様 々 な場面 で活用 で き るだ ろ う.た だ ,従 来 の SAS製 品で CNNを 実装す る には,デ ー タ収 集 やデ ー タ加 工 ,ア ル ゴ リズムの プ ロ グラ ミングな ど,多 くの ク リアす べ き課 題 があ り , 実装 には大 きな労力 を要 した 。例 えば,CNNを 拡 張 した Dcep Lcamingの 話題 であ るが ,小 野潔 ,松 澤 一徳 (2015)[1]が 報告 した SAS vcr9.4の High― Pcrわ rmanccプ ロシジ ャを用 いた Dccp Lcamingの 実装では , NMISTか ら取得 した手書き文字 の画像デー タを使用 していたが,解 析 にあた り,画 像デ ー タを 28× 28の ピ クセルに分解 し,グ レースケール ア ウ トしてか ら 784(=28× 28)次 元 の特徴 ベ ク トル に変換 した SASデ ー タ セ ッ トを作成 している.デ ー タ加 工の労力は重 い印象で,か つ解析 したい画像 が NMISTの よ うに容易に取得 できる場合は限 られて い ると思われ , 目的に合わせた 自由な CNNの 実装 にはハー ドルは高 い 印象 を受けた . しか しなが ら,2016年 4月 の SAS Global Forum 2016で 発 表 され ,同 年 9月 に正式 に リリーース された SAS Viyaの PythOnイ ンター フェー ス を使用す るこ とで ,画 像読込み か ら CNNモ デ ル の構 築 。学習 ,モ デ ル の評価 まで を簡潔 なプ ログ ラ ム で容 易 に実 装す るこ とが可能 になった。本 論 文 では ,ま ず ,CNNに つ い て解説 を行 う。そ の後 ,SAS Japanが 公 開 してい るプ ロ グ ラム(https:乃 10gs.sas.cO″ cOntc /21/sas― viya̲d lpy1/,ht"s:/ん logs.sas.corゴ co sasjttaゴ 2018/05 cnttasJapaゴ 2018/05/21/sas‐ viya― dl̲ml」 ntcrprct誠 lon/)を 利用 して,Image― net(mp://www.imagc‐ nc■ or助 か らダ ウン ロー ドしたテ ン トウムシ と猫 の 画像 に対す る CNNの 解析 事例 をプ ログラ ム と併せ て紹介す る。 また ,同 時 に,SAS Ⅵpが 提供す る ヒー トマ ップに よる解析結果 の 考察 を行 う。そ して ,最 後 に,弊 社 が 開発 した SASプ ロ グラム準 自動 生成 システム AI SAS PЮ grammer"に 搭載 され る CNNを 用 い た図表計画 書 の解析 事例 を紹介す る。 2.NNと CNN CNNは ,何 段 もの層 を持 つ NNで あ り,特 に画像認識 の 分野 にお け る強力 な解析 ツール の 1つ である 本 章では,CNNを 理解す るに あた り,NNと CNNの 違 いの解説 か ら行 う.そ の後 ,CNNの 詳細 な解説 を行 うこ とにす る。なお ,本 章 は参考文献 [2]〜 [5]を 参 考 に して作成 してい る。 . 2.1.NNと CNNの 違 い 与えられた画像 の図形が 「○」か 「×」 かを判定す る簡単な処理 を例に NNと CNNの 違 い を見てい く。まずは NNの 処理を考える.NNは ,画 像 を 1ピ クセル 単位 で 見る解析 であ り,1ピ クセルが 1入 力に対応 している (図 1参 照).28× 28の 画像であれば,入 カサイ ズ は 784と なる.図 1で は,「 ○」の 黒線部分 の 1ピ クセルを 1入 力 として読み込んで い る様子を示 しているが,図 2に 示す よ うに同じ「○」 であっても,画 像内における 「○」の位置 が少 しズ レるだけでも,判 定に大きな影響があることが分か 268
/1ヽ ヽノ 図2 く 図 1 D 鎌 「○」 の 黒 部 分 を入力す る概 念 図 「○」 の位 置 の違 い に よる入 力 へ の 影響 ││ Iフ 1 │ヽ 〆一 T ││ 〆 量み込み 図 3 4× 4の フ ィルタでス ライ ド2の 場合 の畳 み 込みの概念図 る。 しか しなが ら,い ずれ の 図 (4× 4)も 右 上 か ら左 下にか けて黒 "と い う傾 向 は共通 してお り,2 つ を全 く異 な る とす るの は不都合 で あ る.そ こで ,あ る程度 の領 域 を入力 とす る こ とで画像 の傾 向 を掴 む , とい う考 えに基 づ いた解 析 が ,次 に解説す る CNNで ある。「○ 」 の画像か ら切 り取 った 8× 8の 画 像 (図 3の 上段 の 図)で の処理 を例 として解説す る.画 像 上 に フ ィル タ"と 呼 ばれ る小 領域 (図 3内 で は太枠 の 4× 4エ リア)を 抽 出 し,こ の小領域 の 情 報 を 1つ の特 徴 量 として評 価 し,情 報 を圧縮 す る。 この処理 を 2ピ クセル ず つ ス ライ ドさせ なが ら繰 り返 し行 い ,作 成 され た 3× 3の 行 列 が ,8× 8の 情 報 が畳 み込 まれ て 作 成 され た「畳 み込 み層 」と呼ばれ るデ ー タであ る .CNNは フ ィル タ を活 用す るこ とで , 画像 の傾 向 (特 徴 )を 掴む こ とが可能 にな り,そ れ が NNと の大 き な違 いで ある。 2.2.CNNを 理解す る CNNは ,2.1章 で示 した 「畳み込み層」の他 にも特 徴的な機能 を持 った層 から構 成 され る.CNNの 概要図を図 4に 示す .以 下に,主 な層 (レ イヤー)を 記載す し,各 レイヤーについ て解説を行 う . 0 畳 み 込 み 層 ● プー リン グ層 (P001ing lwer) (COnV01面 Onal layer) 269
轟力 腐 ダンゴムシ カマキリ 図 4 CNNの 概要図 ● 全 結 合 層 (Fully Connected lay→ 0 出力 層 (Outp■ layeう また ,詳 細 な説 明は割愛す るが ,NN(CNN)で は予測精度 向上 のた め,あ る レイヤ ーが ひ とつ 前 の レイ ヤー に対 して ,重 み の誤差 を フ ィー ドバ ックす る仕組 み を持 ってい る。 これ をバ ックプ ロパ ゲー シ ョン (誤 差逆伝 播 )と 呼ぶ .単 に図 4に 示 した処理 を 1回 行 うので はな く,誤 差 を フ ィー ドバ ックす ることで , モ デル の 精度 を向上 させ る こ とがで きる.こ こで ,バ ックプ ロパ ゲー シ ョンで用 い られ るバ ッチ とエ ポ ックの 用 語解説 を してお く。 バ ッチ 学習デ ー タのサブセ ッ ト.バ ッチ に含 まれ るデ ー タでモデル 内の重み ※が一度更新 され る.バ ッチに 含めるデ ー タの個数 をバ ッチサイ ズ とい う エ ポ ック ※ 複数回 のバ ッチ実行 を行 い ,全 学習デー タを用いてモデルの重み を更新す る単位 の こと.例 えば , 学習デ ー タが 1000個 ある場合 ,バ ッチサイ ズ を 100に 設定す る と,10回 のバ ッチ(10回 重みを更 新)で 全学習デー タが 1回 利用 され た時点で,エ ポ ックは 1と なる ※重みは 2.2.1.以 降の解説を参照 2.2.1.畳 み 込 み層 2.1.章 で も畳み込み層 の例 を示 したが ,実 際 の畳 み込み層 には ,畳 み込み演算 を行 う多数 の フ ィル タ があ る .こ こでは,畳 み込 み演算 が どの よ うに行 われ てい るか を説 明す る.図 5は ,「 ○」 の画像 を中 央 上 部 に示 す フ ィル タを用 い て畳 み込 み処 理 した結 果 を示 してい る。9× 9の 画像 につい て 1ピ クセル ず つ 上 下 左 右 に フ ィル タを ス ライ ドさせ なが ら畳 み込む処理 を行 う。9× 9の 画像 は 自黒 の 画像 (0/1画 像 ) で ,‑1か 1の 値 を各 ピ クセ ル に付 与 してお り,例 えば,9× 9の 画像 の太枠 内 (左 上 の 3× 3の 領域)と フ ィル タ の各要素 の掛 け算 の和 (3)を ピクセ ル 数 (9)で 割 った値 が ,9× 9の 画像 の太枠 内 の情報 を畳 み込 ん だ値 (033)に な る。1に 近 い ほ ど一 致 度 が高 く,‑1に 近 い ほ ど不 一 致 とな る.こ の 計算 をス ライ ドさせ な が ら全て の領域 で行 った結果 が ,図 5の 右 下 に示す 畳み込 み計算結果 で あ る。 これ は特徴 マ ッ プ とも呼 ばれ る.実 際 には ,図 6(左 )に よ うに ,多 数 の フ ィル タを用 いて 畳 み込み を行 う.も し読み込 む画像 が カ ラー画像 (RGB画 像 ,RGB… 色 の 表現法 の一 種 で ,赤 ,緑 ,青 の 3つ の原 色 を混ぜ て幅広 い色 を再 現す る加法混合 の一 種 )の 場合 ,赤 ,緑 ,青 の 3つ の画像 (3チ ャ ンネ ル )に 分解 して処理す る 為 ,処 理 は 3倍 にな る。 したが って,通 常 の 写真 を判 定 には ,相 当な フ ィル タ数や 層 の 深 さが必要 にな り,計 算 量 が膨大 にな る こ とは容 易 に想 像 で き るだ ろ う.そ の た め計 算 処理 を軽減 す る こ とが重要 で , CNNで は以 下に示す 正 規化 線 形 ユニ ッ ト (RcLU:Rect亜 ed Lincar Units)と い う活性化 関数 を利用す る。 270
‐1 ‐1 ‐1 …1 ‑1 1 …1 …1 ‐1 ‐1 ‐1 1 1 1 ‐1 ‑1 ‑1 ‐1 ‐1 ‐1 ‐1 ‐1 ‑1 ‑1 ‐1 ‐1 ‐1 ‑1 ‑1 ‑1 ‐1 …1 ‐1 ‐1 ‑1 …1 ‐1 1 ‐1 ‐1 ‐1 ‐1 ‐1 ‐1 ‐1 ‐1 ‐1 1 1 …1 … 1 ‐1 ‐1 ピクセル数 ←9) ‐1 ‐1 ‐1 ‐1 編 =コ 再編議 ‐1 1 6つ 一 致 .3つ 不 …敷 フィルタ ‐1 ‐t 9X9の「0」 の画像 量み込み請糠結果 (特 徴マップ ) 図5 「○」の画像 の 特徴 マ ップ の例 鷺大艤螢磯確 躙 ド 麗 ‑ 図6 涸 「○」 の 画像 に適用 した 3フ ィル タの特徴 マ ップ (左 )と プ ー リン グ層 の凝縮 処 理 (右 ) χ (χ ≧ 0) √(χ )= { 01(χ く(0) 畳 み 込 み計算結果 のマ イナ ス数値 は 一 致 度 が低 い た め ,割 り切 って 0と 見 なす処理 を行 つて い る.こ の RcLUを 使 用す る こ とで ,学 習速度 が 6倍 程度高速化 した と言 われ る。 この処理 は図 4に お け る正規化 ス テ ップ に相 当す る . 271
2.2.2.プ ー リン グ層 プー リング層 では ,畳 み込み層 か ら得 た特 徴 マ ップ を基 に ,重 要 な情報 を残 しなが ら元 の 画像 を縮小 す る .4つ の ピクセル を 1ピ クセル に凝縮 す る例 を図 6(右 )で 説 明す る.特 徴 マ ップ毎 に ,左 上 か ら順 番 に 4ピ クセルず つ 抽 出 し,そ の 中 の最 大値 を代表値 と して選択 し,プ ー リン グ され た画 像 に 1ピ クセ ル でセ ッ トしてい く.左 上 か ら 4マ ス ず つ 抽 出す るた め ,図 6の 例 の よ うに ,特 徴 マ ップが 奇数 の場合 , 最後 が重 複す るので 注 意 され たい .プ ー リン グ され た画 像 を見れ ば,元 画像 の特徴 を持 ちな が ら,4分 の 1の サイ ズ に凝縮 され てい る様子 が伺 え る.こ のプー リング され た画 像 は ,次 の畳み込み 層 の入力画 像 にな り,前 の層 とは別 の新 たなフ ィル タ と比較 され る .こ のプー リングで は ,特 徴 を残 しつつ 情報 を 削減 してい るが,こ れ は 次元 の 呪 い "を 回避 す るた め の 次元 削除 と捉 え る事 もで きる.加 えて ,プ ー リン グで は,特 徴 の位 置感 度 を低 下 させ る こ とで,位 置 に 対す る ロバス ト性 を高 め るこ とが で きる。つ ま り,プ ー リング処理 す る ことに よっ て ,画 像 の位 置 が ズ レた り,回 転 して い て も,そ れ らの違 い を吸 収 して ほぼ同 じ特徴 量 を出力す るこ とが 出来 る.特 徴 を抽 出 して圧 縮 し,特 徴 を抽 出 して圧 縮 し,と い う処 理 を繰 り返 して ,計 算 処理 を効 率 的 に行 い なが ら.情 報 の純度 を上 げ るのが CNNで あ る。 2.2.3.全 結合層 全結 合層 を解説す る前 に,畳 み込み層が,全 結合ではな く,非 全結合で処理 していることを示す 葬全緩奮 全議金 図 5の 一 部 を再掲 し, ノ ー ドで示 し直 した もの が 図 7で あ る 彙み込み驚募餞桑 プ) 01彙 マッ ‐1 ‐1 ‑1 ‐1 ‐1 1 1 1 ‐1 ‑1 1 ‐1 ‐1 ‐1 ‐1 ^1 ‐1 ‐1 ‐1 ‑1 ‐1 ‑1 ‑1 ‐1 ‐1 ‐1 ‐1 ‐1 ・ 1 ‐1 ‑1 1 ‑1 1 ‑1 ‐1 ‐1 ‑1 ‑1 ‐1 ‐1 ‑1 ‐1 ‐1 ‐1 ‑1 ・1 1 1 1 ‐1 ‑1 ‑1 ‐1 ‐1 ‐1 ・ 1 ‐1 ‐1 ‐1 ‑1 ^1 1 ‑1 ‐1 ̀ネ 0.33 0.33 0.33 ‐1 元の画像 元の画像 畳み込み針算機果 特徴マップ 図 7 畳み込み層 の 非全結合 この 図 を見れ ば分 か る通 り,畳 み込み層 で は,隣 り合 う 9マ ス (9ノ ー ド)毎 にず ら しなが ら 3ノ ー ド に結 合 す る非全結合 で処理 を してい る .プ ー リング層 で も同様 に,隣 り合 う 4マ ス (4ノ ー ド)毎 に 1 ノー ドに結合す る非全 結 合 で処理 を行 ってい る.非 全 結 合 は全結合 と比 べ て結 合数 が少 な い ため,パ ラメー タ数 を減 らす こ とがで き,そ れ に よつて計算 時 間 を大幅 に削減 で き る。畳 み込 み層 ,プ ー リン グ 272
盪 上理 襲慮 壺灘澄 ■ ■謝 置 0.9, 「0」 と難識 0.07 『 ×」と簿 葛 議 憮 図 8 全結合層 による判 定 層 にお け る工夫 が 分 か るだ ろ う . そ して ,図 8を 用 いて全 結 合層 の解説 を行 う。今 回は 「○」 か 「×」 かの 2択 で あ るので ,出 力層 は 2ノ ー ドで あ る。説 明 を簡 単 にす るた め図 6に 示 したプ ー リン グの 3つ の結 果 を基 に 「o」 か 「×」 を判 定す る とす る。全結合層 で重 要 なのは 「重 み 」 に差 をつ け る こ とである.例 えば,図 9の 中段 のプ ー リング結果 は 「○」 しか な い 特徴 であるので ,「 ○」に対す る重 みが大 き く,上 段 と下段 の プ ー リン グ結 果 は 「○」 に も 「×」 に もあ る特徴 で あ るので重 みが小 さ くす るのが適 切 で あ ろ う.こ の よ うに重 み に基 づ い て ,CNN最 後 の 出力 層 の ノー ドが計 算 され ,「 ○」 か 「×」 かの判 定 を行 うことに な る 2。 . 2.4.出 力層 出力層では,全 結合層 の結果 (こ の節では入力 と呼ぶ)を 用 いて多クラス分類 を行 う。この多 クラス 分類 で一般的に使用 され るのが ,Sottma関 数 と呼ばれ る活性化 関数である。 これ を用 いて 「○」「×」 の判定結果 (そ れぞれ の確率)が 計算 され ,よ り大 きな値にな ったほ うが CNNの 予測結果 となる。 =ゴ ソ ニ 苦 ,0≦ iぉ yt≦ 1,Σ lyt=1 今 回 は 2ク ラス分類 の た め 乃は 出力層 のJ番 目のユニ ッ トの 出力結果 ,Dは 出力層 のユニ ッ ト数 で ある。 , D=2で あ る.α 」(ま た は%)は 全結合 層 の入力 か ら算 出 され た各 ユ ニ ッ トの特徴 量 で ,重 み を付 けた入 カデ ー タ の和 で求 める.具 体 的 に は,全 結合層 にお け るブ番 目の 入 力 を与 ノ番 目の 入 力 に対す るj番 目の ユ ニ ッ トの 重 み を″ とす る と,ι 番 目のユニ ッ トの 特徴量Qは ,α :=Σ w″ で表 され る ″ ブ 均 . 3.SAS Viyaに よ る CNNの 実 装 この 章 で は,2016年 9月 に正 式 に リリー ス され た SAS Ⅵァ の Pメ honイ ン ター フ ェー スか ら実装 可能 な CNNを 用 いて ,Image‐ net(量堕 //www」 m盤主ne■ olゴ )か らダ ウ ン ロー ドしたテ ン トウムシ (1597枚 ) と猫 (792枚 )の 画像 を解析 した 事 例 を紹介 す る .ま た ,SAS Ⅵ yaが 提供す る ヒー トマ ップに よる解 析 結 果 を通 じて ,機 械 が画像 の どこを見 て どの よ うに判 断 してい るか ,な どの解 説 も行 う。 273
3.1.SAS Viyaの Pythonイ ン タ ー フ ェ ー ス を 用 い た CNN実 装 SAS Viyaで は ,SAS以 外 に も SAS Viyaか ら Pメhonや Lua,Rな どの言語 のイ ンター フェー ス を立 ち 上 げて利 用す るこ とがで き,か つ CASと 呼 ばれ る単一 プ ラ ッ トフ ォー ム で全 ての計算処 理 を行 ってい るため ,従 来 は ,例 えば同 じ解 析 を行 って も SASで の解 析結果 と PメhOnの 解 析結果 が 異 な ることが あ ったが ,そ の心 配 が不要 にな ってい る。 今 回解説 す るの は ,SAS Viyaの PメhOnイ ンター フ ェー ス (Jupメ cr notcboooを 用 いた CNNの 実装 であ る.な お ,紹 介 す るプ ログ ラム は,SAS Insthte Japanが 公 開 してい るプ ログ ラ ム をベ ース に して い る (hlm濃盤≧ k≧ 8述【 £⊆ 奎ヒ =:童 https:乃 logssas.cottcontcnt/sasjttan/2018/05/21/saswiya― Q二 童型」 △竪垂L堅 ≧ ュ∠ 2f旦 」 塾21211髪 u盪菫ぅ 曇 =dlpylヱ , dl̲mLintcrprctation)解 析例 と して ,読 み込んだ 画像がテ ン トウム シか猫 か を判 定す るモ デ ル を構 築 し,モ デ ル の検 証 まで を行 った様 子 を示す 。以下 で は,ス テ ップ毎 にプ ロ グラ ム の解説 を行 う . 1】 %lnatplotlib inline 【 Jupメ er notebook内 で画 像 を表示す るた めの設 定 を行 う 【 import swat 2】 sess : swat.CAS("sasviya-address", 234, "user-id", "password") 1 SAS Viyaの 機 能 を Pythonか ら利 用 す るた め の パ ッケ ー ジ swat''を impo■ して ,SAS Ⅵyaの 利 用 環 境 (SAS Ⅵ μ の ア ドレス ,ユ ー ザ ー IDや パ ス ワー ドな ど)を 設 定 し,CASに Pメ honを 接 続 す る .こ れ に よ り,CAS上 で の解 析 が 可 能 に な る 3】 from dlpy.images import ImageTable 【 DLPyパ ッケ ー ジ の imagesモ ジ ュール を ,識 別 子 ImagcTablcで impo■ す る .DLPyパ ッヶ ― ジ は 高 度 な 解 析 を行 う Pメ hon向 け の APIパ ッケ ー ジ で あ り,こ れ を SAS Ⅵ pで 活 用 す る こ とで CNN を効 率 的 に実 装 で き る よ うに な った .こ こで は ,画 像 を読 み 込 む た め の imagcsモ ジ ュー ル を impo■ して い る 4】 img path='ル ar/viya̲d試″imagcl 【 my̲imageS=ImageTable.10ad̲■ lCS(SCSS,ptth=img path) テ ン トウムシ と猫 の 画像 を格納 した フォル ダ の パ ス を指 定 し,SAS Ⅵァ の Pythonイ ンター フェ ー ス に load̲mcs関 数 で画像 をダ ウ ン ロー ドし,my̲lmagesに 格 納す る。 この 時 ,事 前 に画像 デ ー タ を ピ クセル に分 解 す る必要 はな く,通 常 の 」 pg形 式 の画像 フ ァイ ル を読 み込 め るため,デ ー タの収 集 。 加 工のス トレス は大幅 に軽減 され る.実 際 に読 み込 んだデ ー タを my̲images.show(nima ges=4,ncol=4,randomizc=Truc)で 表示 す る と,以 下 の よ うに表示 され る . et LD」 巴 it く た L三 11墜」望1型 型 型 1二 ∠型 ̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲」 画像 デ ー タの ピクセ ル サイ ズ を調整 す る.こ こで は , 224× 224ピ クセル に調整 した 274
6】 from dlpy. spliuing import two_way_split
【
tr_img, te_img
: two_way_split(my_images, test rate:20, seed:l 23)
DLPyパ ッケ ー ジの splmngモ ジ ュール を,識 別 子 two̲way̲splitで impo■ す る.こ のモ ジュー
ル を用い て ,格 納 され たデ ー タを学 習デ ー タ とテ ス トデ ー タに分 け る。ここでは ,テ ス トデ ー タ
が全デ ー タの 20%に なるよ うに ラ ンダ ムサ ンプ リン グ してい る。
7】 tr
【
ortput_heighF224 )
学習デー タの水増 しを行 う.こ こではデー タ数 を 4倍 に している.こ の処理によ り,学 習デー
タは約 1900枚 か ら約 7600枚 に増 える
8】
from dlpy import Model, Sequential
【
from dlpy.layers import *
from dlpy.applications import *
91か らの CNNの モデル構築に必要なモジュール を impo純 する
【
【
9】
modcll=Sequcntial(scss,modcl̲table='CNN samplc programl)
モデ ル 作成 の 宣言 をす る
10】 model l.add(Inputlayer(3, 224, 224, offsets:tr img.channel_means))
【
入力層を追加す る.224× 224ピ クセルの学習デ ー タを入力す るが ,今 回はカラー 画像 (RGB
画像)の ため,3チ ャンネル を指定する.白 黒画像 な らば,1チ ャ ンネル とする
11】 modcll.add(Conv2d(8,7))
【
里⊇二亘̲1■ 」d(P00塾 ュ【の■̲
畳み込み層 (フ ィル タ 8枚 ,カ ー ネ ル サイ ズ 7[フ ィル タのサイ ズ 7])と プー リン グ層 (サ イ ズ
2)を 追加 す る。なお ,畳 み込 み層 では同時 に正 規 化 を行 ってお り,活 性化 関数 はデ フ ォル トと
して ReLUが 適用 され る
【
12】
modell.
d(Conv2d(8,7))
modell.add(Pooling(2))
11】 と同様に,畳 み込み層とプー リング層を追加する
【
【13】 model 1.add(Dense( 1 6))
¬
16ユ ニ ッ ト (ノ ー ド数 16)の 全結 合層 を追加 す る
面両 覇
【 匝≡
I亘 亜亜互
亜≡
≡玉
亜≡
14】
出力層 を追加 す る。テ ン トウム シか猫 かの判別 が 目的 で あるので ,出 力結果 は 2ノ ー ドとす る
活性化 関数 は SoRmax関 数 を用 い る
15】 modell.print_summaryQ
【
モデルの Summawを 表示する.【 91〜 【
14】 で作成 したmodellは 以下となる
I
Layer《 Trtpe,
I Xerne■ S■ 2e i Stride l Activat■ ●ュ │
Soξ tttax
405,?86
k
lTot-a! $lwber of Farareter3:
l
8
■6〉
(■ 6. 2)
8
(25003′
o ■ o
3
一
Output{Output)
l
■
︐
FCl(す 。
C.]
:
62
3● o■ 2(Poo■ )
│
‡2,1コnber o.f Parameters I
o
)
!
■一
22■
1(CC'nVO‐ )
P● 。■1(P。 。■)
α●nV2 ■(CC)nTて ,・
睫恥X﹄ X﹄
節鮭聰鮭転鮭
0● N■
誦■2■2節酌
None
Data(■ nput)
。utput S■ ze
│
275
16】 modell.plor networK) 【 モデルの Summaり をグラフィカルに表示する 含. 高 ヾ晨 ︶ 0日 ∽ ぢ ﹄凛 樹輿日 ■響︶ ︵ 17】 modell.it(data=tr̲img,mini̲b 【 ch̲sizc=3,max̲cpochs=30,lr 5E‑5,log̲lcvcl=3) 学習デ ー タを用 いてモ デ ル を構 築す る。 ここで バ ッチサイ ズ及 び 最 大 エ ポ ック数 を指 定す る 18】 modell.plot_training_history(fig_size:(15, 【 plot̲mining̲histowoメ 6)) ソッ ドで,反 復学習の履歴を表示する 額 * TMry 輔 競 餞 錠 銀 =,0^ modell.predict(te_img) predictoメ ソッ ドで,テ ス トデー タでの予測 (ス コア リング)結 果を表示する §SCOm〕 ImfO Valtie Descr 0 Nulm}ber of10bservations Read 477 Number of Observations Used 477 熙isc!assinc載 lon E「 or(%) 17.19078 2 0.600663 3 Loss Error 20】 model l.plotgedict_res(type:'C', image_id:2) 【 plot」rcdict̲rcsoメ ソッドで,分類結果 を表示する。 tpc='C'と すれば正しく分類 した結果を , tpc=̀M'と すれば誤 って分類 した結果を表示する 276
町軽1ェ t̀:d 鑽 環境設 定か ら CNNの モ デル 構 築・ テ ス ト・検証 とい う一連 の解 析 プ ロセ ス を 30行 未 満 のプ ログ ラ ム で 実行 で きるの は非 常 に魅力 で あ るが ,実 行 時間 を要す る ことに注意 され たい .環 境 に依 存す るが ,約 7000 枚 の 学習デ ー タを用 い た今 回 のモ デ ル 構築 は,層 も画像 も ピ クセル数 も少 なか った た め数十 分 で処理 が 完 了 したが ,画 像 の ピクセル 数 を 500に 変更 しただ けで も処理 時 間 は数倍 にな った .パ ラメー タチ ュー ニ ン グは従来 の CNN実 装 と同様 に根気 が必 要 な タ ス クであ る。 3.2.機 械 が 画 像 の どこを見 て ど う判 断 して い るか CNN,引 いて は Decp Lcamingを 使用する難点 の 1つ に,解 析結果 の解釈 が難 しい点がある。つ ま り , 解析結果 が どの よ うな判断根拠で得 られたかが分 か らず ,判 断プ ロセスがブラックボ ックス化 している ので ある。最近は このブ ラックボ ックス解明のため様 々なアプ ローチがなされてい るが,SAS Viン では , CNNの 判断根拠情報 を ヒー トマ ップ として可視化す ることで,結 果 の解釈 が可能になった。これによ り 機械 が画像 の どこを見て どう判断 しているのか,分 かるよ うにな った。3.1章 の 【 20】 で示 したテン ト , ウムシの画像 を機械が どう見 ているのかを例に解説す る . 3.2.1各 レイヤ ー の 内容 (特 徴 )を 見 る SAS Viyaで は、判断根拠 とな り得 る情報の 1つ として,入 力画像 の どこに着 目した のか を出力 し,確 認できる.DLPyパ ッケージの get̲tamrc̲mapsoメ ソ ッ ドで おamre mapを 取得 し,お aturc̲map.di叩 17() で指定 した レイヤーの内容 をフ ィル タ毎に表示す ることができる。以下,実 行プ ロ グラムである.3.1 201で 示 したテン トウムシの画像に 2層 目と 4層 目の結果 を示 している.層 が深 くなるほど,画 章の 【 像 が粗 くな り,よ り特徴を ピンポイ ン トで捉えるよ うになってい る様子が分かる mOdCll.getiatllrc̲maps(data=te̲img,bわ el=‖ ladybug",image̲id=8) modell■ aturc̲mtts.displaズ layetid=2)#2層 目の 結果 ■ヽ ヽ 1.・ │ . modcll tatuК ̲maps.display(laycr̲ld=4)#4層 目の結 果 ^ ぶ r ︐ ︐ │■ 「 277 ″
3.2.2ヒ ー トマ ップ で機 械 の 視 点 を見 る SAS Vipで は ,CNNの 判 断根拠情報 を可視化 す るこ とで画像 の どこに着 目した の か を ,ヒ ー トマ ッ プ と して 出力 し,確 認 す る こ ともで きる.ヒ ー トマ ップで は ,青 ,緑 ,赤 の濃淡 で判別 に影響 を与 えて い る箇所 を確認 で きる.こ の解析 は ,DLPyパ ッケ ー ジの hcat̲m叩 ̲anaい is()メ ソ ッ ドを使 用すれ ば良 く , 以下 のプ ロ グラムで実装 可能 で あ る.左 図が元 の画像 で ,右 図が ヒー トマ ップで あ り,こ れ らの図 を重 ね合 わせ た ものが 中央 図で あ る。 この結果 を見れ ば ,機 械 がテ ン トウム シ周辺 の情報 に注 目してテ ン ト ウム シか 猫 か を判断 してい る こ とが分 か る。 modell.heat_map_analysis(data:te_img, 理議螢l懸 彎唸:1灘 yttt,,蓄 4加 ヽ r嵯 1議 讐 爾‐ 瞥 感:鋤 議騨 ¨ 聘 一瞳 麟 餞 一 一 ■︱ 一口 ︼ × 一師 ﹇ 日 ¨ 錮 ¨ い 録 一 畿 璽 一 日 0 mask_width:56, mask_height:56, step_sizr9) 笏 以 上 の よ うに ,SAS Viyaの PメhOnイ ン タ ー フ ェー ス に よ る CNNの 実装 は比 較 的容 易 に行 うこ とが で き る.今 回 は SAS Viyaの Pメ hOnイ ン ター フ ェー ス にお け る CNN実 装 を紹 介 した が ,SAS Viyaの SAS smdio イ ン タ ー フ ェー ス で も CNNは 実 装 可 能 で あ り,上 記 と同様 の モ デ ル を SAS studioで 構 築 し実行 す るプ ロ グ ラ ム を Appendixに 載 せ て い る .プ ロ グ ラ ム を比 較 す れ ば ,従 来 の 課 題 で あ っ た デ ー タ収集 や 加 工 の 部 分 は SAS Ⅵ 理 で は SAS″ メhonと もに大 き な負 担 に な らな い が ,モ デ ル の アル ゴ リズ ム のプ ロ グ ラ ミン グ に お い て は ,Pメ honの 方 が簡 潔 で 短 く可 読性 も高 い こ とが分 か るだ ろ う . 4。 CNNに よる「図表計画書の解析」 画像解析 と聞 くと,3章 の解析事例 で紹介 したよ うな,い わゆる写真 を用 いた解析 を想像する人が多 いだろ う.医 療業界における画像解析 も同様で,MRI画 像や眼底写真 ,オ ンコロジーの病理画像 での活 用が進んでい る。しか しなが ら,全 てのデー タは画像にす ることができる。例えば,文 章 もスクリー ン シ ョッ トを取 って,jpgフ ァイルに変換すれ ば,画 像デー タになる。今回私たちが注 目したのは,弊 社 が 臨床試験 の 中で使用 してい る 「図表計画書」 である.臨 床試験では,治 験実施計画書 と呼ばれるもの を 作成 し,詳 細な解析方法を記載 した統計解析計画書 が作成 され る。そ の後 ,図 9に 示 したよ うに具体的 な解析 の 出力結果をイメージ (図 や表)で ま とめた図表計画書を作成す る。この図表計画書には,通 常 数百の背景 。有効性 。安全性 の解析 のイメージが記載 され る。これに基づ き,SASで 解析用 プ ログラム を作成 し,解 析結果を得 る.本 章 で紹介す る CNNの 解析事例 は,こ の 図表計画書を画像デー タに変換 し,CNNで イメージの特徴 に応 じて 5ク ラス に分類 したものである.実 装 プ ログラム はテ ン トウムシ と 猫 の もの と同様であるため割愛す るが,以 下 の点を変更 した .モ デル の Summaryを 図 10に 示す / . 入力画像 のピクセル数 を 400と した。そのため,入 力層は 400× 400に 変更 / 5ク ラスに分類す るため,出 力結果 の ノー ド数 を 5に 変更 図 11に , ヒー トマ ップによる図表計画書 の解析結果 を示 した.非 常に簡素なモデルであ つたが,正 答 278
■由餞 l Dngム と D Bの 厳 ゛ │ FAS̀ 推定値 や Aと Bの 雌 , D菫瑶 A● DrЧ B´ 平均 ゛ ■■●● い ̲や 平均差 ゃ ― 9596f言 1罰 │二 『野゛ 曇 ̲■ Fl重 ・ ,・ ●″ 長 ̲■ ̲ ‐0 回 PL職 壼 lt,蜘 蔵。 図 9図 表計画書 の一 例 ︵い . 繊︶ ゛ ご ●← ¨ ON ∽ 葛 α劇 ︶ S ●^ n ︵ ち 図 10図 表計画書 の解析 のモ デル SumaW 曇 E 醸 簿 に ■一 醸 麗 日 1 ¨ ■ ●r 議一 ︻一●一 流一^・二 ︐ 一●一一 一 ¨ ︐ ¨¨¨一一 一 一 一 一 一 一一 ・ '議 ﹄銀﹄機襲麒樋 儀 夢穆 軸 ︲ ロ μ ﹃ 蝉 鏑 輸 ・Ⅲ I■ ■‐‐ …Ⅲ… t` =:輩 響︱ 軽 鰊諫::量… ・ ︸ 輯 漑 蜀 一 ¨ ︐ 饉が態 (舞 薔 鰻 孵■ 一 弾 一 銀 一 曇 一 一 黎 警 事¨ 瞥 十 一・ 響 ︐ 図 11図 表計画書 の解析結果 (ヒ ー トマ ップ) 率 は約 65%で ,機 械 が どこを見て分類 した のか を考察す る こ とで ,新 たな知 見 の発 見 に繋 げ る こ とがで きて い る .具 体的 には ,弊 社 が 開発 した SASプ ロ グラ ム準 自動 生成 システ ム AI SAS PЮ grammcr"(統 一部 計解 析 計 画書 。図表計 画書 に基 づ いて SASで 作成す る解析 用 プ ロ グラムの準 自動 生成 システ ム )の と して構 成 されてい る。この システ ム が稼働 した こ とで ,33%の タ ス ク減 に繋 が ってお り,大 きな PЮ ccss hnovationの 一 助 と して CNNを 活用 して い る . 279
5。 ま とめ 「図表計画書」 の解 析 を通 じて ,弊 社 にお ける CNNを 用 いた PrOcess lnnOv江 10■ の 事 例 を紹介 した . しか し,CNNの 実装 には難 しさも多 い .例 えば,環 境 に依存す る問題 で あ るが ,処 理時 間 の 問題 がある . テ ン トウムシ と猫 の解 析 は非常 に シ ンプル なモ デ ル で あ ったが完了ま で に数 十分 かか り,ま た,テ ン ト ウム シ と猫 の解析 とモ デル は同様 で あ ったが入力 の ピ クセル数 を増や した (パ ラメー タ数 が 増 えた)図 表 計 画書 の解析 は ,数 日かか つた。 処理 時 間 の 問題 以外 に も,モ デル構 築 (層 の数 な ど)の 検討やパ ラ メー タのチ ュー ニ ングな ど,骨 を折 る作 業 が多 々CNNに はある.こ の難 しさを理解 した 上 で ,CNNの 活 用 を しなけれ ば な らない。 本論 文 にお け る CNN活 用 のポ イ ン トは 「全 てのデ ー タは画像 にす る こ とができる」 とい うことで あ る。今 回 の事例 は ,図 表計画書 を画像 デ ー タ と捉 えた こ とがポイ ン トで あ る.た だ ,CNN活 用 の契機 と な っ たのは,ヒ トが視 覚情報 か らモ ノを捉 え判別 す る よ うに,機 械 も学 習 プ ロセス を通 じて画像 か らモ ノを捉 え判別 す る こ とが可能 とな りつつ あ り,機 械 が人 の発想 とは異 な る判別基準 を生 み 出す可能性 を 秘 めてい る,と 感 じた ことであ る.従 来 の機械 学習 は ,過 学習等 に注意 して パ ラメー タ をチ ューニン グ し,人 の 直感 の よ うな もの を結果 と して 出力す るイ メ ー ジに近かったが ,CNNは ,誤 分 類 率や情報損失 を低 下 させ る よ うにパ ラメー タをチ ュー ニ ング し,機 械 の 直感 の よ うな もの を結果 と して 出力す るイ メ ー ジに近 い。辛抱 強 くパ ラメー タチ ュー ニ ング を行 って得 られた 機械 の 直感 "は ,今 回大 きな PЮ ccss lnnOvaionの 一 翼 を担 っ た . 様 々 な視 点 か ら作成 した画像 デ ー タに対 して CNNを 活用す るこ とで ,Process lmovationを 起 こす こ とは可能 だ。本論 文 が CNNの 可能性 を拡 げ る一 助 に なれ ば幸甚 であ る . 参考文献 [1]小 野潔 ,松 澤 一徳 (2015), SASに よる新 しい大規模統計入門", SASユ ーザー総会 2015 畳み込みニュー ラルネ ッ トワー ク (CNN)", [2]MathWorks, [htOS:巧 p.mathWOrkS.COm/diSCOVCry/COnV01utiOnal― neural― netWOrk■ tml] [3]Qiita, Convolutional Ncural Networkと は何 な の か ",2017 [https://qiita.com/icoxお [4]Course Hero, g417/itms/5fd55ね d152231d706c2] Deep― Lcaming‑2017‐Lccturc5CNN.ppt", 、 v.courschcro.con1/童 lc/27811115/E)cep― Learning‑2017‑Lecturc5 CNNppυ ] [h■ps://、 v、 ′ [5]Systcm lntegrator, 畳み込みニュー ラルネットワーク̲CNN(Vol.16)", [httpsi〃 products.sint.co.jp/aisiaA)log/vo11‐ 16] 280
Appendix
3.1.章 で示 した SAS Viyaの Pメhonイ ン ター フ ェー ス で構 築 した CNNモ デ ル と同様 の モ デ ル を SAS Viya
の SAS studioイ ン タ ー フ ェー ス で 実 装 す るた め の プ ロ グ ラ ム
proc cas:
loadactionset'image';
image.loadlmages / casouF{name:'image_files', replace:l }
p arh:" I v ar I v iy a _data/ image"
recurse= TRUE decode=TRUE labellevels:-2;
image.processlmages / casout= {name:'resized_image', replace=1 }
imageTable: {name='image_fi
les' }
imageFunctions={{functionOptions={functionTlpe="RESIZE", height:2z4,width:224}}\;
shuflle / casout= {name:'resized_shuffl ed', replace:1 }
lalls: {name:'resized_image' } ;
deepl,eam.buildModel /
modelTable: {namr"SAS_TEST", replacrTRUE} typ*"CNN";
deepleam.addlayer /
l ayer {type:" INPUT" nchannels =3 wi dth:224 height:22 4}
modelTable: {name="SAS_TEST" } name:"data";
deepLearn.addLayer /
layer= {type:"CONVO" nFilters=S width:7 height=7}
modelTable-{name:'SAS_TEST"} name:"conv1 " srclayers:{"data"};
deepLearn.addl-ayer
/
layer:{typr"POOL" width:2 height:2 }
modelTable:{name:"SAS_TEST"} name-"pool1 " srclayers:{"conv1 "};
deeplearn.addlayer
/
layer{type:"CONVO" nFilters:8 width:7 height=7}
.od"rtu61":{name:"SAS_TEST"} name:"conv2" srcLayers:{"pootl "} ;
deepLeam.addLayer
/
layer:{type:"POOL" width:2 height:2 }
rnod"rru61e:{name:"SAS_TEST"} name:"poo12" srclayers:{,'conv2"} ;
deepleam.addl,ayer /
layer:{type="OUTPUT" act:'softmax' n:2}
-od"rtu61r{name:"SAS_TEST"} name:"outlayer" srclayers={"poo12"};
deepleam.modellnfo / modelTabls:{1ame:"SAS TEST"i;
deepleam.dlTrain
/
inputs:{ {name="_image_" } }
modelTablF {name:"SAS TEST" }
modelWeights:{name-"SAS TEST_W" replace:TRUE}
1aSIg- {name:"resized-shuffled"
}
optimizer:{ maxepochs:1 miniBatchSize:128};
quit;
281
SAS Viyaに よる意識 改 革 か らみ え た Data Scientistの 生 き方 〜 僕 た ち は ど う生 き る か 〜 o木 口亮 ,北 西 由武 (塩 野義製薬 解析 セ ンター ) 私た ちが考 えるAIは ,認 識 。学習・ 行動 の一 連 のプ ロセ ス を持 ったシステムの こ とで ,人 の活動 を補佐 す るもので あ る.AIで 用 い るデ ー タの種類 は様 々 あ り,文 書や画像 も含 まれ る.ま た ,デ ー タ形式 に よつて認識 ,学 習 ,行 動は異な るが ,い ずれ の デ ー タ形式 にお いて もイ ノベ ー シ ョンを 目 的 とした ,デ ー タ収集 ,管 理 ,ア ー カイブ化す るデ ー タガバ ナ ンスは極 めて重要 な ものである.し か しなが ら,従 来 のSAS製 品では,Wordフ ァイル や PDFフ ァイ ル のデ ー タを扱 うことは困難 であ り また画像 デ ー タを解析 目的 に合わせ てア ー カイブ化す るこ とは煩雑 で ,デ ー タ形式 に依存 しないデ , ー タガ バ ナ ンスは大 きな課題 の 1つ であつた . この 問題解決 にあた り,SAS Viyaを 活用 した。具体的 には ,SAS Viyaの 特徴 であ る,CASと 呼ば れ る単一 プ ラ ッ トフ ォー ム でデ ー タを一 元管理 しガバ ナ ンス を強化 できる点 とSAS以 外 のPythonや Lua,Rな どの言語 が利 用 可能 な点 を活 か した .こ の課題解 決法 の難点は ,Pメ honや Luaと いつた親 しみ が あま りな い言語 を理解 し相互活用 しなけれ ば 目的 の デ ー タガバ ナ ンス を達成 で きな い 点で あ った.SAS Viyaを 通 じてデ ー タの種類 /形 式 に依存 しないデ ー タガバ ナ ンスを実現 した こ とは解 析 の幅 の広 が りをもた らしたが,加 えてデ ー タ駆動型 でプ ロ グラ ミングす る とい う意識 改革 は新 た なイ ノベ ー シ ョンに繋 が ってい る . 本発 表 では ,SAS Viyaに よるデ ー タガ バ ナ ンス戦略 を紹介す る と同時 に,意 識 改革 が もた らした イ ノベ ー シ ョン事例 を紹介 した い . 282
生物統計 。医薬関連 SASシ ステム 人工知能・Al
品質管理 を 目的 とした,CDISC自 動 マ ッ ピン グシステ ムの 開発 と検討 (Naive Baycs Classinerと 形態素解析器 を用 い た 機械学習に よる 自動 マ ッピン グ機能 の検討 ) o横 井 章泰 、長谷 和彦、森 田 康 司、下田 泰 士 、高岡 和子 、小泉 早織 (株 式会社 日本科学技術研修所 臨床デ ー タ解析事業部 ) ■抄録本文 PMDA(Pharmaceuticals and Medical Deviccs Agency)へ の 電子デ ー タ申請 を 目的 としたCDISC準 拠 デ ー タの 作成 を行 う際、症例報告書(CRF)と SDTM(Study Data Tabulation Model)の ドメイ ン及 び変 数 との対応 関係 を決 める作業(以 下マ ッ ピン グ作業 )を 行 う必要 がある。 マ ッ ピン グ作業者 は、 SDTMIG(Study Data Tabulation Modcl lmplcme正 ation Guidc)に 精通 している 必要が あ り、各デ ー タ項 目の意味を考 えつつ 、手動で作業 を行 う必要 があ る。 特 に症例 報告書(CRF)の デ ー タ項 目が非 CDASH標 準であ る場合 、マ ッ ピン グ作業は、作業 の要で あ りなが ら、 ヒュー リス テ ィ ックであ り、作 業者 のCDISCに 関す る熟練度 に よ り成果物 の 品質 にば らつ きが生 じや す くな る可能性 がある。 弊社 では 、作業者 のCDISC熟 練度 の差 を吸収 し、一 定 の 品質 で成果物 を作成 可能 とす るCDISCツ ール (マ ッ ピン グ補助 ツール )の 開発 を行 ってい る。 一 方 で 、 CDISCツ ール (マ ッ ピン グ補 助 ツール ) を介 し、一 度 マ ッ ピン グ した症 例報告書(CRF)は 、新規 に症例報告 書(CRF)に マ ッピング作業 を行 う 際、再利 用 で きる可能性 があ る。 なぜ な ら、症例報告書(CRF)に 記載 され てい る単語 とマ ッ ピン グ 関係 は、類似す る傾 向が ある と考 え られ る為 である。 そ こで 、以 下 の手順 において 、機械学習 に よるマ ッ ピン グ作業 か 可能か検討 を行 った。 (1)既 にマ ッ ピン グ済み の症例報告 書 (CRF)の 各 ペ ー ジに記載 され てい る単語 とSDTMマ ッ ピ ング結果 の組み合 わせ を教師信 号 と して 、機械 学習 を行 う。 (2)学 習済み モ デ ル に、新規CRFを 入力 として与 え、 マ ッ ピン グ推定 を行 う。 症例報告書 (CRF)の 各 ペ ー ジに記載 され て い る文章 を単語 に分 解す る為 に 、形態素解析器 を用 い た。 また 、機械学習 の手法 として、Naive Bayes Classinerを 適用 した。学習デ ー タは、SASデ ー タ セ ッ トの形 式 の保存 を可能 とした。 システ ム構成 は、Pメhon(sckt■ eam)を 使用 し、SAS 94+Pメ hon 3.6+Microso■ Excel(VBA)十 Adobe Acrobtt DCと した。 今回は、 SDTMの 各 ドメイ ンのみ の分類 を試 みた内容 につ いて報告す る。 マ ッ ピン グ作業にお いて は、機械学習 の適用 が適 さない 条件 も存在す ると考 え られ る。 今後 、適切 な適用範 囲 の分析 を行 う為 の一 助 として 、本 内容 の試み を報告す る。 キー ワー ド :機 械 学 習 、マ ッ ピン グ、自動 化 、形 態 素解 析 、Naivc Baycs Classiier、 Anaconda Pメ hon、 Scikit― learn、 SAS、 CDISC、 SIDTM、 Annottted CRF ■連 絡 先 E‐ mail:yQk≦ =2:二 墾主∞ .lp TEL:03‑5379‑1216 285
■● ︱ ●■¨一 一 ■■ ● 一 . ︱︐一 一
CAUSAETRTプ ロ シ ジ ャを用 い た 傾 向 ス コア解 析 につ い て 中尾浩子 イ ー ピー エ ス株 式会社 Propensity Score Analysis using CAUSATiIRT procedure Hiroko Nakao EPS corporation 要旨 傾 向 ス コア (Propensity Score)は ,1983年 に Rosenbaumと Rubinに よ って提 唱 され た 因果 推 論 の 手 法 で あ る。研 究者 が 自 ら無 作為 実験 が 出来 ない観察研 究 に お い て 因果 効 果 を推 定 で きる有 効 な手 法 と して広 く知 られてい る。 傾 向 ス コア解析 を用 い た推定方法 には マ ッチ ング ,層 別 解析 ,逆 確 率 重 み付 き推定 法 な ど が 提 案 されて お り,SAS9.4 SAS/STAT14.2か ら PSMATCHプ ロ シ ジ ャ,CAUSALTRTプ ロシ ジ ャで 算 出す ることが出来 る よ うにな った 。 CAUSALTRTプ ロ シ ジ ャで は ,新 た に二重 に ロバ ス トな推定量 で あ る DR推 定量 (Doubly Robust Estimator)を 推定す る こ とが可 能 にな り,こ れ は,傾 向 ス コ アモ デル と結 果 変 数 モ デル の どち らか 1つ で も正 し く設 定 で きれ ば平 均 処 置効果 を バ イ アス無 く推 定 で きる とい うもの で あ る.本 稿 で は ,こ の CAUSALTRTプ ロシジ ャを使 って ,平 均処 置効 果 を SASで 算 出す る方法 を紹 介 す る。 キ ー ワー ド :傾 向 ス コ ア propensity score 二 重 に ロバ ス トな推定 量 1 は じめに Rosenbaumと Rubinに よって提案 された傾向ス コア解析 にはマ ッチ ング,層 別解析 な どが提案 されて いたが ,こ れ らの欠点 として,各 周辺期待値 ,す なわち全対 象者が処置 を受 けた場合 ,あ るいは処置 を受 け なか った場合の結果 の期 待値 について は,考 慮 されていなか った.ま た,マ ッチ ングは対象者 の数 が多い群 のデー タの多 くが無駄 にな り,デ ー タの少 ない群 の共変量 の 分布 の上 で期待値 を取 った ときの 因果効果 の 推定値 になって しまうとい う問題点があ ったが,CAUSALTRTプ ロシジ ャによって各周辺期待値 を計算す ることが可能 にな り,平 均処置効果 を算 出す ることが出来 るようにな った。 2 傾 向ス コア解析 の流れ 傾 向 ス コア解析 は,傾 向ス コアの推定 ,そ の推定 された傾 向 ス コアを使 って因果効果 の推定 を行 うとい う 2段 階推定である . 289
2.1 傾 向 ス コア の 推 定 ,割 り当て変数 を ttと す る とき,処 置群 へ 割 り当て られ る確 率 e2=P(ち = 第 づ対象者 の傾 向 ス コア とい う。 これ は傾 向スコアモ デル とも呼ばれ るが ,傾 向スコ 第 づ対象者 の共変量 を "。 11亀 )(0<θ ̀<1)を アの推 定 にはロジステ ィック回帰モ デル や プロビッ ト回帰 モデル ,機 械学習 に よって推定が行 われている。 CAUSALTRTプ ロシジ ャで はロジス テ ィ ック回帰モデル によって傾向ス コアの推定が行われ る。 2.2 因果効果 の推 定 CAUSALTRTプ ロ シジ ャで は以下 の 2種 類 の 因果効 果 を推 定 す ることが 出来 る ・ . 平均処置効果 (AК rage treatment erect;ATE,ACE) 処置群 T=1,対 照群 T=0で 得 られ る潜在的な結果変数 をそれぞれ n,‰ とすると,母 集団全体 で の平均処置効果 は 4‑‰ の期待値 ATE=E(■ )一 E(る )に よって求め ることが出来 る。 これは 母集団の対象者全体 を 「処置群 へ割 り当てた場合の結果の期待値」 と 「対象群 へ割 り当てた場合の結 , 果 の期待値」 との差である . o処 置群 での平均 処 置効果 (Average treatmett eSect br treated;ATT,ATET) 処置群 T=1に おいての因果効果を推定したい場合,ATT=E(■ ‑14)r=1)に よって求めること が 出来 る.こ れ は母 集 団全体 を処 置群 T=1に 割 り当 て た ときの結果 の 期 待値 の差 で あ る。 3 因果 効果 の推 定方 法 CAUSALTRTプ ロシジ ャでは大 き く分 けて,以 下 の 3種 類 の推定法 に よって平均処置効果 (パ TE)の 推 定 を行 うことが出来 る。 ・ 逆確率重み付 き推定法 (Inverse Probabihty Weighting;IPW)推 定法 Rubin(1985)は Horovitz and Thompson(1952)の 方法 を拡張 した ,イ 頃向ス コアに よる重みつ き推 定量 を提案 した .基 本的 な逆確 率重 み付 き推定量で ある IPW推 定量 は,処 置群 ,対 照群 でそれぞれ Q 械一 ^ 以下 のようになる . 1 e(Y): i Σ 2==1 E(‰ )=lナ η〜 具̲三彙 2==1 ■ ― θぢ 傾 向 ス コアモ デ ル θt=P(tO=11物 )が 正 しい と仮 定 すれ ば ・ , E(箸 )=笙 墜」玉生ゴ塑」 =E(等 )=Eπ IE(等 レ )l =二」 E(:レ )E(ν lレ )] (∵ 強 く無視 で きる割 り当て条件 ι⊥ υlレ ) =E"IE(ν lレ )]=E(ν l) となる。よって,E(■ )は 4の 周辺平均の不偏推定量となる。 E(る )も 同様である。 分母の nを 処置群 ,対 照群 でそれぞれ Σ肛1告 ,Σ 肛1■ 各 にすると,IPWR(IPW with Ratio adjustment)推 定量 となる . 290
o回 帰モデルによる調整 (regression attustment)
回帰 モ デルの調 整 に よる潜在結果変数 の期 待値 は ,処 置群 ,対 照群 でそれ ぞ れ以下の よ うに な る
E(K)=芳
西φ
l
E(る )=lナ
η
∝
。
t==1
これ は,T=1(処 置群 ),T=0(対 照群 )の それぞれで 一般 化線形 モデル を当て はめて回帰 パ ラメー タ
を推定 し,そ れ を用 いて対象者全体 に対 して予測 を行い ,因 果効果 の ATE推 定 を行 うとい うもので
ある
.
o DR(Doubly Robust Estimation;DR)推 定
DR推 定量 は,処 置群 ,対 照群 で それ ぞれ 以 下 の よ うにな る
E(・
ク(7))
)堪 (等 ―
E(‰
)=減 (雫響+食0(キ寺))
0==1 ヽ
●
●/ノ
ヽ
傾 向 ス コアモデル ct=P(ち =11物 )が 正 しけれ ば ,E(=)=1と な り E(1′1)は 逆確率重 み付 き推定
量 に等 し くな り,回 帰 モデル が正 しけれ ば ,E(ク 1レ )=E(ν lレ )と な り回 帰 モ デ ル に よ る調 整 と等
し くな るので ,E(ν l)を 推定 で きる。 E(る )に つ いて も同様 で ある
.
4
使 用方法
CAUSALTRTプ ロ シ ジ ャの基 本構 文 を以 下 に示 す 。傾 向 ス コ ア解 析 は 2段 階 推 定 法 で あ る .以 下 に示
す 2つ の Stepを 踏 む必要 が あ る。
PROC CAUSALTRIT
;
MODEL outcome < (variable-options) ><:qeffects>> < /mode1-options>
OUTPUT <OUT:SAS-data-set) (keyword:name . . keyword:name>
PSMODEL treatment <(variable-options) >1: effects < /psmodel-options)) ;
;
;
Stepl:傾 向ス コアの推定
PSMODELス テ ー トメン トにおいて ,傾 向ス コアモデル を指定 し,傾 向 ス コア 02の 推定 を行 う。
傾 向 ス コアモデル は割 り当て変数 モデル とも呼ばれ る。
Step2:E(y(t)),因 果効果 の推定
PROC CAUSALTRTス テー トメ ン トにおいて,ATEオ プシ ョンまた は ATTオ プシ ョンを指定
す ることで,そ れぞれ E(γ ))の ATEま たは ATT推 定量 を算出するこ とがで きる。何 も指定 が無
い場合 ,自 動的 に ATE推 定量が設定 され る.ATT推 定量 は,IPWR推 定 量 ,ま たは回帰 モ デルに
(ι
よる調整 によ り求め ることが出来 る。
291
PROC CAUSALTRTス テー トメン トの Methodオ プシ ョン (Method=)を 指定 す ることで,「 3 因果効果 の推定方法」で挙 げた 3種 類 の推定法 を指定することが 出来 る。 (表 1参 照 ) なお,PSMODELス テ ー トメ ン トにおいて傾 向ス コアモデルのみが指定 されて い る ときは,自 動 的に IPWR methodが 適用 され る.MODELス テー トメン トにおいて結果変数 モ デ ル のみが特定 さ れてい る ときは,自 動的に REGADJ methodが 適用 される.傾 向 ス コアモデル と結 果変数 モデルの 両方 が 指定 されているときは,自 動的 に AIPⅥ r methodが 適用 され る.傾 向ス コアモデル と結果変 数 モ デル の どち らも指定 されていない ときは,切 片 のみの結果変数 モ デルの REGADJ methodが 適用 され る.他 にも,B00TSTRAPス テ ー トメ ン トにおいて ,平 均処置効果 の標 準誤差や信頼 区 間を推定す ることが出来 る。 表 1 :Methodオ プシ ョン Method= Additional Specification IPW,IPヽ VR,IPヽVS PSMODELス テー トメ ン トで傾 向 ス コ アモ デル を指 定 す る MODELス テ ー トメ ン トで結果変数 へ の モ デル を指 定 す る MODELス テ ー トメ ン トで結果変数 へ の モ デル ,PSMODEL REGADJ AIPヽV or IPVVREG ス テ ー トメ ン トで傾 向 ス コアモデル の 両 方 を指定す る 5 Example 5.1 数値 実験 Rパ ッケ ー ジ ''drgee"を 参 考 に ,下 記 の 設 定 に お い て ,CAUSALTRTプ ロシジ ャ を用 い て IPW推 定 量 ,回 帰 モ デ ル に よる調整 ,DR推 定量 ,PSMATCHプ ロシジ ャを用 い て 層 別解析 (5層 )に よって因果 効 果 の 推定値 を求 め た。 なお ,IPW推 定 量 は ATE推 定 量 で 計算 してい る。 デ ー タの 発 生 ● サ ンプル サ イズ n=500,シ ミュ レー シ ョン 回数 R=1000,i=1,一 ,n ・ 共 変 量 Xlぁ X2t〜 N(0,1),H・ d・ ・ 傾 向 ス コ ア モ デル (ロ ジス テ ィ ックモデル ) )=百 葛石Fて 誦 石DこT瓦 函万 ,(α O,α l,α 2)=(1,5,3) 隧 o結 果 変 数 モ デ ル χ Ⅳ ((高 ιを+β lち Xlを 十 ¨ +γ lXlt十 後 X2D),1),iid・ Pr(ち =11Xlら X2じ 。 (β ,β l,¨ ,γ l,第 ),=(1.5,1,‑1,‑2,2) 推定 方法 コ ・ 傾 向 ス アモデルに X2o,結 果変数 モデル に Xlを ,X2を を入れて平均処置効果 を推 定 した (傾 向 ス コアモデルは誤設定 ) o平 均処置効果の推定値 を △(r),真 の平均処置効果 を △(β 。=1.5)と し , 平均 二乗誤差 MSE=瓦 Σ F=1(△ (r)一 △)2,(r=1,… ,1000)を 計算する 292
,2 結果 それ ぞれ の 手 法 で MSEを 計 算 す る こ とに よ って ,平 均 処 置効 果 の 推 定 精 度 を比 較 した 。表 2結 果 を見 る と,回 帰 モ デ ル に よる調整 ,DR推 定 量 が 1番 MSEの 値 が小 さ く,最 も平均処 置効果 の 推 定精度 が 良 い とい う結 果 にな った。 表2 6 結果 推 定 方法 MSE(SD) DR 0.0(0.04) IPW 6.0(1.18) regression 0.0(0.03) Subclassification 5.9(0.89) Rで の実装法について 統 計 解 析 ソ フ ト Rの パ ッケ ー ジ "PSw"(PrOpensity scOre weighting Methods br DichOtOmOus ettments)で も同様 な解析 を行 うことが出来 る.こ のパ ッケ ー ジも 2値 の処置変数 に限定 されてはいる '■ が ,傾 向ス コアモデル,結 果変数 モデル ,重 み を ATE,ATTの 指定す ることで,ATE,ATTの IPW推 定量 ,DR推 定量の算出が可能であ る。 7 ま とめ と今 後 の課題 SAS9.4 SAS/STAT14.2か ら CAUSALTRTプ ロ シ ジ ャに よ って ,因 果 効 果 の推 定 量 を簡 単 に算 出す る こ とが 出来 る よ うにな つた。 しか しな が ら,こ れ らは 2値 の処 置変数 に 限定 されて い るため ,多 群 の 因果効 果 を推定す るた め の 設定 はな され て い ない .近 年 で は これ らの よ うな 2群 の傾 向 ス コアで はな く,多 群 の 処 置変数 に も対 応 した一般 化傾 向 ス コ ア推 定法 も検 討 され て い る.K.Imai and M Ratkovic(2018)111で は , 共 変 量 か ら割 り当 て 変数 を予測 す る傾 向 ス コアの モ デル で はな く,傾 向 ス コ アで共 変 量 を バ ラ ンシ ング す る こ とを考 え ,そ れ を一般 化傾 向 ス コ ア に拡 張 した CGBPS(cOvaritte balancing generalized prOpensity score)を 提案 して い る。 今後 ,SASに お いて ,2値 の 処 理 変 数 で けで な く,多 値 の 処 置 変 数 に対 応 した 実 装 が な され る こ とを期 待 してい る 8 . 謝辞 今 回 の発表 に あた り,ご 助 言 を頂 い た 方 々 に深 く感 謝 申 し上 げ ます 参 考 文献 1ll Christian Fong,Chad Hazlettz,Kosuke lmai.Covariate Balancing PrOpensity Scoreお r a Cottin― uous TYeatlnent: Application to the iEfncacy of Political Advertiselnents,The Annals of Applied 293
石 ol.12,No.1,pp.156‑177,2018. Statistics,ヽ・ 12]Rosenbaum,P.R,Rubin DB.The central role of the propensity score in observational studies br causal eЯ lets,Blornetrika,` /lol.70,pp.41‑55, 1983. 131 SAS Institute lnc.SAS/STAT(R)14.2 User's Guide.SAS Institute lnc.,Cary,NC,2016 141星 野 崇 宏 .調 査観 察 デ ー タの統 計科学一 因果 推 論 。選択 バ イ ア ス ・ デ ー タ融 合 ,岩 波 書店 付録 Exampleで 用 いた コー ドを紹 介す る 7.Iet niter = 1000; *R=1000; %1et true = 1.5; *true causal effect; ods noresults; ods html close; do iter = 1 to &niter; doi=1to&n; +paraneter; beta0=1.5; betal =1 ; gamnao=-1; gamnal=-2; ganma2 =2 ; a1Pbao = 1 ; alPha1 =5; alPha2 =3 ; *cavariate; x1 = rand ('aorn ') ; x2 = rand ('norn ') ; *treatnent; p=exp(a1phao + a1pha1+x1 + aIpha2*x2 )/(1+exp(a1phaO + alPhal*x1 + a1pha2*x2 )); *true psnodel (Iogistic nodel) ; t=rand ('binomial ' , p, 1) ; *outcome; + gamnaO + gannal*x1 + gamma2*x2), 1); + betal*t*x1 y = rand(,norna1,,(betaOxt output ; end; end ; run; %nend ne1; / 4========= propensity score analysis 294
/* Method=SubcIassi.f icat ion */ 7.if &method.=subclass %tben %do; proc psmatch data=samp_&n. region=cs; class t; psnodel t(treated='].')= x2 ; strata nstrata=5; *strata=5; output out=est_&n. _&method. ; by iter; run ; quit; Proc sort data=est-&tr. -&nethod. (where=(-strata- ^=. ) ) ; by iter _strata_ t ;run ; proc means data=est_&n. _&nethod. ; var y; by iter -strata- ti output out=meau1_&n._&nethod mean=meaD run ; proc transpose data=nean1_&n. _&method. out=nean1_&n. _&method. _t id t; var meaD; by iter -strata-; run ; dat a nean2_&n. _&method. ; set neanl_&n. _&method . _t ; if n(-0,-1)=2 run; Proc then diff=-1--0; sort data=mean2-&n. _&nettrod. ; by iter; run; proc means data=nean2_&n. _&nethod. ; var diff; output out=nean3-&n.-&nethod. nean=mean by iter; run; data mean4_&n. _&method. ; set nean3-&n. -&method. ; sqe=(mean-&true. ) **2i *(ATE-true ) ^2; run ; proc neans data=neaD4_&n. _&nethod . ; var sqe; output out=est1-&n.-&method. nean=mean std=std; run ; 7. end ; /*Method=IPW, regression, DR*/ 7,eIse %do; ods output CausalEffects=out1_&n._&method, ; ods output TreatmeDtProfile=out2_&n._&method proc causaltrt data=samp_&n, method=&nethod. class t; 295 *ATE;
x2
psmodel t(ref='0')
nodely=xlx2
by iter;
;
run;
data outlx-&n. -&method . ;
set out 1-&n. -&method . ;
sqe=(Estinate -&true. ) x*2; *(ATE-true) ^2;
run;
proc sunmary data= out 1x-&n. -&Eethod
where Parameter=r'ATE";
sqe ;
out put 。ut=estl̲&n.̲&::lethod.
mean=COL3̲Mean std=COL3̲StdDev;
run;
%end;
data output-&n. -&method . ;
set estl-&n.-&method.
;
method=upcase ("&nethod ") ;
Biter = &niter.;
N = &n.;
%if &method , = subclass %then '/,do;
MSE-Mean=put (nean , 8. 1 -1) ;
MSE_StdDev=put (std , 8.2 -1) ;
%end;
7,e1se %do;
l4SE-Mean=put (C0L3-Mean , 8. 1 -1) ;
MSE-StdDev=put (COL3-SIdDev , 8 .2 -l)
%end;
keep nethod niter
n MSE-Mean MSE-StdDev;
run;
7.mend psa;
-----
I
%Iet n1 = 500; *sanple size;
/*data generating+/
%ne1 (n=&n1 , niter=&niter)
score anal"ysi-s */
/*propensity
7"psa(n=&n1, method=subctass )
%psa(n=&n1, method=ipw)
7.psa (n=&n1 , nethod=regadj )
7.psa(n=&n1, method=aipr)
/+report*/
data results_&n1.;
l-ength method $10. ;
set output-&n1
run;
ods listitrg;
proc print data=results-&n1
run;
296
用量反応実験での各種統計 モデルに対する尤度比検定の適 用 高橋 行 雄 半田 淳 BioStat研 究所 (株 ) Application of likelihood ratio test for statistical models by a dose-response study Yukio Takahashi Jun Handa BioStat Research Co.,Ltd. 要 旨 : 計量値 の用量反応 関係 の解析 では ,予 備検定で等分散性 の検定を し,等 分散 が仮 定 で きれ ばパ ラメ トリック,仮 定で きなければノンパ ラメ トリック,そ れぞれ の場合 の 多重比較 を用 い る手 順 が決定樹 として提 唱 され てい る。これ に対 して ,群 ご との 平均お よび分散 を共 に考慮す る統 計 モ デル を想 定 し,モ デル 間で尤度比検定 を行 う方法 は,分 散 が群 に よって異 な る場合 にも拡張 は容 易 である。さ らに,尤 度比検定 な ので,正 規分布 だけでな くデ ー タの分布特性 に合 わせて ワイ ブル 分 布 ,最 小極値分布 ,対 数 正 規分布 ,最 大極値 分布 な どに も対応 で きる.ま た ,デ ー タに測定 下限 (左 側打 ち切 り),測 定上限 (右 側 打 ち切 り),中 間打 ち切 りが ある場合 へ の拡張 も容 易 である。しか し , 分散 を群 ご とに変 え られ るよ うな SASプ ロシジ ャは,見 当た らない。最近 の JMPで 提供 され てい る 「寿命 の二 変量」は、信頼性や生存時間 とい った 問題 だ けでな く群 ごとに見度 を別 々 に推 定 した い場合 の尤度比検 定 の機 能 が備 わつてい る.こ れ らを活用す るこ とで ,従 来 の パ ラ 。ノンバ ラ の使 い分 けに とらわれ ることな く、実験デ ー タの背 後 にある母 集 団 の 分布 をも考慮 した解析 が可能 とな る。そ こで ,い くつ かの典型 的な実験デ ー タに適用 した結果 につい て紹介す る . キー ワー ド : 尤度比検定 ,打 ち切 リデ ー タ,回 帰分析 ,寿 命 の二 変量 ,Tobitモ デル 1.は じめに 反応 が 計量値 の場合 の用量反応実験の統計 解析 では,予 備 検定 で等分散性 の検 定 を し,等 分散 が 仮定で きれ ばパ ラメ トリック,仮 定できなけれ ばノンパ ラメ トリック,そ れ ぞれ の場合 の多重比較 を用 い る手順 が決定樹 として提 唱 されてい る .対 象 とす る実験系 のデ ー タの分布 特性 を同定 し,何 らかの変 換 で正 規化 してパ ラメ トリックな統計手法 を使 うこ とも考 え られ るが ,正 規化 の方法 の選 択 に恣 意性 が入 る可能性 がある との理 由で ,不 等分散な らば ,即 ノンパ ラメ トリックのよ うな風潮 が蔓延 してい る . 尤度比 検定 は ,反 応 が 2値 の場合 に対す る一般 化線形 モ デル な どで使 われ てい るが,計 量デ ー タ の場合 の群 間 比 較 へ の応用事例 は見あた らな い .最 近 ,寿 命 デー タの解析 のた めの JMPの 「寿命 の 二変量」が ,パ ラか ,ノ ンパ ラか ,と の二 者択 一 ではな く,新 た な群 間比較 の汎 用的な方法 を包含 してい ることに気 が付 い た。「寿命 の二 変量」は ,打 ち切 リデ ー タがある場合 の パ ラメ トリックな 回 帰分析お よび 群 間 比 較 を包含 してお り,用 量反応実験デ ー タに対 して 多彩な統 計解析が手軽 にで き るよ うにな っ てい る.「 寿命 の二 変量」では ,群 ごとの平均 μ (位 置 )お よび 分散 σ2(尺 度 としては 1 297
σ)を 共 に考慮す る統計 モ デ ル を想 定 し,モ デ ル 間 で尤 度 比 検定 を行 うこ とによ り,分 散 が群 によ って異なる場合 へ の対応 が可能 とな ってお り,用 量反応実験デ ー タに対 して多彩 な統計解析 が手軽 にできる . また ,尤 度 比 検 定 のベ ー ス は最尤法な ので ,正 規分布 だけでな くデ ー タの分布特性 に合 わせて ワ イブル 分布 ,最 小極値分布 ,対 数 正 規分布 ,最 大極値分布 な どにも対応 で きる。 さらに ,デ ー タに 測定下限 (左 側 打 ち切 り),測 定 上 限 (右 側打 ち切 り),区 間打 ち切 りが あ るの回帰分析 お よび群 間 比較 にも適用 で きる。これ らを活用す るこ とで ,従 来 のパ ラ・ ノンバ ラ の使 い分 けに とらわれ るこ とな く,実 験 デ ー タの背後 にある母集 団 の分布 を も考慮 した解析 が可能 となる。そ こで ,群 によつ て明 らかに分散 が異 なるラ ッ トの反復毒性試験 での血液生化学検査 の AET(ア ラニ ンア ミノ基転移 酵素 )デ ー タを用 いて,尤 度比検 定 の適用法 について検討結果 を提示す る.ま た ,打 ち切 りを含む発 毛実験デ ー タを用 い ,打 ち切 りのあ る場合 の正 規分布 を想定 した尤度 比検定 の活用 法 を提示す る . 2.平 均 と分散 を考慮 した尤度比検定の考 え方 対照群 と処置群 の ALTに ついて 2群 間 の 比較 を したい .対 照群 に対 して処置群 の AETの 平均お よび分散 が大 き くなると予測 され るので ,分 散 が異 な る ことを前提 に した ′検定 (Welchの 検定)を 使 うことに異論 はないであろ う。では,用 量反応 関係 を検討す るために 3用 量 を設定 した場合 には どの よ うに対応 した ら良いので あろ うか。等分散性 の検定 を して有意 な らば ,ノ ンパ ラメ トリック , の多重 比較 ,有 意 でなけれ ばパ ラメ トリックの 多重 比較 とす るので あろ うか。あ るい は ,有 意な ら ば ,対 数変換 してパ ラメ トリックの多重 比較 とす るのであろ うか。 多 くの統計 手法は,群 毎 の 平均 は異な るが群毎 の分散 が等 しい正規分布 に従 うこ とを前提に して い る。正規分布 に従わな い場合 には ,何 らか の変換 を した上で正規分布 に従 うと仮 定 して統計手法 を適用す る のが一般 的である.統 計 モ デ ル 間 を比較す る方法 として ,そ れ ぞれ のマ イナ ス 2倍 の対 数尤度 を求 め ,そ の差 が ,そ れぞれ のモデル のパ ラメー タの差 を 自由度 としたカイ 2乗 分布 に従 う ことを利用 した尤度比検 定が知 られ てい る.2群 間 の 平均 と分散 を考慮 した尤度比 検 定 の場合は モ デ ル 1:群 平均 が 等 しく,分 散 も等 しい。パ ラメー タ数 :2 , モ デ ル 2:群 平均 が異 な る,分 散 は等 しい。パ ラメー タ数 :3 モ デ ル 3:群 平均 が異 な り,分 散 も異 な る.パ ラメー タ数 :4 であり,モ デ ル 間 の段階的な比較で,マ イナス 2倍 の対数用尤度 の差 に対す るカイ 2乗 検 定 を行な うと モ デ ル l vs.モ デ ル 2: 平均 が同 じ vs.平 均が異なる (NS or*) モ デ ル 2 vs.モ デ ル 3: 平均が異 な る vs.平 均 も分散 も異 な る (NS or*) の結果 が得 られ る。この方法 は ,平 均 の比 較 と分散 の比較 を同一のカイ 2乗 分布 を使 った検定 で 対 応す る こ とにな る.こ れ らの 2つ の尤度比検 定 か ら,次 に示す よ うに 4通 りの検定結 果 が得 られ る . [NS,NS] A:平 均 が同 じで ,分 散 も同 じ [*, NS] B:平 均が異 な り,分 散 は同 じ C:平 均が同 じとみ なせ るが ,分 散 は異な る [NS, *] [*, *] D:平 均が異 な り,分 散 も異 なる BCD:平 の じ 均 or/and分 散 が 異 な る」のよ うに これ らの結果 か ら,「 A:群 間 平均 も分散 も同 」,「 対照群 に対 して処置群 の作用 を 3通 りに分解 して考察が可能 とな る。 2 298 ,
3.平 均 と分 散 を考慮 した尤度比検定の実際 尤度比検定 を適用す るためには ,分 布 の型 を明示 しその確 率密 度関数 を使 って ,そ れぞれ の デ ー タの確率密度 を計算 し,そ れ らの対数 の和 か ら対数尤度 を求 め る必要がある。 日本製薬工業協会 で 集積 され た ラ ッ トの一般毒性試 験デ ー タか ら CN=2,TN=3,雄 の ALTを 表 1に 示す。用量が 増 え るに従 い群毎 の μ とq(母 集 団 の)も 共に増 加 してい る . 表 1反 復 13週 投与後 の ALT 17 1 27 1 28 22 24 20 34 35 26 24 20 7 1 8 7 1 ■ ︱● 9 22 0 一4 一4 一 2 一2 一2 6 一 18 〇 2 一 0 1 20.000 22.900. 24.200 23 2.449 4.300 4490 2 デ ー タの分布 が正 規分布 に従 ってい ると仮定 して対照群 1と 高濃度群 4の 2群 間 の比較 につ いて 3種 のモ デル を設 定 し尤度比 検 定 を行 う。モ デ ル 3と モデル 2に つい て ‑2倍 の対数尤度 を計算 し モデル 3は ,そ れぞれの群 の μ とqを 用 いた 場合で ‑2h為 =111.875と な り た結果 を表 2に 示す。 , 表2 正 規分布 を仮定 した 対照群 と高用量群 の ALTの 比 較 20.000 μ ‐μ 1= 29.222 1 μ 4= 1 29.222 o‐ 4= 1 6.608 20.000 確 率密度 1 一 0037 22 18 0 7 0. 63 35 0.043 ‑3.152 0.029 ‑3539 0.002 ‑6.449 0. .898 5 0.1 .89 8 26 28 1815 21 ̲ 7 0.1 63 24 . 0043 1 15 1 ‑3.1 0.0201 20 63 1 ‑3.303 ‑3.448 ‑1 .8 5 4 6 18 1確 率密層 .81 5 Q=Ooo ̲ T3:β ,1 . 0.041 0.041 1 ‑3.2041 1 ‑3.152 0.043 0.058 ‑2853 29 ̲o.0601 0060 ■2.007 群 4 .尤 度 22 35 26 0.041 ‑3.1 0.054 ‑2.926 19. 0060 28 0.059 . ‑2824: 20 24 0.060 21 0028 ‑3.581 1 53 0.000 ‑9282 20││ ‐ 26 15 1 0.06011 ‑2.807 281 0.059 1 ‑2824 ‑32.789 ル 3 ‑21n ι= 111.875 2 ‑2in ι= 125.672 モ デル 2は ,そ れぞれ の群 の平均 は,μ =20.000,ん =29.222と 異なるが,共 通 の q=c=6608 を用 い た 場 合 で ‑21nt=125.672と な る.モ デ ル 1に つ い て の 計算 シー トは略すが ,共 通 の μl=ム =24.368と 共通 の q=σ4=8.085を 用 いた場合で ‑21nZl=133.193と なる モデル 1:群 平均が等 しく,分 散 も等 しい .‑21nZl=133.193 . モデル 2:群 平均 が異なる,分 散は等 しい .‑21nら =125.672 モデル 3:群 平均が異な り,分 散 も異なる.‑21n為 =111.875 これ らのモデル 間で,‑2倍 の対数尤度 の差を用 い た尤度比検定 を行 うと モデル l vs.モ デル2: 133.193‑125.672=7.521, ′=1‑ノ (7.521)=0.0061 ** モデル2 vs.モ デル3: 12■ 672411.875=13,98,′ =1‑ノ (12.798)=0.0002*** とな り,共 に有意 な差 とな り,「 平均 も異なるが分散 も異なる」 との結果 を得 る . 4 対数正規分布 を仮定 した位置 と尺 度 を考慮 した尤度比検定 ALTな ど酵素系の検査デ ー タは ,右 に裾 を引 く こ とが知 られ て いて ,正 規分布 よ り対数正 規分布 3 299
に従 うと言 われ てい る.実 際 ,表 1の 第 4群 には,53U/Lと 外れ値的な値 が あるので ,対 数 正規分 布 を仮 定 した尤 度 比 検定 を行 ってみ る。対数変換 したデ ー タ の μ とσは ,通 常 の平均 と標 準偏差 に は対応 しない ので,μ につ いて は平均 に変 えて 「位置」,σ について は標準偏差 に変 えて 「尺度」が 一般的 に使 われてい る。 対数 正 規分布 に従 うとされ るデ ー タは ,一 般 的に対数変換 した上で正規 分布 に従 うと仮定 して解 析 を行 う.尤 度比検定 の 場合 で も,対 数変換 し正 規分布 を仮 定す る こと もで きるが ,分 布 の確率密 度 が全 く異 な り,‑2倍 の 対数尤度 を使 っ た比較がで きな くな って しま う。そ こで ,表 3に 示す よ うに元 のデー タに対数正規分布 を直接 あてはめる ことにす る . モデル 1:位 置が等 しく,尺 度も等 しい。 ‑21nム =12■ 690 モデル 2:位 置が異なる,尺 度は等 しい. ‑2h為 =113.364 モデル 3:位 置が異な り,尺 度も異なる。 ‑21n為 =108.492 表3 ̲2,00‐ μl〒 ‐ 対数 正 規分布 を仮定 した対照群 と高用量群 の ALTの 比較 4=: 2 3336 lμ μ4= l . 一2 22 0103 ‑2.275 0.265 4 2 ・″ 1 No 4= 0.053 一3 ・4 9̲ 9・ 8 20 24 01.571 0 56 1 0. 56 1 20 53 1 0.002 1 24 .356 .856 一9 151 0.018. 一 20 1 0.157 ‑1.850 23 0.069 ‑2.667 ‑21n 22 21 ‑1.850 0.157 1 ‑1.850 0.043 ‐‑3158 ‑2946 ‑3.108 ‑3.490 0.030 0.055 1 ‑2.892 ‐ 0.0541 ‑2.924 0039 ‐ ‑3.238 18 28 0.078 0.097 20 1 19 19 0.098 0100 0100 ‑2549 ‑2335 35 ‑2298 0.055 ‑2892 15 ‑2.298 ‑2.327 ‑2.942 0.053 ‐ ‑2.977 0.051 0.054 ‑2924 20 1 0.098 │ ‑2.32 ‑6.428 . │ 108.492 0.060 1 ‑2.806 24 22 1 0.043 ‑3.138 0.098 21 53 0034 0000 26 28 0.070 0.070 ‑272 7 ‑25107 ル 0.031 ‑3.465 26 1 0.070 1 ‑2661 ‑2.663 0.070 28 2 │ ‑3390 ・ 113364 これ らのモデル 間で ,‑2倍 の対数尤度 の差 を用 い た尤度 比検定 を行 うと モデル l vs.モ デル2: 123.690‑113.364=10.330,′ =1‑ノ (10.330)=0.0013** モデル2 vs.モ デル3: 113.364‑108.492=4.872, ′=1‑ノ (4.872)=OЮ 273 * とな り,共 に有意な差 とな るが ,正 規分布 を仮定 した場合 に比 べ (モ デ ル l vsモ デ ル 2)の ′値 は よ り小 さくな り,(モ デ ル 2 vs.モ デル 3)の ′値 は大 き くな ってい るが , ρ=0.0273と 有意 な差ではあ る.こ れ らを総合す る と,処 置群 は,対 照群 に対 し有意 に ALTの 平均 が大 き くな るだ けでな く,平 均 の上 昇 に伴 う以 上のバ ラ ツキの増加 が認 め られ る。 JMPの 「寿命 の二変 量」を用 いて ,対 数 正 規分布 を仮 定 した 2群 の比較 を行 った結果 を表 4に 示 す 。尤 度比検定に関連す る結果では,‑2倍 の対数尤度 ,AICc,BICも 出力 され る.Excelの 結果 と 同様 に ,モ デ ル 間 のカイ 2乗 検定 の結果 も得 られて い る.モ デル の欄 の 「効果 な し」は (位 置 が等 しく 。尺度 も等 しい)場 合 ,「 位置」は (位 置 が 異なる 。尺度 は等 しい )場 合 ,「 位置 と尺度」は (位 置 が 異 な り 。尺度 も異 な る)場 合 である AICcは ,‑2倍 の 対数尤度 に対 して パ ラメー タ数 を考慮 した統計量であ り,「 位 置」:120.964, 「位置 と尺度」:11934の 差 は 1.62と ‑2倍 の対数尤度 の差 4.87に 比 べ て差が大幅 に小 さくな って . お り,「 尺度」が異な る と積極的には言 い難 い .尤 度比検 定 は ,用 い たデ ー タセ ッ トを 「母集 団」と 4 300
み な した解析 で あ り,「 標本」と見 な した場合 に対 し,分 散 を過 小評価 す る.従 って ,有 意水 準 を α=0.05を α=0.01と ,き つ めに設 定す ることを勧 め る。これ によ り,AICcの 結果 と整合性 が 取れ る 表4 JMPの 「寿命 の二 変量」による対数 正 規分布 を仮 定 した 2群 間 の比 較 60 50 L (‑2)*対 数尤度 AICc 診断続計量 モデル 40 □ 30 日 20 1 1 BIC パラメータ数 効果なし 位置 123.6896 128.4396 129.5785 位置と尺度 108.4915 119.3487 120.2693 113.3638 120.9638 122.1971 1瀬 │̀… 語 10 0 10.32586 4.872233 1 0.0013● 0.0273* 5.打 ち切 リデー タ を含む尤度比検 定 尤度比検定は,各 種 の統計 モ デル 間を比較す る汎用 的 な方法ではあるが ,2群 間を含 む多群 の比 較 に用 い られて い な い .打 ち切 リデ ー タがなけれ ば ,正 規分布 あ るい は対数正規 分布 を仮定す るか ぎ り,尤 度比検定 を用 い る必然性 は乏 しい。しか し,工 業製 品 の 寿命 の予測 のための加 速試験 では , 多数 の右側打ち切 リデ ー タが発生 し,そ れ らを考慮 した回 帰分析 が必 須 である 最近 の事例 として ,表 5に 示す黒 須真介 (2017)の 薬効 を調 べ るため の 「発 毛試験」につい て考 . えて見 る.こ の よ うな多数 の右側打 ち切 リデ ー タが発 生 す る場合 で も各種 の尤度比検定 は実施 可能 で ある . 高濃度群 の発毛は ,36日 以内に全 て観測 され るが ,対 照群 の場合 は 10匹 中 5匹 に発 毛が観 察 さ れ る前 に実験終了 とな り,打 ち切 リデ ー タにな ってい る.対 照群 と高濃度群 との 2群 間 の検定は , 打 ち切 リデ ー タを考慮 した ノンパ ラメ トリックな ログ ランク検定 または一 般化 Wilcoxson検 定 の典 型 的 な適用例であるが ,尤 度比検 定で解析す る手順 に つ いて 考 える。 群番 号 をχとした回 帰分析 をす る場合 に,打 ち切 リデ ー タを どの よ うに扱 えばよいので あろ うか 。 2群 間 の尤度比検定 の 考 え方 を 「打 ち切 りがある場合 の 回帰分析」 に拡張で きるが,そ の前 に,基 本 とな る打ち切 リデ ー タがある場合 の 2群 間 の尤度比検 定 につい て示 す 表5 Grou 1 1 11 36 86+ 36 10 30 3拿 ● 28 19 21 16‐ 14 2 一2 4 33 86● 3 一 中濃度 1 打 ち切 りが あ る発 毛 実 験 デ ー タ 31 4 51 6. 71 81 91 21 . 3匹 3鯉 1鰹 0 36日 で発 毛 (36),36日 で発毛せず (36キ ) ̲│ : ̲. ̲」 ̲ ̲̲ ̲ │ 尤度比検定を行 う場合 には,何 らか の分布 を仮定 しな けれ ばな らな い。打 ち切 リデ ー タがある場 合 では ,観 察 を続 けれ ばいつ ごろ発 毛が観 察 され るのか を想 定 して ,全 ての群 に共通す る分布 を決 めな けれ ばな らない .打 ち切 りがな い 高濃度群 のデ ー タの分布 か ら,発 毛 日のデ ー タは正 規分布 に 従 うと仮定す る . 対照群の平均値を仮に中央値あたりで 2=36.5,標 準偏差は4=5.0と 仮に決めておく.発 毛が 5 301
観 察 されれば確率密度 を,打 ち切 りが ある場合 は打 ち切 り日以後 の上 側確 率 とす る。表 6に 示 した モ デ ル 3の 群 1が 対 照群 で ,「 +」 記号 が打 ち切 りのあ る場合 に上側確 率 が 0.484と 計算 され ている . 表では,A=35.835,4=4■ 72と なっているが,こ れは Excelの ソルバーで対数尤度の和を最大化 するようなム との を推定した結果である。群 4の 場合は打ち切リデータがないので,九 =18.5は 算術平均,a=5.696は データを母集団 と見なした場合の標準偏差である.そ れぞれの対数尤度は lnム =■ 7.781,h為 =‑31.588で あり,そ れらを加えて‑2倍 した結果は,(‑2)ln Z=98.738と なる , . 表 6 打ち切 りが ある場合 の正 規分布 を仮定 した 2群 間比較 μl=│ l o5.8oo. 4= μ l= 18.500 5.301 o‐ 確率密度 対数 ‑0725 チ 一 θδl′ l θδ1 11 θ∂│′ 21 0.064 1 23 14 0.051 ‑3.325 θイθイ ‑0.725 θイθ″ 1 ‑0.725 αイθ″ ‑0.725 0.051 0.075 θJP′ ‑0.63 一一 一 0.036 1 0.036 . 36, │ 0017 ‑4.049 0037 ‑3.310 一 301 301 ‑0. O 〇 ・0 一〇 0.076 ‑2.971 28 12 ‑2.348 0.096 θイθイ 4 1 四 ・ψ 6 3 ″ 上 331 18.500 4= 0.061 θδ′θ O.036 ‑2.97 ‑2.97 0036 θ∫′θ .‑0.637 0.029 ‑2.971 ‐‑3526 1 0.064 ‑2.755 0.051 26. ‐ θ ー θ至′′ θマ 見 2θ : ‑0.637 ‑0.637 : 禾ロ 33̀)│チ ‑17.781 ‑21n ι= モデル 3 'モ ワ ル 2 99.244 │‑2 1n ι モデル 2は ,平 均値がμl≠ ん と異なるが,分 散は同じq=cと したモデルであり,2=36.386, 2=18.5,a=Q=5.301と なっているのは,Excclの ソルバーで対数尤度の和を最大化するような 名,ん およびq=0を 推定した結果である.対 照群のムが 36.386と モデル 3で の 35.835と 異な るのは,群 4を 含めたので微調整されたことによる 表 に は示 して い な い が ,モ デ ル 1は ,平 均値 が 名 =ん =28.027と 同 じで あ り,分 散 も同 じ q=%=11.361と した場合 で,(‑2)lnZl=125.169と な る。表 7に JMPの 「寿命 の二 変量」による結 果 を示す .(効 果 な し vs.位 置 )が ,(モ デル l vs.モ デ ル 2)に 対応 し尤 度 比カイ 2乗 =25.925と 位 置 (平 均 )に 2群 間に有意 な差があ る 。 (位 置 vs.位 置 と尺度 )が (モ デ ル 2 vs.モ デル 3)に 対応 し尤 度 比カイ 2乗 =0.505と 有意な差 ではない .従 って ,高 濃度群 は,対 照群 に対 して発 毛 日の変動 を大 . き くす ることな く,1=36386日 か ら A=18.500日 に半減 させた と言 え よ う . 表 7 打 ち切 りがある場合 の JMPに よる 2群 間比較 ︱ モデル ¨ BIC パラメータ数 診断続計量モデル (… 2)*対 数尤度AICc 効果なし 125.1686129,8745131.1601 2 □ 置 99.24383106.7438 108.231 3 位 Eコ ︱ ^ 絆 獣 98.73845 109.4051 110.7214 イ 立置と尺度 К C 25.92479 0.505379 1 Group 6 302 く.0001ネ 0.4771 4
生存時 間解析 の基本で あるカプラ ン・マ イヤ ー 曲線 か ら,50%発 毛 日な どの推定値 を計算す る こ とに よ り尤度比 検定 で行 った平均発毛 日と同様 の結果 が得 られ る。また,ロ グランク検定 の 結果 は , 〃12=21.868な ので ,有 意 な差がある と判 断 され る . 6.回 帰分析 へ の尤 度比検定の活用 ALTに つい て群 番 号 を用 いた 回帰分析 を JMPの 尤度比検 定 に組み込んだ結 果 を表 8に 示す 。「効 果 な し」は,パ ラメー タ数 が 2で あるこ とか ら 4群 に共通 の位 置 (平 均 )と 凡度 (標 準偏差 )の あては めである.次 に 「回帰」はパ ラメー タ数 が 3で あるこ とか ら,切 片 と傾 きか ら位置 (回 帰直線 の推 定値 ),お よび ,共 通 の尺度 を用 いてい る。「別 々の位置」 は ,4群 のそれ ぞれ の位置 と共通 の 尺度 か らパ ラメー タ数 が 5と な り,「 別 々 の位 置 と尺度 」は ,群 毎 の位置 とえ度 で パ ラメー タ数 が 8と な つてい る . 表 8 JMPに よる正 規分布 を仮 定 した 4群 間比較 一 渕 診断統計量 モデル 2)*対 数尤度 AICc BIC パ ラメ ー タ 数 256.3485 260.6819 263.6756 2 回帰 245.6151 252.3008 256.6058 3 日 別々の位置 244.8296 256.6478 263.1475 5 日 別々の位置と尺度 227.8414 248.6414 257.1499 8 如 □ L (… 効果なし 10.7334 0 0,785475 16.98824 0.0011* 0.6752 0.0007* モ デル 間 の比 較 で ,「 効果 な し vs.回 帰」は ,回 帰直線 をあて はめた場合 の ‑2倍 の対数尤度 の減 少 に対す る検 定で ,通 常 の 回帰分析 にお け る分散分析表 の F検 定 に対応す る。「回帰 vs.別 々 の位 置」は,LOF(Lack ofFit)に 対応 していて,有 意 な差であれ ば直線 の あてはめが支持 されな い .「 別 々 の位置 vs.別 々 の位置 と尺度」は,群 ごとの 尺度が一 定か の検 定で ,有 意 な差 で あれば,回 帰分析 の前提 である等分散性 が成 り立 ってい な い こ とになる。 「効果 な し vs.回 帰」につい ては ″ 12=10,33な ので 回帰直線 の あてはめが支持 され る.「 回帰 vs. 別 々の位 置」につい ては ぁ2=0.785と 有意 ではないので ,直 線 以外 の あてはめは却下できる.「 別 々 の位 置 vs.別 々 の位置 とえ度 」が ‰2=16.982と 有意 なので ,群 に よる尺度 の 違 いが無視で きな い と 判断 され る . 表 9は ,分 布 の仮定 を対数正規 分布 とした 場合 の尤度比検 定 の 結果 である.正 規分布 を仮 定 した 場合 と同様 に回 帰直線 の あてはめが支持 され てい る.尺 度 の違 い については ,表 4の 対照群 と高濃 度群 の 2群 問比較 の場合 には ,尺 度 の違 いが 有意 な差であ っ た が ,「 別 々の位 置 vs.別 々 の位 置 と 2=5.187(′ =0■ 尺度」 の ‰ 586)と 有意 な差 ではな くな っ た . 7.打 ち切 リデー タを含む回帰分析 へ の尤 度比検定 打 ち切 リデ ー タを含 む 2群 間 の尤度比検 定 に つい ては ,第 5節 で詳細に示 した .打 ち切 リデ ー タ 7 303
表 9 JMPに よる対数 正規分布 を仮 定 した 4群 間比較 (‑2)*対 数尤度 AICc □ 効果なし BIC パラメータ数 241.2926245.6259248.6197 2 228.572 235.2577 239.5627 3 日 回帰 別々の位置 228.067623988582463854 5 団 別々の位置と尺度 222.881 243.681252.1895 8 診断統計量 モデル 1 2 3 4 12.72052 0.504425 5.186636 3.0004・ 0.7771 0.1586 を含む回帰分析で群毎の位置は,μ =A+β み のように切片をA,傾 きを4と する回帰直線で与 えられる.尺 度 σを群で共通とした場合に,(A,41,σ )の 推定値は,そ れぞれのデータに対応す る尤度をも としたときに 正規分布の確率密度 発毛が乃 日で観察された場合 : 為 =/(乃 │ん σ) 発毛が乃 日で観察されない場合 :為 =1‑F(乃 │ん σ)正 規分布の上側確率 , ln為 対数尤度:hZ=Σ :Σ ノ のよ うに,対 数尤度 hι を最大化す る (A,4, σ)を 求めればよい。 表 9に ,JMPの 「寿命 の二変量」による回帰分析 を含む尤度比検定 の結果を示す .結 果 の見方は , 第 6節 の表 8で 示 した打ち切 りがない場合 と同 じであ り,「 効果 な し vs.回 帰」で ″12=34044と 有意 であ り,他 は有意ではないので,発 毛 の促進効果は,設 定濃度に対 して直線的 であるとの結果 が得 られ る . 表 10 打 ち切 りを含 む JMPに よる正規分布 を仮定 した 4群 間比較 (‑2)*対 数尤度 AICc 診断統計量 モデル □= ぶ □ 効果なし 一 鉾一 鋒 一 ぼ一 ■一 ●一 m・ . 3 パ ラメータ数 2 218.3567 222 7567 3 211.69 回帰 BIC 245.7339 250.0583 253 1117 日 別々の位置 209,7529 221.5176 228 1973 5 日 別々の位置と尺度 208.1914 228.8366 237 7024 8 4 34.04391 1.937138 1.561486 44.654 ‑6.320 5.890 く.0001* 0.3796 0.6682 8.SASの Llferegに よる正規分布を仮定 した打ち切 リデータを含む回帰分析 SASの パ ラメ トリックな生存時間のための Litrcgプ ロシジャには,誤 差分布 に ワイブル分布 の みならず 正規分布 ,対 数 正規分布 を設定 した回帰分析 ができるよ うになっていて ,右 側打ち切 りの 8 304
みな らず左側 ,区 間打ち切 りな どにも対応できる L■ Кgプ ロシジャの Modclス テー トメ ン トの ノ*ccnsOr(1)に よ り,変 数 censorが 1の 場合 が右 . 側打ち切 りで, dis← nomlalに よ り正規分布が設定 している。 SASプ ロ グ″ラ ム ===== Title″ 発 毛̲a01.sas data d01 : input A S G 00 ; do i=l to 10 : input y censor 00 output end ; 6 datalines : 0 2 proc I ifereg data=dOl 6 Cont 1 36 0 36 1 33 Low 2 36 0 28 0 36 Mid 3 19 0 23 0 26 High 4 14 0 28 0 12 ; model yxcensor(1) = G / dist=normal :::jll:::: sAS 7 │・ etTyl Fit Statistics ‑2 Log Llkelihood 211690 AIC (smaller is better) 217690 AICC (smaller is better) 218357 BIC (smaller is better) 222757 推定値 標 準誤差 Intercept 44.6542 G・ ‑6.3198 Soale 5.3895 Parameter 自由度 .. ; カイ 2乗 . P,ChiSq 95,6 Con■ )nce Lirnits 25440 396681 496403 30810 〈0001 0.8946 ‑80732 ‑45665 4991 〈0001 07706 45574 76111 Lttrcgプ ロシジャの結果 か ら,‑2倍 の対数尤度 が 21L690と 推定 され,こ れ は,表 10の 出力 の 「モデル」の欄 の「回帰」の行に示 されてい る結果に一致する.回 帰 パ ラメー タは ,切 片 鳥 =44654, 2=5.8902が 傾 き β =‑6.320,Scale(尺 度)の 行 か ら誤差分散 σ 読み取れる.打 ち切 リデー タがある 場合 の回帰分析は,計 量経済学 の分野 で Ъbitモ デル として知 られ ている.Lttrcgプ ロシジャのマ ニ ュアル に 「Example 50.2:Comp血 ng Predicted hluesお r a Tobit Model」 があ り,誤 差に正規分布 を 仮定 した回帰分析 が行 えることが示 されてい る。 9.考 察 用量反応 実験 では,投 与量が増 え るに従 って反応 の 平均値 が増加 し,そ れ に伴 い ,分 散が増大す る ことによ り,等 分散性 を仮定で きない ことが しば しば起 きる.こ の よ うな場合 に ,モ デル 1)平 均 と分散 が 同 じ,モ デ ル 2)平 均 は異 な るが分散 は同 じ,モ デル 3)平 均 も分散 も異 なる,そ れぞれ の場合 の ‑2倍 の対数尤度 を求 め ,そ れ らの差 がカイ 2乗 分布 に従 うことを使 った 尤度比検定に つ いて検討 した .モ デ ル 1と モ デ ル 2の 間に有意 な差 が あるか,モ デ ル 2と モデ ル 3の 間に有意 な差 9 305
があるか ,と いった段階的 な検 定で平均お よび分散 につ いて一 度 に同 じ検定手法 で解析 がで き,結 果 を複合 的 に解釈 で きる点 で有益 と思われ る . 尤度比 検定 では,正 規分布 に限 らず ,デ ー タの分布特性 に一 致 した分布 を用 い ることも容易であ り,対 数 正 規分布 を仮 定 した場合 に群 間 で 「分散」が有意 な差でな くな る場合 もあ った。この点で 尤度比検 定 は,現 実 の結果 に即 した解釈 が しやす くな り,他 の検定法 に比 べ 有益 と判断 され る . 発 毛試験 で示 した よ うに ,打 ち切 リデ ー タがある場合 には ,ノ ンパ ラメ トリック検定 に頼 る しか ない と判 断 されがちであ るが ,打 ち切 リデ ー タに正 規分布 の上 側確率 を与 えることに よ り,‑2倍 の対数尤度 の計算が可能 とな り,パ ラメ トリックな尤度比検 定が可能 とな るこ とを示 した。打 ち切 リデ ー タが ある場合 に正規分布 を仮 定 した 回帰分析 も尤度 比 検 定 の手順 の 中に含 め るこ とができ 結果 の解釈 が適 切 に行 える , . SASの L■ regプ ロ シジ ャを用 いて ,打 ち切 リデ ー タを含 む正規分布 を仮定 した回帰分析 ができ ることを例示 し,JMPの 「寿命 の二変量」 の結果 と一 致す る ことを示 した。パ ラメ トリックな生存 時間解析 は ,寿 命デ ー タの解析 も同様 に ワイブル 分布 を仮 定す ることが一 般 的で ,正 規分布 が仮定 で きる こ とは,あ ま り知 られ ていない。棚橋 ら (2009)は ,左 側打 ち切 リデ ー タに対 して Lttregプ ロシ ジ ャを用 いた正 規分布 を仮定 した 2群 間 の検定 を紹介 している。高橋 (2015b)で は ,打 ち切 り デ ー タがある場合 の ワイ ブル 回帰に先 立 って ,打 ち切 りを含 む人 エ デ ー タではあるが ,正 規分布 を 仮定 した ,回 帰分析 につ い て論 じてい る。一 方 ,Lttregプ ロ シジ ャでは群 毎 に分散 が 異 な るモ デル を設定 で きな い とい う問題 があ り,JMPや Excelで 示す こ とができた 階層 的な尤度比検 定 を実現す るこ とは困難 であった . 階層 的 な尤度比検 定 の 有用性 につい て ,JMPの 「寿命 の二 変量」に よつて認識 させ られ た。ただ し,統 計 ソフ トでで きる と言 って も計算方法 がブラ ックボ ックスの ままでは ,そ の有用性 を 自らの 言葉 で説 明す ることに疇躇せ ざるを得 な い。そ こで , Excelシ ー ト上 に尤度比検定 を再現す るこ と によ り,尤 度比検定 の考 え方 ,計 算方法 を明示す るこ とに した。 参 考 文 献 1)SAS Institute(2012),品 質管理および信頼性/生 存時間,SAS Institut lnc. 2)Meeker and Escoba(1998),S● tistical Mcthod br Rcliabiliサ Data,Wiley. 3)奥 野忠一監訳,柴 田義貞 ,藤 野和健 ,鎌 倉稔成訳 (1988),寿命デ ータの解析 ,日 科技連 出版社 4)黒 須真介 (2017),探 索的薬理試験データに対する種 々の解析方法の適用と比較 ,日 薬理誌 ,150,4‑9. . 1重 童堕型彙な 重ag⊆ 」ユ」 生重 n■ ∠ lm̲」 生区L墜1量 1型 血塾 墜≧ 峯≧ 1蝕 lttld≦ ∠麺∠ 5)芳 賀敏郎 (2004), 最小 2乗 法,最 尤法 , 線形モデル , 非線形モデル http:∠ =wェ , ュu茎 里s.co里 生mstaυ hag″ download/釘 chive/1ikclihood/Likclihoodttdf 6)芳 賀敏郎 (2010),医 薬 品開発 のための統計解析 第 3部 非線形 モデル ,サ イエンティスト社 7)高 橋行雄 (2015a),寿 命試験データの統計解析 ,ht墜 △型w=yュ km,com胆 堡tatた よュLsi2/rcc/00生 旦 m 8)高 橋行雄 (2015b),LIFEREGプ ロシジャを用 いた打ち切リデ ータを含むワイブル回帰,SASユ ーザー総会論文 . 集 :123‑132. 9)岩 崎学 (2002),不 完全デ ータの統計解析 ,323節 値打ち切り,エ コノミスト社 . 10)岩 崎学,阿 部貴行 (2006),打 ち切りおよびトランケーションの下でのパラメータ推定に及ぼす切断点の影響評 価 ,応 用統計学,Vo135,No■ ,49‑60.L」 ユ 迷Lム Y迎 」重ag9」 § 嗜菫 去∠ 211望」 過ユヱ憂̲二 セ 颯と m々 」 熙 」 1』 idl螢 佳1 11)棚 橋 昌也ら(2009),LIFERECプ ロシジャによる正規分布からの打ち切り標本 に対するパラメータ̀[2生 推 定と二標本有 pdl墨 L基 コ 意差検定 ,SASユ ーザー総会論文集 :219‑228,11襲 ∠ ム理y工旦attQ里 血∠ よ型■lQa」∠ 』 2【 n24≧ ユ i 10 306
SCAD罰 則 に よるスパ ー ス推 定法 の 実装 ○勘場大 1,惟 高裕 ‑1,都 地昭夫 1 (1塩 野義製薬株 式会社 ) パ ラメ トリックモ デ ル における変数選択では,AICや Malllowsの Cp,CV(ク ロスバ リデ ー シ ョン) な どのモ デル 選択規準 を用 いて ,候 補 とな るモデ ル か ら最適 なモ デ ル を選択 し,応 答 に影 響 を与 え る変数 を同定す る.こ れ らの方法 では候補 とな る全 てのモデル の 中か ら選 ぶ必 要 が あ るため,仮 に 10個 の候補 とな る変数 があった場合 は210■ (=1023)個 のモ デ ル を構成 しなければな らな い。 そ こでTibshirani(1996)は Ll罰 則 関数 を用 いた罰則付 き尤度 を最適化す るこ とによ り,推 定 と変数 選 択 を同時に行 うこ とができるLASSOを 提案 した。しか しなが ら,Fan alld Li(2001)は LASSOに よ って得 られた推定量 が バ イア ス を持 つ ことを指摘 し,Ll罰 則 関数 の代 わ りにSCAD罰 則 関数 を用 い ることで ,バ イア スの無 い推定 が可能 であることと,さ らにそ の推 定量がオ ラクル プ ロパ テ イ と 呼 ばれ る以下 の二つ の性質 (1)ス パー ス性 :真 のパ ラメー タが 0で ある部分 に該 当す る回帰係数 の推定量 が0と な る確 率が 1 に収束す る (2)漸 近正規性 :真 のパ ラメー タが0で ない部分 に該 当す る回帰係数 の推 定量は漸近正規性 を持 つ を満 たす ことを示 した。 ただ し,こ のSCAD罰 則 関数 はNonconcavc関 数 である こ とよ り,罰 則付 き尤度 の最適化 は困難 とな る .そ こで, Zou and Li(2008)は SCAD罰 則 関数 にLLA(Local Linear Approxim on)と 呼 ばれ る近 似 を適用 し,そ れ を最適化す る こ とに よって得 られ るOne‐ step推 定量 (OSE;One― step estimator)を 提案 し,OSEが オ ラクル プ ロパ テ ィー を持 つ ことを示 した . OSEは LASSO推 定量 に比 べ て良い性 質 を持 つてい るに も関わ らず ,SASで は実装 され てい な い。本 発 表 ではSCAD罰 則 関数 に基 づ くOSEの 理論 と魅力 を伝 える と共 に ,そ れ を実装で きるマ ク ロを公 開す る。また ,シ ミュ レー シ ョン結果 を示す . Fan, J. and Li, R. (2001). Variable Selection via Nonconcave Penalized Likelihood and its Oracle Properties. Journal of the American Statistical Association. 96: 1348-1360. Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B 58:267-288. Zot,H and Li, R. (2008). One-step sparse estimates in nonconcave penalized likelihood models. The Annals of Statistics 36: 1509-1533. 307
自治体 の外国人 向け観光紹介 ペ ージ開設 の現状 と課題 ―ロジステ ィック回帰分析 とコンジ ョイ ン ト分析 による評価 ― ○有 馬 昌宏 1、 王 (1兵 庫 県 立大 学 応 用 情 報 科 学 研 究 科 、 源 2は 2 るや ま 商 事株 式 会 社 ) Currcnt Status and Problcms ofLocal Govenllnentsi` い石 cb Site in telHns ofAttraction ofForeign Tlounsts Masahiro Arimal and Yuan Wang2 lUniversity of Hyogo, 2Haruyama Trading Co., Ltd. 要旨 訪 日外 国人観 光客数 が 3,000万 人 に迫 ろ うとし, これ まで の外 国人観 光客 の主た る訪 問地 である首都 圏 や京 阪神 な どの 自治体 のほか に ,地 方 で も公 式 ウェブサイ トか ら観 光 情報 を発信 して外 国人観 光客 を呼 び込 も うとシテ ィセール ス を行 って い る 自治体 が増 えてい る.本 発 表 で は,2010年 度 に実施 した全基 礎 自治体 を対象 とす る外 国人 向 け観 光紹介 ウェブ サイ トの有無 の 目視 調 査 に引き続 き ,2017年 度 に外 国語 に よる観 光紹 介 ウェブ サイ トお よび 生活 情報提供 ウェブ サイ トの 有 無 の 目視調査 を実施 したので ,こ れ らの調査結果 に基 づ き,両 調 査 の比 較や名義 ロ ジステ ィ ック回帰 分析 の適 用 な どか ら,基 礎 自治体 の外 国人 向 け観 光 紹介 用 ウェブサイ トの公 開 の現状 と課題 を検討す る.ま た ,中 国語 (簡 体 字 )に よる観 光 紹 介 サイ トの評価 を行 うた めに ,紹 介文 の巧拙 (巧 ,拙 ,翻 訳サイ ト利 用 の 3水 準 ),写 真 の 多寡 (多 い ,普 通 ,少 な い の 3水 準 ),メ ニ ュー の 多寡 (多 い ,普 通 ,少 な い の 3水 準 )の 3属 性 に よる コンジ ョ イ ン ト分析 (選 択 実験 )を 適用す るた めの 中国人 を対象 とした小規模 なア ンケー ト調 査 を行 ってい るの で ,こ の 分析 の結果 とコンジ ョイ ン ト分析 を ■● で実行す る手順 に つ い て も説 明す る . キー ワー ド :LT, ロジステ ィック回帰分析 , コンジ ョイン ト分析 ,観 光紹介用外国語 ウェブサイ ト , 生活情報提供外国語 ウェブサイ ト 1.研 究 の 背 景 と研 究 の 目的 1.1 研 究 の背 景 2007年 1月 1日 よ り施行 された観 光 立 国推進基本法 (平 成十八年十 二月 二十 日法律第百十 七号)の 前文 に は,「 観光は,国 際平和 と国民生活 の安定を象徴す るものであって,そ の持続的な発展 は ,恒 久 の平和 と国 311
菫万 30 饉訪 日外国人旅行者数 繁出国 日本人数 25 1 13 螢 』螢展ぶま 猥蟹晨 り 髯繋. ︱^ 鸞 驚 一 一 摯. . .. ︐. │ 4 毬薪襲難鋭一 ヾ ∞0 ヨ . ‡ 鵞 書 ↓⁚ 壼 員 ︱ ⁚ ●L 俊 ︑︑ ⁚鐵願期¨ N∞一 樹 ̲雛 ..… .雛 菫虔 務 繭 奪惨 彗‡ 攘‡ 嬢量 燿1隕 ‡ │ │‖ 重彗目蟄塁ヨロ昌ロミ貰目昌ミミ爵 1 訪 日外 国人旅行 客数 と出国 日本 人数 の推移 (出 典 :日 本政府観光局(NTO)を 基に筆者作成 ) 際社会 の相 互理 解 の増進 を念願 し,健 康 で文 化 的 な生活 を享受 しよ うとす る我 らの理想 とす る ところで あ る . また ,観 光 は ,地 域経 済 の 活性 化 ,雇 用 の機 会 の増 大等 国民経 済 の あ らゆ る領 域 にわた りそ の発 展 に寄与す る とともに ,健 康 の増進 ,潤 いの あ る豊 か な生活環境 の創 造 等 を通 じて 国民 生活 の 安 定 向上 に貢 献す るもの で あ る こ とに加 え,国 際相 互 理解 を増進す る もので あ る」 と記 され てい る.こ の 基 本法 に象 徴 され てい るよ うに ,観 光 立 国 は,現 在 の 日本 にお いて 重要 な取 り組 み の一 つ となってい る . この よ うな観 光 立 国 を前 面 に押 し出 した政策 転換 の背 景 に は ,バ ブル 経 済崩壊 後 の長期 の 景気 の低迷 に加 えて ,訪 日外 国人旅行者 数 の 長期 にわた る低 迷 と入 国観 光客 数 に対す る出国観 光 客数 の 大幅超過 の傾 向 の継 続 が存在 して い る . 図 1に 示す よ うに,訪 日外 国人旅行者数 は ,東 京 オ リン ピ ックが開催 され た 1964年 には僅 か に 32.3万 人 で あつたが ,1977年 に 100万 人 を,1984年 に 200万 人 を,1990年 に 300万 人 を,1997年 に 400万 人 を,そ して 2002年 には 500万 人 を越 えて 524万 人 に達 し,緩 慢 で は あ るが着実 な増加傾 向 を示 してい た。 しか し,2002年 の 出国 日本人旅 行者数 は 1,652万 人 (2001年 は 1,622万 人 )で ,こ の入 国観 光客数 (2001 年 は 477万 人 )と 出国観 光 客数 との格差 を埋 め るべ く,2002年 6月 25日 に閣議決 定 され た 「経 済財政 運営 と構 造改革 に関す る基本 方針 2002」 に基 づ き,国 土交通省 は 関係 省 庁 と連携 して ,① 2010年 まで に 1,000万 人 の訪 日外 国人旅 行者 数 達 成 を 目標 とす る ビジ ッ ト・ ジ ャパ ン・ キ ャ ンペ ー ンや査 証 取得 緩 和 な どに よる外 国人旅 行 者訪 日促進 戦 略 ,② 外 国人旅行者 受入 れ 戦略 ,③ 観 光産 業 高度化戦 略 ,④ 推進 戦 略 ,の 4つ の基本 戦略 か ら構 成 され る 「グ ローバル 観 光戦 略」 を 2002年 12月 24日 に公表 してい る . これ らの 基本戦 略 の 実施 を受 け,訪 日外 国人旅 行者 数 は 2004年 に 600万 人 を ,2006年 に 700万 人 を ,2007 年 には 800万 人 を越 えて順 調 に増加 してい たが ,2008年 の リー マ ン・ シ ョ ックに よる不況 お よび東 日本 大震 災 の影 響 を受 けて 600万 人 台 へ の 落 ち込み を 2009年 と 2011年 に経験 したが,2012年 の政権 交代 でアベ ノ ミ ク ス政策 が 推進 され て 円安 にな った こ とを受 けて の訪 日外 国人旅 行者数 の急増 が見 られ ,2013年 には 1,000 万人 を突破 し,2014年 に は 1,341万 人 ,2015年 には 1,974万 人 を記録 して 45年 ぶ りに出国 日本 人旅 行者数 を 訪 日外 国人旅 行者数 が上 回 る状況 が発 生 し,2016年 に は 2,404万 人 ,2017年 には 2,869万 人 とな ってい る この よ うな訪 日外 国人旅 行 者数 の急 増 を受 けて ,政 府 (明 日の 日本 を支 える観 光 ビジ ョン構想 会議 )は . , ①観 光 資源 の魅 力 を極 め ,地 方創 生 の礎 に ,② 観 光産業 を革新 し,国 際競争力 を高 め ,我 が 国 の基 幹産業 に , ③ す べ て の旅 行者 が ,ス トレス な く快適 に観 光 を満 喫 で き る環 境 に ,と い う 3つ の視 点 の も とに 10の 改革 を 312
2016年 3月 30日 に提 言 し,訪 日外 国人旅 行者数 と訪 日外 国人旅行 消費 額 を 2020年 に 4,000万 人 と 8兆 円 (一 人 当た り単価 20万 円)に ,2030年 には 6,000万 人 と 15兆 円 (同 25万 円)と し,さ らに地方部 (三 大都 市圏 以外 )の 外 国人延 べ 宿 泊者 数 の地方 部比 率 の増加傾 向を今 後 も維持 し,2020年 には 50%ま で 高 め る とともに , 2030年 には三大 都 市 圏 との比率 を逆 転 させ ,地 方部 を 60%と す る こ と と して ,地 方部 での外 国人延 べ 宿 泊者 数 を 2020年 には 2015年 の 3倍 近 い 増加 とな る 7000万 人 泊 ,2030年 に は 5倍 を超 える 13,000万 人 泊 を 目指 し,外 国人 リピー タ ー 数 も,2020年 は現在 の約 2倍 とな る 2,400万 人 ,2030年 は約 3倍 とな る 3,600万 人 を 目指す とい う新 た な観 光 ビジ ョン 「明 日の 日本 を支 える観 光 ビジ ョン」 を策 定 してい る . 1.2 研 究 の 目的 以上に説明 して きた訪 日外国人旅行者数 の増加傾 向の状況 の もと,全 国 の基礎 自治体は,外 国人旅行者 を 増や して地域活性化 に繋げるべ く,外 国人向けの観光紹介用 ウェブサイ トを構築す るな どして対応 を図ろ う としている.し か し,当 該分野に関す る先行研 究の調査 では,筆 者 の研 究室が 2010年 度 に実施 した全 国の 1,750の 基礎 自治体 の公 式 ウェブサイ トを訪問 して外 国語 に よる観光紹介用 ペ ージの有無 を確認す る 目視調 査 とコンジ ョイ ン ト分析 による中国人 向け観光紹介用 ウェブペ ージの魅力 の決定要因分析 (有 馬他 [1],修 他 [6])の 他 には,基 礎 自治体 の外国人 向け観光紹介用 ウェブペ ージ を対象 とした研究は見 当た らない . そ こで,本 研究では,東 京 23区 を含 む 2017年 10月 10日 時点の全国の 1,741の 市区町村 を対象 に,英 語 中国語 (簡 体字お よび繁体字 , ),ハ ングル な どの外 国語 に よる観光紹介 用ペ ージな らびに外 国人居住者 向け の生活情報提供 ペ ー ジの有無 の調査結果 を用いて,特 に各種外 国語 による観光紹介用ペ ー ジの有無 を被説明 変数 ,基 礎 自治体 の社会経済関係 の統計指標 を説明変数 とす る名義 ロジステ ィクス回帰分析 の適用結果な ら びに実 際 の中国語 (簡 体字)に よる観光紹介用ペー ジを使用 した選択実験 (コ ンジ ョイ ン ト分析 )の 結果 に 基 づ き,基 礎 自治体 の外 国人 向け観光紹介用 ウェブペ ー ジの現状 と課題 について検討す る . 2.基 礎 自治 体 の 観 光紹介 用 お よび生 活 情 報 提供 ペ ー ジの 現状 と特徴 2.1 基礎 自治体の観光紹介用 ウェブページの現状 上 述 した よ うに,全 国 の基礎 自治 体 を対 象 とした外 国語 に よる外 国人旅 行 者 向 け の観 光紹介用 ウェブペ ー ジに 関す る調査 は ,2010年 度 に実施 され た筆者 の研 究室 に よる 目視調 査 以外 に存在 しない。そ こで ,訪 日外 国人 旅 行者 が 861万 人 で あ った 2010年 度 と比較 して ,訪 日外 国人旅 行者 数 が 2,869万 人 と 3.33倍 に増加 した 2017年 度 では観 光紹介 用 ウェブペ ー ジの現状 は ど うな って い るか ,ま た 7年 間 で どの よ うに変化 した か を把 握 す るた めに,再 び ,1,741の 基礎 自治 体 の公式 ウェブサイ トを訪 問 して ,日 視 に よる確認 調査 を行 った。結 果 は ,表 1に 要約 して示 す通 りであ る . 表 1か ら,観 光紹介 用 の 外 国語 ペ ー ジで使 用 され て言語 と して は 14の 言語 が識別 され ,最 も多 い の は 1,110 自治 体 で 開設 され てい る英語 で ,983自 治体 の 中国語 (簡 体 字 ),946自 治 体 のハ ングル ,728自 治体 の 中国 語 (繁 体 字 )と 続 き,こ れ ら 4言 語 に よる観 光紹介用 ウェブ ペ ー ジの 開設 が主 流 で ,以 下 は,ボ ル トガル 語 , スペ イ ン語 ,タ イ語 ,フ ラ ンス語 , ドイ ツ語 ,ロ ジア語 ,ベ トナ ム語 ,イ タ リア語 ,タ ガ ロ グ語 ,イ ン ドネ シ ア語 の順 となってい る。 なお ,表 中の 増加 率 は倍率 で示 してお り,英 語 の ペ ー ジは 353自 治体 か ら 3.1倍 の 1,110自 治体 へ ,中 国語 は簡 体字が 163自 治体 か ら 6Ю 倍 の 983自 治体 ,繁 体 字 が 53自 治体か ら 13.7倍 の 728 自治 体 へ ,ハ ングル が 147自 治体 か ら 6.7倍 の 946自 治体 へ と大 き く増加 して い る . ま た ,図 2に は ,14の 言語別 に,観 光紹介用 ウェブペ ー ジ を設 けて い る基礎 自治体 の分布 を,地 理 情報 シ 313
表 1基 礎 自治体 の公式 ウェブサイトでの外国語による観 光紹介用ページの開設状況と内訳とその変化 2010年 度観光紹介用HP設 置 自治体と内訳 2017年 度観光紹介用HP設 置 自治体と内訳 │││百 右} 使 用言語 (文 字 ) 観光紹介用HP 英語 専門HP 自動翻訳 HP 数 比率 数 比率 1,110 63.8 470 27.0 │11首 簡易 HP 専門HP HP ムケ 観光紹介用 増加率 (倍 ) 比率 数 比率 数 比率 数 比率 640 36.8 353 20.2 283 16.2 70 4.0 3.1 34.6 163 9.3 99 5.7 64 3.7 6.0 数 中国語 (簡 体字 ) 983 56.5 344 19.8 602 /\yr)v 946 54.3 366 21.0 617 35.4 147 8.4 89 5.1 58 3.3 6.4 中国語 (繁 体字 ) 728 41.8 306 17.6 422 24.2 53 3.0 33 1.9 20 1.1 13.7 ポルトガル語 255 14.6 64 191 11.0 48 2.7 33 1.9 15 0.9 5.3 スペ イン語 197 11.3 48 2.8 149 8.6 22 1.3 14 0.8 0.5 9.0 フランス言 吾 115 66 40 2.3 75 4.3 15 0.9 10 0.6 0.3 7.7 0.0 38.0 0.3 7.8 1.6 2.2 0.2 0.2 12 0.7 0.4 37 2.1 0.5 10 0.5 0.3 0.2 81 2.9 11 0.2 0.2 0.0 15.8 54 3.1 12 0.2 0.2 0.0 20.0 45 2.6 0.0 0.0 00 タイ言 吾 114 6.5 38 2.2 76 ドイツ言 吾 94 5.4 24 1.4 70 10 ロシア 語 80 4.6 20 1.1 60 3.4 11 イタリア語 65 3.7 12 0.7 53 3.0 12 ベ トナ ム語 63 3.6 13 0.7 50 13 タガ ログ語 60 3.4 0.3 14 インドネシア語 50 2.9 03 4.4 12 ③ ハ ングル ②中国語 (簡 体字) (1)英 語 ′'' ④中国語 (繁 体字) ′ ′ ⑥スペイン語 ⑤ ボル トガル語 28 ´ ′ ⑦タイ語 ③フランス語 ①ベ トナム語 ⑫イタリア語 ・ ,´ ⑩ ロシア語 ⑨ドイツ語 醤 ︐ 0 ⑬タガログ語 ⑭インドネシア語 書 E 懸薔 ■ ■ 日 ■ EE E 日■ 目 I■■日 ∞ /´ ど ●●o,,年 ‖ │ 麟̲ を ` 場 β Ftxヽく ぎ 、 は'魃曇ネ ち。 もざ くだ ` え 図 2 外国語による観光紹介用 HP設 置 自治体 の分布 薔饉 機口 麟̲醸 … 饉轟 ●,0,0年 =倉 ,総 量 .(′ 図 3 外 国語 に よ る観 光 紹介用 HP設 置 率 の変化 314
表 2 外 国語 に よる観 光紹介用 ウェブペ ー ジの設 定 自治 体 に 関す る 2項 ロジス テ ィ ック回帰 分析 結果
英語
英語
自動 翻訳
推 定値
推 定値
)\>r)v
′ヽ
ングル
自動翻訳
簡体 宇
簡体宇
自動翻 訳
繁 体字
繁 体字
自動 翻訳
ロシ ア 語
ロンア語
自動翻訳
フランス語
推 定値
推 定値
推 定値
推 定値
推 定値
推 定値
推 定値
フランス語
自動翻訳
サンプル数
観 光 HP開 設 自治 体 数
(‑1)*対 数 尤 度
McFaddenの 擬 似 決 定係 数
項
切り
│
自治体種別
政 令 市(70万 以上 )
中核 市 (20万 以 上
特男 区(23区
│」
)
‑110,̀
)
人 口10万 未 満 の市
町
村
00̀
外国 人 人 口比 率
第3次 産業従菫童比奎̲̲̲̲̲
ドイツ語
ドイツ語
自動翻訳
ポルトガル語
推 定値
推定値
推 定値
タイ言
吾
自動翻訳
タイ語
自動 翻 訳
スペイン語
スペイン語
自動翻訳
ベ トナム語
推 定値
推 定値
推 定値
ベ トナム語
自動翻訳
インドネア語
自動翻 訳
サンプル数
観 光 HP開 設 自治 体 数
(‑1)*対 数尤 度
McPaddenの 擬 似 決 定係 数
推 定値
推 定値
推 定値
‐0′ ,."
切片
推 定値
自治体種別
政令市(70互 墜 上
)
中核 市 (20万 以 上 )
特別 区(23区 )
平 成 22年 〜 27年 の 人 口増 加 率
第 3次 産 業 従 業 者 比 率
人 ロー 人 当 た り商 業 年 間 販 売 額
財政 力 指数 (市 町村 財政 )
都道府 県所 在 地 ダミー
注 )推 定値 は (「 HPが ある」/「 HPが ない」)の 対数 オッズ に対するものである 推 定 値 の横 の ''・ .**.=は .そ れ ぞれ 1%.5%.10%の 有意水準 で推 定値 が 有 意 であることを示す
表 3 外国語 による生活 情報提供 ウェブペ ー ジ開設 自治体数 と観 光紹介用 ウェブペ ー ジ開設状況 との関係
)\>r/v
繁 体 中文
ロン ア 語
タイ語
スペ イン語
ベ トナム
観 光紹 介 用 HP
観 光紹介
生 活 情報
ある
なt
イタリア言
吾 タガログ語
な t
なし
1 10,
自治 体 数
表 4 外 国語 に よる生活 情報 提供 ウェブペ ー ジの設 定 自治 体 に 関す る 2項 ロ ジステ ィ ック回帰 分析 結果
ロシア語
英語
フランス語
推 定値
切一 自 治 体 種 別
I」
ドイツお
推 定値
推 定値
4.072
麗
述
m2山
タイ言
吾
スペイン語
推定値
推定値
"'
2.t06 {r'
̲̲̲̲
中核市立■互以上
0.900
)
特.Я l区 (23区 )̲
*"'
0.536
人 ユ ユ 巫 担 墜 」 二 ̲̲̲
町
0.218
-2.705
21.945
-0.r63
0.262
**'
-
"'
-0.007
0.000
2.923'r'
注)推 定値 は (「 HPが ある」/「 HPが ない」)の 対 数オッズ に対するものである 推定値 の横 の
‐
'.・ '.・ は
それぞれ 196.5%.lo%の 有意水準で推 定値が有意 であることを示す
315
推 定値
ス テ ム ArcGISを 利 用 して コロプ レス 図 で示 してい る .詳 細 な分析 は紙数 の 関係 で割愛す るが ,ロ ジア語 に よ る ウ ェブペ ー ジ は 日本海 お よびオ ホ ー ツ ク海側 の 自治 体 に偏 在 してい るな ど,空 路や海路 を通 じての経済地 理 学 的 な地域 間 の 関係 も外 国語 に よる観 光紹介 用 ペ ー ジの 開設 に影響 を及 ほ してい るこ とが 窺 え る . 2010年 度 か ら 2017年 度 にか けて の外 国語 による観 光紹介 用 の ウェブペ ー ジの 開設 自治 体 数 の変化 につ い て は ,表 1の 最後 列 の伸 び率 の列 に示す とともに ,図 3に 設 置率 の変化 を棒 グ ラ フで示 して い る。図 3か ら , 国際 的 な実質上 の標 準語 とみ な され て い る英語 に よる ウ ェブ ペ ー ジは着 実 に増 加 してい るが ,国 別 の外 国人 旅 行者 数 の伸 び に応 じるよ うに,東 ア ジア の 国・ 地域 の 言語 で ある中国語 (簡 体字 と繁体 字 )お よびハ ング ル に よる ウェブ サ イ トの開設 が ,欧 州 。中南米諸 国 の 言語 に よる ウェブ サイ トの開設 と比較 して大 きく伸 び てお り,絶 対数 は少 な い ものの ,東 南 ア ジア諸 国 の言語 に よる ウェブ サイ トの 開設 も 7年 前 に は 0自 治体 で あ りなが ら 50自 治体 が開設 す るに至 っ たイ ン ドネ シア 語 を含 めて ,大 き く伸 長 してい る こ とが分か る . 2.2 外 国語 に よる観 光紹介 用 ウ ェブ ペ ー ジ を設 置 して い る 自治 体 の特徴 以 上 の 現状 と 7年 前 か らの変化 を踏 ま えて ,外 国語 に よる観 光紹介用 ウ ェブ ペ ージ を公 式 ウ ェブサイ トに 設 けて い る 自治 体 は ,設 けて い な い 自治体 と比較 して どの よ うな特徴 を有 して い るかを把 握 す る ことを 目的 に , 2項 ロジス テ ィ ック回帰分析 の適 用 を試 みた .具 体 的 に は,総 務省 統 計 局 が提供 して い る 「統計 でみ る 市 区町村 のす が た 2017」 の人 口 。世 帯 , 自然環境 ,経 済 基盤 ,行 政基盤 ,教 育 ,労 働 ,文 化 ・ スポーツ,居 住 ,健 康 。医療 ,福 祉・ 社 会保 障 ,安 全 の 11分 野 の 100の 変数 の基礎 デ ー タ を ,2016年 以 降 の 市町村合併結 果 を反 映 させ て 1,741の 市 区町村別 に再編成 させ てデ ー タベ ー ス を作成 し,被 説 明変数 と して は 14の 外 国語 の 「自動翻 訳 に よ るホ ー ムペ ー ジ (以 降 , 自動翻訳 HPと 略記 )と 使用外 国語 に よる専用 ホー ムペ ー ジ (以 降 ,専 用 HPと 略記 )を 区別 しな い ホー ムペ ー ジ (以 降 ,HPと 略記 )の 有 無 」 ,「 専用 HPの 有無」,お よ び 「自動翻訳 HPの 有無」 を ,説 明変数 と しては人 口規模 に よる 自治体 区分 ダ ミー (人 口 10万 人以 上の市 を 基 準 に ,政 令 市 ,中 核 市 ,特 別 区 ,人 口 10万 人未満 の 市 ,町 ,村 ),平 成 22年 (2010年 )か ら平成 27年 (2015年 )に か けて の人 口増加 率 ,外 国人人 口比率 ,第 3次 産業従業者 比 率 ,人 ロー人 当た り商業年間販 売 額 ,財 政力指数 ,都 道府 県庁所在 地 ダ ミー な どを選 択 的 に設 定 して ,JMP vcrl■ 0の ロジス テ ィ ック回帰分析 を適 用 した。 分析結果 の一 部 を表 2に 示す が ,す べ ての言語 で McFaddcnの 疑似決 定係 数 の値 は低 い も の の ,専 用 HPの 開設 に関 して は ,推 定 され た係数 の符 号 が有意 でプ ラ ス で あ るのは ,人 口 10万 人以上 の 市 を基 準 とした場合 の政令 市 ,第 3次 産 業従業者比 率 ,人 ロー人 当た り商 業年 間販売額 で あ り,逆 に係数 の符 号 が有意 でマ イナ ス で あ る変数 は ,財 政力指数 とな って い る。す なわ ち ,政 令 市で第 3次 産 業 従 業者比率 と人 ロー 人 当た り商 業年 間販 売額 が 高 く,財 政 力指数 は低 い 自治 体 で外 国語 に よる専用 の観 光紹 介 用 ウェブペ ー ジが公式 ウェ ブ サ イ ト内 に設 け られ て い る可能性 が高 い こ とが示 され ,町 や 村 では外 国語 に よる専用 の観 光 紹 介用 ウェブペ ー ジが公 式 ウ ェブ サイ ト内に開設 され てい な い 可能性 が 高 い こ とが示 され て い る.一 方 , 自動 翻訳 HPに 関 しては ,係 数 の 符 号 がプ ラスで 有意 な の は特別 区 と財 政 力指数 であ り,係 数 の符 号がマ イ ナ スで有意 で あ る の は政令 市 ,中 核 市 ,町 ,村 お よび人 口増加 率 で あ る とい う傾 向 が見 られ る . なお ,表 2に 示 され る各説 明変数 の係 数 の推 定値 は ,HPが 開設 され て い る こ とに関す る対 数 オ ッズに対す る説 明変数 の係 数 で あ り,こ の係 数 の 推 定値 と切 片 の 推 定値 を用 いてオ ッズ 比 が ,オ ッズ比 を用 いて他 の説 明変数 が 0で 他 の ダ ミー 変数 が基 準値 の場合 の HPが 開設 され てい る確 率 を推 計す る こ とが で きる。 例 えば ,英 語 の 専用 HPの 場合 ,政 令 市 の係数 と切 片 の推 定値 は 1433と ■.047で あ るか ら,オ ッズ比 は ep(‑1.047+1.433)/exp(‐ 1.047)=4.19と な り,政 令 市 で は人 口 10万 人以 上 の 市 と比較 して ,4■ 9倍 だ け英語 316
の 専用 HPが 開設 され る可能性 が 高 い と推 定 され る .ま た ,cxp(‑1.047+1.433)/(1+cxp(― ■047+1.433))=0.595 よ り,政 令市 で英 語 の 専用 HPが 開設 され てい る確 率 は 595%と 推 定 され るが ,本 稿 で は ,紙 数 の 関係 か ら , オ ッズ比 と確 率 の 推 定結果 の表 は割 愛 してい る . 2.3 基礎 自治体 の外国語 での生活情報提供 ウェブペ ー ジの 開設 の現状 と特 徴 日本 は ,移 民政 策 を実施 してい るわ けではな いが ,2017年 6月 時点 で の 中長 期在 留者 数 は約 213万 人 ,特 別 永 住者数 は約 33万 人 で ,こ れ らを合 わせ た在 留外 国人数 は 2,471,458人 となってい る。在 留外 国人 の 国籍 は ,中 国 が最 多 の約 66.6万 人 で ,以 下 ,韓 国 ,フ ィ リ ピン,ブ ラジル ,ベ トナ ムの順 とな ってい る.ま た , 在 留外 国人 の約 2割 にあた る 48万 人 が 東京都 に居 住 してお り,以 下 ,愛 知 県 ,大 阪府 ,神 奈川 県 ,埼 玉 県 , 千葉 県 ,兵 庫 県 ,静 岡県 ,福 岡県 ,茨 城 県 の順 とな って い る . この よ うに在 留 外 国人 が増加 して い る こ とを受 け ,彼 らの 日常生活 を支 援 す る こ とが重 要 な課題 となって きてお り,公 式 ウェブサイ トか ら各 種 の外 国語 で生活 情 報 を提供す る 自治 体 も増 えて きて い る。 この よ うな 状 況 の もと, 日本 全 国 の 1,741の 基 礎 自治体 の公 式 ウェブ サイ トヘ ア クセ ス して ,外 国語 に よる ゴ ミ出 しや 医療 や子供 の 教 育 な どに関す る生活 情 報 を提供す るペ ー ジが提供 され て い るか ど うか を , 日本 に住 んでい る 中国人 の 日線 で 目視 に よって調査 した 。 結果 は表 3に 示 す 通 りで,外 国語 で の生 活情報 を提 供 す る言語 と し て は 13言 語 が識 別 され ,最 も多 い の は 185の 自治体 で提 供 され てい る英 語 で ,続 い て 166自 治体 の 中国語 (簡 体字 ),135自 治体 のハ ングル ,124自 治体 の ポル トガル語 の順 とな って い る。生活 情 報 を提供す る外 国 語 のペ ー ジは ,観 光紹介用 のペ ー ジ とは異 な り, 自動 翻 訳 に よるもの は な く,全 てが きちん と専 門的 に翻 訳 され たペ ー ジで ,内 容 の有用性 は高 い もの となつて い る . また ,外 国語 に よる生活 情報 を提 供 してい る自治 体 は どの よ うな特徴 を有 してい るか を把 握 す る ことを 目 的 に ,観 光紹介 用 ウェブペ ー ジ を開設 してい る 自治体 の 分析 の場合 と同 じよ うに ,2項 ロ ジステ ィ ック回帰 分析 の適応 も試 み た .結 果 の一 部 を表 4に 示すが ,人 口規模 を反映す る行 政 区分 では政 令 市や 中核 市 な どの 大都 市 で ,ま た財 政力指数 が高い 自治 体 な らびに外 国人 人 口比率が 高 い 自治 体 で ,外 国語 に よる生活 情報提 供 ペ ー ジが公 式 ウ ェ ブサイ ト内に設 け られ てい る可能性 が 有意 に高い こ とが示 され てい る。 3.コ ンジ ョイ ン ト分析 による簡体字 の観光紹介ペ ー ジの評価 近年 の訪 日外 国人旅行者 の特徴は,団 体旅行ではな く,個 人旅行客や家族や友人な どとの小 グル ープによ る旅行客が多い とい うことにある.彼 らは,来 日前 に各種 の旅行案内書や SNSや 旅行代理店 な どを通 じて旅 行先 の情報 を入手 し, 自らがイ ンター ネ ッ トな どを通 じてホテルや交通 手段 を予約 して手作 りの旅行 を楽 し んでい る。本稿 の第 2章 では,基 礎 自治体 の外国語 による観光紹介用 ウェブペ ー ジの開設 状況 の 目視調査結 果 を示 したが,多 くの基礎 自治体が公 式 ウェブサイ トの 中に外国語による観 光紹介用ペ ー ジを開設 している のは,こ のよ うな個人や小 グルー プの外 国人旅行客 をター ゲ ッ トとして ,プ ロモー シ ョンのた めの一つの手 段 として位置付 けてい るか らである と考 え られ る . しか し,一 部 の 自治体 の外国語 による観光紹介用ペ ー ジは,解 説文が稚拙 であった り,写 真や提供情報や メニ ュー が貧弱で,修 アクセス した潜在 的外国人旅行客 の 関心を高めるど ころか,か えって 関心や興味を減 じるよ うなペ ー ジ となつている事例 も見受 け られ る . 有馬他 [1]お よび修他 [6]は ,こ の よ うな状況 を逸 早 く察知 して,中 国語 の 簡体字による専用 HPの 評価 を 目指 して,コ ンジ ョイ ン ト分析 (選 択 実験 )を 適用 しての属性評価 を試み ている.本 研 究では,こ の先行 317
表 5 :プ コ ンジ ョイ ン ト分 析 でのプ ロフ ァイ ル ロファイル 表6 コ ン ジ ョイ ン ト分析 に よる部分効用値 推 定結果 2項 選 択デ ータに 文章 写真 拙文 多い 拙文 少ない 十分 拙文 普通 少 ない 対する ロジスティック 回帰分析 結 果 90 普通 サンブル 3197 │‑1 自動翻訳 少ない 普通 自動翻訳 多い 少ない 項 自動翻 訳 普通 十分 切片 美 文 多い 十分 姜文 普通 普通 美文 美文 少ない 少ない 普通 052 決定 解説文 写真 研 究 か ら 7年 が経過 して い る ことか ら,修 他 [6]の 研 究 を参 考 に ,同 じ属 性 と水 準 を用 い て ,改 めて コ ンジ ョイ ン ト分析 を適用す る調 1 推定値 4段 階評価 デ ータに 対する 重回帰 分析結 果 90 │ 067 │ │ 推定値 -12.62 5.42 14 23 l* I 翻訳 多い I 6.3s e.e6 l*. -4.63 s.s8 I 観光情報 メニュー 十分 1) 各属性の基準値 は、解説 文 中 I I 3.e8 │ ‑0.30 l*' ‑167 ‑0.30 ‑087 ‑007 ‑040 「少ない」、観光メニユ 「不十分」である。 =は (「 行ってみたいと思う」/「 思わない」) 注2)ロ ジスティック回帰では、 の対糞オジ鮮対する螂齢胡そ記載。̲̲̲ 査を行い,簡 体字による 観光紹介HPの 評価 異なるのは を試みた.修 他[6]の 先行研究と ̲ ̲̲ │ ど堵lT' 1醍属叩2篤 撃 殺 蓄 J薫留 暴晶誓 謝麗 ‐ , 乱嚇製繋禦:IttI等 幌晶穆ll懲 了轟雇馨輩兵:i111 1現 1寒 修他「61で は 当時 の札 幌 市 の 簡体字 に よ る観 光紹 介 用 ウ ェブペ ー ジ をベ ー ス にプ ロフ ァイ ル とな る架 空 の ペ ー ジを作成 して提示 して い た の に対 し て ,本 研 究 で は,実 際 に存 在す る自治体 のペ ー ジをプ ロ フ ァイル として提 示 して評価 を行 って も らった 点 にあ る . 簡体字 による観光紹介用 ウェブペー ジの コ ンジ ョイ ン ト分析 による評価 に際 して ,評 価 のための属性 の抽 出にあたっては,自 治体 が提供 している簡体字 の観光紹介用 のペ ー ジを閲覧 した上で,修 他 [6]の 先行研究 と 同様 に,① 解説 文章 の巧拙 ,② 写真 の多寡 ,③ 観光情報 メニ ュー の充実,の 3属 性 を取 り上げるこ とに した そ の上で,解 説文章 の巧拙 に対 しては,1)美 しい文章,2)意 味 は通 じるが拙い文章 ,3)自 動翻訳 ソフ トを利用 . した意味が通 じない部分 も文法的にもお か しな部分 もある文章 ,の 3水 準 を,写 真 の多寡 に対 しては,1)多 い,2)普 通 ,3)少 ない ,の 3水 準を,観 光情報 メニュー の充実 に対 しては,1)十 分 ,2)普 通 ,3)少 ない,の 3 水準 を設 定 し,JMPの ス ク リーニング計画 を利用 して,表 5に 示す よ うに 9つ のプ ロフ ァイル を生成 し,各 プ ロフ ァイル に対応す る簡体字による観光紹介用ページを全 国 の 自治体 の ウェブペ ージか ら選定 した。 選択実験 は,2018年 1月 に 日本国内在住 の 中国か らの留学生 8名 と社会人 2名 の計 10名 (性 別 は男性が 4 名 で女性 6名 ,年 齢は 20代 が 8名 ,30代 が 2名 )を 対象 に実施 した.被 験者 には,PCや スマー トフォ ンか ら 9つ の 自治体の簡体字で の観光紹介用ペ ー ジにアクセ ス して もらい,そ れぞれ のペ ージご とに,行 ってみ たい と 「思 う」か 「思 わな い」かの 2項 選択 と,「 魅力的で ある」,「 どち らか と言 えば魅力的 である」,「 どち らか と言 えば魅力的でない 」,「 魅力的でないやや悪 い」,「 非常に悪 い」 の 4段 階評価 を行 って も らった . この回答デ ー タに対 して ,デ ー タをプール した上で,2項 選択デー タに関 しては ロジステ ィ ック回帰分析 を,4段 階評価 デー タに関 しては 4点 か ら 1点 までの間隔尺度 で測定 されたデ ー タ とみな して重 回帰分析を 適用 し,各 属性 。各水準 の部分効用値 の推定 を行 った . ロジステ ィック回帰分析 と重回帰分析 の推 定結果 を表 6に 示すが,表 6か らは,属 性 内の部分効用値 の範 囲の値 の大小か ら,属 性 としては解説文 の巧拙 が評価 に最 も大 きく影響 し,次 いで観光情報 メニ ューの充実 と写真 の多寡 がほぼ同 じ程度で評価に影響 してい ることが分 か る。各属性 の水準 について は,写 真 の多 さと 解説文 が美文であるこ とのプ ラスの部分効用値 が統計的に有意 となつてい る.す なわち,簡 体字 の観光紹介 用ペ ー ジに関 しては,写 真 を多 く配置 し, 日本語 の解説文 を 自動翻訳 ソフ トを利用 して翻訳 して紹介するの 318
ではなく,き ちん とした綺麗 な中国語で紹介す ることで,ペ ージの閲覧者 の効用 と関心が高ま り,訪 間 の可 能性が高まるこ とが示 された と言 える.た だ し,観 光情報 メニュー の充 実については,メ ニ ューが十分で充 実 している水準 よ りはメニュー が普通 の水準 の方が部分効用値は高 く,あ ま り多 くの情報 を詰 め込みす ぎる と,か えって閲覧者 の効用水準は低 下す ることが示 され ている . なお,JMPに よる コンジ ョイ ン ト分析 の手順は,以 下 の通 りであ る。 ①分析 のための属性 の決定 と各属性 での水準の設定 , ②恥Pを 起動 し,「 実験計画」 ― 「ス ク リーニング計画 」 とメニ ュー を選択 ,(「 カス タム計画」を選択 して も 可能) ③ ス ク リーニ ング計画 の画面 で,属 性 の数だけ,因 子 の欄 に,「 カテ ゴ リカル」をク リック してプルダ ウンメ ニューか ら該 当す る水準数 をク リック して,名 前 の欄 に属性名 ,値 の欄 に水準名 を入力す る操作 を繰 り返 して,属 性名 と水準名が入力 され ていることを確認 して 「続行」 ボ タンをクリック . ④ 「ス クリーニ ング計画 の種類 を選択」 の画面で,「 主効果 のみに対す る直交計画 (も しくは殆 直交計画 ) を作成」 の ラジオボタンを選択 して,「 続行」 ボ タ ン をク リック , ⑤ 「計画 の生成」 の画面で,実 験 の回数 として例 えば 「デ フォル ト値 9」 の ラジオボ タン選択 して,「 計画 の作成」 ボタンをク リック , ⑥ 「計画 の評価 」 の画面で,「 実験 の順序」でプ ロフ ァイル番号 の付 け方 に応 じて,適 切 な選択 を行 って , 「テー ブルの作成」 ボタンをク リック , ⑦サ ンプル数 が少 ない場合 は,作 成 されたテー ブル で,サ ンプルの数 だ け,属 性 の列 に水準名が入った行 を コピー して,対 応す るプ ロフ ァイル に対す る各サ ンプル の評価 (2項 選択デー タであれ ば名義尺度で 0ま たは 1の 数字 ,4段 階評価 であれ ば 1,2,3,4の いずれかの数値 )を 入力 , ③評価デー タの入力が完了 した ら,「 分析」 ― 「モデル のあてはめ」 で ,役 割変数 の選択 で評価デー タの列 を Yに ,属 性 の列すべ てをモデル 効果 の構成に 「追加 」 ボタンで設 定 し,役 割変数 が名 義尺度 あるい は順 序尺度 の場合 は名義 ロジステ ィ ックあるいは順序 ロジステ ィックを,連 続尺度 の場合 は標準最小 2乗 を適 用 して 「実行」 ボ タンをク リック , ⑨結果 として表示 され る分析結果 を解釈す る。なお ,■ ● では,説 明変数 が名義尺度 あるいは順序尺度 の場 合は Mttgmal法 でダ ミー変数が生成 され るので,一 般 的な P酎 ね1法 でのダ ミー変数 の係数 を求めたい場合 は変換作業または Parthl法 でダ ミー変数 を作成 しておいてか ら 「モ デ ル のあてはめ」 を実行す ることが必 要 . 4. お わ りに 本稿 では,海 外 か らの観 光 客誘 致 と地域 での国際交流 の推進 に向 けて ,地 方 自治体 の公 式 ウェブサイ ト内 に設 定 され る外 国語 での観 光紹 介用 ペ ー ジな らび に生 活 情 報提供 ペ ー ジ の果 たす役割 と効 果 を検証す べ く , 全 国 1,741の 基礎 自治体 の公 式 ウェブ サイ トを外 国人観 光 客 (特 に中国人 観 光客)お よび外 国人居住者 (中 国 人留学生 )の 視 点 か ら目視 で悉 皆調 査 し,外 国語 に よ る観 光紹介 ペ ー ジ と生活情報提供 ペ ー ジの 開設 の 現状 を明 らかに し, 自治 体 が発信 す る観 光 紹介用 ペ ー ジが急 増 す る中国か らの観 光客 へ の訴 求効 果 を有す るか ど うか の評価 のた め に , コ ンジ ョイ ン ト分析 を適用す る分析 も行 った . しか し,自 治体 の公 式 ウェブ サイ トの悉皆調査 で は ,見 逃 してい るペ ー ジがあった り, 自治体 の公 式 ウ ェ ブサイ トでは提 供 され てい な いが観 光 協会や コンベ ンシ ョン ビュー ロー な どの第 3セ クター の ウェブ サイ ト 319
や上位 の都 道府 県 な どの ウ ェブ サ イ トで紹介 され てい る場合 を見逃 してい るな ど,完 全 で あ る とは言 えず , さらな る分析 とさらな る調 査 を実施 したい と考 えてい る。 また ,国 土交通省観 光庁や 日本 政府観 光局 は それ ぞれが外 国人 向 け の外 国語 に よ る観 光紹介用 の ウェブサ イ ト (htps:〃 www」 ■0.gO」 p/,http:〃 www.m肛 goJp/kankochO/en/kankochihtml)を 開設 してい るが ,全 国 の 自治体 が整 備 ・ 公 開 してい る災害種別 の pdf形 式 の ハ ザ ー ドマ ップのペ ー ジに リンクをた どるこ とで比 較 的容易 に 到達 で きて閲覧す るこ とが で き る 「わが ま ちハ ザ ー ドマ ップ 」 (https://disapo■ al.gsi.go」 ノhttardm叩 /)の よ う に,言 語 別 に 自治体 の観 光紹 介 用 ウェブペ ー ジ に リンクが張 られ て , 日本全 国 の 自治 体 が発信 す る観 光情報 に簡 単 にア クセ ス で きるポ ー タル サイ トは用 意 され ていない のが 現状 で あ る.す な わ ち,全 国 の 自治体 が発 信 して い る外 国語 に よる観 光紹 介 ペ ー ジや そ こか ら発信 され る観 光情報 は有機 的 に つ なが って お らず ,地 理 に不案 内 な外 国人旅行 客 に とって も簡 単 には希 望 自治体 のペ ー ジにア クセ ス で きな い まま ,せ っか くの観 光 情報 資源 が活用 され な い まま とな ってい るのが現状 である . スマ ー トフォ ンを利用す る外 国人旅行 客 が 多 い 状況 を受 けて ,有 馬 [3]な どに よつて構築 され てい る,GPS 機 能 で取 得 した 現在地や駅 名 や ラ ン ドマー ク名 入 力 に よる当該地 点 を含 む 自治 体 の ハ ザ ー ドマ ップや 防災 関 連 ウェブ ペ ー ジがチ ェ ックで き る防災 アプ リ 「ハ ザ ー ドチ ェ ッカ ー 」 のプ ラ ッ トフォ ー ム を利 用 して ,地 理 に不案 内 な外 国人旅行 客 で も 日本 全 国 の 自治 体 が 発信す る観 光情 報 の 中 か ら希 望 す る 自治体や希 望す る観 光 資源 別 の 情 報 に簡 単に ア クセ ス で きるポ ー タル サ イ トの構 築 を行 うこ とで ,観 光情 報 と防災情報 を リンク さ せ た外 国人旅 行客 向け の新 た で有 用 な情報源 が提 供 でき るもの と思 われ る . 注 :本 稿 は,有 馬・ 王[2]に 加 筆 して作成 した ものである.な お , ウェブアプ リで ,ス マー トフォ ンあるい は PCか らイ ンターネ ッ トを介 してアクセ スす るだけで利用できる防災アプ リ「ハ ザー ドチ ェ ッカー」に関 し ては ,http:〃 urx3.nWzk2Fに ア クセ ス す るか ,「 ハ ザ ー ドチ ェ ッカー 」 で検 索 され たい 。 参考文献 [1]有 馬 昌宏・修楊・有馬典孝 ,「 自治体 の外 国人向け観光紹介用 ウェブサイ トの現状 と課題」,『 経営情報 学会 2011年 秋季全国研究発表大会予稿集 (ウ ェブ版)』 ,経 営情報学会 ,2011. [2]有 馬 昌宏・王源 ,「 自治体 の外国人 向け観光紹介用 ウェブサイ トの現状 と課題 学会 2018年 春季全国研究発表大会予稿集 (ウ ェブ版)』 (そ の 2)」 ,『 経営情報 ,経 営情報学会,2018. [3]有 馬 昌宏 ,「 ソフ ト防災 に果 たす防災アプ リの可能性 と課題」,『 横幹』,Volll,No.2,pp.145‑155,特 定非営利法人横断型基幹科学技術研究団体連合,2017. [4]国 土交通省観光庁 ウェブサイ ト,http:〃 wwwmLgoJp/kankocho/. [5]田 中洋平・黒田佳代・加 藤雅宣・川 向肇 。有馬 昌宏 ,「 行政施策評価へ の コ ンジ ョイン ト分析適用 の可能 性 と課題 」 ,『 SAS Forumユ ーザー会学術総会 2006論 文集』 ,pp.261‐ 270,SAS Forumユ ー ザー会,2006. [6]修 楊 。有馬 昌宏・有馬典孝 ,「 自治体 の外 国人向け観光紹介用 ウェブサイ トの現状 と課題」,『 経営情報 学会 2011年 秋季全国研 究発表大会予稿集 (ウ ェブ版 )』 ,経 営情報学会 ,2011. [7]修 楊 。有馬典孝 。有馬 昌宏 ,「 自治体 ウェブサイ トにおける外 国語 による観光紹介ペ ージの現状 と課題 」 , 『 SASユ ーザー総会 アカデ ミア・テクノ ロジー &ソ リュー シ ョンセ ッシ ョン in神 戸 2011論 文集』,pp.47‑ 52, 2011. [8]日 本 政 府 観 光 局 ウ ェ ブ サ イ ト,https:〃 wwwjntO.gO」 p/jpMndexhml. 320
標準化死亡比 (SMR)の 地域差 の考察 オープンデー タを活用 したベイズモデルによる空間分析 : ○竹村俊男 1、 新谷彩夏 1、 古勝 大智 1、 上 田篤志 1 (1株 式会社分析屋 ) 罹患率・ 死亡率な どの医療デ ー タにつ いて ,都 道府県単位 での分析は比較 的行われて い る一 方で 市町村 単位 における分析 につい ては十分 に行 われていない , . 本 報 告 で は ,オ ー プ ン デ ー タを活 用 し,県 内市町村 を単 位 と した脳 血 管 疾 患 の標 準 化 死 亡比 (SMR)お よび空 間的な相 関 を考慮 したCARモ デ ル (条 件付 自己 回帰 モ デル )に よる推定値 をMCMCプ ロ シジ ャに よって算 出 した上 で ,疾 病地 図 に よる可視化 を行 う.さ らに, 目的変数 をCARモ デ ル によ る推 定値 ,説 明変数 を医療 資源 ,社 会経 済 因子 とし,重 回 帰 分析 によ っ て そ の 関係 を考 察 す る . 題材 と して ,弊 社本社 の 所在地 であ る神奈川 県 を対象 に ,協 会 けんぽ神 奈 川 支部 の上位 目標 に位 置 づ け られ ている脳血 管疾 患 に よる死亡 (平 成 20年 〜 平成 24年 )を 取 り上 げ る . 可視化 の結果 ,通 常 の SMRと 比 較す る と,空 間的な相 関 を考 慮 したCARモ デ ル では,人 口が少 ない 地域 にお ける分散 が小 さ くな り,よ り精度 の 高 い推 定 とな つ ているこ とが示 された.ま た重 回帰 分析 の結果 によると,大 卒以 上の学歴 ,薬 剤 師 が多 い 地域 ほ ど,逆 に救急 医療施設数 ,一 般 診療所 施設数 が少 ない地 域 ほ ど,SMRが 低 い傾 向がみ られた。 本報告 の結論 として ,① 市町村 単位 の 可視化 は疾病状況 の 把握 に有用 で あ る,② CARモ デ ル に よ って精度 の 高 い推定 が 可能 となる,③ オー プ ンデ ー タの活 用 に よ り,SMRに 関連 の ある要 因や検討 が必 要 な事柄 につい ての示 唆 が得 られ る,こ とが挙げ られ る . キー ワー ド :標 準化死 亡比 (SMR),ベ イ ズ推 定 ,CARモ デ ル ,医 療資源 ,社 会経済指標 生態学的研 究 ,疾 病地図,オ ー プ ンデー タ 323 ,
韓 │■ 1繊 .│ ● ● =
SASを 用 いた吉本新喜劇 (本 公 演)の 現状分析 ○坂部 (公 益財団法人 裕美 子 統計情報研 究 開発 センター ) An Analysis of the Current Yoshimoto New Comedy by Using SAS Yumiko Sakabe Statistical Information Institute for Consulting and Analysis 要旨 吉本 新 喜劇 の HPに 掲載 され てい る過 去 の公 演 デ ー タを SASで 読み込 んで 集 計用デ ー タ と して整 備 し、 座長 別 の 年 間公演 回数 や 、座 員 の公演 出演 回数 を集計 した 。 また、座長 と座 員 の組 み合 わせ (座 組 )に つい て も考察 を行 い 、座 長 ご との座組傾 向 の 差 を探 っ た。 キー ワー ド :吉 本新 喜劇 、 時系列比較 、URLア クセ ス方 式 、 nouniqtlekyオ プ シ ョン、uniquco■ オプシ ョ ン は じめ に 吉本 新 喜劇 は、2019年 3月 に創設 60周 年 を迎 える。 関西 以 西 で は 「おな じみ 」 の存在で あ る と思 われ る が 、 関東 以東 では、新 喜劇 のテ レビ OAを 視 聴 可能 な層 が 限定 的 な こともあ り、 そ の存在 はあま り浸透 して い な い 。 筆 者 は以前 、や は りあま り広 く知 られ てい ない東 京 の 寄 席 定席公演 の 現 状 を、実際 の公 演 デ ー タの 集計 結 果 か ら分析 した経 験 が あ るので 、今 回 も同様 に、上演 デ ー タを集計用 に整 備 し、様 々 な考 察 を加 えて み よ うと考 えた。 集 計 対 象 デ ー タにつ い て 1.吉 本新喜劇について 吉本 新 喜劇 は、 1959年 に 「吉本 ヴァラエ テ ィ」 と して始 ま っ た。 開始 当初 か ら舞 台 中継番組 と してテ レビ で放 送 す る こ とを前提 に制 作 され てお り、現 在 まで続 く このテ レ ビ放送 によって 、 吉本新喜劇 は 関西 圏で絶 大 な知名 度 を得 るこ とにな る。 出演者 は 、時 折 出演す るゲ ス トを 除 けば全員 が 吉 本 興業 に所属 す る新 喜劇 の 「座員 」で 、脚 本 もす べ て座 付 き作家が書 い て い る。公演 は 、 「本 公 演」と呼 ばれ る、漫才や落語 を含 む通常 公演 の 後 半部 分 に組 み込 まれ るのが基本 で あ り、そ の点が、 単 体 上演 を基本 とす る松竹新喜劇 とは異 な って い る。 327
舞 台公演 は、 「な ん ば グラン ド花 月 」 (大 阪市 中央 区 )、 「よ しもと西梅 田劇 場 」 (大 阪 市 北 区 )、 「よ し も と祗 園花月」 (京 都 市東 山区)の 3劇 場 で毎 日、 1日 1〜 2回 上 演 され て い る (多 客時 には 4回 公演 とい う こ ともあ る)。 東 京 で も「ル ミネ theよ しも と」 (東 京都 新 宿 区)で のスペ シ ャル 公 演や 「東 京 グ ラ ン ド花月」 公 演 (会 館 を借 りて の 特別公演 )な どで、新喜劇 の生 の 舞 台 を見 る機 会 は あ る。 さらに 2018年 3〜 6月 には 「吉本新喜劇 全 国 ツアー2018」 と題 して、北海道 か ら沖 縄 までの全国 23都 道 府 県 で 、新 喜劇 単 体 での 44公 演 が行 われた。 2.集 計対象デ ー タ 筆者 は生まれ も育 ち も関東で あ り、今 回 「分析 対 象 」 と して認識す るま で 、 吉本新 喜劇 に つ い ての知識 は ほ とん ど持 ち合 わせ ていなかった。そ こでまず 、歌舞伎 や 落語 では よ く見か け る初心者 向 け の 「入 門書」や 、 「俳 優名鑑」 の よ うな 出演者 に 関す る公 式 な資料集 を探 してみたのだが、全 く見 つ か らなか った 。 や む な く今 回 は 、基本情報 をす べ て Wcbか ら入 手す る こ とに した。検 索 をか け ると、個 人 が 作 成 した と思 しき資 料ペ ー ジ も複 数確認 で きた の だ が 、信頼性 を重 ん じて 、集 計用 の 元デ ー タは吉本興 業 公 式 HP内 にあ る 「吉本新喜劇 オ フ ィシ ャル サイ ト」 (http:〃 www.yoshimoto.co」 p/shinkgcki/)に 拠 るこ と と した 。 このペ ー ジに公 演概 要が掲載 され てい るのは、なん ば グ ラ ン ド花月 。西梅 田・祗 園花月 の 3劇 場 にお ける、 週 替 わ りを基本 とす る公演 のみ (こ れ 以外 の 「新 喜劇 の 特別公演」ペ ー ジ も存在 してい るが 、今 後 の公 演告 知 の み の掲載 で過 去 の公演デ ー タは遡 れ な い)で あ るた め 、今 回 の集 計 にお い て も、集 計対 象 は この 3劇 場 の 本公演 に限定 した。 また、集計 対象 は 2017年 12月 まで の公 演 とした が 、2018年 7月 現在 で過 去 の公演デ ー タが 掲載 されて い る の は、なん ば グ ラ ン ド花月が 2011年 7月 か ら (た だ し 2017年 10〜 11月 は改装 閉館 のた めデ ー タな し)、 祗 園花月 が同年 12月 か ら、西梅 田が (劇 場 がオー プ ン した )2017年 9月 か らの み であ り、集 計 対象期間には 劇 場 間 でバ ラツ キ が あ る。 3.デ ータ項 目― 「座長」 と 「リー ダー」について 各公演には必ず 1人 、公演の 「 トップ」 「ま とめ役 」 を司る役者がお り、 「出演者デー タの最初に名前が 来 る人」がそ の役 を担 ってい る。現在 の吉本新喜劇 では 、内場勝則、辻本茂雄 、小数千豊、川 畑泰史、す っち ― 、酒井藍 の 6人 が 「座長」職 を務 めてお り、ほ とん どの公演は 6人 のいずれ かがこの 「ま とめ役」 となっ てい るのだが、 「座長」でない人が 「ま とめ役」 を務 め る公演 も一定数存在す る。通常 この 「ま とめ役」は 「リー ダー」 と呼 ばれているので 、これ を 「リー ダー公 演」と呼ぶ ことにす る。 「リー ダー公 演」は、吉本新 喜劇 HP上 で もきちん と「 『 座長』でない人が リー ダー を務 めている」ことが識別できるよ うな表記になって お り、階級制 の厳格 さが窺える (た だ し、公演チケ ッ ト料金に差はない)。 ちなみに、 「座長」に名を連ね るメ ンバーが、 「ま とめ役」以外の普通の役 で公演に出 る こ ともある。 集 計 プ ログ ラ ム 328
全 公 演 デ ー タ を作 成 す るた め に 、 まず SASの URLア クセ ス 方 式 を用 い て htmlデ ー タ を読 み込 ん だ。 過 去
の 公 演 デ ー タ の URLが
http:〃 WWW.yOShimoO.co」
p/shinkigeki/<劇 場
易名 >̲archive/arく 西暦 年 >̲<月 >.hml
とい う形 式 に な っ て い る の で 、年 月 を マ ク ロ指 定 して
mcname aaa uri‖ http:〃 www.yoshimot。 .c。 」p/shinkgck/gion̲archive/征 &yea.̲&mon¨ html";
d■ a dat̲&ycar.&mon;
in■ lc aaa encoding=luti81■ rstobs=150;
input text S200.@@;
p̲mOnth=&ycar.&mOn;
run;
とい うプ ロ グラム (上 記 は祗 園花 月 の 例 で あ る)を ル ー プ し、最後 に劇 場 ご とに 1つ の DSに 結合 した 。
irstobs=150と 指 定 したのは 、新喜劇 の ペ ー ジ構成 と して 、公 演デ ー タの前 に座 員 コ メ ン トが不定長 で掲載 さ
れ てい るので 、 それ を読み込 まない よ うにす るた めの 措 置 で ある。 実 際 には 150行 で は該 当箇所 を削除 しき
れ ず 、再度 デ ー タ ク リー ニ ングが 必 要 に な って しま った の だが 、 この 過 程 でそれ ぞれ の コ メ ン トを読 む こ と
は結 果 的 に 「吉本新 喜劇 」 に関す る学習 の一助 に もな っ た。
続 いて この一 括 フ ァイ ル を Excclに 吐 き出 し、「公 演 期 間」 「劇場 」 「公 演 タイ トル 」 「あ らす じ」「座 長 」
「出演者 」以外 の 不要 な文字デ ー タ を削 除 してい ったの だ が 、この作 業 中 に、「リー ダ ー公
演 」の htmlが 「本
来『 座長』と して表示 され るべ きデ ー タ個所 を『 非表示』とす る」とい う構成 になってい る (つ ま り、hml中
には座長デー タの文字デー タが存在 している)こ とが分 かった。機械 的 に コメン ト記載行 を全削除 して しま
うと、 これが後か ら判別 できな くな るので、 この 「虚偽 の座長デー タ」 が含 まれてい る公演 にはフラグをつ
けてお くことに した。 また、あ らす じ部 と出演者デ ー タ部 の区切 りを意 味す る コメン トデー タは、後 で使 用
できるよ うに残す ことに した。そ して 、wcbペ ージの構成上 1か 月分で 1つ となってい るデ ー タを各公 演別
に分割 できるよ うに、 コメン ト構成 を解読 して、 コメン トに 「ここか ら」 とい う文字が現れた ら 1つ ずつ増
えるよ うな変数 (period)を 作 ってお いた。
ここまでの処理 を した ものを再び SASに 読み込み、
① リー ダー公演 の 「座長」部分に 「リー ダー」 とい う文字 を入れ る
② 公演年月 (LmOnth)と 公演 区分
(pc五 od)で mnsposeす る
③ 月の変わ り目の上演だったために前後 の月に重複収録 されてい る公演デ ー タを削除す る
④元 の Wcbペ ー ジ表記が古 い公 演 ほ ど下になってい る関係 で periodが 逆順 になってい るので、後 々の便益
の為 につ け直す
な どの整備 を行 った ものを、全公演 DSと して 1つ にま とめた。図 1は そ のデー タのイ メー ジで ある。
わ00︵
一
ま 旧噛け
用朔朔綸
8
>>ヽ
わ欽欽¨
臥田旧納
(ハ 'ス 11'〈 月
)● 夫
ド
=月
''0■ ''月 ''日 く
わ '■ │〈
:月
"ン ド
'"1'''月
■,'′′
│=嗽,ヽ ●
''曰
'咤く
1,曰
●人"ン
,,ン ド
:月
')0人
̀1''',年 ,1,日 ●0〜 ,月 ,日 (月'0
, ●入
0,テ
●
■
・ 1
議 ‐ 饉 │,
じ
回 吟
̀,■
図 1 完成デ ー タ (全 体 )イ メー ジ
329
政諄 0,'
最 終確 認 として、デ ー タ内容 を Web表 示 と突 き合 わせ た。 そ の 結果 、座長 や公演 タイ トル は別 公演 として 「 変 わ つてい るのに 「他 の 出演 者 」デ ー タが直前 の公 演 と同 じにな ってい るケー スや 、 あ らす じ」 の記載 お よび掲 載 され てい る舞 台写真 と 「座長 」デ ー タが 一 致 しない ケー ス な どが発 見 され たので 、前 後 のデ ー タ と 比較 しな が ら適 宜修 正 を加 えた (間 違 ってい る方 の 出演者 デ ー タ を 「他 の 出演者 不 明」と書 き換 え るな ど)。 また 、整備 の過程 で 、 「あ らす じが同 じなの にタイ トル が違 うもの 」や 「タイ トル が同 じなの にあ らす じ が違 うも の 」 が散 見 され た ので 、 「ソー トの結果 、 内容 が重複 していたオブザ ベ ー シ ョン」 を出力 で きる prOc sOi daa=ck̲all nOuniquckcy Ou← d誠 01 uniqueo■=d江 02; by aras"i; run; prOc sO dtta=ck̲all nOuniquckey out=d江 03 uniqucout=d江 04; by title; run; 「 とい う処 理 を して確認 した ところ、いずれ も 3件 前後発 見 され たので 、間違 い と思 われ る側 の レコー ドを あ らす じ不 明」 とす るな ど して処理 した 。併 せ て この 作業 で は、新 作 の上 演 ばか りと思 われ が ち な新喜劇 で 、 実 は 「再 演 」 が 幾度 か行 われ てい る こ とも判 明 した。 事前 の 予想 よ り手 間取 って しまった この整備 作 業 を経 て 、現在 の公 演 HPを 制作 したの は 、専 門 の業者 で はな く、吉本興業 の内 部 の 担 当者 の よ うに思 われ て きた。 作業過 程 で、デ ー タ と して の正 確 性 が弱 めな印象 は持 って いた (実 は些 細 な表 記 ゆれ もか な り多 い )が 、そ う考 え る と、座 員 を ニ ックネ ー ム で書 くな ど、妙 に人情 的 な コメン ト記載 が 多 いの も うなず け る。 これ も 「吉本 ら しさ」か も知れ な い。 集 計 と考 察 1.座 長別 の公演回数 こ うして 出来 た公演 デ ー タ の うち、出演者 に関す るデ ー タ (actor変 数 )を 1人 1変 数 に 区切 り直 し、 さ ら に座 長 デ ー タを独 立 の集 計用 変数 とす る DSを 作成 した。 このデ ー タのイ メー ジが 図 2で あ る。 が 130.5、 そ して内場座 長 公 演 945、 す つち― 座 長公演 が 79と 続 き、東 京 吉本所 属 な ので少 な い ことが 前提 の小 数座 長公 演 が 28、 そ して 2017年 に座 長 に就任 した ばか りの酒井座長 公 演 が 9と な る (辻 本 、内場 は 「座 長 」と して連名表記 され てい る公演 が 1回 あ る)。 だが 、す つ ち― が座 長 にな った のが 2014年 で あ るこ とや 、 330 ・ 全 645公 演 をそ の ま ま座 長別 に頻 度集 計す る と、最 も多 い の が川畑座長公 演 で 172、 続 い て辻本座長公 演 一 繁一 静渤調 鰤縞節屹耐帥帥崎一 輌初・ 輌ル 戦 巫¨ 鬱 醸 ル 一 議帥哺﹄帥嵌艶嗜疑帥新軸 術ル 輌牲印 勧鴻 性 鉄 輸 ル い 夫 則 男 ︱則 い 筋 墨 嚇 ﹇ 帥嚇 釉 脚赦種城数軸願赦雄識脚 醜脚権莉脚継継脚ホ様鵡 晩糀院糀陀旺旺糀院略雌 物物わり わりわかわ ・ 耐献熊麒態組認組廠 図 2 集 計用 出演者 デ ー タイ メー ジ
2017年 は内場 が NHKの 連続 テ レビ小説 「わ ろてんか 」 に出演 してい た 関係 で新 喜劇 出演回数 が少 なか った こ とな どの時期 的 な要 因 もあ るので、 これ を年次別 に区分 して集 計 す る と表 1の よ うにな る。 表 1 座長公演 回数 (年 次別 ) 内場勝 則 辻本 茂雄 小藪 千豊 川畑泰史 座長 すつち― リーダー 酒 井藍 その他 合 計 年 2011 2 2 ‐ ‐ ‐ ‐ ■12ё │‐ ■‐ ■111■ ‐ ││‐ │・ │││‐ │・ お.91 2012 '││ │101 1lol lll ll ll l■ ・ ・ │.│.911.̲│.1,lo‐ ■ ││・ ││││ ‐ │■ ■ ││..│││● │■ │■ ││,41011‐ │││・ ││‐ 43.0■ ■‐│'01 29 │■ 2013 │11■ 0■ ││11 2014 │■ 50 ││1201・ 1 2101 1111‐ │││■ │‐ ││ 111 0 1111o611 111 100 100 1100. 21 1 ‐ ‐ ‐11'お │││ │14.01111■ 28,71111111● │││■ │││││ 11 10111 lo │││・ 6■ 101 1‐ 2015 20 1 25 5 21 2016 合計 10.5 ‐ ‐││'3.21 ‐ё ‐ 101・ ││‐ 94.5 ││‐ 24 :01■ 111‐ ・│││‐ │││ ‐ ││ ll lloll ll■ ■o ││121:1・ 5 ‐ 'テ 27 21 ‐ ‐ ‐ も │‐ │1210.││‐ .121● ││││││││││││ 26.5 4 30 22 9 │‐ 11‐ ││││││‐ 25 │││‐ 111111211:211111■ 125‐ 11‐ 2017 29 111.012111.││12411111111111413111■ 130.5 104 0 99 0 112 :1‐ 1.13.611■ .│■ 126輸 ││││││││111.01011111111111161‐ 28 172 79 ││ 9 10 .819 1‐ │ 126 .││. 0.0‐ 6 645 グ レー で示 した行 は 、年 次 ごとの構成 比 (%)で ある (横 方 向 の合 計値 が 100)。 これ を見 る と、2015〜 2016 年 は小 数 以外 の 4座 長 間 で あま り大 きな差 はないが、全期 間 を通 じて川畑座 長 の公 演 比率 が常 にや や 高 めで あ る こ とが分 か る。そ して 、2012〜 2013年 は 「リー ダー 公 演 」 が 明 らか に多 く、翌 2014年 にそ の リー ダーの 中 か らす っち―が座 長 に就 任 してい る流れ か ら考 える と、 この 時期 は リー ダー 間 で 、誰 が抜 け 出す の か 、激 しく しの ぎを削 ってい た ので はないか と考 え られ る (現 在 の 公 開デ ー タで集計 で き るのは 「公 演 担 当回数」 の み だが 、主催者側 は 当然 、個 々の 公 演 の 「入 場者数」や 「売 上 」 も把握 してい るはず である)。 2.リ ー ダ ー 別公 演 回数 そ の 「リー ダー公 演 」 にお ける、 リー ダ ー 別公 演 回数 を集 計 した 結 果 が表 2で あ る。 表2 リー ダー公演 回数 (年 次別 ) 2011 す っち一 烏 川耕 ― 高 井俊 彦 清 水 けんじ (中 條 健 ― ) 吉 田裕 諸 見 里 大介 信 ,1農 岳 夫 2012 2013 11 14 13 13 6 11 11 13 2014 2017 1 各 リー ダー 間で、公 演 回数 の 差 は ほぼない よ うで ある。 そ して 、2015〜 2016年 には 「リー ダー 公 演 」 が行 われ て い な いのだが (表 1で も 0に な つてい る)、 この期 間 を挟 ん で 「リー ダー 」 の顔 ぶれ が変 わ っ た こ と 331
が 分 か る (た だ し、す っ ち― とキ ャ リア が近 く、長年 「座 長 にな りた いん や !」 とい うタイ トル の 自主公演 を続 けて い る清水 けん じは、2018年 か ら再 び 「リー ダー 公 演 」 を担 当す る よ うにな った)。 また 、酒井藍 は 座 長 と しての公 演担 当経 験 が全 くな い ま ま座 長 に就 任 した こ とも分 か るが 、現 在 の彼女 の扱 い を見 る限 り、 何 らか の報酬 と して座 長 に 「昇格 」 した よ うには全 く見 えない (む しろ、現在 も育成 の真 っ最 中 で ある)。 これ は、新喜劇 の今 後 を長期 的 に見据 えて の 、 かな り戦略 的 な座 長就任 で あ った よ うに思 われ る。 長 期 的 な視 野 とい う点 で は、吉本新 喜劇 の特徴 の 1つ と して 、座 長や リー ダ ー は 「降 りる」 こ とがで きる ら しい 、 とい う点 も挙 げ られ る。表 2中 の 烏川 、高井 は、現在 は一 出演者 と して しか新喜劇 に 出演 してお ら ず 、元座長 であ る池 乃 めだかや 吉 田 ヒロ も同様 であ る (た だ し、劇 中では 皆 、 重要 な役 どころ を任 されて い る)。 これ は、 同 じ関西発祥 の宝 塚歌劇 と異 な り、高齢 にな って も現役座 員 で い られ る吉本 新 喜劇 の 中で 、 息 の長 い活動 を行 え る よ うにす るた めの配 慮 、 とい う側 面 が あ るのではな い か 。 また 、新喜劇 の組織 全 体 として考 えた場合 、 リー ダー 担 当可能者 が 複数 育 成 され る と、前 の ペ ー ジで触れ た 「座 長 が一 出演者 と して 出演す る公 演 」や全 国 ツアー 等 と 日程 が重 な った 場 合 で も、複数 の 本 拠 地劇場 で 新 喜劇 上 演 を続 け る こ とが可能 にな る。 今 回 は取 り上 げ な い が 、吉本新 喜劇 は奈 良健康 ラ ン ド (奈 良県天理 市 )で も定期 的 に公 演 を行 って お り、 こ こでは上 記 の 「 リー ダー 」達 よ りさ らに若 い座員 が リー ダー を務 め る こ ともあるよ うで 、育成 システ ム はか な り底 が厚 い。 3.座 員別 の 出演 回数 各 公演 の 出演 メ ンバ ー は座長 と演 出家 に決 定権 が あ る ら しい のだが 、 ど うや らそ の 際 に 「よ く選 ばれ る座 員 」 と 「あま り選 ばれ な い座 員 」 がい る よ うであ る。 これ は、筆者 が長 年 デ ー タ集 計 を行 って い る、東京 の 寄席 定席興行 の 出演者 と全 く同様 で あ る。 図 2に 示 した 、出演者 を 1変 数ず つ に分割 済 のデー タ を使 って 、デ ー タ数 が極 端 に少 な い 2011年 を除いた 各 年 に 、座長 を除 く座 員 それ ぞれ が 何公 演 に出演 したか を集 計 した。 図 3は そ の ヒス トグ ラ ム を、見やす く す るた めに折れ線 グ ラフで表 した もの で あ る。 ∞ あ 掛 籍 蛉 ― ● … 2o12‑201,¨ 0¨ 2014‐ ‑2o,― ● ‑2o=̀― 図 3 座 員別公演 出演 回数 ヒス トグラ ム 332 ■‐ 2017
2014年 以降、20回 〜30回 までの階級 に 1つ 山が現れ る、大 まかに右下が りの グラフになっている。 新喜劇 は、複 数 の劇場で同時に公演が行われてはいるが、1日 の拘束時間が長 く、東京 の寄席 の よ うな「掛 け持 ち」が不可能であることを考 えると、40公 演以上出演 の座員 はほぼ毎週 、 どこかの劇場に出演 している 計算 になる。 この 「40以 上」 メンバーは表 3の とお りである (表 記 は回数順 ではない)。 寄席興行 へ の 出演回数集計同様、回数の多寡 は 「上手 い」 「面 白い」「人気があ る」とい うよ うな要素 と直 結す るものではないのだが、 この顔ぶれ を見 る と、それで も 「何 らか の実力」 との 関連 はあるよ うに思 われ る (ち なみに落語 の集計結果 は、2005年 の SAS Forumユ ー ザー会 学術総会で報告 している)。 表 3 年間公演出演回数が 40回 以上 の座員 一覧 2012年 2013年 Mrオ クレ Mに オクレ 2014年 Mrオ クレ 20154F 2016年 2017年 Mrオ クレ Mに オクレ Mrオ クレ すっち― すつち― 安井まさじ 安井まさじ 烏川耕 ― 井上安世 安井まさじ 安井まさじ 烏川耕 ― 鳥川耕 ― 吉 田裕 烏川耕 ― 井上安世 烏川耕 ― 吉 田裕 今別府直之 浅香あき恵 吉 田裕 鳥川耕― 清水 けんじ 清水 けんじ 清水 けんじ 島 田―の介 諸見 里大介 浅香あき恵 浅香あき恵 浅香あき恵 松浦真也 松浦真也 清水 けんじ 島田― の介 前 田真希 島田―の 介 信濃岳 夫 浅香あき恵 島田―の介 森 田まりこ 前 田真希 清水啓 之 島田― の介 浅香あき恵 島田―の介 そ して、 ヒス トグラムか らは、非常に多 くの 「出演回数 の少な い座員」 の存在 も確認 できる。吉本新喜劇 では、新座員 は入団 して しば らくは レッスン期 間 となってお り、出演者 として声がかか った者か ら初舞 台が 踏 めるシステムにな ってい ることとも関係 して 、各年 の回数下位者 にはその年の 「新人」が数多 く含 まれ て い る。 ただ し、 これ は誰 で も通 る道の よ うで、入 団オーデ ィシ ョンヘ のエ ン トリー募集 の記事 中で、 この こ とをす っち― がかな り皮 肉めかせ た形で コメン トしてい る。以下はそのニ ュースか らの転記である。 酒井藍 も経験 「金の卵 10個 ロオーディション」で吉本新喜劇 の新メ ンバー募集 (2017年 12月 7日 ) (「 お笑いナタリー」掲載記事 より ht● S:〃 natalie.mu/owaraVnews/259971) (記 事前 半省 略 ) 川畑泰史 コメン ト 金の卵オーディションも 10個 目を迎えま した!! 今年は金の卵から鳥ではな く「座長酒井藍」というブタも生まれ ま した。 ほかにも馬やゴリラやカエルやデメキンも……。面白い人、いっぱい集まれ !!!!! す つち― コメン ト 楽 しい仲間 と楽 しい職場で一緒に働 きませんか つ 最初の うちはすごく休みが多いですよ ! みんなで未来の新喜劇 をつ く ろう!!! 酒井藍 コメン ト 皆 さん、今年も吉本新喜劇金の卵オーディションが開催 されます !!!私 も、このオーディションを受けて新喜劇に入ること ができました !!!新 喜劇の ことが大好きな人が、たくさん受けて くださるとうれ しいです!!!ぜ ひ皆 さんどしどしご応募 く ださい。新喜劇で待 つてま ││││ 333
4.座 組 につ いての集計 新 喜劇 に関す る、座員 自身 の発 言資料 を探 してい く中で 、興 味深 い コメ ン トを見 つ けた。 「よ しもと新喜 劇 」 を放送 してい る毎 日放送 の HPに 掲載 され てい る、諸 見里大介 の発言 で あ る。 以下、転 記 す る。 ― この先、どんな形でやつて行きたいですか ? 前までは、最強のMr オクレ師匠みたいにな りたいなと思つてたんです。 出て来るだけで笑 いがあって。 出番が多くな くても確実に笑い取れる。 色んな人の週に出てるし、そういう風になれた らいいな、 って。 MBS「 よしもと新喜劇」I■ )「 どこまで続く'数 珠つなぎ座員紹介」より https://Ⅵ 喘中.mbsjP/shinkigekyり /intc″ iew/moromizato/10.shtml この コメ ン トか らは、 「色 ん な人 の 週 に出 る」 こ とは賞賛 の対象 であ る こ とが窺 え る。 そ こで 、現状 を把 握す るべ く、 出演者 デ ー タを座 長 と座 員 の組 み合 わせ の み を表す形 に も う一段 分解 し、 「座 員 ご との座長別 出演傾 向」 を集 計 してみ るこ とに した。 まず 、2017年 に 「6座 長す べ ての公 演 に 1回 以 上 出演 した座員 」 と 「1人 を除 く 5座 長 の公 演 に 1回 以 上 「 出演 した座 員 」 を抽 出 してみ た。 表 4が そ の結果 で あ る (「 川畑 以外 」 す っ ち― 以外」 の 5座 長公演 に出 演 、 とい う座 員 はいなか った )。 表 4 6座 長 も しくは 5座 長 の公 演 に出演 した座 員 と各 自の年 間 出演 回数 (2017年 ) 6座 長 吉 田裕 今別府直之 若井み どり 松浦真也 浅香あき恵 島田―の介 出演 回数 5座 長 41 (辻 本 以外 ) 井 上安世 35 吉 田ヒロ 26 金原早苗 38 高 関優 41 諸 見里 大介 38 信 濃岳 夫 新 名徹 郎 服部ひで子 (内 場 以外 ) もりすけ 佐藤太 一 郎 小寺真理 清水 啓 之 (小 藪 以外 ) 前 田真希 (酒 井 以外 ) 未知 やすえ 出演 回数 40 20 31 15 35 41 27 10 26 31 32 40 26 13 2017年 の全座 員 の平均 出演 回数 は 17.9回 な のだが 、 この表 に登場す る座 員 の み の 平均 出演 回数は 303回 で ある。 ただ これ だ け の要素 の違 いで 、平均 回数 に この よ うに大 きな差 が 出 るのが印象 的 で あ る。 また逆 に、 「よ く見か けはす るが 、特 定 の座 長 の公 演 に しか 出 て こない座 員 」 とい うの も存在す る。 そ こ で続 いて 、同 じく 2017年 のデ ー タを用 いて 「自身 が 5公 演 以 上出演 して い て、そ の うち、そ の座長公演 へ の 出演 が 60%以 上 で ある座 員 」 を、相応 数 の座長公 演 を こな してい るす っ ち― 、川畑 、辻本 、 内場 の 4座 長 に 334
つ いて調 べ てみ た。その結果 が表 5‑1で あ る。ちなみ に、この表 にお け る 「出演 回数 」はそ の座 長 の公演 へ の 出演 回数 、比率 は 「各 自の全 出演公 演 の 中でその座 長公 演 へ の 出演 が 占め る比率」 で あ る。 表 5‑1 該 当座長公 演 出演 回数 と構 成 比 (2017年 ) 座長 座 員名 すっち一 タックルながい。 清水けんじ 青野敏行 瀧見信行 音羽 ―憲 今井成美 山田花子 小寺真理 西川忠志 帯谷孝史 安尾信乃助 高井俊彦 山本奈 臣実 中田はじめ 川畑 内場 出演 回数 比率 818 22 6 62.9 60.0 18 66.7 8 72.7 15 13 79.0 81.3 81.3 75.0 75.0 75.0 90.0 70.0 100.0 26 9 6 6 9 7 6 座 員名 座長 9 辻本 たかおみゆき アキ レイチェル 伊賀健 二 玉置洋行 五十 嵐サキ 桜井雅斗 鮫 島幸恵 松浦景子 松本慎 ― 郎 森 田展義 石橋洋貴 大島和 久 島田珠代 平山昌雄 平田健太 出演 回数 比率 17 94.4 26 96.3 21 77.8 26 25 26 100.0 100.0 100.0 20 69.0 21 77.8 22 75.9 13 81.3 26 83.9 5 1000 25 92.6 21 61.8 16 88.9 14 87.5 や は り、 どの座 長 に もあ る程度 固定 され た メンバ ー が い るよ うで あ る。 そ して 、 「自身 が新 喜劇 に出演す る時 には、 ほ とん ど辻本座 長 公 演」 とい う座 員 が 、他 の座 長 の 場合 よ り多 い こ とが 分 か る。 さ らに、 同 じ集 計 を 2012年 デ ー タで行 った結果 が表 5‐ 2で あ る (座 長就 任 前 のす っ ち― を除 く)。 表 5‑2 該 当座長公演 出演 回数 と構成 比 (2012年 ) 座長 ‖畑 辻本 内場 座 員名 チヤー リー浜 井 上 安世 烏川耕 ― 吉 田ヒロ 金 原早苗 桑原和 男 帯谷孝 史 中川貴志 中條健 ― たかおみ ゆき タックルなが い 。 伊 賀健 二 奥重敦史 家門鈴乃 五 十嵐サキ 高 井俊 彦 佐藤太 ― 郎 桜 井雅 斗 小米 良啓太 西 川忠志 前 田まみ 太 田芳伸 平 山昌雄 森 田展義 中 田はじめ 335 出演 回数 比率 6 75.0 15 12 65.2 66.7 8 66.7 76.2 16 8 61.5 11 100.0 8 72.7 70.0 7 13 8 17 9 5 9 12 100.0 100.0 100.0 100.0 100.0 69.2 75.0 11 78.6 8 9 100.0 100.0 7 77.8 7 70.0 10 16 100.0 62.5 63.6 100.0
「出 る時 は辻本公演 」 で あ る座 員 が 多 い とい う特徴 は変 わ らず 、また 5年 前 も変 わ らず辻本組 、 とい う座 員 もい るのだ が 、 「異動 」 した座 員 もい る こ とが確 認 で き る。座 組 間 の 、 一 定 の流 動性 は確 保 され て い るよ うで あ る。 長期 間 同 じよ うな顔 ぶれ で公 演 を続 けて い る と、互 いの理 解 が深 ま り 「チー ム感 」 が生 まれ て芝居 がや り や す くな る、 とい う利 点 が あ るで あろ うこ とは想像 で きる。 だ が 、 この 「固定 メ ンバ ー 制」 の 弊 害 と して、 「関わ りの 強 い座長 の 出演 が 減 る と、配 下 の座 員 の 出演 も減 って しま う」 とい うこ とが挙 げ られ る。 実は、 筆者 が 2017年 後 半 か ら精 力 的 に新喜劇 を見続 けて、 よ うや く全座 員 の顔 と名 前 が 分 か る よ うに な って きた、 と思 い 始 めた矢先 の 、久 し振 りの 内場座長公 演 に、全 く見覚 えの ない座員 が何 人 も登場 して きて驚 い た。 実 は、彼 らはみ な表 5‐ 1の 「内場枠 」 の座 員 だ った ので あ る (彼 らは全員 、2015〜 16年 はほぼ倍 く らい の公 演 に出演 してい た)。 今 回 の集 計 に よって この こ とが確認 で きた のが 、個人 的 には最 も大 きな収穫 で あ った。 お わ りに そ もそ もは、 自分 自身 の感 じたい ろい ろな疑 間 の解 消 を 目的 に吉本新喜劇 の公 演 デ ー タ分析 を始 めたのだ が 、そ の過程 で 、文章 中 に示 した よ うな 「落語 との類似 点」や 「宝塚 との相違 点 」が見 つ か り、これ まで の 自 分 の研 究 につ なげ るこ とが で きた。 今 回 の 分析 では、現在 Wcb公 開 され てい る 6年 分 の公 演デ ー タ しか用 いてい な い が 、も う少 し広 範 囲な公 演デ ー タ (な んば グラン ド花 月 で不定 期 に開催 され るイ ベ ン ト、東京 での 特別 公 演 、全 国 での巡 業公 演 な ど の デ ー タ)が 使用 で きれ ば、 または、 も う少 し前 まで遡れれ ば、 よ り細や か な分析 が で きるで あ ろ う。 参 考資料 ・ 吉本 新 喜顔レ フ ィ シ ャル サ イ ト http:〃 www.yoshimoto.coJp/shinkigeki/indcx.hml ・ 毎 日放 送 「よ しも と新 喜劇 」 https:〃 wwwmbs」 p/shinkigeW ・ 坂部裕 美子 「SASを 用 い た寄席 定席 興行 の現 状分析 」 SAS Fommユ ー ザ ー 会 学術 総会 2005論 文集 pp.273‐ 281(https:〃 、ア 、 vw.sas.con1/contcnプ dan1/SASガ a̲」 p/doc/evenプ sas― user― groups/sugi2005.pd0 。ブ ロ グ 「SAS忘 備録 」 http://sas‐ boubiblog"ot.co耐 。ブ ロ グ 「デ ー タステ ップ 100万 回 SAS新 手 一生 」 http:〃 sas‐ tumcsas.b10gspOtcOm/ 336
CAUSALTRTプ ロ シ ジ ャ に よ る因果 効 果 の 推 定 ― 企 業 の 労働 生 産 性 に対 す る人 材 活 用 施 策 の 効 果 ― ○小林 員弘 (株 式会社 日経 リサ ー チ) 1.目 的 企 業単位 のアンケ ー トデ ー タ と財務デ ー タか ら、人材活用 にかんす る企業の施策 が労働 生産性 を 高 め るのか を明 らかにす る。先行研究 では 、パ ネルデー タ分析 の手法 を用 いて施策導入 の効果 を推 定 してい る文献がある。 一 方 、 この報告 では施 策導入 の有無 につ いて 主 に 1時 点 のデ ー タを扱 う。 したが って 、パ ネル デ ー タ分析 の手法 は使 わず 、傾 向 ス コア を用 いて 労働生産性 に対す る施 策 の平 均処置効果 (ATE)と 、処置群 。対照群 の平均処置効果 ATU)を 推 定す る。 (ATT、 2.方 法 企業 の人材活用施策 にかんす るデ ー タは 、 日本経済新 聞社 が実施 した 第 1回 日経 「スマー トワー ク経営」調査 の 回答 を用 い る。処置変数 として 100種 類 以上 の施策 がある。 従属変数 となる企 業 の 労働 生産性 は、財 務デ ー タ とスマー トワー ク経営調査 の 回答 か ら計算す る。 労働 生産性 と施策 の有無 は、どち らも過去 の 業績や改善 へ の意欲 といった共変量の影響 を受 けて い る。 したがって 、共変 量 の影響 を除 いた うえで施策 の 効果 を推 定す る。 共変量 の選び方 は星野 (2009)に 従 う。処置前 に観 測 していない共 変量 の代理 として、処 置後 の 中間変数 も共変量 と して用 い る。Lamm and Yung(2017)の 手順 に従 い 、処 置群 と対照群 の共変量 につい て 、共変量調整 に よっ て2群 間 の分布 の差が小 さくな ってい るか確認す る。ATEの 推 定には2重 に ロバ ス トな推定量 を用 い る。 ATTと ATUの 推 定にはIPW推 定量 を用 い る。 3.結 果 100種 類以 上ある施 策 の うち2種 類 が 、共変量 のバ ラ ンスが とれ てお り、か つ 95%wald信 頼 区間 と 95%ブ ー トス トラ ップ信頼 区間 の 両方 ともに0を 含 まな い正 のATEを 有 していた。 ふたつ の施 策 は 「キ ャ リア教育 を入社 時に行 う」 と 「国内 の留学生 向け合 同企業説 明会 に参加す る」である。 どち らの施 策 も、ATEは 2群 間 の 労働 生産性 の 差 よ り大 き くな り、ATTは ATUよ り大 きか った。 これ は 処置群 の施策非導入 時 の 労働 生産性 が 、対照群 よ り低 くなる こ とと関係す る。 4.結 論 上 記 ふ たつ の施策 は、導入 してい る企業 の導入効果 は大 き く、導入 していない企 業 の導入効果 は 小 さ い 、 と い う結 果 を得 た 。 した が っ て 、 各 企 業 が 最 適 な選 択 を して い る可 能 性 が あ る 。 CAUSALTRTプ ロシジ ャを使 うことで 因果効果 の推定 と共変量 のバ ラ ンス確認 が容易 に行 える。 参考文献 [1]星 野崇宏(2009)『 調査観察デー タの統計科学― 書店 因果推論 。選択バイアス・デー タ融合』,岩 波 . [2]Lamm, M., Yung, Y.(2017). Estimtting Causal Effects iom Obsclvational Data with thc C)AUSALTRT Proccdurc".Proceedings Of SAS Global Forun1 2017,Paper 0374‑2017.C)rlando,Flonda. SAS Institute,Cary NC. 337
個人情報保護 とプ ログラ ミン グ 〜 匿名化 プ ロセスのセ ミオ ー トメーシ ョン化 〜 ○宮澤昇吾 ,竹 内雅子 ,北 西 由武 解析 セ ンター ) (塩 野義製薬 Personal Information Protection and Programing - Semi-Automation of Anonymization Process - Shogo Miyazawa, Masako Takeuchi, Yoshitake Kitanishi Shionogi & Co.,Ltd 要旨 近年 ,臨 床試験デ ー タの共有 (Clhcal Trid Data Sharing i CTDS)の 議論 が進 んでい る.デ ー タ共有 は ,疫 学研 究 に よるエ ビデ ンスの構 築や ,疾 患 の 実態 を把握す る こ とへ と繋が るだ ろ う.し か し , 忘れてはい けな い こ ととして ,デ ー タの共有 には被 験者 のプ ライ バ シーが侵害 され るか もしれない とい うリス クを伴 う点 が挙 げ られ る.つ ま り,被 験者 のプ ライ バ シー が守 られ てい る こ とを保証 し た上で ,デ ー タの共有 を行 わな けれ ばな らな い . 臨床試験デ ー タ の 匿名化 を行 うプ ロセス として ,ま ず ,ど の 匿名化手法 を適用す るか と,匿 名化 後 のデ ー タ内の被験者 が再特定 され る リス ク (再 特定 リス ク)を どれ くらいまで許 容す るか の閾値 を設定す る。そ して ,実 際にデ ー タに匿名化手法 を適 用 し,デ ー タが もつ 再特定 リス クを算 出す る。 そ の再特定 リス クが閾値 を下回 っていれば ,匿 名化デ ー タの完成 として,適 用 した匿 名化手法 , リ ス ク等 を報告書 と してま とめ る.デ ー タが持 つ リス クが閾値 を下回 らなか った際 には ,匿 名化手法 の再選択や ,パ ラメー タの再設 定 といった計画 の 再考が必要 とな る。あ らか じめ設 定 した リス クの 閾値 を下回 るよ うなデ ー タを作成す るには,複 数 回匿名化 を試行 す る必要があ り得 る。そ の都度 , プ ログラム を修正 し,試 行錯誤 を行 うためには,効 率性 を考 える必 要 がある。そ こで ,こ れ らのプ ロセス を準 自動化 で実行 でき る よ うな システ ム があれ ば,人 が行 うタス クを大 幅 に減 らす ことが 出 来 ,か つ ,質 の 高 い 匿名化デ ー タに変換できる . 本稿 では匿名化 の 手法 と,匿 名化後 のデ ー タが持 つ リス クを定量化す る方法 につ いて説明す る . また,こ れ らを SASで 実行す る為 のプ ログラム を紹介 し,効 率的な匿名化 プ ロセ スの提案 を行 う . キー ワー ド :臨 床試験デ ー タの共有 ,プ ライ バ シー ,匿 名化 1.序 論 近年 ,臨 床試 験デ ー タの共有 (Cl揃 cal Trial Data Sharing:CTDS)の 議論 が進んでい る。デ ー タ共有 は,疫 学研 究 に よるエ ビデ ンスの構築や ,疾 患 の実態 を把握す る こ とへ と繋 が るだ ろ う.実 際,Å lv霞 o 338
H Borges et al(2016)で は ,公 開 された臨床試 験デ ー タを用 いて ,HIVの 治療法 の比 較 を行 い ,過 去 の 臨床試験 では得 られ なか った結果 を得て い る.CTDSの 議論 に拍車を掛 けた の は ,2013年 7月 に 欧州製薬 団体連合会 (EFPIA)/米 国研 究製薬 工業協会 (PhRMA)が 公表 した 「責任 ある臨床試験 デ ー タ共有 の原則」 である.「 責任 ある臨床試 験デ ー タ共有 の原則 」は次 の 5つ の コ ミッ トメ ン ト か ら構成 され る . 1.研 究者 とのデ ー タ共有の強化 2.臨 床試験情報 へ の一般 アクセ スの強化 3.被 験者 との 臨床試験結果 の共 有 4.臨 床試験デ ー タ共有手順 の認証 5.臨 床試験結果 の公表 に関す る コ ミッ トメ ン トの再確認 「責任 ある臨床試験デ ー タ共有 の原則」を契機 として,主 に欧米 の製薬企業 に よ り臨床試験デ ー タ の公 開 。共有 が行われ るよ うにな った .デ ー タ共 有 の際 に忘れ てはいけない こ ととして ,デ ー タ の 共有 には被 験者 のプ ライ バ シー が侵 害 され るか も しれ な い とい うリス クを伴 う点 が挙 げ られ る。 「責任 ある臨床試験デ ー タ共 有 の原則」 で も,「 共有す る患者 レベ ルのデ ー タはす べ て匿名 化 し , 個人 の識別 が 可能 となる情報 を保護す る」 とあ る.つ ま り,適 切 な匿名 化 を行 っ た上で,デ ー タの 共有 を行 わなけれ ばな らな い。 臨床試験デ ー タは機密性 の 高 いデー タであ る為 ,適 切 な匿名 化 プ ロセス を踏 ま なければな らな い 匿名化 を行 う際には,匿 名化後 のデ ー タが持 つ 「被験者 が 再特 定 され る リス ク」 が ,あ らか じめ設 定す る再特定 リス ク閾値 を下回 るまで繰 り返す .あ らか じめ設 定 した リス クの閾 値 を下回 るよ うな デ ー タを作成す るには,複 数 回匿名化 を試行す る必要があ り得 る。そ の都度 ,プ ロ グラム を修正 し , 試行錯誤 を行 うためには ,効 率性 を考 える必要 がある。そ こで ,こ れ らのプ ロセ ス を準 自動化 で実 行できるよ うな システムが あれ ば,人 が行 うタ ス クを大 幅 に減 らす ことが 出来 る。それだけで はな く,数 多 くの 匿名化手法 の組 み合わせ を探 索的 に試す ことが 出来 る為 ,再 特定 リス クを満た しつつ , デ ー タの有用性 を最大 (匿 名化 によるデ ー タの情 報損失 を最小 )に す るよ うな質 の 高 い匿名化 デ ー タを作成す る ことがで きる . 本稿 では臨床試 験デ ー タに留 ま らず ,一 般 的 な個人情報保護 の観 点 も踏まえ ,2章 で適切 な匿名 化 を行 うた めの匿名化 のプ ロセ スや手法 ,匿 名化後 のデ ー タが持 つ リス クを定量 化す る方法 に つい て説 明す る.ま た ,こ れ らを SASで 実行す る為 のプ ログラ ムの 例 を掲載す る.3章 では,解 析 へ の 影響 を考慮 した効率的な匿名化 を行 う為 の準 自動化 のシス テ ムの提案 を行 う . 2.匿 名化 理 論 序論 に も記載 したが ,臨 床試験デ ー タは機密 性 の高 い情報 で あ るため,適 切 な ス テ ップの 匿名化 を行 う必要 が あ る.臨 床試験 の 「個別被験者 デ ー タの共 有 」 (日 本製薬 工業協会 )を 参考 に ,臨 床 試験デ ー タの 匿名化 を行 う際 のステ ップを紹介す る . 臨床試験デ ー タの匿名 化 は ,研 究者 が企 業 にデ ー タの リクエ ス トを送 ることか ら始 まる。そ して 最後 には適切 な匿名 化 を行 っ た ことを報告書 としてま とめる。匿名化 のステ ップ を図示 し (図 各 ステ ップの詳細 を解説す る . 339 1),
︱ . 2.識 別 子 の 分類 ■‐ ・ 一 ︲一 1.研 究者 か らの リク エス ト 3.再 特 定 リス ク閾値 │ の設 定 リス クが閾値 よ り大 きい ∠ 6.報 告書 の作成 : 雖 5.デ ー タの匿名化 と 再特定 リス クの測定 鮮 .『 ‐ 4.匿 名化手法 の検討 電 リス クが閾値 よ り小 さい 図 1:匿 名化 のプロセス 1.研 究者 か らの リクエス ト 研究者 は企 業 に請求 したい試 験デ ー タの リクエス トを行 う.そ の 際 ,研 究者 は研究企画書 を企業 に提 出す る .企 業は,計 画 してい る研究が臨床試験デ ー タ共有 に値す る十分 な科学的価値があるか ど うか ,研 究者 の適格性 ,該 当試 験 が共 有可能 かな どを審 査す る.審 査 を通過 した後 には,デ ー タ 共有 につ いての合意形成 の 手続 きを行 う.合 意書 には,被 験者 のプ ライ バ シー保護や被験者特定 を 試み るこ との禁 止 ,研 究結果 の公表 の義務化 ,研 究 目的以外 でのデ ー タ使用 の禁 止 ,解 析 の結果得 られた安全性 上の懸念 をス ポ ンサ ーや規制 当局 へ 即時報告す ること,研 究完 了期 限な どが含 まれ る 2.識 別子 の 分類 同意形成 が終われば,実 際に提供す るデー タの中で個人の特定に繋 がる変数 である識別子を 「直 接識別子」,「 準識別子」に分類す る.ま た,セ ンシテ ィブデータを特定する.直 接識別子,準 識別 子 ,セ ンシテ ィブデー タの定義 を下記に記す。 直接識別 子 :個 人 を特定す るのに直接使 えるデ ー タ e.g.被 験者番 号 ,生 年月 日,死 亡年月 日,名 前 ,住 所 準識別子 :デ ー タの再特定 を試 み る人 間 (攻 撃者 )が 持 ってい る,他 の情報 と組 み合 わせた場合 に高い確率 で個人 の 特定 を可能 にす る情報 e.g。 年齢 ,国 ,人 種 ,性 別 ,民 族 ,病 歴 センシティブデータ :被 験者 のデータの漏えい,ま たは被験者が再特定された場合に,そ の人の 340
雇 用適正 ,評 判 ,保 険引受能力 ,自 尊心 な どを傷 つ けた り,ま たは結 果 的 に収入減 を引 き起 こす可能性 の ある情報 eg.妊 娠 中絶 の有無 ,薬 物乱用 の 有無 ,精 神疾患・ 性感染症等 の疾患 の有無 直接識別子 は個人 の特定に直接 つ なが る為 ,デ ー タの消去や ,ラ ン ダ ムな値 に よる置換 を行 う.被 験者番号 の よ うな仮名化 され た 情報 で も個人 の特定 に直接 つ なが る為 ,注 意 が必 要である.準 識別 子 には ,「 4匿 名 化手法 の検討 」 で 紹介す る匿名化 手法 を適用 す る.セ ンシテ ィブデー タは再特定 リス ク閾値 の設 定 に影 響を与 え る為 ,こ の段階で特定 を してお く.例 として以 下 の よ うなデ ー タの 場合 を考える . 表 1:サ ンプル デ ー タ A A 26 172 男 Yes B 26 173 男 Ycs C 26 173 男 No D 44 151 女 No E 44 151 女 Yes F 90 173 女 No 名 前 は識別子 に該 当 し,年 齢 ,身 長 ,性 別は準識別 子 ,そ して薬 物 乱用 の有無 は セ ンシテ ィブデー タ該 当す る.そ こで ,名 前を消去 したデ ー タが以下 とな る . 表 2:サ ンプル デ ー タ B 26 172 男 Yes 26 173 男 Ycs 26 173 男 No 44 151 女 No 44 151 女 Yes 90 173 女 No 3.再 特 定 リス ク 尾 蓼 直の 設 帝 ]イ 再特定 リス ク閾値 の設定は,デ ー タの内容 等 を加 味 して設定す る必要がある . て ,以 下 の項 目に 目を向けると良い と考 え られ てい る . > > > 公開性 :デ ー タはオープ ンデ ー タか ? プライ バ シー :デ ー タにセ ンシテ ィブデー タが含 まれて い な いか ? 契約 :デ ー タを使用 す る側 と,再 特定禁止 な どの契約 を しているか ? 341 1つ の考 え方 とし
> セ キ ュ リテ ィー :デ ー タが保管 され る場所 のセ キ ュ リテ ィー は万全 か ? 再特定 リス ク閾値 は匿名化処理 の前に設 定す る.参 考 までに ,「 デ ー タ匿名化 手法」(Khaled El Emm) 内に記載 され てい る最 大 リス クの閾値 のめやす を一 部改変 した もの を図示す る.最 大 リス クの定義 は 「5.デ ー タの匿名化 と再特定 リス クの測 定」で述 べ る . 再特定禁 上の契 約を行 った,信 頼 できる研究者 0.33 オープンデータ 0.05 0.09 0.2 最大 リスク :高 最 大 ]ジ ス ク :低 セキュリティ対策・プライバ シー保護が無い データの機密性 が高い データを開示する権限が無い 同意を得ていない 被験者を特定する強い動機がある 強 いセキュリティーとプライバシー対策 データを開示する権限 がある 同意を得ている 被験者を特定する動機 がない 図 2:様 々な最大 リス クの関値 4.匿 名⊥ 手法 の検 討 匿名 化 手法はい くつ か 存在す るが ,そ の 中で 3つ の 手法 を紹介す る。 ・ 秘匿 デ ー タ の値 ,レ コー ドを消去 。NULLに す る手法で あ る.特 異なデ ー タに対 して有効 で あ るが,臨 床試験デ ー タにお いて はデ ー タの欠損 と区別 がつか な くなるので注意 が必要である。秘 匿 はデ ー タ の分布等 を見なが ら,ど の値・ レコー ドを処理す るか決 め る。ユニー クな値 を NULLに す る,も し くは ユニ ー クな値 を持 つ レコー ドを消去す るプ ログラ ム を Appendix:Programlに 記載 した .変 数 の 値 が最 大 (最 小 )の 場合 の み処理 を行 えるよ うに,マ ク ロ変数 で指定 で きるよ うに して ある.つ ま り,分 布 等 を見なが ら繰 り返 し処理 をす ることで,外 れ値 を順番 に秘 匿化 で きるよ うに してい る。 プ ロ グラム を表 2:サ ンプル デ ー タ Bに 適用す る.年 齢 を AGE,身 長 を HEIGH■ 性別 を SEX,性 感染症 の有無を STIFLと して SASデ ー タセ ッ ト化 した ものが表 3で あ る.対 象変数 と して AGE を選択 し,ユ ニー クな値 を NULLに す るよ うに設定 し,Progamlを 実行す る と表 4の 結果 を得た . ここで は ,年 齢 が 90歳 の症例が,ユ ニ ー クな値 として処理 された 342 .
表 3:サ ンプルデータ B(SASデ ータセ ット) . AGE .‐I HEЮ HT ISEX SllFL :72男 鴨 s 173男 恥 s 173男 No 15!女 N0 15:女 Ves 173女 No i 4 . 5 .6 . 表 4:サ ンプル デ ー タ C AGE HEnHT ISEXI STIFL oN o o 漁﹂N ヽN ・ ・ :: │■ . 男 男男 女女女 ││ 一 般化 情報 の正確 さを落 とす手法である。例 えば,年 齢 を一般化 す る時には XX歳 間隔で新 しいカテ ゴ リ を作成 し,該 当す るカテ ゴ リに当て はめる。 10歳 間隔 で一般 化す るの で あれ ば,25歳 は 20‐ 29歳 とい う新 しいカテ ゴ リに属 し,32歳 は 30‐ 39歳 とい う新 しいカテ ゴ リに属す 。ここで ,「 89歳 以 上 」 の よ うに特異な値 を含 む よ うに新 しいカテ ゴ リを作成すれ ば ,特 定を避 け ることが出来 る .年 齢 の よ うな連続変数 を一 定 間隔でカテ ゴ リ化す ること以外 に も,カ テ ゴ リ変数 をよ り大きなカテ ゴ リ変 数 に振 り直す ことも考 え られ る。例 えば ,国 名 のデ ー タ (日 本 ,ア メ リカ等 )を よ り大 きな括 りで あ る ,ア ジア,北 米等 に振 り直す こ とである.数 値変数 を XX間 隔で一 般す るプ ログラ ムの例 を Appendix:PЮ gram2に 記載 した。 表 4:サ ンプル デ ー タ Cの AGEを 10歳 間隔で一般化す る .Progam2 を実行 した結果 ,表 5の 結果 を得 た . 表 5:サ ンプル デ ー タ D )=25t● く30 〉=25 toく 30 〉=25 toく 30 〉=401oく 45 172 男 Ves 173男 173男 .Ves 151女 No lNo Ves 女 No i51.女 〉=40 toく 45 173 ・ サ ブサ ンプ リング ラ ン ダ ム に選んでデ ー タを再構成す る手法である。この手法 は レコー ド数 が 多 いデー タに有 効 であ るが ,研 究者が稀 な症 例 を解析 に用 いたい場合 ,該 当 レコー ドが消 され て しま う可能性 が あ り,デ ー タ量 (症 例数 )が 少 な くな って しまい解析結果 に影響 を及 ぼす可能性 が あるため,注 意 が必 要で ある .例 えば稀な有害事象 が多 いデ ー タをサブサ ンプ リン グす るので あれ ば ,事 前 に一 般 化す るこ とで (記 載 後 を コー デ ィ ン グ,LLT[Lowest Level Tcrm]か ら PT[Pretrrcd Tcrms],PTか ら SOC[SyStem Organ Classes]な ど),稀 な有 害事象 を層 に応 じて一 括 りに 出 来 ,あ る程 度 の 数 を担保 した 上 でサ ブ 343
サ ンプ リングを行 うこ とが出来 る。Appendix:Progam3に サブサ ンプ リングを行 うプ ロ グラム を記 載 した .Progam3を 表 5:サ ンプル デ ー タ Dに 適用す る。サ ンプル サイ ズ は 4と す る。結果は表 6 に記 載す る . 表 6:サ ンプル デ ー タ E .AGE ■,̲.. │ 11 1■ ISEXI STIFL 172 )=25 toく 30 178 〉=25 toく 30 173男 173女 │ o ヽN ■ 一 一3 ●■ ︐ 二 │││‐ ││‐ HEIGHT 〉=251oく 30 Ves これ らの手法 の組 み合 わせ を検討 し,匿 名化案 を作成 す る.3つ の 手法 を簡単にま とめ ,以 下に記 載す る . 秘匿 データの値, レコー ドを消去 。NULLに する あり あ り 一般化 情報 の正確 さを落 とす あ り な し ランダムに選んでデータを再構成する なし あ り サブサ ンプ リング 5三 二重 2匿色生 と亘生立上乙Z⊇ 迎堕 「4.匿 名化手法 の検討」で設定 した匿名化案 を実施 し,匿 名化後 の デ ー タセ ッ トの再 特 定 リス クを 算 出す る.再 特定 リス クの算 出に必 要 な知識である,「 同値類」,「 同値 類数」を定義す る 0 同値類 :準 識別子 に同 じ値 を持 つ全ての レコー ド ・ . 同値類数 :同 値類 の レコー ド数 ・ k― 匿名性 :デ ー タにお ける同値類数が少 な く とも kで ある状態 同値類数 とデ ー タが持 つ リス クは密 接 な関係 がある .デ ー タセ ッ トに準識別子が同 じ値 の患者が少 な くとも k人 い れ ば ,再 特定 を試 み る人間がそ の 患者 を正 しく再特 定 出来 る可能性 はせ いぜい 1な で あ る.こ の考 えを用 いて ,デ ー タセ ッ トが持 つ 再特 定 リス クの指 標 で ある 「平均 リス ク」 と 「最 大 リス ク」を定義す る.kiを 同値類 iの 同値類数 とす る と , 0 最大 リス ク :max(1/ki) ・ 平均 リス ク :Nerage(1/ki) 「3.再 特定 リス ク閾値 の設定」 で は ,最 大 リス ク,平 均 リス クそれ ぞれ に対 して閾値 を設定す る . デ ー タセ ッ トの 平均 リス ク・最大 リス クを算出す るプ ログラム を Appendix:Proram4に 記載 した 表 5:サ ンプル デ ー タ Dに 対 し,平 均 リス ク・ 最 大 リス クを算 出す る.表 5:サ ンプル デー タ D . において,年 齢 が 「>=25 to 30」 ,身 長 が 「172」 ,性 別 が 「男」の 同値類 数 は 1で あ り,年 齢 が 「>=25 「 to 30」 ,身 長 が 「173」 ,性 別が 「男」 の 同値類数 は 2で あ り,年 齢 が 「>=40 to 45」 ,身 長 が 151」 「 性 別 が 「女」 の 同値類数 は 2で あ り,年 齢が NULL,身 長 が 「173」 ,性 別 が 女」 の 同値類数は 1 , で あ る。平均 リス クは ,(1+1/2+12■ )/4=0.75で あ り,最 大 リス クは 1で ある.こ れ らの リス クがあ らか じめ設定 した再特定 リス ク閾 値 を下回 ってい れ ば次 のステ ップ ヘ 進む .下 回 ってい なければ , 344
「4匿 名化手 法 の検討」 へ 戻 り,よ リー 般化 の 幅 を大き くす るな ど,匿 名化 手法 の再検討 を行 う HE10HT A● E SEII S■ FL I )=25 toく 30 172 2 〉=25 toく 30 ■ )=25 toく 30 173 男 173 男 1/2 4 )=40 toく 45 151 〉=40 toく 45 151 女 女 1/2 巧 │ Veこ 173 1 + + ■ 1 平均 リスク :(1+1/2+1/2+1ン =0.75 最大 リスク :1 図 3:再 特定 リス ク算出の例 PЮ gram4を 用 いて表 5 サ ンプル デー タ Dの 平均 リス ク・ 最 大 リス クを算 出 した結 果 が表 7で ある。 表 7:サ ンプル デ ー タ Dの リス ク 壁 Mean Maxri=k I 075 1 6.報 宣豊 の 作成 デ ー タの持 つ 再特定 リス クが再 特定 リス ク閾値 を下回った 際 には ,報 告書 の 作成 へ と移 る。規制 上の観点 で ,適 切 な匿名 化 が 行 われたことを文 章 として残 してお く ことは重要 で ある.報 告書 の 中 には,デ ー タに含 まれ る変数や ,適 用 された 匿名 化 手法 ,設 定 され た再 特定 リス ク閾値 ,デ ー タが 持 つ 再特定 リス クが 閾値 を下回 つてい ることな どを記 載す る . 3.解 析へ の影響を考慮 した効率的な匿名化の提案 これまでは適切 な匿名化 を行 うための基本 的 な ス テ ップを紹介 した .本 節で は ,効 率的に ,か つ デ ー タの有用性 を最大 (匿 名化 に よるデー タの情 報損失 を最小 )に す るよ うな質 の 高 い 匿名化デ ー タを作成す るシ ス テ ム を提案す る . 研究者側 の 目線 に立った時 ,匿 名化 の際 の懸念 点 の 1つ として ,匿 名化後 の デ ー タで計画 してい る解析 が適 切 に行 えるかがあ るだ ろ う.な ぜ な ら匿名化 を行 うと,必 ず情報 の損 失 が起 きるか らで ある.例 えば一 般化 を行 えば ,大 きいカテ ゴ リにカテ ゴ リ化 され る こ とにな り,秘 匿を行 えばデ ー タの消去等が起 き ,デ ー タ内の 情報 は損失 され る . 匿名化前後 で ,研 究者 が計画 している解析 の 結果 に,ど れ ほ どの影響 があったか は確認す べ き点 である。研究者 が 計画 してい る解析 を期待す る精度 で実施 出来 な けれ ば ,匿 名化 後 のデ ー タは意 味 をな さない。そ こで ,解 析結果 へ の影響評価 まで を匿名 化 のフロー と して組み込 む こ とを提 案す る。 つ ま り,匿 名化案 を読み取 り,匿 名化 の実施 ,再 特 定 リス クの評価 ,解 析結果 の 再現性 の評価 ,報 告書 の作成 まで を準 自動的 に行 うフロー をシ ス テ ム に組み込み 構 築 した .そ うす る ことで,特 に , 同様 のデ ー タ,例 えば同一の疾 患領域 の臨床試験デ ー タの匿名化 に も多 くの部分 が転用可能 とな る 345
であろ う . エス ト ‐ t, ‐″ 3.再 特定 リス ク閾値 14 1.研 究者 か らの リク 2.識 別子 の分類 の設定 リスクが聞値 より大きい or解 析結果が期待する精度で再現できない ヽ■ .ψ ヽ 農 6.報 告書 の作成 靱 レ 5.デ ー タの 匿名 化 と 再 特 定 リス クの 測定 解 析 結果 の 再現性 の評価 F. , ttll:'■ 4.匿 名化手法 の検討 ● :: リスクが閾値より小さい and解 析結果が期待する精度で再現できている 図 4:解 析 へ の影 響 を考慮 した 匿名化 プ ロセス 匿名化 を実現す るには試行錯誤 が必要 にな り,そ の辿 った フ ロー をプ ロセ ス と して管 理す るこ と が重要 にな る。つ ま り,ワ ー クフ ロー型デ ー タ分析 プ ラ ッ トフ ォー ムの SAS Ente"rise Guideを 使 って ,ワ ー クフ ロー を明解 に して ,試 行錯誤 しやす い イ ンター フェースを構 築す る こ とがセ ミオ ー トメー シ ョン化 へ の近道 とな る。今回は SAS EnteTHse Guideを 使 った例 を紹介す る。 以下 の よ う なプ ロセ ス を踏む ことで ,効 率的に,か つ 質 の高 い 匿名化デ ー タを作成す るこ とが出来 る . 1.研 究企画書を確認 し,デ ー タに含 め る変数 ,適 用す る匿名化手法 を記載 した匿名化案 を複数 作成す る . 2.作 成 した匿名化案 に採用 したい優 先順位 を付 ける 3.以 下 のフ ロー を実行 す るワー クフ ロー を作成 。実行す る。 ① ② 優先順位 の 高 い 匿名化案 を読 み取 り,匿 名化デ ー タの 作成 ,再 特定 リス クの算 出を行 う 匿名化デ ー タを用 いた解析 を実行す る.解 析結果 の再現性 ,匿 名化後デ ー タ の再特定 リ ス クを評価 し,評 価結果 に よつて報告書 の作成 か ,次 の 匿名化案 に移 るかに条件分岐 さ せ る。 匿名化 案 を 3つ 作成 した 際 の ワー クフ ロー の 例 を図 3に 示す 346 .
0 ,'´ 1 1 1 1・ '1 1 1 : ‐ ・ 麟……鰯″ 鰻‐ │ :キ ‐ │ ′ 爾―――騨……鰯コ 図 5:SAS Enter Prise Guideを 用 い た ワ ー ク フ ロー 例 このプ ロセスの メ リッ トとして ,以 下が挙 げ られ る . 0 行 っ たプ ロセスが視 覚的 に確認 出来 ,明 快 である ・ デ ー タが持 つ再特定 リス クだけでな く,解 析結果 の 再 現性 も評価 され たデ ー タが作成 出 来る ・ 複数 の 匿名化手法 の組 み合 わせ を探索 的 に行 うことが で きるため,匿 名化案作成 の 際 の , 適応す る匿名化手法 に関す る議論 を最小化す るこ とが 出来 る ・ プ ロ グラ ム,報 告書作成 の 時間を大幅 に減 らす ことが 出来 る ・ 報告書 に ミス して記載す ることが無 くな る,か つ ,報 告書 の内容 が正 しい ことが保 障 さ れる 更 なるセ ミオ ー トメー シ ョン化 を行 うとすれ ば ,匿 名化案 の 作成 を 自動的 に行 うシステム を構 築 す る ことで ある。考 え られ る匿名化 手法 を網羅的 に組 み合わせ ,匿 名化 リス ク と解析結果 の再現性 ス コアの 2軸 でい くつ か候補 を示す ことを機能 と して盛 り込み た い。そ の 中で研 究計画 に適 した 匿 名 化 方法を人が選択す ることが出来 れ ば,人 が行 うタ ス クは更 に減少す る。今後 の課題 としたい . 4.最 後 に 匿名化 の手法 の 紹介 ,デ ー タが持 つ 再特定 リス クの 算 出方法 ,そ して,こ れ らを実行す る為 のプ ロ グ ラムの例 を紹介 した。また ,質 の 高 い匿名化デ ー タ作成 の 為 の ,効 率的 な匿名化 の提案 を行 っ た。これか ら匿名化 を行 ってい こ うと考 えてい る方 々 には参 考 にな るので はな いか と思 う.匿 名化 の 手法や プ ロセ ス を多 くの人 々 に理 解 して もらい ,適 切 な匿名 化 が実施 され る風 土が醸成 されれ ば 法律 面か らの観 点 も含 め,デ ー タシ ェ アの機運が高 ま るか も しれ な い . 参考文献 ルbο οs″′P″ οたαsθ [1]Alvaro H BOrges et al.Ⅳ ο′″νεたοsJ″θRι νθttι ―′″α″sθ ′を,″ sθ I″ 力め″οみ 溶 Rブ ゎ″αップ ル カめ″ο″ bαSιグRθ gブ ″θ″S力 /ル ′ ″α′ルθα物 ̀″ 9/・ Rα ノQ′ ′〃 /1″ ルι″ο4・ /Sノsた″α′ た R̀ソ たwα ″グν υ′ αα″α夕Sお ″ αο ″ブ zθ グルプ α′ s.Clinical lnttctious Diseascs,2016. [2]PhRMA/EFPIA,責 任 ある臨床試験 (治 験)デ ー タ共有 の原則 ,2013 347 ,
[3]日 本製 薬 工業協会 継続 タ ス クフォース 4,臨 床試験 の個別被 験者デ デ ー タサイエ ンス部会 ー タ の 共有 ,2017 [4]Khaled El Eman,デ ー タ匿名化手法 ヘ ル スデ ー タ事例 に学ぶ個人情報保護 ,株 式会社 オ ライ リ ー ジ ャパ ン,2015 Appendix Progaml:秘 匿 の サ ンプルプ ロ グラ ム /*tpc=1:ユ ニー クな変数 の値 に対 しての処理 */ /*tpc=2:ユ ニー クか つ 最 大 の変数 の値 に対 しての処理 */ /*typc=3:ユ ニー クか つ 最小 の変数 の値 に対 しての処理 */ /*dcletc=1:対 象 の値 を持 つ レコー ドを消去す る*/ /*delete=2:対 象 の値 を NULLに す る*/ ohmacro secrecy(indata, outdata, variable, type, delete); /*指 定 変 数 で sonを す る */ proc sort data=&indtta.out=̲&indda; by&variablc.; run; /*最 大 値 ,最 小 値 情 報 の 取 得 */ proc mcans data:=&indata.noprint; var&variable.; output ou← ̲out(DROP=̲TYPE̲̲FREQ⊃ max=max min=min; run; dtta̲NULL̲; set out; Call Symput("maX・ ,maX); Call Symp■ ("min",min); run; /*秘 匿 を行 う */ data&outdata.; sct (&,indata.; by&variable.; i(■ rst.&variablc.=1)then̲N=1; 348
else _N+1; if(&type.:l) then do; i(&delete.:1) then do; if(last.&variable.:1 and _N:l) then delete; end; if(&delete.:2) then do; if(last.&variable.: I and _N: I ) then call missing(&variable.) ; end; end; if(&type.:2) then do; if(&delete.:1) then do; if(last.&variable.:l and _N:l and &variable.:&max.) then delete; end; i(&delete.:2) then do; if(last.&variable.: I and N: I and &variable.:&max.) then call missing(&variable.); end; end; i(&type.:3) then do; if(&delete.:l) then do; if(last.&variable.:1 and N:l and &variable.:&min.) then delete; end; i(&delete.:2) then do; if(last.&variable.: I and N= I and &variable.:&min.) then call missing(&variable.); end; end; drop N run; Yometd; Program2:一 般化 の サ ンプル プ ログラ ム /*rangcで 間 隔 を指 定す る */ %maCrO gCnemliZttiOn(indtta,Outdata,Vaiable,rangc); /*一 般 化 の 最 大 幅 ,最 小 幅 の 取 得 */ data̲&indata.; set&indata.; 349
if(&variable.:missing) then delete;
run;
data_NULL_;
set &indata. end:end;
retain _max _min;
ifLN_=l) then do;
_max:&variable.;
_min=&variable.;
end;
if max(&variable.)>-max then
if min(&variable.)<_min then
-max:max(&variable.);
-min:min(&variable.);
ifend;
_maxsep:_max-modfmax, &range.)+ &range.;
_minsep:_min-modfmin, &range.);
call symput("maxsep", _maxsep);
call symput("minsep", _minsep);
run;
/*新 カテ ゴ リの lomat作 成 の 為 の デ ー タセ ッ トを作 成 す る */
dttaお In;
if⊂N̲=1)then do;
start=&minsep.;
end=start+&range.;
end;
dO While(end<=&maXSep・ );
output;
sta■ +&range.;
end+&rangc.;
end;
run;
/*カ テ ゴ リの フ ォ ー マ ッ トの 作 成 */
data̲lorin;
set brm;
fOrnlat fIIltname S200.label S200.type S2.start 10
350
end 10. sexcl $10. eexcl $10.; fmtname:"a_&variable. "; type:"N"; sexcl:"N"; eexcl=ttY"; label:"):" ll strip(put(start, bestl2.)) ll " to " ll "<" ll strip(put(end, bestl2.)); run; proc format cntlin:_form; run; /*新 カ テ ゴ リの おrmatを 当 て は め る */ data&outdata.; set&indata.; ̲&Vaiable.=p前 (&Vanable.,a̲&Varlable..); drop&variable.; run; Yomend; Program3:サ ブサンプ リングのサ ンプルプ ログラム /*samplesizeで サブサ ンプ リング後 の レコー ド数 を指定す る */ %maCrO SubSet(indda,0■ data,SamplCSiZe); /*mcthod=srsで 無 作為 非復 元 抽 出 の 指 定 */ proc surveysclect data:=&indata.nlethod=:srs n=:&san■ plesize.out=:&outdata.; run; ohmend; Program4:再 特定 リス ク算 出 の サ ンプルプ ロ グラム %lct quasi=準 識別子 をブランク区切 りで記載 ; Yomacro risk_calculation(indata, outdata); /*準 識 別 子 の 最 後 の 1つ を取 得 */ d a̲NULL̲; 351
quasi:"&quasi."; count:count(quasi, " ")+l ; last:scan(quasi, count, " "); call symput("1ast", last); run; /*準 識 別 子 で so■ をす る */ proc sort data=&indata.out=&outdata.̲1; by&quasi.; run; /*同 値 類 数 の 取得 */ data&outdtta.̲2; set&outdata.̲1; by&quasi.; i《 arst.&last.=1)thcn N=1; clsc N+1; i【 laSt.&laSt.=1); risk=1/N; run; /*平 均 リ ス ク ・ 最 大 リス ク の 算 出 */ proc means dtta=&outda慨 ̲2; var rlsk; Outp■ o■ =&outdtta.(drop=̲TYPE̲)max=Maxnsk mean=Meanrisk; run; ohmend; 352
●, .■ ‐ ■ ││
生 存時間解析 の評価指標 に関す る最近 の展開 ― RMST(restrictcd mean suMvaltimc)を 理 解 す る 一 ○若菜 明 ○淀 康秀 ○棚瀬 貴紀 ○ 田中 慎 一 ○長谷川 貴大 三澤 早織 之 仲川 慎太 郎 飯森 孝行 鵜飼 裕 1、 1、 1、 l、 1、 1、 1、 1 1 (1日 本製薬 工業協会 ) 死 亡 や 特 定 の 有害事象 の 発 現 な どイ ベ ン トが発 現す るま で の 時間を評 価 す る臨床試 験 で は 、 Kaplan一 Meier法 で生存 関数 を図示 し、log― rank検 定で生存 関数 の 群 間比較 を行 い 、Cox比 例 ハ ザ ー ド モ デ ル で評価指標 であるハ ザ ー ド比 を推 定 し治療効果 の大 き さを議論す る こ とが多 い と思 われ る。 生存 関数 の評価指標 には 、ハ ザ ー ド比に加 え、生 存時間 の 中央値 、ある時点 の 生存割合、規 定 した 特定時点ま での平均 生 存時間な どがあ り、それぞれ異な った視 点で生存 関数 を要約 してい る。 しか しなが ら、実業務 では想 定 され る生存 関数及 びその群問差 は各試験で多様 で あ るにもかかわ らず 、 ハ ザ ー ド比以外 の評価指標 を主 として用 い られて い る場面 は多 くはない と思 われ る。 近年 、臨床 系 の雑誌 において、比例 ハ ザ ー ド性 が成 り立た な い 場合 の代替指 標 の 1つ として、RMST (rcstricted mean suMval time)の 利用 につい て議論 が され始 め てい る。 しか しなが ら、RMSTを 中心 にま とめ られ た成書は存在せず 、実適用 のた めにはそ の性質 に つ いて実務 的 な検討 が必要 で あ る と 考 え、医薬 品評価委員会デ ー タサイ エ ンス部会 2017〜 18年 度 タ ス クフォー ス に よ り検討 を行 った 。 本 企画セ ッシ ョンでは 、RMSTを 評価指標 とした臨床試験 に携 わるSASプ ロ グラマー及 び生物統 計家 を対象 に、RMSTの 実適用 に必要 と考 え られ る以下 の 内容 について発表 す る。 (1)生 存時間型応答 の評価 指標 本企画 セ ッシ ョンの狙 い と構成 を述 べ る と共 に、生 存 時 間型応答 を評価 す る臨床試験 にお い て、主 に利用 され てい る評価指標 の概 要 とRMSTの 長所 。短所につい て紹介す る。 (2)RMSTの 定義 と統 計 的推 測 RMSTの 定 義 と統 計 的 推 測 に つ い て 述 べ る と共 に、 LIFETESTプ ロ シ ジ ャ の TIMELIMオ プ シ ョン を用 い て RMSTの 統 計 的推 測 を行 う際 の 留意 点 に つ い て紹介 す る 。 ま た 、RMSTの 分 散 に対 して 、主 に2種 類 の 推 定 量 が 用 い られ てお り、これ ら の 性 質 を確 認 した 結果 を報 告 す る。 (3)RMSTの 必要症例数計算 RMSTの 群 間差 を検 出す ることを 目的 と した必要症例 数 を計算す るSASマ ク ロを作成 した。 計算方法 を解説 し、 SASマ ク ロの実行例 を紹介す る。 (4)RMSTの 参照値 の 見積 り 解析 に必要 な被 験者 数 を計算す る際 に利 用す るRMSTの 参 照値 を得 るた めに、公表 論 文 の Kaplan一 Mcicr曲 線 か ら各被験者 の生 存 時間デ ー タを再構 築す るSASマ ク ロ を作成 した。 これ を利用 し、RMSTの 推 定値 と標準誤 差 を計算す るため の 方 法 を紹介す る。 (5)RMSTの 性能評価 シ ミュ レー シ ョン RMSTを 検 定に用 いた場合 の性能評価 を シ ミュ レー シ ョンで確認 した 。 比例 ハ ザー ド性 が 成 立 又 は成立 しない条件 下 で 、log― rank検 定 と比較 した結 果 を紹介す る。 355
存時間解析の評価指標 に関する最近 の展開 ― RMST(restricted mean survival time)を 理 解する一 1.生 存時間型応答の評価指標 ○長谷川 貴大 1、 仲川 慎太郎 2 (1塩 野義製薬株 式会社 、2中 外製薬株 式会社 ) Evaluation Measures for Time-to-Event Outcome Takahiro Hasegawa Biostatistics Center, Shionogi & Co., Ltd 要旨 本企画セッションの背景と構成を述べると共に 生存時間型応 答を評価する臨床試験において 主に利用が想 定される評価指標の概要と RMS下 の長所 口 短所について紹介する , , . キーワード 時点生存割合,平 均生存時間,生 存時間中央値 ハザード,RMS丁 : 356 ,
音 占 留 F=コ │′ E ヽ ′11ヽ 。 本企画セッションは,先 日公 開された 「生存時間型応答の評価指標 │ 当RMST(reSttriCted mean SuⅣ iVal)を 1理 1解 す る ‐」 について,日 本製薬 工業協会 医薬 品評価委員会 データサイエンス部会タスクフォース4 生存時間解析チームが 本企画セッションの趣 旨を踏まえ 再構成したものである , 一 報告書 ・ http:〃 WWW」 pma.Or.ip/mediCine/Shinyaku/tiken/a‖ Otmenυ rmSt.html ― シンポジウム資 料 ・ http://www.jpma.or.jp/medicine/shinyaku/tiken/symposium/ 日本製薬 工 業協会 医薬 品評価委員会 データサイエンス部会 2017〜 2018年 度 タスクフォース4 生 存時間解析チームメンバ ー 飯森 孝行 (杏 林製薬株式会社) 鵜飼 :裕 之 (日 本ベーリンガーインゲルハイム株式会社) 田中 慎 ― (日 本新薬株式会社) 棚瀬 貴紀 (大 鵬薬品工業株式会社) 仲川 慎太郎 (中 外製薬株式会社) 長谷川 貴大 (塩 野義製薬株式会社) 三澤 早織 (日 本化薬株式会社) 淀 康秀 (大 日本住友製薬株式会社) 若菜 明 (MSD株 式会社) 357
本企画 セッションの構成 1.生 存時間型応答の評価指標 長谷川 20分 2.RMSTの 定義 と統計的推測 田中 20分 3.RMSTの 必要症例数計算 棚瀬 25分 4.RMS下 の参照値 の見積 り 若菜 20分 5.RMS丁 の 性能評価 シミュレーション 淀 25分 質疑応答 発表 内容 本 企画セッションの狙 い 2.生 存時間型 応 答 の評価指標 1日 3.RMS下 の 長所 と短所 4.ま とめ 358 10分
1日 本 企画セッションの 狙 い 生 存 時 間 型デ ータ 681 .・ 一 ・ 29 184 55 318 126 ︱ ︲● . . 有 有 無 有 有 有. ■● 一 一 ●︲ ・・ ・ ・ ・ 一一一・ プラセボ プラセボ プラセボ .‐ 打 ち切 り 例 生存時間型応 答 は 「鋳h」 と 「イベント発理 の宥無』のセットで観測される 8 359
生 存 時間解 析 の 一 例 O Kaplan‐ Meier法 で 生存関数 の 図示 0 1ogィ ank検 定 の 実施 O Cox比 例ハザードモデルにより ハザード比を推定 Kaplan― Meier法 の生 存 関数 ° 4′ ベントが発現するまでの時間を 要約する方法 直前 の 追跡例数 7 6 4 1 IXイ ベント ´ 10打 ち切 り l ̀ (6/7) 生存 割合 (6/7)・ (懲 /6) (6/7)・ (5/6)・ (3爆 ) (6/7)・ (5/6) (3/4)・ (○ /1) 0 時間 10 360
本企 画 セッションの 狙 い 統計 的な評価 を行うためには ,生 存 関数 がもつ 情報を1つ の 値 へ 要 約 し,解 釈する必要 が ある 様 々な評価指標 が 利用されている 近年 ,臨 床系の雑 誌 において , RMSTの 利用 について議論がされ始めている 一 比例ハザード性が成り立たない場合の代替指標の1つ 。t」 no et al(2014),Hasegaヽ va et al.(2017) 今 年のASCOで は ,RMSTの 適 用例 として6演 題 が 発表された 一 例lえ Iず ,Sawaki et a!.(2018)Eva!uation oftrastuzumab without chemotherapy as a pOStOperatiVe adiuvanttherapy in HER2¨ positive e!derly breast cancer patients: Randomized contro‖ed trial(RESPECT). 11 2.生 存時間型応 答 の評価指標 42 361
生存 時間型応 答 の評価 指標 ① 時点生存割合 ② 平均生存時間 ③ 境界内平均生存時間 (Restricted Mean Survival Time;RMS丁 ) ④ 生存時間に対する中央値 ⑤ ハザード 13 ① 時点生存割合 特定 の時点での生存割合 ・ 時 点 tで の 時 点 生 存 割 合 S(ι )=P(7≧ ι ) ベ ‑7:イ ント発現までの時間 (生 存時間)を 表す確率変数 0時 点 tは 対 象 疾 患 や 試 験 目的 を考 慮 して選 択 O LIFETES丁 プ ロシジャで算 出可 生 存割合 1''(ι ) 0 生存 時間 362 14
② 平均生存時間 存時間Tの 期待値 ・ 平均生存 時間 μ==E=[7・ 1]==J:∞ =J∫ S(ι )dι げ )α ι〓 (ι 一生存曲線下の面積として算出 ―最長 の生存時間データがイベントの場合のみ算出可能 ・ LIFETES丁 プ ロシジャで算 出可 生存 割 合 0 生 存 時間 ③ 境界内平鞠生存楡鸞(IWST) ・ 境界 時間 τ内での 生 存 時間X(響 )=證 量 n(T′ τ )の 平均値 ・ RMST μ(τ )=E[χ (τ )]=F[min(7,τ )] ―境界時間τ内における生存関数の曲線下面積 ・ LIFETES丁 プ ロシジャで算 出可 ―ただし,留 意すべき事項あり 生存割 合 0 τ 363 生 存 時間 15
④ 生存時間中央値 。生 存 割合 が 50%iこ 顔嗜 達 するまでの 時 聞 一ξ(o=0.5を 満たすt e翌 フ■議綴移雇裏/ク方療 とιて疲 〃 O LiFETES丁 プ ロシジャで算 出可 生存割合 0.5 0 生存時間 中央値 生存時間 17 ⑤ ハザード ヽ ・ ある時点ι う条件付きで まで生存したとし 次の瞬間にイベントが発現する率 ―ハザード :ん )=」 :鶏 (ι 聖堡生器生墜2 ‐ ・ 群 間差 の 指 標 として各 群 の ハ ザ ー ドの比 (hazard ratio)が報 告 され ることが 一 般 的 ―Cox比 例 ハザードモデルにより推定 一PHREGプ ロシジャで算 出可 18 364
3.RMSTの 長所 と短所 19 境 界 内平均生 存 時間 (RMS丁 ) ‐ │││ ││‐ ・ 二 ニ ニニ │.│ ‐ │ ‐ │ │ │ │ ││ ││.■ 舞 1所 臨床 的に解釈 しやすい 最終 生 存時間 が 打ち切りの 場合 の平均生存 時間の 問題 点が解決され ている 0事 前 に妥当な境界時間τを 決 める必要 が ある 生存 割合 Kaplan― Meier曲 線 の 境界 時間τまでの情報を すべ て利用している点で 時点 生存割合より多くの情報 を用 いた推定値 となつている , 生存 時間 τ 365
4.ま とめ 21 生 存時間 型応 答 の評価指標 生存 割合 あ る境 界 時 間までの 曲線 下面積 =RIMIST 509る 曲線 下 面積 全 体 =平 均 生存 時間 時点 生存割合 生存 時間中央値 ある時点 (Median Surviva:Tirrle) 時間 22 366
本企画 セッションの 構 成 (再 掲 ) ・ I. 1.生 存時間型応答の評価指標 長谷川 20分 2.RMSTの 定義と統計的推測 田中 20分 3.RMSTの 必要症例数計算 棚瀬 25分 4.RMS丁 の参照値の見積 り 若菜 20分 5.RMS丁 の 性能評価シミュレーション コ 攣 =嘔 メこ 25分 質疑応答 10分 23 参 考 文献 Collett D. Modelling survival data in medical research, third edition. CRC Press;2015. Everardo D. Saad, John R. Zalcberg, Julien Pe-ron, Elisabeth Coart, Tomasz Burzykowski, Marc Buyse. Understanding and Communicating Measures of Treatment Effect on Survival: Can We Do Better? J Natl Cancer lnst. 201 8; 110: 232-240. Hasegawa T, Uno H, WeiLJ. ZoledronicAcid Dosing in Patients With Metastatic Breast Cancer. JAMA Oncol. 2017 .doi: 1 0.1 00 1 /jamaon col.2O1 7 .0487 . Klein JP, Moeschberger ML. SurvivalAnalysis: Techniques for Censored and Truncated Data second edition. Springer-Verlag: New York; 2003. Lee ET, Wang JW. Statistical Methods for Survival Data Analysis. second edition. John Wiley & Sons: New York; 1992. Uno H, Claggett B, Tian L, lnoue E, Gallo P, Miyata T, et al. Moving beyond the hazard ratio in quantifying the between-group difference in survival analysis. J Clin Oncol.2014; 32: 2380-2385. Uno H, Wittes J, Fu H, Solomon SD, Claggett B, Tian L, ef a/.Alternatives to Hazard Ratios for Comparing the Efficacy or Safety of Therapies in Noninferiority Studies. Ann lntern Med.2015; 163: 127-134. 24 367
存時間解析 の評価指標 に関する最近 の展開 ―RMST{restricted mean survivaltime)を 理解する一 2.RMSTの 定義と統計的推測 ○ 田中 慎 ‑1、 棚 瀬 貴紀2、 鵜飼 裕 之 3 2大 鵬薬品工 業株 式会社 、 (1日 本 新薬株 式会社 、 3日 ベ 本 ー リンガーインゲル ハ イム株 式会社 ) Definition and Statisticallnference of RMS丁 ShinichiTanaka Data Science Dept., Nippon Shinyaku Co., Ltd 要旨 : RMS下 の定義と統 計 的推測 について述 べ ると共 に , LiFETES丁プ ロ シ ジ ヤ の T!MELIMオ プ シ ョンを 用 い て RMS丁 の統計 的推測を行う際 の 留意 点 について紹介する キーワード : RMST, LIFETEST, 丁IMELl卜И 368
発表 内容 1.RMS下 の 定 義 と性 質 2.RMS下 の 統 計 的推 測 ― Kapian‐ Meier法 によるRMS下 の推定 ― 治療群間の比較 ―SASプ ログラム 3.SASプ ログラミング時の留意点 4.ま とめ 1口 RMSTの 定義と性質 369
MS下 の 定義 ̀,│ 11 >イ ベント発 現までの 時 間を7, 境界 時 間 τ内での 生 存 時間をX(τ )=min(7′ τ) とした 場 合 ,X(τ )の 平 均値 μ(τ )=E[X(τ )]=E[Inin(7′ τ)] が RMS丁 RMS下 の角翠釈 0生 存 時間Tの 生存 関数をS(ι )と すると,RMS丁 は α ι ヽ1 ノ ι ′⁚ヽ S ︱ τ ︲ nυ r ︲11■ J / 1ヽ ヽ1 ノ μ τ と表現 できる ・ RMS丁 は ,「 境界 時間τ内における生存 関数 の 曲線 下面積」としても解釈 できる 生存 割合 0 τ 370 生存 時間 ,
生存時間X(τ )の 分散 界時間τ内での生存時間X(τ )の 分散 は つ σ (τ , )=Var[X(τ )] tl ,' つ ヽる ■ ヽ ̲.つ ―・ 4 dt‐ } t,, J ■ と表せる この分散 は必 要症例 数計算時 に使用され る OX(τ )の 期待値 (RMS丁 )及 び分散 は,生 存 関数から 求 められ る.実 際 の解析 では ,観 測データから 生存関数を推定 し,RMS丁 を推 定することになる . 2.RMSTの 統計 的推測 371
RMS下 の推定量 ・ Royston and Parmar(2013)に より,Kaplan‐ Meier,去 による生存曲線を積分する方法が示され ている 1‑号 )S(り ) ・ 1■ .■ ― S(ι )は Kaplan― Meier法 による生 存 曲線 の推定量 ι l<ι 2<…・<ι Dは 境界時間τ内でのD個 のイベント発現時点 ― ι。 =0,ι D+1=τ ■一 1 ξ(ι . g'(32 │ 0 + τ ら 場 │││'■ ι2 RMS下 の推定量2(τ )の 分散 O Greenwood(の 公 式により , ‐ , : D VaF12(τ )]= l .2 ロ +17̀ι )S(tJ)117デ Σ IΣ 七雨 ′ ノ 」 イ`′ ′ (̀ι ==1l Li==′ ―ろはイベントが発現した時点場でのリスク集合の大きさ ―時は時点場でのイベント数 O リスク集合 イベント数 亀 4 ・ 錢 t。 τ ι 2 ιD ろ ろ d2 αD 372 ιD̲卜 1(==τ )
RMS丁 を求 め るた め の SASプ ログ ラム 01iた testプ ロシジャ timelimオ プションを利用 0構 文 『 OG lifeteSt data =l data tittelli熙 t ittc t itte ネ censo「 (③ ): 毬曇 『 = ヒ : : ―titteli聞 =LIこ │よ 境界 時間τ警表すな《 鋳簸 直警芋 ―timeは 時間変数 ―censorは 打ち切り変数 (0は 打ち切 りを表す ) 11 例 一 ● 一 一 ・ 7 ・ ・ ・ a 一 ・ 一 t 一 一 一 一一 一 一 ●一 一 一一 一 . . 一一 一 一 一 一 一 2 4 . 一 一 一 一 一 一.一 一一 一 . ・ 一 一 一 一 一 . 一 一 一 一 一 一 一 一 一 一 . 一 一 一 一 一 .. . . 一 . ●一 ● ・ ︐ ・ 一 一一 一 一 一一 一 一 一 一一 一 一 ●・ ■● 一 一 一 一 一 一 一 一 一 一 一 一 一 . . 一 ●一一一 ・ 一 一一 一一一一一 一 ・ 一一一 一 一 一 一 一 一 一 一 一 . ●● 一 一 一一 一 一 ︐ ■一■ 一一一一 一 一 一 一・ 一 一 2 一 一 一 一一・ 一一一 . 一 一 一 一 一一 一. 一 一 一 一 一 一 .一一 一 ¨ 一 一 一 一 一 一 一. 一 一 一 一 一 . ・ 一一一一一 一 一 ●一 ■ 一一 ■ 一一 一 一 一 一 一 ・ データセットSAMPLE 財 爾 趙 目に闊 胚 直 12345 O SASプ ログラム proc iifetest ttata=SAttPLE titteli雛 =懸 │ titte titte * censo『 (0)i 『 uni 12 373
出力結果 LIFETESTプ ロシジ ャ 積 極 限 法 に よる生存推 定 time 生存卒 .00000 .00000" .00000 .00000 1.0000 0 0.7500 0.5000 0.2503 0.2580 死 亡事 生存事の標 準誤 差 死亡数 生存数 0 3.2165 0.5000 0.2500 0.7500 0.2165 NOTE:マ ークが付いた生存時間は打ち切 リデ ータです。 時 間 変 数 timeに 対す る要約 統計 量 四 分位点推定 バ ーセ ン ト 35X信 頼 区 閣 点推 定 変換 しOGL06 LOGLOG LOGLOG 75 50 25 [下 限 上限 ) 2.00000 2.00000 2.00000 4.00000 平 均 標 準 誤 差 3.50000 0.68465 13 治療群間 の比較 (RMS下 の差 ) 。群J(対 照薬群を0,実 薬群を1)の RMS下 の推定量を2J(τ ),そ の分散をVar[2J(τ )] 02群 のRMS下 の差の推定量 21(τ )‑20(τ ) 分散 Var[21(τ )‑20(τ )]=Var[21(τ )]+Var[20(τ )] 14 374
差の信頼 区間、検定統計量 ・ 2群 の差の 100(1‑α )%信 頼区間 (arro-fro?)*zo/z 1 +Varlpi。 (τ )] ―zα は標準 正規分布 の上側=ヽ 100α % >帰 無仮説″。:μ l(τ )一 μO(τ )=0 >対 立仮説″1:μ l(τ )一 μO(τ )≠ 0 ・ >検 定統計量 1■ ●■ ︱ ■ ■sDは 漸近的に標準 正規分布 に従う 15 RMS下 の差を求めるためのSASプ ログラム sAs oc iifetest data = data t llnelim = L: 「 tlme tlme * censo「 〔 3): st「 ata g「 oup: ods output Means = ̲mean: un: 「 ―time‖ m=Lに は境界時間τを表 す数値を指定 ‐timeは 時間変数 ‐censorは 打ち切 り変数 (0は 打ち切 りを表す ) ―groopl旗 鱗変 数 ODS OUTPU丁 ステートメントを用いて、 RMS丁 と標準誤差をデータセット化 ― データセット例 r,4● ●nl ll 0 350000 1 225000 0̲68465 TRANSPOSEプ ロシジャなどを用い加工することにより 2群 のRMSTの 差、標準誤差を計算 16 375
3.SASプ ログラミング時の留意点 17 SASプ ログラミング時の留意点 【SAS/STAT(R)14.l USeris Guldё 抜粋】 TIMELIM=rime=″ 〃 │ speciies the time lirnit used in the 6stimatiOn‐ Ofthe mean survivaltime and its standard errOn・ The rnean survivalltirne can be shOwn tO be the area underthe. Kaolan二 IM‐ ё ier su‐ い ′ iVal curve.How.ever,if the.largest observed time in the data iS COnSOred,the area u.nderthe Sunノ iVa!CurVe iS n6t a ё!osed‐ area.ln such・ a situ.ation,youl.ca.n choose a time limit L and estimate the mean survival curve ‖ m■ ed tOa time L(Lee 1902,lp.72二 76).:菫 詮鶴:」l燿:豪 塵 璽塑:Li饉二ζ 慮1運!鬱1警:潔 菫二藝i藤 麹麟 :‐ ‡ :::IIili]│lilll:̀:::11‐ 1:│を li二 重 :││』 :│き 11:i!111::)::‐ │:│ゝ ′¨ 111:21:』 .1::1.I:││lil:1:i:を .11:││:1狂 1::営 11:llユ ││::l:│さ 41::│:LI:::書 ̲:書 』 ::::│││!│:li:11== :. │ O time‖ mに 指定した時間より後 にイベントが発現 している場合 , 強制的に最終イベント発現時点までのRMS丁 が算出される 18 376
例 (境 界 時間τ=3の 場合 ) 1 0,75 0.5 0,25 >SASプ ログラム proc lifetest data = SAttPLE titte li醸 = 3; ti轟 ● t itte * censor(醸 ): run; > 力結 果 平 均 標 準 誤 差 3.25000 0.50775 事前 に,デ ータセットの加 工 が 必要 O DATAス テップで,境 界時間τより後 に発 生 したイベント を打ち切 りに変換 したデータセットを作成する ・ 境界時間τ=3の 場合 2‐ ・ ‐ ‐ 巌 4 鰊 4 20 377
iね testプ ロシジャによる標準誤 差 ■ 4 D . ・ 苺 ̲1, ││ ■‐ ―均はイベントが発現した時点りでのリスク集合の大きさ 一 時 で の イ ベ ン ト数 は 時 点 り ,議 議 葛 れ 時 ・ 一方,Klein(2003),Co‖ ett(2015)等 では m/(m‑1)を 掛けない分散が記載されている 21 2つ の分散 の 性質 D「 D 7α r̲κ Jθ i71==‐ 2 l 二 +1 ι 二二 と マ ││を ′ )iS(ι )│ 竹 yJ(均 一 時) (ι 2 yα r SAS=:π "に VIV (ti*r - r,)3(ri) ∠」 i∠」 =II ノ 〓l LEづ │ 竹 均(均 一時) シミュレーションにより 一被験者 J(ι =1,… ′ ■)の 生存時間7ご が整数分布 に従う ` 一境界時間τ内での幸 存在 しなし 丁ら甥けんヾ これらの場合 について,2つ の分散 の性質を確認 , ・ イベント数 による影響を評価 378 22
RMS下 の推定量2(τ )の 分散 ・ 境界時間τ内で打ち切 りが存在 しないとき RMS丁 の 推定量2(τ )は 各被験 者 の生存 時 間Xj(τ ) の単純平均 , ﹁ F ヽ 乙・ J 4■ )= ■ 一■ 2(τ ■ Xi(τ ) 境 界 時間 τ内 での 生存 時間 を Xi(τ )=min(7)τ ) となるため,そ の 分散 は Var[2(τ )]=Var[XJ(τ )]/■ 23 7Jが ハザードλの指数分布 に従う場合 0境 界 時間 τ内での生存 時間為 (τ )の 分散 は Royston and Parmar(2013)に より , ■ 7 r▼ ア′` コ 1 2λ τθχP(一 λτ)一 θχP(‑2λ τ) vArix」 〔τ ll== マ‐ L ι ヽレノ」 λ2 0シ ミュレーションにより,Var[XJ(τ )]/■ との変化率 yα r κl 幸 ,,● . ‐ . Var[Xご (τ )]/■ の平 均値を求め ,2つ の 分散 のズ レの大きさを評価 24 379
シミュレーション条件 ・ シミュレーション回数 100,000 0境 界時間τ=2年 0 2年 生存率0.9, 0.7, 0.5, 0.3, 0.1の キ 旨数分布 ・ 1被 層 実者数30,50,100伊 l シミュレーション結果 (被 験者数 30例 の場合 ) 0.7. 10.01116.7 13]‐ │ 0017257 0]‐ 議 .0̲01902132(0.0011061)│[ .34]‐ │■ : > Mean(SE)[計 算不可回数](ソ αr̲κ れはイベント0,7α γ̲SИ Sは 0及 び 1の 回数 ) ̀θ 埋ご﹂e冊コ︸ 黙 1.00 0.75 0.50 0.25 0̲00 ‑0.25 ‑0̲50 ‑0̲75 ‑1̲00 ◆ 鰺 3 壕 簸 稼わ 参 薔 期 待 イ ベ ン ト数 380 27 26
シミュレーション結果 (被 験者数50例 の 場合 ) 0,7● ‐ 0.00.6700 . 15111 [.10].‐ │.0,048641倉 奮 ‐ 0.01o314 ‐ 0] > Mean(SE)[計 算不可回数](7α γκι θれはイベント0,7α r̲SИ Sは 0及 び 1の 回数 1.00 理ぶ鮮O絆歯︸ 黙 0,75 0.50 0.25 0.00 ) Var ◆ ‑0̲25 ‑0.50 ‑0.75 ‑1.00 5 霧5 壼5 35 45 期 待 イ ベ ン ト数 27 シミュレーション結果 (被 験者数 100例 の場合 ) 癬 > Mean(SE)[計 算不可回数](7α γ̲κ Jθ れはイベント0,7α r∫ ИSは 0及 び 1の 回数 ) 1.00 理ぶ眸C掛翠黙 0̲75 0̲50 0̲25 0.00 ‑0.25 ‑0.50 ‑0.75 ‑1̲00 篠○ 38 5意 期 待 イ ベ ン ト数 381 ,0 90
考察 07α ■ KIθ れ は ,Var[XJ(τ )]/■ より小 さくな る傾 向 O yar∫ ■Sは ,Var[Xi(τ)]/■ より大きく なる傾向 O yα r̲駒ドはイベント数 が 少ない状況では , Varri(τ)]/■ より大きくなってしまうことが あるが イベント数 が増 えると,Var[Xi(τ )]/■ に近くなる傾向 , 29 分散 まとめ in(2003),CoHett(2015),Rの suⅣ fit関 数 では , yα r̲κ Jθ j■ が示されている O SASは ,Kaplan(1958)及 びLee(1992)を 参考 に yα r̲5■ Sの 式を用 いている 0ど ちらの分散式を用 いるべ きかの コンセンサスは 得られていない 0日 本製薬 工 業協会 医薬品評価委員会 データサイエンス部会タスクフォース4 生存時間解析チームが作成 した報告書 では RMS下 の推定量 に対する分散 式としてyα r̲KIθ れ を 用いている , 382
SAS . 謝 ザー総会 yα r̲KJθ れを求めるためのSASプ ログラム 0018 proc ユ = t ime t ime x censor(0); ods out run: a lme lm= CensoredSumma ・ ODS OUTPUTス テー トメントを用 いて 、 標 準誤 差 及 びイベント数をデ ー タセット化 ― データセット例 イベント数 標準誤差 rυ lean 350000 058465 変数名:Fa‖ ed 変数名 :StdErr . Var_Klein = StdErrr"'2 * (Failed - 1) / Failed ; 31 4.ま とめ 32 383
まとめ O RMS丁 一 定義 :境 界時間τ内でのイベント発現までの 時間に対する 平均値 ―境界時間τ内における生存関数の曲線下面積 ― Kaplan… Meier法 による生存 関数を積分 し,推 定 ― liた testプ ロシジャ time‖ mオ プションを用 いて計算可能 ・ プログラミング時の留意点 ・ 以下のSASプ ログラムを報告書に記載 ― 境界時間τより後 のイベントを打ち切りに変換 ‑2群 のRMS下 の差および比の信頼区間,P値 33 参考文献 Royston P, Parmar MKB. Restricted mean survival time: an alternative to the hazard ratio for the design and analysis of randomized trials with a time-to-event outcome. BAqIC hrled ical Research Methodology 2013; 1 3:1 52. Klein JP, Moeschberger ML. SurivalAnalysis: Techniques for Censored and Truncated Data second edition. SpringerVerlag: New York:2003. Collett D. Modelling survival data in medical reseach, third edition. CRC Press: 2015. Kaplan EL, Meier P. Nonparametric Estimation From lncomplete Observations. Journal of the American Statistical Association. 1 958: 53(282): 457 -481 . Lee ET, Wang JW. Statistical Methods for Survival Data Analysis. Second edition. John Wiley & Sons: New York: 1992. 34 384
時間解析 の 評価指標 に関する最 近 の展 開 一 RMST(restricted mean survivaltime)を 理 解 す る 一 3.RMS下の必要症例数計算 ○棚 瀬 貴紀 1,田 中慎 ̲2,飯 森孝行 3 (1大 鵬薬 品 工 業株式会社 ,2日 本新薬株式会社 , 3杏 林製薬株 式会社 ) Sample size calculation for RTVST Takanori Tanase Data Science Department, Taiho Pharmaceutical Co., Ltd. 要旨 : RMS下 の群間差を検出することを目的とした必要 症例数を計算するSASマ クロを作成した.計 算方 法を解説し SASマ クロの実行例を紹介する . キー ワード:RMST′ 症例数設計 385
2018 発表構 成 1.RMS下 の 症 例 数 設 計 の 方 法 2.SASマ クロの 紹 介 3.症 例 数 設計 の 例 一 指数分布の場合 ― 区分指数分布の場合 4.ま とめ 1.RMSTの 症例数設計の方法 386
一 般 的な症例 数 設計 0連 続型確 率変数 の2群 間の差 つ 乙 (,o/, + ,p) Ⅳ=(1+ノ ) (μ .̲μ 。 )2/0ィ /ノ +晰 ) の平均,晴 :群 θの分散 g:群 θ μ , α:両 側有意水準 ,1‑β :検 出力 zα :標 準 正規分布 の上側 100α %点 ノ:割 付比 (実 薬群/対 照薬群) , , ・ RMS下 の差も基 本 的 に同じだが ,打 ち切 りを 考慮することが 必要 症例 数設計 の概 要 ・ 目的 :2群 間 の RMS下 の差 を検 出すること ・ Royston and Parmer(2013)を 参:照、 ・ 実際 の 臨床試験 では ,境 界 時間τ内 の 打ち切 り発 生により分散 が 増 加 0シ ミュレーションを用いて打ち切りを想定した 分散を計算し,対 応する必要症例数を計算 387
計算手順 (1) 1.症 例数設計で想定する分布及び期間等を決める . ・ 各治療群 の生存時間分布 (例 えば,区 分指数分布を仮定 ・ 境界時間τ ・ 被験者 の 登録期間及び追跡 期間 ) ・ 単位時間あたりの打ち切 り発 生割合 ・ 被験者の登録時期の分 布 0症 例数の割付比 0有 意水準 ,検 出力 計 算 手順 (2) 2.各 治療群 の生存 時間分布及び境界 時間τの 設定 に基 づき,各 群の RMS丁 物 =場 (τ ), X(τ )の 分散ィ=ィ (τ )を 計算する . 境界 時間τ内での打ち切 りが 発 生しないと仮 定 した,必 要症例数 Ⅳ(両 群 )を 計算する . ′ ウ ヽ4 リ ノ t%/2+ク 耳 7i[σ ■ 7̲′ ● l ノrヽ ■■ ̀V ヽ (μ:IF:::Tii:;:戸 8 388 iF17ア :巧 lil「 l'
計算手順 (3) 3.登 録期 間 ,登 録 時期 の分布 ,追 跡期間及び打ち切 り 発 生 を考慮したモンテカル ロ・シミュレーションを行う 1.シ ミュレーションの各繰り返 しs(=1′ …′ M)に . ついて,RMS下 の標準誤差 ∂(ん ′ s)を 推定する 2.RMSTの 分散の調整係数 φg,s=V雨 ∂(ち ,s)/% から,分 散ばs=弓 ,sィ を計算する . (m:シ ミュレーションでの 各群 の症例数 ). 3.打 ち切 りを考慮 した必要症例 数鴫 を計算する . つ l √、 ―・ Tノ ノ .r ̲ IVs― (Zα /2・ t上 :::Fi::11:i5ラ iii:「 :「 +・ Zβ ア う で 「 )乙 :i:Fi:;::i::〕 157:::i7:「 計算手順 (4) 4.打 ち切 りを考慮 した必 要症例数鳩 の 平均 及び標 準誤 差を計算する . 標準 誤差 は次 式で求める.標 準誤 差 はシミ ュレーションの 結果が 安定 しているかどうか を確 認するため に求 める シミュレーションの標準誤 差 が実用 上 十分 に 小さいシミュレーション 数 νを選ぶ . ロ SE(Ⅳ s)= . (馬 の標本分散)/ν 10 389
2.SASマ クロの紹介 41 SASマ ク回の 紹介 ・ タスクフォースにて,必 要症例数を計算する SASマ クロを作成 O SASマ クロは 日本製薬 工 業協会 にて公表さ れた報告書 に掲載され ています 42 390
SASマ クロの 入 力 引数 (1) Pl,PO time tau 引数timeに 対応する実薬群及び対照薬群 の生存割合 のベクトル 区分指数分布 の区分 時間 境界時間τ enroll 被験者 の登 録期間 織 │.麟 b‖ ow した時点から観察終 ランダム打ち切り発生の指数ハザ ード(単 1位 時間あたりの発 生割合),デ フォルトは 両群0% loss SASマ ク国の 入力 引数 (2) ratio sig̲lё vel power seed ss s:rn iteration 登録時期の分布のパラメー タ,デ フオルトは 1 症例数の割付比 (実 薬群 :対 照薬群), デフォルトは1:1 両側有意水準α,デ フォルトは0.05 検出力1‑β ,デ フォルトは0.8 シミュレーションでの乱数 のシード 1 1 デフオルトは123 シミュレーションでの各群 の 症例数m, デフォルトは10,000 シミュレーションの 繰 り返し数 ν,デ フォル トは50 , ※ ss̲sim及 びitentionの デフォルト値は,Royston and Parmer(2013)の 推奨による 14 391
生 存 時間分 布 2.区 分指数分布 1.指 数分布 噛 ― 実薬群 1 a Q Q Q o o o ●2 3 ∽ Co一 定 oαo﹂L 一 ︐ o. o. │ 0̲01.̲̲̲ │ .̲ 0 3 6 ││ 9 12 16 18 21 24 0 3 6 Time(months) 9 12 15 18 21 24 Time(months) 単純なモデルを仮定 例 :遅 発効果を仮定 (Flne(2007)) 。 区分が 1つ の区分指数分布 ・ 対照群は指数分布 ・ 実薬群 はある時点まで対照群と 同じ,そ れ以降で効果を発現 15 打ち切 りのルール 終了に基づいて,途 中で観察 が打ち切られることを想定 す べ ての患者 を境界時間まで追跡したい場合は ,追 跡期間 =境 界 時間と設定する 登録期間 1 1 「 1 追跡期間 1 だl.}―》 嶽 イベントより前 に※途 中打ち切 りが 発生している場合 ,打 ち切 り ※ 途 中打ち切 りの 発生 は指 数分布 に 従うと仮 定 ギ ≫ 饂 │卜 追跡期間終 了時点でイベントが 観察され ていない場合 追跡期 間終 了時点で打ち切 り , 16 境界時間以降でイベントが発生 している場合 ,境 界時間で打ち切 り 392 瘍 登録時点 i礁 イベント 時点 鰤 打ち切り時点 貶 境界時間
登 録 時期 の 分 布
・ 登録 時期 の分布 関数
θ >,0)
F(ι ;θ ′
r):=:(:)r,(r′
1.0
ptot "'"f=2
-r=l
― 'r=0.5
0.8
0.6
′
L
′
″
ヽ
′
・
′
′
・
:,
r==
γ>
従 つて登
致
捗に
0.1
0.0
θ9:登 録期 間
0
Time
17
出力
MEANO
VARl
VARO
N
MEAN N
SE N
対 照 薬 群 の RMST
嚢
りを考慮しない実薬群
(τ )の 分散
打ち切りを考慮しない対照薬群のχ(τ )の 分散
打ち切りを考慮しない必要症例数 ,:││ ■ '=‐・ ・
打ち切 りを考慮した必 要症例数の
シミュレーション平均
打ち切 り
シミュ
48
393
カロ
3.症 例数設計 の例 19 CheckMate 057言 式験 Borghaei et al.(2015) Overall survival ・ ハ ザ ード比 0.73(96%CI,0.59‑0.89) 024ヶ 月RMS丁 13.O vs ll.3 rnonths 024ヶ 月RMS下 の差 1.7 months(95%CL O.4‑3.1) Hasegawa et al.(2016) Pak et al.(2017) Borghael et aL(2015)の Figure lA Overa‖ Survival を参 照 20 394
指数分布を仮定 したRMS丁 ・ 指数分布 一 生 存 関 数 :It)=eXp(― λι ) ・ χ(τ )の 平均 (RMS丁 ),分 散 1‑eXp(一 λτ) ′、 ― μ tτ ノ 一 一 一 一 一 =一 一 万 ゥ″、 1‑2λ τexp(― λτ)― exp(‑2λ τ) σ‐tτ り=一―――一 ――‑7‑― 一 ―一 一―― 21 指数分布 の 想定 Pak et al. (2017) ・ RMS下 の 群 間 差 3.Oヶ 月 ‑14.lヶ 月 vs ll.lヶ 月,境 界時間 τ=24 10 ― 指数分布の下での RMS丁 0,│ Coで o︒2 ● >一 ≧5∽ ι ヽ ノー 7y μ θ 各群の指数ハザード ちを求める λ τ ,, /″ 、 ̲ 1‑eXp(― θ ) 081 実薬群の場合,Newton― Rap hson法 01 0 3 6 を用 いて,以 下の方程式を解く . 1‑exp(‑24λ l) λ. 9 12 15 Time(months) =14.1 ニチンを,舌 用 SAS/1MLの NLPNRAル … 22 395 18 21 24
SAS/1MLで Newton― Raphson,去 を実イ 予 O NLPNRAノ レーチン : 関数を最 小 化 にする変 数 の 値 を求 める 23 SAS/1MLで Newton― Raphson法 を実行 ・ 実行結果 ― 実 薬 群 :XI匿 9=◎ .◎ 49088(λ l),F〓 6.78E… 13 ‑,対・ ),F=3.636E‑13 薫 、 貝 羊:XRES鷲 り,◎ 75308(λ 。 ヨ 謹君 024ヶ 月 生 存 割 合 は , 一実男 羊:exp(‑0.049088*24)=0.3078597 護君 ‑対 Л 薫13護 羊:exp(‑0.075308*24)=0.1640817 1君 24 396
各 シ ナ リ オ の 設 時 間 単 位 は全て月 定 魃 魃蒻 蒻蒻輻 輻躙輻躙 鰈鰤躙 儡勒 :躙 蒻糀 輻輻 餞鶉塚 RMS丁 114.10こ 11.1 24 境界時間 登録期 間 11 18 追跡期 間 15 8 15 15 ランダム打ち切り 発生割合 登録時期の 分布パラメータ 0 0 1% 0 11 2 割付比 .1 両側有意 水準 5% 1 =: 90% 犠 検出力 ■ SASマ クロの 実 行 指 の 数 分 布 合 場 0シ ナリオ 1 0シ ナリオ2 20 397
SASマ ク ロ の 実 行 指 数 分布の場合 ・ シナリオ3 ・ シナ リオ4 27 の 合 分 布 場 数 必要症例数 の 計算結果 指 打ち切りを考慮しない X(τ )の 分散 7416325‐ vs 66.9967 打ち切りを考慮した必 336 要症例数 のシミュレー 0.21244 ション平均 (上 段 ), 標準誤 差 (下 段) 366 0.27073 358 346 22079 シミュレー ション回数 50回 で ,標 準誤 差 は必 要 症例 数 に対 して十分 に小 さい ※ 計 算 時 間 は ,1シ ナ リオ あたり30秒 未 満 (Windows 7 Pro 32bit,Core i5‑2520M2.50GHz,RAM 4GB) 28 398
区分指数分布 を仮 定 したRMS丁
・ 区分 指数分 布
―既知の時点 t(1)′ …′
t(た
),境 界時間 τ>t(た )
一 時間の区分
(t(0)=0,t(■ )]′ (t(1)″ (2)],(ι (2),t(3)]′ …,(ι (た
0時 間 の区分幅
d'7+r =
│
+1)=∞
]
ノ<た
ノ=た
)′
)′
{'*r(t) - exp(-Hy) exp (-n1*r(t - trit
ヽ1︐ノ
ヽlノ
0生 存 関数
%+・ )一 t(プ
τ―t(た
t(た
)′
―句+1:区 間(t(た t(た +1)]の 指数ハザード
ー場 =Σ ι
:時 間t(プ )ま での累積指数ハザード
ん[δ ι
)′
29
区分指数分布を仮 定 したRMS丁
・ χ(τ )の 平均 (RMS丁),分 散
た
p(t) -
Ij=o ""r(-
u1) B1*,
た
o2(r1 - 2
電
ヽ
¬
,
∠」
exp(̲IIァ )(И ブ
+1+〔 助+.)̲〔 μ(τ )}2
:プ
ブ==0
ただし
,
卜
+1)eXp( 句 。
′ら
れ
万
′
:I{1 (1¨
■
4ブ +1==「
+・
Bi+t =
1
+・
ヽ
- exp(- ん +1 δ +1ノ
句+1
30
399
│′
+1)}′
区分 指数分布 の 想定 ・ RMS下 の 群 間 差 3.Oヶ 月 ‑14.lヶ 月 vs ll.lヶ 月,境 界時間 τ=24 ―対照薬群 :指 数分布 (λ 。=0.075308) ―実薬群 :0〜 3ヶ 月は対照薬群と同じ 3ヶ 月以降で治療効果に差 μ(τ )==Σ I〓 O eXp(― riゥ f ・ o,― 実薬群 ¨対熊薬経 8 0011 )島 +1 ' 実薬群の3〜 24ヶ 月の指数ハザードを 求めるために,Newton― Raphson法 を用 いて, TIme(° 以下の方程式をλについて解く 。=1′ 比 =0.075308). :=生2+exp(‑3〃 二旦堅重二生生ユ =14.1 〃。*生 三正登ユ⊆二 1)上 "` SAS/1 M L hS' RAノ レ =ニ ー チン を′ 自用 31 SAS/1MLで Newton― Raphson法 を実行 O NLPNRAノ レーチ ン 32 400
SAS/IMLで Newton― Raphson法 を実行 ・ 実行結 果 一実薬群 (3ヶ 月以降): IRttS=③ .0392188,F=9.714E¨ 14 i× ‑実 薬 群 (0〜 3ヶ 月 ),対 照 薬 群 XRES=O.075308,F=3.636E¨ 13 : 024ヶ 月 生 存 割 合 は , 一実薬群 :exp(‑0.075308*3)* exp(‑0.039219*21)=0.3501047 ‑対 照、薬 群 :exp(‑0.075308*24)=0.1640817 :33 SASマ クロの 実 行 0シ ナリオ 1 0シ ナリオ2 34 401 区分指数 分 布の場合
SASマ クロの 実行 区分指 数分布の場 合 ・ シナリオ3 0シ ナリオ4 35 必要症例数 の計算結果 区分指数分布の 場 合 ‐■│││││■ ‐ ‐ ・‐ │● 111 111 11111111‐ ■ │ ││││││‐ │ │・ │・ ・ │.1 ││‐ │ 11 ― .│ 打ち切りを考慮しない 84.6029 vs 66.9967 打ち切 りを考慮した必 360 要症例 数 のシミュレー 0.20846 ション平 均 (上 段 ), 標準誤 差 (下 段 ) 388 0.28428 380 368 0.35165 0.2336 鮮 シミュレー ション回数 50回 で ,標 準 誤 差 は必 要症例 数 に対 して十分 に小 さい ※ 計 算 時 間 は ,1シ ナ リオあたり30秒 未 満 (ヽ Ⅳindows 7 Pro 32bit,Core i5… 2520M2.50GHz,RAM 4GB) 36 402
境界時間τと必要症例数Ⅳの 関係 ・ 指数分布のシナリオと同一 の生存時間分布 ・ 境界時間τに対する,打ち切 りを考慮しない必要症例数を計算 RMST 'の 差 くなるが 結果 きくなる , , + ︲ . 試 4 4 ︲ 眠 ︒E o︐ o︑あ c一 ∽ 数 は減少 嵌 3 銀 12 13 14 16 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Restおted ume 37 まとめ O RMS下 の群間 差を検 出するため の 症例 数設計 の 方法 とSASマ クロを紹介 した ・ 打ち切 りに関連する仮 定 (登 録・追跡期間 登 録 時期 の 分布 ,ラ ンダム 打ち切 り)の 設定 によって,必 要症例数 は 変わ る , 0仮 定 と現実 に差が あつた場合 でも安定 して結 論を得 られるような,症 例数設計 が重 要 33 403
参考文献 Royston P, Parmar MKB. Restricted mean survival time: an alternative to the hazard ratio for the design and analysis of randomized trials with a timeto-event outcome. BMC Atled Res Arlethodol.2013;13:152. - Horiguchi M, Uno H. CRAN Package SSRMST. https://cran.rproject. orgiweb/packages/SS RMST/i ndex. html Borghaei H et al. Nivolumab versus docetaxel in advanced nonsquamous non-small-cell lung cancer. N Eng J Aled 2015;373:1627-1639. Hasegawa T et al. Nivolumab in nonsquamous non-small-cell lung cancer [Letter to the editor]. N Eng J Med 2016;374:492494. Pak K, Uno H, Kim DH, Tian L, Kane RC, Takeuchi M, et al.lnterpretability of cancer clinical trial result using restricted mean survival time as an alternative to the hazard ratio. JAttlA Oncol,2017;3:1692-1696. Fine GD. Consequences of delayed treatment effects on analysis of time-toevent endpoints. Drug lnf J. 2007;41:535-539. 39 404
存時間解析の評価指標 に関する最近 の 展開 一 RMS丁 (restricted mean survival time}を 理 解 す る 一 4.RMS下 の参照値 の 見積 り ○若菜 明1、 三澤早織 2 (lMSD株 式会社 、2日 本化薬 株 式会社 ) Estimating Reference Value for RMS丁 Akira VVakana Biostatistics&Research Decision 13ciences Japan, MSD KK 要旨 : 解析 に必 要な被験者 数を計算する際 に利用するRMS丁 の 参 照値を得るための方法の一 つ として、公 表論 文 の カプランマイヤー 曲線 からRMSTの 推 定値と標準 誤 差を 計算するための方法を紹介する。 キーワー ド : RMSL Digitizelt′ ProclML′ Proc‖ fetest 2 405
発表内容 参照値を見積る方法 のデモンストレーション SAS program A{frlf 3 実薬群及 び対照薬群 の RMS丁 を見積もる方法 0モ デルを仮 定 して計算 (例 :指 数分布・区分指数 モデルなど) ・ 類薬等 の試験 の各被験者 のデータか ら計算 。磯なされて紆褥軋襄錮笙藝綺線かぷ兆鶯凸咤 4 406
Digitizeltと は 画像を読み込み、X― Y座 標 のデータを取り出す 画像 ?7,2̲ Digitizeltに 読 み :込 み ̀ こ え わ∞ ̀,お ×― Y厘卦票 X― Yttν 標をプロット 5 題 :オ ンコロジーの 第 ‖l相 試験 の カプランマイヤープロット Roben C,er a′ N EnglJ Med 2015:372:320‐ 330 P325 Fig lAの 図を参照 Robe11:C′ eaa′ . NI EnglJ Med.2015,372:320‑330. 6 407
ここから、Digitizeltを 実際に使用 した デモンストレーションを行います。 7 座標 の データにobseⅣ ation番 号 を付与 し フアイル として保存 1一 2・3 4 5 一 ■ 0一 一 ● 2 0一 0一 ︐ 0,501 ●9003 09003 1 3723 16014 0901 0981 09724 09724 09586. 095 095 21018‐ 09258 09258 09200 09206. 21018 34535 09086 09086 4 1 97311 1 9701. 345351 383971 09017 090171 38397‐ 089471 08947 0893 42044 42044 0,0,, 095061 095〔 〕 01 1列 爾 饉 oわ s奪「vati参 ∋番 号 を 付 ける 8 408
時点 の リスクセットの 大きさを表わす フアイルを作成 各期 間の初めの値 例 :「 0」 :0〜 3カ 月 RObert C.er a′ N EnglJ Med 2015,372:320‐ 330 P325 Fig 4Aの 図を参照 ̀ 0お リスクセットの 大き 01 例 :1行 日 0〜 3ヵ 月の範囲 にある Observation番 号の最 小と最大 例では 1〜 15番 目の 3 15 00 ・ 4 カ43 9 各被験者の生 存期間を再構築 。 Guyot P,et.al.BMC Med Res Methodol.2012;12:9. 各 被 験 者 の 生 存 期 間 を再 構 築 す る Rの プ ログラム Guyot P,et al.BMC IMed Res Methodo1 2012; 12:9.の Rの プログラムを参照 Guyot P,etal BMC Med Res Methodo1 2012:12:9の Rの プログラム を参 照 作成したファイルとプログラムを用いて 各被験者の生存期間を再構築 409 10
各被験者 の生存期間を再構築 SASの プログラムを作成しました 。 先ほどの、生存確率とリスクセットのCSVフ ァイルを用意する ・総イベント数が分かれば総イベント数をテキストで入力 口 生存確率が単調非増加となるように数値を調整しておく %recOnst(ci¥生 存確 率 フアイル名 ,c:¥リ スクセットファイル名 , 総イベ ント数 ,群 番号 ,ア ウトプットデータセット名); 使 用例 :%reconst(c:¥nivl,c:¥nriskl,50,1,kaplan); Time,Event(1:fa‖ ure,0:censor),Groupの 変数を持 つデータセット 作成 したファイルとプログラムを用いて 各被験者の生存期間を再構築 11 Copy&Paste用 SASプ ログラム e6r. d unknM deae f t€atu& r..honl cda … .… ‐ … ̀議 ^umber lnumdc) i● ,● Ⅲ …… 'nNt (dlsLru) '/ ⅢⅢ……¨‐……… vaB:run da6 d2(d,op1an vaf2 va,3)3ctdl,daad.b=va2:s=var3 … 1● ¨― ●― ‐,… ⅢⅢ●,―,― tun: 嗜― ‐Ⅲ… ,■ Ⅲ … 'W… ・ │ ‐‐輌 ■ ⅢⅢ.■ ‐■1'│=・ ‐ ‐ Ⅲ‐●│● ‐● ・ ¨‐ ・ ‐ Ⅲ Ⅲ ■¨,・ ヽ ● ⅢⅢ●¨市‐ ‐●‐‐●・ い ‐ ・ '縣 ̀Ⅲ■ …・ Ⅲ ■.│… Ⅲ ⅢⅢ ・ 。 'Ⅲ │・ …■■ ""│" ¨""■ OⅢⅢ ■Ⅲ Ⅲ 早 I…Ⅲ… … "` 峙… Ⅲ' ・ Ⅲ …Ⅲ……… … 'Ⅲ … … ̀… … … … … ヽ… … .,¨ ̲Ⅲ Ⅲ.,¨ ¨ ■31」 」憲 響l‖ 議憲爛Il営 ヨ:̲… 場 ・¨‐ (● ==野 ̲… ……… ‐‐ Ⅲ 綺識諄瓢薇彎躍 ■日,´…・・ … …・ "譜 諄1餞 震宮醒 … ̀.,"¨ ‐.' ‐ ‐ .… ・ … '¨ "っ い ‐.… …… .…悧 ...… … … 12 410
PROC LiFETES丁 使鷺欝 ﹁お︒ ^ 三E・ ∽ Roben C,er a′ N EnglJ Med 2015,372:320‑330 P325 Figイ Aの 図を参 照 τ=12M:RMS丁 (標 準 誤 差 ) 8.7(0.28)1及 び 10.1(0.25) 13 まとめ 公 表されている論文 の生 存曲線 から、 各被験者 の生 存期間データを再構 築 し、 RMS丁 (標 準誤 差 )を 見積もる方法を紹介 した SASプ ログラムを作成して紹介した 14 411
参考文献 . Guyot P, et.al. Enhanced secondary analysis of survival data: reconstructing the data from published KaplanMeier survival curves. BMC Atled Res Atlethodol.2012; 12:9 ・ Robett C,et.al.Nivolulmlab in Previously Untreated Melanoma without BRAF Mutation.′ V Eng′ Jルred.2015; 372:320… 330, 15 ︱ ⁚ ll i⁚ ⁚ ⁚ ⁚ ︱ ︱ ︱ ︱ ︱ l r 412
存時間解析 の評価指標 に関する最近 の 展開 ― RMST(restricted mean survival time)を 理 解する一 ュレーション 5。 RMS丁 の性能評価 シミ ○淀 康秀 1、 仲川 慎太 郎 2 (1大 日本住友製薬株 式会社 、2中 外 製薬株式会社 ) Performance Evaluation of RMST Yasuhide Yodo Data Science, Sumitomo Dainippon Pharma Co., Ltd 要旨 : RMS丁 を検定 に用いた場合の性能評価をシミュレー ションで確認した 比例ハザード性が成立する又は成立しない条件下で 生存時間データを発 生させ ,log― rank検 定 と比較した 結果を紹介する . . キーワード : RMS■ Log― rank test,simulation′ power 2 413
発表 内容 ∠ 1・ ︹ シミュレー ションの 目的 3 シミュレー ションの 概 要 0 シミュレーションのフレームワーク ・ 区分指数分布に従う乱数の発 生方法 ・ 仮定した生存関数 シミュレー ションの 結 果 と考 察 4 まとめ 3 「 1ロ シミュレーションの 目的 4 414
′ ヽヽ■ ミュレーションの 目的 Restricted Mean Survival Time(RMST)(の 特徴を検 討する目的で,幾 つ かの生 存 曲線 パターンを仮定 し,シ ミュレーションで性能評価を 実施する日 0生 存 時間解析 の新たな指 標 としてRMS丁 が 注 目されている 一実際 の臨床試験 での適 用例 は少ない ―RMS下 の特徴を検討 した結 果も少な い 5 2ロ シミュレ―ションの 概要 6 415
シミュレーションのフレームワーク 0 0vera‖ suⅣ ivalを 指標 とした 生 存 時 間 解 析 ―対照薬群と実薬群の2群 比較 ―被験者の登録期間 :24ヶ 月 (登 録速度は一 定とする) 一追跡期間 :最 終被験者登録から12ヶ 月 ―被験者数 :500名 (250名 /群 ) ‑1年 あたりの打ち切り発生 :5% ―有意水準 :片 側2.5% ・ 事 前 に 仮 定 した 生 存 関数 に 合 致する区 分 指 数分 布 か ら個 々 の 生 存 時 間 を発 生 させ ,RMS下 の 差 を用 い た 検 定 と log‐ rank検 定 の 結 果 を検 出 力 で比 較する ―シミュレーション回数 :10000回 . 7 区分指数分布 に従う乱数 の発 生 方法 験 期 間を通 じてハザードが 一 定となる (一 定とみ なせる)結 果 が 得 られることは少ない 。観察期 間を幾 つ かの 区間に区切り,そ の 区間の 中 では 一 定 のハ ザードが保 たれると考える 山ヽ λ l ヘ .2 ′ ` ヽ 亀 勺 0 6 猿ヽ 電磁 4 0 2 0 ﹂OL O﹂α 一 >一 >﹂D∽ 8 ⊆o 0 鑢踵 ゛ .︱ ! ● ⁚ ⁚﹄︻ 1 0 0 6 12 18 Time {month} 416 24 30 │1 8
区分指 数分布 に従う乱数の発生方法
・ 時点り̲1か ら時点りの区間 ノ0=1′ …J)に おける
ハザードを一定の考とすると,時 点ι
のハザード関数
λ(ι ),累 積ハザード関数A(ι )は 以下のように書ける
′
し
2,
ι
f O<ι ≦ι
l
ι
f ι
l<ι ≦ι
2
t々
ι
f リー1<ι ≦り
rλ l,
:
λfι )=〈
A(ι
)=
ι
√ 0く ι≦ι
l
ι
ι
≦ι
′ l<ι
2
λlι ′
λlι l+λ 2(ι ι l),
21,=ll"r1t,
- t;r) + t,(t - tt-r), tf
t1-^
l t < t1
9
区分指 数分布 に従う乱数の発 生方法
・ 個 々の被験者 の生存時間 Tは λ=1の 指数分布
か ら発生させた乱数 xを 用 いて以下から得られる
χ
T=A 1(χ )=
ι 十
ι 戸
・ ・
λ 一
を′
二 ′
χ一
λl'
ι
√ 0<χ ≦λ.ι .
ご
√ λlι ■<χ ≦λlι ■+λ 2(ι2 ι l)
Σ
ー
1+璽量等曇⊇′ι
‑1)<χ ≦
√Σ
場
―
ι
リ
ttλ 鳥―
た j― ι
・
.λ i(ι
)
― 乱数 xの 値 に応じて Tを 求める式を選 択する
10
417
本シミュレーションにおけるハザードの決め方 ・ 想定する生存曲線 から特定時点での生存割合を 抽出し、区間ごとのハ ザードに変換する ・ 例 えば ‑1年 生存割合 70%,2年 生存割合 ,20%,3年 生存割合 2% : 一 一 一 一 件仕ビ ―LⅣ (0.7)/12 ‑LN(0.2/0.7)/(24‑12) 一LⅣ (0.02/0.2)/(36‑24) 12,ι 2=24′ ι 3=36 11 仮定 した生存関数 1.比 例 ハ ザ ード性 が成立している場合 2.特 定時点までは差 がなく,そ れ 以降 に差が 開く場合 3.試 験期 間を通 じてイベントの発現数 が 少ない場合 (比 例 ハ ザ ード性 は成立 ) 4.特 定時点までは差 が大きいが ,試 験終 了時 には差 がなくなる場合 5.生 存曲線 が クロスする場合 12 418
1.比 例ハザード性が成立している場合 ・ 対照薬群 :(6m,70%),(36m,11.8%) 0実 薬群 :(6m,78%),(36m,22.5%) CO ﹂O αO﹂α 一 ●>一 >﹂ゎ∽ o﹁ 0﹂ 0﹂oN● 薇‐対 照薬 群 厳晨議:実 養君1 Tirne 繋m t Time(mOnth) 牛 7000夕 6 78.0% 12 49.0% 608% 18 343% 47.5% 24 24.00/6 37.0% 30 168% 118% 28.9% 22.5% 36 13 2.特 定時点までは差がなく,そ れ以降に差が開く場合 ・ 対照薬群 :(6m,70%),(36m,11.8%) 。実薬群 :(6m,70%),(36m,30%) LO 一 0>一 >﹂5∽ 一﹂O αO﹂﹂ 一 ―"‐ 対 薬群 :攣 警摯実業 難 :′ ∝ や﹂●N●雲 : ││││‐ . h 一 ■ 一 α一 Time(m Time {month) ・ lh。 r● 1。 hth、 ・ r` 24 70.0% 49.0% 34.3% 24.0% 30 16.8% 35.5% 36 11.8(% 30.0% 12 18 70.0% 59100 49.9% 42.196 14 419
3.試 験期間を通じてイベントの発現数 が少ない場合 (比 例ハ ザード性は成立 ) 0対 照薬群 :(36m,85%) ・ 実薬群 :(36m,90%) │ 0一 ″●ば 0﹂ON● CO 一 ●> 一 >﹂ゎ∽ ︶﹂O αO﹂﹂ 一 │ ̲ ̲ ・ 対 照業群 …… … 実 業承 ̀ Time(mOnth) Iime(静 Onth) ̲││││││││. Thiol̀monthヽ 牛存率 (対 照 薬 1群 ) 98396 96596 94.9% 93.2% 973ツ 6 18 947% 922% 24 8970′ 6 30 87.3,6 91.696 36 8509る 900% 12 15 4.特 定時 点までは差が 大きいが , 試験終 了時には差がなくなる場合 0対 照薬群 :(36m,11.8%) 0実 薬群 :(9m,85%),(15m,45%),(36m,11.8%) ﹂O αO﹂こ 一 >﹂ぅ∽ ●>一 ― Time(month) IT五 1さ マh61lthヽ││││││ 0■●∝ 0﹂●N●エ ●o ――嫁 ‐ ;瀑 業群 実 薬 t̀ 36 ‐牛 本 率 1 (対 照 1彗 群 ) ■ime (month) 牛 存 率 ■僚 基 群 ) 70.0% 89794) 61.8% 18 490% 343% 24 24000 254% 30 168% 118% 1739る 12 36 3720。 1180。 16 420
5.生 存曲線 がクロスする場合 ・ 対照薬群 :(3m,60%),(6m,50%),(12m,8%),(36m,2%) 。 実薬群 :(3m,55%),(8m,25%),(12m,19%),(36m,10%) C〇 一 ●>一 >﹂う∽ ″﹂OL O﹂∝ 一 o 一 o∝ 0﹂oN● 苺―"対 業 薬 す1 雪 撃 実業繁 Time(mOnth) Tirne(mOnth) 生 存 率 (実 T:ine ri.。 .th、 500% 343,も 12 8.0% 19.0。 0 18 57% 24 30 400。 162% 138% 28% 11 70′ 。 36 200。 100% 17 τの設定 と検定 に用 いる生存 時間データ ・ 検 定 に用 い る生 存 時 間 デ ー タ …鰺輻慾T:試 験終了時に得られている生存時間データ (τ 以降のデータは実質使われない) 一:勒 鹸 孵 ││:試 験終了時に得られている生存時間データ (」 塾 麗L2̲量:三 二量L鑑 重監L聾窒響堕巨金) ¨1磋 『 ―畿 ×罐:試 験終了時に得られている生存時間データ (」≧ 三 二 :旦塾盛■m▲ ) "「 Ii:[」 │̀i[1[」 ̀12Li童 は ・ 有 意 水 準 を片側 2.5%と して検 出 力 で比 較 ―10g… rank[a‖ ]と log… rank[τ ]の どちらで比較 ? 18 421
τの設定 と検定 に用 いる生存時間データ ・ τ=12to 36 by 3 ‑登 録期間24ヶ 月、観察期間 12ヶ 月という試験期間を考慮 ・ 検 定 の タイミング ー試験期間 (36ヶ 月)終 了後とした 一登録期間、追跡期間とτ との大小 関係 によつては境界 まで観察された被験者数が変化する 時間τ 一検定実施時に盛邸婆壁主Ё山線が鰻豊左二量二豊宣塁 に1聾巫 L生 上 」 Ш 望二 重 鯉 旦国 豊 CO 一 ●>一 >︑っ∽ 一﹂OL O﹂α 一 :τ t ――‐対 ■養群 ,選 出実業群 Time{rnonth) 3ロ 19 シミュレーションの結果 と考察 20 422
1.比 例 ハ ザ ード性 が 成 立 している場合 Power 10g̲rank 「τ lalll l 12 △RMST (Mcan■ sc) 68.4 76.0 0.88■ 036 1.25■ 0.47 15 75.8 82.4 18 81.1 85.6 164■ 0.58 21 84.7 87.6 2.03■ 0.68 24 87.3 88.4 27 88.8 89.4 2.81■ 0.88 30 89.6 89.7 3.18■ 0.98 33 90.2 90.0 3.54■ 1.08 36 90.1 90.1 3.87± 1.19 Co 一 >﹂渤∽ ●>一 ″﹂O α O﹂∝ 一 1log.rank 243■ 0.78 90.1 ―^ 対 策薬群 機 品 実 薬鮮 Time (nronth) 0比 例 ハザード性が成立している下では,境 界時間 τ に関わらず,log… rankの 検出力が高かった Oτ を大きく すると RMS丁 と bg‥ rank検 定 に差はなくな った 21 2.特 定時点までは差がなく,そ れ以降に差が開く場合 Pow∝ Rゝ 4ST 12 14.5 45.3 0.33■ 0.38 15 29.3 66.7 0.68■ 0.49 18 45.9 79.4 1.12■ 0.60 21 62.6 85.7 1.61■0.71 24 75.2 89.2 27 83.4 91.1 30 88.5 92.1 3.26■ 1.02 33 91.8 92.6 3.82■ 1.13 36 93.8 92.7 437■ 124 92.7 2.14■ 0.81 CO 事 ﹂0 無0﹂銀 一 >﹄5∽ o>一 .■ 議 ●̲こ ヽ、¨● ‐ 110g‐ ranlkl 「a■ ト s― ‐対 等薬 群 警 警 実薬 鮮 2.69■ 0.92 Tirne(mOnth) 06ヶ 月 日までは生存割合に差がないため ,RMS丁 で が小 さいほど検 出力が 大きく低下 している はτ 。log― rank[τ ]と 比較 しても RMS下 の検 出力は小さか った 22 423
3.試 験期間を通じてイベントの発現 数 が少ない場合 (比 例ハザード性は成立 ) 百 I l △RMST ;r面 ツ 訂 ■II │110gFrank iτ l .1 ll‐ [」 1] . (VIⅢ +Se) 12 13.5 16.6 0.11■ 0.13 15 16.0 191 0.17■ 018 18 18.7 21.0 025■ 0.23 21 21.1 23.3 0.33■ 029 24 23.1 25.0 27 24.5 25.8 30 25.6 26.9 0.66■ 0.51 33 26.7 27.1 0.80■ 060 36 27.5 27.1 0.94■ 0.69 27.1 0.43■ 0.36 >︑5∽ 壼o 一 ●>一 響 o﹂0﹂な 一 ︐ RMST ――¨対 照 薬 君 = ―― 実 業 群 0.54■ 0.43 Time (mOnth) 0時 点 τでイベントが 殆 ど発現 していない (3‑10%)で はRMS丁 でも bg… rank検 定 でも検出力 は低かつた 。傾 向としてはパ ターン1と 同様 であった 23 4.特 定時点までは差が大きいが , 試験終 了時には差がなくなる場合 Powcr △RMIST │:RMST log-rank 12 100.0 983 1.94■ 0.32 15 100.0 83.3 2.24■ 042 18 995 765 2.40± 052 log-rank (Mcan■ sc) ― ‐対 ■ 葉 :I ‐ ì響 1,実 射 = fτ l 21 97.9 72.1 24 950 906 68.6 27 66.7 │ 806 252■ 062 651 2.60■ 0.72 ≧ 02 265■ 0.81 30 843 65.8 268■ 0.90 33 77.7 65.1 269■ 099 36 70.6 65.1 2.70■ 1.08 Time(mOnth) ・ logィ ank検 定 では (相 対的 に)後 期 のイベントに対 し て重みが 高 い為 ,logィ ank[a‖ ]で は検 出 力低かつた ・ RMSTは いずれ の τでも b9‑rankよ り検 出力が高く ,生 存割合 に殆 ど差のなくなる27ヶ 月まで検出力 90%を 保つた 24 424
5.生 存曲線がクロスする場合 ●● ■ ..■ Powcr 11ド ││● II.・ 1'. △RMST log― rank log‐ ralま 「τ ] ra鶴 12 0.2 9.0 ‑0.33■ 0.36 ‑0.01■ 0.43 (Mean■ se) 15 2.3 10.7 18 8.9 12.0 0.31■ 0.49 21 19.2 13.1 0.62■ 066 24 30.8 13.9 27 42.2 14.4 1.21■ 0.68 30 51.6 14.7 1.48■ 0.74 33 58.7 14.8 l.74■ 0.80 36 63.7 14.8 1.99■ 0.86 14.8 0.92■ 0.62 Co ﹁﹂0 0 0﹂∝ 一 ●>一 >﹂等∽ RMST :・ ――‐対,̀業 差■ 驚 警 賞桑 群 ■ime(難 。nth) 0△ RMS丁 を見ると15ヶ 月までは対照 薬群 の方が良い結果に なつている 。 全体的に検出力は低 いが ,RMS丁 では τを大きくすることで 検出力が増加傾向にある ・ 生存曲線がクロスする場合には多角的な検討が必要 25 4.ま とめ 26 425
シミュレーション検討のまとめ 0シ ミュレーション検討 として実際 の臨床試験 で得 られる であろう,比 例 ハ ザード性 が 成立しない生存関数を想 定 してRMS下 の差による検 定 と logィ ank検 定の 結 果 の 違 いを検 出カベースで確認 した 0比 例 ハザード性 が成立 している,も しくはそれに近 いよ うな形状 の生 存 曲線 では 総 じて b9‐ rank検 定 の 検 出 力が高かった 0試 験序盤 で生存割合 に差が つき,後 半 では差がなくな るようなケースではRMS下 の方が検 出力が高 かった 27 シミュレーション検討のまとめ ・ 生 存 関数 が クロスするようなケースでは RMS下 の 差 を用 いることで検 出 力を確 保 できる可 能 性 が ある O RMS丁 と log… rank検 定 の 性 能評価 という点では , 比 較 の方法 にも留意 す べ きである 一検定の実施時期,検 定に用いるデータ範囲 ・ JPMA TF4報 告書 の 中ではシミュレーション検 討 の 一 環 として検 出力に加え,P値 の挙動も示している ので,ご 興味 の ある方 は ご参照 ください 28 426
まとめ ・ 試験開始前 に試験薬 の 特徴を慎重 に検討 し ,想 定される生存曲 線 ,意 味 の ある τ,試 験 期間を設定することで RMS丁 を用 いた検定 で も検 出力の高 い解析 となる可能性がある 29 427
CDISC実 装 に関する JPMAア ンケート結果 update(2017年 12月 実施 ) ○淡路直人 (1日 本製薬 工 業協会 1 デ ー タサイ エ ンス部会 ) 【 経緯 】 日本製薬 工 業協会 医薬 品評価委員会 デ ー タサイ エ ンス部会 で昨年 12月 に実施 した 「電子デ ー タ申請 に関す るア ンケ ー ト 2017年 版」 につ いて 、先 頃行 われた 2018 CDISC Japan lnterchange で第 一 報 として の報告 を行 ったが 、本 SASユ ー ザ ー総会 CDISCセ ッシ ョンでは 、申請電子 デ ー タ提 出完全施行 へ 向けて残 る課題 にフォー カ ス した報告 を行 う。 【ア ンケ ー ト方法】 ア ンケ ー ト期 間 :2017年 12月 〜2018年 1月 対象 :日 本製薬 工業協会 デ ー タサイ エ ンス 部会 ア ンケ ー ト方法 :Web形 式 集計方法 :Excelま たは SASを 用 い た単純集 計 参加会社 63社 を対象 に実施 主なア ンケ ー ト結果 】 【 ア ンケ ー ト回答 を受領 したのは 63社 中 48社 で、申請電子デ ー タ提 出経験 があ る と回答 した会 社 は 18社 (37.5%)で あ つた。提 出経験 は前回 2017年 6月 か ら 「1回 または複数 回経験 してい る企業」 と「提 出未経験 の企 業」に 2極 化す る傾 向は変 わ って お らず 、また面談 の実施状況 も同様 であった。 この 2極 化 について は、提 出に前 向きな企業群 と経過措置期 間ぎ りぎ りに対応 しよ うとす る企業群 が想定 され るが、2極 化 に至 っ た原 因 の特定 には至 ってい な い。 実装 上の課題】 【 2017年 6月 の調査以降 Validationに 係 る課題が減少 してお り、 提出会社または提出予定 の会社 で、 Validation対 処方法が少 しずつ定着 しているものと推察 され る。他方 ス キル、リソースや コス トと いった課題 について大 きな変化はみ られてい ない。 今後 の課題 】 【 2018 CDIsc Japan lnterchangeで は、2020年 4月 の完全施行 へ 向けて 医師主導治験 にお ける CDISC 作成や先駆 け対応 を取 り上 げたが、ア ンケー トにお ける各社 の コメ ン トでは 、 レガシー に関す る コ メン ト、米 国・FDAと の違 いに 関す る コメ ン ト等 が挙 げ られた。 これ らコ メ ン トが上 がった背景 と して (リ ー ド文にあ つたか らとい うの もあるが )こ れ までの経過措置期 間 中に解消 しに くい課題 で あ ったた め と考 え られ る。 ま とめ】 【 2016年 10月 に施行 された申請電子デー タ提 出は 2018年 10月 で丸 2年 を迎える。各社経験を蓄積 す ることによ り申請電子デ ー タ提出が徐 々に浸透 しつつあるが、一方で 2020年 4月 の完全施行 ヘ 向け、引き続 き残 る課題 に対す る施策を進 める必要がある。 日本製薬 工業協会デー タサイエ ンス部 会 では課題 を抽出 。一般化、申請電子デー タ SWG等 の活動 を通 じPMDAと 協調 しなが ら、完全施行 前 の可能 な限 りの対応 に努 めたい。 428
録 PMA り CDISC実 装 に関する JPMAア ンケート結 果 update(2017年 12月 実施 ) ○淡路 直人 (日 本 製薬 工 業協会 データサイエンス部会 (中 外製薬 )) JPMA Results Sunl『 nary Update ‐Survey of e‐ data submissiOn̲ Naoto Aw司 JPMA Data Science Working Group(Chugai Pharmaceutical) i 嶺 JPMA 要旨 : 製薬協 データサイエンス部会で昨年 12月 に実施 したCD:SC実 装 アンケー ト結果を2018 CDISC Japan lnterchangeで 報告 したが 、 本発表ではアンケート結 果要 旨に加え残 る課 題 について報告する。 キーワー ド:医 薬 、臨床 開発 、申請電子データ提 出、CDiSC 429
ackground for survey 鞣 JPMA . Electronic data submission (e-data submission) on filing was started since Oct 2016. . This survey was conducted in order to investigate the current status of e-data submission with CDISC standards implementation and issues in pharmaceutical companies in Japan as well as June 2017. JPMA (Japan Pharmaceutical Manufacturers Association) member companies including both Japan-based and foreign-based companies - - Methods of survey . JPIVA member companies; Data Science Expert committee - 63 companies . Web-based survey (response rate: 76.2%, 48163) . Anonymous basis . From 19st December 2017 to 1Sth January in 2018 430 麒 PMA り
Questions on survey
e
PMA
り
ic stu data submission
Experience of electronic study data submission
- Questions for "consultation on data format of submission
of electronic study data"
. Number of consultation
. Contents of consultation
-
Miscellaneous
- issues and concerns /expected effect
- Expectation to e-data submission
- Consideration for special case
Company background 骰
JPMA
・ Respondents:Tota1 48 connpanies
‑36 Japan― based,12 Foreign… bq11'^90a"
りec zυ :′
June 2017
爾Japan‐ based
!UISノ lEL;‐ based
口
・
431
Japan‐ baSed
̀uS′ EU‐ based
experience of lectronic study data submission 録 JPMA 鰈Yes □No Plan for 1st data submission(N=30) 量2018 饉2019 鷺2020Ⅱ Number of consultation/themes Number of consultation* 45% 50% 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% 40% 35% 30% 25% 20% 7 5 10% 5% 0% 0 1 2 6 5 3 2 2 4 5 鰈 PMA り Number offiling themes (N=27) 21 15% ■Not planned >=6 13 0 'consultalon onldtta brmat of subrnissionlofleledronic study data 8 432
ontents of consultation 鞣 ,PMA Dec 2017(N=27) June 2017 (N=23) r Explanation of Validation lssue r SDTM Spec x Explanation of Validation lssue r SDTM Spec Spec x Define Spec r Submission of Programs s ADaM x Others e Define s ADaM Spec Spec a Submission of Programs 9 s Others Detail contents of other 鰊 JPMA Dec 2017(N=12) Traceability Legacy data conversion Submisslon ofiSSノISE Question on filling Appendix 8 Range of submission data for lnterim NDA 機Analysis result metadata m Sl unit PK data submission 鶯M5fo!der structure は(Dther 10 433
Duration from Planned NDA to e-data submission 陽 JPMA 1(5.69ら ) r-1week llweek-2weeks w2weeks-3weeks r 3weeks - 4weeks E 4weeks - Sweeks ru Sweeks 11 Number of re-submission until acceptance by PMDA 骰 JPMA Number ofre‐ subnllssion (N‐ 18) Time to acceptance from re- submission 1(5.6%) 繭0 日1 鏃2 鑢>=4 議‑l week x lweek - 2weeks 難2weeks‑3、 へ ′ eeks x 3weeks - 4weeks 12 434
実際のCDiSC運 用における課題 について、 御社で当てはまると思うものを以下から選んでください (複 数選択可) 拶 実際 のCDISC運 用における課 題 について、 御社 で当てはまると思うものを以下から選んでください (複 数選択可)(続 き) 嶺 ,PMA JPMA . ?alfr - Legacy data conversion - lnterpretation of Pt\4DA requirements - lnconsistency of validation results between Sponsor and PTMDA -Awareness of CDISC co moliance to lnvestiqato initiated Clinical Trial - Process (QC for CDISC data, consistency with eCTD contents) r― ―Fu 14 n 435
申請電子データ提出を経験して 当てはまると思うものを以下から選 んでください (複 数選択可 ) Revie、 1′ 顆 JPMA ed the internal process 6%) 社 内プロセスの見直 しを行つた。 understanding deepened among depa■ :Tlents 7%) 部署間で理解 が深まつた :nquiry itenls changed 2 4.2%) 照会事項 が 変化した 1 Opp。 ■ lunitied to corripile with inquiries decreased 照会事項で集計する機 会 が減少した 1%) 3 Nothing 特になし Others 0.4%) その他 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0%) 70.0% 15 PMDAへ 申請電子データ提出を経験して 要望がございましたら、ご記載ください。 骰 PMA メ . Unifying requirements between FDA/PIVDA - Validation rule - Requirement on Sl unit - Legacy data conversion - Usage of Validation tool . Feedback of e-data submission more details . Open use of PMDA validation tool . Test data transfer via "Gateway" 16 436
今後の申請電子データで懸念する点など ございましたら、ご記載ください (レ ガシーデータ対応、 希少疾患でのCD:SC対 応、 先駆けでのデータCDISC対 応、FDAと の同時申請等) 嶺 PMA り 48ネ 土中25ネ上がコメント 【 】 ■シ│ン 11を 含奪│││■ ││ レガシー"を 含む ││11111ド 1,│ず ‐ ‐│ │13社 │ 12社 │lrlFOAl丁 11米 国ギ を含む■■■■ │││││││││││││││││││││││││││││││││││││││││││││││││││││││19補 ず同時申請i'を 含む │││││││││││││=,■ 希少疾患 "を 含む 'fll医 ││ 3社 先駆け"を 含む 師主導"を 含む│■ │=::::'::::II:11誌 :│:露 ltll:│:│:│:│:::11:::41機 : ― ││││││││││12社 1111111111111111111111::11::::11111::illllllll驚 ::::1:il:1難 │:::二 ::議 │11 17 e-data submission in case the review is done before application . Sakigake Designation Scheme . Pre-evaluation consultation drugs . HIV infection drugs 隷 JPMA . lt's desirable to submit the data at the same time of evaluation dossier. - However, it's burden to sponsor to prepare for full CDISC compliant data with PMDA requirements - Possibility of receiving e-data package submitted to FDA at the time of rolling submission 18 437
lr
彬則
A
e-data submission in case
the review is done before application
‐
織疑選手
菫
篠緩 1綸1繭‐
種Or轟 饉
舞
躊繭転
【穐evOew
uttder.SAκ rcttQ翼 1書 勢 奪曇 書構鐵ti奪 織
資彗v菫 ■w
⑥ 驚evie警
■繁li/11
・
崚
'●
$3trunlttr*nlntr portmar*etlng oafiety
at
NDA
time
tinlo of
,meauns{wl$taon
‐壁:ュ :::」 ュ1[ol■̲13§ Of 212Q△ oll.lS曇
submlssion of clinical evaluation
dossier
- Not mandatory
:υ
Soυ lに o′ P″ DA υpdare ScFeace‐ わased′ ′ a″ ves of P″ DA F´ 0口 ''acce′ erated"ro"advanced"reⅥ e て
、
2面 0′
i亜
]=]互 I憂"̀′ ]墓]壺
]匝
スコ面 亜三匝巫互
巨 五至
互
二
西≡ 互
e-data submission of
I nvestigator-l n itiated Cli n ical Trial
録
JPMA
. Awareness of CDISC has been increasing
. Meanwhile, there are cases in which implementation could
be difficult
- Limited Budget
- Lack of resources
- Knowledge of CDISC
Cooperation between Academia, PMDA, and Sponsor
- Full CDISC Compliant is ideal but may not be realistic
compromise
- Seek
. e.g. Standard data conversion process
It's important to communicate at the time of planning stage
- Reference:
or,
ed
kuノ tikc)
20
438
熙則 ヽヽ Conclusion data submission has started since Oct 2016 One third of JPtt/A member companies have experienced for CDISC standards and electronic data submission. to submit data: 18 companies (37.5%). - Number of experience plan - Over 50% companies to start e-data submission until 2019 Although various issues and concerns are held in many companies Concerns: Costs / Resources / lmpact to Timeline / Experts etc - Benefit: promote standards by review internal process... Further discussions needed - Rolling submission - physician-led clinical trial JPMA continues the promotion activities e-data submission and CDISC standards. 21 Acknowledgement 滲 JPMA ・ We would like to thankto JPMA member cornpanies for responding to our survey,and JPMA Taskforce member; ― Ke‖ chi KC)IZUMI(Sanofi K.K) 一 So SAOTOMO(KISSE!PHARMACEUTICAL CO.,LTD) 一 Akari KAMITANI(SHiONOGI&CO.,LTD.) 一 Hidemi HASECAヽ A′ A(NippOn BOehringerlngelheim Co.,Ltd.) 22 439
力 ′ A 黎則 丁hank you for your attention! 23 440
SASの 目指 す A1/機 械 学 習 /深 層 学 習 とは 〇小 野 ! 潔 株式会社 イ ンテ ック 首都圏社 会 基盤本部 アー ク リッ ド推進部 ■抄 録 (1)目 的 SASの A1/機 械学習/深 層 学習 は、従来 の『 SAS Enterprise Miner』 と共 に 、新 たに『 SAS Viya』 や『 SAS Data Mining and Machine Learning』 で利 用 で きる。 しか しA1/機 械学習/深 層 学習 は取 り付 きに くい 分野 であるので 、多 くの統計 SASユ ー ザー には 、 SASの 目指す A1/機 械学習/深 層学習 がわか りづ らい。 そ こで 本チ ュー トリアルでは、一 般 的なAIの 理論 体系 や 開発 環 境 、デ ー タサイ エ ンテ ィス トの 最 近 の話題 を説 明 し、SASの 目指す A1/機 械 学 習 / 深層 学習 の役割 と位 置 づ けを推察す る。 (2)方 法 前半 はAIの 概要、歴 史、SASの 入門者 向 け の機械学習デ モ を解説す る。 後半は『 AIの 民主 化』 の観 点 か ら、AI開 発 ツール として のSASの 役割 と位 置 づ けを推 察 し、同時にデ ー タサ イ エ ンテ ィス トの 実務 課題 と、最近見 え始 めたAIブ ー ムの ほころび も言及す る。 また新 たに追加 された強力 な レコメン ド(FACTMAC)プ ロシー ジ ャー を紹介す る。 (3)結 果 SAS Viyaの 目指すA1/機 械学習/深 層 学習 は、SASユ ー ザ ー にAIの 民主化 を もた らす 。 レ コ メ ン ドは 1990年 代 協 調 フ ィ リ タ リ ン グ か ら発 展 し 、 最 近 で は 、 MF(Matrix FactorizatiOn)か ら FM(Factorization Machines), FFM(Field― aware Factorization Machines)と 改 良 され て きた。 SAS Viyaで はFMを 採 用 し、AIツ ール で は 初 めて 強力 な レ コ メ ン ドモ デ ル を実 装 した 。 (4)考 察 SAS Viyaを ク ラ ウ ド環 境 ヽ (例 えばAWS)に イ ンス ト一ル し、 レ コ メ ン ド(FACTMAC)プ ロ シ ー ジ ャ ー を利 用 す れ ば 、 強 力 な レ コ メ ン ドメー ル を発 信 で き るが 、 高 コ ス トに な る可 能 性 が あ る。 AIブ ー ムの ほころび は『 世界 のプ ライ バ シー 強化』 と『 開発 コス ト』 か ら始 まる恐れ が あ る。 (5)結 語 今後 のSAS Viyaの 機械 学習 の発展 に期待 したい。 441
腑:汎 勒蝙 怒顆屏 鰊 馨 砂檻― 馘‡ 咸 餃鯰蝙 諫蝙隆梵写鰊饉檸躙マ 鰈隋螂塚 曖な 量 警 小野 潔 株 式会社インテック 首都 圏社会基盤 本部 アークリッド推進部 1、 /:3場 な1鰺 eta闇 :織 g andlゞ achin参 饂earning ⑬n s,亀 :e vlye Kiyoshi Ono ARQLID Promotion Dept. Metropo‖ tan Sociallnfrastructure Headquarters, !NTEC lnc. AttSTRACT 要旨 : 本チュートリアルの前半はAlの 概要、歴史、SASの 機械学習 デモを解説します。後半はAlの 理論体系、開発環境、実務課 題、新たに追加されたレコメンドモデルを紹介し、SASの 目指 すAI/機 械学習/深 層学習の役割 と位置づけを考察します。 +-7-F': Al0)Et'lb, Factorization Machines, SAS Viya, SAS Visual Data Mining & Machine Learning 442
インテックのご纏介 ループは、グループ会社 50社 、2万 人が一体となって、それぞれの強みを活かし、 日本国内および海外の金融・製造・サービス・公共など多 くのお客さまのビジネスを支えるITサ ービスを ご提供します。 IA 費 簗 攀営 鬱 A,1‐ ̲″ 警金 71鷲 卜 燿 麟 5 1NT∈ 本社 所 在 地 富 山県 富 山 市 (本 社 )/東 設立 日 1964年 1月 11日 資本 金 208億 30百 万 円 E6ROUP 苺 (囃 .̲ oI:5",.̀ 京 都 江 東 区 (東京 本 社 ) 売上 高 1,153億 35百 万円 (2017年 3月 期 ) 経 常利 益 71億61百 万 円 (2017年 3月 期 ) 496名 (2018年 3月 1日 現在 ) ﹄ ゛饉 100% 麟 TIS株 式 会 社 鶉 株主 一蛛 3′ 北 岡 隆之 ︐ ⁚ ︲ 醸 ︲ ︲ 一 一麟 従 業 員数 代表 取 締 役 社 長 ■ 曲己畿倉 小 里予 潔 ⁚ l こ 人生 はAlの 興 隆とも 人間万事塞翁 が馬 SASユ ーザー総会の世 話 人の一 人 :人 工知 能 専攻 大学 院 専 門分野 :人 工知 能 、金融工学 、統 計 学 略称 の変遷 : 80年代バカ レ 時代 株式バカレ 時代 A鋼ブル時代 株式インデ スモデル開発 ■││││ │・ 投資顧問会社 1ヤ ー ││││││:││││││││││ AI冬の時代 ビックデータ時代 株式インデ'ククスモデル運用 Quants ・ ・アセット レ タクティカリ アロケーションモデル開発 IDab̲ハ │,ay壼 与信モデ 開発ま連1用 Data Scientist 手書き文字認識モデル レコメンドモデリ レ POC :ッ │││││. 生命会社シンクタンク メガバンクロ 寺イ tll Fund Manager 'レ SI会 社 443 │‐ │‐ ││││││││││││‐ ││‐ 3
翁目的
前半チュートリ爵レ
軸又 鶉俯 軸
① Alの 概観
② Alの 歴史
③ 機械学習の体系
④ SASの 機械学習プロシージャー
⑤ SAS Viya Developer Trialの 説明
⑥ SAS Viyaに よるモデル構築のフロー説明
留意点
① データやプロシージャーの詳細説 明はありません。
モデル構築のフローと機械学習 の説明がメインです。
②深層学習は塩野義製薬の木口様のご講演で解説されて
おりますので、本チュートリアルの説明はありません。
$AS‐ さん、なんと
かしてよ
:
ず―鬱鬱イ豊隷サィス了檬亀蝙輻勒黎雖
脩
褥曹
SAS Visual Dataヽ 4:,,:o9ユ
.■
・ ^`
´´ ‐
摯
,
・
摯
,■ ● ,・ マ ′
●││:
・
.‐
.■ :││::̲
¨
● 夢一
¨
晋 .一
一
¨
lac11̀、 ol̲,arnin9
。.
′
機 義諄輸 麟 転摯 ・ "…
・
'dヽ
‐
,■ ‐
箇驚選雲
1難穣難轟尋
li露
ぃ … ̲̲,
. 3*XirrE&i7:r)rl&$E8Vta/ty -i*rl.:ftr4., t/) )t i; rn
,,,1' ,J *6,, t'
. lttqt-?ffi];* NrilFa6Ma-:rrti*D,sqqtritFry
=・
"1ヽ
ヽ..̲̲̲ ̲
■
==│●
ヽ ̲̲.̲̲̲
lrffirf?tv
. ff*idlrri t :l/{}l/itt, €&i<?r-i':rrtir6ai1ria rt.
&F)Snr:6-i:1-'.r>{*t#
. &g!.rrif la$it:rr;ji, Lr-,/ *$*r)rt*:a)rd lfti| 4n t.,,r 4
,| ^d
..,
j?r?!/.art. r4&
. sr" r.ltI.-r,ffi-lr.a
i €!,t19):?;rflrfSvr,
,',1
I
al
I
i i:.:::'-!..,
, i;:.
::;1::.
Sft:hflpsr/M
デル鍵発
=.、
t夕
....・
Ⅲ
尋霞1爆 :霞 鶴1漱 蔚摯 …
リズ驀
.議 轟 轟 ̲″凛こ
森 ・ 憔‐
::̀:饗 電:署
l雪:]1題 憲
t鵠鶴
ヨ嬌 ‐
.
‐ ●一 ・ ‐‐●■摯 ― ■
‐Ⅲ 'オ・
=。
=酪
…
″̲
唸 線 …亀嵐…′
霧先鑢¢獲饉響鷺鵜
sas.com/contenUdam/SAS/jaJp/doci/faclsheeusas
444
:::r::..:,
..-.-:.:.:-.-.-.-.
';.-.:-.--.
visual-data'mining machrne learn ng 1082751 1705.pdf
I
I
r
1
AIの 概犠 人工知籠と機械学習と深艤学齋の関係 出奥 著者 445 ■: 8
機械学議の領域 $篭 畿 竜 ic電 書 ⑪畿鷺 畿 e議 I)金 ttt Sξ :窒 籠ce 人工察麟 錮歴史 1048年 腱劉 よる世界初のコンピユータ[:霊 聯=Cの 錦驚 車 :1轟 轟 轟 ;̀ま 議 二静5魯 〜 ■緊 撻 年 代 第 ■次 Aエ プ ーふ 報躍肝 推 論 開 饉 磯1解 濠』 :磁 嵐 =:: ││1絆 驚 1奎 三二 ニューラ,I.率,IT― ク、轟傷子アルゴ襲磁磯擦 理機難立 「 ヽ 晟戴歴極娠i番 籠な 鬱饉譲Ce)と も 書 1956年 う欝:蕪==整 :が曇 島 亀 て人選抄熙鰺 《 ゲートマスワークショII豫 こでも贅ら 1970年 代 Aり 難窯:《 機撼畿畿織麟、鷺案蒔朧.が とはずシ (こ :li‐ 1:││.│11‐ ::1警 cl:1轟 銀鶏 0年代 翻 枚 AIEプ ーム『知 識 工 学 級時 代 (自 然 露 難 。 画蟻 レ 警声 理解 )」 ェ率ヌメ 江摯ズム01舞鸞 f― 二維鯰.二 巌―予4=事事トリーケ争麟機ア′ 武テム聡で │― │,こ 一 =シ 197]‑1976年 スタンフォードヽ1獲 てエキスノ i― ト システム (MYCIN(マ イシント》爾 姿,撫 競:互 挙の霧 ‡ ナ) 1982‑109導 年 :議 藤儘力 5世 代コンピユー毎極ジエクト(1981年 )に 5X鞭 憂鮭推難 ̀繁 1990年 一 鍮失散》 驚‐ びAI:動 時代調葉 畿 轟 (ル ール)撥 機‐ : :こ .I灘 2010年 〜 鶴購次 IA]:プ ーム「自 己撃 簡 、畿理 ‐ 難 時 '織 」 D幹 ,L蟻 策鬱 《 犠‐ 機‡ 白議)、 卜が モデル 1凝 鷲驚篠 麟鱗縦,0) =僣 '李 nが、 opa餞 ソ 2011年 IB務 織鋳聞轟警システム爾酸総 ジ葺ヾ デイ)」 でケイズ三に溶利 ま欄な 2艇 8年 GO。 91働 乃 フア難も 鰺鋤‐ 世尋デヤンピ言豪顧発議も │レ '':議 ・ 八 麒雖 ざ・ ・?〔 byレ イ ・カーツワイル〕 2黎諄年頃 AIが人類を選す年 ・ シンポルグラウンデ ィング問題 フレーム問題 出典 著者 446 ■ 10
データサイエΣ辞 機械学闇 で
世界的│こ 使われたソフトウェア
KD職 職麓 ets AttattYttcs,Dota
S遍饉魏ce,Macttne Learnttng SOfh″ 量Fe
poE毎 20■ 15‑20■ 8
0,̀
■●,S
50'ふ
爆
鑢0惨
̀
SO,̀
,̀
尊て
''C
F鬱
P?ths
RapidMi.wr
R
s{lt
Exel
;lsa{snnde
Ten*rtlow
T{bkau
sdkit'bam
I(*rs
,rpadrcSpark
(留 意 点)
Alの 百語、ツール 、
出奥
https:/ rw.kdnuggets.com/201 8/05/
分散環境、Alラ イブラリが混在 。
poll-tools-analyti6-data-scieoe-machinelearning{esults,html
14
wHY:機::械学議が,主 圏される録か ?
〜統計学と機械学習の相違 〜
仮定
仮定せず
30個 程 度
1万 個 以 上
数十個
魃
鰊
魏
統計学 はビックデータ時代 に用を成さないのか ?
12
447
機械 ,学 習の種1類 目標変数あ り (未 知データ予測 目的 ) 靱 輻 鼈 鼈 鶉 膵 瑯鑢 ・ . ¨ ■. (例 )多 変量解析、ロジステイク回帰 判別分析、k近 傍法、決定木、ラン (例 )ク ラスタ リング、 階層クラスタ リング、アソシエーションルール (A One― ciass S∨ M、 自己組 織化マツプ (SOM)、 PCA priOri)、 治一 ダムフォレス ト、 サポー トベ クタ ーマシン (SVM)、 ニューラルネッ トワーク 目標変数なし (未 知データ規則性発見目的) 教 師あ り学習 と 教 師な し学習の併用 EM (例 )オ ー トエ ンコーダー、TSVN、 機械学習体系 ″ ′ 猥 湾ピ― What is it? 強化学習 総 ご奪 峰 〆傷 深層学習 ヽ ̲蟻 蟷島饉 嘱 壺 =… ベイジアン 鑢6 √、 L 繭 〆鬱 ⁚ l アンサン ブル学習 ベイジアン ネット l l l 騒一 i l /毬 轟 ニユーラル 機械学習 i l /s:罐 l l l i l /奮 錢 i l ル ール l シス ヽい ヽ■ 一 鐸 ンヽ 正 ム ′ 簗 ぽ 場 議 /恣 務 為 ︱︱ ´ ノ ク 一 一 ・ .新¨ 一 ワ 一 一卜 分 一 ﹄ツ 豪 √ ︱⁚ヽ ネ 一 グラフ理論 / 448 クラスタ リング
ー…
欄麟成 理のSASプ ¬│シ ジヤ
.学
Visual Statistics,Data Minttg&Macttne Leaming
ご餓
}
ヽ
驚拇:議 饉
ヽ
FISじ AL DATA A濡 腱
:撻 壕鶴 鷲
IAC議 :諄 鯰 ′
ViS‐ 職1食 なS=AttST;CS
:蓼
=壼
麟 ‐麟el
c‐
Is
OL:near Mo警 螢
'6饉 NSttECiT:Gttle嬢 I鮭 警
ニユーラルネットワーク
l\letuorks*
⁚︐
司 IJ ■︑
■
な明
明 一
一説 一
一説 一
義半 軍 半 一
澪獅臨 一推
︲
・ R〔 CSttLECI Linear Rettression
Re鷹 確sslon
'筵OCSttt(:I:Lo鵞 :餞
:●
'舞 t,輌 001 No余 1:簗 ettF Regresslon
蕉
ぐ
0驚 S鶴 0な r,̀
'P傷 駿0),P豫 鷲(参 ‡
'Q=鰺
=LEC:微
裁薔
‡
ぐ難震総ss̀o隷
鯵
場
FMレ 露メンドモデル
壼壁螢■里遭地整塑ュ撃釧 決定本
辮酵:薩 総 議 解
'盪 ‐
壼X孵 。輸 &議 。轟舞
:,饉 驚
検saぶdκ ‐
ぃoces c11懸 ste魚 68
^К ctus:K‐ ィ
・ PCAI P'織 C摯 鶴:倉 準織,0籠 拿減SA,ヽさ:γ ヽ
,3
'VARIMPじ :凝 ::繁 pび 機 蛉毎ol餞 憲 議慧e滲
'VARREDOC縦 :象e緩 oce Va● abtts聾 お卜Sopttrvヽ od&
,′
Unsul》 e":sttd ttethod多
'C(AК D:餞 議 窮ヽ嗜 xp:o輸
`SV001 Supp金 ̀,鍋
裁 Vect● F Oa機 》烙鷲職 摯。。 じSef彗 :ね了
藤 ・
out::er deteCttOn棗奎d機 鸞 ヽ議秘 鞣 霞.力 識継織)pttbl唸 弾S
'議 WPCA:饉 稽loFe ChangeS:● 鮮議感pal輸 銹pOSe織
議 rough time
̀
・RPCA:驚 ob● st PCA.U"efol fo「 :ぉ 1鑢 e recogntt絡 ,ttts臨
,拇 場
,鶴 鏡work● na:yses
I贈 o驚 κ
n議 酪b̀=oF tteis in ttr議 域襲
驚 鷲 M:綺 豫
IEXTMINET Language proces5ing, 5V0, toplc di$caeer?
データ分割
BOOlRrLa: Extract Simple &{}de3n fll.lles flo*]
transa{t&na, lpxt data.
モデル評価
̀S鶴 機
・ Sco構 d違 o3● s:摯 議0な ヽ
oF● 湧継も
謝懲tttp資 角賊An議 lyti艦 患饉
,IttSCOR窟 :縫 ore te斌 び議慾
静孝ta
.
S象藤
SAS」檸lya[こ まる
モデル構築
(留 意点 )
・デモ環境 のあるSASプ ログラム をそのまま使 用 しましたが、
日本語 の意 訳 コメントを追加 し、見やすいように構 文を整えてあります。。
このプログラム は本ファイルと同フォルダーに あります。
16
449
SAS ViVa interfaces An ExЭ rT:粋 ie 」 祓舞 蒻S Ⅲ AP:s ・ … df=S.CAS■ able(′ hmeq′ ) 機 調■目■■国墜 dihel● 〔 ユ ,) TFatts:轟 te嬢 蛾or識 籠Ъ畿轟職 攀■ 摯・ret薇 ■ ││││││││■ 1や・nへne =│● 纂 ,″ ̀ヽ ‐ l to=1lD"● │‐ 彙 ││││││ヽ t̲ ´ く ddCaSttbll● ,′ れ eq') head(di=0)│‐ ■■││. SSas SAS ViY磯 罐 械学驚プ国ゲ予 ミング環境 SAS En ISAS Studlo pro9ram interface SASラ イト ■―ザー向き I(GUI interfaceも 含み) 使われるGUIプ ログラ ミング ープロ SAS ヘビ グラ ミ SAS Studio program interface ングユーザー rprise Guide SAS Enttrprise Miner等 で (.lrtxoj5A5 proqram rnnterace) Getting StaredI SAS Studlo br 12週 間 the Data Sclentist :(逐 次更新可) Get started with your SAS SAS言 語ブ ロ ング グラ ミ 時間 (同 PCで Devolper Trial '` `. の再申 .′ ) Lua言 語 間 プログラミ ング、 オリ ジナルのJupyter Get statted wlth Pytho′ R and ^.^:8時 Abi(同 ヽ Python′ Python′ Java′ Luaブ グラ ング ミ :Jupyter Notebook :(]Nは Pyhわ nで 最も使われている ユーザ ipr09ram interfaCe) 'ロ R′ Rを r Notebook API via Jupy :請 サポート PCで の再申 では動かず ) 山貪 薔若 ・ 一 鸞 一 一 ¨ ふ⁝一 犠︱ F´ 一 漱 一 窯 一︱ ﹂革︐i t 一 ・ 一 i 二 ず ⁚ ︱︲ 一 ・ ︲ ■一一 一 一・ ︱一・ 一 ︐ ︐ 1:響:F■ 機 午│=t,. 0ヽ 驚,ヽ │● '̲̲̲.̲、 ^̲. ]ava′ Notebookは P/thon、 .― l鮨 十.:F,ll,1梓 ヽ十轟.‐ R′ │̀│:■ . ・・ ′ ‐ …… ‐ ` … ‐‐ │̲││ ・・ :構 警:i苺 ^` . 営 ̀:::.::::│:'が 1111摯 ― i曇 :ヽ ―‐、 モ、 .― … ^… ‐ =ili■ 18 450
SAS酔 降file登 録
■
・ 1‐
̀,1'',■ ■4.` γ̲̀0̀` ヽ
│`
ヽ
ゝ 、
..Staく
│::̀条
│`
.・
・・
■ .,11′ │■
・・
│̲`
・'
・
・
=.・
.
:,´
ⅢⅢ 亭蜀 二
=■
°ヽ
│■ ̲̲̲̲̲̲...・
̀
│
■●:■ ■│
rAr- y.uil Il:r. ti,riiii1..11 f.i,i.1,1.,,1 a;r.1 ril; or t\!'fl/il
│●
,
"● '大
19
降e Tr:最 :糠 申籠
SAS倫
「
id€.m$a.nms
gdlG|:d
rekod$rie+{ls-q
Ors.owry Grng *<
lis.lrk
iH)ci
Us$r Dal. tlrMq ed trsc@ Lea(lnq {PS[i
Sample Data
IL@KtNG,MS-V4sas7k1. LG-Fr&-rcts6ei LG-OR G-EI$STM*,
LG-CUSISIER sd&ll Th sam& dah Wks snh ho adkiie4h 6xe&s Nd a&w Tha daE 6
bd on leEmslni!€lon U@ lM a subsst d .Gllrets & tuv€ conlscl* .us@t .ar€ c#s
a a&yr esd 6b66t cattJr6 tlE Msvis
stur(6 d*a.lion turics and s!toay @@im
ot a.usloEr
!l ln lu&
Ls4s bilo4, [email protected],
How-To Videos
*h*trgd6*:i.i4,siN
i.*iI*wdi.@&{kh{*h(freE
SASヽ こサイ ンイン
1-v-1C
[email protected]
鰊 黎 輻躙 莉
隋躙
鰈鰈蟷麒
′
ヽて
,― ド
│
・
・・・
・・
・・
│
二L̲二
:::晰 鰈 11露 11躙隧
サインイメ ・
甕翼
tl,賞
SSasl勘 轟
彎tス
.‐
03習 ,I輝 tl■
.`
1,
攀
轡
,:`
From SAS Institute Japan Web-Site
451
20
SAS V:酔 D喩彎
:o‐
i4l3idor uirt it'. ike :* nc."63 SA5 nna:yii.3 {i.ai F.itirl . i fi? ii ed o* ier y* rr:e]{ n og, free r
I
per TFial
ise a.ta I
轟
窒S感‐
b■ i■ i■ 11141
ご
澄
Thank youi
ヽり壺
3
"●
摯",ヽ
"̀̀面
馘
・
,,"鉛 ,Wr
ぃ暉
",ロ
̀・
珈Ⅲ
"●
メール招 待
\four SAS@ Viyae Trial: Let's get started
YWSA$1*/* oe{dops Elps@ M@nt
h6*q*q'illMfffM
ま澪e
VO髯
tr.e€& ts e b Me
We
MMrs
be蟹007議 黎13312'10 aǹvⅢ l,en0 0'′ 2る ′
18絨 0'■ 0.
'n凛
*3 Botu €eS n*{ks8 M kMed
P*r8trd
From SAS Institute lapan Web-Site
GQtting staped:
Stu饉 iO輌OF thel準 attt SCietttiSt
A tsr&tedd.p he a&&9 intdet0 affiiii.sroW&3 Y.u &6erere+d.No
.ilft&h4lbrd8crsAsltnfieJuslendabo*l
ehsrsch!$sM
!b
E5*due*
ro$dnoits hla'irs ?.N tu sffi drauiils Adoi mc A*e ft e& ta! L s&n ton hs
hladae p! ftss 0. ydle lour M . 6h9 the sr* dda Dmvdil frtk pu St k dd a$e €d
̀A;,1,.=̀
sesMb!nii*loabre ireachsesb..!Rm$ay&drdeln?4kerlhp(M$Sy\-a
,躊 ●Ⅲ 籠 ●い │●
edorM l!lcur?dloi4ithhd jlniladar*:&
●●門 ‐■嘘
It Eide ?u iyx 1l tb €rd d Bs ls Itd. r.u !:tti haw h imshtq io gLe E k6r&
Frogramofg hielacesto 3AS V'ya forthe D;:;screnti3tl
憮 │:│ ,γ ,■
機
t'
薇
=傷 贅 詢 M
場 。●
薇 麟
.iド
"″ "t,養
̀t'nⅢ
「,,蒸
動熙。
ヽ
よ 蓼6,̀
:。
缶│,::醸 圭
豪
Rl,昌
li、
f:霊 :1結 │:1.こ農 li灘
:│:::ま
:│││::l:
ニュニ:上:」ZI塾 1昼ヨ菫目上■:…
hips1//QLwors bightcove=02立
2壺 壁≦≧五ュニ
」三塵壁主五左褻豊語週塗工重己二
あります。
1豊 72491304001/defau t̲defa」 lyindex html?videold=5522492354001
From SAS Institute,apan web‐ site 22
452
9
一一一一¨いい﹃
¨
榊
囀
菫
一
¨
¨
一r
崚場︐
□―ン種肇
躍
難モデル
≫
一
醸´
・ ヽ
● N態 ¨
●■ 髯場 ﹄
磯
SAS Viya Developer
Experience envi ronment
ヽ
い
一
・
11暑驚
:̀1141::l̀11,11.1´
D,!&r$
・
│ :1111暑 ■II■
・ …
' is. rir* r-r, 5e1e fl*d!
̲:凛
==:議
ft*llt(.:r,,r.ae.I",.*
8,11,,1,11,'電 露
=軍
1==・ ■│.
,
:.
From SAS in式 itute Japan Web―
Site
23
ヽ
モデ渉
ップ
1薬 :の 1鰺 覇:ス テ
麟饉‐
24
453
1.CA$ス タート 2ι デー讐圏―ト
ヽ
CAS(SAS CIo競 d Analytic SeFvices)│ま SAS Viyaを 使うための捻まじなし
です。
l'!j1;il*a CAS ty:/=,
Starl CAS session"r
optioncasport=5570€shost="lo@lhost"; cascasauto; caslib
3″
1輩
│
libname mycas cas;
caslib cvfiles task=add type=dnfs
path="/opvopen/data"
desc="Spreadsheets and CSV sour@ data." ;
l'*$## 2. CAS{i*tn*$
城,輌 ̲│な 。
│ピ
.
︐
o/olet class_iiputs
%let target
= bad;
= reason job;
%let class_vars = &target &class_inputs;
%let interyal_inputs = im_clage clno im debtinc loan mortdue v
im ninq derog im delinq;
%let all inputs = &intetual_inputs &class_inputs;
%let indata-dir = ../data; %let indata = hmeq;
1黎
蜃議
1躊 電
1 1:
1
proc casutil;
load casdata=,,&indata..csv,,
― │ ●
importoptions=(llletype="csv" getnames="true")
@sout="&indata.' repla@;
conlenls casdata = "&indata.":quit:
25
ら
5一
̲ヽ ヽ
嗜
可
「
'
―夕検索
:プ
?CdCld=Vdn,m'CdC&CdcVeis'on=8̀̀&docsetld=casref&docsetTarget=n44yalch蒸
X:'t〔
oyykn
輛
′苺鵞縦3デ ータ探索、欠損値の経握 Explo,3 andい pute miss,ng val● es
`Doct,mentationIMDSυ MMARY PrOcedt,rdol崚 ′
90 docume贅 o::o命 sas com′
欠損値 数
&:。 C8:e=en)'′
測
proc mdsurnmary data=my(as&indata l
var̲numeric̲す output out=mycas summaリ
。c print data=mycas summaryl:runi
イlruni
珈
p「
ods graphics:
vba「 ̲column̲′
鰤
proc sgplot data=mycas summaryィ
;
Юsponse=̲nmiss̲: runi
ヽ
査
:
秘 銀
一
一一
,事蒻
「
轟轟 ̀
From SAS Institute,apan Web‐ Slte
454
26
4暉 欠機処理 5嘔 デ…争1か 割 〜 p載e mlssing vttues ′ 線 #瘤 欠機 値処 理 ::ヽ ヽ ・ Documentation iVARIMPUヽ EP cèulo:(httpl′ ′ go d● cun)entatioI、 sas com′ ?..dctd=vdmmlcdc&cdcVersion=8.1 1 &docsetld=casstai&do.setTarget=viyastat va.imtutiloc.htm&locale*en )'/ proc varimpute data=mycas&indata: input ciagel input delinq mput ninq /ctech=rnean; /ctech=mediani /ctech=value aalues=2; ctech=value cvalues・ 350,7,2, 内′ ARS=LalL)i runi input debtinc yo,′ output out=mycas out COP` ′ 摯絆″5 学習データ.検 誰 ギータ、テストデータの分割 Pal:筆 on('aい into■「ain"ぇ 9, Ⅲ 'Documentalon IPART:7:ON Procedu吟 ](ht● ′ 90 documeintatio今 sas oom′ :′ ′ な19et,viyaヾ at ′ cac´ 11=vdalmlcoc&cdcve61on=3 11 8docsetid=casstat&aOcsel■ erl)・ ′ ̲1)art,tton̲tOC hlに :&locale │′ "● … ●,● 1● Vttidalioぃ ,ひ (10■ ost o,● ● , "■ オ,,κ ―ン│ イン│=.′ ク澪 ,̀緊 艦 ゛ ザ %let pan̲data=hmeq̲pani prOC partitiOn data=mycas out pa「 tnd samppct=30 samppcυ =10; target badi Output Out=myCaS&pa咸 ̲data COpwarS=(̲a‖ ̲)i runi ,で 力″ 舒燃 :場 驚 27 決定本モデルの機築 6鴫 決 定本モデル構築 Oecisif,a Freo REESPLII 「 ?c● c:o=vcmmlc̀c&c̀cVersゅ .sas.coml nt8 418dOcSetiO,casstàà ′ ocsttta(get=、 iVast̀3111ゃ o6p,it BCl■ m31o(la,o=erギ proc treesplit data=mycas&pan̲data 織一 一 一一一一 一一爾 Outmodel=mpas modeLЮ eSplti target&target/1evel=nominal; input&ctass̲轟 p● tsノ leve卜 nonll● 」 : input&interVatinputS/1eVel=interVal: parttion Юlevar=̲pa"ind̲(train='0'va‖ d=¬ 'Ost='2.), Output Out=mycas̲s● ocd」 ЮeSp‖ t 一一一﹂緩躍 一 鴫一 一一■ 藝群 一 電 上 'オ ート チューニング機能 autotune: coDvvars=̀ partind &taraet.): runi ‐■ ■ │ , . 1 1 : 雫 │̲1̲│ 幸 ︑キ ■ 一 一 撃 ・ ⁚ F騨 な磁 華暉 リ ちr‐ ̀. 臨│ 率嘩 F「 455 om SAS Institute]apan Web― Site 28
決定本 の特徴 ・IF― 丁HENル ールによりすべてのデータについて予測値を分類する手法 ・目的変数と説明変数から木構造の分類器を生成 ・木構造は分割基準値で決まり、トップほど高い重要要素で分割 過 去 お金 を返 さなか つた ことがあるか No 今回の借入金が年収 に占める割合は10%以 下であるか 危険 (危 険性 90%) No 年収 は400万 円以 上であるか 安全 (危 険性 10%) I ves No ■ 危険 │ (危 険性 60%) 安全 (危 険性 20%) 出典 著者 29 決定本 翁種 1類 輻鰈囃躙鰤晰 輻鰤録鰈塚躙 霧│ン││││1直 ‐ 01ヽ CART CINl値 =│1年 "││1鯖 clAil ll 表値 カ イ ´ 情報 エン トロピー値 E:″ ′ (R)=E′ = ル 7′ │ (χ (Sl)) (S)1° g′ (S) ( 留 ル (SI)1° g′ (SI) 留 暮 ′ (S2)1° gP(S2)) GINI値 G″ ′ (R)=G″ ′ (■ (Sl)) データ集合Sに 、 固のカテゴリー値をもつ目本 票層:̀性 が存在し、集合S内 に i個番 目の値をもつデータが それぞれXI(S)イ 固 (1=1′ ..′ 」)あ るとイ 反 定する。ルールRで Slと S2に 2分 割し、部分 合 Sl内 の i番 目の値の分布比率を ̀素 Pi(Si)=Xi(Sl)/ISllと すると、各分割基準は左 記で算出する。 jイ =(1̲ル (s)2)̲器 (1̲ル (sl)2)̲器 (1̲ン (げ カ イ 2乗 値 C力 ′ (R)=C′ 力 '(■ (1・ I 舎 (SI)) 孫 Sll(′ ,(Sl)― ′,(Sl))2+IS,│(′ ,(S,)― ′,(S2))] 雨 ) ■ ■■ 456 30
7晏
い
の檬
勾醜ブースティ≫ゲモデザ
;E?rtotBX
GradieitBoostino
" Documenlation IGRADBOOST
Procedu.Bl(httprrgo.doc!01entaiion.sas.@nl/?cdcld=vdmmlcCc&c.lcversioi=
E.11&doccetld=*sml&docseLTiircet=viy.iml $kdboogt loc.hin&lo{:aie=en)"1
pfOC gfadbOOSt
" lr
oata=mycas.&part-data.
minleafsize=5 seed=9878 outmodel=mycas.model
- l-, r- =>, t*W attotunel
maxdepth=8
gradboost;
target &taiget. I level=nominali
input &class_inputs. / Ievei=nominal;
inpul &inleryal inputs. / level=inlerual;
partition rolevar = _partind_(t.ain='0' valid=''1' test='2');
output out=mycas._s@red gradboost coplvars=Lpadind_ &target. );
title "Gradient Boost"; run;
q6&&*
M\rtr&
議り
稀
鶴乾
1‐
̲額
ブースティンゲ濾で
醜
蔭
士‡
掛け
̀筑
Boosting: PAC Learningの 一 ´
:)
精 度 の 悪 いモデ ル を多数 集 めて
精 度 の 高 いモデ ル を作 る方法
一 一 ■蒸
︱︱︱
︱ ︱︱
■■ で ● ■こ ■ ■t
︲
る様に、弱学習器を追加する。損失を最
小化する方向を探すのに勾配 (Gradient)
情報を利用する。
・
Cradient Boostingは 損失関数を最も下げ
k,
・
代 表 的 な Boosting
① Adaboost
2000年 頃の Boosting
② Gradient 8oosting
C++で 書 かれ たAIラ イブラリ
Xgboostで 有 名に
③ Gradient Tree BoOsting
④ Stochastic Gradient Boosting
・ ・ ,′ ⅢⅢ●
― ■.● .)
引用 i Cё ron,Aurelen・ Hands on Machineヒ earning
with scikitleain and Tenso「 Oow・ (2017)
32
457
3.フ ォン
ストモ
.デ
│』
′
鶴撃
ォ■ス〜ヽテルの鷲籍 Fo綸 s(
′
・ Ooct,い
'Sフoll嶽 10n:'0求
■Sヽ Pr00eよ ●eり (│ミ ヽ
0:′ ●0● oこ lme=oi10,,Sos cOな
′■ :̀=v豪 ̲】 ):=こ :&.(│:海
■31拌,=v,v:1:ぉ
ォ
s申 l=s̀̀&(ocsel,● =∝
"edOc■
)&│。 Ca'■ 壼
ぶ ̀。
0。 )γ
̀。
"(:わ
prOC fOreSt data=m"as&pa蔵
=5
̲data ntces=50 minleafsi
outmodei=mycas. model_forest;
1'Ⅲ Ⅲ ⅢⅢ■ ││‐
■
target &target. I level.nominali
inpul &class_,oputs. I level=nominal;
input &inlerual_inputs. / level-inleryali
″■■,■ ■■│
Ⅲ
│.│. │‐ ■
. ││■ ■
││‐ ■
´││■ ││■ Ⅲ
partition rolevar = _partind_(tEin='0' valid='1' test='2');
output out=mycas._scored_forest copyvars=[rartind &target);
title "Random Forest"; run; /'
.̀│
︲
・
︱
︱
︱
一
驚聾 奪 一い
理
.■
︱
●ポ ︑
T
一職一
壼 籍一
一
一
ギ﹂一
一 ﹁■ 一
一
︸
一
一
一
一
一
一
一
一
一
一
一
棒
︱
﹄ 一
々鮨 歯
やく
黎
・
.
‐
が藤 な
̲
。 .̀・ ´
鑢
t WI摯
│
し機 ò‐
セ螢 腱
。 係 鷺 ■│
ヽ羅 織
̀緩
。卒,
,彎
:
'
卒:
1
o零
a,ヽ
こ
齊 │":
崚 ,ヽ 夕
ヽ‐
ヽなお
l
i
。椰 場 :'
o,y'
)ヽ
"ヽ
麟、
ヽ│││
。‐
漱
.し ヽ ".
"1本
撚
。
:。
・ 0'
'
● ,遷
.
ラ)産露農直λたレスト鍮等議窮簑
│
X個 の 説明変数か らラ ンダムで N個 の変数 を選択 し
決 定木 を生成 (こ れ を任 意の数繰 り返 す)
辱
複数 の 決 定木 の 多数決
(低 精度 )弱 い学習器 の精 度 向 上
各決定木の算出スコアの平均値等か ら
最終的なモデルのスコアを算出
複 数の決定木
458
書一
tヽ 義 ご
攣
一
議一
i‐
一
繊
燿彎
一
―
‐
'111■ 篠 ││,
:.│ │‐ 議 11
│
‐
■
ランダムフ浦レスト傷効果
嫌
鯰
︒
ご .一可
・機 多講 ︵
響
い
解
ラほ
︑.
腱 摯¢亀 筆
絲
輸
誤判定率 ︵
1 1 正確度 ︶
ムフォレス トモデルはある個数を超えたあたりから精度 は
︲ t
ヽ
となる。
無
鑢
懃
篠
鑢
.J*\ r**'r"/\*"'
40
毅
610
´ =´̲tヽ
鐵
:●
0
ツ リーの数
出典
9摯
ニューラ藤ネットモデ1脇確
韓書
襲
│
―ラルネット,― クモ デ,■ の植業
│ヽ
'゛
dCな =ヽ'0
卜
EIP'0ら 。
│●
著者
=:●
n,:′
Vers:o,1=8:1ミ
い│:4● 桜。●●
ヽ じ総
崚k
cヽ
鎌 いち
as com,
●。│‐ ti鉾 ゛'No無
r`
:ら
locs,tt゛ =cas■ 12o● osetl o:ぅ et患 ,y^
:̲r.,,9t̲̲、 Oc,ヽ
■
1&:ぅ o31●
・ ●o)・ ′
pfOC n net data=my€s.&part-data.;
architecture mlp;
target &target. / leve,=nominal;
input &class _inputs. / level=fromifral;
input &interval-inputs. I level=interual;
hidden 9;
optimization algorithm=lbfgs maxiteF300;
partition rolevar = jartind_(train='0' valid='1' test='2')i
kain [email protected] neural seed='12345 numtries=3;
output out=mycas._scored_neural copyvars=(jartind_ &target);
title "Neural Network"; run;
■
・…
t麒 磯麟 議護奪 墨
簿続議窃,酵 場じ姜1■ 醸
::節 籐 攣 撃 :獲 1:li:;::│:鷲 │
…
蔵
:■ 羞二:會̀議ー
譲 '傷憲
ξ 1
‐
・
:鞣
薔
:鷺 筆 お,菫 1罵 繁宙 1鷲 │
:‐
lnput lays
Hiddm laye(s)
Output Iayer
1
:Iし
ヽ
:` 、
1:「
::::iil';,3;:タ
1:::::::夕
li【 :「
1':
i
〕
"
From SAS Inま itute,apan Web― Site
459
36
‐ 9.ニ ューラオ レ ネット機黎讐 4賓 鷺 ロパゲーシ歯シ ・誤差が小さくなる方向に結合係数を変化 ‐ ‐ させる最急降下法による学習 ー 短所 ⇒ 2次 AIブ ■ム崩壊のキ ケに│ ‐ 複雑な非線形モデルの近似が難し 'カ い 入 力 層の近 いニユーロンの重み しか されない ││ │ 深 層 学 習 の登 場 ・次 回のチュー トリアル で。。。。 鳴Q.Assess ModcI(轟 平1麟 モザき レ) ず t'ル 評 0 ヽssess l,1つ 0こ ′ :、 ‐Ⅲl■ ●■●1ヽ ■:01:^ヽ 31:::3S■ r,■ lt''● tll)1,■ ta10い S′tS● ● T′ :(11".■ g● │。 、 %mac「 O assess̲mOdel(p nx=,var̲evt=,vaLnevt=); prOC aSSeSS data=mycas゛ cored̲&prenx nbins=201 input&var̲evti target&ta「 get′ level=nominal event='4'I ntStat pVaF&Var̲neVt′ peVent=̀0'i by̲panind̲; Ods output istat=wOrk&pЮ lx̲fitstat rOcinゎ =wOrk&pЮ fix̲rOcinゎ li彙 inb=wOrk&prenx̲li価 nぉ l runi %mend assess̲modeli title'Assess Foesr'i title・ title・ %assess̲model(pre'x=お「est,va「 ̲evt=P̲BADl, vaLneu=P̲BADO); Assess C● dient Boost・ : %assess̲model(pre■ x=gradboost,var̲evt=P̲BADl,vatnevt=P̲BADO): Assess Decision TЮe''I %assess̲model(pЮ nx=t esp t, var̲evt=P̲BADl, var̲nevt=P̲BADO)i %assess̲model(p輸 輌x=neural, vatev■ P̲BAD,,vaLnevt=P̲BADO)i 複数 のモデル分析結 果を比較まとめるプロシージャー ⇒ ROC&LIFT曲 線を生成するため、基礎データを集めます 職 1韓 :難 ′ゥ ″ . :"、 織 ‐ ‐Ⅲ■ == From SAS Inst tute lapan Web S le 460
11. ROC & Litt ChaFt
` ,ROC彗
, I ittt Bt● 0● 00● ● ヽ贅ら:,凛 ヽ `
・
′
線 ● ■ チ‐
1, R,腱 講″[│● ,‐ ―卜の作成
.",
F̀● ●¨ヽ
OC,● l tlh Oま ●
●●,'10ヽ ●
ヽ
,ン
̀・
●●
̀,,Ⅲ t""││。● 翻 。
●
│ αk● ●
n y"̀"● ̲●
,・
・●
お d̲"d,uk"眸 '
,■ 同 ̲1・
・n
"は
̀o,uW,,,̀コ
W●
。
●
,,li̲
。
●
ly"̲̀,● ●
Ì̲h・ t)
(k。 ,,・ ,,h」 」
̀1●
̀=マ
ⅢXk"
いは ̲"けЦ
k中‐●
面
",f"̲"t,thつ
b"衝 いòol,,0:
ooもは
朝●X,(,) ● ・ N。 ●
僣
劇腋 (つ
̀ヨ
・ ●。 tl
'¨ ̀」
M"● ●)は
対d・ Cに̀
0。 。
ま 0,
訥(1), ,̀d'■ ●6̀晰i:
0劇 : 飩●
ods graphics on;
│●
)
w 訓 o● ow隆 し陣●●0̲■ 2)● ,│● 0■ ■
̀‐
■ ・ROC Cu″ ∞ 1● Toま 囁献│∞
U● │● 囃 II
〈
"∝ ̀,,lot̀,ぼ
●
。
1磁 ″ ′
摯 ,X・
,̀"障 m di
̀"策 ,│"‐ 1′ m●平輌‐,oF 7,
̀Ⅲ ,xЮ
●
,,●
yЮ
y麒 │,Vd。 ■0お 1"026)o出 。
■ ●
● ∞ 。1''''‐ 00i
・
'●
m●■ 。
■ 昴̲・ │コ ●
nxlo● ●
臨 ■pぉ 4 by。 ぁ)│ 。
「
│●
│。
)│
ll●
rl
I
,●
│●
proc sgplot data=work.all_liftinfo(where=(lcartind
=2))i
title "Cumulative Lift Chart for Test Partition (Unbiased)";
xaxis label="Percentile" grid;
seraes x=depth y=CumLift / group=model markers
markerattrs=(symbol=circlefilled); run;
,
"は
L wok"11̲tl鮨 01
轟 鼈,k、 ∝日 ̲1閥 旅,● ∞眸dⅢ 卜ln● ●
̀●
mm」
̲い。〕
Ⅲ,k綺 たo̲1は 綺●中
南̲│,つ
"●
・ 爛Ⅲ m。 姉ll● 」瘤■
い‐ ‐o11̲ib k・
価
ln
ω
mm̲口
だ
潤
̲1ほ
・ ,・ ̀
吹嗽 σ 反螂tll融 Ц k ,■
坤 訥 ω■ln,,両 耐̲● Ⅲl),
1,・
)
a un
籍鮒幡躙 LX」 ヽ
'1l
■●
,い ●o
̀
=1̀i
t
頭
(■
)mòd¶
ωば
"●,(つ mo出 ■F¨
w補
Wh● 。(1)m∝ Ll・ 0̀
●
″
01´rl
"●
Om
,
=: お∞俯
麟
α
:
。● ●
',lrl
:
lllll」 │:│::││[││:鍮
̀│■
]謗
驚
憾‖
itatiStiS
caslib _all* clear;
39
チャンピオンモデル)巽 ま
尺
t@
otre.
ROC曲
線
tur rd
erhba(sb#)
Lift Cha「 i
ヽ
505‐
ースティングが
最も精度 が高 い
.ブ
.
l′
9一
一
:..̲― 縄二 :. 5‐ ...̲,色 .
,● ̲
0
星 8﹂E ト
0 一0 マ0
bl-
さ
‐=i
― ・
「
籠V‐ 、 lse"sit,ve・ ,:::ょ
憔̲」
‐
'̀疇
‐
・
繊
1■
・
.̀、
1‐
.‐
8
│(…
)
`
苺..
0,
aesaive
rate
を
だ椰。StiV● 贈Ct
ゝ″
真陽笙奉`
ζ (Se・ 5た ty)
/
'Vヽ
\
嗅
:ニ ン
11以 上を陽性 (pos面 ve)、 11未 満を陰性 (negative)と した場合 (閾 値
=11)、 10個 のTの うち5個 が pos面 veと なり、true positive(真 陽性 )=05,
5個 のFの うち1個 pos面 veに 入るので、 ねlse pos‖ ve(偽 陽性 )=02、
ROC曲 線は、横軸 が false postiveの 割合 、縦軸が true pos面 veの 割
合をプロットしたもの 。
40
461
ROC曲 線 とビジネスの 関係 ROC50 「10‐ 輔 C 輔 餞 鐵 機 0 0.2 0.´ 苺 饉 o.6 o.饉 奪 出典 著者 41 揃攀ま とぬ O AIの 概 要 、歴 史 、機 械 学 習 の 体 系 O SAS Viyaの 中 寺徴 ヾ SAS書 懸プ爾グ鬱ミングテク量プウ燿 ぐりま譲嚢える 蕉 │ プ国シージャー化きれてしヽ 多数 靱蜆鶉攀膏 褥ヾ 褥 ││ SAS Vipの 機械学習 は Pythonを 覚えるよりも むずかしくないま l! 42 462
ご蝙鼈糀膵綺ヾ 鰤紆ごマ紆賤麒た 'W・ 軋は総飩 yo機 謬拶 『 y鰊 骰F賤 驚竃聰軋量1鸞 詭 │ 軋蝙 骰炒―了啄写絣 :饒 蜀靱 な量量 辣 贔颯 輻 輻警 鱚鰤螂颯毬‡ 鶉は冬抒魏颯鋏塚抒 小野 潔 式会社インテック 株 首都 圏社会基盤本 部 アークリッド推進部 籟!隣 鬱 ◎籟 SAは へ《卜=滓 ‡ 舞③ 鮭◎畿 ′ 摯c嬢 ‡ 「稔!白 呻 & 診ec膠 彗機議絆 Kiyoshi Ono ARQLID Promotion Dept. lMetropolitan Social nfrastructu re Headq uarters, INTEC lnc. I 463
鶴攀響チュートリアル機轟的 │ 時鶉颯辣 特 ① AIの 民主化 ② AIの 開発環境の全体像 ③ AI/機 械学習ライブラリ ④ レコメンドモデル :::}A紗 ―ム鍼 財 鼈ぴ 簸 (〔 (留 意 :デ ータやプロシージヤー の詳細説明はありません。 SAS Viyaの 目指す方向の解説がメインです ) 45 つて何 ? 『今年 :よ A職 民主化元年遅 fulonetarization of the Ai 優 秀アル ゴ リズ ム の パ ッケー ジ商 品 の販 売 に Colη odities ofthe AI アルゴリズムのオープンソース化 アルゴリズム性能の差異で1面 格倉峨 造 │ま 困難に Derrlocratization of the AI アルゴζ の縄翁せてサービスを実現 ブズムま ま∪‡ クサウ鐸環境 │こ よりi機 1懸 格で運用 管理も不要 │こ ザータの I■ 漁―ケ 贅が1面 4直 翁壕 遣 │こ 結 びつき, ` こ繋がる A:ど ジネスの選 蕩│1化 ま │` 46 464
AI』 甦奎Eイ し から」 露 Iた SAS V:ya ヽ 鍼 SAS Viyaの 特徴 ① 他言語のSAS Viyaの インターフェース環境 解感 .::λ ―ザー 霧 yttOn,ヽ : 解 毬 籟 輛遷:o o意 ご aV8,L域 :一 ̲… ずiダ : JupttcF国 otebook ② 多種類の機械学習を提供 ③ 機械学習のパラメーターの自動チューニング機能搭載 ④ RESTAPlを 利用することで、Alク ラウドとの利用が可能に 47 オートチューエングを有するSASプ 短│シ ジャー VisttI Statistics,Date M‡ 織ing&Machine Lea「 ningピ VI撼 υ褒江D綴 罵へ 鷲無藤ヽ L STAT鍛 薔壼:15 :ヽ iil》 蒻薔 灌6晟 :毬 Aる 睦髯 菫こ穣壼桑驚職:鶉 輩 闘撼 難:lo懸 饉 : 揚N 遷 障Sな そ驚進畿s登 ぐ み o豪 els alitted t議 ぐ =継 =憑 ・ R銭 6S==籠 ξ驚鬱Ⅲ 藍ar Re窓 :ξ 鱗:●‐ ■06S=額CIた ogな tic Regr金 饉、 ,拇 tM00:舞 on薔 :oear Regre輻 ・ PttS絨 00:舞 a職 燿l Leaま Sq彗 参 鸞 'も ,: 0繊 AD300SI: :ぐ ::: 勾麗ブースティン4 フォレスト 1く ,参 ̀ FMレ コメンドモデル 決定本 ・EXpl。壁&態 。di〜 ・ 3VO繊 :SO,oO鷲 VeCtOr D傘 睦 鬱eSCriptiO羹 .OSe熱 褒ちr EXpbFe&鮮 :● 感綺r ,Kctos:К ̲始 。.ns ttnd絡 機‐ 。盛es ctus"Fi電 ヤPcA:Pttn4睦 a‡ cO輸 pO● ●減、Attalが ls o鐵 ̀鐵 ‡ 織r態 戴 ec撃 oo熙 o嶺 斃摯 c議 鐵 (爆 ::歴 贄●薔 ●Fe Cお 癖摯意な多:葉 │卜 (e感 .fraむ d)p総 議書籍も 議ぐ:pal CO麟 参One菫 懲 ,vttRI懸 傘惨筆饉:1籍 p疲 櫂然 ,:ヽ s th静 雄霊換彗機資 『 3 VO機 ゃ ●R'(漁 :RObutt PCA.懇 (撻 f春 1鶴 rittage FeCく 。マA識 驚職o鰺 ;窺 :蒸 ぐo豪 c難 、参輩豪窓,蔭 sw:th super、 Lttd& 隷,金 犠SkS ̀議 ・ 鍼 :爾 OR縫:NetW。 取 議金養 eS 鬱綺su繊 舞資,sed metれ ol餞 , 『 ・ CA総 :NA=lIY:篠 xplol,e黎v難 腱 ro餞ぃ′ 、 1lab経 、 輸‐ 森 殊、 ア3,薇 鐘難G;Btt in鑢 富tすortab:等 驚鷲 攣‡ 奎 〜 eⅣ ・な 経 :■ ON:緯 mple iFttdO輌 &Strattf:癬 )溝 VOroamp毎 ,'鷲 欝 鐵:餞 壼:L饉 爾酵 う鮮 p=。 CeSS:韓 慾 WD津 。欝 diSC〜 ・300=驚 けに ξ Extract S'盤 炒│● 議ooleo Ruièキ'Co輸 欝晟鷲鰺0金 態ata t肇 義,actionat te慧 機ata. ;、 ̀予 1修 才― トチユー ニシげ鰺 能 ´ヽ 3類:謗 ギ が 醸鰺懇 :レ ヽ 、 遼 ‐ ‐ 義饉 難 饉 s tt Score ・′ ヽ ISSttS:Assess&c趣 機,議 re ttodcI ・惨co鉾 ',c(鸞 が,機 'Sco聡 deta with Datt St,p eode 'Iで 鸞3も OREI 465 蕉 0議攀Step 8nd Anal繁 ゞ象o解 ■les Scoycて議xtl彗 燎機 :ヽ 1奪 . S寝 鵜
寮務働AIノ 醸械学奮〆澱艤学鸞鍮 爾鸞磯崚 〜もしあなたが実務 OAIモ デルを聞発しようとしたら 先 :こ 開発環境を決めなくて1旗 !1〜 49 Al闘 1発 環境母全体像 出典 著者 466 50
開発:イ ンフラの続 麟が無数 ある │:こ ⇒ モデリレ 十艤 見檎もり難ししヽ 沐 責度、処理時鶴、コスト愚 ・分■ 斤し 青幸 5:を 1又 土内の構:々 な↑ 共するビッグデータやネ DMPは パブリックデータと呼ばれるタト部企業が提イ θ マーケテイング競亘 窺につなけるためのプラットフオーム 祭に□―卜する ET日 まデータウェア八ウスにデータを,こ う ̀棗 出奥 著者 )去 54 'テ A五 移 イブラ肇 〜SAS VivaがSAS以 外露識 サポー ̲● ヽ●│… 焙 社 〈日 本 )と …… フ トウ エア イン ^― 鶏櫂 躍 鍵羅 義轟 パ‐ライブラ,││ ‐ │ .│.■ │■ ■ ̲■ ̲ ン ソ ー ス の 深 層 学 習 ラ イ ブ ラ リ 。画 像 認 識 に 特 化 し 、c一 で 実 装 され 高 速 処 理 が 可 能 。 1諄り蹴 壽 勁諄,考 1事額 F宇11= Ⅲ像ⅢI宇 回像処理 .♀ ,'ICY.■ .││‐ .‐ ‐ .‐ す p● ││■ 言語 プ .‐ ■シーブイおよ●オ │ァ ィビー ピ ー 蘊 .宿 ■ ‐‐ ■ F夢 ヤ :: I CenSim ̀革 ‐ ‐ 覆懸 =7.1‐ 『 LibRec (A Leading Jaw Liwarytur Recommender SFtems) 52 467
` ythonラ イ:メ ラリ 酔 NumPy Matplot‖ b ナムパイ トプロットリブ ピロー .て グラフ作成ライブラリ おり、様々な種類のグラフ ・縮小 ) 画像言 1算 │ラ イブラリ し)等 C/C++コ ンノ Cython Pythonプ ログラムの実装を ヾ イラ ScIPy等 のPythonパ ッ ケージで,に われる。CythOnは PythOnプログラムの実装を高速化するコンバイラであると同 に、C/C++で 書かれたライブラリをPythonか ら禾」 用でき B寺 .て の役 割を果たす. 出典 著者 53 レ職メ》ドモデル (留 意点 ) レコメンドモデル は大きく2つ に分 類されます。 ①顧客の好みを尋ねて、その条件にあったものを選ぶ(内 容ベースフィルタリング) ②lま かの顧客の選好パターンから該当顧客の好みを選ぶ(協 調フィルタリング etc⇒ 本チユートリアルで│ま ②に限定します。 54 468
Whyレ コメンドモデルを取り上げるの ? ⇒ 金の卵を産むニワトリだからです 55 自轍レ轟メンド翁7.んコリズム X 嵐 藤腑徊 靡霧 囀 ・ルール ① アソシエーション ②協調フィルタリング 斤を用いてl佳 測 パターンから商品間の共起 1生 をアソシエーション分オ ユーザ=の 購ヌ、 す る方 法 ユーザーの購 入 パターンから人同士 の癸員似 性 、または商 品 間の共 起 性 を導 出し、 対象 者個 人 の行 動履 歴 を関連づけることでパーソナライズされた商 品 を提 示する 方 法 。よく使 われる手 法 であるが、スパ ース問題 が発 生する。 MF(Matrix Factorization)=→ FM(Factorization Machlnes) ⇒ FFM(Field― a、へ ′ are Factorization Machines) レ :ラ リ ③ トピックモ +ベ イズネット ユーザーの1情 入 パターンから商 品間の共 起 '1生 をトピックモデルを用 いてグループピン 客属 ′ 陛や商品属 ll生 グする。トピツクモデルは行 動データしか分 析 できないため、顧、 且み わせる。 等を入れるには、ベイジアンネットを糸 ④グラフ理論 ユーザーの購入パターンから商品間の共起性をグラフ理論を用 いて推測する方 1確 も、属1生 を言 十 也弓■ ,去 より 立本 目関│が計 │で きる。イ )去 。 イ 言度を言 十算できないが、順イ ̀諄 算に入れることができる。 ̀合 出興 469 著者 56
F (Matrix Factorization) M データ ・の映画作 品を評価 (1〜 5)し たテーブル ー A‖ ce(A),BOb(B),Cha‖ ie(C)・ ・ ― 求めるものは空欄 の未 評価 し、レコメンドする。 ― 簡 略化 して、3人 ×4本 の場合を考える ⌒ y= │ │││ , イL ギ豫 イレ ly= │ =(ム ち ) 彎 ・Y や 瞥 特 ´ ・ ・ ・噺 ・ヽ ・も 一﹃ セ 秘 ´ ・畝 ・ 2 セ ・ 畿 ・ セ ″ ̀亀 翻 鞠 鶴 ¨ ・ ・ ″ V″ =構 =毎r豪″ ヽv玲 'c)r.″ │ Tensor Factorization - _s...... ./=r 人 X広 告枠 X配 信広告 ,sを 亀菊 =ti.■ 7= Σゝ ′ I /轟 出典htps:″、 w ism‖ uni― hidesheim de′ pubゎ dis′ Rendle2040FM pdf 57 FM(「轟職or:ztttion Machin‐ es) ● 交互作用項のモデリング法 C 0 O 絆 ⑬ 6′ ST () 評儘値 () 0 1 ).・ の. '=5 yt2'=3 嚇. )'̀'=1 ヽ̀̀'=4 (')、 ゛ φ で = := 」や 1 6, 'i,]r,* 0). ● ● ガ4'壼 ゛5'= 藤ヤ + =, ア一 環 興 3 ↑ 2,= ヾ3'= ● ・ ア胃 A 」 = ア無 ″ ■匈 + 捕 全組合せの 交互 作用項の近似 1,, y(S` =5 0), } '=l の. ),(わ =5 3階 の 市ensor Fadorization 昨 ヽト1燕 ΣΣ ΣIΣ ヽ ′ ‐ ‐ 'ィ ='ザ i+1々 F■ 'V,1 470 / H&:https://M.ismll.unihildesheim.de/pub/pdfs/Rendle2OlOFM.pdf 58
FMは震性稜容場 に増やせも
A 3 G
驚
TI NI SW ST
NII SW ST
詢
β
↓
β
2
l′
2
いつ菫5
了。
鋳
氾
2
'=l
吻
燈
つ
―お―
'∈
`
14)=4
2
112
゛
絆
許
()壼 3
、
=:
()
l′
■':=
1'=5
ス
、
曇
6
0001
1
B
FS:= 0
0
8
0
β
゛
」 壼 (()
β
(l
評価値
?i*rc
β
l () 0 0
0 1 ()0
0 0 1 0
(l
5
r =
rl
.{ =
-t,
l■ ‐5
=(01● 1(H)01(}:118)
}=ゝ
1
̀′
̀+`
=̀キ
・ 'P+ず
1
1
属性を容 易
に増や せる
̲ ,̀,
+百 露
` +=黙 す +:あ 燃
'7
'「
「
+嚇 L7+:子 31万 +:ず お` +:薔 摯
+15″ `
'Fキ
1'″
Bobが 2010年 6月 にTitanicを 評イ
面した
数ベクトル
場諄
(営 の1寺 イ
.rπ +:ち rT雨 +:予 ″
・
ヤ
+18"戸 γ+:=万
'蓄
+:千 戸 摯 +6ず 汀
・
̀
+:'雨 端 +6子 雨 鳥 +6子 7・ よ
出典 :h"psi″ wWW iSm‖ uni‐ h‖ deShe'm de′ puOわ 0● Rendle2040FM pdf 59
SASttFMモ デル!鑽 攘
:‐
ライオ リ
設 オ と OASへ のデータの摯―ド 1̲● a供 おta l牟 ヽ CAS
f Specify a libref to the input tables ./
libname locallib'/opusasinside/DemoData';
I Define a CAS engine libreffor CAS in-memory data tables */
libname mycaslib cas caslib=casuser;
f Specify a folder path to write the temporary output files -/
%let outdir = &USERDlRYoutput;
f Load train data '/
%if not %sysfunc(exist([email protected])) %then %do;
proc casutilt load data=locallib.reviews casout='teviews";
run; %end;
f Load score data '/
%if not %sysfunc(exist(mycaslib.reviews_test)) %then %do;
pfOC CaSUtil ;
データセットMovieLens
推薦システムのベンチマーク・映画レビューためのウェブサ
イトおよびデータセット ミネソタ大学のGЮ upLens
Researchプ ロジエクトで,研 究 目的・非商用でウエブサイトが
運用されており,ユ ーザが好きに映画の情報を眺めたり評価
することができる
」
1lE墜 ゴ
上
Lplel■ ユ
」
21Cビ ≦
上
21a≦ 整ts′ mOYlelms′
ム1■ ⊇
■■7.メ ンド
us:■ 9
AS:0,1こ
;'i,ircfirl; lllr revi{yr.) l4sl alsi|!*j l',}$fij .r, :l:| ilodel**i}!:,j*ij
"/
proc astore;
score data=mycasfi b.reviere_ test
out=mycaslib.reviews_teslscored
6tore=my€slib.f m_astore_model
copyvars=(user item rating);
load data=locallib.reviews-test
run;
casout="reviews test"; run; %endl
ヽ ,′ ,著 :薔
t':‐
→ン,1
お申、│ ,,=、 o● ′ヽ
タ ー離 0
ゆメーヽ
̀,ど
,「 :1致
ミ螢■
.よヽn
こ僣
致
'7''一
ス=ッ , 01ヽ
13●
`3■ 1=er;〕
′
・
maxiteF20
niactors=5
leanrstep:o.1 5
seed=12345;
8(、 0,1(ャ
proc sqi noprinti
「
s師 ol,
:お
K:●
え
ヽ●:,● l itle sc■ ((:■ ,o● :ove,無 1(、 :,ぼ ′
SeleCt min(「 ating),maX(rating)intO iminrtg,:maXng
fЮ m myCaslb reviews̲testSCoЮ
=澪
pfOC faCtmaC data=mycastib.reviews
鳩
:∩
di
quiti
マleW,4摯
′`:'1● ::│● ■0● ●患 ●● `
′Seヽ■●ハ│laヽ n毒 ,'0:` :t● 1人Υ゛
●1'ア
'3●
p「 OC Sgplot data=mycaslb reviews̲testSCOredi ̀│■
title'Scored Ratingst
'scater x=「 ating Fp̲rating′ transparency=0 9 name='Scater.:
OlormOdel=mOcO10rmmp
heatmap x=rating y=p̲rating/。
ybinsia=0 1 xbinsi =01:
xaxis grid label='Adual Rating'min=&minrtg max=&max「 tg
input user item / level=nominal;
target rating / level=interual;
output out=mycaslib.reviews_scored
orsetmax=005:
yaxis grid label='Predicted Rating'min=&min「
copyvaF(user item rating);
savestaterstore=mycaslib-fm_astore_model; run;
tg max=&maxitg;
60
471
毬 え ●●0,V′ ヽ 0̀ン ク■ ̀,プ モデルの 構1臓 最大反観籐数 鐵 ,歎 摯警ステップ ― ‐ r麟 航 夢夕:林 II発 議 11も 3巌轟 1 :│:壺 肇菱張 滋聾 il:il鑑 壺 fOr● se「 99 5a*red :::││ 朧鶏 壼 藪 資饉 率ロ 蕪華爾 難 ‐週 … … ♯ 「 二I薇 …… │■ 際磯委 「: 薇 ̀資 競 : : 111:意 ti1111131ヽ 1 率 I:1111:│:│││││: 髯 穣 な鶴薇 ● "1● " 例えば、経費を考えなれ ば、AWS上 命SAS V:yaを 禾:1用 すれ ば、簡単 にレコメンド篭デルの運用会社ができてしまうかも。。 61 AIブ ームのほころび ? 権 脅の IIよ 仄無 ‡ 遍響っで≪膠 量 量磯 ①法律規制の落とし穴 ②想定外の開発費用 62 472
データサイセンテイストの憂鬱 律規制の落とし穴 ① Al成 果物 に関する権利問題 O Alモ デルは著作物でないので、当事者間の合意・契約で決まるため、 AI権 利の範疇の綱引きが発生 ⇒ AI関 係の契約合意の長期化 ② Alが 創作したコンテンツの権利は誰のもの ? ・ 特許権、著作権、意匠権は人の権利 ⇒ Alは 権利なし ⇒ 法律にはAl権 利の帰属が決まっていないだけ ⇒ A:権 利を取得する裏技 :特 許審査官の独 り言 ③ 欧州の個人情報統一規制(GDPR)の 発効 フェイスブ ツク株個 譲 議 決算会 見ζ 騨璽撃 ア′2'・ (会 )と ■ ■│:̀剛 剛 o臨 Ì│ 配′ 言 1〕 '′ 誰 も 止 め られ な 0ヽ よ うに見 えた フ ェイ ス ブ ッ ク こ)成 長機 │ に疑 念 を 生 Gさ せ た 問 題 の 電 話 会 見 は 、彗 段 と変 わ らな い 雰 囲 気 で 始 ま つた 。 ]OURNAし ,APAN Web‐ Site 63 個人情報統一規制の発効 (201等 5/25)の費威 欧州におけるイ 固メ、 イ 呆言 蔓ルールGeneral Data Protection Regulation)の 所Eイ テ ー 違反に巨額制裁金 (2000万 ユー□等 )、 広範な域外適用ルール適用 ― Io丁 製品を通じて個人データを取得する場合 ・ 域外適応 や越境移転規制の適用 一 機械学習で個 人データを学習させる場合 ″ ・ GDPRI第 22条 ::『 自動化された意′ 思決 定 Automated individual decision― making′ inCluding prof‖ ing″ 』 が許容される条件 。 (1)契 約上の必要性 、 (2)十 分 な保 護措置、 (3)明 示的な同意 … :者 動 ターゲテ総あ粧繊識彎 きず、デジタルマーケティ斌 ・ E∪ 域内の個人を対象とした場合、モニタリングとして域タト適用 ・ 個人行動から嗜好をAI分 析する自動プロフアイリングス 見制 多 大 な景′響 が。 。EU域 内で個人情報 (従 業員情報も含む)を 収集して日本国内で処理する場合 ― 対応策 。 撮影映像 内の不要な個人情報 (顔 、バンパープレート等 )を 黒塗りにして保 存 。 その場でAIチ ップが解を算出し、解 のみをクラウドに通信 し、取 得情報を破棄 64 473
膨らむAl開 発贄 想定外のAl開 発費用 POC(Proof of Concept:概 念実証)止 まり案件 が多い ⇒ Al案 件は社長案件が多く、 とりあえずPOCが まねく因果か ! ⇒ 開発費・Alク ラウドの経費・データサイエンティストの工 賃 は想像より高 い ! ` ⇒ 購本で:ま 薦のAp:ど ジネスが今議で1譲 、思つたよりも構からなし` らししヽ 1 65 SAS . 凛―ザー簿会 20118 魏鸞饂 炒嘔 ・ SASの 目指すA1/機 械学習/深 層学習は SASユ ーザーに をもたらします 『Alの 民主化』 ・ SAS Viyaは 強力なレコメンドが使えます ・ Alブ ームのほころびは 『世界のプライバシー から始まるかも !! 『開発コスト』 強化』と SAS Vlyaの A1/機 械学習/深 層学習 は SASユ ーザーの強力な武器となります。 66 474
ご鯰 :隋、 鱚膵辟憑靱ごマ紆賤輻ぬ T'勒 隧贔ky躊 鰈 fttF y鸞 饂鮒賤畿鸞爾鷹‡ 埒斬 │ 475 :
浜 田知 久馬教授追悼 岸本 淳司 (九 州大学 ) 追悼 SASユ ーザー会 に長年 の貢献をされてきた 東京理科大学の浜 田知 久馬教授 が、20司 7 年 12月 2可 日に急逝されました 。いままでの 貢献 に感謝 し、ここに哀悼 の意 を捧げます。 479
2014年 6月 28日 撮影 経歴 紹介 (1) 司965年 東京 に生 まれる 可987年 東京理科大学薬学部製 薬学科卒業 1989年 東京理科大学経営工学研究科 修 士課程修 了 1993年 SASに よるデータ解析入門[第 2版 1997年 東京大学より博 士 (保 健学 )を 取得 ] 480
SASに よるデータ解析入門[第 2版 ] 雛 議 鋼 ︼ 慾滋爾.警.輔 鑢 轟 絣 コンテン,1 樹J 諄I 111鸞 . 一 ・ ・ ● ■● ■ 一 ︱ 一 ●一 ● . ●● 一 . . ■■・一 ⁚ 一 田奮 .■ 椰 一 日 ヽ 饉 田 饉 一 疇↓ ︱ ⁝ 轟 ︱ ︱ ■ 暉 ●沖 ● ︐ 繭 ^ ︲ ﹄﹄ 一 一 ・レ■ ●● ﹄ 一 ︲・ ︱■●一 ・ 輌︼ ・ ■■■●一 一 ・ ︱・1 一 輌¨ ・ ¨ 申 繭 ︱ 劇一 ﹃ 飾舞 書 驚椰 ・贅饉難難 ・鰺摩節鶴・撼爾難爽饉薔 薄 申一 経 歴紹介 (2) 1989年 武 田薬 品工 業株 式会社 薬剤 安 全性研究所 勤務 1993年 東京大学 医学部薬剤疫学講座 助手 2000年 京都大学 医学研究科社会健康 医学 専攻 助教授 2002年 東京 理科大学 工 学部経 営 工 学科 助教授 2008年 教授 昇進 481
浜 田 先 生 に よるチュー トリアル (1) 1992年 MU『 丁ES丁 プロシジヤの紹介 1993年 SASに よる生 存 時 間分析 1994年 SASに よる条件付 きロジスティック り計 1995年 SASに よるメタアナ リシス 1996年 SASに よる用量 相 関性 の解 析 1997年 SASに よる正確 (exact)な 検 定 1998年 SASに よる信頼 区間の計 算 ロ i旱 浜 田 先 生 によるチュー トリアル (2) 1999年 MU『 丁ES〒 Q&A 1999年 Separate Ranking型 ノンパ ラ多重比較 2000年 V8に おけるLOGIS丁 ICの 機能 拡 張 2001年 SAS V.8に おける正 確な推測 と シミュレーションによる近似 法 2002年 V.8に おける生存 時 間解析 関連 プロシジャの機 能 拡張 2003年 生 存 時 間解析 における例 数 設計 482
浜 田先 生 によるチュー トリアル (3) 2004年 SAS V9の 丁PHREGを 用 いたメタアナ リシス 2005年 POWERプ ロシジヤによる例 数 設計 2006年 ロジスティック回帰 による推 測 (V.9LOGiS丁 ICプ ロシジヤの機 能 拡 張 ) 2007年 メタアナ リシスの 功罪 一MIXEDプ ロシジヤによるメタアナリシスと 公 表 バ イアスヘ の 対応 2008年 SASに よるコクラン・アミテージ (Cochran― Armitage)検 定 浜 田 先 生 によるチュー トリアル (4) 2009年 SASに よる共分散分析 2010年 SASに よる中間解析 のデザインと解析 2011年 生存時間解析入門 「生存時間解析のミステリーをひも解く」 2012年 SASに よる2値 データの解 析 「ここまでできるFREQプ ロシジャ 9.3」 2013年 SAS生 存 時 間解析 プ ロシジャの最 新 の機能 拡 張 V。 483
浜 田 先 生 によるチュー トリアル (5) 2014年 LOGISTICプ ロシジャによる解析 と 最新の機能拡張 2015年 SASに よる多重比較 「美 女と野獣 」の統計学 2016年 SASに よる生存時間分布の予測 「Death Noteの 統計学」 2017年 生 存 時間解析の実 務的課題 のSASで の解決 競合リスク,非 PHモ デルの被 験者数設計 ,最 適被 験者数配分 日本 SASユ ーザ ー会 (SUGI― J) MULTTESTプ ロ シ ジ ャの紹介 ○ 浜 田 知久馬・ 吉田 道弘 武 田薬品工 業 (株 )研 究開発本部 Introduction to SAS一 MULTTEST Procedure Chikuma Hamada Mlchihiro Yoshida , R & D Division 17‑85, Jusohonmachi, 2‑chome, Yodogawa― kul osaka ・ ー1, Dosho― machi, 4‑chome, Chuo― ku, Osaka ●● ユ Takeda Chemical lndustries, Ltd。 484 ,
要 旨 V. 6.07で リリース されるMULTTESTプ ロ シジ ャを一言でい うと,標 本の 再抽出 に基づいた検定 を含めて多種類の検定 を行 うプ ロ シジ ャで ある。検定に限れば, 1 つのプ ロ シジャで FREQ,GLM, LIFETESTを 併 せ た広範な機能を持 つ。 MU LTTESTプ ロ シジャの特徴を 3つ あげ る。① デ ータ自身の構造 に基づいて シ ミュレ ー ションを行 い,検 定 の多重性 (多 群,多 時点 ,多 項目)に ついて p値 の調整を行 える . ② コクラン・ アー ミテージ検定等 の正確 な検定を行え る。③ 法である Peto検 定が行える。今回はMULTTESTプ 癌原性試験デ ー タの解析手 ロ シジャの持 つ機能 の概要に ついて紹介す る。 はじめに (可 ) 1. はしめに MULTTEsTプ ロ シジ ャは,Peter HoWestfall,Youling Lin, S.Stanley Young によって作成 され たMBINプ ロシジ ャ,MTESTプ ロ シジ ャが V。 6.07に おいて SASの 正式 なプ ロ シジ ャになったもので ある。 MBIN(Multi BINonial)フ・ロ シジャ は計数 (2項 )デ ー タを扱 い,MTESTプ ロ シジャで は計 量デ ータを扱 う こ とも可能 に ロ シジ ャで は,計 量 なった。 このよ うな経過 を経て最新 バー ジ ョンのMULTTESTプ デ ータ と計数デ ー タを両方扱 うことがで き, SASの 数 あ るプ ロ シジャの中で もユ ニー ク な存在である。 485
はじめに (2) MBINプ ロ シジャは,元 々前臨床 の癌原性試験の腫瘍デ ー タを解析 す る 特殊 な目的のために作 られ たプ ロ シジャである。 このため癌原性試験 ,特 に Peto検 定 についての前提知識が ない と,マ ニ ュアルを読んでも理解す るのが困難で あった.こ のM BINプ ロシジ ャの特徴 をMULTTESTプ ロシジャもある程度受 け継 いでいる。 そ こ ロ シジ ャが生 まれた背景 にある癌原性試験 の統計解析 の問 で 2節 ではMULTTESTプ 題点 ,特 に検定 の多重性 に関す る p値 の調整について説 明す る。 はじめに (3) 3節 で は,MULTTE STプ ロ シジ ャの機 能 の概要 につ いて記 述す る.4節 で は,MULTTESTプ ロ シ ジャ を含 めて , SASで コ クラ ン・アー ミテー ジ検定 を実施 す るい くつ か の 方 法 を示 し,解 析 方法 の違 い と正確 な検定 の必要 性 につ いて述 べ る.5節 で は MULTTESTプ ロ シ ジャ を実 行 す る上 での 問題 点 について 述 べ る。 なお本稿 を通 じて標本 の再 抽 出 (resampling)に 基 づ いた検定 とは,モ ンテカ ル ロ・ シ ミュ レー ションに よる疑似的 な パ ー ミュテー シ ョン 法 またはプ ー トス トラ ップ法 に基づ いた検定法 を意味す る.可 能 なすべ ての組 み合 わせ を 計算 して p値 を求 め る場 合 にのみ ,特 に正 確窒 検定 とよんで区別す る。 486
癌 原性試 験 における多重性 2.癌 原性試験 における多重性 多重性 の問題 とは,検 定 を多数行 うことによって,偶 然 によって誤 って有意 とな る (偽 陽性)確 率が高 くなることで あ る。検定の多重性 にはい くつかの側面が あ る。例えば多群 性,多 時点 性 ,多 項目性であ る.こ の うち癌原性試験 で最 も問題 となるのは,検 定 の多項 目性 であ る。癌原性試験では,多 数 の臓器,部 位 を検索 し,adeooma,carcinomaな どの多 種類 の腫瘍 の有無を個体 ごとに調 べ ,投 薬 によって腫瘍の発生が増加 して いるか検定す る 。結果 と して ,多 くの臓器,部 位 ,腫 瘍 につ いて検定 を行 う ことにな り,検 定 の総数 は数 10か ら 100以 上になる場合 もある。 この ように多項 目について検定 を行 うと,か な り の頻度 で偶然 によって有意差が出て しまう。 多項 目性 の 調整法 この ような癌原性試験 の多項 目性 について対処す るため,い くつかの方法が提案 されて い る.例 えば HaSenan(1990)は , 5つ のアプ ローチに分類 して いる。 ① 総合指標化 (1匹 あた りの腫瘍の総数,主 成分分析を行 ったときの第 1主 成分等 ) ② 腫場発生率 に応 じた経験的 な有意水準の調整 ③ p値 プ ロ ッ ト ,Sidak法 ④ Bonferroni法 ⑤ 標本 の再抽出法 (パ ー ミュテ ー ション法,ブ ー トス トラップ法 ) MULTTESTプ ロシジャで は,こ の うち① と⑤ のアプ ローチが可能である。④ と⑤ のアプ ローチ について簡単 に説明す る . 487
標本 再 抽 出法 の手 順 ① 観測デ ータに対 して複数の検定を行い。各検定ごとに p値 を計算する。 ② 観測デ ータから個体を単位 としたデータの無作為再抽出を行 って,元 の観測デ ー タと 同 じサ ンプル・サイズの疑似的な標本を作成する . ③ 疑似的な標本に対 し,① と同 じ検定を行 い p値 を計算する。 このうち最小の p値 を Min p値 とす る。 ④ ② と③を繰 り返 して,Min ⑤ p値 の分布関数 Fを 十分な精度で推定す る。 ① の個 々の検定 について調整 p値 を F(① の p値 )と して計算す る。 MU『 丁ES下 の 特 徴 MULTTESTプ 定 に関 しては, ロシジ ャは,名 前のごと く多数の検定を行 うプ ロ シジャであり,検 FREQ,GLM, LIFETESTを 併せたような広範 な機能を持 つ . マニ ュアルには一言も書かれてないが,ロ グランク検定を行うこともで きる.t値 , F値 , χ2値 といった検定統計量が一切出力されずに, P値 のみが出力 され る点が (p値 をデ ータセ ッ トに落 とすことも可能 である),他 のプ ロ シジャと大きく異 な る。またこれ らの 検定を標本再抽出法によって行 うことができ,標 本再抽出法の指定 と,TEST文 , CO NTRAST文 , STRATA文 を組み合わせ ると,検 定の多重性 (多 項 目性,多 時点性 ,多 群性)の 多様な問題を処理できる。 488
特徴 の まとめ 表l 1 MULTTESTプ ロ シジ ャの特徴の まとめ 計量値 と計数値 の両方を扱 い幅広 い種類の検定がで きる。 2 標本再抽出 =ァ に基づいた検定 を行 う。 パ ー シ ョン法 (非 復元抽出 )ブ ー トス トラ ップ法 (復 元抽 出 =` の多重性 (多 群 ,多 時点 ,多 項 目)に ついて調 整 す る。 3 検定 (下 降手順 に よる多重比較 も可能 ・ BOnferrOni, Sidak流 の調整 ) ) ・標本 の再抽 出法 による調整 4 幅広 い解析 が可 能 (GLM+FREQ+LIFETEST) STRATA文 :乱 塊法 ,マ ンテル・ヘ ンツ ェル検定 CONTRAST文 の多重比較 ,最 大 χ :Tukey,Dunnett型 直交分解 (回 帰分析 TIME=オ ブ ション :ロ グラ ンク検定,タ ロー ン検 定 5 コ クラ ン・ ア ー ミテージ検定 ,マ ンテル・ ヘ ンツ ェル検定 について 2 ) な (χ 2 分布等 による近似 を行わない)を 行 う ことがで きる きる (癌 原性試験 の解析 ) 文法 の まとめ 表 2 文法の まとめ N P O A R R R T F T E S N O O O < S R T S T Q A A N E R L O R T C C F S 変数 B B PROC MULTTEST SIDAK PERMUTATION>: : AST 'ラ ベル ' 値 変数 A I 変数 :(層 別変数の指定 ) TEST 検定名 (検 定を行 う変数名 </オ ブ シ ョン.>): ・アーミ CA :ヨ クラン テージ検定 <PERMUTAT10N=オ ブ シ ョン> FISHER:フ イッシャーの正確検定 FT :逆 正弦変換 z検 定 MEAN :平 均値 の t検 定 PETO :Peto検 定 <TIME=オ ブ シ ョン>ロ グランク検定 も可 489
コーディング例 表 3.コ ーデ ィングの例 )フ イッシャーの正確検定 の P値 を調整 した例 DATA A: INPUT LIVER LUNO LYMPH CARD10 PITU1 0VARY F GROUP Y: CARDS: 1 0 0 0 0 0 8 CTRL PROC MULTTEST DATA=A ORDER=DATA NOTABLES OUT=P PERMUTAT10N NSAMPLE=100 SEED=764511: TEST FISHER(LIVER LUNG LYMPH CARD10 PITU1 0VARY/UPPERTAILED): CLASS GROUP: FREQ F: RUN: CONTRAS丁 文 ・ CONTRAST文 MULTTESTプ ロ シジャでは,GLMプ ロシジャと同様 に複数 の CONTRAST 文 を指定することがで きる。複数 の CONTRAST文 によってい くつかの仮説を同時 に 検定す る場合 には,検 定 の多重性の問題が生 じる。MULTTESTプ ロシジャでは この 問題 について標本 の再抽出法 によって p値 を調整することが可能 である.標 本 の再抽出法 で は,デ ータ自身か ら リサ ンプ リングを行 うため,必 然的 にデ ータ構造が解析に反映 され る。 このため正規性 が成 り立 っていないデ ータについて も適切な解析が行え る。 またサ ン プルサイズが群間で異なって いる場合でも,ア ンパ ランスを反映 した解析を行 うことがで きる。 490
CONTRAS丁 (Э 傷」 表4 CONTRAST文 の使 い型の例 最 大 t(χ 2)型 CONTRAST '1‑234' CONTRAST =12‑34' CONTRAST '123‑4' Dunnett型 CONTRAST :1‑2 ' ‑1 00NTR′ ヽ ST '1‑3 1 ‑1 CONTRAST '1‑4 1 ‑1 Tukey型 CONTRAST '1‑2 CONTRAST '1‑3 CONTRAST '1‑4 CONTRAST '2‑3 CONTRAST '2‑4 CONTRAST '3‑4 ‑1 1 ‑1 0 ‑1 0 0‑1 直交分解型 〕 CONTRAST Linear' CONTRAST 'Quadratic' CONTRAST 'Cubic ' ‑1 1 1 1: ‑1 ‑1 1 1; ‑1 ‑1 ‑1 11 ‑3 ‑1 1 3; 1‑1‑1 1: ‑1 3 ‑3 1: 0‑1 0 0 層併合解析 RATA文 TEST文 と STRATA文 を組み合わせ ることによって,マ ンテル・ヘ ンッェル流 に ・ TEST文 と ST 層を併合 した解析を行 うことができる.例 えば, STRATA文 で層別変数を指定 してお いて,TEST文 で CAを 指定 した場合には,マ ンテル・ヘ ンッェル型 の検定,TEST 文で MEANを 指定 した場合 には,計 量デ ー タの乱塊法 による解析が行える。 STRAT A文 を用 いた場合に標本の再抽出法 による解析 を指定すると,層 ごとに標本の再抽出が行 われ る。 491
分割表切 りなおし(最 大x2)問 題 TEST文 でダ ミー変数を指定す ることによって分割表 の切 り直 しの多重性 の問題 にも 対応で きる.表 5は ある臨床試験 において有効性 を評価 した結果である。 この種のデ ー タ の解析方法 として,改 善度を 1‑234, 12‑34, 123‑4と 切 り直 して 3回 χ 2 検定が行われ ることが ある . 表5 抗生物質 の有効度判定試験 の結果 (広 津・ 栗木 (1990)よ り) 1.無 改善度 効 2.や や有効 3.有 効 4.著 効 計 客■ カ 薬薬 22 ll 分割表切りなおし問題のプログラム DATA DATA:D0 0RADEEl T0 4:D0 0ROUP=1 10 2: IF GRADE LE l THEN Kl=0:ELSE Kl・ 1: IF GRADE LE 2 THEN K2・ 0;ELSE K2=1: IF GRADE LE 3 THEN K3=OIBLSE K3=1; INPUT FREQ 00:OUTPUT;END:END; CARDS: 3 8 8 9 30 29 22 11 PROC MULTTEST DATA=DATA PERMUTAT10N NSAMPLE=10000 0UT=PiCLASS GROUP; K3):FREQ FREQ;RUN: TEST CA(Kl― ― 咄●po 果一 結一 ABLE MULTTEST P― VALUES(MULTTESTプ R洲 ̲P O.0787 0.1098 0.0556 AJU̲P 0.2475 0.2797 0.1548 492 ロ シジ ャで 出力 され た p値 )
異種検 定 の 多重 性調整 また実際 には χ2検 定の他にウイルコクソン検定 も併用 され ることが多 い.こ のような 場合,西 ・森川 (1992)が 指摘 して い るように,い わゆ る多種検定の多重性 の問題が生 じ , 2検 定 とウイルコクソン検定 の どち らかが有意になる確率 は,そ れぞれ の検定の χ 有意水 準 より高 くな る。多種検定の問題 についてもMULTTESTプ ロ シジャで対応すること ができる。例えば先のコーデ ィングの例でTEST文 を TEST CA(Kl― ― K3)MEAN(GRADE); と書 き換え ることによって,改 善度 スコアの平均値 の差の t検 定 とχ2検 定 を同時に行 っ て p値 を調整 す ることができる。 パーミュテーションか ブートストラップかの 選択 (1) ① ̲塞 質有意水準 どち らの方法 の実質有意水準が名義的な有意水準 に近 いか という点であ る。 この観点 で は,ブ ー トス トラ ップ法の方が, よ り多様なパター ンの標本 が抽出され るので,最 小 p値 の推定分布が滑 らかになり,実 質有 意水準が名義的 な有意水準に近 くな る場合が多 い。 2 項デ ータで度数 の小 さなセルが あるとき,パ ー ミュテー シ ョン法の実質有意水準 は,名 義 的な有意水準 よ りかな り保守的 にな る場合がある。 493
パ ーミュテー‐ ションか ブートス トラップかの選択 (2) ② 無作為化割.り 付けとの対応 臨床比較試験 のように無作為化割 り付けが行 われている場合 には,パ ー ミュテー シ ョン 法 によって得 られた再抽出標本 は,無 作為化割 り付 けによって得 られ る可能性があった標 本の集合 として意味付 ける ことができる。 この意味で パー ミュテー シ ョン法は無作為化割 り付 けに対応 したサ ンプ リング方式である。 これ に対 しブー トス トラ ップ法 は,無 作為化 割 り付 けと直接対応付 けることはできない。 パーミュテーションか ブートストラップかの選択 (3) ③ 極端 なデ ータの場合 前節 で コクラン・ アー ミテー ジ検定をパー ミュテー ション法 とブ ー トス トラップ法 の双 方で行 い結果が大きく異 な った。その原因 は前節 で述べ た通 りで あ る。 このようなケ ース は非常 に極端なケースで あ るが,正 規近似が うま くいかないような状況で も, p値 を精度 よ く計算で きるという点が標本抽出法 の大 きな利点 であり,極 端 なデ ー タに対 して も頑健 である必要がある。 ブー トス トラップ法では出現の パターンが,パ ー ミュテーシ ョン法 よ り多様 で あるため,異 常 な標本 が出現 しやす い。前節 の例以外 で も,例 えば層 の数 が多 く か つ欠測値が複数 ある場合 に,ブ ー トス トラップ法 で標本の再抽 出をお こな うと,あ る群 のある層がすべて欠測値 とな るようなことが お こ り得 る。 この ようなケ ースでは,パ ー ミ ュテー シ ョン法を用 いた方が よいだろう . 494
日本 SASユ ーザ ー会 (SUGl― J) SASに ○ よ る生 存 時 間解 析 浜 田知 久馬 大橋靖雄 東京大 学 医学部 Survival Analysi s using SAS Procedures Chikuma Hamada, Yasuo 0hashi Uni vers i ty of Tokyo Hongo 7-3-1, Bunkyo-ku, Tokyo, I 1 3 例 の 本 の紹 介 495
執筆 の 経緯 2.執 筆 の経 緯 「 SASに よ る生 存 時 間解 析 」 の 構 想 は 著 者 の 一 人 大 橘 に よ る。 た だ し時 間 の 制 約 が あ るた め ,日 本 科 学 技 術 連 盟 で 実施 さ れ て い る統 計解 析 専 門 コ ー ス (通 称 BioS)で 存 時 間解 析 につ い て 1991年 ,生 に 計 12時 間 に渡 って 大 橋 が 行 った 講 義 の録 音 テ ー プ を 元 に ,浜 田 が 原 稿 の 作 成 と内容 の補 足 を行 い ,大 橘 が チ エ ック す る とい う形 式 で原 稿 の 大 部 分 は作 成 され た 。 そ の 間 著 者 た ち は SASユ ー ザ ー 会 等 で , SASを 用 いて 生 存 時 間 解 析 を 実 行 す る方 法 の 紹 介 も併 せ て行 って きた 。 この 本 の 内 容 の 一 部 は SASユ ー ザ ー 会 で 発 表 した 内 容 が 蓄 積 さ れ た も ので あ る .著 者 た ちが行 って きた 生 存 時 間 解 析 に 関 連 した SA Sユ ー ザ ー 会 で の 発 表 を以 下 に示 す . 元ネター 覧 7月 SUJIJ90 "PROC LIFETESTに よ る生 存 時 間 解 析 " 1991年 7月 SUJIJ91 ''PHREGプ ロ シ ジ ヤの 紹 介 " 1992年 10月 SU第 2WG "PHREGプ ロ シ ジ ャ に よ る COX回 帰 入 門 " ''PHREGプ ロシ ジ ャ に よ る 時 間 依 存 性 共 変 量 の 取 扱 い " ''PHREGプ ロシ ジ ャ に よ る 比 例 ハ ザ ー ド性 の 検 証 " 1993年 1月 SU第 2WG "LIFEREGプ ロ シ ジ ャ に よ る ワ イ ブル 回 帰 " 1993年 4月 SU第 lWG ''LIFETESTプ ロシ ジ ャ に 関 す る 2,3の 話 題 " 1993年 9月 SUJIJ93 ''SASに よ る生 存 時 間解 析 " 1990年 496 大橘靖 雄 大橋 靖雄 浜 田知 久馬 岸本淳司 石 塚 直樹 浜 田知 久 馬 浜 田知 久 馬 浜 田 ,大 橋
日本 SASユ ー ザ ー 会 (SUGI― J) SASに よる正確 な検 定 ○ 浜 田知久馬 東京 大学医学部薬剤疫学教 室 Exact tests using SAS Chikuma Harnada University of Tokyo tlongo 7-3-1, Bunkyo ku, Tokyo,113 浜君 と石君 の 物語 1.は じめに 浜君 と石君は薬学部の 3年 生で,学 生実習で班が一緒 にな った.浜 君は朝型 で ,時 間に正確で あ ることで有名 な学生であった。 これ に対 し石君は夜型で時間にはルーズな ことで知 られていた。 こ んな 2人 が実 習 で同 じ班にな ったの も何かの因果 であるが , 2人 は共同 してある人間の細胞のク ロ ーニング実験 を行 った.8つ のペ トリ皿を用意 して,そ の うち 4つ には通常の栄養 を与え,残 りの 4つ には通常 の栄養に加え, ビタ ミン Eを 添加 した後 で ,10個 の細胞 を移植 した.こ れ らの細胞 に ついてはあ らか じめ放射活性物質で ラベル してあった。 この実験 の 目的は , ビタ ミン Eに 細胞増殖 を促進するよ うな効果 があるか を調 べ ることにあつた 497 .
実験 ノー トを石 君 に預 ける や っと実験処理が終わった頃にはかなり遅い時間にな っていた.後 は翌 日の朝,放 射活性 を調 べ て細胞 の数 を調べるだけであった.こ の結果を明 日の 5時 までに レポー トにまとめ大先生に提 出 し なければ, 2人 は単位 をもらえず留年 して しま う.浜 君は 自宅生で郊外 に住んでいたため,終 電 に 間に合 うよ うに,実 験の後片付 けを下宿生である石君にまかせ,実 験 ノー トを預けたまま,一 足先 に帰 った。 細胞 数 はカウントできた さて翌 日,浜 君は実習室にいつ も どお り,朝 早 く到着 し,早 速実習を開始 した。 どうや ら実験 は 成功 した ら しく,い くつかのペ トリ皿では細胞数がかな り増えていた.8つ のペ トリ皿で細胞数 を カ ウン トし大 きい順に並べ る と , 121 118 110 95 90 34: 22 12 とな った。 498
やってこない石 君 割付がわ からない 石君は定刻になってもこなかなったが,い つ ものことであるので ,浜 君は驚きもしなかった。浜 君は レポー トを作成 しは じめた.そ こで彼は重要な過ちに気付いた .前 日彼は,実 験 ノー トを石君 に預けて しまった。そのノー トに,ど のペ トリ皿がビタミンE処 理群であるかが記 されていたので ある.さ らに彼は石君 の携帯電話が置いてあるのを発見 した。 どうや ら石君は昨晩遅 く電話がかか ってきて,そ のまま忘れて しまった らしい。石君 と連絡をとる手段はないのである.し か し午後ま でには来るだろうと思い,気 を取 り直 して,書 けるところか らレポー トを書き始めた . 浜君、割付 の 可能な 組 み 合わ せ を考 える 午後2時 ,石 君はまだ来 なか った.浜 君は既 に結果の項 を除 いて レポー トを書き上 げて いた.さ す がに浜君 もあせ りは じめていた。今更なが ら石君にノー トを預 けた 自分の愚か さに後悔 しつつも ペ トリ皿があって 彼は気を落ち着 かせ るため,可 能な結果 のパ ター ンについて,考 えてみた.8枚 , , どの 4枚 かはわか らないが,こ の うち 4枚 は,ビ タミン E処 理群 で ある.そ の 4枚 が カ ウン ト数 の 高い方か ら4つ (122,118,110,95)で あれ ば , ビタ ミンEに は細胞増殖効果がある と考 えて もよいだ ろ う。それ以外 の場合 は どうだろ うか ?浜 君 は ビタミン E処 理群 の可能な組み合 わせ について表 1の よ うに書 き出 した。 499
可能な組み合わせ は 70通 り 可能な組み合わせは合計 70通 りとなった ,こ れ は8個 か ら4個 を抜 き出す組み合わせ の数 ,8C4= .4つ のペ トリ皿で細胞数 の和は最小 158か ら最 大44 (8× 7× 6× 5)/(4× 3× 2× 1)=70に 他な らない 4ま で計 70通 りがあ り得 る。 ここで浜君は 考 えてみた .ビ タ ミン Eに 細胞増殖作用がなけれ ば , ビ タ ミン E処 置群 も非処置群 も分布が等 しいので ,こ れ らの組み合わせは全て等 しい確率 (1/70)で 生 じるはずである。仮 に ビタ ミン E群 のペ トリ皿 の細胞数が 122,118,110,95で あった とす る と,細 胞 数 の和は444と な り,こ のパ ター ン以 上に ビタ ミン E群 に細胞数 が 多いパ ター ンは存在 しない。 こ の よ うな事象は ビタ ミン Eに 増殖効果 がなけれ ば,1/70と い う小 さな確率で しか生 じないはず で あ り, ビタ ミン Eに 増殖効果 がない とは考え難い。 したがつて ビタ ミン Eに は細胞増殖効果が ある と 考 えて よさそ うである。 時間 が ない I 午後 4時 55分 ,締 め切 り5分 前に石君が,特 に悪びれるわけで もな く,の このこや ってきて, レポ ー トを提出 したかどうかを尋ねた.浜 君は怒 りを抑えつつ,石 君から研究ノー トを奪い取 り, ビタ ミン E群 のペ トリ皿の番号を確認 した。細胞数が121,118.110,90の ペ トリ皿であった.し か し浜君 にはもはや統計解析をする時間はなかった。浜君は とっさに考えた。これ以上に ビタミンE群 で細 胞数が多くなるパターンは, このパ ターン自身 と121,118,110,95の みである.そ こで浜君は,「 確率 2/70で 有意」と走り書きして, レポー トを提出した.そ の瞬間,事 務の終了を告げるベルがなった . 500
SASで できる正確な検定 さて本稿 では,ウ イル コ クソン検定,カ イ 2乗 検定 な どの対応 のない 検定 の実行法を示 してきた が ,こ れ らの検 定の対応のある版 について も正確 な検定が可能である.符 号付き順位和検 定につい てはUNIVARIATEプ ロシジャで , 1群 20ま では正確な検定 を行 うことがで きる (市 川他 (1993))。 ま た 2値 デ ー タに関する対応 の ある検定 であるMcNem征 検定について も, ソリース6.12の 拡 張に よつ てFREQプ ロシ ジャで正確 な検 定を行 うことが可能 になった.正 確 なMcNemar検 定 のUNIⅧ RIATEあ る いはMULTTESTプ ロシジャで の実行方法については ,浜 田 (1994)を 参照 され たい.ま た 2変 数 間の関 連 の強 さを表わす ピア ソンあるいは スペ アマンの相関係数 ,カ テ ゴ リデ ー タの一致度 を表 わす κ係 数 が0で あるか どうかを正確 に検定す ることも可能で ある . まとめ 本稿では、t検 定, ウイル コクソン検定, m× nの 分割表のFisher正 確検定,ク ラスカル・ ワリ ス検定, ヨンキー検定, COchran― Armitage検 定, Mantel― Haenszel検 定の正確な並べ替 え p値 のS ASで の計算法を示 した。また 2× 2の Fisherの 正確検定を拡張 してオ ッズ比の正確な信頼区間の計 算原理 と,実 行法を示 した.こ れ らの並べ替え検定は、 コンピュータ・ハー ドウエアの発展によつ て今後益 々ポ ピュラーになることが予想される。本稿がそのよ うな並べ替え検定 の実務家 への浸透 の一助になれば幸いである . 501
あなたを忘れない 502
高齢世帯 のポジテ ィブ な消費傾 向の分析 O野 川 中、中倉 章祥 、岡本 史子 、 山崎 美幸 Aク ラ ス(パ ワー ユ ー ザ ー ) (株 式会社イ ンテ リム 臨床 開発本部 デ ー タサイ エ ンス部 統計解析 グル ー プ) Trend of positive consumption in elderly households Ataru Nogawa, Akiyoshi Nakakura, Fumiko Okamoto, Miyuki Yamazaki Statistics Analysis Group, Data Science Department, intellim Corporation 要旨 世帯主 が 65歳 以 上 の 高齢 世 帯 が 、 日々の生活 を営 む にあた って どの よ うな活 動 を積 極 的 に行 ってい るのかにつ い て 、平成 16年 度 の 消費 実態調査 を も とに した ミク ロデ ー タを用 いて 分析 を行 った。 高齢 世帯 では収入 の減少や保 険 医療 費 の上 昇 に よ り消費 支 出が減少 す る中で、食料 や 教養 娯 楽 へ の支 出割 合 が高 ま るこ とが 明 らか とな っ た。 食料 の 中で は 、特 に 「果物 」 へ の支 出 が高 く、「野菜 ・ 海 藻」や 「魚 介類 」 の割 合 も増 え る。対 して 「肉類 」「外食 」 は減 少す るが 、 これ は年齢 の ほか に 、世帯 の形 態 が 異 な る ことが影 響 してい るもの と考 え られ る。 また 、教養娯 楽 と して は 「パ ック旅行 費 」や 「宿 泊料 」 ヘ の支 出割合 が 増加 していた。結論 と して 、高齢 世 帯 で は食事 が健 康 的 な食 品 を用 い た 内食 へ とシ フ トし、 旅行 を好 む こ とが 明 らか とな っ た。 キー ワー ド :高 齢者 、世帯 、 ポ ジテ ィブ、消費傾 向、 ミク ロデ ー タ 1.は じめ に 一 般 的な市 民 の 消費活動 にお いて 、高齢者 にな る と定年 退職 に よ る収入 の減少や 平 日の活 動 内容 が 変 わ り、 それ に伴 って 消費傾 向 も変化 す る もの と考 え られ る。 本検討 で は、世 帯 の支 出内容 を分析 す るこ とで高齢 世 帯 が積極 的 に消 費す る項 目を見 出 し、高齢者 が 日々 の生 活 を営む 上 で どの よ うな事柄 を重視 してい るのか を 明 らかにす る。 本検 討 では 平成 16年 全 国消費 実態調 査 [1]を も と作成 された ミク ロデ ー タ [2]を 用 い 、 65歳 以 上 を高齢者 と定 義 して検討 を行 う。 世帯主 の年 齢 区分 ご との世帯 数 と 65歳 以 上 の 世 帯員 を含 む世 帯数 を表 1に 示 した 。 全 世 帯 の うち、 65歳 以 上 の高齢者 が世 帯員 として含 まれ る世 帯 は 37.6%で あ り、そ の うち世帯主 自身 が 高齢 者 で あ る割合 は 26. 7%で あ った。 また 、高齢者 を含 む世帯 の うち、世 帯 主 自身 が 高齢 者 で あ る割合 は 71.1%で あ り、多 くの 高齢 者 が若 い 世代 の扶 養 で はな く、独 立 した世帯 を持 ってい るこ とが 明 らか とな った。 そ こで本 検討 では 世 帯 主 505
が 65歳 以 上 で あ る世帯 を"高 齢 世帯 ''、 65歳 未 満 で あ る世帯 を"非 高齢者 世帯 "と 定義 して消費傾 向の分析 を行 うこ と とす る。 また、本検討 に用 い る消費 支 出 の 項 目は表 2に 示 した。 表 1.世 帯主 の年齢 ご との世帯数 と 65歳 以 上 の世 帯員数 世帯主の年齢 世帯数 65歳 以上の人員を含む世帯数 (%) 全世帯 31,887,307 11,989,273 20歳 〜 24歳 25歳 〜 29議 30歳 〜 34歳 35歳 〜 39歳 40歳 〜 44歳 45歳 〜 49歳 50歳 〜 54歳 55歳 〜 59歳 60歳 〜 64歳 65歳 〜 56」 ,177 1,426 1,44」 ,827 14,5」 O 49,270 161,620 433,156 641,270 855,746 720,988 592,723 8,518,564 2,234,637 2,677,401 2,871,081 3,017,173 3,400,932 3,608,052 3,556,463 8,518,564 (O.0) (0.1) (0.4) (■ 4) (3.6) (5.4) (7.1) (6.0) (4.9) (71.1) 表 2.消 費支 出 の調 査項 目 備者 10大 品 目 │○ 大 品 目 □¨ 支出総額 実支出 )肖 費支 出 食料 住居 光熱 。水道 家具・ 家事用 被服及 び履物 保健 医療 交通・ 通信 教育 教養娯楽 その他の消費支出 非消費支出 実支出以外の支出 繰越金 」○大品 目 10大 品 目 10大 品 目 10大 品 目 10大 品 目 10大 品 目 10大 品 目 10大 品 目 「食料」糸日分 穀類 魚介類 肉類 乳,口 類 野菜・ 海藻 果物 油脂 。調味料 菓子類 調理食品 飲料 酒類 外食 備者 米、バ ン、麺類他 生鮮、加工等 生鮮、加工等 乾物、加工品含む 生鮮、加工等 「製 楽」細分 ̲備 教養娯楽用耐久財 教養娯楽用品 書籍 。他の印刷物 宿泊料 パ ック旅行費 月謝類 他の教賛娯楽サ ー ビス 考 教養娯楽サ ー ビス 教養娯楽サ ー ビス 教養娯楽サ ー ビス 教養娯楽サ ー ビス 2.高 齢 世 帯 の 消費傾 向 減 少傾 向は 65歳 以上 で緩や か になった 。 世帯 主 の 年 齢別 の支 出総額 は 50〜 55歳 を ピー ク とす る山型 とな り、 これ は年 齢 とともに年収 が増 減 し、定年後 は年 金 に切 り替 わ る とい う収入 面 で の変化 に沿 うもの と考 え られ る。支 出総 額 は非 高齢世 帯 が 779,207円 、高齢 世 帯 が 494,295円 と、36.6%減 少 して いた。 世 帯員数 の減少 を 考慮 (支 出総 額 ÷世帯員数 、 1世 帯 5人 以上 は 5人 で計算 )す る と、高齢者 の支 出は 10.7%の 減少 してい る こ とが分 か った 。 これ らの こ とか ら、高齢 世 帯 で はあ る程度 消費 を抑 えな けれ ばな らな いが 、そ の状況 の 中 で も支 出 が維 持 ・ 増加 してい る項 目が あれ ば、それ は高齢者 が積極 的 に消費活 動 を行 ってい る もの と判 断 で きる。 支 出総 額 には、税金等 の 「非 消費支 出」 な ども含 まれ るた め、以 降 の検討 で は 「消費支 出」 に限定 し て分析 を行 って い く。 次 に、消 費支 出 の金 額 を見 る と、高齢 世帯 で は保 険 医療 費 の み が非 高齢 世 帯 と比 べ て増加 した。 しか しな が ら、加 齢 に伴 う保 険 医療 費 の増加 は必然 的 な もので あ り、上記 で示 した支 出総額 の減少 に加 え 、 さらに 自 由に使 え る金 額 が減 る とい うこ とが伺 え る。 そ こで 消費支 出 の 10大 項 目別 の割 合 につ いて 図 1に 示 した。 506
消 費支 出 に対す る割 合 と しては 「食 料 」 「光熱 ・ 水道 」 「家 具 ・ 家事用 品」 「保 健 医療」 「教 養 娯 楽」 が 。 高齢 世 帯 で上昇 してい た。 この うち最 も割 合 が上 昇 したの は 「食 料 」 であった。 「光熱・ 水道 」 や 「家具 家事 用 品」 な ど 日常生活 の基盤 とな る支 出 は抑 え るこ とが難 しい た め、支 出総 額 が 減 る高齢 世帯 で は割 合 が 増加 す る もの と推 察 で き る。 一 方で、支 出 を コ ン トロール しや す い 「食料」や 「教養娯楽」 の増 加 につ いて は、積 極 的 な消費行 動 を とってい るもの とみ なす ことがで き、支 出総額が減 って い て も生活 に困窮 してい る わ けで は な い と考 え られ る。平成 26年 の調 査 結果 に基 づ い た分 析 結果 [3]に お い て も、高齢者 の収 入減 少 と支 出傾 向 に つ いて 同様 の 結 論 が導 かれ てい る。 この理 由の一 つ と して、 「交通 ・ 通信 」や 「教 育」 へ の 支 出 が 減 る こ とで、その余剰 を他 の項 ロヘ 回せ る とい うこ とが挙 げ られ る。 ィ 60% κ)% σる 2o% 80% 100% 非 高 齢 世帯 高 齢 世帯 騒食料 昼住居 艤光熱・水遵 露家具・家事用品 囃被B農 及び履物 保健医療 機交通・通信 檬教育 ヽ教養娯楽 襲その他の)肖 贄支出 図 1.消 費 支 出 に 占め る 10大 品 目の 割 合 3.食 料 の消費分析 「食 料 」 にお け る細 目の割合 につ いて 図 2に 示 した。 なお 「外 食 」 について は変化 の幅 が大 き い た め、図 2か らは除外 してい る。 高齢 世帯 で割合 が 増加 した項 目は 「魚 介類 」 「野菜 ・ 海 藻 」 「果物 」 「穀 類 」 「乳 卵類 」 「油脂 。調 味料 」 「酒類 」 であった。 「魚 介類 」 「野菜 ・ 海 藻 」 「果物」 は消費 額 で も増加 してお り、特 に 「果物 」 は非 高齢世 帯 の 147倍 で あ った 。 これ らの項 目は高齢 世 帯で積極 的 に消 費 され てい る とい え る。割合 の み が 変化 した項 目を見 る と 「酒 類 」 を除 いて食事 を構 成 す る うえで減 らす こ とが難 しく、 また価 格差 が小 さい た め節約 が難 しい項 目ばか り で あ る こ とが伺 える。 これ らは支 出総額 の減 少 が割合 の上 昇 を もた らした もの と考 え られ る。 (%) 穀類 5 ―●― 高齢 世帯 8 榛 鑽 ‐非高 齢世 帯 魚 介類 2 9 飲料 調理食 品 乳 卵 海 業 子類 藻 )自 ]旨・ 味料 図 2.食 料 に対す る細 目の 割合 507 類 、
一 方 、高齢 世帯 で減 少 した項 目と して は 「肉類 」 が 0.68倍 、 「外食 」 が 0.50倍 であった 。 詳 しく検討す る た め 、図 3に 世 帯 主 の 年齢 区分 ご との変化 を示 した。 「外 食 」 は年齢 が上 が るほ ど大幅 に減 少 していき、代 わ りに 「野菜 ・ 海 藻」 「魚介類」 「果物 」 が増加 してい た。 また 「肉類 」 は 50歳 〜54歳 を ピー ク とす る山 型 の 分布 であ り、子 どもの成長 と独 立 とい った世 帯構 成 の 変化 が影響 して い る もの と考 え られ る。 5 0メ0 5 0 5 0 5 0 4 4 ヽ3 ・‐‐果物 :li!‐ ・■ 鮮'外 食 :.=・ ‐ ・ ・ 魚介類 ,=・ I,.:.:・ 2 野菜・ 海藻 ・ ― 肉類 銅卜飲料 2 1 1 食 品 項 目 の割 合 ︵% ︶ ..響 ノが 〆が ♂ボ ノが 〆が ♂ボ 世帯主の 年齢 区分 (歳 ) 図 3.世 帯 主 の年齢 ご との 食 料 (一 部 )の 割 合 以 上 の こ とか ら、高齢 世帯では健康 を意識 した内食 が 好 まれ てい るこ とが 明 らか となった 。 この傾 向は平 成 26年 の全 国消費 実態調査 にお いて も同様 の結果 が得 られ て い る[4][5][6]。 平成 23年 度 の 高 齢 者 の支出に 対 す る意識調査 で は、優 先 的 にお金 を使 い たい項 目と して 「健康維持や 医療 介 護 のための 支 出」 が最 も多 く 選 ばれ 、次 いで 「旅 行 」 「子 どもや 孫 のた めの支 出」 とい う結果 が得 られ て い る [5]。 この うち の 健康維持 の 一 環 と して 、食 料 の 消費傾 向 の変化 が表 れ てい る と理 解 す る こ とがで き る。 4.教 養娯 楽 の 消費傾 向 「教養娯 楽」 の 細 目別 の 消費割合 につ い て図 4に 示 した 。 高齢 世帯で は消 費 全 体 に対す る 「教養 娯楽」 の 割 合 は増加す る (図 1)が 、細 目 4区 分 の 内容 に非高齢 世 帯 との違 い は見 られ な い。細 目の 中で最 も割合 の 高 い 「教養娯 楽 サ ー ビス」 に対 して さ らに細 目別 にみ る と 「宿 泊料」や 「パ ック旅行費」 の 割 合 が増 えてい る こ とが分 か った 。 図 5に は世 帯主 の 年齢 区分 ご との月 間消費額 と 「教養 娯 楽 サ ー ビス」 の 内訳 の割合 を示 した 。 消費額 は、 世 帯主 の年齢 が 50歳 〜 55歳 を ピー ク と した 山型 とな るが 、教養娯楽 の 消 費 額 は ほぼ一 定 で あ る こ とがわか っ た。 そ のた め、 図 5に 併 せ て示 した 教養 娯 楽サ ー ビス の 内訳 の割合 の推 移 は、金額 として も同様 の傾 向を 示 す もの と判 断 で き る。 「月謝額」 は義務 教 育期 間 の 子 どもを持 つ 世帯 にお い て 最 も割合 が増 えて い る。対 して 「パ ック旅行費」 は 「月謝額」 と逆 転 す る形 で推 移 してお り、65歳 〜 70歳 で ピー ク とな る。 これ らの ことか ら、子 育 てや定年 508
退職 後 の旅 行 とい った 、 ライ フステ ー ジ ご との支 出傾 向が表れ てい る とみ る こ とが で きる。 ∞ Ю (%) 教養娯楽 耐久財 ―警… 非高齢世帯 ― 譴 帯 教蓋娯楽用品 教養娯楽サービス 0% 書籍 教養娯楽サ ー ビス内訳 (%) 100% 非高齢世帯 他の 印躍じ 物 高齢世帯 目憲油料 饉パ ック旅行饗 議月謝類 誌機の教震娯楽サ ービス 図 4.教 養 娯 楽 に対す る細 目の割合 :… ‐←月 謝類 "藤 ヽ 他の教震娯楽サービス ○ 7 ■ヽ パ ック旅行贅 ○ 6 O 5 教 養 娯 楽 サ ー ビ ○ 8 榛将議白料 0 3 ス の 内 訳 0 4 ︵% ︶ 0 2 0 4 5 3 0 3 5 2 0 2 5 1 0 1 5 0 世 帯 当 た り の 月 間 消 費 額 ︵万 円 ︶ =そ の他 ′ ′75〜 Ψ2425′ ヽ′30〜 35′ ヽ ′40〜 45〜 50〜 55〜 60〜 65〜 70′ ヽ 世帯 主 の年 齢 区分 (歳 ) 図 5.世 帯主 の年齢 ご との教養娯 楽 (割 合 )の 内訳 509 鐵教震娯楽
5。 お わ りに 本検討 に用 いた デ ー タは平成 16年 全 国消費実 態調査 [1]の 集 計 結 果 を も とに人 工 的 に作成 した ミク ロデ ー タ[2]で あ るた め、算 出 した実数 そ の ものに意 味 は な い。 しか しな が ら割合や傾 向はお おむね実態 に即 した も ので あ る と考 え られ 、 いず れ の 分析結果 も高齢 世 帯 の 実情 に即 した解 釈 が可能 で あ った。 消費 実態調査 は追 跡 調査 で はな いた め、年齢 に伴 う消費傾 向 の変化 には加 齢 の影 響 ほか、世代 ご との 嗜好 が含 まれ て しま う。 10年 以 上前 の調 査結果 を用 い てい るため、現在 あ るい は未来 の 高齢 世 帯 の 消費傾 向は本検討 の結果 とは異 な る可能性 が十 分 にあ る。しか しなが ら、高齢世 帯 の 消費傾 向に関す る他 の研 究 [3][4][5][6]に お いて も本検討 結 果 と同様 の傾 向が見 られ るた め 、今 回 の検討 に よ り高齢 世帯 の ポ ジテ ィブな消 費傾 向 を示す こ とがで きた と 考 え られ る。 未検討 の 項 目と しては次 の課 題 が残 ってい る。 本 検討 で は高齢 者 の必 須 の支 出項 目と して 「保 健 医療費 」 を検討 か ら除外 してい るが 、細 日と して 「健康保 持 用摂 取 品」 が 含 まれ る。 この項 目は い わ ゆ るサ プ リメ ン トな どで あ り、これ は消費者 の健 康 意識 に よって大 き く変化す る項 目で ある と考 え られ る。平成 28年 の調 査 結果 [7]で は、健 康保持 用接 種 品 の支 出金額 は世帯 主 の年齢 に比例 して増加 し、最 も多 い 70歳 以 上 の 世帯 で は 30歳 未満 の世 帯 の約 10倍 とな ってい る。今 回用 い たデ ー タでは市場 規模 が 異 な る と考 え られ るが、検 討す 「他 の 教養娯 楽 サ ー ビス 」 る価値 が あ る項 目で あ る と考 え る。また、本検討 で は詳細 に検討 を行 わ なか ったが 、 には放 送受信 料 、入場 。観 覧 ・ ゲ ー ム代 、諸会費 等 が含 まれ てお り、 これ らの項 目につ い て も年齢 ご との違 いが表れ る もの と考 え られ る。 最後 に、全世 帯 にお け る消 費 支 出額 は本検 討 の 対 象 で あ る平成 16年 以降、年 々減 少 してい るが、高齢世 帯 の 消費支 出額 は ほ とん ど減 少 しない [5]。 加 えて 、 高齢 世 帯が増加 の一 途 をた どる こ とか らも、高齢世帯 が ど の よう な消費活 動 を積 極 的 に行 うのか 、 とい うテ ーマ の 重要性 は年 々 高ま るもの と考 え られ る。 謝辞 本検討 は、株 式会社 イ ンテ リム に所属す る有志 の メ ンバー に よ り実施 いた しま した。 本検討 の機 会 を設 け て下 さった SAS Institute J叩 狙 株 式会社様 な らび に SASユ ー ザ ー 会 世話人 の方 々 に深 く感 謝 申 し上 げます。 また、 この 活動 へ の ご理 解 並 び に コ ンテ ス ト参加 へ の許諾 に ご尽 力 いただ きま した井 上 哲秀 マ ネ ー ジ ャー は じめ多 くの 方 々 に 、 この場 を借 りて御 礼 申 し上 げ ます。 免責 本検討 に用 いた デ ー タは集 計表 か ら擬似 的 に作 成 した もので あ り、分析結果 お よび結論 は実 際 の調査結 果 とは異 な ります。 また、本 検 討 の 内容 は著者個 人 の 見解 お よび 自発 的活動 に基 づ くもので あ り、 著者 が所 属 す る組 織 を代表 す るもので は あ りませ ん。 SASプ ロ グラムを含 む本 検 討 の 内容 に基 づ くあ らゆ る不具合 につ いて 、著者 お よび 著者 が所 属 す る組 織 は一 切 の 責任 を負 い ませ ん。 510
参考文献 [1]総 務省 統計局 (2005),平 成 16年 全 国消費 実態調査 h■ p://wwwstatgojp/da″ zensho/2004/indcxhtml [2]高 橋 行雄 ,周 防節雄 ,宮 内亨 (2017),全 国消費 実態調査 (2004年 )の 匿名 デ ー タか ら JMPに よる新擬 似 ミク ロ デ ー タの作成 ,http:〃 www.nstac80」 p/serviccs/pdy171117̲1‑2pdf [3]石 橋 未 来 ,溝 端幹雄 ,近 藤 智也 (2015),高 齢者 の 消費動 向 と雇 用 の 現 状 〜豊か な消費 を維 持す るに は 〜 ,『 大和 総研調査季報』,19,30‑49. [4]総 務省統計局(2014),統 計 か らみた我が国 の高齢者 (65歳 以上)一 「敬老の 日」にちなんで‑ 5.高 齢者 の家計,http:〃 www.statgoJp/da″ topics/topi84,html [5]前 田泰伸(2013),高 齢者 の消費について,『 立法 と調査』,11(346),141‑152. [6]熊 野英生(2015),デ ー タか ら見たシニ ア消費 の実態,mps:〃 www.nippo■ com4″ in― dcptVa04901/'pnum=2 [7]総 務省統計局(2016),家 計簿 か らみ た フ ァ ミリー ライ フ 第 4章 年齢階級別 に見た暮 らしの特徴 http:〃 www.st誠 .go.Jp/dataな akci/ね mily/04.html 511 ,
付 録 1規 定課 題 用 SASプ ロ グ ラ ム
規定課題 1
「なetヽ デー タ分析 コンテス ト」
規定課題
1
data Di
set raw zensho20
gijimicrol
率 規定課題 1:
data畦
:
set D/*性 別v
D(in=inl)1/*右 全世帯ネ´
if inl then X08= 9 i
:
Ⅷ釉
細細
proc univariate data=D̲outtablo=Xll̲XO畦 Y001 vardef=wdfi weight wei
proc univariate data=D̲ outtable=X08̲Y001
vardef=wdf: weight wei
data X08̲Y0011
¨血
30rt data=畦
by X08 Xll Y0011
prO●
class Xll ;run
run;
X08 Y001
Xll‐
prOC sort data=Xll̲X08̲Y001
by Xll ; run
prO● sort data=X08̲Y001
by Xll ; run
data out̲Al :
merge Xll̲X08̲Y001(where=(X08=1
)rename=(̲SUMWGTFWl̲MEAN̲=M15TDFSl))
Xll̲X08̲Y001 0here=(X08=2
)rename=(̲SUMWGT̲=W2̲MEAN̲=M2̲STD̲=S2))
X‖ ̲X08̲Y001(where=(X08=螢 )rename=(̲SUMWGT̲訓 9」 EAN̲=M9̲STD̲S9))
X08̲Y001 (where=( X08=ヽ )rename=(̲SuttGT̲=Wl」 EAN̲=Ml̲STD̲=Sl))
X08̲Y001
(where=( X08=2 )rename=(̲SUttGT̲=W2」 EAN∫ M2̲STD̲=S2))
X08̲Y001 (where=( X08=9 )rename=(̲SUttGT̲=W9」 EANFM9̲STD̲=S9))
by Xll:
+Excolテ ンプ レー ト出力用
壼″rrrr青︱
︱●rr
data out Al :
length outl― out9$201
0 00 00 0 00 0
呻
out2:
out3:
then out4=
then outs= compress (put (round (S2,
then out6- oompress (put (round (S9,
then outT= compress (put (round (ll.
n(112) then out8= com!ress 6ut (round (Il2.
n(W9) then outg= compress (put (round (rl9.
n (1,19) then
n(Sl)
n(S2)
n(S9)
n(Wl)
00 0 00 0 00 0
四 ﹈ 凶
健00
M商 潤
∞¨ ω
n (l'12) then
中
out-Al:
n(ili) then outl= compress (put (round (iil
規 定課題 2
rLct'sデ ー タ分析 書ンテス ト」
規定露饉2
参考 :http;″ 剛w preF toyama,P/sections′ 1015′ /e帆 ′́
back/2()05a鮮 ヽ hihyo/
proo sort data=D out=D_: by Xll X08 Y00l; run:
*8Et\ffi5rjr:-&{t&;
ods outDut
ByGroupl.Tablel.0nellayFreqs=T1 ByGroup2.Tablel.onewayFreqs=T2 Bycroup3.Tablel.oneltayFreqs.T3
Byoroup4.Tablel.onetlayFreqs=T4 ByGroups.Tablel.onewayFreqs-Ts ByGroup6.Tablel.oneltayFreqs=T6i
Pr@ froq data=D_;
by X]];
wei ght weight;
table Y001 :
*家 族分類 ×1=別 別に一覧作成
;
ByGroup2.Tablel.0nellayFreqs-T1 2 ByGroup3.Tablel.onellayFreqs=T2_1 ByGroup4.Tablel.oney{ayFrcqs=I2_2
ByGroup6.Tablel.onellayFreqs=t3_2 EyGroupT.Tablel.onewayFreqs=T4-l EyGroupS.Tablel.oneYlayFreqs:T4-2
ByCroupl0.Tablel.onellayFreqs=T5_2 ByGroupll.Tablel.oneltayFreqs-T6_l ByGroupl2.Tablet.OneYtayFreqs-T6 2
︐
m m 価
︐
X t Ы
ByGroupl Table1 0neWayFreqs=Tl̲1
ByCroup5 Table1 0neWayFreqs=T3̲1
ByGroup9 Table1 0neWayFreqs=T5̲1
proc freq data=D̲i
p.oc sort data:D out=D ; by X08 Y001; runi
512
規 定課題 2(続 き)
*全 体の一覧作成
:
Table1 0neWayFreqs=T7:
proc freq data=D̲i
weight weighti
table Y001:
ods ouiDut
Iablel. onetlayFreqs=T7-1
Tablel.0nellayFreqs=T7
2
proc freq data=D ;
by X08;
ight wei ght;
table Y00l;
we
run;
ri:1R&l
$lot kubun=s;
frmacro ZINI (i);
$slobal T&i.:
data T&i :
set T&i. 6nd=Last08s:
retain Y001sum 0:
Y0016urfi001*Frequenoy)
;
CPN=int (CumPercent/&kubun
);
if Last0BS then ca I I symput("tota ", Y00lsum)
1
run;
proc sort data=T&i. ; by CPl,l CumPercent; run;
data T&i. ;
set T&i. ;
retain Y00lp_ 0;
Y00lP=Y00lsum/Etotal'
by CPlt CumPeroent;
trapezoi d= (Y00lp_+Y00lp) * (&kubun.,/100),/2
if first. CPl,{ then do:
:
output;
Y00lP =Y00lP;
end;
run;
data _nul l_;
set T&i. end=LastoBs;
retain ZINI 0;
ZIl,ll+trapezo i d;
if LastoBS then do;
ZlNl=(0.5-zlNI)/0.
s;
cal I symput("T&i. ". ZINI) |
end:
run:
*nond:
一
喘籠 喘
I
>J コ
%do b= 1 %to 7
ltLo 7
%do b=
洲洲洲
lhaoro zini_r0:
%do a= 1 %to 7
fr0end zini r;
'l,zini-rl
data out̲A2i
11=&Tl̲1 l F=&Tl̲2
11=&T2 1 l F=&12 2
M=&T3̲1 l F=&T3̲2
M■ T61 :F謁 162
M=&T7 1 , F=&T7 2
run:
* eNcelrrll/-
Total=&Tl
output;
lotal=&12
Total=&T3
Total=&T4
lotal=&T5
Total=&'6
Total=&T7
o!tput;
output;
output;
output:
output;
output i
lBJ,]RI
data out-A2 ;
length outl-out3 $20 ;
set out_42 ;
il n(ll) then outl= put(round(l'l, 0.01), 8.2) ;
if n(F) then out2= put(round(F, 0.01), 8.2) :
if n(Total) then out3= put(round(Total, 0.0l).
run ;
513
付 録 2規 定 課題 図表 規定課題 1 世 帯 主 の 性別 全世 帯 2:女 1:男 世帯主の性別 全世帯 2:女 1:男 平均値 世 帯 主 の性 別 1:男 仝世 帯 2:女 世帯数 標準偏差 家族分類 416 266 338 267 165 232 3,187,182 3,432,001 6,619,183 2:夫 婦 の み 世 帯 557 539 557 361 331 360 7,600,840 143,504 7,744,344 1:単 身世帯 3:二 世 代 世 帯 733 686 732 373 366 373 11,709,238 147,052 ll,856,290 4:二 世代 (ひ とり親 )世 帯 689 459 558 402 326 378 1,003,841 1,324,421 2,328,262 5:三 世 代 世 帯 923 677 904 459 421 461 2,545,855 210,980 2,756,835 458 428,659 153,734 582,393 396 26,475,615 6:そ の 他 の 世 帯 全世帯 778 576 724 456 429 662 356 610 396 281 規 定課題 2 年 間収入 のジニ係数 世 帯 主 の性別 1:男 全世帯 2:女 家族分類 l:単 身世帯 0.3 0.32 0.33 2:夫 婦 の み 世 帯 0.31 03 0.31 3:二 世代世 帯 0.26 0.28 0.26 4:二 世代 (ひ とり親 )世 帯 0.3 036 0.35 5:三 世代世帯 0.26 0.33 0.26 6:そ の 他 の 世 帯 0.3 0.36 0.32 全世 帯 0.18 0.18 0.33 514 5,411,692 31,887,307
付 録 3自 由課 題 SASプ ロ グ ラ ム
表1
rLet'sデ ー タ分析 コンテス ト」
自由課 題
「高 齢世 帯 のポ ジテ ィブな消費傾 向の分 析」 (Tablc,
I ibname outd ".. Yzensho2oo4ci jiilicroData" access=readonly
proc copy in:outd out:work; run;
data base:
set Zensho2004gijimicrol
array y(*) Y001 ‑ Y203:
do t=l to dim(y):
if y(1)=O then y(1)=:ネ ーー 収 支 について、0を 欠測 に置 換
endi
drop i:
,f X09 in (14.15.16) then doi
″
―″
AGEC=99i*― ‐
65歳 以上
:
else dol
AGEG=X09,‐ ―r65議 未満
″
:
+表 1,湾 費 支出に 占める10大 品 目の割 合
:
* &6&;
proc freq dats= base noprint ;
tables Year
/ out= T1 1
table$ Year * AGEG / out= 11 2
weisht reisht;
rln
;
■65歳 以上の大量を含む世帯数
proo freq data=base(where=(X14 in(■ 2)))noprint
i
tables Year
tables Vear ネAGEG
weight weight i
/ 。
ut= Tl̲4 :
﹇ ﹇
2 4
一 一
コ J
+ ffia:
data T1-5
data Tl-6
/ Out= Tl̲3 :
data Tl :
length outl out2 ot,t3 $50 :
merge Tl̲5
Tl̲6(keep= AGEC cOunt rename=( count= CNT65 ))
by AGEG :
retain ALL
;
if AoEG. . then ALL= CliT65
if n(oount) then outl= cmpress(put(round(count, 1.0), 0.0))
if n(CNT65) then out2= ompress(put(round( CNT65. 1,0 ), 8.0))
if n(cNT65) th€n out3= "(" I I cmpress(put(round( cl'{I65 / ALL x 100, 0.01 ) 82))││
;
;
;
run ;
515
図 1〜 5
率図4教 養娯楽に対す る継 目の 割合
data G4 , AGEG= 1 : output i AGEG= 2 i output i run i
%′ と,ι ″(4.AGEC.Y141.Y142)1特 ― 数簑娯染鵞耐久財
%′ 乙sι ″(4.ACEG.Y141.Y143):*
教穫‐
娯楽鷺品
%′ L̀̀″ (4.AGE6.Y141.Y144):‐ ― 書籍 ̀他 の印刷物
%zr"(4.AGEG.Y141.Y145):*一 教葵娯楽サー ビス
%た sa″ (4. EG.Y145.Y146):* 宿泊料
愉z」箔″(4.AGEC.Y145.Y147)i率 ―― バ ック旅行麗
‰と, 7(4.ACEG.Y145.Y148)iキ ーー 月識類
… ││"の 教菫娯楽サー ビス
‰
' .脇 EG.Y145.Y149):Ⅲ
rLet sデ ー タ分析 コ ンテス ト」
自由蘇 議 (グ ラフ)
鴨 齢鸞 帯のポ ジテ ィブな 壼修 向の分析」
:
:
'斉
:
:
I i bname outd ".... Yzensho2oo4G i j i Ml croData" aocess=readon
proc @py in=outd out=work; run;
Iy
:
:
:
data base.
:
set Zensho2004gi」 imicrol
'LS勧
array y(*)Y001 ‑ Y203:
do l=l to dim(y):
if y(1)=O then y(1)=iま ――
収支について、0を 欠測に置換
本餞3壼 帯主の年齢 ごとの食費 の割 合
proc sort data= base i by X09 i run i
data G3 i X09・ 5 : output i run i
%′ Lュ ″(3.X09.Y041 Y042)i*― ― 難類
ーー 魚介類
%′ ι
̀̀″ ̀3.X09,Y041.Y047),ォ ―
‰と,ι
″(3.X09.Y041.Y052):辛 ― 肉類
能と, ″(6.X09.Y041.Y055):本 一 乳卵類
・
%π ´ ″
野菜・海藻
:
endi
if X09 in (14.15.16) then doi
″
″
AGEG=21を 一 65議 以上
│
i
1
endi
l
else doi
″
″
AGEG=1:ォ ー
ー 65歳 未満
)
(3.X09.Y041.Y059)i*―
:
‰ぃ餡ズ0.X09.Y041.Y064)i率 ― 果物
%た oι″(3.X09.Y041.Y067):☆ ―― 油脂・調味料
嶋を,̀″ (e X09.Y041.Y070)i*― ‐薫子類
‰Lsι ″(3.Ю 9.Y041.Y071)i率 ― 練 理食品
ー 飲料
%′ Lsa″ (3.X09.Y041,Y074)iィ ー
%πra″ (3.X09.Y041.Y078),お
)箇 婚
%に s″ (3.X09 Y041 Y079)i率 一 外食
endi
:
;
:
* Sf+H?r 0;
:
{nacro m_sum(gno, by, deno, var) ;
data base_G&gno. ;
set base;
if n(&var.) then c&gno._&var.= ( &var. / &deno. ) * 1S0
│
:
*鍛 6世 帯主の年齢 ごとの教 養 娯楽 の割合
*金 額 (積 みよ :わ loヽ 用 ),
proc moens data=base vardef=wdf noprinti
run;
│
proc means data=base_G&gno. vardefadf noprint;
by &ly. ;
var G&sno. &var ;
weight reight I
output out=G&gno._Erar mean: p_&var. ;
by X09 :
var Y040 i
weight weighti
output out=G5̲sum Y040 mean= m̲Y040 :
run:
data G&gno. ;
proc man6 data-base vardef=wdf noprint;
by X09 ;
merge G&gno. G&gno. &vrr
by &by. ;
var Y141 ;
seight weight;
run:
oulput out:Gs_sum_YI4l mean= m_Yl4l ;
tun;
Yf,end m sum ;
ネ昭1消 費支出に 占め る10大 品 量の割 合
prOo sort data= base i by AGEG i run i
data Gl : AGEG= 1 : output i AGEG= 2 : output i run
%′ L出7(1.AGEG.Y040.Y041):*
食料
″(1.AGEC.Y040.Y083):‐ ― 饉居
%′ ι
●ι
― 光熱・水道
肋LS ″(1.AGEG.Y040 Y088):■ ―
粒を,̀″ (1.AGEG.Y040 Y093)iⅢ ‐ 家具・蒙事湾品
鼈L̀̀″ (1,AGEG.Y040.Y103),一 被服及び躍物
%に ,̀″ (1.AGEG.Y040.Y121)i‐ ― 悌健腐磯・
%に ,̀″ (1.AGEG.Y040.Y126):‐ ― 交通・通信
%に ,̀″ (1.AGEG.Y040.Y137)iネ ー 教育
%′ L●
(1.AGEG.Y040.Y141)i*― ― 教葵娯楽
̀″
ι ″(1.AGEG.Y040.Y151);本 一― その他の,肖 費支出
data G5̲1 :
merge G5̲sum̲Y040 G5̲sum̲Y141
i
by X09 1
m̲Y040ot=m̲Y040‑m̲Y1411
:
:
:
オ 細目の推移
:
i
:
″図2食 饗 露する畿目の書11含
%4s切 (2.AGEC.Y041.Y04フ
%に ,切 (2.AGEG.Y041 Y052)
野を,̀″ (2.AGEG.Y041.Y055)
%に s″ (2.AGEG.Y041.Y059)
%に ,̀″ (2.AGEG.Y041.Y064)
(2.AGEG.Y041 Y067)
7:̀ ″
″,ι″(2.AGE6.Y041.Y070)
,t′
,t′
%″ ̲sa″ (2
%″ ´
A6EG
Y041. Y071)
(2 AGEG Y041.Y074)
̀″
%″ sa″ (2 AG[G Y041.Y078)
%″ :̲s
″(2. AGEG Y041 Y079)
AGEG= 2 1 output
‐― 穀薮
*― ― 魚介類
*― 肉類
*― ― 乳卵類
率一 野菜・ 海藻
* 築物
ー ,曲 艦 ,譲 味料
キー
‐― 業子類
* 調理食品
*― 一 絵
欠器
十一 酒類
*― ― 外食
:
)
Y145. Y148)
%た ,ι″(5.X09.Y145.Y149)
.
data G2 1 ̀こ
AGEG= │ : output
%に sι″(2.AGEG.Y041 Y042)
宿 泊料
パ ック旅行費
月謝類
: *-- 他の教養娯楽サー ビス
X09. Y145. Y147)
″(5. X09
%aLθ″
i
%′
run
%π ε″(5,X09.Y145.Y146)
%.2̲δ ″
7(5,
;
.
data G5 i X09= 5 , output
:
:
1
:
:
:
.
:
:
:
5 6
│
:
│
平成 30年 度税 制改正 による所得再分配効果の定量 的評価 チーム名 :SASがそうさせた (参 加カテゴリ:パ ワーユーザー) 森田 祐介 (杏 林製薬株式会社 開発推進部 データサイエンスグループ) Quantitative Evaluation of lncome Redistribution Erect by Heisei 30 Tax Rebrm. Yusuke Morita Kyorin Pharmaceutical Co., Ltd 要旨 2018年 3月 28日 、平成 30年 度税 制改正法 案が可決成立 した。改 正法には、個 人所得 課税の控 除額 の 縮小 、たばこ税 の引き上げ、国際観 光旅客税 の創 設 、森林環境税 の創 設 などが盛り込 まれ、増 税傾 向が伺 える。本 研 究では、SASユ ーザーも関心 が高 いと思われる個 人所得課税の控 除額 の縮 小 に注 目し、標 準 世帯を対象 に、税 制 改正が所 得 再 分配効果 に及 ぼす影 響を、疑似 ミクロデータを用 いて定 量 的 に評価 した。その結果 、改正法 により 2004年 と比 較 して可処分所得 のジニ係数が 2.1%改 善すると推定された。 キーワード :平 成 30年 度税 制 改 正 、個 人所得 課税 、控 除額 、所得 再分 配効果 、ジニ係数 、SGPANEL 1.背 景 と目的 2018年 3月 28日 、平成 30年 度税制改 正法案が可決成 立した。改 正法 には、個 人所 得課税 (所 得 税・住 民税 )の 控 除額 の縮小 、たばこ税 の引き上 成 国際観 光旅 客税 の創 設 、森 林 環境税 の創 設 などが盛 り込 まれ、日本 の厳 しい財 政 事情を背景に、増 税 傾 向が伺える[1]。 特 に、個 人所得 課税 の控 除額 の縮小 は、SASを 利 活用 して 社会の発展 に貢献し、対価を得 ている SASユ ーザーにも関心が高い内容 と思われる。 今 回の改 正 により、年収 850万 円超の会社 員世 帯が負担増 になる。概 算 で、年収 1′ 000万 円未満の場 合 に は 10万 円、1′ 000万 円〜 2′ 000万 円の場合 20万 円、2′ 000万 円以 上 の場合 30万 円の負担増との試算 があ る[2]。 なお、改 正の適用時期 は、2020年 分以後 の所得税及び 2021年 分 以後の住 民税 となる。 増税 対 象 となる世帯にとっては、家計収 入の減少 という観点から、増 税 は歓 迎 できないかもしれない。しかし、社 会 的には、税 により、富を再分 配することで、貧富の差 を緩和 させ、階層 の固定 化 とそれに伴 う社 会 の硬 直化を阻止 して、 社会 的な公平 と活力をもたらすという機 能をもつ。 そこで、本 研 究では、個 人所得 課税 の控 除額 の縮小 に注 目し、2004年 の疑似ミクロデータに含 まれる標 準 世 帯 を対象 に、税 制 改正が所得 再 分 配 効果 に及 ぼす影 響 を、社会 における所 得 分 配の不平 等 さを測 る指標 であるジニ 係数を用 いて定量 的に評価することとした[3′ 4]。 517
2.研 究 方針 2,1,対 象 世 帯 の抽 出 「夫婦と子供 2人 の 4人 で構 成される世 帯のうち′有業 者 本研 究では、標 準世帯を対 象 とする。標準世帯 とは、 と定 義されている[5]。 標 準世帯 に限定する理 由は、疑似ミクロデー が世帯主 1人 だけの世帯 に限 定 したものである。」 タが収集された 2004年 時点 では、標 準世帯が一般 世帯数 に占める割合 が最も高いことと[6]、 社会 保 険料や所 得 税・住民税 を年 収から算 出可 能 にするためである。 標準世帯の抽 出 :以 下のすべての条件に該 当する世帯を抽 出する。 1.世 帯 区分 =勤 労世 帯 2.世 帯 人 員 =4人 3.就 業 人員 =1人 4.家 族 分類 =2世 代 5.65歳 以 上の世帯 員 数 =0人 2.2.2004年 の個 人 所 得 課 税 制 度 による所 得 再 分 配 機 能 の評 価 2004年 の個 人所得課税 制度 (所 得税・住民税 )に よる所得再分 配効果を定量的に評価 するため、年収に基 づ くジニ係数と可処 分所得 に基 づくジニ係 数をそれぞれ算 出し、ジニ係数の改 善率を計算する。 ジニ係数の改善率 (%)=(年 収のジニ係数 ― 可処分所得 (2004)の ジニ係数 )/年 収のジニ係数 × 100 年収や世帯構 成 に関する情 報 から、2004年 の社 会保 険料 、所得 税 及 び住 民税 を算 出し、可処 分所得を算 出 する。 可処分所得 (2004)=年 収 (2004)― 社会保険料 (2004)一 所得税 (2004)一 住民税 (2004) 社会保 険料 は以下の式 に基 づき、算出する。付録 4に 各種社会保 険料 の算 出の詳細を示す。 社会保険料 (2004)=厚 生年金 十 健康保 険 十 雇用保険 十 介護保険 所得税及 び住 民税 は、図 1の とおり、計算する。 図 1.所 得税及び住民税の算出フロー 基礎捜除 配儀者撥鏃 接簑控難 ‐ 機会機鍍纏撥鏃…等 付録 5に 、2004年 の個 人所 得 課税 における各種 控 除や税 率の詳 細 を示す。 518
2.3.税 制 改 正 による 2020年 の個 人 所 得 課 税 の所 得 再 分 配 機 能 の評 価 平成 30年 度 税 制 改 正法による個 人所得課税制度 (所 得 税・住民税 )の 変更が、所得再分 配効 果 に及 ぼす影 響を、ジニ係数を用 いて定量 的に評価 する。具体的には、世 帯 年収 に対 して 2004年 の税制を適 用 した可処分所 得 (2004)と 、改正法 を適 用 した可処分 所 得 (2020)の ジニ係 数 をそれぞれ求め、ジニ係数の改善率 を求める。 ジニ係数の改善率 (%)=(可 処分所得 (2004)の ジニ係 数 ― 可処分所得 (2020)の ジニ係数 )/ 可処分所得 (2004)の ジニ係数 可処分所得 (2004)=年 収 (2004)一 × 100 所得税 (2004)一 住民税 (2004) 04)一 所得税(2020)一 住民税 (2020) 可処分所得(2020)=年 収(2004)一 社会保険料 (2⊇ なお、個人所得課税の変更の影響を評価するため、社会保 険料は 2004年 の税率を用いる。 付録 6に 、平成 30年 度税制改正による個人所得課税 の 2004年 からの変更点を示す。 社会保険料 (2004)一 3.研 究結果 3.1.対 象世 帯 の抽 出 抽出した標準世帯 の年収の要約統計量を表 1に 示す。 表 1.世 帯主の年齢別の年収の要約統計量 (単 位 :万 円) 世帯 主の年 齢 世帯数 平均 標 準偏差 中央値 25%点 75%点 20イt 112123 420 122 410 331 497 30代 40代 50代 60代 819008 703988 210090 12201 1857410 568 186 539 439 664 733 233 708 584 860 815 293 805 596 968 626 331 549 380 743 650 243 617 474 783 全体 3.2. 2004年 のイ国人 所 得 言果不元市」度 による所 得 再 創 己機 育旨の言平イ面 解析結果を表 2及 び図 2に 示す。先行研 究によると、2004年 の標 準 世 帯のうち、世帯 主の年齢が 40歳 代 の ジニ係数の改善率 は 10.2%と 報告 されており[7](表 3)、 本 解 析結果 (表 2)の 40歳 代 の改善 率 9.8%と ほぼ近 い 値 であった。また、一 般 に世帯主の年代 が高 くなるほど、世 代 内の格差が大 きくなる、つまり、世 帯 主の年齢 に比例 して ジニ係数が大きくなる傾 向も確認された。 表 2.年 収と可処分所得(2004)の ジニ係数及びその改善度 世 帯主の年齢 可処分所 得 年収 改善率 (%) (2004) 20代 0.163 0.151 7.4 30代 0.175 0.161 8.0 40代 0.173 0,156 9,8 50代 0.202 0.182 9.9 60代 0.257 0,239 7.0 全体 0,204 0.187 8.3 3 519
表 3.先 行研究 [7]に おける年収と可処分所得 (2004)の ジニ係数及びその改善度 世帯主の年齢 可処分所得 年収 改善率 (%) (2004) 40代 0.164 0.148 10.2 図 2.世 帯主の年齢別の□―レンツ曲線 │(Ю 帥 0 ∞ 量 椰 曜 津 擬 ヽ碁 # 時代 代 壼体 ̀傘 鱒 鋪 囀 熱 心 0 21) 囀 100 ∞ 2(} 範 機 80 1軸 20 鑢 ∞ 機 ・ ■ 一 盤一 ¨ 一 鰤一 一 爾一 一 分一 一 燿一 一 覇¨ 一 二 一 ■ 一 ■ 一 懃一 一 年一 二 一■ 一■ ■ 一 一 雄 一 D . 一 曲一 一 一 ツ・ ン一 ¨ 一 レ一 世帯露積比 3.3.税 制 改 正 による 2020年 の個 人 所 得 課 税 の所 得 再 分 配 機 能 の評 価 解 析 結果を表 4に 示 す。平成 30年 度 税 制改正を適用 した可処 分所得 (2020)で は、2004年 の税 制を適用 した可 処 分所得 (2004)と 比 較 して、世帯主 の年 齢 によらず、ジニ係 数が改 善されることが示された。 表 4.可 処分所得(2004)と 可処分所得(2020)の ジニ係数及びその改善度 世帯主の年 齢 可処分所得 可処分所 得 改善率 (%) (2004) (2020) 20代 0.154 0.151 1.9 30代 0.161 0.158 1.9 40代 0.156 0.152 2.6 50代 0,182 0.178 2.2 60代 0.239 0.233 2.5 全体 0.187 0.183 2.1 また、図 3の 年収、可処分所得(2004)及 び可処分所得 (2020)の ヒストグラムの比較からも、平成 30年 度税 制改正によつて、所得再分配効果がより大きくなつていることが分かる。 520
図 3.年 収、可処分所得 (2004)及 び可処分所得 (2020)の ヒストグラム 掛 腱 金額 円, ̀万 図 4の 年 収 区分 別 の可 処 分 所 得 額 の比 較 においても、高 収 入 の世 帯 ほど、2004年 と比 較 して平 成 30年 度 税 制 改 正 による可 処 分 所 得 額 の低 下が大 きくなることが分 かる。 図 4.年 収区分別の可処分所得額の比較 ん 晟T鵞移 繭18 8 5 2 277 494 丁歯 M■ ユRT m 237 475 714 400<.≦ B00 鰻410 十甲 ■零 TIユ物 鋏T TI 占 吻T ∞ ︵ ER ︶ 難さ念 製 F 平均値 中央 値 1 ̲ 甲⑫ 0フ 9 90〔 ] 650 1173 111吟 00Cく 麟1000 1000く .≦ 1100 1500く .麟 2100 年収 区分(万 円, 図 5の 年収区分別の所得税額及び住民税額の比較においても、高収入の世帯ほど、平成 30年 度税制改正に よって、いずれも増税額、 が大きくなり、2004年 と上ヒ較して税額、 が増えることが分かる。 図 5,年 収 区分別の所得税額及び住 民税額の比較 I I 珈 準 上 轟 2 壷︲・ ・を 筆︱ ・ ︱ 鳥〒 ︲ ︲ 滋 T甲 一 1甲 ← T hゞ I ・ ︲ 鐵1 ︒ ・甲 守 IT 旧 晏崚 ︒ 轟 3 0 平均値 中央 値 5400 万円) 年収区分〈 年 収 区 分(万 円 521 ) ・上 例囲■ T﹄顆 C ∞ 平 均イ 直 1 中央値 1 ■ ︱︱︱あ爾静 幽︱上 豊 ︱ ︱︵熙鯰上 O TI ル蛉鵬留一 T 鳥兆甲 ●Z̀2,201
4.今 後 の課題 / / / 独身世帯 、共働 き世帯等 、標 準 世 帯以外も考慮 した言 刊面を行 い、研 究結 果 の一般化可 能 性 を高めたい 土会保 障による給付 も考 慮 した評価を行 いたい 再分 配効果 を適切 に評価するため、児童手 当など沐 生命保 険料 控 除 、ふるさと納税 による控 除など、より現 実に即 した控 除や税 制 を含めた評価 を行 いたい 5.ま とめ / / 標準世帯 を対 象 に、個人所得 課税 制度が所 得の再 分 配機能に及 ぼす影 響を定量 的に評価 した 平成 30年 度 税 制改正法 により、標 準世帯の可処 分所得 のジニ係数が、2004年 と比較 して 2.1%改 善する と推 定された / 平成 30年 度 税 制改正法によつて年収 1′ 000万 円超 の世帯に対する所得 税 及び住民税 の増 税傾 向が観 察 された / 作 図には、SGPANEL及 び SGPLO丁 プロシジャを用 いて[8′ 9]、 その柔軟 性 及 び有用性 を示 した 6.参 尋究文献 (い ずれも2018年 7月 2日 にアクセスを確認した。 ) [1].財 務 省 .平 成 30年 度税 制 改 正 https://www. mof.go.t u blication/brochu relzeisei 18. htm [2].ニ ッセイ基礎研究所 .平 成 30年 度税制改正について と 菫自ptti乙 乙塾全笙11.2』 二f皇 重 ≦ ュ里 2L=⊆LiE∠ Isl塾2[L生 」 f些」 堕fL≡II乙 9壁1 [3].梅 原英治 .日 本における税制の所得再分配効果 L笙 ⊇重壺生塾壁望型曇 Lgp.1121ュ 堕ic璧 /kei」 ュ ェQ旦 0墨∠壺6/2∠ 6o二 3/=pdヱ │二 ⊆ll旦 ■負a 「所得再分配とジニ係数」 [4].坂 丼豊貴 .公 共経済学ノート http:∠ /型 型 19皇 0⊆ itie§ .回 t笠 OLaka̲§ aka:/2ub‑91ュ IXttf [5].総 務 省 統 計 局 .家 計 調 査 用 語 の説 明 http://www,stat.9o.jp/data/klК q∠ 2004:112:o4nh02.html [6]・ 人口問題研究所 .日 本の世帯数の将来推計 (2008年 3月 推計) 国立社会保障 。 h笙 2:五 型生!21五 ≦12:」 :∠ 劇:≧ 」̲堅 :圭 島 12R2Ql≧:∠ 〕 さ:旦1■ 上笙!」 ̀21坐 ̀ユ ̀上 [7].小 野正芳 .標 準世帯における所得再分配効果の推移 https://Ci,nilaC」 亘 e生 ∠⊆ ⊆壼 ェ 望二L2塑 旦堅型ユ堕量型⊆凶 墜 生 塾 旦 璽 ≧堕 ≦ 旦亜 [8].高 浪 洋 平 、舟尾 暢男 ,【 グラフ頂 上決戦 】もしも′ SASの sgplotと Rの ggplot2を 比 較したら f」 皇 望塁lp191=」憂̲≦塾91」 堅2LIttf 里 lIL五 奎]fullQQ■ yy91LI⊆ 2L≦ 12墜∠ [9]. SAS Institute lnc.Graphica‖ y Speaking― SAS Blogs ilti12重 1∠ ∠ 」 」 」 ≦ ⊇ 9旦 =flc:21≦ 茎≧ IIl∠ 二 ≦ 2111壺 塾 こ ∠ ≦ ュ 11212111≦ ニ ユ[tyIユ 12≦ ≧ ユl⊆11」 ε レ 1」 ̀ 6 522
付録 1:規 定課題用 SASプログラム
課題 1)家 族 分類 、世帯主の性別毎 の年 間収 入の要 約
proc transpose data = summary2 out = summary4
*l ibname SUGI2018 'ful lpath' access = readonly;
prefix = SD;
by Xlli
id X08:
proc forlmat;
value type
″
l=″ 1:単 身世 帯
″
2=″ 2:夫 婦 のみ 世帯
″
3=″ 3:二 世 代 世帯
″
4=″ 4:二 世 代 (ひ と り親)世 帯
″
5=″ 5:三 世代 世帯
″
6=″ 6:そ の他 の世 帯
″
9=″ 全世 帯
var SDi
run;
proc transpose data == summary2 out = s ur■
nary5
prefix = N:
by Xll;
id X08;
var N;
format N comma10. :
runi
run
data zensho,
set SUG12018.zensho2004gi」 i:licroi
WEIGHT = WEIGHT * 鶴鑢憫爾 ;/罐 範解答 に合
わせ るため*/
data summary6;
merge summary3
by Xll;
drop _:;
run;
runi
proc)means data = zensho noprint;
class Xll X08:
var Y001i
- summaryS
proc report data = summary6:
″
″
coluttnS Xll(″ 平 均値
(″ 世 帯主の性別
″
″
″
MEANl)(″ 2:女 MEAN2)(″ 全世帯 MEAN9)))
″
″
(″ 標 準偏 差
(″ 世 帯主の性 別
″
″
″
SDl) (″ 2:女 SD2) (″ 全世帯 SD9)))
(″ 1:男
″
″
(″ 世 帯数
(″ 世 帯主 の性別
″
″
″
Nl) (″ 2:女 N2) (″ 全世帯 N9)))i
(″ 1:男
″
define Xl1/″ 家族 分類 order;
(″
output out=summary n=N:nean=MEAN stddev
= SD;
freq WEIGHT;/*小 数 点 以下 は 無 視 され る*/
runi
1:男
″
define MEAN1/″
″
define MEAN2/″
;
data summary2;
″
′
′
define SD1/″
″
define SID2/″
″
define SD9/″
″
define N1/″
″
define N2/″
″
set summary;
= round(N/ 100000000,1.)
;
define MEAN9/″
N
MEAN
= round(l!lEAN, "1. )
SD = round (SD, 1. )
;
i
;
:
;
if missine(X08) then X08 = 9;
if missing(X11) then X1l = $;
i
:
;
format Xl 1 type. ;
define N9/″
run;
:
runi
proc sort data = summary2;
quiti
課題 2)家 族 分類 、世帯主の性 別毎 のジニ係数
by Xll X08:
run;
*.1 ibname SUGI2018
proc transpose data = summary2 out = suml■ ary3
prefix = MEAN;
proc format;
value type
'ful lpath' access : readonly
″
l=″ 1:単 身世帯
″
2=″ 2:夫 婦 のみ世 帯
″
3=″ 3:二 世 代世帯
by Xll:
id X08;
var MEANi
4=″ 4:二 世 代 (ひ と り親)世 帯
″
5=″ 5:三 世 代世帯
run;
523
″
6=″ 6:そ の他の世 帯 9=″ 全世 帯 ″ ″ PEROFF = (SUMOFF/TOTALOFF) * 100 run : run proc sort data = gini3; by Xll X08 PERPOP; data zensho; set SUG12018 zensho2004gijimicro: WEIGHT = WEIGHT * 100000000: run; output; X08 = 9: outputi data gini4i set gini3: by Xll X08 : XLAG 二 lag(PERPOP); XLAG = XLAG / 100; YLAG = lag(PEROFF); YLAG = YLAG / 100: run; data zensho2; set zensho; 00LUMNA = (PEROFF/100)* XLAG; 00LUMNB = (PERPOP/100)* YLAG: output, Xll = 9; retain SUMA SUMBi if first X08 then do: SUMA = 0; SUMB = 0; output; run; proc sort data = zensho2 end; by Xll X08: SUMA + COLUMNA: run; SUMB + 00LU‖ NB: GINI = SUMA ― SUMB; proc freq data = zensho2 noprint; by Xl] X08; run; tables Y001/out = ginil; data gini5; set gini4; by Xll X08 ; weisht YIIEIGHT; run; GINI = round(GINI,0.0l) ; if last. X08; data gini2; set ginil: by Xll X081 retain SuMOFF PERPOPi keep Xll X08 GINI; format Xl1 type. GINI 8.2; run; lf first X08 then dol, SUMOFF = 0: PERPOP = Oi proc transpose data == gini5 out = gini6 prefix =GINI; end; by Xll: SUMOFF + (Y001 * COUNT) id X08: PERP()P + PERCENT; var GINI; runi runi proc sort 6616 = gini2, by Xl1 X08 descending SUM0FF; proc report data = gini6; ″ oolumns Xll(″ 年 間収 入の ジニ 係 数 ″ ″ ″ 主 の性別 (″ 1:男 GINll)(″ 21女 GIN12) ′ ′ 帯 GIN19)))i ″ define Xl1/″ 家族 分 類 order: ″ define GINl1/″ ″ define GIN12/″ ′ ″ run; data gini3; set gini2; : by X11 X08 descendine SU|[4OFF if first.X08 then do; i define CIN19/″ run; quiti T0TAL0FF = SUM0FF; end; reta i n T0TALOFF; 8 524 │ (″ (″ 世帯 全世
付 録 2:規 定課題 図表 課題 1)家 族分類 、世 帯 主の性別 毎 の年 間収入の要約 平均饉 養 鷲 標準 偏差 ││ 世帯主の 性別 世帯主総 性別│ 性別 1:男 2:女 全世帯 1:男 2:女 全世 帯 1:単 身世帯 416 266 338 267 165 2:夫 婦の み 世帯 557 589 557 361 3:二 世代世帯 738 686 732 家族分類 世帯数 1 1:男 2:女 全世帯 232 3,187.182 3,432,001 (],619,133 331 360 7,60Q340 143.501 7,744,344 873 366 373 11,709,238 147,052 11,850,230 378 1,∞ 3,841 1,324,421 2.328′ 262 2.545,855 21Q980 2,756.335 │ 4:二 世 1li(ひ とり親 )世 帯 689 453 55日 4〔 2 ‐ 126 5:三 世代世帯 t123 677 904 459 421 461 6:モ の 他の 世帯 778 571] 724 456 429 458 428,659 153,734 582,393 全世帯 662 350 610 396 231 396 26,475,615 5,411,692 ]1,387,307 課題 2)家 族分類 、世帯主の性別毎のジニ係数 年間収入のジニ係数 世帯主の性別│ ●│̀││ 111男 21女 震 家族分類 : 全世帯 1111‐ 111:議 1:単 身世帯 031 032 034 2夫 婦のみ世帯 031 031 031 3二 世代世帯 026 028 026 4二 世代(ひ とり親)世 帯 03D 0〔 3 035 5三 世代世帯 026 034 027 6そ の他 の世帯 01:〕 Э 0‑1 032 士世帯 031 038 01:3 付録 3:自 由課題 SASプ ログラム 紙面の者F合 ̲上 、割愛するが、プログラムの可言 売1生 、SASマ クロや酉 己 列を利用してプログラムコード重複の]非 除に酉己 慮してプロ グラミングをイ テつた。なお、SASプ ログラムは、Web Appendixと して公開予定である。 525
付 録 4:社 会 保 険料 (2004年 )の 詳細 厚 生年金 =年 収 × 0.06967(整 数 になるよう四捨 五 入 ) ただし、月収が 62万 、賞与 が 150万 を超 える場合 は、それぞれ超 過分が無視 されることから +150× 2回 =1′ 044万 円を上 限として計算する。 年収 62× 12ヵ 月 健康保険 =年 収 × 0.04100(整 数になるよう四捨五入 ) ただし、月収が 121万 、年間賞与が 540万 を超える場合は、それぞれ超過分が無視されることから 年収が 121x12ヵ 月 +540万 を =1′ 992万 円を上限として計算する。 雇 用保 険 =年 収 × 0.00700(整 数 になるよう四捨五入 介 護保 険 =年 収 × 0.00555(整 数 になるよう四捨五入 ) ) ただし、世帯主の年 齢が 40歳 以 上 、64歳 以 下の場合 に適 用する。 付 録 5:2004年 の 個 人 所 得 課 税 にお け る 各 種 控 除 や 税 率 の 詳 細 給 与所得控 除 年収額 給与所得控 除額 162.5万 円以下 65万 円 162.5万 円超 〜 180万 円以下 収入金額 ×40% 180万 円超 〜 360万 円以下 収入金額 ×30%+18万 円 360万 円超 〜 660万 円以下 収入金額 ×20%+54万 円 660万 円超 〜 000万 円以下 収入金額 ×10%+120万 円 1′ 1′ 000万 円超 〜 1′ 500万 円以 下 収入金額 ×5%+170万 円 1′ 500万 円超 〜 245万 円 所得控 除 所得税 住 民税 適用条件 基礎控 除 38万 円 33万 円 全世帯に適用 配偶 者控 除 38万 円 33万 円 全世帯に適用 。標 準 世 帯 (配 偶 者の所 得 なし)の ため。 扶養控 除 38万 円 33万 円 15才 以下の子 に対 して適 用 控 除額に以下 の該 当数を乗 じた 1)未 就学児 の有無 =有 2)学 校給食費 >0 特 定扶養控 除 63万 円 45万 円 16才 以上 23才 未 満 の子 に対 して適 用 学校 に通 う世帯 員の有無 =有 の世帯 に対 して 該 当数 2:未 就 学 児の有無 =無 かつ学校 給食費 =0 該 当数 1:未 就 学 児の有無 =有 かつ学校給食賣 =0 10 526
なお、保 険料控 除 、医療 費控 除等 は考 慮 していない。 所得税率及び住 民税 率 課税所得 =年 収 ― 給与控除所得 ― 配偶者控除 ― 扶養控除 ― 特定扶養控除 ― 基礎控除 ― 社会保険料控除 住 民税 率 〜 200万 円 596 33万 円 〜 700万 円 1096 10万 円 3096 123万 円 700万 円 〜 139も 31万 円 4096 249万 円 所得税 率 〜 330万 円 1096 〜 900万 円 209る 〜 1′ 800万 円 800万 円 〜 1′ 控 除額 課税所 得 課税所得 控除額 (課 税所得 は 1′ 000円 未満切 り捨 て、所得税及び住 民 税 は 100円 未 満 切 り捨 て) 昇進 がある場合を除いて、前年 の なお、厳 密 には、住 民税 は前年 の所 得 によって計算 されるが、勤 労世 帯であれ │よ 転職 。 所得 と今 年の所 得 の相 関は高 いと思われることから、解 析 結 果 に大きな影 響 はないと考えた。 定率減税 住 民税 所得税 減税 率 上限 減税 率 上限 209る 25万 円 1596 4万 円 付録 6:平 成 30年 度 税 制 改正 による個 人所得 課 税 の計算方法 の変 更点 給与所得控 除 (平 成 30年 度 税 制改正 法 ) 年収額 給与所得 控 除額 162.5万 円以 下 55万 円 162.5万 円超 〜 180万 円以 下 収入金額 ×40%‑10万 円 180万 円超 〜 360万 円以 下 収入金額 ×30%+8万 円 360万 円超 〜 660万 円以 下 収 入金 額 ×20%+44万 円 660万 円超 〜 850万 円以 下 収入金額 ×10%+110万 円 850万 円超 195万 円 〜 ただし、23才 未 満 の扶養 親 族 がいる標 準世帯 は、所 得 金 額 調整控 除 として【 (給 与収 入 850万 円 )X10%】 が給与所得 から控 除される 所得控 除 (平 成 30年 度税 制 改正法 ) 年収額 〜 2′ 595万 円以 下 基礎控 除額 所得税 住民税 48万 円 43万 円 2′ 595万 円超 〜 2′ 645万 円以 下 32万 円 29万 円 2′ 645万 円超 〜 2′ 695万 円以 下 16万 円 15万 円 2′ 695万 円超 〜 適用なし 適用なし 11 527 (1′ 000万 円を限度 )一
年収額 配偶 者控 除額 〜 1′ 120万 円以 下 所得 税 住民税 38万 円 33万 円 1′ 120万 円超 〜 170万 円以 下 1′ 26万 円 22万 円 1′ 170万 円超 〜 220万 円以 下 13万 円 11万 円 1′ 220万 円超 〜 適用 なし 適用なし 1′ 扶養控 除 所得税 住 民税 適用 条件 38万 円 33万 円 16才 以 上 19歳 未 満の子 に対 して適 用 学校 に通 う世帯 員の有無 =有 の世 帯に対 して 該 当数 2:未 就学児の有無 =無 かつ学校給食 賣 =0 該 当数 1:未 就学児の有無 =有 かつ学校 給食 費 =0 特定扶養 控 除 63万 円 45万 円 19才 以 上 23才 未 満の子 に対 して適 用 学校 に通 う世帯 員の有無 =有 の世帯 に対 して 該 当数 2:未 就学児の有無 =無 かつ学校給食 買 =0 該 当数 1:未 就学児の有無 =有 かつ学校 給食費 =0 所得税 率 (平 成 25年 度税 制 改正法 )及 び住民税 率 (平 成 18年 度税 制改正法 ) 課税所得 所得税 率 〜 195万 円 5% 〜 330万 円 1096 97′ 〜 695万 円 2096 427′ 500円 〜 900万 円 2396 636′ 000円 〜 1′ 800万 円 339も 1′ 〜 4′ 000万 円 4096 2′ 796′ 000万 円 〜 4596 4′ 796′ 000 4′ 控 除額 課税所得 住 民税 率 ―律 1096 500円 536′ 000円 000円 FI] (課 税所 得 は 1′ 000円 未満切 り捨 て、所 得税 及び住 民税 は 100円 未 満切 り捨 て) 528 控 除額
共働 き世帯 と片働 き世帯 の収入 ・ 支 出動 向 の比 較 〜子供 の数 と妻 の働 き方 を考慮 した分析 〜 応 募部 門 :Bク ラ ス (SASま た は ■● の使 用歴 3年 未 満 ) チ ー ム名 :MOUNTAINS 中 山 貴公 、 山川 雄也 (株 式会社 浜銀 総 合研 究所 情報 戦 略 コ ンサル テ ィ ング部 ) Comparison of income and consumption trends of dual-income households and households with a fulltime homemaker (Analysis considering the number ofchildren and how spouses work) Yoshimasa Nakayama, Yuya Yamakawa Hamagin Research Institute, Ltd. 要旨 増加 傾 向にあ る共働 き世帯 の収入 。支 出両面 の特徴 をつ かむ こ とを 目的 と し、 SASユ ー ザ ー 会世話人 に よつて作成 され た 「新疑似 ミク ロデ ー タ」を用いて分析 を行 った。そ の際 、便 宜的ではあ るが、共働 き 世 帯 にお いて妻 の収入 が一定水準 よ り低 い 世帯 を「妻 パ ー ト」世 帯 、一 定水準 よ り高 い世 帯 を 「妻 フル タ イ ム 」世 帯 と切 り分 け るこ とで、妻 の就 業形態 を考慮 で き るよ うに した。 分 析 の結果 、世 帯全 体 の収入 にお いて は片働 き世 帯 と妻 パ ー ト世帯 の 間 で は大 きな差 は な い が 、フル タ イ ム 世 帯 との間で は大 きな差が見 られ た。 また、子供 の数 が増 え る と共働 き世 帯 内 の妻 パ ー トの割合 が 上 昇 す る ことが示 され た。支 出面 にお い て は、子供 の数 が増 えるほ ど、また妻 の就業形態 が フル タイ ム に 近 づ くほ ど、食料や 教 育費 にかか る支 出が 高 まる。そ の しわ 寄せ が預貯金純 増 分 に現れ てお り、特 に子育 て 中 の妻 専業 主婦世 帯 ・ 妻 パー ト世 帯 で 預貯金 が増や せ て い な い 世 帯 が 多 い こ とが示 され た 。 キー ワー ド:共働 き世帯、消費支出、預貯金、新疑似 ミク ロデ ー タ、平成 16年 全国消費実態調 査 1.は じめに 近年、女性 の社会進 出が進み、共働 き世帯が増加 してきた (図 表 1)。 そ うした 中で、核家族世帯や DNKs (子 供 を持たない共働 き夫婦)世 帯が増加 し、日本社会 における家族 のあ り方 が変わって きた。世帯類型 の変容 の背景には女性 の社会進出のみな らず、家計における経済的な側面 も影響 しているのではないだ ろ うか。 そ こで本分析では、「平成 16年 全 国消費実態調査」の匿名デ ー タをもとに SASユ ーザー会世話人によ って作成 された 「新疑似 ミクロデー タ」を利用 し、夫婦 の働 き方による収入や支出動向の違 いか ら生活ぶ りを比較 し、特徴 を見出す ことを 目的 とす る。その際、一 口に共働 き世帯 と言 って も、妻 がパー トタイマ 529
― で あ るか、 フル タイ ム就 労 であ るか に よって 、世 図表 1 専業主婦 世 帯 と共働 き世 帯数 の推移 帯 全 体 の収入 の水 準 や ライ フスタイル に差 が あ る と 考 え られ る。 しか し、新疑似 ミク ロデ ー タには世帯 主 の 配 偶者 の就 業形 態 につ いての項 目は含 まれ てい 水 準 (後 述 )よ り低 い 世 帯 を 「妻 パ ー ト世帯」、高 い 世 帯 を 「妻 フル タイ ム世 帯」 とみ なす こ とで、妻 の ︵ 梃 コ 長 ︶轟 撻 ヨ な い。 そ こで 、共働 き世 帯 の 中で も妻 の 収入 が一 定 ● ̲.` イ や 0̲0 螢 ⇒ 鋭帯 ︒ 一 ↓ 期 ● 業 一 専 働 き方 を考慮 した比 較 を行 う。 ● 2.分 析 対象 お よび 抽 出条件 %%%%%%%%%%%%%%ヽ 分析 対象 は 「夫婦 の み世帯」お よび 「夫 婦 +子 供 (う ち 1人 以上 が未 就 学児 )の 二 世代 の世 帯」 とす る。 これ は、で き る限 り収入面での条件 をそ ろえた 多 年 (注 )「 共働 き世帯」 は夫婦ともに非農 林 雇用者の世帯。 「専業主婦世帯」は夫が非農林 業雇用者で、 妻 が非就業者 (非 労働 力 人 口及 び完 全失業者 )の 世帯。 (注 )2010〜 2012年 の点線 の系列 は、岩 手県、宮城県及 び福 島県 を除いた値。 出所 i総 務省「労働力調査」 上 で 片働 き世 帯 と共 働 き世 帯 を比 較 す るた めで あ る。 例 えば、「二 世代 の 世帯」で就 業人員 が 2人 であ った 場合 、夫婦 とそ の親 夫婦 との二世 代 の世帯であ れ ば、夫婦の共働 きで はな く、夫婦 と親 夫 婦 の うち 1人 ず つ が働 いてい る とい うケー ス も考 え られ るた めで あ る。 この よ うな背景 を踏 ま え、以下 の 図表 2に 挙 げた条 件 全 て を満 たす 世 帯 を分析対象 と して 抽 出す る。 二 世 代 の世帯 にお い て 、先 に述 べ た例 の よ うに親世 代 との 同居 とい うケ ー ス を除 くた め 、未 就 学児 の有 無 を抽 出条件 に含 めて い る。 これ に よ り、二 世代 の世 帯 にお いて、世帯人員 (X03)が 3で あれ ば 「夫婦 +子 供 1人 世帯」、4で あれ ば 「夫婦 十子供 2人 世帯」、 5で あれ ば 「夫婦 +子 供 3人 以 上 世 帯 」 とい う解 釈 が可能 とな る。 一 方 で 、就学後 の子供 しかい ない 世 帯 は分析対象 か ら除 い てい るこ とに は留意す る必 要 が あ る。 図表 2 分析対象 の抽 出条件 世 帯 区分 主 が男性 の 世 帯 主 の年齢 に 家族 分類 ‐ 1 ※ 世 帯 主の性 別 に ‐ 1 ※ <‐ の の 10 lxr rinrz l に lxtz = z 未 就 学 児 の有 無 (二 世 代 の 世 帯 に 限 り 公 的 年金給 付 配 偶 者 が ω歳 以 上 で 年 就業人員 図表 3の 【 片働 き・ 共働 きの判 定条件 】 の 判 定結果 と整合 的な ケー ス に限定 :を 受 給 して い る ケ ー ス を ̀ :く (※ 4) lYor8 : o 片働 き世帯 の場 合 IX(4‐ 共働 き世帯 の場 合 IX(И =2 1 (※ 1)「 勤 労 者 以 外 の 世 帯 」 は 世 帯 主 の 月 収 が 調 査 され て い な い た め 。 (※ 2)全 国 消 費 実 態 調 査 に お け る 「世 帯 主 」 は 登 記 上 の そ れ で は な く 、 主 た る 稼 ぎ 手 の 意 で あ る た め 。 (※ 3)二 世 代 の 世 帯 の 家 族 構 成 を 「世 帯 主 夫 婦 +未 婚 の 子 」 に 限 定 す る た め 。 (※ 4)経 常 的 な 収 入 の 条 件 を な る べ くそ ろ え る た め 。 片働 き 。共働 きの 判 定条件 は図表 3の 通 りで ある。抽 出条件 で世帯主 を男性 に固定 してい るた め、世帯 主 を夫 、そ の配偶者 を妻 と読み替 える こ とがで きる。抽 出条件 に挙 げた 「就 業 人員 」とこの 判 定条件 が整 合 的 で な い場合 (例 えば 「片働 き世帯」 と判 定 され た の に就 業人員 が 2人 で あ るケース)や 、夫婦以外 の 世 帯員 の収入 が発 生 して い るケー ス が少 数 で はあ るが存 在 す るため、そ うした世 帯は上記 の 表 で述 べ た 通 り、分析対象 か ら除 く。 530
また 、先述 した よ うに 「新 疑似 ミク ロデ ー タ」には配偶者 の 就 業形態 の情報 は掲載 され てい な い。そ こ で、本研 究 では便 宜的 に月 ご との妻 の 勤 め先 か らの収入 を 12倍 した もの を妻 の年収 とみ な し、それ が 配 「 偶者 特別 控 除 の無 くな るボ ー ダー ライ ンで あ る 141万 円を超 え る世帯 を 妻 フル タイ ム」世帯 、超 えな い 世帯 を 「妻 パー ト」世帯 と判 定す る。なお 、先 に述 べ た抽 出条件 で世帯主 の性 別 を男性 に限定 してい るた め、「配 偶者 の勤 め先収入 」 が妻 の勤 め先 か らの収入 を意 味す る。 図表 3 分析 対象 内における就 業 形 態 の判定条 件 lvooo, o, vooz : o, Yoo8 : o lvooo, o, vooz, o, Yoo8 : o 片働き・共働き 片働き世帯 の判定条件 共働き世帯 世 帯主 のみ に勤 め先 収入 が ある (※ 1) 世帯 主 とそ の配 偶者 の み に勤 め先収入 が あ る (※ 1) 妻の就業形態 妻 パ ー ト の判定条件 妻 フル タイム 超 (※ 2)̲」 ェ∞7*12>141∞ ∞ 共働 き世帯 の うち、配偶者 の 勤 め先収入 が年 間 で 141万 南 き世 の の Ⅲ12く で 141万 円 以 下 め =・ 1410000 ̲ べ く 、 Y008(他 の 世 帯 員 の 勤 め 先 収 入 )=0を 条 件 に加 え て い る 。 い た 141万 円 は 配 偶 者 特 別 控 除 が 無 くな る収 入 の 水 準 (い わ ゆ る 「141万 円 の 壁 」 )で あ る こ とや 、 (※ 1)子 供 が 働 い て い る な ど 、 夫 婦 以 外 の 働 き 手 が い る ケ ー ス を 除 く (※ 2)本 分 析 で 境 界 の 値 と し て 用 抽 出 した 共 働 き 世 帯 3,421件 に お け る妻 の 勤 め 先 収 入 に お い て 、 141万 円 以 下 で あ る割 合 が 約 52.6%と な り、 2004年 の 労 働 力 調 査 に お け る 共 働 き 世 帯 に 占 め る 妻 の 労 働 時 間 が 0〜 34時 間 で あ る 世 帯 の 割 合 (554%)に 近 い こ とか ら選 定 した 。 以 上 の 条件 に よ り、「新 疑似 ミク ロデ ー タ」 の 69,131世 帯 か ら 8,972件 (乗 率 を用 い な い場合 )が 抽 出 され る。妻 の就業形態や世 帯人数 に よる内訳 は図表 4に あ る通 りである。また 、図表 5か らは、子供 の数 が 増 え る と妻 パー トの割 合 が増 え、妻 フル タイ ムの割合 が減 少 す る こ とが分 か る。 結婚 時 に は共働 きで あ った と して も出産 を機 に離職 す る世 帯や 、子 育 て が落 ち着 い て もフル タイ ム で の職場復 帰 はせ ず 、 パ ー トの よ うな短 時 間労働 で 家庭 との両立 を図 ろ うとす る世 帯 が 多 い様子 が うか が える (こ の 点 につ いて 「 ︐ 8 1 7 0 一 5 一3 一 8 6 3 :│:: :構 ':鶴 鱗 一 8 一〇 7 3 5 一2 8 4 3 8220 09一 45 2 2 4 2人 (夫 婦 のみ ) 乃蒻美 婦 +子 2人 )15人 (夫 婦 +子 0人 )以 上 百 辣 蝠輻 爾 函面餃 麒 凸轟 885 趙麒 鐵藝 百 ::1鶉 ̲̲̲螂 隋涸 ̲̲堅 ユ屁 魏鮭 ̲幽型 一 鋏 蝙 一錮 鉤 一 2 2 7 世 帯分 類\ 世 帯 人 数 隕 8 一6 9 7 1 一4 ■ 柚 出対象全体 3人 〈 夫 婦 +子 1人 ) ) 876 9 一 3 一7 2人 (夫 婦 のみ 寧繊:18漱 筆 魃 世 帯分類 \ 世 帯 人 数 一 一 魃 靱 鰊 魃魃 靱 蘊 は比較 の 内容や分析対象 、分析 デ ー タは異 な るが、井 上・ 矢 田[1]と 概 ね同様 の 示唆 とな る)。 図表 4 分析 対象 内の妻の就 業形態別世帯分類 お よび世帯人数別 世 帯数 ・ 構成 比 6111輻 :│' 3791難 363 :漑 1 152 1800 1621 1:̀:麟 i蒲 朦雉 絣 ″蔽 滲:::魃蒸 眈 蹂絣憲 3261攘 鐵 鑢 : lコ :藩 書::鑢‐ :蚕 霧蘊 畿 「膠覇 :「 1251麟 '国 ̀:難 368 蒸 計 :'::::│:::│ミ 鑽熙 : '::│::lit1 38161 9 驚 磯爾 201 :5 議 議 機 181 :懇 :擬 109 」対 象 全 体 図表 5 分析対象 内の世帯 人数別 に見 た妻 の就業形態割合 の違 い 颯≪ t 3人 (夫 婦 +子 l 5人 (夫 婦 + 構成 比 抽 出対象 において、世帯人員 ごとの年齢構成 の分布 (図 表 6)を みると、世帯人員 3人 以上では 30代 付近 にボ リュームゾー ンがあ り、世帯人員が多 くなるほど世帯 主 の年齢 が高 い世帯 が多 くな ってい る。 一方、世帯人員 が 2人 (夫 婦 のみ世帯)の 場合は 40代 の構成比 も高い。夫婦 のみ世帯 の中に、子供 がい ない夫婦 と子育てがすでに終わ った夫婦 が混在 していることが要因と考 えられ る。 531
図表 6 世帯人員別 に 見 た年齢構 成 の分 布 世帯 人員 =2人 世 帯 人 員 ‐ 3人 世帯人員 =4人 世 帯 人 員 =5人 以 上 ヽ や I ゛ ``` ` 言` 電ヽ く` 《` 《` 《 熙Ъ M`ぼ 還《ゎ 呻M`ぼ` 《` 環` 、 くヽ ぼヽ 環ヽ 炎 世 帯 主 の年 齢 3.収 入 面 の 分析 ・ 考 察 世 帯全 体 の収入 (「 年 間収入 (単 位 万 円)」 )は 平均値 ・ 中央値 ともに 、妻 フル タイ ム世 帯 と他 の世帯分 類 との 間で大 きな差 がみ られ た (図 表 7)。 また 、箱 ひ げ図 (図 表 8)か ら分 か る通 り、妻 フル タイ ム世 帯 は他 の世帯分類 と比 べ て 「ひ げ」 が 長 く、他 の世帯分類 と比 べ て分布 の裾 が長 い こ とが 分 か る。 一 方 、世帯主 (夫 )の 勤 め先 収入 は妻 パー ト世帯 が他 の 世帯分類 と比 べ て低水準 とな って い る。この こ とか ら妻 パ ー ト世 帯 は夫 の収入 が足 りな い 分 を埋 め合 わせ るために妻 が パ ー ト労働 に従 事 している と考 え られ る。 図表 7 世帯分類 ごとの 平均年齢 ・ 年間収 入・ 世帯主 (夫 )の 勤め先収 入 世 帯数 年齢 ※平均年齢は符号表における各階級の中央値に置き換えて算出した。 (例 えば.「 25〜 29歳 」は27歳 とみなした。また、 「24歳 以下」は22歳 とみなした。) 図表 8 世帯分類 ごとの世 帯全体 の年間収 入 の 箱 ひ げ図 騒ぐ 証ヨ ﹁ 吹鞭 ミ 米 S C 椰 ・Щ く t コ 一 201̲2人・片働 き(妻 専 業 主婦 ) 202̲2人・共 働 き(妻 パ ー ト ) ― ―― ―‐ ―‐ ―‐ ―‐ H ―‐ ―‐ ―一 ― ―‐ 燿 鐵 饉 爾 1目 饉 爾 鐵 ―‐ ―‐ ―‐ ―‐ ―‐ ―‐ ―‐ 203̲2人・共 働 き(妻 フル タイム) 301̲3人・片働 き(妻 専 業 主婦 ) 302̲3人・共働 き(妻 パ ー ト ) 303̲3人・共 働 き(妻 フル タイム) ― ― ― ― ― ― ― ― ― [======亜Σ 一― ―― ・ 一― ====コ 401̲4人・片 働 き(妻 専 業 主婦 ) ー ー ー ー ー ー ー ー ー ー ー ¬ ー ー ー ー ーー ーーー 402̲4人・共 働 き(妻 パ ー ト) 403̲4人・共 働 き(妻 フル タイム) 501̲5人 以 上・片 働 き(妻 専 業 主婦) 502̲5人 以 上・ 共働 き(妻 パ ー ト) 503̲5人 以 上・共 働 き(妻 フル タイム) 200 1200 600 年 間収 入 (単 位 万 円 ) (注 )「 ひ げ」は箱 の上端・下端 か ら四分位 範 囲 X15ま での範 囲で最も離 れ た観 測値 まで伸 び ている。[2][3] (注 )こ の箱 ひ げ 図では 外 れ 値 の出力を抑制 している。 532 1400 1600
4.支 出面 の 分 析 ・ 考 察 4.1.消 費支出 世帯人員・妻 の就業形態 ごとに消費支出の うちの 10大 費 目の構成比をみる と、人数が増 えるに したが って 、食料や教育 に対す る支出の消費支出全体 に占める割合が増 えることが分かる (図 表 9)。 図表 9 世帯分類 ごとにみた消費支出全体に占める 10大 費 目の構成比 201̲2人・片 働 き(妻 専 業 主婦 ) 202̲2人・共働 き(妻 パ ー ト) 203̲2人・共働 き(妻 フル タイム) 301̲3人・片働 き(妻 専 業 主婦 ) 野ぐ 韮コ 302̲3人・共働 き(妻 パ ー ト) 303̲3人・共働 き(妻 フル タイム) 401̲4人・片働 き(妻 専 業 主婦 ) 402」 人・共働 き(妻 パ ー ト) 403̲4人・共働 き(妻 フル タイム) 501̲5人 以上・片働 き(妻 専 業 主婦 ) 502̲5人 以上 。 共働 き(妻 パ ー ト) 503̲5人 以上・共働 き(妻 フル タイム) 100% 80% 40% 20% 0% 構成 比 ● Ot 睡 04̲家 具 品 圏 た だ し、世帯人員 や 妻 の就 業形態 に よ って 消費支 出 の 総 額 の水 準 に差 がみ られ るた め、構 成 比 だ けで な く、実額 も考慮す る必 要 が ある。そ こで 、実額 (平 均値 )を 見 る と、消費支 出全体 の規模 は世 帯人数 が増 え るほ ど増加 し、同 じ世帯人数 の 中 で は妻 の就業形 態 に よつて も差 がみ られ る (図 表 10)。 また、構成 比 で 見 た際 に、消費支 出全体 に 占め る割 合 が増 えて い た食 料 や教 育 に対す る支 出 は、実額 の水 準 にお い て も世 帯人数や妻 の就 業形態 に よって 差 がみ られ る。 図表 10 世帯分類 ご とにみ た消費支 出全 体 お よび 10大 費 目へ の支 出 (実 額 ) 世帯主 ●■,豪 1,,0 「食 料」〜「その他 の 消費 支 出」の合 計が消費支 出全体 と一 致 しな い場 合が ある。 ※ 平 均値 は小数 点以下を丸めているため、 食料 への支出について見る と、食料全体への支出は世帯人数 が増 えるほど増加す るとともに、妻 フル タ イ ム世帯においては調理食品や一般外食 へ の支出額 が 多 い点が共通 してみ られ る (図 表 11)。 一方、世帯 人員 が増 えると調理食 品へ の支出が増 え、一般外食 へ の支出が減 る傾向がみ られる。外食 を減 らし、自宅 での食事 を増やす ことで食費 の抑制 を図 ってい ると考 え られ る。 また、消費支出内における住居 へ の支出は、世帯人数 が増 えることで平均的に減少 してい るよ うに見 え るが、消費支出には住 宅 ローンの返済が含まれて い ない ことに注意す る必要がある。実支 出以外 の支出 533
に含 まれ る「土地 家屋 借 金 返済」が 0円 超 で ある世帯 の割 合 は、世帯人 数 が 増 えるほ ど大 き くな る傾 向が み られ る。 図表 11 世帯分類 ご とにみ た食料 お よ び住 居 へ の支 出 (実 額 )の 詳細 住居 (単位 :円 ) 調理食 品 全体 うち家責地 金 返 済 >0 の 世 帯割 合 人・ ヾ― 卜) 4.2.預 貯 金 ・ 保 険 消 費 支 出以外 の代表 的 な支 出項 目と して 、預貯金 と保 険 の 純増分 を算 出 し、平均値 と中央 値 を確認 した ところ、預貯金 につ い て は妻 フル タイ ム 世 帯 とその他 の 世 帯 の 間に大 きな水 準 の開 きがみ られ た (図 表 12)。 特 に世帯人数 3人 以 上 の片働 き世 帯 と妻 パー ト世 帯 にお いて は、平均 値 。中央値 が 相 対 的 に低 い 水 準 とな っ てい る。また 、預貯 金純増 が マ イ ナ ス となる世 帯割 合 を見て も、片働 き世帯 と妻 パ ー ト世帯 にお い て は預貯金 を取 り崩 してい る世帯が 多 い こ とが分 か る。一方 、保 険 につ い て は、保険金 の 受 け取 りが発 生 してい る世帯数 が少 な い (分 析対象 の 98.7%の 世帯 で保 険 取金 が 0円 )た め 、預貯金 ほ ど大 きな水準 の 開 きは見 られ ない。 図表 12 世 帯分類 ご とにみ た食料 お よび住 居 へ の支 出 (実 額 )の 詳細 世 帯数 ※預貯金純増 と保険純増は以下の式で算 出した。 預貯金純増 =Y191(預 貯金)│― Y025(預 貯金 引出)保 険純増 =Y192(保 険掛金 )一 Y026(保 険取金 ) 5。 ま とめ 本 分析 で確認 で きた こ とをま とめる と、次 の 通 りで あ る。まず 、夫婦 を含 む核 家族世帯 にお いて 、夫婦 の み 世 帯 で あれ ば妻 が フル タイ ム で働 い て い る割合 が大 き い が 、子供 のい る世 帯 にな る と妻 専業主婦世 帯 が 増加 す る。しか し、子供 の数 が増 え る と妻 パ ー ト世 帯 の割 合 の上昇 に よ り、共働 き世帯割 合 が上昇す る。 世 帯年 収 は妻 専業 主婦 世 帯 と妻 パ ー ト世 帯 はほぼ同程 度 の 水準 であ るが 、 それ らと妻 フル タイ ム世 帯 の 間 に は大 きな差 が あ る。 収入 面 にお い て は世帯人 数 に よ る差 がみ られ な い一方 で 、支 出面 において は食 料 や 教 育 な ど、子供 の数 が増 える こ とでかか る費用 が 顕 著 に増加 す る項 目があ り、消 費 支 出全体 の 差 に つ な が ってい る。 そ の しわ 寄せ が預 貯 金 純増分 に現れ てお り、特 に子 育 て 中の妻専業 主 婦世帯 と妻 パ ー ト世 帯 では妻 フル タイ ム世帯 と比 べ て 預貯 金純増 分 の 水 準 が低 く、生 活 余 力 があま り無 い様子 が う かが え る。 534
こ うした子育て中の生 活余力 が乏 しい世帯 の 中には、子育てに重点を置 くためにあえて専業主婦や パ ー トタイ マー を選んでいる家庭 だけでなく、「妻 もフル タイ ムで働 きたいがで きない」といった家庭 も含 まれてい ると考えられ る。実際に、都市部 において待機児童問題 が深刻であることが、そのよ うな世帯 が 一定数 いることの証左であろ う。また、そ うした労働意欲 の ある人たちを活 かせ ない ことは、労働力不足 が顕著にな りつつ ある 日本社会にとって も損失 であるだろ う。待遇改善等 を通 した保育士の確保 によ り 地域 の保育需要を満 たす ことや 、企業における社員 の育児 を応援す る姿勢 (制 度面 だけでなく、雰囲気 も 含 めたもの)が 望まれ る。 参考 文 献 [11井 上 貴博 ・ 矢田徹 (2016)「 匿名デー タを用 いた夫婦共働 き世帯における子 あ り世帯 と夫婦 のみ世帯 の比較 :横 断研究」,『 SASユ ーザー総会 2016論 文集』,pp52‑61. [2]高 浪洋平 。舟尾暢男 (2015)『 改訂版 統計解析 ソフ ト「SAs」 』カッ トシステム . [3]SAS Institute hc.SAS(R)9.4 0DS Graphics:PЮ ccdurcs Guidc,Sixth Edition;Avallablc at: http://documentati。 .sas.cOrn/?dOcsctld=grstatprOc&dOcsetTargct〒 titlepagc.htm&dOcsctVcrsion=9.4&localc=ia (Acccsscd a July 4,2018) 535
付録 1規 定課題用 SASプ ログラム /*ラ イブラリ・出力用PDFフ ァィルの指定 */ %GLOBAL IN̲LIB OUT̲PDF; run %LET IN̲LIB =フ ォル ダパス; /*← 新疑似 ミクロデータの SASデ ータセッ トが入つているフォル ダパス を入力 */ %LET OUT̲PDF Eフ ォルダパス ;/*← 規定課題の表出力PDF を出力するフォルダパス を入力 */ prOC SOrt data = work income̲2 out = work. income̲3 by Xll X08: runi /*ラ イ プラ リ割 り当て */ 1ibname micro ′ ′ &IN̲LIB″ access =二 readOnly data work. income_4; merge work. income_3(where /*フ ォー マ ッ ト作成 */ = (X08 = l) rename = (mean = mean_1 stddev = stddev_'l sumyvgt = sumwgt_l)) work. income_3(where = (X08 = 2) rename = (mean proc format; = mean_2 stddev = stddev_2 sumwgt = sumwgt_2)) work. income_3(where = (XOB = 3) rename = (mean = mean_3 stddev = stddev_3 sumwgt = sumwgt_3)) 男 女 va I ue X08f by Xll: value Xllf keep Xll mean̲1 ‑ mean̲3 stddev̲1 ‑ stddev̲3 sumwgt̲1 ‑ sumwgt̲3; 1:単 身世帯 2:夫 婦 のみ世帯 3:二 世代世帯 4:二 世代 (ひ とり親 )世 帯 5:三 世代世帯 6:そ の他 の世帯 ' runi ' ' /*出 力は規定課題 2の デー タ後 にま とめて行 う */ ' ' 全世帯 規定課題 2:世 帯主 の性別別の年間収入 (万 円)の ジニ 係数 を小数点第2位 まで ' 計算用データセ ッ トの作成 :デ ー タセ ッ トを縦積み し、計 / 算用 のグルー プフラ グ (cuic̲fig)を 作 る 林 /メ 規 定課題 1:家 族分類毎、世帯主の性男球 別 お よび全世帯の年 間収入 (万 円)の 平均値 ヽ標準備差 と世帯数 data work. gini_1; set micro. zensho2004gi j imicro (keep /*出 力用デー タセ ッ トの作成 */ weight in = in_1) proc means data = micro. zensho2004gij imicro vardef = wdf mean stddev sumwgt nopr i nt weight in = in-2) micro. zensho2004gi j imicro(keep X08 Xll Y001 j imi cro (keep X08 Xll Y001 micro. zensho2004gi j imicro(keep X08 Xll Y001 mi cro. zensho2004gi weight in = in_3) welght in = in_4); class XOB XlI; var Y001 length culc̲flg S2 , weight weight; output out = work. income_1 mean X08 Xll Y001 if in_l eq 1 then do; - mean stddev = stddev sumwgt = sumwgt X0B_2 = X08; X11_2 = Xl1 run; end , else if in_2 eq 1 then do; X0B_2 = 3; X1l_2 = Xll; data work. income_2; end; else if in_3 eq 1 then do; X08_2 = X0B; Xl1_2 = 7, set work. income_l; if XOB = . then do; XOB = 3; end: else if in 4 eq l then do; end: if X1I = . then do, XOB2=3;X11_2=7: X11 = 7; end , 536
culc̲fig = cats(X08̲2,Xll̲2); run i run /*ジ ニ係数 を計算 ・後のデー タセ ッ トの転置 ・出力用 にX08 /*freqプ ロシジャでby変 数 に指定するため ソー ト */ とXllを 復活 させ る*/ proc sort data = work. gini_l out = work. gini-2 data work. gini_6; format X08 X11 culc_flg daisum ginicoef; set work. gini_5(keep = culc_flg daisum); by culc_flg; run; by culc_flg; /*freqプ ロシジャでグルー プごとの相対度数のデータを吐き format ginicoef 8.2 出す */ ginicoef = (0.5 - daisum) * 2 8 = input(substr (culc*f lg, l, 1) = input(substr (culc f lg, 2, 1) 8 proc freq data = work. gini_2 noprint; weight weight; by culc_flg; tables Y001 / out= work. gini 3 outcum; keep culc̲flg ginicoef X08 Xll: run; if last. culc_flg then output /*収 入 階級 ごとの収入 ×度数 の計算 */ data work gini̲4; set work gini̲3; ranksum=Y001*count; /*出 来 上 が ったデー タセ ッ トの転 置 */ /*収 入 ×度数 */ data work gini̲resulti merge work gini̲6(where = (X08 二 1) rename = (ginicoef = ginicoef̲1)) work gini̲6(where = (X08 = 2) rename = (glnicoef = ginicoef̲2)) work gini̲6(where = (X08 ・ 3) rename = (ginicoef = ginicoef̲3)): run /*計 算用 グループごとの収入の合計 (Σ (収 入 ×度数))を 持ったデータセッ ト (ghi 4a)を 作る */ by Xll: proc means data = work. gini_4 sum nway noprint; keep Xll ginicoef̲1 ‑ ginicoef̲3; class culc_flg; var ranksum output out = gini_4a sum = totalmoney; runi ; run: 図表 の 出力 1 /*gini 4aを gini 4に マー ジ し、ジニ係数の算 出に必要な数 値を算出 (収 入の相対度数など)*/ options nodate nonumber ; data work. gini_5 ; ods pdf file = ″ &OUT̲PDF¥kitei̲kadal pdf″ ; merge title'付 録2規 定課題図表 '; work. gini_4 work. gini-4a(keep = culc_flg totalmoney); by culc_flg; Ods layout start columns = l rows = 2; rankfreq=rankSum/tOtalmOney;/*そ の収入の相対度数 /*規 定課題 1*/ if first culc̲flg then cumrankfreq = 0; ods regioni */ Cumrankfreq+rankfreq;/*そ の収入額 の 累積相対度数 */ titlel'【 規定課題 1】 ': title2'家 族分類 ・世帯主 の性別毎 の年間収入 の平均値 ・標 dai = ( lagl(cumrankfreq) 十cumrankfreq ) * ( perCent /100)/2;/*台 形の面積 */ 準偏差 と世帯数 '; data _nul l-; if firSt.CulC̲flg then dal = Cumrankfreq * ( percent / 100 )/ 2; set work. income_4 end = E0F; if _N_ eq 1 then do; I odsout obj 0 obj. tabl e_start 0 ; if first culc̲flg then daisum = 0; dc daiSum+dali/*台 形の面積の和 */ 537 ;
1* 1't:e +i
run;
obj. row_start 0 ,
obj. format_cel I (data '', row̲span:3):
obj. format_cel I (data '世 帯主 の性別 ',column̲span:2);
obj. format_cel I (data '全 世帯 ',roLspan12,vjusti'M')
obj. format_cel I (data '世 帯主 の性別 ',column̲span:2):
obj. format_cel I (data '全 世 帯 ',roLspan:2,vj ustt'M')
obj, format_cel I (data '世 帯主 の性別 ',column̲spani2);
obj. format cel I (data '全 世帯 ',roLspan12,v」 ust:'M')
obj. row_end0;
/*規 定課題 2*/
ods region;
titiel'【 規定課題 2】 'i
title2'家 族分類 ・世帯主の性別毎 の年間収入のジニ係数
data _nul l_;
set work. gini_result end = EOF;
/*2行 日 */
obj format̲cell(data
obj. format_cel
obj. format_cel
obj. format_cel
obj. format cel
obj. format cel
obj. row_end0;
if _N_ eq 1 then do;
dc l odsout obj 0
男 女 男 女 男 女
Obi rOLStart();
;
obj. table_start0;
/* 1|1tr ,o/
obj. row_start 0
obj. format-cel I (data:'', row_span:3)
*'fft&',
obj. format_cel I (data:'4F'1{n/.O)
;
;
co I umn_span :3) ;
/*3行 日 */
obj. row_end0;
Obl.rOLStart():
',column̲spani3);
ob」 .formatre‖ (data:'平 均値
obj format̲cell(data:'標 準偏差', column̲spani3)i
',column̲spani3)i
ob」 format̲cell(data:'世 帯数
obj roLend();
i," 2fiA *i
obj. row_start 0 ;
obj. format-cel I (data
co I umn_span :2) ;
obj. format_cel I (data
obj. row_end0;
/*4行 日 */
Obi rOLStart()i
世帯主 の性 別 ',
金世帯 ',row̲Span:2);
i* 3{sR *i
obj format̲cell(data:'家 族分類');
obi format̲cell(data:'', column̲spani3);
obj format̲cell(datal'', column̲span:3);
obj.format̲cell(data:'', column̲span:3);
obj. row_start 0
obj. format_cel I (data
obj. format_cel I (data
obj. row_end0;
;
obj.roLend();
1:男 ')
2:女 ')
i* 411d */
end;
obj. row_start 0
obj. format cel
obj. format_cel
obj. row_end0;
;
/*デ ー タの中身 出力 */
obj. row_start 0
obj. format_cel I (data:X]1, format:'X]1f.',
style-attr:' just = L background = white' )
obj. format-cel | (data:mean_], format:'8.',
;
I
I
家族分類 ');
', oolumn̲spani3)
end
;
style_attr:'just = R background = very I ight yel low');
/*デ ー タの中身出力 */
style_attr:'.just = R background = very I ight yel low');
obj. row_start0;
obj. format_cel I (data:mean_2, format:'8.',
obj. format_cel I (data:mean_3, format:'8. '
,
style_attr:'just = R background = very I ight yel low');
obj. format_ce I I (data: stddev_], format: ' 8. '
obj. format_cel I (data:Xl1, format:' Xl lf.',
style_attr:'just = [ background = white');
obj. format_cel I (data:ginicoef-1, format:' 8. 2',
,
style_attr:'just = R background = very I ight yel Iow');
style_attr:'just = R background - very I ight yel low')
style_attr:'just = R background = very light yellow');
style_attr:'just = R background = very I ight yel low')
style_attr:'just = R background = very light yellow');
style_attr:'just : R background = very I ight yel low')
obj. format_cel I (data:ginicoef_2, fornat.'8.2'
obj. format_cel I (data:stddev_2, format:' 8.',
obj. format_cel I (data:stddev_3, format:'8. ',
,
obj. format-cel I (data:ginicoef_3, format:' B. 2',
obj. format_cel I (data:sumwgt_1, format:'commal 1.',
style_attr:'just = R background = very I ight yel low');
obj. row_end0
obj. format_ceI I (data:sumwgt 2, fornal.'commal I.',
style-attr:'jus1 = R background = very I ight yel low');
obj. format cel I (data:sumwgt_3, format:'comma1l.',
if EOF then obj. table-end0
run;
style attr:'just = R background = very light yellow');
obj. row end0;
title ";
lf EOF then ob」
ods layout end;
ods pdf close;
table̲end():
538
付録 2規 定課題図表 【 規定課題 1】 家族分類・世帯主の性別毎の年間収入の平均値・標準偏差と世帯数 世帯主の性別 世帯主の性別 世帯主の性別 全世帯 1:男 2:女 全世帯 全世 帯 2:女 1:男 平均値 1:男 2:女 世帯数 標準偏差 家族分類 1:単 身世帯 416 266 338 267 165 232 3,187,182 3,432,001 6,619,183 2:夫 婦のみ世帯 557 539 557 361 331 360 7,600,840 143,504 7,744,344 3:二 世代世帯 733 686 732 373 366 373 11,709,238 147,052 11,856.290 4:二 世代 (ひ とり親 )世 帯 689 459 558 402 326 378 1,003,841 1,324,421 2,328,262 5:三 世代世帯 923 677 904 459 421 461 2,545,855 210,980 2,756,835 6:そ の他の世帯 778 576 724 456 429 458 428,659 153,734 582,393 全世帯 662 356 610 396 281 396 26,475,615 5,411,692 31,887,307 【 規定課題2】 家族分類・世帯主の性別毎の年間収入 のジニ係数 年間収入のジニ係数 世帯主の性別 1:男 全世帯 2:女 家族分類 1:単 身世帯 031 032 034 2:夫 婦のみ世帯 031 031 031 3:二 世代世帯 026 028 026 4:二 世代 (ひ とり親 )世 帯 030 036 035 5:三 世代世帯 026 034 027 6そ の他の世帯 030 037 033 全世帯 031 038 033 539
付録 3自 由課題用 SASプ ログラム
cld̲setal̲bunrui length=$3 1abel='世 帯人員 ・妻 の就
/*ラ イプラリ割 り当て */
libname micro 'フ ォルダパス'access=readonly;
業形態別世帯分類';
if tomo_flg ='l then do;
/*分 析対象 (n・ 8,972)の 抽 出 */
data kakukazoku;
set micro zensho2004gijimicro;
where X02 = l and X08 =‐ l and X09 ・く 1()and
Xll in (2, 3)and Y018 = 0;
fulltime = ifn(Y007*12 <= 1410000,0,1);
end;
else if tomo_flg = 0 then do; ful ltime = 0 end
else do; ful ltime = . ; end;
length hatarakite_f I g $3;
if missing(Y006) eq 0 then do;
if Y006 > 0 then do; Y006_flS ='l'; end;
else if Y006 = 0 then do; Y006_flg = '0'; end;
else do; Y006_fle = '9' ; end;
/*フ ォー マ ッ ト作成 */
end;
proc formati
setai_bunrui = cats(tomo_flg, ful ltime);
cld_setai_bunrui = cats(X03, tomo_flg, ful ltime);
run
else do; Y006_flg = '$' ;
value S setai̲bunrul̲f
'00'二 '01̲片 働 き (妻 専業主婦 )'
¬0'二 '02̲共 働 き (妻 パー ト)'
'11'='03̲共 働 き (妻 フル タイ ム)'
end;
if missine(Y007) eq 0 then do;
if Y007 > 0 then do; Y007_flg ='l'; end;
else if Y007 = 0 then do; Y007_fle ='0'; end;
value$cld̲setal̲bunrui̲f
'200'='201̲2人 ・片働 き (妻 専業主婦)'
else do; Y007_flg = '9' ; end;
/*(中 略 )*/
end;
else do; Y007_flg = '$'
'511'='503̲5人 以上 ・共働 き (妻 フルタイム )':
;
runi
end;
if missing(Y008) eq 0 then do;
if Y00B > 0 then do; Y008_fle = 'l'; end;
else if Y00B = 0 then do; Y008_flS ='0'; end;
else do; Y00B_fle = '9' ; end;
/*箱 ひげ図 (図 表8)の 再現 */
options orientation 二 landscape;
ods rtf file='フ ォルダパス¥hakohigel rtf' ;
%St%│力 四
θ
data hakohigeanno;
%∫′
万εr「(xlspace=″ graphpercent″ ,yl space=
″
end;
;
else do; Y008-flg = '9' ;
end;
graphpercent″ ,xl=2, yl=7, tabel=″ (注 )「 ひ │ザ 」
は箱の上端 ・下端 か ら四分位範囲 ×15ま での範囲で最 も離れ
″
た観測値 まで伸 びている。 [2][3]″ ,textcolor二 black″
′
textsize・ 10,width=100, anchor=′ teft″ )i
′
graphpercent″ , yl space=
%SF″
「 (xlspace=′
″
′
graphpercent″ ,xl=2,yl=3, label=′ (注 )こ の箱 ひ
″
げ図では外れ値 の出力を抑制 している。 ,textcolor=
′́
′
′
′
三′
black′ , textsize = 10, width = 100, anchor
left′ );
hataraki te_f I g = cats (Y006_f lg, Y007_f I g, Y00B_f I g)
if X04 = I and hatarakite_flg = ' 100' then do;
h_val id_flg = l; tomo,flg = 0; end;
else if X04 = 2 and hatarakite_flg = '110' then do
h-vaI id_flg = I; tomo_flg = I; end;
else do; h_val id flg = p tomo_flg = . ; end;
if Xl1 = 3 then do;
if Xl2 = 2 then do; c_val id_flg =
run;
ods graphics /height = 400px width
end
else do; c_val id_flg = 0; end;
二900px attrpriorlty
= none;
end;
else do; c_valid_flg = t;
end;
if h̲valid̲flg = , and c̲valid̲flg
,
二 l then output
run
proc sgplot data 二
= hakohigeanno
= kakukazoku̲2 sganno 二
pad = (bottom 二40pt );
styleattrs datacolors = (lightblue lightred
lightgreen) datasymbols = (circle square diamond);
hbox Y001 / category = cld̲setal̲bunrui group =
setal̲bunrui nooutliers iineattrs E (color 二black)
whiskerattrs = (color = black) meanattrs ・ (color ニ
/*片 働 き・共働 き (フ ルタイム/パ ー ト)フ ラグ ・変数作成
Set kakuka20ku;
black)medianattrs = (color = black);
xaxis values=(O to 1800 by 200)iabel二 '世 帯収入 (単 位
万円)';
format cld̲setai̲bunrul $cld̲setal̲bunr81 f
attrib
setai̲bunrui $setal̲bunrui̲̲f i
(一 部抜粋 )*/
data kakukazoku̲ ;
setai̲bunrui length=$2 1abel='妻 の就業形態別世帯分
run:
類
ods rtf closei
'
540
投資 を行 う世帯 に み られ る傾 向 ○武 政 孝 師 (株 式 会社 東 京 商 エ リサ ー チ ) 参加 部 門 :Bク ラ ス (初 心 者 ) Trend ofhouseholds investing Atsushi Tlakeinasa Ъけo Shob Rcscarch,LTD. 要 旨 平成 30年 の 高齢 社会 自書 に よ る と総人 口に 占め る 65歳 以 上 人 口の割合 (高 齢 化 率)は 27.7%で あ る。 今 後 も高齢化 率 は高 ま る傾 向 に あ り社会保 障費 の増 加 や貧 困高齢 者 問題 が懸念 され てお り、若 い 時期 か ら老後 を見据 えて 準備 を始 め る こ との重要性 が指摘 され てい る。日本政府 にお い て も「貯 蓄 か ら投 資 へ 」 とい うス ロー ガ ンの もと、確 定拠 出年金 (DC:Defined Contribution Plan)や NISA(Nippon lndividual Savings Account)な ど投資非課税 制度 を充実 させ 、個 人 での資 産 形成 を促す施 策 が とられ てい る。 本研 究で は、資 産形成 の手段 の 1つ として有 価 証 券 取 引 に注 目 し、「平成 16年 全 国消費実態調 査 」 の 匿名 デ ー タ を元 に作成 され た新 擬 似 ミク ロデ ー タ に て与 え られ た 世 帯 レベ ル の 情 報 を用 いて 有価 証 券 取 引 (投 資活 動 )を 行 う世帯 の傾 向 を明 らかに し、老後 を見据 えた 資産形成 を促 す 要 因 を特定す る こ と を 目的 として分 析 を行 った。 本研 究 を通 じて 得 られ た結果 と して 、投資活 動 を特 徴 づ ける項 目として企業 区分 。従 業員規模 が挙 げ られ た。 また 、複 数 の項 目を組 み合 わせ て考 察す る こ とで投資活 動 を行 う世帯像 が 推 測 され た。 キー ワー ド :新 擬 似 ミク ロデ ー タ 、世帯 レベ ル デ ー タ、投資活 動 、企 業 区分 、従 業員規模 1.投 資活 動 世 帯 の 定 義 本研 究で は、平成 16年 全 国消費 実態調査 を元 に作 成 され た新 擬 似 ミク ロデ ー タ を使 用す る。 投 資活 動 を行 ってい る世 帯 (投 資活 動 世 帯 )を 有価証 券購 入 (Y195)が 0よ り大 きい レ コー ドと定 義 した。 こ れ 以外 の世帯 を非 投資活動 世 帯 と呼ぶ こととす る。 投 資活動 には原 資 とな る資金 が必 要 とな るが 、年 間収入 に よって 預貯金 と投 資活 動 が どの程度影 響 す るか を確認 す る必 要 が ある と考 え、年 間収入 (Y001)を 並び 替 え 、四分位 点 に よつて表 1の 通 り 4つ の グル ープ に分 けて預貯金 の有 無 、有価証券購入 の 有 無 につ いて それ ぞれ ク ロス集 計 した。 541
表 1:年 間収 入 に よるグル ー プ分 け (単 位 :万 円) 年 間収入 グル ー プ 度数 17292 17300 17310 17229 平均 254.9 469.5 688.3 1197.3 標 準偏 差 83.6 55.0 75.5 389.7 最 小値 最 大値 374 375 567 568 830 6203 831 預貯 金 (Y191)が 0よ り大 きい世帯 を預貯 金 有 り世帯、そ の他 の世帯 を預貯 金無 し世帯 と して 、年 間 収入 グル ー プ とのクロス集 計 を表 2に 示す 。全 体 の 77.03%の 世 帯 につ いて は預貯金 が有 るこ とがわか る。 また 、年 間収入 グル ー プ別 にみ る とグル ー プ 1か ら 3に お いて は 8割 近 い 世帯 にお いて 預貯金 が有 る の に対 し、年 間収入が高 い グル ープ 4(以 下 、高収入世帯 )に お いて は収入 が 高 い に もかか わ らず 、預 貯金 有 り世 帯 が 7割 程度 とそ の他 の グル ー プ と比較 して少 な い こ とがわか る。 この要 因 を特定す るた め 預貯金 無 し高収入世帯 に つ い て 分析 を行 っ た ところ、97.5%は 勤労者 以外 の 世 帯 で あ った。 また、企 業 区分・ 規模 につい て民間 。自営 で従業員 規模 が小 さい程 、構 成 比 率 が 高 く、民 間 。自営 1〜 4人 で 48.3% を 占めて い た。 これ らの結 果 か ら、高収 入 世 帯 において貯金 有 り世帯が少 な い 要 因 は、個 人 事業主や個 人投 資家 の よ うな、法人 と して資金 を保 有 してい る世帯 を含 ん でい るた め と推 測 した。 表 2:年 間収 入 と預貯金有 無 の ク ロス集計 年 間収入 グル ー プ 合計 預貯 金 征 度数 3686 構成 比 行構 成 比 列構 成 比 5.33 23.21 21.32 13606 19.68 度数 有 合計 構成 比 行構成 比 列構成 比 度数 パー セ ン ト 3689 5.34 23.23 21.32 3519 5.09 22.16 20.33 13611 13791 4986 7.21 31.4 28.94 12243 19.69 19.95 17.71 25.55 78.68 25.56 78.68 25.9 79.67 17292 25.01 17300 17310 25.02 25.04 22.99 71.06 17229 24.92 15880 22.97 53251 77.03 69131 100 次 に有価 証 券購入 (Y195)に つ いて も同様 に 0よ り大 きい 世帯 を投資活 動世 帯 、そ の他 の 世帯 を非投 資活動 世 帯 と して 、年 間収 入 グル ープ との ク ロス集計 を表 3に 示す。全世帯 の 77.03%が 預貯金 を行 って い るの に対 し、投資 を行 ってい る世帯 は 4.88%と 少 ない。年 間収入 グル ー プ別 にみ る と年 間収入 が 高 い 程 、投 資 してい る世帯 が多 くな る傾 向が読 み 取れ るが高収入 世 帯 において も 8.2%と 預貯金 を保 有 してい る割合 か ら考 えて も投資活 動 を行 ってい る世 帯 は少 ない。 また 、年 間収入 の低 い グル ー プ 1,2に お い て も投資活動世 帯 が 存在 し、 どの グル ー プ にお いて も 7割 以 上 の 世 帯 が 預貯金 を して い る こ とを考 え る と投資活動 の 有 無 は収入 の格 差 以外 の要 因 が あ る と考 え られ る。 542
表 3:年 間収 入 と有価証券購 入 有 無 の ク ロス集 計 年 間収入 グル ープ 有価 証 券購入 缶 度数 17049 構成比 行 構 成比 列 構 成比 24.66 25.93 98.59 度数 243 0.35 7.21 構成比 行構成比 列構 成比 有 1.41 17292 25.01 度数 合計 16744 24.22 25.46 96.79 556 0.8 16.49 3.21 17300 25.02 行構 成比 16149 15817 23.36 24.56 93.29 22.88 24.05 91.8 合計 65759 95.12 3372 4.88 1161 1412 1.68 34.43 2.04 41.87 6.71 17310 17229 69131 25.04 24.92 100 8.2 2.投 資活動 世 帯 の世帯像 投 資 活 動世帯 の特徴 を把握 す るた め 、世 帯項 目毎 に全 世 帯 の構成 比 と投 資活 動世 帯 の構 成 比 を比較 し た。項 目 ごとの 2つ の構 成比 が近い値 を とって いれ ば、投 資活動世帯 は全世 帯 か らの無作為 抽 出 と考 え る こ とが で き、 当該項 目が投資活動 に関係 してい る可能性 が否 定 され る。 一 方 で、2つ の構 成 比 がかい 離 して い る場合 、当該 項 目は投資活動 世 帯 とな りうる要 因 を含 んでい る と考 え られ る。各 世 帯項 目につ い て 分析 を行 った 結果 、特 に 「企業 区分・ 従 業者規模 」と 「世 帯主 の年齢 」に大 きな かい 離 が み られ た。 。 「 まず 、投資活動世 帯 と全世帯 の構成 比 率 比 較 (企 業 区分 。従業者 規模 )を 図 1に 示す。 民営 自営 500人 以 上 」にお いて全 世帯 と投資活動 世 帯 に大 きなか い 離 が あ り、投 資活 動世帯 が 多 い こ とがわか る。 また 、従 業員規模 が大 きい ほ ど構成 比 が高 くな ってい る こ とか ら、従 業員 持 ち株会 の あ る企 業や株 式上 場 して い る企業が多 く、身近 に投資活 動 を行 える環境 が あ るのでは な い か と推測 した。 逆 に、高収入 世 帯 が 約 半数 を占め る官公 において投 資活 動 世帯 が少 な い の は、身近 にそ の よ うな環境 が整 ってい な いか らで は な いか と推測 され る。 「企業 区分 0従 業者 規模 」 の構 成 比 0 7 0 6 0 5 Ⅲ饉投 資活動 世 帯 ヽ ゝ鷺 」朦麟全 世帯 0 3 珀 0 2 0 1 騨 … 峰 罐 Pё π 彦 0 ハ″′ ̀ ″ ヽ― / ダ 命 ) ^,ヾ ヵつ︑ ´ cヽ ' ド ´ ヵOγ OY ` く / ― 】 、 、 ぶゝ マ . 0 多 参Y 珍 ダ´ ヽ― o卜う 〃lb) ´ ゝ ノ 0 4 一怪 磐 ︵ S︶コ プ 。 図 1:投 資活動世 帯 と全 世 帯 の構成比 率 比 較 (企 業 区分 従業者規模 ) 543
次 に 、投資活 動 世 帯 と全世 帯 の構 成 比率比 較 (世 帯 主 の年齢 )を 図 2に 示す。世帯 主 の 年 齢が 「35〜 39歳 」 か ら 「55〜 59歳 」にお いて かい 離 があ り、投 資 家活動世帯 が 多 い こ とがわか る。 一 方で、「60〜 64歳 」 の世帯 で は投 資活動世帯 の構 成 比 が全 世帯 を下 回 り、以降 「75歳 以 上 」 の世 帯 ま で下側 にかい 離 が あ る。 この こ とか ら、30代 中盤 か ら投資活 動 を行 う世帯が多 くな り 59歳 までそ の傾 向が続 くが、 勤 労世帯 にお い て退 職 す る年齢 にな る と傾 向が反 転 し、非投資活動世 帯 が 多 い ことが 読 み 取れ る。 この 結 果 か ら 60歳 以 上 の世帯は資産形成 に対 して保 守 的 に な り、投資活 動 か ら撤退 してい る (有 価証券 を 売 却 してい る)の で は ないか と推 測 し分析 を行 った が 、 この結果 につ い て は次章で述 べ る。 「世 帯 主の年 齢 」 の構成 比 8 6 4 鰤鰤爾投資活動 世 帯 2 0 8 6 ︵ S︶コ ^怪 準 4 ′ 」 〆 2 0 へ 〆 影″ もえ″ ♂キ影″ 亀″ 亀″ 影″ 兆″ 贔″ 鼎 図 2:投 資活動 世 帯 と全世 帯 の構 成 比 率比較 (世 帯 主 の年齢 ) 「企 業 区分 。従 業者 規模 」、「世帯 主 の 年齢」以外 の 項 目について も全 世 帯 に比べ て 投 資 活 動世帯に多 い 比 率 とな る項 目が あ った。 上記 を含 め 、特 に特徴 的 で あ った項 目を列 挙 す る。 ● 「企 業 区分 。従 業員規模 」 が 民営 。自営 500人 以上 の 世帯 ● ● 「世帯主 の 年 齢」が 35歳 か ら 59歳 までの世 帯 「家族 分 類 」 が三世代 の世 帯 ● 「65歳 以 上 の 世帯員数」 が 0の 世 帯 ● 「学校 に通 う世帯員」が有 りの世 帯 二 世代 の世帯 に は 、大 き く分 けて 「世 帯 主 とその親 」 または 「世帯 主 とそ の子 ども」 の 2通 りが考 え られ るが 、「65歳 以 上 の 世帯員数 」 と 「学校 に通 う世 帯員 」 の特徴 を合 わせ て考 える と 「世 帯主 とその 子 ども」 とい う世 帯 が 多 い と考 え られ る。 これ らの 世 帯 は、老後資金 の 準備 に加 えて子 ども (学 校 に通 う世 帯員 )を 養 っ て い く中で教育費 の 準備 も必要 とな るた め、投資活 動 に対 して積極 的 に な るのではな い か と考 え られ る。 そ の よ うな背景 の 中で 、従業員規 模 が大 規模 な民 間 企 業 に勤 め、中堅 か らベ テ ラ ン 社 員 とい える年齢 層 の主 がいる世帯 が 投 資活動世帯 の 世 帯像 と推測 され る。 544
3。 投 資撤退世 帯 の 世 帯像 前 章 で は投 資活動世 帯 につ いて述 べ る中で 「企業 区分 。従 業 者 規模」 と 「世 帯 主 の年齢」 が特 徴 的 な 項 目で あ った ことを示 した が 、特 に 「世 帯 主の年齢」につ い て は 35歳 か ら 59歳 までは投資活 動 世 帯 が 多 い の に対 し、60歳 以 上 の 世帯 で は急激 に投資活動世帯 が減 少 す る ことが窺 えた。 59歳 まで の傾 向 か ら考 え る と、60歳 以 上 の世代 が投資 を行 う世帯 が極端 に少 な い とは考 え難 く、 60歳 とい う勤 労 世 帯 に お いて は退職 のタイ ミングで投資活動 か ら撤退 したので はな い か と推測 し、検 証 した。 有価 証 券売却 (Y029)が 0よ り大 き い世 帯 を投資か ら撤退 した世帯 (投 資撤 退 世帯)と 定義 した 。投 資撤 退 世 帯 と全世帯 の構 成 比率比較 (企 業 区分・ 従業者 規模 )を 図 3に 示す 。投 資活動世帯 の 場 合 とは 対 照 的 に、投資撤退世 帯 には 「企 業 区分 ・ 従業者規模 」 が無職 の 世帯 が多 い こ とがわか る。 「企 業 区分 ・ 従業者 規模 」 の構成比 0 6 0 5 → "投 資撤退 世 帯 0 4 0 3 0 2 ︵ S︶コ ^怪 準 引勝‐全世帯 0 1 0 ヽ― nYυ ガЭ ,マ ´ 、` ク ′ ヽ一 バゝ 〉 i:P 、 く卜 J′ ' 〃 ̲√ ツ ,ヽ ア ´ ″ 勿 } ^vヾ ド ´ 図 3:投 資撤退世帯 と全世 帯 の構成比率比較 (企 業 区分・ 従 業者 規模 ) 「 次 に投資撤退世帯 と全 世 帯 の構成 比率 比較 (世 帯主 の年 齢 )を 図 4に 示す 。 世帯主 の年 齢 」 に関 し て は、60〜 64歳 、65〜 69歳 で特 にか い 離 が大 きい こ とがわ か る。 この他 に も 「世 帯 区分 が無 職 の 世帯」、 「就 業人員 が 0人 の世 帯」、「65歳 以 上 の 世帯員数 が 2人 以 上 の 世帯」な どの項 目で かい離 が 大 き く、特 徴 的 な項 目とい える。 これ らの結果 は、投 資撤退世帯 には無職 で 60歳 以 上 の 世 帯 が多 い こ とを示 して お り、退職 を境 に投 資活 動 に対 して消極 的 にな り、投 資 か ら撤 退 してい る世 帯 が 多 い と推 測 され る。 545
「世 帯主 の年 齢 」 の構成 比 25 繭鉾師投 資撤退世帯 20 0 S︶ コ 一怪 準 ︵ ■除い全 世 帯 5 く て ′ Q ︐ 橡ゞ へ Кや ︑ゆ ´ ズ ︐ 0″ ″ ︐ ン .゛ 十 ♂ 総 食 ぐ ♂ ♂ ″ ︐ 0″ ´ ︑ 誘 ︐ 0 プ 図 4:投 資撤 退 世 帯 と全世帯 の構 成 比率比較 (世 帯 主 の年齢 ) 4。 ま とめ 本研 究 を通 して 、投 資 を行 ってい る世 帯 には、世帯 主 が大規模 な民 間 企 業 に勤務 し、子 どもを育 てて い る二世 代 の世帯 とい う世帯像 が 推 測 され た。 この よ うな世帯 は、将来 の老後資金 に加 えて教 育費 を準 備 しなけれ ばな らな い とい う投 資 を行 うための動機 付 け (需 要 )を 持 った 世帯であ る と同時 に大規模 な 民 間企業 に勤 めて い る こ とか ら従 業 員 持 ち株 会や 上 場 企 業 が 多 く投 資 を行 う活動 が身 近 に あ り投資活 動 を実行 しや す い環境 (供 給 )が 整 つて お り、需要 と供 給 の合致 に必 要 な属性 であ るの で は ないか と推 測 した。 一 方 で 、投 資活動 を行 って い て も定年退職 の年齢 を境 に投 資 に対 して消極 的 に な り、有価証 券 を売却す る世帯 が 多 くな る。老後 資金 と して蓄 えて い た資産 を現金化 して消 費 してい る ので はないか と 推 測 され る。 本研 究 にお いて 用 い たデー タは 、あ る一 時点 のデ ー タで あ ったた め 、投 資活動世帯 が どの よ うな世帯 で あ るか とい った考 察や投資活動 か ら撤退 した世帯 の 定義 な ど、推 測 に頼 る部分や 強 引 に定義 した部分 が あ ったが 、結論 を出す には複数 時 点 のデ ー タを用 い て よ り詳細 な分析 をす る必要が あ る。 参 考 文献 ● 金 融庁 NISA特 設 ウェブ サイ ト (https://www.fsa.g。 .jp/p01icy/nisa2Andex.html) ● 内閣府 高齢社 会 白書 (http://wⅧ 8.cao.go.jp/kOurei/whitepaper/index― w.html) ● 厚 生労働省 確 定拠 出年金 制度 (http://ww.血 h go.Jp/stf/seisakunitsuite/bunya/nenkin/nenkin/kyOshutsu/index.html) 546
付録 1
規 定課題 用SASプ ロ グラ ム
/****************************************************************
規 定課 題 1.
****************************************************************/
1ibname lib″ 新擬 似 ミク ロデ ー タ格 納先 フォル ダパ ス を指 定
″
:
proc forlmati
value X08
1='1:男 'n
2='2:女 'n
3='3:全 世 帯 'ni
一
一
1
value Xll
一
二
2
3
二
4
二
5
二
6
一
7
単身 世 帯 'n
夫婦 の み世 帯 'n
二世代 世帯 'n
二 世代 (ひ と り親 )世 帯 'n
三世代 世 帯 'n
そ の他 の 世 帯 'n
全 世帯 'n:
run
data work. data;
set I ib. zensho2004gi j imicro;
keep weisht X08 Xll Y001;
format X08 XOB . Xl1 X1] ";
output;
tmP = Xg3'
X08 = 3; output;
Xl1 = 7;output;
X08 = tmp,outputi
run;
proc sq!;
**:平 均 値
create table work.mu as
select X08, xll, round(sum(weight*Y001)/sum(weight),1) as mu̲
i
frOm wOrk.data group by )(08, Xll order by Xll, X08;
**標 準 偏 差
:
create table work(lata2 as
select tl.*, (tl.Y001 ‑ t2.mu̲ )**2 as SqDif
from work.data tl
left 」oin work mu t2 on tl.Xll = t2.Xll and tl.X08 = t2.X08;
create table work sigma as
select X08, xll, rOund(sqrt(sum(weight*SqDif)/sum(weight)),1) as sigma̲
fronl work.data2 group by X08, Xll order by Xll, X08;
**:「 帯 数
create table work.cnt as
select X08, Xll, round(sum(weight),1) as cnt̲
;
frOnl wOrk data group by )(08, Xll order by Xll, X081
quit;
547
**表 :平 均 値 prOC tranSpOSe data=WOrk.mu out=lib.result̲mu(drop=̲NAME̲); : var mu : by Xll; id X08: run; **表 :標 準 偏 差 : prOC tranSpOSe data=WOrk.Sigma Out=lib.result̲sigma(drop=̲NAME̲)i var sigma̲; by Xll; id X08; run; **表 :世 帯 数 prOC tranSpOSe data=WOrk.Cnt out=lib.result̲cnt(drop=̲NAME̲); ; var cnt ; by Xll; id X08: runi /********************率 ******************************************* 規 定課題 2. ****************************************************************/ data work.data; set lib.zensho2004gi」 imicro; keep group weight X08 Xll Y001: group = Xll * 10 ‐ ■X08:outputi tmp = X08: X08 = 3:group = Xll * 10 + X08;output; Xll・ 7igroup 二 = Xll * 10 ‑卜 X08:output; X08 = tmpigroup = Xll * 10 + X08:output; run; proc sql noprint; create table work. sums as select group, sum(weight) as SumWeight, sum(weight * Y001) as SumY00l qu it; from work.data group by group; create table work. data2 as select tl .*, t2. SumWeight, t2. SumY001 from work.data t1 left join work.sums t2 on tl.group = t2.group order by group, Y001, X08, Xl1; data work. data3; set work. data2; if group ^= lagl (group) then CSumY001 CSumY001 + we i sht * Y001 = 0; ; run; 548
proc sq I nopr i nt: create table Yvork.data4 as select sroup, round(l-2*(sum((CSumY001 / SumY001) x (weight / SumWeieht))),.01) as gini from work.data3 group by group order by group; run; data work. dataS; set work. data4; format Xll X11*. X08 X0B-. ; Xl1 = floor(group / I0); XOg = mod(group, 10); drop group; run; **表 :ジ ニ 係 数 ; prOc transpOse data=work.data5 0ut=lib.result̲gini(drop=̲NAME̲) var g:nl; by Xll: id X08; run; 549
付録 2 規 定課題 図表 世 帯主 の性別 2:女 性 1:男 性 全世帯 世帯主 の性別 2:女 性 1:男 性 平均値 全世帯 標 準偏 差 家族分類 1:単 身世 帯 2:夫 婦 の み世 帯 416 266 338 267 165 232 557 539 557 361 331 360 3:二 世代 世帯 733 686 732 373 366 373 4:二 世代 (ひ と り親 )世 帯 5:三 世代 世帯 689 459 558 402 326 378 923 677 904 459 421 461 6:そ の他 の 世帯 778 724 456 429 458 全世 帯 662 576 356 610 396 281 396 世 帯 主の性別 2:女 性 1:男 性 全世帯 世帯数 家族 分類 1:単 身世帯 2:夫 婦 の み世 帯 3:二 世代世帯 4:二 世代 (ひ と り親 )世 帯 5:三 世代 世帯 6:そ の他 の世 帯 全世 帯 3,187,182 7,600,840 3,432,001 143,504 6,619,183 7,744,344 11,709,238 1,003,841 147,052 1,324,421 11,856,290 2,328,262 2,545,855 428,659 26,475,615 210,980 2,756,835 153,734 582,393 5,411,692 31,887,307 年 間収入 の ジ ニ係 数 世 帯 主 の性別 全世帯 1:男 性 2:女 性 家族 分類 1:単 身世 帯 0.31 0.32 0.34 2:夫 婦 の み世帯 3:二 世代 世帯 0.31 0.26 0.31 0.28 0.31 4:二 世代 (ひ と り親 )世 帯 5:三 世代 世帯 0.30 0.36 0.26 0.35 0.26 0.34 0.27 6:そ の他 の 世帯 0.30 0.36 0.32 全世 帯 0.31 0.38 0.33 550
付録 3
自由課 題 SASプ ログラ ム
**分 析 用 SASデ ー タセ ッ ト
data work.data,
;
set lib.zensho2004gi」 imicro;
if Y195 〉 O then Y195flg = 1;else Y195flg = 0,;
run;
** llj:ffi{i{ U i}+)r-" , tt
,
%macro attr (target=, target I ab=, i nvar=, i n I ab=, out=) i
proc sql noprint;
select count(x) into :nlarget from work.data where &target = I;
select count(*) into :nUniverse from work. data;
create table work. target as
select &invar, count(x) as tCount, round(count(*) / &nTarget *'l*0, 01)as tRate
from work.data where &target = 1 group by &invar;
create table work. universe as
select &invar, count(*,) as u0ount, round(count(x) / &nUniverse x 100,̀Gl) as
nRate from work. data group by &invari
create table &out as
select "&invar" as Item, tl.&invar as Attr, tl.tCount, tl.tRate, t2. uCount,
t2. nRate,
round (t1. tCount/t2. u0ount*100, .01) as InvesterRate,
round ( (t1. tRate/i00 - t2. nRate/l00) /sqrt (tl. tRate/I00 *(1‑
t1. tRate/I00)/(tl. tCount/(t1. tRate/l00))), . 001) as X
from work.target tl left join work.universe t2
on t1. &invar = t2. &invar;
qu
it;
legendl posltion=(top right) aCrOSS=1;
axlsl label=(font=meiryo h=1.5 ANGLE=D ROTATE=0
′
′
&inlab″ );
axis2 1abel=(font=meiryo h=1.5 ANGLE=O ROTATE=0 '}ヒ 署:│ (%) '):
proc gplot data=&out;
plot tRate*Attr nRate*Attr / overlay legend=legendl haXIS=aXiSl VaXIS=aXis2:
′
label tRate=″ &targetlab.比 率 (%)′ nRate='全 体比率 (%)'Attr=″ &inlab″
″
title″ &iniab.別 構成比率比較
;
format Attr &invar. , ,
symbo11 1=」 oin v=dot ci=blue cv=blue;
symbo12 i=join v=triangle ci=red cv=red;
run;
%I:lend i
551
;
**マ ク ロ実 行 : 腔 ″ (target=Y195flg,targetlab=投 資 世 帯 , lnvar=X01, inlab=大 者:6市 圏 ,out=work.out̲X01); ″ (target=Y195flg,targetlab=投 資 世 帯 ,invar=X02,inlab=勤 労世 帯 区 %′ オ 分 ,out=work.out̲X02)i ″ (target=Y195flg,targetlab=投 %′ オ 資 世 帯 ,invar=X03,inlab=世 帯 人員 ,out=work.out̲X03); ″(target=Y195flg,targetlab=投 資 世 帯 ,lnvar=X04,inlab=就 業 人 員 ,out=work.out̲X04); ̀オ ″ (target=Y195flg,targetlab=投 資 世 帯 ,invar=X05,inlab=住 宅 の構 %′ ′ 造 ,out=work.out̲X05); ″ (target=Y195flg,targetlab=投 資 世 帯 ,lnvar=X06,inlab=住 居 の立 て %′ ′ 方 ,out=work.out̲X06); ″ (target=Y195flg,targetlab=投 資 世 帯 ,invar=X07,inlab=住 居 の 所 有 区 %′ ′ %′ 分 ,out=work.out̲X07); (target=Y195flg,targetlab=投 資 世 帯 ,lnvar=X08‐ inlab=世 帯 主 の 性 ̀″ 男 ,out=work.out̲X08); ″ (target=Y195flg,targetlab=投 資 世 帯 ,inVar=X09,inlab=世 帯 主 の 年 %′ オ %′ │」 齢 ,out=work.out̲X09); ″ (target=Y195flg,targetlab=投 資 世 帯 ,invar=X10,inlab=企 業 区分 ・ 従 業者 規 %′ ′ 模 ,out=work.out̲X10); ″ (target=Y195flg,targetlab=投 資 世 帯 ,invar=Xll,inlab=家 族 分 類 ,out=workЮ ut̲Xll)i %′ オ ″ (target=Y195flg,targetlab=投 資 世 帯 ,invar=X12,inlab=未 就 学 児 の有 %′ オ 無 ,out=work.out̲X12); ″ (target=Y195flg,targetlab=投 資 世 帯 ,invar=X13,inlab=学 校 に通 う世 帯員 の 有 %′ オ 無 ,out=work.out」 13); ″ (target=Y195flg,targetlab=投 資 世 帯 サinvar=X14,inlab=65歳 以 上 の 世 帯 員 %′ ′ 数 ,out=work.out̲X14); 552
全 国消費実態調査 の擬似 ミク ロデ ー タか ら 学童 0未 就学児 のい る母子 家庭 の消費傾 向を探 る 城元 宏美 関西学院大学 社 会 学部社 会 学科 応募部 門 Cク ラス (学 生 ) EXp10ratiOn intO thC COnSunlptiOn TICndenCy by()ne― ParCnt IIouscholds Ⅵ7ith Mothcr and Srnall ChildrCn Using the Pscudo MiCrOdata SyntheSiZCd i10nl lヽ Tational Survey ofFanlily lnconle and Expenditure IIiromni ShirOrnOtO X[ヽ vansei Cakuin l:Jniversity Faculty of Sociology,:Departinent of Sociology 要旨 両親が揃 っている二人親世帯よりも一人親世帯、特に母子 家庭は経済的に苦しい立場にあると 世間一般では思われることが多 い。二人親世帯と一人親世帯を対象にして、収入と支出の様 々な 指標を比較し、自身の経験から子供の教 育費について注 目し分析を行 った。特に母子家庭では 「実支出以外 の預貯金 へ の支 出がある家庭は、教育費にもお金をかける とい 弱い正の 」 う 相 関が 存在した。 キーワード:ジ ニ係数 等価可処分所得 相対的貧 困率 一人親世帯 母子家庭 教育費 1.は じめに 個別指 導 塾 で 学生 アル バ イトをしており、一 人親 世 帯 の子 供 と接する機 会 がこれまでに多くあっ た。一 人親 世 帯 の子供 たちの殆 どが母子 家庭 で 、父子 家庭 の子供 は全 くといっていいほど在 籍 し ていなかった。業務 の一 環 で子 供 たちの家庭 状 況 を知 る機 会 があったが 、どの母 子家庭 も「金 銭 的 に厳 しい」という理 由から各季節 の特別講習 の授 業をあまり受 講することができないにもかかわら ず 、保護 者 か らは「必ず公 立の 学校 に合格 させ てほしい 」とい う要望を受 けることがしばしば あった。 また、自身 の就 職 活動を通 して「地価 の高 い地域 に住 む家庭 の子供 ほど国 立 や 私 立の 中 。 高 に進 学する」とい う強 い相 関関係 があることを肌で感 じ、こうした経 験から母子 家庭 の子供 の教 育 現状 と 支 出状況 につ いて関心を持 つ に至った。 2.分 析 に つ いて 21分 析 の 方 法・定 義 本研 究 は、平成 16年 全 国消費 実態調 査の匿名 デ ー タを基 に、SASユ ー ザ ー 会 世話 人 有志 に より作成 された擬 似 ミクロデ ー タ(69,131オ ブザベ ーション)を 使 つている。各オブザベ ーションには 「世 帯数 」はこの集 計用乗 率を使 った世帯数 である 集 計用乗 率 の 変数 がある。 以後、 本 論文で使 う 統計局のシングル・マザーの定義では「子と同居 している配 偶者 のいない 女性 を指 し、特 に、子 が 年少 と思われ る 15〜 49歳 (再 生産 年齢 )に 焦 点 を当てる」としている(総 務省統計研修所研 究官室 2006)。 なお、シングル・ファーザーの定義もシングル・マザーと同様である。しかし、この定義 のシング ル・ファー ザ ー とマザ ー では二 世 代 世帯 とは限 らな いし、また公 的年 金 の受 給や 子供 が就 業 して 「父子・母 子 世 帯」を以 下 の様 に定義 した 就 いる可能性もあるので、今 回 の分析 を行う際 には 、 。 業 人員 は 1人 、世 帯主 の年齢 階層 は最 下層 の「24歳 以 下」 「45歳 〜49歳 」 から まで 、公 的年金 の受 1。 1集 計用乗率 を使 って復元 した総世帯数 は、規定問題 1に あるよ うに、31,887,307世 553 帯である。
「未就 学児 または学校 に通 う世 帯員 がいる」 給 なし、家族分類 は「二 世代 (ひ とり親 )世 帯」、 この定義 による母 子世 帯 は 334,631世 帯 、父子世帯 は 1,0643世 帯 であった。 分析 手法としては 、主 に SASの proc tttulateを 用 いて視 覚 的に判断 しや す くなる表を作 り、proc regプ ロシジャを用 いて複 数 の 目的変 数 で従属変数 の説 明を行うことができる重 回帰分析 を用 いた。 22仮 説 自身の経験から以下の仮説を導く。 ①ひとり親世帯は、二人親世帯と比較すると、年収も子供にかける教育費も低 い。 ②ひ とり親世帯の 中では、母子家庭 の子供にかける教育費 は父子家庭よりも多い。 ③母子家庭 の世帯主 は教養娯楽費、交際を抑 え、預貯 金 へ の支出を多くし、子供の教育費 にお 金をかける傾向がある。 1 ▲↓ 一ヽ+一 \ 一 教巻娯楽費の Figurel.仮 説③の媒介予想図 3.分 析 の結 果 3.1新 擬似ミクロデータ全世帯数に対する等価可処分所得と相対的貧困率 SASを 用 いて新擬 似 ミクロデ ー タ全 世 帯 に対する等価 可処分所得 を算 出し、全世帯 にお ける相 対 的貧 困率 と貧 困線 を求 めた。なお 、相 対 的貧 困率 と貧 困線 を求めるため に使用した式 は以 下 の 通 りである 可処分所得 =実 収入 一非消費支 出 等価 可処分所得 =可 処分所得 ÷√ 世 帯人員 貧 困線 二等価 可処分所得 ÷2 相対 的貧 困率 二等価 可処分所得 が貧 困線以下 の世 帯数 ÷全世帯数 ×100 2。 Figure2.の デザインは四方 (2016)を 参 考 に作成した。Figure2.に 関連 す る計算処理をした結 2可 処分所得 :世 帯 の 「実収入」か ら支払 い 相 対 的貧 困 率 一 ′ ′7 義務 のある税金や社会保険料 な どの 「非消 費支 出」を差 し引いた後 の金額 (手 取 り収 入) 等価 可処分所得 :世 帯 の可処分所得 を世帯 員数 の平方根で割 った値 相対的貧困率 :等 価 可処分所得 を高 さ順 に 並べ た ときに真ん中の所得 (中 央値 )を 基 準 に、その半分 に満 たない人が 占め る割合 蝶螺瑯秘叫鰯砺秘秘螂﹄ 果 、貧 困世帯 (等 価 可処分所得 が貧 困線 以下 の世帯 )は 8,490,670世 帯 あり、約 26.6%の 世 帯 が 貧 困世 帯であることが判 明した。特 に、世 帯数累計 25%付 近までは急激 に世帯数が増加 している ことから、多くの世帯 が貧 困線 の 78,964円 よりも少ない等価 可処分所得 で厳 しい生活を送 ってい ることが窺 える。 また、父子家庭 と母 子 家庭 の貧 困線 から相対的貧 困率を求 めると、父 子 家庭 では 10,643世 帯 中 2,795世 帯 が貧 困世 帯であり、貧 困率 は 26.3%、 母子家庭 では 334,641世 帯 中 35,077世 帯 が貧 困世 帯 であり、貧 困率 は 10.5%と なり、 世 帯 数 (%) 母 子 家庭 よりも父 子 家 庭 の世帯 の 方 が + 4fE 1s7,s28f9 世帯数 ttEf6l78,e64E 貧 困率 が高いとい う結 果 となった。しか 40万 円 等 価 可 処 分 所 得 (月 額 ) Figure2.等 価 可処分所得 (月 額 )と 貧 困率 554 (単 位:%)
し、父子 家庭 と母 子家庭 でサンプル 数 にやや 開きがあるため、誤差が生 じている可能性もある。 「夫婦 の み世 帯」、 「二 世代 世 規 定課題 2の ジニ係 数 (付 録 2)か らは、家族 分類 が「単身 世帯」、 「 「 帯 」で は世帯 主の性 別 で格 差 は見 られ なか った。一 方 、 二 世代 (ひ とり親 )の 世 帯」、 三 世 代 世 「その他 の世 帯 」では「世帯主が女性 」の世帯 の方 が 格 差 の大きいことがわかるが 、これ は、世 帯 」、 帯構 造 が前者 に比 べ て複 雑 であることを示 唆 していると思 われる。 32二 人親世帯と各ひとり親世帯の年収や様 々な支 出の比較 平 均値 頁 3:ニ の 1:男 最大値 最小値 158 585 766 225 402 548 727 514 309 603 :̀Ю 代 499 :40代 672 668 1:20代 431 161 402 2:30代 586 765 227 304 206. 548 727 538 :30代 5821 1:20代 2:30代 187 342 84 239 496 187 343 506 470 514 1 193 476,108 2810317 35 959 50 48 3,139,629 2515 1550 1193 113 69 15,557 19,503 12 480,998 2,851 47 50 2.825.874 一 430 0代 9 8 8 :20代 1:20代 2:30ft (ひ 中央 値 1世 帯 主 の 性 別 3539 778 153 2.623 2.574 252 8018 3,159,132 181 535 64 1,621 21 16,804 142,048 334 269 397 2.067 84 181 535 44 64 175789 16804 238 352 271 1,621 21 408 2,574 44 Tablel.年 間収 入 (単 位 :万 円 ) Tablel.に 、世帯 の年 間収入 (万 円)に つ いて、家族分類 別 、世帯主性別 、世 帯主 の年齢 階層 別 の 基 本 統 計量を示 す。本 表 を算 出す る際 、あらかじめ作成 した父子 。 母 子 家 庭 と比 較 する対 象 世 帯 として 、家族 分類 の二 世代 の世帯 、つ まり両親 が揃 ってい る二 人親 世 帯 につ いても、次 の様 に 定義 を行 った。定義 は以 下 の通りである。就 業人員 は 0〜 2人 、世帯主 の年齢 階層 は最 下層 の「24 「45歳 〜49歳 」 歳 以下」から 2500万 円難 まで、 公 的年 金 の受給 なし、 ぁ0● 0万 円1趣 2,s∞万 日以下 「 二 世代 世 帯」、 は 分類 家族 艤男性 議女う 「未 就 学児 または学校 に通 う 世 帯員 がいる」 この 定 義 による世 帯 主 が 男 性 の 二 世 代 世 帯 は 6,426,054世 帯 、世帯主が女 性 の 二 世 代 世 帯 は 39,949 世 帯 、二 世 代 世 帯 全 体 は 6,466,003世 帯であった。 Tablel.か ら世 帯 主の性 別 年 齢 階 層 にかか わ らず 、平 た0い 0 0 4("0 0議 )0 均値・中央値 共 にひとり親 の 世帯 の年 間収入 は二世 代 世 Figure.3平 成 19年 平均 年収 (単 位:千 人 帯よりも低 い。特 に母子 家庭 の 20代 の年 間収入 の少 なさは顕著である。Figure3.は 民 間給 与実態統計調 査 ―調査結果報 告 (国 税 庁 長官官房企 画課 2011)の デ ー タから筆者 が Excelで 作成 した平 成 19年 の男女別 の平均 ) 555
年収 の 分布 のグラフである。グラフから見て取れ るように男性 よりも女性 の方 が年収 が 著 しく低 いこ とがわかる。新擬似 ミクロデ ー タはこの結果 と矛 盾 しない。 世 帯数 最 大値 ̲ 世 帯 主 │の 性 別 家 帯 1:男 2女 1:20代 2130代 3:40代 0代 2130代 340代 1:20代 1:男 2:*, 2:30代 3:40代 2:30代 3:40代 175920 12861 0 476.108 2,810,317 17,278 39,624 24,551 51,927 23,696 661644 19,016 16,372 20,3371 47.260 : 01 4,889 21.600 25,363 12846 92227 0: 1555フ 40948 6792 17302 52374 29993 227091: 0 19503 12961 01 170,920 0 480,998 24.558: 0 2,825,874 51,929 11.2521 23.698 559,042 39,632 661644 0 43,793 69,596 5,265 178,638 2,623 3.1811 31 8018 16804 18368 41985 1:20代 . 3.413 6551 2:30代 3:40代 1:20+t 2:30代 12,190 43,794 17.066 63.916 3,413 12.763 42.684 6.551 19787 63.331 Table2.教 育費 (単 位:円 20フ .フ 3,139,629 3.1 13 0 378331 ̲ 1,,1? 5,538 19,241 1フ 5,789 45780 0 178,638 0 16804 144672 378331 ) Table2.は Tablel.と 同様 に、proc tabulateを 用 いて新擬似 ミクロデ ータから月額 の教 育費を算 出 した。教 育 費 は、ひとり親 世 帯よりも二 世代 世 帯 の方 が金 額 が高い傾 向 があるが、ひ とり親 世帯だ けに注 目をすると、世帯主 が 30・ 40代 では 中央値 を見ると父子家庭 よりも母子家庭 の方 が教育費 が高いことがわかる。 33教 育 費 についての さらなる分 析 教育費については各世帯の収入によつて負担 の比重が変化する。そこで、世帯主 の性別 のひと り親世帯の収入総額 に対する教育費の割合 について対応のない t検 定を行った。p値 は 0.59と なり、有意差はないという結果 となった。同じく年収 と月額収入総額で t検 定を行ったところ、年収 は p〈 .0001、 月額収入総額は p=0.028と なり、どちらも性別による差があることが判明した。 の り 395' 1:男 535 12921 00 2.203 837 00 53 1 ‑16961 41 151 321 29 2325 ‑121 89 00‐ 16.804 369 4592: ‑16961 139,3081 169,634 Table3.月 当りの等価 可処 分所 得 に対する教育費 の割合 (単 位:%) 「母子家庭 の方が父子 家庭 よりも月額収入総 額 に対する教育費 の割 合 が、平 また、Table3.よ り い」ことが読 み取れるので 、母子家庭 の方が父 子 家庭 よりも子供 の教 育 に力 に高 共 均値 、中央値 「等価 可処分所 得 に対する預 を入れ ている傾 向があると言 える。更 に、相 関分析 を行 ったところ、 へ の の い が 処 に対す る教 は、 可 育 費 の割合も高 い 」という弱 い 等価 分所得 支 出 割合 高 世 帯 貯金 「預貯金 へ の支 出 の割 合 が高いことは、子供 の教 正の相 関 (r=0.294)が 存在 した。この結果 から、 育 に関心 がある」と言 える。子供 の教育 に金 銭 を多く使 うこということは、世帯主 自身 の 自由なお 金 、旅 行 などが含 まれる「教養 娯 楽費」や「交 際費 」を節約して預 貯 金 を行 っているのではないかと 556
「月あたりの等価可処分所得に対する教育費の割合」を従属変数とし、 「月あたりの等 仮説を立て、 「 価可処分所得 に対する教養娯楽費 の割合」、 月あたりの等価可処分所得に対する預貯金 への支 「月あたりの等価可処分所得に対する交際費の割合」を独立変数とする重回帰分析の 出の割合」、 モデルを作成し、分析した。 「月 左 の Table4.よ り、母子家庭では、 の に 当り 可処分所得 等価 する教養娯 対 楽 く.0001 ** 0.241 0. 7 教養娯楽費の割合 「 の の 割合 月 当り に へ 費 」 、 等価 可処分所得 く 0.060 0.007 .(XЮ l** 預貯金 の支出の割合 「月 当り 0.371 0.059 く(Ю 01** 交際費の割合 対する預貯 金 へ の支 出の割 合 」、 切片 5.105 1.480 の等価 可処 分所 得 に対する交 際費 の割 Ⅳ l153obs 合」の 3つ の変数で教 育費 の約 14.4%を ̲̲̲̲些 度 ̲̲̲̲̲型 壁 ̲̲̲̲̲̲̲̲ 料 <θ ′ くθ く 予測できることがわかった。(自 由度調整 済 ノθ ′ ル 'ャ み決定係 数 〈adjR2=0.144〉 より) Table4.教 養娯楽費と交際費と預貯金 への支出の 各変数 の効果を確認 したところ、教養娯 教育費への重回帰分析 楽費 の割 合 が高 いほど教 育費 の割合 が高 く(b=.241pく .0001)、 預貯金 へ の支 出の 割青 が高 いほど教育費も高く(b=.060 p〈 .0001)、 交際費 の割合も高 いほど教 育費 .14** 教養娯楽費の割合 も高く(b=.371p〈 .0001)、 という結果 が得 られ 、この重 回帰分析 のモ デル は 1%水 準 預貯金への支出への割合 で有 意 であった。 変数名 数 標準誤差 p値 .18** Figure4.教 養 娯 楽費と交際費 と預 貯 金 へ の支 出 の 教育費 へ の重 回帰分析 のモ デ ル 図 左の Figure4.は 重回帰分析の係数を標 準化した推定値 で説明をした重回帰分析 のモデル図である。 4.結 論 口まとめ 41結 論 :仮 説 について 以上の分析 から以下のことが判明した。 ①ひとり親世帯は、二人親世帯と比較すると、年収も子供にかける教育費も低 い。 ② ひとり親世帯 の 中では、母子家庭 の子供にかける教育費は父子 家庭 よりも多い。 ③母子家庭 の世帯主は教養娯楽費、交際費、預貯金 への支出が多いが、子供 の教育費にお金を かける傾向がある。 仮説①、② に関して仮説は支持されたが、仮説③に関しては棄却された。 42ま とめ 本稿では「2004年 (平 成 16年 )全 国消費実態調査」の匿名デ ータを基に作成された擬似ミクロ デ ータを用いて様 々な分析を行った。年収については国税庁 のデータと矛盾しない結果が得ら れ、男性と女性 の間に有意な差があることが判明した。その理由として、パー トタイマーやアルバィ トなどの非正規雇用 が多いことと、正規雇用の社員であっても男性より女性は昇進 のスピードが遅 いということが考えられる。女性 の結婚や出産、育児などのライフイベ ントが年収 の差に影響してい るのではないだろうか。また、父子家庭よりも母子家庭 の方が教育費 で、金額でも収入に対する割 「母子 家庭 の方が子供 に教育に関心 がある」ということを示している 合でも高いという分析結果は、 557
と考 えられる。そ のため重回帰分析 で「月 当りの等価 可 処分所得に対す る預 貯金 へ の支 出 の 割 合 が高い 」ということは将 来 の進学 のために貯金をしていると予想できるが 、教養 娯楽費と交 際 費 が 教 育費 に正 の影 響 を与えていることを説 明することは難 しい。これはデ モ グラフィックデ ー タに含 ま れている居住 地や 職 業分類 の変数 を用 いて分析 ができれ ば、よリー層 詳 細 に説 明することができ るようになると思 われる。 参考 文 献 『 統計』、財団法人 日本 統 計協会 [1]総 務省統計研修所研究官室(2006)「 シングル・マザーの最近 の状況 その3」 、 発行 、平成 18年 11月 号 『 ESTRELA』 、財団法人統計情報研 [2]総 務省統計研修所研究官室(2007)「 シングル・ファーザーの最近 の状況」、 究開発 センター 、平成 19年 3月 号 『 SASユ ーザー総会 2016論 文集』、 [3]四 方克成 (2016)「 貧 困・中流・富裕世帯における教育費 の 実態調査」、 pp.365‑379 [4]国 税庁 (2011)「 平成 23年 分 民間給与実態統計調査 ―調査結果報告 ―」、国税 庁 長官官房 企 画課 付録 3自 由課題 SASプ ログラム options nocenter; drive=D: ′ ′ gui &drive:¥デ ータコンペ2018¥gji″ ′ engel′ &drive:¥デ ータコンペ2018¥sasds″ ; lude &drive:¥ァ ータコンペ2018¥saskitei¥klteiForm‐ at.sas″ MOMandCh‖ d: set engel spending: ″ hbel engel=″ エンゲル係 数 ″ DSPincome=″ 可処 分 所得 ″ EQincome=″ 等価 可処 分 所 得 YRincome=″ 年 間収 入 (単 位 万 円 )″ ″ EQLMpercent=″ 等価 可 処 分 所 得 に対する教 養 娯 楽 代 の 割″ 合 ″ en■ 等価 可 処 分 所 得 に対する交 際 費 の 割 合 ″ EQEDUpercenF″ 等価 可 処 分 所 得 に対する教 育 費 の 割 合 ″ EQSRGpercenF″ 等価 可 処 分 所 得 に対する預 貯 金 支 出 の割 合 EQSOCpe ; keep sex X04 X07 X09 HHkind X12 X13 YRlncOme Y002 Y003 Y018 ALLspending Y083 Y137 Y141 Y159 Y179 Y191 engel DSPincome xEQincome EQincOme weight Ageclass EQLMpercent EQEDUpercent EQSOCpercent EQSRGpercenti *可 処 分 所得 =実 収 入 ―非 消 費 支 出 DSPincome=Y003‑Y179i ; xEQincome=DSPincome/SQRT(X03);*等 価 可処 分 所 得 =可 処分 所得 T√ 世 帯 人 員数 : EQincome=int(xEQincome)i*等 価 可 処 分 所得 (円 未 満 四 捨 五 入 )i EQLMpercen■ Y141/EQincome*100;*等 価 可処 分 所 得 に対 する教養 娯 楽 代 の 割 合 EQSOCpercenFY159/EQincome*100:*等 価 可 処 分 所 得 に対する交際 費 の 割 合 : ; EQ[DUpercent=Y137/EQincome*100;*等 価 可処 分 所 得 に対する教育 費 の 割 合 EQSRGpercent=Y191/EQincome*100:*等 価 可 処 分 所 得 に対する預貯 金 支 出 の 割 合 , : select: when(X09=〈 6)Ageclass=1:*20代 when(X09=〈 8)Ageclass=2:*30ft; when(X09=〈 10)Ageclass=3:*40代 : : otherv′ ls e: end: if(X04=1)AND(X12=2 0R X13=2)AND(X09=〈 10) AND(HHkind=4)AND(sex=2)AND(Y018=0); proc reg data=MOMandCh‖ d: welght weight; mOdel EQEDUpercent=EQLMpercent EQSOCpercent EQSRGpercent/selection=stepwise vif; output out=P2P=predict R=resid; print stb r: title″ 母 子 家 庭 重 回帰 分析 ″ : 558
付録 1規 定課題 1用 SASプ ログラム /* k i te i l. sas */ opl i ons nocenter ; H bname kitei″ D:¥デ ー タ コ ン ペ 2018¥gi」 │″ %include″ Di¥デ ー タ コ ン ペ 2018¥saskitei¥kiteiFormat.sas″ ; proc tabulate data=kitel.zensho2004gi」 class HHkind sex; imlcro vardef=WDF format=comma10.0; var YRincome / weight=weight; ″ table(HHkind ALL=″ 全 世 帯 ), ″ ″ ″ (sex ALL=″ 全 世 帯 )*(YRincome=″ 平 均 値 *MEAN=″ ) ″ ″ ″ (sex ALL=″ 全 世 帯 )*(YRincome=″ 標 準 偏 差 *STDdev=″ ) ″ ′ ′ ″ (sex ALL=″ 全 世 帯 )*(YRincome=″ 世 帯 数 *SUMWGT=″ ); format sex sex. , format HHkind H卜 lkind. : ″ title″ 規 定 問 題 1:解 答 ; run: 付録 1規 定課題 1図 表 雄定問罐 11解答‐ ‐せ帯」0性 溝 鞭 1:男 奎せ帯 2:女 11=斃 211童 ‐ ‐ 1毒 種準饉獲 穣華難蓋 務 │■ 女 泄警 歓 撥羅静 :3「 驚耀拿1額 ││││・ 1:軍 身崚帯 416 會661 :意 宮8 會簸, 105 232 亀087182 3メ 32α 】 盆1夫 嚢 議 難5' 533 657 861 331 300 ■o9).040 14驚 榎聘 為碑4爵 鷲 738 680‐ 732 37奪 鬱6尊 373 11.驚 鰺203 14LC62 11,箇 6′ 90 4麟 の11奮糠 議││ ̀01み 3:二 畿武●性警 │■ 4:二 世代0と り策馘D世 穣 嚢世警‐ │ ││■ 驚籟 0.痰 懲 609 苺議 1譲 ぶ総 40會 326 878 1.(tttF01 1 求8PI繁 名鵞 移23 奪77 質群 囃 59 421 4蓬 苺 終 尋 肇β5事 亀驚 凝 30 Zl亀 奪 a壽 5,3s 7,3 5701 〕奪苺 4掌 壕 瘍9拿 4幸 3 4暑 馨 1,659 1齢瀬 4 灘 2静 鯰 葛162 意5る 1翻 さ 憲96 231 39鏃 2Q41暮 藤15 臓 9‐ 1.3薫 7β or まな 8,,o導 ‐ ̀411.蟻 【 規定課題1の プログラム解説】 proc tabulateで は、集計用乗率の変数 weightを 使う場合 は、注意を要する。使う際のポイント は、以下の二つのオプションである。 ① varde「 WDF 集計用乗率を考慮 した標準偏差を求めるには、このオプションが必要になる。 ② SUMWGT= 通常、件数を求めるときは、予約語「N」 を使うが、Nに は weight文 が効かない。集計用乗率を件数 に反 映 させ るに は SUMWGT=を 使 う。 559
付録 2規 定課題 2用 SASプ ログラム
プログラム①
SAS +
‖bname giji‖ D:¥擬 似 ミク ロ デ ー タの保 存 され て い る完 全 パ ス ‖
;
%macro print(dsname);
proc print data=&dsname(obs=10);title ndata=&dsname‖
end
;ru n;
original:set gi"zensho2004gり imicroi*元 の擬 似 ミク ロデー タセ ッ ト
keep Y001 XOB X11
;
weight;
rename Y001:income X0B-sex X11:HHkind;
run; %print(original);
の デ ― タセ ッ ト(全 世 帯 )を「20分 割 +全 世 帯 =21分 類」
;
(6分 類 +全 家族 分 類 =7分 類 )× 世帯 主性 別 (2分 類 +男 女 =3分 類 )=21分 類
以 下 の 順 に分 割 して い く。
① HHlall HH2all HH3all HH4all HH5all HH6a‖
② HHlM HHlF HH2,vl HH2F HH3M HH3F HH4〜 l HH4F HH5Vl HH5F HH6ル l HH6F
③ HHa‖ M HHa‖ F HHa‖ MF;
;
H H lall H H2all HH3all HH4all HH5a‖
data HHlall HH2all HH3all HH4all HH5all HH6a‖
H H6a‖
;
;
set original;
select(HHkind);
when(1)output H H la‖
;
when(2)output H H2a‖
;
when(3)output HH3a‖
;
when(4)output HH4a‖
;
when(5)output HH5a‖
;
when(6)output HH6a‖
otherwise put"★ HHkind''l HHkind==;
end;・ 変 数 :sex HHkind income weight;
;
ru n;
*②
HHlM HHlF HH2時 l HH2F HH3〜 l HH3F HH4Ⅳ I HH4F HH5M HH5F HH6Ⅳ I HH6F;
%macro wakeru̲sex(No);
data HH&No.M HH&No.F;set HH&No.a‖
;
select(sex);
when(1)output HH&No.M;
when(2)output HH&No.F;
otherwise put''り ir sex? :I sex=:
end;*変 数 :sex HHkind income weight;
ru n;
%nlendi
%wakeru̲sex(1):
%wakeru̲sex(2);
%wakeru̲sex(3);
%wakeru̲sex(4);
%wakeru̲sex(5);
%wakeru̲sex(6);
*③
HHa‖ M HHa‖ F;
data H Ha‖ M HHa‖ F;set originali
select(sex);
when(1)output HHa‖ M:
when(2)output HHa‖ F;
otherwise put"★ sex?│'sex=:
end;*変 数 :sex HHkind income weight;
ru n;
HHa‖ M Fi set ori
nal; run
560
プログラム② gln ラム m SAS + options nocenter mtrace macrogen; クロ変数名 ds:デ ータセ ッ ト名 var:ジ ニ係数 を計算 したい変数名 weight:集 計用乗率 の変数名 ・)ま で使 う digit̲below̲zero:集 計用乗率 の小数点以下第何位 (0,1,2・ ・ NOPRINT:計 算 の途 中経過を結果 ビュー画面に表示す る(半 角 ブランク)か 否か (*) 口 *マ %macro gini(ds,var,weight,d igit̲below̲zero,NOPRINT); data original;set&ds; proc sort data=original;by&var;ru n;*ジ ニ係数を計算す る変数 を昇順にソー トす る ; proc means data:original NOPRINT; output out:minWGT; run; data _NULL_; set minWGT; if _STAT_:"lVlN" then do; *minWGT:&weight; call symput("minWGT",&weight) ; end; run; %put&minWGT; data originall;set original;newWGT=&weight/&minW.GT;ru n;&NOPRINT%print(origina11); data origina12;drop&、 ″eight TTLobs; set origina1l end=owari;repeat=round(newWGT*10**&digitbelow̲zero); symput('TTLobsi,TTLobs);*☆ 膨 らませ るobservationの 数 TTLobs+repeat;if owarithen ca‖ ru n;&NOPRINT%print(origina12); %put&TTLobs; data step0; drop i repeat; set original2; do i:1 to repeat; weight:1; output; end; run; data stepl; set step0 end:owari; keep ACCweight ACC&var; ACCweight+weight; ACC&var+&var; if owari; run; &N0PRINT%print(step1) ; data step2; merge step0 stepl; run; &NOPRINT%print(step2); data step3; set step2; retain xACCweight xACC&var; if _N_:1 then do; xACCweight:ACCweight; xACC&var:ACC&var; end; ru n; &NOPRINT%print(step3) ; ata step4;set step3 end==ovvari; standardWGT =weight/xACCweight;ACCstnWGT+standardWGT; standard&var=&var/xACC&var;ACCstn&var+standard&var; ‖ if owarithen put‖ ☆検算★ ACCstnWGT=ACCstn&var=; runi&NOPRINT%print(step4); 561 ;
data onlyACCstn&var; set step ; keep ACCstn&var standardWGT; rename ACCstn &var:katei; run ; &NOPRINT%print(onlyACCstn &var) ; data step5; set onlyACCstn&var end:owari; if owari then delete; ru n ; &N0PRINT%print(step5) ; data step6; katei:0; ru n ; &NOPRINT%print(step6) ; data stepT; set step6 step5; jotei:katei; keep jotei; run; &NOPRINT%print(step7); ata stepS; merge onlyACCstn&var stepT; run; &NOPRINT%print(stepB); ata step9;set step8 end==ovvari; dalkei̲menseki=(lotei+katei)*standardVVGT/2; TTLdalkei̲rnenseki― 卜 dalkei̲rnenseki; TTLstandardWGT+standardWGT;*★ 検証 :weight変 数 の累計 ru n;&NOPRINT%print(step9)i ; ata step10; keep dataset gini; set step9 end:owari; length dataset $ 8; if owari then do arch_menseki:0.5-TTLdaikei_menseki; gini:arch_menseki/0.5; d ataset:"&ds"; outp ut; en d; ru n proc print data:step10; title; run; mend gini; *f proc p rintffi ; proc print data:&dsname (obs:10);title "&ds.: &dsname"; run; %omacro print(dsname) ; %me 562
プログラム③ gin 口 sas のデータセ ッ ト(全 世帯)を「20分 割+全 世帯 =21分 類」 +全 家族分類 =7分 類)× 世帯主性別 (2分 類+男 女 =3分 類)=21分 類 : ① HHlall HH2all HH3all HH4all HH5all HH6a‖ ② HHlM HHlF HH2M HH2F HH3M HH3F HH4M HH4F HH5M HH5F HH6M HH6F ③ HHa‖ M HHa‖ F HHa‖ MF; lmacro dscopy(newDSname);data x&newDSname;set step10;ru n;%mend dscopyi gini(HHlM,income,weight,1,*)%dscopy(HHlM) (HH2M,income,weight,1,*)%dscopy(HH2M) (HH3M,income,weight,1,*)%dscopy(HH3M) (HH4M,income,weight,1,*)%dscopy(HH4M) (HH5M,income,weight,1,*)%dscopy(HH5M) ni(HH6M,income,weight,1,*)%dscopy(HH6M) ni(HHa‖ M,income,weight,1,*)%dscopy(H Ha‖ M) %gini(HHlF,income,weight,1,*)%dscopy(HHlF) %gini(HH2F,income,weight,1,*)%dscopy(HH2F) %gini(HH3F,income,weight,1,*)%dscopy(HH3F) %gini(H H4F,income,weight,1,*)%dscopy(HH4F) %gini(H H5F,income,weight,1,*)%dscopy(HH5F) %gini(H H6F,income,weight,1,*)%dscopy(HH6F) %gini(HHa‖ F,income,weight,1,*)%dscopy(HHallF) %gini(HHla‖ ,income,weight,1,*)%dscopy(HHla‖ ) %gini(HH2a‖ ,income,weight,1,*)%dscopy(HH2a‖ ) %ginl(HH3a‖ ,income,weight,1,*)%dscopy(HH3a‖ ) %gini(H H4a‖ ,income,weight,1,*)%dscopy(H H4a‖ ) %gini(HH5a‖ ,income,weight,1,*)%dscopy(H H5a‖ ) %gini(HH6a‖ ,income,weight,1,*)%dscopy(H H6a‖ ) %gini(HHa‖ MF,income,weight,1,*)%dscopy(H Ha‖ MF) *21個 のジニ 係数を規定問題 2の 表様式に整理す る ; data co11;setxHHlM xHH2M xHH3M xHH4M xHH5M× HH6M xHHa‖ M:rename gini=giniM;ru ni data co12;setxHHlF xHH2F xHH3F xHH4F× HH5F xHH6F xHHallF:rename gini==giniFi runi data col3; set xHHlall xHH2all xHH3all xHH4all xHH5all xHH6all xHHalllVlF; rename gini:ginilMF; ru n; data gini;merge co1l co12 co13; H giniM= label dataset=‖ 家族分類 口 口 世帯主:男 giniF="世 帯主:女 giniMF=‖ 全世帯"; ru n: proc format; value Sdataset H Hla‖ =・ 1.単 身世帯 " ‖ H H2a‖ ="2.夫 婦 のみ世帯 HH3a‖ ="3.二 世代世帯 " ‖ ‖H4a‖ ="4二 世代(ひ と り親)世 帯 ‖ HH5a‖ =・ 5三 世代世帯 H H6a‖ ="6.そ の他 の世帯 " HHa‖ MF="全 世帯"; ru n; 563
proc print data=ginilabel NO(DBS; format dataset Sdataset.: format giniM F5.2i format giniF F5.2i format giniMF F5 2; title H規 定課題 2:年 間収入 のジニ 【 規 定 問題 2の プログラム解説】 ジニ係数を求める規 定問題 2で は 、以下の三つのプログラムから成 り、この順番 に実 行すれ ば、下に示す様 に、規定問題 2の 解答 が 自動 的に得られる。 ① divide̲ S.sas ② gini係 数計算プログラム macro化 sas ③ gini係 数マクロ実行sas プログラム①では、最終的に全部で 21個 のジニ係数を求めるために、元の擬似ミク ロデータを21個 の分類ごとに 21個 のデータセットに分割 した。その際、プログラム ②、③ で SASマ クロを容易に使える様 に、データセット名に工夫を凝らした。 プ ログラム② にあるマ クロ giniで は、 (1)デ ー タセ ット名、(2)変 数名、(3)集 計用乗率 の変数名、(4)集 計用乗率 の小数 点何位 まで使 う、(5)計 算の途中経過 を表示するか否かの五項 目を指定する。ジ エ係数 を算出する際は、集計用乗率を使 って、あらか じめ各オブザベーシ ョン を複数 コピー している。 このマ クロは汎用的に使用できる様に配慮 した。 も し、集計用乗率の変数 が ないデー タセ ッ トでジニ係数を計算する場合は、事前に全てのオブザベーシ ョ ンに weight=1を 追加 しておけばよい。 プ ログラム③では、マ クロ giniを 実行 して、21個 のジニ係数を計算 し、規 定問題 の求める表様式に自動的に並べている。実行 には約 4分 少 々かかった。 付録 2規 定課題 2図 表 鸞簿諄鷺倉:年間蛾入のジエ係数│ 家畿含鐵‐ 機 鑢 鸞 ・壼 全警警 1燿 繊せ幣 0燿 ‡ 0.82 0,ζ 會:麦艤命み世幣 03毒 0.31 0薄 霧 會:進 世ft世 警 0.2饉 0.23 0.26 0.導 ン 1 4:二 性1鷲 ひと攀議 :雛 ,警 帯 0130 08も ‐ 霧:二 世代せ黎 02蟻 0.34 0織 ア 6,骨 命傷の壼警 0鵞0 0濃 , 038 ア:全 鶯機 08苺 0̲33 Q80 564 , 5
独居高齢者 の生活実態 か らみる社会 とのつなが りの把握 チー ム名 :中 央大学 0 伊藤俊 貴 1、 1中 木下裕貴 1、 亀井健史 1、 堀 口剛 1、 高嶋郁海2、 寺 島瞭平2 央大学大 学 院 理 工 学研 究科都 市 人 間環境学専攻 2中 央 大 学 理 工学部人 間総 合 理 工学科 カ テ ゴ リー :学 生 Social connection assessment ofeldery living alone : Analysis ofNational survey offamily income and expenditure Toshiki ltor, Yuki Kinoshitar, Takeshi Kameil, Go Horiguchir, Ikumi Takashima2, Ryohei Terashima2 lCivil,Human and Environmental Engineering,Chuo University 2Department oflntegated Science and Engineering for sustainable society, Chuo University 要旨 高齢者 の独居 世 帯 が増加 し続 け る本 邦 にお いて は、社 会 的孤 立が重 要 な課 題 である。高齢 者 に お け る 「社会 とのつ なが り」の現状 を把 握 す る調査 は あ る ものの、客観 的 なデ ー タを用 い て議 論 を してい る論 文 は少 な い。そ こで本研 究 で は、全 国消費 実 態 調査 の疑似 デ ー タを用 いて独 居 高齢 者 にお ける生活 実態 を把握す るこ とを 目的 とした。交 際 費 と月謝 を合 計 した 消費額 を「社 会 との つ なが り指標 」 と定 義 し、家族分類 間 (独 居男性世 帯 、独 居 女性世帯、夫 婦 世 帯 )で の比 較 を行 っ た 。そ の結果 、家族 分類 間に有意 な差 が み られ 、特 に独 居 男性世帯 は独 居 女性世帯 よ りも 「社 会 とのつ なが り」 が弱 く、それ に関す る生活実態 につ い て も性差があ る こ とが示 された。 キ ー ワー ド :社 会 とのつなが り、全 国消 費実態調査、 独 居 世帯、高齢者 、 生 活 実態 1 背景 。目的 本 邦 で は少 子 高齢 社 会 の進 行 に伴 う問題 が指 摘 され て 久 しいが、高齢 者 を と りま く世 帯 形 態 に つ いて も大 き く変 容 してい る 1)。 厚 生 労働省 に よる国 民 生活基礎調査 に よ る と、2015年 時 点 で の 高齢者 の独居 世 帯 は 624万 3千 世 帯 (高 齢者 のい る世 帯 全体 の 263%)に の ぼ り、調 査 が 始 ま つ た 1986年 か ら増 加 が続 いてい る 2)。 国 立社会保 障 。人 口問題研究所 の 推 計 では、2030年 に高 565
齢者 のい る世 帯 の うち 37.7%が 独 居 世帯 とな る予 測 もされて い る 3)。 近年 で は 、高齢者が死後 一 定期 間発見 され ず に 自骨化 、腐敗化 す る孤 立死 (孤 独 死 )が 社会的 な問題 とな って い る 4)。 また 、独 居 高齢者 の方 が 非独 居 高齢者 よ りも抑 うつ を有す る割 合 が高 く、 うつ 病 の 発 症 リス ク上昇や 日常 生活 に影 響 を及 ぼ しや す い こ とが 、 高齢者 を対象 と した研究で 報告 され て い る 5,6)。 この よ うな現状 の根底 には 、家族や地域 コ ミュ ニ テ ィとの接 触 が 減 少 して 「社会 とのつ なが り」が希 薄化 し、十分な ソー シ ャル サポー トを受 け に くくな った 高 齢 者 がおか れ てい る社 会 的孤 立が あ り 3,7)、 高齢者 の独居 世 帯 が 増加 し続 け る本 邦 においては重 要 な課題 で ある。 こ うした背 景 を受 け、高齢 者 にお ける社 会 との つ なが りの現状 を把 握 す る調査 が 数 多 く行わ れ た。例 え ば 内閣府 に よる 「高齢 者 の生活 と意 識 に関す る国際比較 調 査 」に よる と、「会 話 が 2〜 3 日に 1回 以 下」、「近所付 き合 い が ほ とん どない」、「困 った ときに頼 れ る人 がいない 」 と感 じてい る高齢者 の 多 くが「生 きが い を感 じていない 」と感 じているこ とが 明 らか になった (順 に 268%、 39Ю %、 55.4%が 「生 きが い を感 じていない 」 と回答 )7)。 また久保 らの調 査 では、独 居 高 齢 者 は非 独居高齢 者 よ りも閉 じこも り傾 向 にあ り、生 きが い を得 られて い な い こ とが示 され た 8)。 このよ うに社 会 との つ なが りは 、独 居 高齢者 の抱 え る問題 につ いて議論 す る うえで重要 な役 割 を担 っ てい るが 、 ほ とん どが 自記 式 調 査 の 回答デ ー タ に よ る検討で あ り客観 的 なデ ー タ を用 い て議論 を してい る論 文 は少ない。 客観 的 なデ ー タか らライ フ ス タイル の把握 を試 み た報告 と して 、 消 費 実態調査 を用 い た 分析 がい くつ か 存 在 す るが 9,10)、 独 居 高齢者 にお け る社 会 とのつ なが りに つ いての検討 は不 十 分であ る。そ こで 本研 究では、全 国消 費 実態調査 の疑 似 デ ー タを用 いて独 居 高齢者 にお け る生 活 実態を 把握 し、今 後 の 本 邦 にお け る社 会 とのつ なが りに つ いて思案す るた め の 基礎 資料 とす る ことを 目的に解 析 を行 った。 2 研究方法 2‑1 社 会 とのつ なが り指 標 高齢者 の社 会 とのつなが りを評価す るための指標 として、ここでは 社会 とのつなが り指 標 =交 際費 十 月謝 と し、 この 値 が大 きい世帯 ほ ど社 会 とのつ なが りが強 い と定義 した 。 交 際費 は、食 料 、家 具・ 家 事用品、被 服 及 び履物 、教養 娯 楽 、他 の物 品サー ビス 、贈与金 の 消 費 額 か ら構成 され る変 数 であ り、月謝 は語 学教 室や スポー ツ教 室等 に消 費す る変数 であった。 566
2‑2 対象世帯 (n・ 31.387.30ア ) 全 国消費 実態調 査で得 られ た 31,887,307世 帯 諄書■6S破 来鵜Ⅲ繁帯 (ぃ のデ ー タか ら、図 1の フ ロー チ ャー トに従 い解 ,23.368′ 743) 世籍 主65議以上の壼帯 析対象 世 帯 を選 定 した。全調 査 世 帯 か ら、世 帯 主 (n=8.S18′ 564ヽ が 65歳 以 上 の独居・ 夫婦世 帯 に絞 り、さ らに実 (n=2.099.'59) 支 出に異 常 な外れ値 が あ る世 帯 (1標 準化 ス コ る5裁 以上かつ独居・夫婦世帯 (n‐ 6メ 18.∞ 6) ア │>3.29)を 除外 した。 最 終 的 な解析対象 は 、 に 備 ■:あ る●帯 in=46´ 825) 6,372,780世 帯 (独 居男性 世 帯 :664,313、 独 居 女 性世帯 :1,740,806、 夫婦世 帯 :3,967,661)と な っ (n=6,372.ア 80, た。 図 1 解 析 対象世帯選択 フ ローチ ャー ト 2‑3 比較方法 2‑3‑1 データの調整 各変数 の値は、一般に世帯人員に応 じて高 くなるため、家族分類間 (独 居男性世帯、独居女性 /:'で 除 世帯、夫婦世帯)の 比較をす る際に調整する必要があった。そ こで、夫婦世帯の消費額を、 の い それを 1人 当た りの消費額 として用 ることで独居世帯と 人数 して等価消費額を算出し 11)、 による消費額の差を調整 した。 2‑3‑2 解 析 方 )去 ■家族 分類 ご との 「社会 とのつ なが り」 家族 分類 間 で 、「社会 との つ な が り指標 」 に差 が あ るか を検 討 した。指標 の正 規性 を仮 定 で き なか った た め、検 定には ノンパ ラメ トリックな方 法で あ る Kmskal― Wa■ is検 定 を用 いた。 また、 多重 比較 の補 正 には Bontrroni法 を用 いた 。 なお 、「社会 との つ なが り指標 」 は世 帯 の総消費額 に応 じて 値 が大 き くな り、純 粋 な 「社会 との つ なが り」の差 を検 討す るこ とが 出来 な いた め、各 世帯 の 実支 出で除す こ とで調 整 した。 ■社会 とのつ なが り指標 の 構 成要 素 の性差 性別 に よ つて 「社会 との つ なが り指標 」の構 成 要素 の割合 が 異 な る可能性 が 考 え られ た。そ こ で 、独 居 世 帯 を対象 に、構 成 要 素 のパ イチ ャー トを作成 し検 討 した。 ■生活 実態 の性差 独居 世 帯 にお ける性別 ご との 日常的 な消 費傾 向 を明 らか にす るた めに 「生活 実態 に関連す る つ いて Buttcrny plotを 作成 した 。「生活 実態 に関 項 目」 の 消費額 ([各 項 目/実 支 出 ]× 1万 円 )に 連す る項 目」 には、食費 (調 理 食 品 と一般 外 食 は除 く)、 調 理食 品、 一 般外食 、酒 、 た ば こ、被 服及び履 物 、交通、 自動 車 関係 費 、光熱・ 水道 を用 いた 567 12)。 さ らに食 費 に関 して は、穀類 、魚介
類 、肉類 、乳卵類 、野菜・ 藻類 、果 物 に細 分化 し ([各 項 目/食 費 (調 理 食 品 と一般外 食 は除 く)] ×1000円 )、 別 に Buttcrny p10tを 作成 した ? 3 結果 3‑1 対象世帯 の基本属性 表 1、 2に 家族 分 類 ご との基 本属性 を示 した。夫婦 世 帯 は、独居世帯 よ り勤 労者世 帯 、 自営業 な どを含 む勤労者 以 外 の 世帯 の割合 が 高 く、独居女性 世 帯 は無職世帯 の割 合 が 高 か った。 また、 夫 婦 世 帯 は、65〜 69歳 の 世帯 の割合 が最 も高 いの に対 し、独 居 世帯 は 75歳 以 上 の世帯 の割 合 が 最 も高 い こ とが示 され た。年収 に関 して は、 独 居女性 世 帯 が独 居男性世 帯 よ り高い傾 向がみ られ 、 実支 出 に関 して も同様 な傾 向がみ られ た 。年齢構成 と年 収 か ら、独居 女性 世 帯 は同居者 と死別 し て い る可能性 が 考 え られ る。 表 1家 族分類 ご との基 本属性 項 目名 夫婦世帯 符号名 N 独居男性世帯 % N 独居女性世帯 % N % 3,967′ 661 世帯区分 住居 の所有関係 勤労者世帯数 304′ 110 8 49′ 265 7 勤労者以外の世帯数 717′ 465 18 89′ 564 13 79 無職世帯数 2′ 946′ 086 74 525,485 持 ち家あ り 3,293′ 883 83 458′ 271 69 持 ち家な し 673′ 778 ]7 206′ 043 31 99′ 239 6 148,9]8 9 1′ 492′ 649 86 1′ 266′ 976 73 27 473′ 829 *%は 各世帯 内で 占める符号名 の割合 を示 している。 (%=符 号名/項 目名¬00) 表 2家 族分類 ごとの 年 収 、実支 出、預 貯 金額 Ql 中央イ 直 Q3 平均 オ 票準偏差 年収 (万 円) 実支 出 (円 ) 夫婦世帯 108′ 260 152′ 196 214′ 613 178′ 610 111′ 独居男性世帯 84,637 132′ 561 203′ 608 160′ 585 l10,731 独居女性世帯 119′ 458 170′ 909 241′ 776 190′ 696 17′ 593 96′ 437 975 33.318 22′ 998 *夫 婦世帯 の消費額 は√2で 除す ことで 1人 当た りの消費額 に調整 している *Ql:第 一 四分位、Q3:第 二四分位 568
3‐ 2 家族分類 ご との社会 とのつなが り 一 一 Kmskal― Wallis検 定 を用 い、家族分類 ごとの 「社 一 ︐ 較 を行 った ところ、す べ ての世 帯 間 に有意 な差 が み られ 、特 に独 居 男 性 世帯 と独 居 女性 世 帯 の比較 で は女性 の方 が顕 著 に社会 との つ な が りが強か っ た。 強●勢t世 ● 一︲ に有意な差がみられた 0<Ю 001)。 さらに多重比 ● 一● 一 一一●●一● ︱ 一 一 一 ^ ´ 一一一一一一一 一 ︱ 一 ﹂︲ ⁚ ︱ ■● L 一 一 ︱一 一 ・ ︱ ■一一 ︲ ヽ︱ ︐︐ 会 とのつなが り指標 」を比較 した結果 、家族分類間 螢脚 キ 夫●世僣 図 2 家族分類 ご との社会 とのつ な が り指標 3‑3 「社会 とのつ なが り指標 」 の構成要素 の性差 図 3に 、独居世 帯 にお ける「社 会 との つ なが り指標 」の 構 成要素 のパ イ チ ャー トを性別 ご とに 示 した。全体的 な構 成 割 合 に大 きな性 差 はな く、男 女 と もに贈 与金、食 料 が 多 くの割合 を 占めて い た。 独層勇権世帯 独麟女性世 帯 &53ヽ 6.95鷲 国 1薦 謝 鰈 食料 鰈 蒙轟・家黎用品 鰈 被服・履物 鸞与畿 爾 教養娯楽 醸 他の物品サービス 鰈 興 涸 撤命交際費 図3 「社 会 とのつなが り指標 」 の 構 成要素 の割 合 569
3‑4 独居世帯 における生 活実態 の性差 独居世帯 にお いて 、「生活 実 態 に関連す る項 目」 の 消費額 (実 支 出 1万 円あた り)の 中央値 と 四分位範 囲 を性 別 ごとに図 4に 示 した。調理食 品 、一 般外食 、酒 、た ば こ、自動車等 関係 費 に関 しては、男性 の 方 が 消費額 が 高 い傾 向にあ り、食 費 、被 服及び履物 、光熱 ・水道 に 関 して は、女 性 の方 が 高 い傾 向にある こ とが示 された。中央値 を比較す る と、女性 に比 べ 男性 の 方 が 一 般外食 では約 2.5倍 、 酒 で は約 5.3倍 消 費額 が高 かった。た ば この 中央値 は男 女 ともに 0円 で あ ったが 、 喫煙率 には性 差 が 見 られ た (男 性 の 喫煙率 43%、 女性 の喫煙率 17%)。 穀類 、魚 介 類 、肉類 、乳卵類 、野菜・海藻、果 物 の 消費額 (食 費 (調 理 食 品 と一般 外 食 は 除 く) 1,000円 あた り)の 中央値 と四分位 範 囲を図 5に 示 した。穀類 以外 は女性 の方が消費額 が 高 い傾 向が見 られ 、野菜・ 海藻 に関 して は 中央値 を比較 してみ る と、男性 に比 べ 女性 の方 が 約 1.3倍 消 費額が高か った 。 食壼 28継 ■一機鷲 4 麟瑾奮懸 ―畿棒食 150.1 卜驀― l 瀬 たばこ 1撃 癬 機議晟び轍犠 爽議 尭難・本議 密奪薔簸 鷲tttH0 13畿 ) 10001 50に, 0 0 懲書機1 《 斑X) 苺 饉 鸞儘 艤 驚性 図4 生 活実態 に関連 す る項 目の消費額、 570 ' 20鰺 2議χ)
畿饉 増繊 2.‡ トーー●―→ 1403 魚食類 ■獲■ 繭鐵 縫難蕪 75爵 舞 驀 轟1 鶏 4機 妻場0 1蘇 ) 卜 菫12 ̲^轟 難輪 0 .憲 100 全 懇じ 0剛廟 400 籐 舞罐 艤 女性 図 5 食 費 に関す る項 目 の 消費額 4 考察 本研 究 で は、2004年 の 全 国消費実態調 査 の 疑似 デ ー タ を用 いて 、独 居 高齢者 の 「社 会 とのつ なが り」に 関す る生活 実態 を明 らかに した 。家族 分類 間 の「社 会 との つ なが り」を比較 した結 果 、 独 居女 性 世 帯 よ りも独 居 男性 世 帯 の方 がつ な が りが弱 く、それ に関す る生活 実態 に つ いて も性 差 が あ る こ とが示 され た。 独 居 世 帯 にお ける 「社 会 との つ なが り」の性 差 は、評 価 に用 いた 「社 会 とのつ なが り指標 」の 構成要 素 の偏 りによって生 じてい る可能性 が あ るた め、比較 を行 ったが 、構成割合 に性 差 はみ ら れ なか った 。 次 に、独 居 世帯では 日常 の生 活 実態 の違 い に よって 「社 会 とのつ なが り」に性 差 が生 じてい る と考 え、 「社 会 とのつ なが り」に関連す る項 目の 消費傾 向 を比較 した。そ の 結果 、食 費 の合 計 に は性 差 はみ られ なか った が 、男性 は女性 よ りも野菜・果 物 の 消費額 が低 く、調理食 品や外食 の消 費額 が 高 い傾 向がみ られ た。本 結果 か ら、男性 は女性 よ りも料 理 をせ ず 、コ ン ビニ の弁 当な どの 調理食 品 を購 入 してお り、偏 りの あ る食 習慣 で あ るこ とが示 唆 され る。 また、男性 の 方 が 光熱・ 水道 の 消 費額 が低 い こ とか らも、 「男性 が料 理 を してい な い 」 とい う実態 が推測 で き る。 酒 、た ば こに関 して は大 きな性差 はみ られ なか ったが 、男性 の方 が 女性 よ りも消費割 合 が 高 い 傾 向が示 され た。また 、女性 の方 が被服及 び 履 物 の消費額 が 高 く、交通 にガ ソ リン代 以外 も含 む 571
自動 車等 関係 費 を考慮 して も女性 の方 が 消費額 が高い こ とか ら、外 出す る傾 向が強 い こ とが示 され た 。 先行研 究 にお い て も女性 は男性 よ り定期的 な グル ー プ活 動や友 人 交流 とい った 対 人 関 係 を前提 とす る活動 に対 して積極 的で あ る こ と 13)、 人 と交流す る機 会 が 多 い こ と 14)が 示 され て お り、 これ は女性 の 方 が外 出す る傾 向が強 い とい う本研 究 の 結果 を支持 して い た。 「社 会 とのつ なが り」 に関連す る項 目の 消費傾 向には、 い くつ かの項 目で性 差 がみ られ たが 、 これ は高齢期 以前 の性 役 割 が影響 して い る と考 え られ る。 男性 は主 に勤 労 とい う家庭外 の役割 が求 め られ てい る こ とが 多 いが 、女性 は 高齢 期以前 か ら食 事 の支度や 近 所 付 き合 い な ど家庭 の 役 割 が求 め られ てい る。そ のため、男性 にお け る他者 との交流 は職場 での人 間 関係 に限 られ て し ま い 、女性 の よ うに家 を 中心 とした地 域 内 で 多様 な人 間関係 を築 くこ とが難 しい 環境 にあ る 15,16)。 この よ うな性役割 の違 い が 高齢期 で の生 活 実態 の性 差 を生 み 、高齢 男性 の 社 会 的孤 立 に つ なが って い る と考 え られ る。そ こで 、男性 に対 しては高齢期 に入 ってか らで も取 り組 め るグル ー プ活 動 等 へ の 参加促進 を図 って い くことが重 要 で あ る とい え る。 本 研 究 の 限界点 につ い て述 べ る。先行 研 究 では社会 的孤 立 の 関連 因子 と して 、健康 状態 が 挙 げ られ てお り、健康 状 態 が悪 い人 ほ ど 「社 会 とのつ なが り」 が弱 い こ とが示 され てい る 12)。 しか し、本研 究 で使用 して い る全 国消費実態調 査 の疑似デ ー タには 、医薬 品等 の 健 康 に関す る変数 は あ る もの の 、それ らの変 数 で は病状 の 区別 等 ができず 、健 康 状 態 を正確 に判別 で きな い。そ のた め、独 居 高齢者 の 「社 会 とのつ なが り」 の 関連 因子 に健 康 面 を含 め る こ とが で きなか った 。 この よ うな限界点 は あ るが、本研 究 の 結 果 か ら高齢者 の 独 居 世帯 にお い て生 活 実態 に性 差 が あ り、 この性差 が 「社 会 とのつ なが り」 に影 響 を及 ば して い る可能性 が あ る こ とが示唆 され た。 した が って、今後 の 高齢 者 の 独居世帯 にお け る ソー シ ャル サ ポー トの促 進 を考 えてい く際 には、 男 性 に対 して は今 回得 られ た性 差 を考 慮 した 対策方針 を設 定 す る こ とに よって 、 よ り効 果 的 な 結 果 が 得 られ るので は な いだ ろ うか。本研 究 の結果 が 、今 後 も高齢化 が進 む本 邦 にお いて 、孤 立 な ど様 々 な問題 と関連 の あ る「社会 との つ なが り」につ いて 思案 す るた めの基礎 資料 とな る こ と が望 まれ る。 5 参考文献 1)赤 嶺 伊都 子 ,新 城 正 紀 .世 帯形 態 か らみ た地 域 在 住 高齢 者 の 支援 一 単独 世帯 に焦 点 をあ て て 一 .民:羨1衛 生 2006;72o:191‐ 207. 2)厚 生 労 働 省 .国 民 健 康 調 査 結 果 の 概 要 ,http://www.mhlw.gojp/tou"ν list/20‑21kekkahml (2018年 7月 3日 ア クセ ス 可能 ) 3)国 立 社 会保 障 。人 口問題研 究所 .一 日本 の 世帯数 の 将 来推 計 (全 国推 計 )2010(平 成 22)年 〜 2035(平 成 47)年 ‑ 2013(平 成 25)年 1月 推 計 ,http:〃 ww輛 pss8o」 p/pp― 勾setai4/HPRJ2013/gaiyo̲20130115.pdf(2018年 7月 3日 ア クセ ス可能 ) 4)斉 藤 雅 茂 ,近 藤 克 則 ,尾 島 俊 之 ,ほ か .健 康指標 との 関連 か らみ た 高齢 者 の社 会 的 孤 立 572
10年 間 の AGESコ ホー トよ り.β 本́:公衝誌 2015;62(3):95‐ 105. 基 準 の検討 5)古 川 秀敏 ,国 武 和 子 .地 域在住 高齢 者 の抑 うつ の 関連 要員―N県 N町 の老 人 クラブ の 調 査 結果― ′ 本́:看 翻 ク学会:〃 1誌:2007;30(4):61‑66. 6)藤 井 啓介 ,北 濃 成 樹 ,神 藤 隆志 ,ほ か .独 居 高齢 者 にお ける地域 活 動 へ の 参加 と抑 うつ との関連性 ̲ど 学;療│夕 を学 2017;32(1):105‐ 110. 7)内 閣 府 .平 成 23年 版 高 齢 社 会 白 書 .mp://www&caogo」 p/kourci/whitepaper/w― 2011/gaipu/23indcx3html(2018年 7月 3日 ア クセ ス 可能 ) 8)久 保 温子 ,村 田 伸 ,上 城 憲 司 .独 居 高齢者 と非 独 居 高齢者 の特 徴 に 関す る大 規模 調 査 . 生 の夕1療.2014;61(11):21‑26. 落三 9)丸 山 桂 .高 齢 者 世 帯 の 家計 と生 きが い一 正 社員 経 験 者 の 男女比較 を 中 心 と して一 =年金′7' 多響:2017;7:61‐ 83. 10)消 費 者 庁 消 費 者 白書 等 ,http:〃 www£ agoJp/policicsわ 。liCy/COnSumCtreSCarCVWhite̲paper/ (2018年 7月 3日 ア クセ ス可能 ) 11)岩 本 光 一 郎 ,菅 史彦 ,新 関 剛 史 ,ほ か。『 家計調 査』個票 をベ ー ス と した世 帯年 間消 費 支 出額 の推 計一 推 定手順 と例示 的図表 に よるデ ー タ紹 介一 .力騎宥 ;経 済 1を 鋸 珍 夕 :究│プ んど〃 ′〉 笏:ノ .2016;190:93‑128. 12)斉 藤 雅 茂 .高 齢 者 の 社 会 的 孤 立 に 関 す る主要 な 知 見 と今 後 の課 題 .季 〃家「計〃 ″ 夕::空 2012;94:55‑61. 13)斎 藤 民,近 藤 克 典 ,村 田 千代栄 ,ほ か。高齢者 の外 出行 動 と社会 的 。余 暇 的活動 にお け る 性 差 と地域 差 JAGESプ ロジ ェ ク トか ら.β 木 公笏 2015;62oO):596‑608. 14)江 尻 愛美 ,河 合 恒 ,藤 原 佳典 ,ほ か 。都市高齢 者 にお け る社会的孤 立 の 予測 因子 :前 向 き コホー ト研 究 .β 本́公衛誌 2018;65(3):125‑33. 15)神 谷 浩夫 .名 古屋 市 にお ける主婦 の 日常行動 ―時 間利 用 と外 出行動 との 関連 を中心 に .ス ズ カタ 理71987;39(6):19‑35. 16)村 田 陽平 .中 年 シ ングル 男性 を疎外 す る場所 .ス 文́1:地 IZ.2000;52(6):533‑51. 573
付
録
付録 ]規 定課題用 SASプ ロ グ ラム
漱☆
燎摯 攘… データ保管場所の指定… '` 最摯最′
★
′
set environnentsas^/:
%let drive=C:
%let path=ヽ SASコ ンペ2018ヽ チーム0ヽ SASプ ログラム
矧et pathFuqou=ヽ SASコ ンペ2018ヽ チーム0:
%let FugouExcel=全 消2004年 新擬似ミクロデータ符号
表 xlsx:
value X09F
5=・ 5:24歳 以下̀'6="6125‑29歳 ''7="7:30〜 34歳 ''8=''8:36〜
1'9=・
39歳
9:40〜 44歳 ''10=''10:45〜 49歳 ''11='111:50〜 54歳
12=・ 12:55〜 59歳 ''13=''13:60〜 64歳 ''14="14:65〜 69歳
・
15='15(70〜 74歳 "16=・ 16(75歳 以上
;
''
:
libname micro"&drlve:&path・
キ
企業区分・従業者規模
:
'家 族分類
:
value Xll F
:
身世帯''2=・ 2:夫 婦 のみの世帯"3="3:二 世代の世帯
(注 1).'
4=・ 4:二 世代 (ひ とり親 )の 世帯 (注 2)・ 5=・ 5:三 世代の世帯
(注 3)・
6="6:そ の他の世帯 (1‑5以 外の世帯 )・
々
未就学児の有無
%include"&drive:&pathヽ #3 sas":
l=・ 11単
`
フオーマ ツ ト自動作成プログラム (#3):
llename outl・ &driveASASコ ンペ2018ヽ チーム0ヽ SASプ ログ
autoformat sas・
ラムヽ
:
&drlve:&pathFuoouヽ &FuqouExcel・
:
out=format(rename=(f2=cate f3=varNAME f4=var
・;getnames=noimn:
馬=code))replacei sheet=・ 世帯事項
proc● ‖
nt data=forrnati
title・ brmat符 号表'':Ш ni
daね
:
・ 3=・ 3:″
value X40F l="1:民 営・自営 4〜 4人・ 2=・ 2:″ 5〜 29人
・ 6="6:無 職':
30‑499人 '4=Ⅲ 4:″ 500人 以上"5=・ 5:官 公
`
フ オーマ ツ トの 自動作成 実行マクロ
plκ )c irnDort datafile=
:
:
va:ue X12F l=・ 1:無 ''2="2:有 ";
☆
学校に通う世帯員の有無
:
va!ue X13F
・ 2=・ 2:有 (学 校 には、専修学校及び各種学校を含
l=''1:無
NULL:
む )":
'65歳 以上の世帯員数
''2=''2:2人 以 ̲L'';
value lX14F O="0:0人 ''1=''1:1メ 、
set fo「 nlatifile outl:lenqth buff S 100:
if N=l then put'/☆ autoformatsasり
:
':
if N く=4 then returni
ifvarNAME="w eioht・ then dol out':'/'run:':returni endi
☆
規定課題①
if N =5 then put''proc formati":
,
formatname=comoress(varNAME II'F'):
ifvarNAME NE''"then put':'/.☆ 'Cate':'/'value'
ods odf FlLE=
brmatname:
bur=varll'=t''│lvaril̀:'llcOdell"・
SASコ ンペ2018ヽ チーム0ヽ 規定課題
proc tabulヨ │● data=IMicro Data vardef=weight
format=co"nia10 0:
class x08 xll:format xll× 41F x08 x08F.:
:
bur=kcOmOress(bun:。 ut buff:run;
☆
完成 したフ オーマツ ト
tauЮ
′
brmat sas'/
var Y004/WE:GHT=weioht:kevlabel N="''SUMI="'':
table Xll="家 族分類 "a‖ =・ 合計上X08="世 帯 主の性別
・°
(Y001=m)★ (mean="平 均 'I)(Y001=・ 全世帯'T(mean=・ 平均")
・'(Y001=m)'(std="標 準偏差 り(Y001="全
X08="世 帯主の性別
・)Istd="標 準偏差")
世帯
X08=・ 世帯主の性別"★ weight=・ 世帯数'a‖ ="全 世帯'崚 weight=
世帯数'1:runi
:
pЮ c bnnd:
'大 都市圏の別
C:ヽ
①.odF':
:
・ 0=・ 0:そ の他 ":
value X01F l=・ 1:3大 都市圏
'世 帯区分
value X02F
l='■ :勤 労者世帯 (世 帯主が会社な どに勤 めている世帯
2=''2:勤 労者以外 の世帯'3=・ 3:無 職世帯";
`
世帯人員
value X03F
l=''4:4人 ''2=''2:2人 ''3='3:3人 ''4=・ 4:4人 ''6=・ 5:5人 以上
:
ods odf close:
)・
火
規定課題①
'ジ ニ係数の算出
:
:
%macro datal(vannum.sex.s):
proc freq data=micro Zensho2004o‖ lmlcro:
where xll=&varand x08=&sexitables v00 1/!nissino:
蹴 業人員
value X04F
weioht weiqhti ods outout onewayfreqs=micro tableirun:
:
data lTlicro tablei set micro tablel
・ 3="3:3人 以̲L":
O=・ 0:0人 ''1=''111人 ''2=Ⅲ 2:2人
all Nenkan Svuunvuu=Y001★ freOuencyi nurn=1:run;
力
住居の構造
value X05F
l=''■ 木造 (防 火本造含む 2=・ 2:木 造 (防 火木造含む)以 外"
々
住居の建 て方
value X06F l='■ :一 戸建"2="2:一 戸建以外 ":
☆
住居の所有 隣係
・ 2=・ 21持 ち家以外":
value X07F 4='■ 1持 ち家
・世帯主の性別
value X08F l=・ ■男̀'2=・ 2:女 ":
'世 帯主の年齢
proc means data=micro.table sum:
i
ods output surnmarv=rnicro table2:
var a‖ ̲Nenkan̲Syuunyuu:runi
)・
(
data micro.table2: set micro.table2; num=1; run:
data micro.table3: merqe micro.table(in=a) micro.table2;
bv num: if a: sum+all Nenkan Svuunvuu:
menseki=(((sum+Laq(sum))/all Nenkan_Syuunyuu_sum)'(C
umoercent-Lao(CumDercent))/1 00)/2:
aaa=sum/all_Nenkan,Syuunyuu_sum;
:
:
:
10
574
cumpercenθ =cumoercenV400:
label aaa="年 間収入の累積相対度数":
・:run:
cumpercent2="累 積相対度数
micro.table4 7 &sex:
oroc means data=micro.table3 sum;
var menseki: ods outout
%mend sex:
summary=micro.table4 &num._&srun;
data micro oini:merge micro tdal̲l micЮ total̲2
micЮ .tota13:
drop lini menseki Sum i‖ nil:if xl l=''then xll=7:
iini2̲&sex」 ni2:labeljin12̲&sex=̀ジ ニ係数'xll='世 帯分類
':
%se/1)%sa(2)%s̀X3)
data micro table4&num &si set micro table4̲&num̲&s;
ni=(0.5‑menseki sum)'2:x41=&num:
‖
★
10★ '2)/10★ 2i putlini2i runi
format xll X14F;run;
%nlond datal:
・ 表の作成
bV Xll:口 」n:D口OC D‖ nt data=rniCrO gini n00bS labeli
lini2=int(lini・
%ab″ イvaFl.num=1.sex=1.s=1)%d´ :リ アvai=2.num=2.sex
=1.s=1)%da2,イ var=3.num=3.sex=1.s=1)%● 0鮨 lイ vaF4.nu
m=4.sex=ts=1)%0り ″′var=5.num=5,sex=■ s=1)%db:リ ズv
ar==6.num=6,sex=1,s=1)%dbZ,ズ var=鷺 &2&3&4&5&6,num=7,
:
pぃoc transpose data=rnicro.oini out=rnicro.tra:
varjini2̲1 lin12̲2,ini2;by xll:n』 n:
proc fornlati value xl l F
sex=1.s=1)
%dalリ イvaitl.num=tsex=2.s=2)%da10/var=2.num=2.sex
var=4.nu
=2.s=2)%daa,ノ
l="1:単 身世帯"2=・ 2:夫 婦のみの世帯"3="3:二 世代の世帯
躊="4:二 世代 (ひ とり親 )の 世帯"5=・ 5:三 世代の世帯"
6=・ 6:そ の他の世帯'7="全 世帯
̀var=3.num=3.sex=2.s=2)%da2,イ
m=4.sex=2.s=2)%da10ズ
var=5,num=5,sex=2.s=2)%d,̀′ ズv
ar=6.num=6,sex=2,s=2)%dàZ,(var==4&2&3&4&5&6,num=7,
vabe sex l=''1::男 '.2="2::女 ":n」 n:
sex=2.s=2)
data micro tra2:set rnicro.tra:
%da″ イvaFl.num=1.sex=(&2.s=3)%dalレ イval=2、 num=2.s
if NAME=lni2'then NAME='全 世帯
ex=1&2.s=3)%̀」
(val=‐ 3.num=3.sex=1&2.s=3)(る
d´ P■ v
":b′
aF=4.num=4.sex=1&2.s=3)%dコ
」
,ズ var=5.nulΥ l=5.sex=1&2.s
と
=3)%da力 Pズ var=6.nurTI=6.sex=1&2,s=3)%d′ た,(var=1&2&8
if NAME=lin12 1'then NAME='1:男
&4&5&6,num=7,sex=1&2,s=3)title:
ods odf FILE="C:ヽ SASコ ンペ2018ヽ チーム0ヽ 規定課題2 pdF'
'>-RWafrh,
class xll NAME:forrlat xll xll F:kevlabeI SUM‐ ''・
・ ,̲NAME̲=・ 年間収入のジニ係数
tables xl l=''家 族分類
'':
':
':
if̲NAME̲・ lin12̲2'then̲NAME̲='2:女 ':n』 n:
oroc tabu!ate data=micro■
%macrc sex(sex): data micro.total &sex:
set micro.table4 'l &sex micro.table4 2 &sex
'̀★
micro.table4 3 &sex micro.table4 4 &sex
micro.table4_5_&sex micro.table4_6-&sex
ra2:var COLl:
(COLl=""):
nlni ods odf closei
付録 2規 定 課題 図表
―規定課題
1
世 待 主 0性 別
世帯主
全世 裕
2:女
平海
平 :'鬱
平均
標準 僣 羞
416
266
3,3
26ツ
165:
202
3.187.182
3432.OCt
557
530
357
361
331
360
7600.340
143.504
7.744.344
,33
686
ツ
32
373
860
373 11,700,238
14ア 06倉
:1356.290
6拿 9
469
663
402
326
3'8
1000.鉾 1
:β 24,421
2.328,212
004
450.
42,
461
2545.855
210,80
2.756.835
一
429
458
428.659
1争 奪.714
582.393
一
̀
1:男
281
396
1.092
31.387.307
1:男
魏男
世帯歌
‐
家族 分 類
2決 撮 の み の 性 帯
舞)の 世 帯 (注 2)
L3)
1〜 5以 外の書警)
"̀
778
̀,7
576
724
612
35S
610
―規定課題 2
鐵族分薙
lo単 身 世 撥
032
031
03●
026
028
026
030
036
0裕 5
0、
25
Gその他の世書 (1〜 韓 外の世鶴)
030
全 世等
030
1■ :̀
鮨 一鮨
030
0.32
033
̀)3,
020
032
0.38
11
575
6.610183
:
付 録 3自 由課題 SASプ ログラム 口 服・ 履物'‐ γ163 MEAN"=''教 養娯楽 Y164 MEAN"="他 の ロ ¨ 物品サー ビス Y16■MEAN"="贈 与金 Y166̲MEAN"="他 の交際費"; 燎 '最 社会 とのつながり指標 の作成 : data H taisvou6: set H taisvou5: kizuna=Y148+Y159:☆ Y148は 月謝類、Y459は 交際贅 ods iistinq style=lourna13: : ・ bbel kizuna="社 会とのつ なが り指標 oroc sorender data=H rnatome2 terrlplate=Paicha蔵 : n : format̲name̲$̲name̲; n; 最ツ クラスカル・ ウ オ リス検定 "1 n」 ni ●い oc NPARlWAY data=H.taisvou6 w‖ coxon: class cate:'cateは 、独居男、独居女、夫婦世帯の区分 var kizuna:″ klzunaは 、「社会 とのつながり指標」 ☆ ・ ''8uterfly plot★ ☆ : OrOC temDlatet : deine statoraoh Buterflv: : freo weiqht: dvnarnic title:beqinoraph: fornlat cate catef: entrvtitle"独 nln; lavout lattice/columns=2 colurγ in、 veights=(0.4270.573) 摯 ・ バ イチ ヤー ト'‐ 「ovvdataranqe=union: 川ei cetl with male dataV : DOCね mplate: lavout overlav/vva‖ disolav=standard deine statoraph Palchart; xaxisoots=(reverse=true displav=(tickvalues)o「 dvnamic title i iddisplay=on oridatrs=(colo時 cガ 777)lineaЮ tts=̀vlewmax=2500)) beqinoraph: vaxisoots=(disolav=none reverse=true discreteoots=(colorbands=odd)): scaterolot x=iTled m rv=Variable/nalTle=''m''leoendlabel=" 男性"xeroriower=ol xerЮ ruppe■ o3 colurnns=2 colurFlnWeightS=(0.450.45) lavout latticeノ ro、 居男性と独居女性のライフスタイル"title: ′ 、 datarance=unioni cell; /1eft celi with male dataV cellheaderi entrv textatrs=(size=13PT)・ rrlarkeratrs=(svnlbol=squarel‖ ed color=teal size=10) 独居男性世帯": errorbarattβ =(COIoFtealthiCkneSS=1)datalabel=med̲m̲r endce‖ headeri datalabelattrs=(size=10)iendlayouti lavout reolont /'richt ce‖ piecinart cateoor、 ′ = name resoonse=per̲rr1/na me="p" others‖ ce=false dataskin=rnate datalabelcontent=(oercent)datalabe‖ xaxisopts=(displav=(tickvalues)qriddisplav=on ocation=lnside start=90 oridatrs=(colol=cxf77f7)‖ cateqorvdirection=clockwise OtherSliCeOOtS=ftVDe=DerCent perCent=20) nearoots=(vlewmax=2500)) VaXiSOptS=(reVerSe=true diSCreteOOtS=(CO10rbandS=Odd) tickvaluehalion=center disolav=(tickvalues line)): datalabelattrs=(size=12); scaterplot x=rned f rv=Varlable/narne="f'leqendlabel= 性'(xerЮ「lowe← ol f xerroruDOe嗜 03f endlavouti endcell: rnarkerattrS=(SVnib。 1=SOuarefi‖ ed COIor=liOhtCOral SiZe=9) ce11: erЮ rbarattに =(COloFliqhtcomi thickness=嗜 /'riqht ce‖ with fennale dataマ / ) datalabel=rned f r cel:headeri datalabelatrS=(SiZe=10): ・ entrv textattrs=(size=13PT)・ 独居女性世帯 endlavout: : endcellheaderi /力 lavout reoion: 藤iechart cateoorv= name resoonse=per̲f′ leoettd☆ ′ sidebar/spacefi‖ =false: discreteleqend l'r,1'''7'/across=2 valueattrs=(size=11) name="p" otherslice=faise dataskintrnate datalabelCOntent=(DerCent)datalabe‖ wlthた male data'ノ lavout overlav/wa‖ dlsolav=standard autoiternsize=true border=falselendsidebari OCatiOn=lnSide Start=9ゆ endlavoutiendgraphi cateqorvdirection=clockwise OtherSliCeoOtS=(tVpe=perCent perCent=00) end:run: output'/ proc sorender data=卜 l buterflv terγ 、 plate=Butterflyi /・ datalabelattrS=(SIZe=12): endlavout: Format Variable SVariabteF:Ш endcelli sidebar/soacefl‖ =fa:se: discreteieqend''o''/across=4 border=true halion=riqht iternsize=(linelength=20 heiOhtSCale=2)ValueattrS=(SiZe=12): endsidebar: endlavouti endgraph: endi pЮ c brrnat: value S name ・Y148 VEAN・ =''月 謝""Y160 MEAN"=・ 食 料""Y164̲MEAN"=''家 具・ 家事用品""Y162̲MEAN''=''被 12 576 ni 女
主催 :SASユ ーザー会 世話人会 代表世話人 大橋 靖雄 中央大学 教授 世 話 人 (氏 名50音 順 伊藤 陽一 統計数理研究所 計量科学グループ 教授 ) 上村 鋼平 東京大学大学院 特任講師 魚住 龍史 京都大学 講師 株式会社インテック 小野 潔 岸本 淳司 堺 伸也 九州大学 ARO次 世代医療センター 副センター長 准教授 イー ピーエス株式会社 坂巻 英一 周 防 節雄 兵庫県立大学 名誉教授 菅波 秀規 興和株式会社 BioStat研 究所株式会社 高橋 行雄 松岡 渾 独立行政法人 統計センター 日本 メディア株式会社 富内 亨 順天堂大学 臨床研究支援センター 独立行政法人 統計セ ンター 野原 賢 一 名誉学員 八木 章 近畿大学 元教授 山之 内 直樹 第一三共株式会社 横浜市立大学 データサイエンス学部 学部長 教授 岩崎 学 協賛 (掲 載 50音 順 イーピーエス株式会社 エイツーヘルスケア株式会社 SAS lnstitute Japan株 式会社 JMPジ ャバン事業部 スタッ トコム株式会社 株式会社タクミインフォメーシ ョンテクノロジー 協力 SAS lnstitute Japan株 式会社 SASユ ーザ ー総会事務局 〒 101‐ 0061 東京都千代田区神田三崎町 3‐ 2‑15 0RIENT BLD.No.68 SAS ユーザー総会 2118 論文 集 2018年 9月 ア日 初版第 1刷 発行 :SASユ ーザー会 SAS hstltute Japan株 式会社 発行 )