>100 Views
April 21, 25
スライド概要
成果指向型業績評価モデルの一考察 一日本プ ロ野球野手主要選手の年俸を事例として一 陶山博太
V8におけるLOGISTIGの機能拡張 浜田知久馬
SAS/Warehouse Administrator ソフトウェアリリー ス1.3の紹介 高木雅弘
データマイニングの前のPROC FREQとPROC MEANS 東一成
ダブルプログラミングによる統計解析の品質管理 菅波秀規
投与前値を共変量とした線形混合モデル 高橋行雄
V8のODSによる総括報告書の電子化-関西プロジェクト-,その1.What's ODS?(開発の経緯と今回利用したODS機能の紹介) 岩本光司
V8のODSによる総括報告書の電子化-関西プロジェクト-,その2.有効性評価に関する報告書作成(計数値を中心として) 北川忠行
V8のODSによる総括報告書の電子化-関西プロジェクト-,その3.有効性評価に関する報告書作 成(計量値を中心として 鍵村達夫
V8のODSによる総括報告書の電子化-関西プロジェクト-,その4.共変量の調整(FREQおよび PROC GENMODを例として) 大津洋
V8のODSによる総括報告書の電子化-関西プロジェクト-,その5.Model-based解析結果の要約 (MIXEDプロシジャを例として) 伊藤要二
PH-Clinicalソフトウェアを利用した集計解析表作 成について 宇野浩正
Pharma SUG2000 に参加して 小林章弘
メタアナリシスにおけるグラフィカル表現:レヴュー とひとつの提案 余田明夫
乱数を利用する症例数設計 篠原英之介
臨床試験の解析計画書からSASプログラム自動 生成の試み 萩野篤司
臨床データ解析におけるSASプログラミングバリ デーション 佐々木徹也
信用リスクを考慮した債券の評価 加藤浩一
層別サンプリングの改良による自然災害シミュ レーション 田村憲利
カスタマーオリエンテッドによる管理会計への転換 -コストマネジメントからレベニューマネジメントへ - 清水孝郎
社会調査におけるデータ収集・集計作業の実際~ アンケート調査票の設計,エラー修正,データ集計作業行程管理Tipsの紹介~ 入江秀晃
SASによるバランスト・スコアカード最新動向 南恭子
UNIX版SASシステムにおけるパフォーマンスチューニングについて 齋藤祐二
Webログを活用したデータマイニング 柳澤彩子
ツリー分析における予測レスポンス率の修正方法について-分析対象データに過去のアプローチ実績有無のデータが混在している場合 平松宏之
データマイニングによる製造プロセスの品質解析事例 水田匡彦
ニューラルネットワークモデルによる牛乳販売量 予測の検討 高橋幸一
POSデータのデータマイニング 鈴木督久
マイニング・ツールの比較評価と選択のポイント 小野潔
時系列データによるデータマイニング-牛乳販売 量の需要予測- 高野江里子
SAS/IMLを用いた局所影響分析-相関行列にも とつく主成分分析の場合- 張方紅
化粧品製造における重回帰分析と数量化1類の 適用事例 池山豊
SASシステムによる半導体製造装置稼働データ分 析ツールの構築 山本幸恵
ClintrialのデータをSASで利用する方法の紹介 藤田和也
SASおよびExcelを用いたOLEおよびOLE Automation Serverの利用 小沢義人
SASシステムをべ一スとした臨床試験データプロセスの検討 渡辺昌彦
JMPを用いたWHO-QOL 質問表の解析について 板東説也
東山梨コホートにおける生活習慣とその死亡原因との関係 縣俊彦
資産価格形成モデルへのマーケット・マイクロスト ラクチャーによる流動性の導入 仲村敏隆
サプライチェーンのパターン化とその評価に関す る研究 李綺
地域協同組織金融機関の収益性分析近畿圏を例 として 川向肇
Windows版SASとテキストエディタの連携パッケー ジSAS OLEの開発とその紹介 菊地賢一
web EISソフトウェアを体験 阿部一也
Open OLAP Serverの機能と利用方法 宗像志保
SASの利用形態の変動 久冨丈志
SAS V8への[EXSAS]の対応【プログラムの変更 ~バリデーション~標準化】 山本典子
臨床試験データの一覧表作成システムの紹介 西原健自
SAS/GRAPHソフトウェアを用いたフラクタル図形 の作成-ISE LIST2000,SAS2SDF- 長谷川要
SASによるフラクタル表現 山下敏治
オフィスビル外観の「汚れ感」評価 武藤浩
患者の満足度調査-入院外来,性年代の影響に ついて- 田久浩志
大学病院の患者満足度に及ぼす要因の解析 楊学坤
Using SAS/GRAPH② Software to Create Graphs on the web Stuart Nisbet
SAS V8 によるODSの機能紹介,及びに便利な使い方 木下貴文
Making the Move to Version8 Steve Beatrous
Fitting Nonlinear Mixed Models with the New NLMIXE DProcedure Russell D.Wolfinger
Multiple lmputation を行う Version 8.1 の評価版プロシジャについて 小野裕亮
単変量分析に関するバージョン8の拡張点 小玉奈津子
SAS言語を中心として,解析業務担当者・プログラマなのコミュニティを活性化したいです
第 19回 日 本 SASユーザー会総会 および研究発表会 論文集 2000年 8月 31 日(木) g月 1日(金) '"'J
SASは、株式会社 SASインスティチユートジャパンの登録商標です。 SASSystem、SASSystemを構成するプロダクト群は、 SASI n s t i t u t eI n c . の登録商標です。 その他、本論文集に記載されている会社名、製品名は、一般にそれぞれ各社の商標または登録商 標です。 本論文集の一部または全部を無断転載することは、著作権法よの例外を除き、禁止されています。 本論文集の内容を実際に運用した結果の影響については、責任を負いかねます。
一 一 E ︐ ︐ 一 ν E ﹃﹄J U EFF 一⁝ ユ 一 一 チ一 !ア一一一 目 次 れ ι 成果指向型業績評価モデルの一考察 . , ・ ・..……………...・ ・‑…………………… 3 日本プロ野球野手主要選手の年俸を事例として一 H 陶山 ↑ 専 太 H (有限会社企業行動デザイン研究所/慶麿義塾大学〉 V 8における L O G I S T I Cの機能拡張...・ ・..……・……・…………………一……………・・ 1 3 H 浜田知久馬(京都大学〉 S A S / W a r e h o u s eA d m i n i s t r a t o rソフトウェアリリース 1 . 3の紹介……………ー………・ 3 9 高木雅弘 (株式会社 SASインスティチュートジャパン〉 データマイニングの前の PROCF REQと PROCMEANS . . ・ ・ . . . . . ・ ・..…ー…………. 4 7 H 東 一成 H (株式会社 SASインスティチュートジャパン〉 (口時三発表…一…日 ……………j ‑医薬 ダブルプログラミングによる統計解析の品質管理…………...・ ・..……………… 5 7 H 菅渡秀規(興和株式会社〉 益田隆史 投与前値を共変量とした線形混合モデル 高橋 ………一……一…………・……ー・……・ 65 行雄(日本ロシユ株式会社〉 V 8の ODSによる総括報告書の電子化一関西プロジェクトー その 1 . W h a t ' sODS?(開発の経緯と今回利用した ODS機能の紹介). . . . ・ ・ ‑ … 7 3 H 岩本 光司(武田薬品工業株式会社〉 その 2 . 有効性評価に関する報告書作成(計数値を中心として) . . ・ ・‑……… 8 1 H 北川│ 忠行(田辺製薬株式会社〉 その 3 . 有効性評価に関する報告書作成(計量値を中心として) . . ・ ・...……ー 8 7 H 鍵村 達夫(日本ベーリンガーインゲルハイム株式会社〉 その 4 . 共変量の調整 ( F R E Qおよび PROCGENMODを例として)…………… 9 5 大津 松岡 洋 j 手 (藤沢薬品工業株式会社〉
その 5 . Model‑based解析結果の要約 (MIXEDプロシジャを例として)……… 103 伊 藤 要二(アストラゼネ力株式会社〉 P H ‑ C l i n i c a lソフトウェアを利用した集計解析表作成について…………………… 1 1 1 宇野 活正 宮川 l 元志 (株式会社タクミインフォメーションテクノロジー〉 PharmaSUG2000に参加して ・ ・ ・ ・ ・ ・ ・ ・ … ・ ・ … ・ … . . . . . . . . . . . . . . . . . . . ・ ・ … … . . . . . . . . . . . ・ ・ ・ 119 章弘 (スミスクライン・ビーチャム製薬株式会社〉 H 小林 メタアナリシスにおけるグラフィカル表現:レヴューとひとつの提案 余田 明夫 (塩野義製薬株式会社〉 ……………… 125 田崎武信 乱数を利用する症例数設計 . . ・ ・ . . . . . ・ ・・・..…………...・ ・‑……………… 133 篠 原 英之介(クインタイルズ・アジア・インク〉 H H H H H 小島慶嗣 西 次男 臨床試験の解析計画書から SASプログラム自動生成の試み 萩 野 篤 司 (持田製薬株式会社〉 ………………… 141 水富棺 矢島勉 舟喜光一 臨床データ解析における SASプログラミングバリデーション 佐 々 木 徹也(日本ロシユ株式会社〉 ……………・ ・・ . . 149 H H 4 砂金融 信用リスクを考慮した債券の評価…………...・ ・‑………………………...・ ・ . . 159 加 藤 活一 (株式会社金融エンジ二アリジグ・グループ〉 H H 層別サンプリングの改良による自然災害シミュレーション 田村 憲 利 (株式会社金融エッジ二アリング・グループ〉 …・……‑……………・ 167 ‑経営 カスタマーオリエンテッドによる管理会計への転換……………………………… 177 ーコストマネジメントからレベニューマネジメントへー 清水 孝郎 (株式会社 SASインスティチユートジャパジ〉 ‑システム 社会調査におけるデータ収集・集計作業の実際……………...・ ・ . . . . . ・ ・ . . … … 187 アンケート調査票の設計、エラー修正、データ集計作業行程管理 Tipsの 紹 介 入江秀晃 (株式会社三菱総合研究所〉 H H SASによるバランスト・スコアカード最新動向 … … . . . ・ ・..……………………… 195 南 恭子 (株式会社 SASインスティチユートジャパン〉 H 1 1
U N I X版 SASシステムにおけるパフォーマンスチューニングについて……・・……・ 2 0 3 爵藤 祐二 (株式会社 SASインスティチユートジャパン〉 ‑データマイニング Webログを活用したデータマイニング……………………………………………… 2 1 3 柳津彩子 (株式会社 C SK) 松本雅彦 ツリ一分析における予測レスポンス率の修正方法について …………...・ ・‑… 2 2 1 分析対象データに過去のアプローチ実績有無のデータが混在している場合一 平松 宏之 (株式会社ジ工ーシービー〉 H 若井延夫 ………………………… 2 2 7 データマイニングによる製造プロセスの品質解析事例 水田 匡彦 (住友金属工業妹式会社〉 ニューラルネットワークモデルによる牛乳販売量予測の検討……………...・ ・ . .2 3 5 高橋幸一 (森永乳業妹式会社〉 H 石川│ 征 郎 POSデータのデータマイニング 鈴木琶久 ………………………・・・………………… 2 43 (株式会社日経リサーチ〉 小宮葉子 マイニング・ツールの比較評価と選択のポイント 小野潔 (妹式会社三和銀行〉 4 5 … ・ ・ ・..……………………… 2 H H 時系列データによるデータマイニング …………...・ ・‑……………………… 2 5 3 .牛乳販売量の需要予測ー 高野 江里子(株式会社 SASインスティチコートジャパン〉 H 中西みなと ‑統計 SAS/IMLを用いた局所影響分析 . . ・ ・‑…………...・ ・‑…………………… 2 6 1 ‑相関行列にもとづく主成分分析の場合一 張 方紅 (}¥'イオスタット株式会社〉 H H m凶 hN ロUH E王監豆 中 李田 石川│ 和昭 ( 公 1) 1 [ ¥ [大学校科学教育研究所〉 (岡山大学環境理工学部〉 ‑品質管理 化粧品製造における重回帰分析と数量化 I類の適用事例 (妹式会社コーセー〉 池山豊 SASシステムによる半導体製造装置稼働データ分析ツールの構築…………… 2 7 9 山本 幸恵 渡部和浩 (富士通工イ・工ム・ディ・セミコンダクタ妹式会社〉 1 1 1
J │ポスターセッション ‑医薬 C l i n t r i a lのデータを SASで利用する方法の紹介 藤田和也 笠原智子 竹口素子 ………………………………… 288 (リリーリサーチラボラトリーズジャパン〉 SASおよび E x c e lを用いた OLEおよび OLEAutomationServerの利用 小沢義人 吉村克己 ……… 290 (日本化薬株式会社〉 SASシステムをベースとした臨床試験データプロセスの検討 渡辺 昌彦 (住商情報システム株式会社〉 JMPを用いた WHO‑QOL質問表の解析について ………...・ ・ ‑ … 292 H . . ・ ・‑……………………… 294 H 板東説由 (有限会社電助システムズ〉 宮岡悦良 (東京理科大学〉 田崎美弥子 東山梨コホートにおける生活習慣とその死亡原因との関係 …………………… 296 照 俊彦 (東京慈恵会医科大学〉 稲葉裕 ( 1 1 1 買天堂大学〉 黒沢美智子 佐藤俊哉 (京都大学〉 高木虞文 (新潟大学〉 菊地正悟 (愛知医科大学〉 4 砂金融 資産価格形成モデルへのマーケット・マイクロストラクチャーによる…...・ ・ . . … 300 流動性の導入 H 仲村敏隆 (東京理科大学大学院〉 サプライチェーンのパターン化とその評価に関する研究…………...・ ・..……… 302 H 李 鯖 (株式会社金融エンジニアリング・グループ〉 地域協同組織金融機関の収益性分析 川向肇 近畿圏を例として ………...・ ・・・ . . 304 H H H (神戸商科大学〉 ‑システム Windows版 SASとテキストエディタの連携パッケージ SASOLEの 開発とその紹介 菊地賢一 (大学入試センター〉 lV . . ・ ・ . . … … 308 H
w e b E I Sソフトウェアを体験 阿部 也 渡部義弘 ・・・・…・………………・・……………・……一....……. 3 1 0 (株式会社タクミインフォメーションテクノロジー〉 OpenOLAPS e r v e rの機能と利用方法 宗像 志保 SASの利用形態の変動 久冨丈志 金津正憲 ………………………………………… 3 1 2 (株式会社タクミインフォメーションテクノロジー〉 ………………………………………………………… 3 1 4 (京都大学) SASV8への [ E X S A S ]の対応【プログラムの変更......, ¥ 1 )デーション 標準化】… 3 1 6 山本典子 (株式会社アーム) 常吉華奈 浜田 知久馬(京都大学) ……………………...・ ・‑…… 3 1 8 臨床試験データの一覧表作成システムの紹介 西原健自 山本昭一 H (抹式会社アイ‑工ス‑イー) ‑グラフィック SAS/GRAPHソフトウェアを用いたフラクタル図形の作成 ‑ISEL lS T 2 0 0 0、SAS2SDF一 長谷川 要 ……………………… 3 2 2 (キリンビール株式会社) SASによるフラクタル表現 …………・………...・ ・‑………………………….. 3 2 4 山下 敏治 (ファイザー製薬株式会社) 奥田 達白 (住商情報システム抹式会社) H ‑品質管理 オフィスビル外観の「汚れ感」評価 武藤浩 小島隆矢 ………...・ ・‑……………………………… 3 2 8 H (株式会社竹中工務庖) (建設省) ‑マーケティング 患者の満足度調査 ……………………………………………………………… 3 3 2 一入院外来、性年代の影響についてー 日久浩志 (中部学院大学) 大学病院の患者満足度に及ぽす要因の解析 楊 学坤 今井喜正 荒井美帆 J¥ 島茂 ( 1 1 1貢天堂大学) V ……………...・ ・‑…………… 3 3 4 H
│V8eにおける拡張機能の紹介 品問、…一一……一一一………… UsingSAS/GRAPH@Softwareto Create Graphsontheweb . . .. . .. . .. . . … 339 StuartNisbet (SASI n s i t u t eI n c . ) 5 1 SASV8による ODSの機能紹介、及びに便利な使い方 ……………………… 3 貴文 (株式会社 SASインスティチュートジャパン〉 木下 V6から V8eへの移行における技術の紹介 MakingtheMovetoVersion8 . . . . . . . . . . . . . 一 一 . . . . . . . . . . … . . . . . . . . . . . .. . . . . .. . . . . . 361 SteveBeatrous (SASI n s t i t u t eI n c . ) における統計プロシジャの紹介 一 一 … … F i t t i n gNonlinearMixed ModelswiththeNewNLMIXED Procedure l f i n g e r (SASI n s t i t u t eI n c . ) R u s s e l lD o . w . . . 369 M u l t i p l eI m p u t a t i o nを行う Version8 . 1の評価版プロシジャについて………… 379 小野裕亮 (株式会社 SASインスティチュートジャパン〉 単変量分析に関するバージョン 8の拡張点...・ ・ . . . . . ・ ・ . . . . . ・ ・ . . … . . . ・ ・ . . … … 387 H 小玉 奈津子(株式会社 SASインスティチユートジャパン〉 Vl 』 、 H H H
チュートリアル
日本 SASユーザー会 (SUG1‑0) 成果指向型 業績評価モデルの一考察 一日本プロ野球野手主要選手の年俸を事例として一 陶山博太 (有)企業行動デザイン研究所 代表取締役社長/主席研究員 慶慮義塾大学総合政策学部講師 As t u d vo nt h eN e wA p p r o a c ho fR e s u l t f u lP e r f o r m a n c e ~easurement. ( A sa . rE x a m p l ef o rB a s e b a lIP l a y e r s . U s i n gt h eN e u r a lN e t w o r kA p p l i c a t i o n . ( A d a p t e af o rE n t e r p r l s eM i n e rS o f t w a r e ) ) Hi r o t a S u y a m a .P h .D . .M .B .A . T h eR e s e a r c hI n s t i t u t eo fC o r p o r a t eB e h a v i o rD e s i g n P r e s i d e n t / E x e c u t i v eR e s e a r c h e r K e i oU n i v e r s i t yF a c u l t yo fP o l i c yM a n a g e m e n tL e c t u r e r 要旨 個人の倶J Iと企業の倶J Iの双方にとって便益となる業績評価モデ、ルの基本理論を ニューラルネットワークで、構築する。データは、日本プロ野球 12球団の主要選 手とし(但し、野手と捕手)、個人の側では、年俸、チーム(企業)の側ではチーム 順位をそれぞれ便益として、 ' 9 8年データの学習ど 9 9年データの予測で構築 したモデルの精度を検証し考察を加えた。 キーワード: 業績評価(経営情報と管理会計)、プロ野球、 NeuralNetwork、E n t e r p r i s eMinerソフトウェア 1.問題の所在 個人業績の評価は、企業の重要課題として、従来さまざまな手法が工夫されているが、次のような、 半ば宿命的ともいえる難しさがある。 1 . 1 企業業績と、個人の所属する部門業績の関連づけが難しい R e t u r non 企業業績は、財務的要素に非財務的要素を加える形で、成り立つ。基本的に ROA( T o t a lA s s e t )、ROE(Returno fE q u i t y )、EVA(EconomicV a l u eAdded)など、財務的要因は共 通要素があり、非財務的要素では、取締役の平均年齢や環境問題への取り組みとし、った非財務的 要素を適宜加えるとし、うのが一般的である。すなわち軸とする部分が明確である。 それに対して個人業績は、営業部門・生産部門などの直接部門については、伝統的デュポン・シ テムによる展開で、財務的要素の一部分(売上高やコストダウン額)を対応させることができるが、 間接部門については、関連付づけが難しい。 ぺυ n
確かに直接部門への用役の提供が職務になってしも場合は評価しやすし、ものの、それだけが部 門への役割期待ではない場合も多い。長期的課題を専用に処理する基礎研究部門などは、開発テ ーマの事業化プロセスを経済工学によって評価することも可能である。しかし、総務経理部門の場 合は、部門の仕事と全体業績の関わりの把握はしにくい。部門聞の相互作用も、金額で換算可能な 部分とそうでない部分があり、完全には、把握できない。企業業績と部門業績のリンクは、極めてとり l こ く し 、 。 1 .2個人企業の合算が部門業績とは限らない 部門業績と、さらに一段階細かい個人業績の聞にも、隔たりは、存在する。例えば、財務的要素の 一部分を対応させることができる直接部門の場合は、ムードメーカー的な役割の人が存在し、それ によって部門全体の成果が押し上げられているケースが少なくない。その逆もまたあり得る。そうする と、個人業績を見る場合には、財務的要素の一部分をさらに細かく砕き、それを個人業績と見立て て機械的に害1り当てることは、厳密には、望ましくなし、ことになる。 良くおちし、りやすい誤りが、目標管理などによって定量的な部分のみに個人の役割を限定し、暗 黙のうちに被評価者が行なってきた潤滑油的な役割を捨象してしまうことで、ある。だからといって、こ のような非公式な役割は、目標設定で具体的に限定し、意識させてしまうと、かえってうまく機能しな いこともあるの 1 .3 環境に合わせたこまめな対応を必要とするのに、構築に手聞がかかる どのような業務システムも、構築した次の日から陳腐化が始まるが、ことに業績評価の方式につい ては、それが顕著であるの環境変化に対する即応可能性との関連も大事である。 企業業績においては、財務的要素と非財務的要素のウェイトや、重視すべき中身が短期で変化 する また、部門や個人の業績においては、役割期待の変化が激しい。加えて、変化に対応した新 η しし、部門・職務を迅速に発生させるだけでなく、それに対する評価の方法も、的確に設定する必要 がある。 それにも関わらず、業績評価の方式、特に個人の業績評価の方式は、構築に手間を要する。個 人の業績評価には、目標と実績(目標の達成度合し、)の 2つの評価軸の付け合わせで行なう方式が 一般的であるが、この方式だと普通の目標、普通の達成度をどこに決めるかは、大変困難な問題で ある。 1 .4 業績評価は、本来インタラクティフ、に進化させてゆかなければならない 業績評価は、企業評価の場合は、投資家の目を強く意識する必要があるが、部門業績と個人業 績は、内部のマターであり、殆どの場合、企業が独自の判断で実施している。そのこと自体は、特に 不都合はないが、問題は、経営する側の利益や成果だけを満たすのではなく、被評価者の側から ‑4‑
見た利益や成果も同時に満たせるかどうかである。被評価者から動機づけ等ににより本来持つ以上 の力を引き出すまでは良いが、支給する給与以上の成果をあげながら、そこで得られた利益を社員 に還元しない、あるいはできないのでは、業績評価システムの意義は薄しせ思われる。 以上の問題を解決するには、統計学の比較的新しい技法と業績評価のための計数が持つ情報を 適切に融合させる必要がある。まず、新しい技法としては、ニューラルネットワークとし、う方法がある。 本原稿では、これを用いて、プロ選手の年俸 ( 1億円以上、未満の判定)の予測等を行なう。因みに、 先行研究としては、西欧企業についての倒産・非倒産の判別予測を行なった広内他[1 9 9 6 Jの研 究(的中率 90.5%)や、アトピー性皮膚炎発症をリスクファクターから予測した高橋他 [ 1 9 9 8 Jの研 究(的中率 96.4%)など、高い的中率を示すものがある。また、パターン認識をさせる手法で、ある点 1) を活かし、千葉大学の松葉教授や小野 [ 1 9 9 8 Jによる金融市場の趨勢による当てはめを分析した研 究もある。 業績評価のための情報をし、かに扱うかとし、う点については、従業員が個人的にあげる成果の恐ら く大多数を占める非線型要因を折り込めるかがポイントとなる。評価面についても、特に重要な場面 (昇進・非昇進)で非線型処理が要求される。 伝統的統計学では、非線型のクロス処理に有効な方法として、カイ自乗検定があるが、これは、測 定対象の確率変数が正規分布であることを前提としており、混合正規分布で、あふれる実際の世界 には、適さないc また、ヒトゴ トで、ある以上綿密に行なった方が、納得性が高い。といっても、実験計 画でしづ、重大なブ ロック因子(相性、価値観の違い、好き嫌し、)の存在が直感的に予測できるにも 関わらず、職場としづ空間の中にそれらを探る局所管理を持ち込むのも事実上、大変難しい。 ニューラルネットワークでは、非線型処理を得意としているため、どのような情報でも扱うことができ るの重要なパターンをシナプス結合(後述)で記憶・学習するとし、う点で、またアルゴリズムが明確で ないとしウ点でも、評価する側、される側の両方の当事者に必要なパイタル・ファクターのみを提供 できる利点がある。誤解を恐れずに端的に言うと、列挙式ではなく、包括式で分析をするのである。 次節では、このような特徴を持つニューラルネットワークとは、何かについて、まず簡単にふれること にする。 2 .ニューラルネットワーク技法と業績評価モテ、ルへの応用 ニューラルネットワークとは、脳細胞の仕組みを応用した情報処理システムである。通常コンビュー ターは、入力情報を単体のファンク、ンョンで、処理する。ニューラルネットワークで、は、入力情報をニュ ーロンに分散しながら繰り返し取り込み、そのパターンを学習しながら記憶するシステムである。 ν 特に、従来の分析のように論理アルゴ ズ、ムを必要としないことから、「人が行なう仕事」と「企業とし ての成果」の関連を筋道たてて捉えなくても済むとし、う点で、複雑微妙な関係と激変する環境変化 を内包する業績評価に適している。この目的に対して重要なことは、入力情報として何が選択される かの一点につきる。 ‑5一
ニューラルネットワークの仕組みを数学的にまとめてみよう。 ネットワーク上に結合されるニューロンは、あたカも神経細胞のように、シナプス結合でものを記憶す る機能をもっている。今、 j 個のニューロンに、 i 個の確率変数 x I, . ,x i取り込まれるとすると、ニューロ ンに取り込まれた確定変数 U1 , . ,u jの関係は、次の式で表すことができる。 u .=2 JW. *X‑ . 必 ー J l ‑ J l 一一一一一一一一一一一一 ( 1 ) ( 1 )式のwは、シナプスの重みを表している。ニューラルネットワークで、は、このwを変化させなが ら繰り返し確定変数を取り込むことで、出力を本来の値に近づけてゆくことができる。 この情報を出力する際に、我々は、しきい値の設定を必要とする時もある。例えば、野球データで は、打率や打数など、経営分析データでは、損益分岐点比率や流動比率など必ず、 0以上になるも のは、その値が必ず正になると考え、ニューロンにマイナスの値が入り込んだ、場合にはそれを正常 な値に修正する。 出力される情報 zと、しきい値 hとニューロンに取り込まれた確率変数 uの関係は、次の式で表せ る 。 Zj=f(uj‑hj) 一( 2 ) ここで我々は、通常独立変数u、hと目的変数 zの関係を、回帰式で、表現して予測モデ、ルを作成し た り 、 2変量聞の関係の深さを相関関係数で表現したりするが、ニューラルネットワークモデルで、は、 xを( 1 ) ( 2 )式に何度も取り込み、 w を変化させながら本来の値に近づ、ける。すなわち出力された z (こ 対して本来の値(=教師データ)を照合して両者の誤差を確認し、その誤差を最小化してゆくので、あ る。誤差関数には、いろいろなものがあるが、ここでは、 D ayhoff2)のモデ、ルを掲げておく。 E= ( 1 / 2 ) xエ ( dj ‑ Z J 2 一一一一 ( 3 ) この段階的に誤差を縮小させてゆく方法を誤差伝播学習方式としづ。成功や達成のためのドライ バーが刻々と変動する中、また企業の各構成員のジョフマが有機的に絡み合う中、処遇・利害が伴な う業績評価を固定された式などで行なうのは、極めて無理がある。ニューラルネットワークモデ、/レで、 は、予測は勿論のこと、単に目的変数と関連するインプットだ、けで、なく、無理なく目的を達成するイン プットを学習曲線の収束によって見つけ出すこともで、きる。 実際にこうしたネットワークを利用する場合、中間ニューロンを設定して、多層型ニューラルネットワ ークを構成することが多い。 一6
3 .プロ野球事例への応用(個人業績モデルと組織体業績モデル) すでに我々は、 ' 9 8年における日本プロ野球 12球団の主要 96人の野手・捕手の成績等につい て解析を行ない、併せニューラルネットワークモデ、/レを用いた学習曲線の収束も観察した 3)4)。 9 8 年を教師データとした学習と、学習済みモデ、ルによる ' 9 9 年の予測を行ない、その 本稿では、 ' こよって教師データと予測 予測精度を検証する。これは、一つの年度のデータセットをサンプリング1 データに分割するより当然精度が高い。因みに時系列でみる場合は、予備解析によって確定した 9 8年データ)で学習、比較年分で予測としづ、ローリング・プラ 入力層に対して基準年分にこでは、 ' ンを適用すれば良い。すでに学習曲線の収束も観察したモデ、ルの概要は、次のとおりである。すな わち、ペナントレース順位を含むチーム(組織)と選手(個人)の業績指標を独立変数(入力側)とし、 選手個人の成功である年俸を出力側としたネットワークモデルで、ある。本稿では、これを「個人業績 モデ、ル」と呼ぼラ(図1)。 一方、個人の業績と、彼らが受け取る報酬(年俸)の両方を独立変数とし、 経営上の成果に相当するチーム順位を出力としたモデルを組み、分析を行なった O こちらの方は、 )。 「組織体(企業)業績モデル」と呼ぶことにする(図 2 図 1 個人業績モデル B= : : : : 1 . 凋I l r 諸問 ‑安打数 S ・出場試合数 1 払主主山 …ぜ年俸む略 ‑フルカウント打率 よ1億円以上:1 .(守備時)利き腕 1億円未満 : p 図 2 組織体(企業)業績モデル 園E ‑安打数・出場試合数 事ト空l' , 舗 をチ‑.JJ.顕位 ‑フルカウント打率 .(守備時)利き腕 注) 図 I 、 図 2とも中間層を 3つにしている。また最大学習回数は、 50回(予備学習 250回)である。 「個人業績モテ、ル」の出力は、 1億円以上 =1、1億円未満 =0の非線型判別関数である。 ‑7
4 .プロ野球事例への応用、分析結果 「個人業績モデ!レ Jによる、結果を次に示すれ学習曲線の収束は、極めて順調な結果となった(図 3 )。また ' 9 9年のデータを対象とした予測では、 96人中、誤判別は 12人(的中率 87.5%)となり、高 ) い的中率を得ることができた 5) (ニューラルネットワーク特有の結果分析は、表 1 0 Evaluat i o no fl o g i s t i cmodel P r e d i c t e d (予測) 1 5一 6 4 5一 9 + (実績)+ 予測精度 ( P r e d i c t i v ea c c u r a c y ) (29+55)x1 0 0 / ( 2 9 +12+0+55)二 87.5% 感度 ( S e n s i t i v i t y ) 29x1 0 0 / ( 2 9 +12)=70.7% 特異度 ( S p e c i f i c i t y ) 55x100/55=100% 予測結果の出力 +ネットワーク W O R K .̲ N N A l 予測結果データセット C W O R K .問 I G S X K 5 ) 0 1 02 44455555 ‑EtEnU 唱E 唱EnU 唱E 唱E nunu'anunU 唱 lnunu F 可 内1 内M U Q M R H V l 4 vaaT 唱 OBS R l1 R l2 P l1 P l2 2 .684987E‑9 O 2 自849871E‑9 ‑ .日999日99973 2 .6849871E‑9 1 .83755E‑l0 O 1 .837555E‑l0 ‑ .日999999998 1 .837555E‑l0 .573505E‑l0 1 ‑ 1 .5735E‑l0 1 .573505E‑l0 0.9999999998 2 .1857E‑l0 0.9999999998 2 ー1 0 ‑ 2.185705E .185705E‑l0 2 .320582E‑9 0.9999999977 2 2 .3205822E‑9 ‑ .3205822E‑9 .237443E‑l0 6 ‑ 6 .23744E‑l0 6 .237443E‑l0 0.9999999994 3 .47086E‑l0 0.9999999997 3 3 .470864E‑l0 ‑ .470864E‑l0 1 . 8 ( 1 3 ] 丑E 二1 且 二LB 0 . . . 9 量 皇 量 量 量 量 量 量 且 鐙盆と血 . L . 8 O 辺 A E = . 1 . O . 左側J Iに実績値(1 億円以上なら 01=1, 02=0, 1 , j ! { 円未満なら 01=0, 0 2 = 1 )と 右側に予 n ! I !結果(1億円以上なら P1̲1=0.9999,1億円未満なら P1̲2=0.9999lが示されている。 B
「組織体(企業)業績モデル」については、目標値(実績値)と予測値の比較を示した(図 4)c その結果、ペナントレースで 1位となるチームは、 3位以内に予測でき、 Bクラス (4‑6 位)は、 3位より 上に予測されることはなかった。チーム順位は、企業に例えると、夏場や年末の商戦、売上やシェア の増分といったフローに関する指標で、ある。ほぽ A クラス・ Bクラスの区別は、確実にできるため、企 業に置き換えた場合、個人もしくは部門業績において、入力に設定した事柄を実施の有無、もしく は、目標の達成の有無をその期の活動の成否に関連づけて捉えることも可能である。 図4r 組織体(企業)業績モデル」によるチーム順位の実績と予測 5 .使用された統計量同士の母数の検定 ところで、本調査の対象は、日本のプロ野球における、野手 96人(各球団 8人ずつ)のデータであ り、仮に野手・捕手に特定したとしても、選手全員についての傾向をあらわす保証はない c ここでは、 特に「個人業績モデル」について、確認の意味でら次のような検定を行なっておく(表 2 )。 表 2 各確率変数の検定 Ho) 帰無仮説 ( 安打数は年俸に関係ない 出場試合数は年俸に関係ない 守備時の投球利き腕は年俸に関係ない フルカウント打率は年俸に関係ない 所属チーム順位は年俸に関係ない 検定方法 t 検定 t 検定 カイ自乗検定 t 検定 t 検定 統計値 5 . 0 5 5. 49 4. 45 0 . 0 6 1 .52 H。棄却不能確立) 棄却域 ( 1%以下 1%以下 3.5%以下 H。は、棄却できない 14%以下 伝統的な統計学では、少なくともフルカウント打率は、検討の対象から外すことになる。さらに、こ れらの確率変数(投球利き腕を除く)も、全て正規分布に従うとは、限らない。例えば、出場試合数な どは、むしろワイブノレ分布に形が近い c しかし、ニューラルネットワークで、は、ひとつひとつの確率変 数について、シナプス係数を可変させっつ何度も繰り返し取り込むため、ここにあるような統計量を 考慮する必要は、あまりない。ただ、学習時の収束曲線には、かなり影響を与えると考えられるので、 9‑
学習済みモデルの予測精度にも多少その影響は、反映されるであろう。 6 .まとめ 本調査での予測精度は、前掲の先行研究同様、極めて高いものとなった。また個人業績と企業業 績の情報について、双方向で、ニューラルネットワークのモデ、/レとして組んだ場合、どちらの方向から も適切な予測成果が得られた。この点は、おそらくはじめての試みと成果である。 問題の所在で上げたような、企業業績、部門業績、個人業績との帯離の解決には、複雑な因果関 係そのものを敢えてのぞこうとせず、効果的なファクターを特定するとしづ点でニューラルネットワー クが最も理想的な手段である。アルゴリズムが不明な分、人事考課の宿命的課題である情実の介在 を極めて困難にする点を逆に長所として指摘しておきたい。 さらに急激な環境変化(企業組織の内部構造(資源構造)変化も含む)への対応品、う点では、学 習曲線の収束を観察することで、目標(出力側)の達成に最もスムーズ且つスピーディーに働きかけ るファクターの発見をすることで、対応できる。 但し、プロ野球の例を、実際の企業にどのように翻訳、移植するかとし、う最も難しい課題が依然とし て残っている。実際の企業での年俸制は、成績優秀者と通常者の差が比較的小さく(プロスポーツ と比較して)、このモデルそのままは使用で、きない。指標を発見するセンス、指標の性質を見極める センスは、果たして有るのか、業績情報を獲得する手段は確保できるのか、そして何よりも、情実が 排除されるモデ、ルに、制度導入のトリガーは、果たして生じるのかとしづ問し、を読者に提示し、本稿 の結びとしたい。 なお、本稿の分析は、いずれも現在非売の NNA( ニューラルネットワークアプリケーション)にて行 なっているが、現在も販売している EM( E n t e r p r i s eMinerソフトウェア)で同様の分析が可能であ る。しかし、処理速度は、 NNA(ニューラルネットワークアプリケーション)に比べて劣っているので、 プレゼ、ンテーションやコンサルティング守現場で、のインタラクティブ、な討議には、適さない。 1ム nU
後注 1 ) 広内哲夫、宮川裕之「階層型ニューラルネットワークを用いた統計的分解分析の財務分析への応 用 J ~年報経営分析研究』日本経営分析学会、 1996 年、 136 頁。 2 ) Dayhof f .J ~ニューラルネットワークアーキテクチャ入門』桂井宏訳、森北出版。 3 ) 陶 山 博 太 「 日 本 プ ロ 野 球 選 手 の 成 功 要 因 の 分 析J ~第 18 回日本 SAS ユーザー会総会および研究 発表会論文集~ 1999年 、 471‑496頁 。 4 ) データソースについては、次のものを使用している。 '98 年度学習データ江川卓編著『スカウティングレポート '99~ 江川卓編、 '99 年度予測データと比較する実績値として江川 l ザ・マサダ、 1999年 。 卓編著『スカウティングレポート 2000~ 江川卓編、 ザ・マサダ、 2000年 。 5 ) ' 9 9年データでは、年俸 1 { . 立円ちょうどの選手がかなりの数存在した。予測精度が先行研究よりやや劣るの は、そのためであろう。 参考文献 1.小野潔「ニューロ TAAJ ~SUGI-J ' 9 9 第 17回 日 本 SASユーザー会総会および研究発表会論文 集(優秀賞論文 U 1998年 、 211‑220頁 。 2 . 高橋幸一、早津宏紀、富田守「ニューラルネットワークによる乳幼児のアトピー性皮膚炎発症予知の 検 討 J ~SUGI・J'98 第 17 回日本 SAS ユーザー会総会および研究発表会論文集』、 1998 年、 321 ‑326頁 。 3 広 内 哲 夫 、 宮) 1 1 裕之「階層型ニューラルネットワークを用いた統計的分解分析の財務分析への応用」 『年報経営分析研究』日本経営分析学会、 1996年 、 136頁 1 1 141頁 。
日本 SASユーザー会 (SUG I-~) V .8 における L O G I S T I Cの機能拡張 0 浜田知久馬牢 牢 京都大学医学部薬剤疫学教室 E n h a n c e m e n to f PROC LOGISTIC i nV . 8 C h i k u m aH a m a d a K y o t oU n i v e r s i t y S a k y o ‑ k u, K y o t o, 6 0 6 ‑ 8 5 0 1 要旨 生存・死亡等の 2値応答変数を目的変数として,複数の説明変数の影響を同時にモデル化するロ l o g i s t i cr e g r e s s i o n )は,現在では,医薬分野の標準的な統計手法として定着 ジスティック回帰 ( A Sでは L O G I S T I C,C A T M O D,P R O B I T,G E N M O D,I N S I G H Tプロシジャ等を用いて,ロジステ している. S O G I S T I Cプロシジャは, S A S以外のソフトウエアと比 ィック回帰を行うことが可能である.中でも L . 8で大幅な機能拡張がなされた.特に, C L A S S文と 較しでも最も高度な機能を有しているが,更に V C O N T R A S T文が追加され,より柔軟にモデル構築・仮説の検証を行うことが可能になった. C L A S S文 F F E C T ( C A T M O D型 : m a r g i n a l法 ) , G L M ( G L M 型 ) , O R T H P O L Y (直交多項式), P O L ではデザイン行列として E E F E R E N C E ( p a r t i a l法)の 5 種類を選択することができる.また予測確率の推定を Y N O M I A L (多項式), R クロスバリデーション法(ある個体の予測式を求めるときにその個体自身を除く方法)によって行う ことが可能になった.変数選択と関連しては,複数自由度のカテゴリカル変数や 2次以上の交互作 用項を含めて,変数増加法,変数減少法,変数増減法,総当たり法(捜数自由度のカテゴリカル変 . 1からは, E X A C T文が追加さ 数には適用できなし、)による変数選択が可能になった.またリリース 8 れ,条件付き尤度の並べ替え分布を求める正確な推測(検定,点推定,信頼区間の構成)も可能にな る. このように高度な L O G I S T I Cプロシジャの機能を十分に使いこなすためには,デザイン行列(ダミ ー変数)の基礎的な知識が必要である.そこで L O G I S T I Cプロシジヤの V . 8における機能拡張の概要を L A S S文によるカテゴリカル変数のモデル化と交互作用項を含めた変数選択を中心に,ロ 紹介し, C ジスティック回帰のチュートリアルを行う. O G I S T I C 傾向性検定対比 キーワード:L ダミー変数変数選択 1 ょ qU
しはじめに ロジスティック回帰の有用性が, 医薬研究において広く認識されたのは, 1 9 6 7年の T r u e t tC o r n f i e l da n dK a n n e lの論文以来である : 1 この論文は,有名なフラミンガム疫学調査データを用いて, ロジスティック回帰によって,冠動脈性疾患のリスク因子を定量的に評価したものである.この論 文以降,医学研究の様々な分野でロジスティック回帰は多変量解析の l つの方法として応用されて いる.現在では標準的な統計パッケージである S A S,J M P,S T A T V I E W,S P S S等で,ロジスティック回 帰が可能になっている.中でも S A SのL O G I S T I Cプロシジャは,最も広範な機能を有する強力なソフ トウエアである.リリース 6 . 1 2まででも,変数選択,回帰診断,モデルの適合度の評価, R O C曲線 の作成,リンク関数の変更機能,応答変数が 3値以上の場合への拡張(比例オッズモデル)等が可能 であったが,更に V . 8で大幅な機能拡張がなされた.特に, C L A S S文と C O N T R A S T文が追加され,より 柔軟にモデル構築・仮説の検証を行うことが可能になった. C L A S S文のデザイン行列として E F F E C T ( C A T M O D型 :m a r g i n a l法 ) , G L M ( G L M 型 ) , O R T 田O L Y (直交多項式), P O L Y (多項式), R E F E R E N C E ( p a r t i a l 法)の 5 種類がV . 8では可能である. このように高度な L O G1 S T ICプロシジヤを十分に使いこなすためには,デザイン行列等の基礎知識 が必要である.そこで L O G I S T I Cプロシジヤの V . 8における機能拡張の概要を紹介し, C L A S S文による O G I S T I Cプロシジャのチュ カテゴリカル変数のモデル化と交互作用項を含めた変数選択を中心に, L ートリアルを行う. 2. パージョン 8における機能拡張の概要 パージョン 8で,次の新機能が追加された. 1 ) M O D E L文で収束の判定に関するオプションが新たに加わった. A B S F C O N V = F C O N V = G C O N V = X C O N V 二 R I D G I N G二オプション 2 ) O U T P U T文で P R E D P R O B S =オプションが加わった.このオプションを用いると予測確率を求める ときに,その個体自身を除いて予測式を計算することができる(クロスバリデーション法). 3 ) H o s m e ra n dL e m e s h o w検定を行うための L A C K F I Tオプションで,データを伺段階に分割するか を指定できるようになった.以前までのパージョンでは自動的に 1 0段階に分割していた. 4 ) C L A S S文が使用可能になり,カテゴリカル変数についても,ダミー変数を作成せずにモデル L A S S文ではオプションによって, 5 種類のデザイン行列(ダミー 化することが可能になった. C 変数)を作成することができる. 5 ) C O N T R A S T文が使用可能になり,様々な仮説を柔軟に検定することが可能になった. 6 ) カテゴリカル変数,交互作用項を含めて,変数選択を行うことが可能になった. 7 ) E X A C T文が加わり,条件付の正確な推測(検定,点推定,信頼区間の構成)が可能になった 2 ) (ただし,リリース 8 . 1からの機能なので,本稿では説明を省略する.) 3. 5種類、のオプションの実行結果 . 1 2までは, L O G I S T I Cプロシジャでカテゴリカル変数を説明変数として用いる場合, リリース 6 . 8から C L A S S文が追加され,簡単にモデル化できるように ダミー変数を作成する必要があったが, V F F E C T,G L M,O R T H P O L Y,P O L Y,R E F E R E N C E ( R E F )の 5種類が可能であ なった.デザイン行列として, E F F E C T型のデザイン行列が選択される. る. デフォルトでは, E 表 lは癌原性試験データである. この試験は,薬剤の発癌性を調べるために,マウスに 2年間 群 薬剤を投与後,剖検し,腫療の有無を確認するものである.通常は,雌雄それぞれについて, 1 5 0匹程度で,薬剤の用量を等比級数的に 4ないし 5 段階に代えて実験を行う.表 l では,変数d o s eが は腫療がなければ 0 ,あれば l とコーディングされている. 薬剤の投与量を表し, 2値変数Y L A S S文の 5 種類のオプションを適用して,違いについて説明する.プログラム例 このデータに, C は表 2のようになる. C L A S S文では, P A R A M ニオプションでデザイン行列のタイプを指定する.また C O N T R A S T文によって用量相関性について検討している.用量に対して線形的に対数オツズが増加す T T E S Tプロシジャでは,実用量 o1 3 1 0を直接,対比の係数として るかを調べるためには,町L A U τ ー
用いればよいが, G L Mプロシジャでは足して O になる制約があり, ‑ 7‑ 5 ‑ 1 1 3を用いる.この係 数は, 0 1 3 1 0の平均値である 1 4 / 4 二3 . 5を各要素から引し、て, 2倍したものであるん プログラム例は表 2のようになる. 表 l 癌原性試験データ 表2 5 種類の CLASS文のオプション data testi 1, 3, 10i do dose=O, do y=O to 1iinput w @@ioutputi endiendi7 cardsi 44 6 42 8 40 10 35 15 proc logistic data=test descendingiclass dose/ 2aram=effec~i model y=doseiweight Wi contrast 'linear dose ‑7 ‑5 ‑1 13iruni proc logistic data=test descendingiclass dose/ 2aram=qlmi model y=doseiweight wi contrast 'linear' dose ‑7 ‑5 ‑1 13iruni proc logistic data=test descendingiclass dose/ 2aram=orthpolJ l 'i model y=doseiweight Wi contrast 'linear' dose ‑7 ‑5 ‑1 13iruni proc logistic data=test descendingiclass dose/ 2aram=polJ l 'i model y=doseiweight Wi contrast 'linear' dose ‑7 ‑5 ‑1 13iruni proc logistic data=test descendingiclass dose/ 2>aram=ref ref=firs~i model y=doseiweight Wi contrast 'linear' dose ‑7 ‑5 ‑1 13iruni LOGISTICプロシジャを実行すると,デフォルトの出力として, Model F i tS t a t i s t i c s,Testing 1 1 Analysis of Effects の 3種類のテーブルが出力さ Global N u l l Hypothesis: BETA=O, Type 1 れる(表 3, ) Model F i tS t a t i s t i c sのテープールでは,モデル全体の当てはまりを評価するための指 標として, AIC,‑ 2LOG L(‑ 2x対数尤度)が示されている.次に Testing Global Null Hypothesi s : BETA=Oのテーブルでは,モデルが含む全てのパラメータが Oであるかを,総括的に検定した結 果が出力される.検定は, Likelihood Ratio(尤度比検定), Score(スコア検定), Wald(Wald検定) の 3種類が行われる. Type 1 1 1 Analysis of Effects のテーフ.ルでは, CLASS文で指定したカテゴリ一変数についての検 定結果が示される.自由度は水準数一lとなる.この場合は, 1 つの要因しかモデルに含まれないの で,総括的な検定のうち Wald検定の結果と等しくなる.この例では 4群あるので,モデルの自由度 rD l
は 3になる. Type1 1 1 Analysis o fE f f e c t s の表には, 4 群聞で,腫蕩の個体の割合が異なるかの検 . 1 4 0 2であるので、切水準で、は,有意な差はない. 定結果が示されている. p値は 0 O G I S T I Cプロシジャの実行結果(共通の出力) 表3 L つで,モデルの自由度は 3になる.要因が l つの場合は,総括的検定の結果は この例では要因が l 2x4の分割表について, F R E Qプロシジャで解析した結果と一致する.表 4にF R E Qプロシジャのプ ログラム例,表 5にその結果を示した. R E Qプロシジャによる検定のプログラム 表4 F proc freqdata=testitables y*dose/chisqnorow nopercent;weightw;run; 表5 F R E Qプロシジャによる検定の結果 EA 唱 r o
表6 P AlW1 = E F F E C T オプションによる推定値と, C O N T R A S T文の検定結果 AlW1 = G L H オプションによる推定値と, C O N T R A S T文の検定結果 表7 P スコア検定の結果は,表 5のP e a r s o nのカイ 2乗検定 ( C h i‑ S q u a r e ),尤度比検定は表 5の尤度比 L i k e l i h o o dR a t i oC h i ‑ S q u a r e )の結果と一致する. カイ 2乗検定 ( このように表 3に示したモデル全体のあてはまり,総括的な検定の結果は 5種類、のオプションの いずれでも一致するが,表 6から表 1 0のように,得られたパラメータ推定値は全く異なる. ー ー ワ
表8 P A R A J ! = O R T / l P O L Y オプションによる推定値と, C O N T R A S T文の検定結果 0. 4 036 ‑ 0 . 1 0 4 9 0.5798 0 . 0 4 3 1 08269 表9 P A R A J ! = P O L Y オプションによる推定値と, C O N T R A S T文の検定結果 GLMを除く 4種類のオプションは,切片項 ( i n t e r c e p t )を含めて 4つのパラメータの推定値が出 力されている. P A R A M ニG LMを指定した場合は, 5つのパラメータが出力されているが,最後のパ ラメータは,強制的に 0 と置かれるので,実質的に推定しているパラメータは 4個である. C O N T R A S T文による用量相関性の検定も 5つのオプション聞で全て異なっており,実はこのうち正しい 結果は, G LMオプションを指定した場合のみである. では, 5種類の方法でどのようなモデルをあてはめているのだろうか? それぞれの方法のデザイン行列が, L OG1 S T ICプロシジャでは出力される(表 1 1 ).各水準に対し て,ここで示した値をとるダミー変数を作成すれば,同じ結果が得られる.デザイン行列,ダミ ー変数の詳細については,成需を参照された~ ¥ l ) QU
表 10 P A1Wf = R E FR E F = F I R S T オプションの推定値と, CONTRAST文の検定結果 4 . 5種類のモデル ロジスティック回帰ではある事象が生起する確率 p に,次のようなモデルを仮定する. Logit(p)二 l o g ( p j( 1‑p))=β0+β X1+β2X;... ここで, X1,X,.・・,は説明変数で, M O D E L文でこの後ろに指定する変数である.説明変数を C L A S S文で指定しなければ,このように各変数を連続量として自由度 l でモデル化する.これに対し C L A S S文を指定することにより,カテゴリカル変数をモデル化することができる. o s eをC L A S S文で、指定しているが, d o s eが0,1,3,1 0の4水準であり,各水準 表 2で、は説明変数 d に対して,次のようなモデルを考えるのが自然である. Omg:Logit(p)=α+β! 1 m g :Logit(p)=α+β 3 m g:Logit(p)ニ α+βi 1 0 m g:Logit(p)ニ α+β4 実際, P 姐A M=GLMオプションでは,このようなモデル化を行う. ロジットの全体平均 αに対して, 第i 水準では β の上乗せをしている.しかしながら,切片パラメータ αを含めるとパラメータの総 数は 5になり,これに対し実際の水準の数は 4であるので,全てのパラメータを推定することはで きない.パラメータ聞に何らかの制約を加える必要がある. 例えば P A R A M = G L Mを指定して,モデル文で N O I N Tオプションを用いれば, α=0という制約が行われる. また P A R A M = E F F E C Tでは, β,+β +β3+βi二 O P A R A M = R E FR E F = F I R S Tを指定すれば β ,=0 P 品 釧= R E FR E F = L A S Tあるいは P A R A M = G L Mを指定すれば 白 , β~=O が制約式になる. C L A S S文の 5つのオプションで,パラメータの与え方が異なるが,等価なモデルである.例えば それぞれのモデルで各用量の対数オッズの推定値を求めると(切片項を含めたデザイン行列 X と , パラメータの推定値ベクトル βのTi J l (Xβ)を計算する),結果は完全に一致する(表 12). υ 円同
表 1 1 5種類のデザイン行列 ( C l a s sL e v e lI n f o r m a t i o nの出力) P A R A M = G L M l a s sL e v e lI n f o r C 1 A S S文で説明変数を指定すると, 5種類のオプションで,それぞれ, C m a t i o nのテーブルで示されたようなデザイン行列が作成される.水準閣の順序については, CLA s s文の ORDER=オプションで指定することができる.デフォルトは, FORT仏TTED(フォーマット順)で, 数値変数であれば大きさの順,文字変数であればアルフアベット順に水準が割り当てられる.表 1 3に水準の順序に関するオプションを示した. C O N T R A S T文を用いて解析する場合は,水準の順序は 重要であり,意図した通りか, C l a s sL e v e lI n f o r m a t i o nのテーブルで必ず確認しておく必 要があるに ワu n u
表 12 各水準の対数オッズの推定値 β X Xβ P A R 必1 = E F F E C T 。。 4 7 1 1 。 。 0 . 5 2 1 。。 ‑0.18724 ‑ 1 .4 7 1 1 ‑ 0 . 5 2 1 4 ‑ 1 .4 7 1 1 ‑ 0 . 1 8 7 2 1 .4 7 1 1 + 0 . 0 8 4 8 0 . 0 8 4 8 ‑ 1 . 4 7 1 1 + 0 . 5 2 1 4 + 0 . 1 8 7 2 ‑ 0 . 0 8 4 8 。 。。 。 ‑0.8473 。。 。 。 。 ‑0.81145019 0 . 5 3 9 0 000 。 ‑ 0 . 8 4 7 3 ‑1 .1 4 5 1 ‑ 0 . 8 4 7 3 ‑ 0 . 8 1 0 9 ‑ 0 . 8 4 7 3 0 . 5 3 9 0 + 0 ‑ 0 . 8 4 7 3 ‑ 1 . × ー ‑ 1 .9 9 2 4 ‑ 1 .6 5 8 2 1 . 3 8 6 3 ‑ 0 . 8 4 7 3 組釧二 G L M P ‑ 1 . × ‑ 1 .9 9 2 4 ‑ 1 .6 5 8 2 ‑ 1 .3 8 6 3 0 . 8 4 7 3 P 組必1 = R E FR E F = F I R S T aAτnLnJnJ oonbηi 1 i 1ょ 1ょ nu •••• 円 ︿ 斗ム s nHurhunバU A ︼ ? udnhunu nバU 一 一 ‑ ハUU RU nlu l F h U lAせ lふ l 日U 円/︼ A斗 A n︿u n︿U ふs ハUU ‑‑‑‑ 4 A a斗A a 生 4A n/︼ n/︼ n/︼ n/︼ nHunHunHund 叫 udnudnudnHU 円 ︼ ‑‑‑‑ l l一i ‑i ‑‑ ︼ 一 一 4 ? 1ょl n/ a斗Anhurhu QunJnuaAτ q d q u n b 1ょ 1 i n u n U 1ょ × n u n u n U 1ょ ハHU ハHU4lA ハHu n‑U1ょ nun‑u •••• P 組 釧= O R T H P O L Y ‑‑‑ l i ‑‑ 一l ••• A斗 ム 円 / ︼ n/︼のバunhu nHurhunλu ︿ nHunhunU η︿u 1inbod ηinunu Aせ Aせ 1i ‑ ょ ﹃U A吐 11 . 6 6 40 . 4 7 70 . 0 4 6 1ょ n u n U •. × 叫 nHv nhund nhU ハUunHu nHunhunhU ︽ 一 一 E H H U 4 1 1 A 咽i ハN u t ‑ n u a告 の O a生 η L 1よ 06 4 l A ハUurhu nhU ハHunxu nuuA斗 ム 円 / ︼ o o n b 1ょ ハUU ハUU ハUU 111 ‑‑‑ ••• ••• ‑ 0 . 8 4 7 3 0 . 0 4 3 1 必1 = P O L Y P A R o 0 0 1 1 1 3 9 2 7 1 0 1 0 0 1 0 0 0 表 13 C L A S S文の水準順序の指定 O R D E R ニオプション D A T A :データセットで出現した順 F R E Q :度数の多い順 F O R M A T T E D:フォーマット順 I N T E R N A L :内部ハードウエアの定義 表 12に示したように, 5つのモデルで各群の対数オッズは等しい.したがって各群のオッズ, 予測確率も等しくなる.この対数オッズは,表 l の観測度数に基づいて計算した対数オッズに他な らない. 例えば, O m g 群の対数オツズは ‑21一
オッズ:6 / 4 4 = 0 . 1 3 6 3 6 対数オツズ:l o g ( 6 / 4 4 )ニ ー 1 . 9 9 2 4 となる.これらのモデルに限らず,一般に互いに独立な要素を持つ飽和モデル(ランク落ちしてな し可)のデザイン行列を用いれば,完全にあてはめることができ,このとき予測確率は実測確率と等 しくなる. 5つのモデルの違いは,パラメータの与え方(対数オッズの分解の仕方)が異なるだけ本質的に同 じモデルである.したがってモデルのあてはめ,総括的な検定, T Y P E I I Iの検定の結果は皆等しく なる.ただし L O G I S T I Cプロシジャの出力を読むときは,注意が必要である. P A R A M = E F F E C T,G L M, R E F E R E N C Eオプションを指定すると,オッズ比の推定値が出力されるが,これは得られたパラメー タ推定値を Bとして, e xp(B)である.したがって, P A R A M = R E F E R E N C Eを指定した場合以外は,望ん だような群聞のオッズ比が,直接出力されているわけではない.特にデフォルトの指定は. P 組組= E F F E C Tであり.この結果は.群聞のオッズ比としては解釈で夫ない.また C O N T R A S T文 , T E S T文によ る解析では,モデルのパラメータ推定値 Bについての線形仮説を検定する.各群の対数オツズにつ いての線形仮説を検定しているわけではない. 5つのオプションで, C O N T R A S T文による解析結果が 異なったのはこのためである. 以下, 5つのオプションのモデル化について解説する. •P A 貼M = E F F E C T デフォルトの指定である.このパラメータ化の方法は C A T M O Dプロシジャと同じであり,プロシ ジャ閣の整合性を考えて,デフォルトになっていると思われる. P 品A M = E F F E C Tを指定した場合, β1+β1+β;+β4ニ Oの制約があり,第4 群のパラメータは β4二 一 βl一 βi 一 β1となる. したがって O m gと各群のオツズ比は得られたパラメータを用いて,次のよ うに計算する.各群の対数オッズと対照群との対数オッズ比は次のようになる. P A R 心1 = E F F E C T 制約 :β1+β +βJ+β4=0 , 各群の対数オッズ 。 O m g: β +β1 。 1 m g : β +βj 。 3mg:β +βJ 。 。 1 0 m g : β +β4二 β ‑βlβ;β] 対照群との対数オツズ比 。昭一 l 昭 :( β +βj)一 ( β +β1)ニ孔一β: 。 。 。 昭 一3 昭 :(β+βJ) 一( β +β1)=βJ一 βl O O m g 一1 0 m g :( β 。β;ー ム βJ)一 ( β。 +β1)ニー 2β!一 βJー ム C A T M O Dプロシジャでは,水準聞のオッズ比が出力されないが,このような手順で,対数オッズ比 を計算して,指数の肩に乗せれば,オッズ比が計算できる.ただし手計算は面倒である.このよう なときには, C O N T R A S T文の E S T l M A T Eオプションを利用するのが便利である.このオプションは, L O A T M O Dの両方のプロシジャで利用可能である. E S T I M A T E = P A R A Mと指定すれば対数オッズ G IS T I CとC スケールの, E S T I M A T Eニ E X Pと指定すれば,オッズスケールの点推定値と信頼区聞が出力される. E STlMATE=BOTHと指定すれば,両方が出力できる. また用量に相関して,対数オッズが増大するかを検討するための対比の係数は, L i n e a r 。 。, 。 + ム )+13(β 。 ‑βl一 βi一 βJ) :‑7(β +β1)‑5(β +β ) ‑ 1 ( β 2 0 β: ‑18s:‑14β1 二 一 となる. プログラム例を表 14に示す. E F F E C Tオプションを指定した場合は,対比の係数の値を,群の数 ‑l個指定することになる.それ以上指定しても無視され, L O G画面に W A R N I N G :問。 r ec o e f f i c i e n t st h a nl e v e l ss p e c i f i e df o re f f e c td o s e . S o m ec o e f f i c i e n t sw i l lb ei g n o r e d . 1 のメッセージが示される. G L Mオプション以外のパラメータ数は群の数‑1であり,表 2のプログラ L M以外は,このメッセージが出力される. ムで G また最初の3つのみの係数を折定するので,対比の係数の平!lは足して Oにならないことに注意、され ‑22
たい.表 6では, C O N T R A S T文で,対比の係数を 7 ‑ 5 ‑ 1 1 3 と指定したときの結果が示されているが,切片項以外のパラメータは 3 つであるため,最後の係数 は無視され, Ho:‑7β:‑5β ‑1β1二 Oを検定した結果が示される.しかしこの結果は解釈でき ない.表 15に推定された対数オッズ比とオッズ比を示した. C A T M O Dプロシジャでも表 14のような C O N T R A S T文の指定によって,全く等しい結果が得られる. E F F E C T型のデザイン行列の利点、は,交互作用項を含めて複数の要因が存在するときに,バランスさ えとれていれば,それぞれの要因をほぼ独立して解釈できる点である.次節で示すように, 4x4 のE F F E C T型の二元配置のデザイン行列は,表 22のようになる. , A R A M ニE F F E C Tオプションを指定した場合の正しいプログラム例 表 14 P proc logistic data=test descending;class dose/param=effect; model y=dose;weight w; contrast Omg‑lmg' dose ‑1 1 0 /estimate=both; contrast ・ Omg‑3mg・ dose ‑1 0 1 /estimate=both; contrast 'Omg‑10mg' dose ‑2 ‑1 ‑1 /estimate=both; contrast 'linear' dose ‑20 ‑18 ‑14;run; ・ O N T R A S T文による対数オッズとオッズ比の計算結果 表 15 C 0.4468 ~0.4928 0.6109 O .的 95 0.0318 0.0318 Ef__j~笠旦JL!主琵ZJLQニ笠JI 1.1046し 8ニ このデザイン行列の積 (XιX)を計算すると次のようになる.各要因聞の積和が Oになり, 直交 することが確認できる. ︼ ︼守 iム 守 ︼ n / 4lln/ 4 4 ︼凋 ム 円/旬 nunununununH1i1ip L 1 i p ‑ p ‑ n L 4 H uハ HunHunHunuV4lln/ 4 1 1 ハ H Vハ nunununununHnL4 nL1ip‑‑i1ip‑‑i OOOGoop‑11211422 000ODa‑‑2224112 B0000oa121242121 ×0 0 0 0 o a 2 1 1 4 2 2 2 1 1 A 0 0 0 0 0ふ 2 2 4 1 1 2 1 1 2 unUハ ununU ハ unU U ハ ハU ハU ハ U一4444n 昌ハU ハ 000009422211211 B 0 0 0一 484000000000 ハ 一 A せ 一 ハU ハU ハU ハU ハU ハu n U ハU ハU ハU ハu n u ハU ハu n u一O O Aせ A品ハU ハU ハu n U ハU ハU ハU ハU ハU U Uハ Uハ Uハ Uハ U ハu n U ハU ハU ハU ハ Uハ A せ n呂 斗 00 A せ A4 せ A せ 一 ハU ハU ハU ハU ハU ハU ハU ハU ハU ハU ハu n U n呂 A ‑23‑
.P 脱 却 二G LM P政釧二 GLMを指定した場合,切片項以外に βl'β2'β3,β4の 4つのパラメータが作成される. 各群の対数オッズと対照群との対数オッズ比は次のようになる. PARAM=GLM 制約 :β4=0 Omg:β +β1 1mg:β +β2 3mg:β +β1 10mg:β +β4‑β Omg‑1mg :( β。 +β2) 一( β。 +β1)=βJ一 β1 O 皿g‑3mg :( β。 +β3) 一( β。 +β1)=β3一 βi O 皿g‑10 皿g :( β。 +β4) 一( β。 +β1)=β4一 βl また用量に相関して,対数オッズが増大するかを検討するための対比は, Linear :‑7(β +β1)‑5(β +β2)‑1(β )+13(β +β4)=0 3 β 4‑1 3 β。 =‑7β1‑ +13(β ) 。 5β1一 lβ3+1 5 β 2‑1β +13β4 =‑7β1‑ となる.したがって, GLMオプションだけは, CONTRAST文の検定結果(表 7)は正しかったことになる. P政 AM=GLMオプションの場合, βl'β2,β3,β4の4 つのパラメータを前提に一般化逆行列を解 くことによって,パラメータの推定を行う.このとき,最後の群に相当するパラメータ (β4) がOと おかれる.実際,表 7の出力でも β4の推定値は Oになっている .β4二 Oであるから,この項は実質 的に寄与しないので, CONTRAST 'linear' dose ‑7 ‑5 ‑1; という指定をしてもすればよさそうにみえるが,この指定は, LOGISTICプロシジャの仕様ではエラ ーになる. P 脱 却 二G LMオプションでは,水準の数だけ対比の係数を指定する必要があり,必ず足し てOにならなくてはならない.この指定方法は GLMプロシジャと同様である. 。 。 。 。 。 , 。 。 + ム 。 。 • PARAM 二R EF REF=FIRST このオプションは,ある基準群と各群の比較を行うためのもので, REFニFIRSTと指定すると,最 初の群を基準群とするため, βl二 Oの制約が行われる. REF=FIRSTを指定しない場合のデフォルト ( R E F = L A S T )では,最後の群のパラメータが Oと置かれる.このときは, PARAM=GLMを指定した場合と 結果が等しくなる. PARAM 二 R EF REF=FIRST 制約 :β1二 O O 皿g:β 1mg:β + β 3 皿g:β +βJ 1 0mg:β +β4 0 皿g 一l 皿g :( β +β2) 一β =β: Omg‑3mg :( β +β3) 一β =β1 0 皿g‑10 皿g :( β +β4) 一β =β4 。 。 。 。 。 。 。 。 。 。 この指定では得られたパラメータ βl'β3'β4カi,直接,対照群と比較したときの対数オッズ比 として解釈できる.また用量に相関して,対数オッズが増大するかを検討するための対比は, Linear :‑7(β )‑5(β +βj)‑l(β +β3)+13(β +β4)=0 3 β 4‑1 3 β。 =‑5β1一 lβ3+1 +13(β 。 ) =5 ム‑1βJ十 13ム となる .βlはOとおかれ,推定の対象外となる.したがって CONTRAST文を用いて解析する場合には, ので, β!の係数は除いて次のように指定する必要がある. CONTRAST 'linear' dose ‑5 ‑1 13; この例では, REF=FIRSTと指定したが, REFニLASTと指定すれば β4二 Oと置かれ,最後の群に対す ' β1として出力される.この場合には用量相関性について検討する場 る対数オッズ比が, βl'β t 合は, CONTRAST 'linear' dose ‑7 ‑5 ‑1 と指定する必要がある. 。 。 。 , ‑24‑ 。
•P 組組ニP O L Y この指定におけるデザイン行列は,多項式回帰のもので,モデルは次のようになる. L o g i t ( p )二 l o g ( p / (1 ‑ p ) )= β。 +βJdose+β)dose1+ β, d o s e3 表 11のデザイン行列では,第 1 列は用量そのもの,第2 列は用量の 2 乗,第 3 列は用量の 3 乗とな っている.したがって得られたパラメータ推定値は,多項式回帰の係数として直接解釈できる.例 えば表 9の結果から l o g ( p / ( l ‑ p ) )ニ ー1 .9 9 2 4 + 0. 41 8 1 d o s e ‑Q.0 8 9 9 d o s e '+ 0 .0 0 5 9 5 d o s e3 というモデルが得られることがわかる. ただしパラメータの有意性の解釈には注意が必要である.例えばこの例では ,3 つのパラメータ とも p値が 0 . 5以上であり,有意に程遠い結果になっている.しかしながら,対比を用いた解析の 結果,後述の直交多項式を用いた解析結果が示すように,ほぽ用量に対して直線的に対数オッズが 上昇している.多項式回帰では,高次の項が含まれている場合には,それより低次の項の有意性は 評価できない.この例では,有意性を評価できるのは 3次の項のみである. このオプションを指定した場合, C O N T R A S T文を用いて群問比較や傾向性の検定を行うには,対比 の係数の設定が複雑になりすぎるので, C O N T R A S T文は使用すべきではない. •P 組組二 O R T H P O L Y この指定におけるデザイン行列(表 11)は,直交多項式型のもので,次のような特徴がある. 1 )全ての列で係数の和は O になる. 2 ) 全ての列で係数の二乗和は群の数(この例では 4 )に等しくなる. 0 1 2 3 ‑ 1 ーよ内︿ ー U 〆 白 内 ︿U ー次次次 ︑J 1 i η 3 ) 任意の 2つの列を取り出して,積和を計算すると 0になる(直交する). A R A M 二P O L Yと同様のモデルであるが,パラメータ同士を直交させ,無相関にしたの 基本的には, P で,それぞれを独立に評価できる利点がある.直交多項式の係数の計算は,この例のように水準が ,し 2 ,3 と等間隔の場合について説明する.またこの実 非等間隔のときには簡単ではないので, 0 際のスケールを Xで表すことにする. 4 群の場合の直交多項式については,統計学の教科書では, 次のように記載されている人 Xとの関係 (X.=1 .5 :平均値) 群4 群l 群2 群3 ‑ 3 3 3 2(X‑X.) (X‑X.)'ーし 2 5 ( 10/3)x{(X‑X.) 3‑41/20(X‑X.)} 表 16 等間隔の場合の直交多項式の係数 1{:欠項は実際の水準 Xの l次関数, 2次項は 2次関数, 3次項は 3次関数となっていることが確 組刷二 O R T H P O L Yを指定したときに L O G I S T I Cプロシジヤが与える係数は 認できる.ところが,実際に P 表 16のようになる. これは,係数の 2乗和が足して群の数に等しくなるようにしているためで, 2次項はそのまま, 民U つω
1{欠項, 3次項は 1 /J5倍になっている. 直交するように係数を設定することによって,それぞれのパラメータの検定結果を独立に解釈 できる.表 1のように水準聞が等間隔でない場合は,直交多項式の係数は簡単な関数では表すこ とができないが, L O G I S T I Cプロシジャでは,直売するように計算してくれる.見方を変えれば, L O G I S T I Cプロシジャの出力する直交多項式の係数を利用して, G L M 等の他のプロシジャで,直線 性や 2次の傾向を検討することができる. 0,1,3,1 0と水準をとった場合の結果に基づいて述べる.表 8にはパラメータ推定値とその標 a l d 検定の結果が示されている.特に 3次項の検定の結果だけは, P A R A M = P O L Yを指定し 準誤差, W た場合(表 9)と等しくなることに注意されたい.最高次の検定結果のみは, 2種類の多項式モデ ルで結果が等しくなる.逆にいえば, P A R A M = P O L Yを指定して,評価可能なのは,最高次の検定の : 欠 項( P 2 ), 3次項 ( P 3 )は全く有意ではなく,また l 次項は, p = 0 . 0 1 9 7と日水準で、有 みである. 2{ 意である.この検定の結果は, C O N T R A S T文で正しく対比を指定したときの検定の結果と一致して いる(表 7) .2次以上の項が全く有意でなく,1{欠項のみが有意であることから,ロジットスケ ールで直線的な用量反応関係があることが積極的に示唆される. 1次項または直線対比が有意で あったとしても,高次の成分も有意であるときは,直線的な用量反応関係であるとはいえない. どのような用量反応関係であるかを調べるためには,直交対比を用いた解析が有効である. , 5種類のオプションの特徴をまとめた. 表 17に 表 1 7 5つのパラメータ指定オプションの比較 P 姐A M= 方法 パフメータ数 R E F ( F I R S T ) P a r t i a l法 群の数一1 β}=O P O L Y 多項式 群の数‑1 O R T H P O L Y 直交多項式 群の数‑1 対応プロシジャ 文の利用 ム C O N T R A S T ム C O N T R A S T 文の係数 ‑ 2 0‑ 1 8‑ 1 4 7‑ 5‑ 11 3 ‑ 5‑ 11 3 の指定 ( 0131 0 ) 利点 交互作用を 対比の係数 群聞のオッ 含む時の主 が明示的 ズ比として 効果の解釈 解釈可 交互作用を C O N T R A S T文 オッズ比の 用途 検討 含めた解析 の利用 I N S I G H T等 O R T H R E G × × 多項式回帰 の係数が得 られる. 独立性, 各成分の 寄与の評価 直線性の 検討 制約 E F F E C T M a r g i n a l法 群の数‑1 Zβi=O C A T M O D G L M 群の数 β4二 O G L M 。 さて,本稿では V . 8ユーザーを前提に L O G1 S T ICプロシジャの拡張を示しているが,リリース 6 . 1 2までで,カテゴリカル変数を説明変数に利用する場合には,デザイン行列に対応するダミー変 A T Aステップで作成する必要がある ( G L M 型のダミー変数は, G L M M O Dプロシジャで作成するこ 数を D とが可能である). 例えば, R E F型のダミー変数を作成すれば,基準群とのオッズ比が直接出力 できて便利である.しかし,この場合,主効果に対応した複数自由度の検定や,対比による用量 相関性の検討はどのように行えばよいのだろうか.実は T E S T文の機能を使えば,リリース 6 . 1 2で . 1 2でも利用することができる. も,これらの解析は可能である.表 18のプログラムはリリース 6 D A T Aステップで P A R A M = R E F R E F = F I R S T 型のダミー変数を 3つ作成している. T E S T文では,仮説 1 = d 2 = d 3 = 0を指定すれば, 3つのパラメータが全て O (すなわち 4 を等式の形で示す必要がある. d 群閣で差がない)かの検定結果(自由度 3)が出力される.また 5 牢d 1 ‑ 1村 山 1 3吋 3 ニO を指定するこ とによって,用量とともに直線的に増加するかを検討することができる.結果は表 19のように なる.パラメータ推定値等は,表 10 (PARAM=REF R E F = F I R S Tを指定)の結果と一致する. C L A O N T R A S T文が使用できない,重回帰分析用の R E Gプロシジャ, C o x回帰用の P H R E Gプロシジ S S文と C E S T文は利用可能であり,ダミー変数を作成すれば様々な仮説を柔軟に検討することが ヤでも, T 2 6 ←
できる.計量データの場合は, C L A S S文がある G L Mプロシジャを利用した方が簡単であるが, C o x の比例ハザードモデルの場合, P H R E Gプロシジャしかなく,このため T E S T文は非常に有用である. 表 18 ダミー変数と T E S T文による解析プログラム d a t at e s t 2 ; 3,1 0 ; d og = 0,1, 二 ot h e nd o ; d 1 = 0 ;d 2 = 0 ;d 3二 O ; e n d ; i f9 二1 t h e nd o ; d 1 = 1 ;d 2 = 0 ;d 3 = 0 ; e n d ; i f9 ;d 2 = 1 ;d 3ニO ; e n d ; i fg = 3 t h e nd o ; d 1ニ0 0t h e nd o ; d 1ニ0 ;d 20 ;d 31 ; e n d ; i f91 d oy = Ot o1 ; i n p u tw@ @ ; o u t p u t ; e n d ; e n d ; c a r d s ; 4 46 4 28 4 01 0 3 51 5 二 二 二 p r o cl o g i s t i cd a t a = t e s t 2d e s c e n d i n g ; m o d e l yd 1d 2d 3 / r l ; o v e r a l l: t e s td 1 = d 2 = d 3 = 0 ; 1 ‑ 1本d 2 + 1 3本d 3ニO ; w e i g h tw ; r u n ; 1 i n e a r :t e s t‑ 5本d 二 表 19 ダミー変数と T E S T文による解析の結果 A n a l y s i so fM a x i m u mL i k e l i h o o dE s t i m a t e s P a r a m e t e r S t a n d a r d W a l d P r> S t a n d a r d i z e d s t i m a t e E r r o r C h i ‑ S q u a r e C h i ‑ S q u a r e E s t i m a t e V a r i a b l e D F E 1 . 9 9 2 4 0 . 4 3 5 2 2 0 . 9 6 0 5 0 . 0 0 0 1 I N T E R C P T 1 0 . 3 3 4 2 0 . 5 8 1 6 0 . 3 3 0 2 0 . 5 6 5 5 0 1 1 0 . 4 2 6 4 6 8 0 . 7 7 3 4 7 7 0 . 6 0 6 1 0 . 5 6 0 7 1 . 1 6 8 6 0 . 2 7 9 7 0 2 1 1 .4 6 1 2 7 9 1 . 1 4 5 1 0 . 5 3 3 5 4 . 6 0 7 1 0 . 0 3 1 8 1 0 3 C o n d i t i o n a lO d d sR a t i o sa n d9 5お C o n f i d e n c eI n t e r v a l s W a l d O d d s C o n f i d e n c eL i m i t s U p p e r U n i t R a t i o L o w e r V a r i a b l e 0 . 4 4 7 0 1 1 . 0 0 0 0 1 . 3 9 7 4 . 3 6 7 1 . 8 3 3 0 . 6 1 1 0 2 1 . 0 0 0 0 5 . 5 0 2 1 . 0 0 0 0 3 . 1 4 3 1 . 1 0 5 8 . 9 4 2 0 3 L a b e1 O V E R A L L L I N E A R L i n e a rH y p o t h e s e sT e s t i n g W a l d C h i ‑ S q u a r e O F 5 . 4 7 4 2 3 5 . 4 4 1 4 1 P r> C h i ‑ S q u a r e 0 . 1 4 0 2 0 . 0 1 9 7 5 . 交互作用の評価(2元配置型デザインの解析) C 1 A S S文を指定したときの交互作用について,二元配置型のデータに基づいて例解する.表 20 のデータは担癌マウスについて 6 0日間の死亡の有無を調べたものである.この実験は 2種類の抗が ん剤 A とBの延命効果,特に相乗効果を調べるために実施された.抗がん剤 A とBの用量をコント ロールを含めて 4段階に変えて, 4x4の 2元配置型のデザインで実験を行ったものである.各水 準で 3 0匹,計4 8 0匹のマウスを用いている.表では,下段に N数,上段に死亡した個体数が示され ている.左上の対照群では 3 0匹中 2 7匹死亡しているが,用量が増えるにつれて,死亡する個体数が / 3 0に減少し,著明な延 減少し,特に A,Bともに最高用量が投与された右下の群では,死亡率が 5 命効果があることが確認できる.このデータに基づいて,ロジスティックモデルを用いて薬剤UAと l ヴ n ︒ ︐
Bの交 E作用を検討してみる. 30 30 30 30 102 120 28 30 28 25 30 30 1 7 30 98 120 28 30 24 30 24 30 10 30 86 120 27 30 22 30 9 30 5 30 63 120 110 100 120 55 120 349 480 1 2 0 84 120 解析プログラムは表 21のようになる. L O G I S T I Cプロシジャでは, M O D E L文で, ‑の前に(イベ L Mプロシジャで計量データを, ントを起こした個体数 /N) という構文を用いることもできる. G L A S S文のデフォルトの 解析するのと同様の文法で,主効果と交E作用を指定することができる. C 品刷二E F F E C Tであり,薬剤 A,薬剤J Bのそれぞれについて, 3つのダミー変数が作成される, 指定は, p 交E作用項はこれらのダミー変数の積として 3x3=9個作成される(表 22参照). 表 21 二元配置型データの解析プログラム data way2in=30i 1, 2, 3; do dosea=O, do doseb=O, 1, 2, 3; input y @@;output; end;end; cards; 27 26 26 23 28 28 25 17 28 24 24 10 27 22 9 5 proc logistic data=way2 descending;class dosea doseb; model y/n=dosea doseb dosea台 doseb;run; < . 0 0 0 1 00705 交互作用 ( d o s e a xd o s e b )は5 % 水準 QU ηφ
では有意とならないが, pニ0 . 0 7 0 5と微妙なところである.交互作用の検定を行う際には,有意水準 を5 見より,緩く 1 5 " ‑ ' 2 0 %にすべきであると記述されているテキストもあり,交互作用の内容の詳細 を検討してみる必要がある.表 24に表 22のデザイン行列にしたがって, 12個(要因 A: 3個 , 要因 B :3個 , AxBの交互作用: 9個)のパラメータ推定値と, 0 であるかの検定結果の出力(表 2 4 )を示す. 表 22 二元配置分散分析のデザイン行列 A B 主効果 A 主効果 B 1 2用 AxBの交互作 2 0 00 10 21 01 11 22 02 12 2 12 水準 2 2 2 2 3 3 3 3 4 4 4 4 2 3 4 2 3 4 2 3 4 。 。 。 。 o 。 。 。 。。。。 。 。 。 。 。。 o 。 。 。。 。。 o o 。。。。 。 。。 。 。 。 。 。。。 。 o 。。 o 。 。 。 。 。。 。 。 。 。。 o 。 。 。 。 o 。。 。。 oo o 。 。。 。。 o o o 。。 o o o ‑ 1‑ 1‑ 1 1‑ 1‑ 1 2 ‑ 1‑ 1‑ 1 3 ‑ 1‑ 1‑ 1 4 ‑ 1‑ 1‑ 1 ‑ 1‑ 1‑ 1 1‑ 1‑ 1 1‑ 1‑ 1 0 0 0 0 0 0 0 000 0 0 0 0 0 0 0 0 0 ‑ 1‑ 1‑ 1 000 0 0 0 000 0 0 0 0 0 0 0 0 000 0 0‑ 1‑ 1‑ 1 000 00000 0 000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0‑ 1‑ 1‑ 1 0‑1 0‑1 ‑ 1 0‑1 0‑1 0‑1 0‑1 0‑1 5 . 6 1 0 9 0 . 2 5 1 6 4 . 8 5 2 6 0 . 0 2 7 6 0 . 2 2 9 1 0 . 0 5 8 0 0 . 8 0 9 7 0 . 2 7 3 3 7 486 1 8. < . 0 0 0 1 0 . 0 3 6 9 0 . 2 8 4 3 。0878 40 32 0. 0. 40 40 0 . 9 9 6 1 0 . 3 1 8 2 目 。3189 0 . 3 9 1 9 0 . 6 6 2 3 0. 41 5 7 0 . 3 3 3 2 0 . 5 0 3 8 。4375 0. 48 46 0 . 5 4 4 9 ー 0 . 3 8 8 9 推定値の解釈は難しいが,主効果については有意に 0と異なるパラメータが存在するが,交互作 円同d nノ臼
用パラメータでは, 5 % 水準で有意なものは存在しない.全体としては 5 % 水準で、有意に近い結果が得 られているものの,どのような交互作用であるかは,この解析結果からは不明確である.この例の ように, カテゴリ一変数が離散的な計量データであったり,あるいは順序カテゴリカルデータの場合,交互 作用の内容を評価するには,直交対比型のパラメータを用いるのが有効である. P A R A M ニO R T H P O L Yオ プションを用いた解析を試みる.プログラムは表 25のようになる. 表 25 直交対比による解析プログラム proc logistic data=way2 descendingiclass dosea doseb pararn=orthpolYi rnodel y/n=dosea doseb dosea*dosebiruni 分散分析 ( T y p e I I Iの検定)の結果は変わらないが,表 26のようなパラメータ推定値が得られる. 直交対比を用いる利点、は,個々のパラメータをほぼ独立して解釈できることである. 次項 ( P l )のみが高度に有意であり, 2次項 ( P 2 ), この例では,薬剤 AとBの主効果のついては l 3次項 ( P 3 )は全く有意ではない.パラメータ推定値が負であることから,いずれも変数が大きくな ると,死亡率が低下するといえる.交互作用項についても P lとP 2の積の項のみが有意 ( p = O . 0 0 2 5 )で あるが,残りの 8 つのパラメータは全く有意ではない.このことから,薬剤 A とBの主効果,交互 次項のみのモデル,すなわち,次のような連続変数によるモデルを考えればよいこ 作用において l とがわかる. 表 26 直交対比による解析結果 ( O R T H P O LY ) ‑ 0 . 1 3 1 3 ・0 . 0 5 1 8 4078 ‑ 0. マ'‑︽む 沌一回 nu‑nu 7' , hb 。 0 . 1 3 5 9 n o n o 0 . 1 8 6 6 , Logit(p)=log(p/(l‑p))=β +βA.Aの用量 +β .Bの用量 +βAx .Aの用量 x Bの用量 ここで, Aの用量 x Bの用量は,積の項で文字通りの相乗効果を表すので,この項が有志:である ことから,ロジスティックモデルの前提のド,有意な相乗効果があることがわかる. ‑30‑
余計なパラメータを除いて解析するためには, C L A S S文を削除すればよい. L O G I S T I Cプロシジャ は自動的に全ての説明変数を連続量として,モデルイじする(以下では,連続量モデルとよぷ).プロ グラムは表 27のようになる.モデル文で S C A L E = N O N Eを指定 ( o v e r d i s p e r s i o nを考慮しない検定結 果)することにより,フルモデル(自由度 12)である表 26の結果と比べた場合の適合度が示され る. 表 27 連続量モデルによる解析プログラム proc logistic data=way2 descending; model y/n=dosea doseb dosea doseb/scale=none;run; 脅 適合度検定に関連した出力のみ表 28に示す. 表 28 連続量モデルによる解析(適合度検定の結果) D e v i a n c eとP e a r s o nの 2種類の検定結果が出力されるが,前者は,フルモデルと連続量モデルと の遣いの尤度比検定の結果に一致する. 6であるが,連続量モデルの場合, フルモデルでは,自由度が切片項,主効果,交互作用項併せて 1 モデルの自由度は 4となる.このモデル問で自由度が 1 2異なる. L O G I S T I Cプロシジャの出力 ( M o d e1 F i tS t a t i s t i c s )から, 2 つのモデルの ‑2x対数尤度と A I C (A ka i k e 'sI n f o r m a t i o nC r i t e r i a )を拾い, 次に示した. 2x対数尤度 A I C 自由度 フルモデル 1 6 4 2 7 . 6 2 2 4 5 9 . 6 2 2 連続量モデル 4 4 3 9 . 1 5 1 4 4 7 . 1 5 1 フルモデルに比べて連続量モデルでは, ‑2x対数尤度に, 1 1 .5 2 9の違いがあるが,これがD e v i a n c e統計量である.表 28では,この差が有意であるかの検定(尤度比検定に相当)を行っている.こ の p値は 0 . 4 8 4 2で有意に程遠く, 2種類のモデルであてはまりに有意な違いがなく,連続量モデル I Cは,連 の適合度の高さが確認できる.またパラメータ数を増加することのペナルティを課した A 続量モデルの方がかなり小さくなっている. P e a r s o n統計量による適合度検定の結果もほぼD e v i a n c e 統計量の結果と同様になる. 6 . カテゴリカル変数と交互作用項を含めた変数選択 C L A S S文で指定したカテゴリカル変数あるいは交互作用項を含めて,変数選択を行うことが可能 になった.この機能は線形回帰分析を行う R E Gプロシジャにもない強力な機能である.次の仮想的 な後期 I I相試験データに基づいて例解する.生データについては付録に示した. S A Sデータセット C T:1 2 5オブザーベーション, 6 変数 Y (改善なし ( 0 )・あり(1)) G R O U P( 1: P l a s e b o 2:L o w 3:H i g h )S E X (1:男性 2 :女性) GAP(合併症なし ( 0 )・あり(1)) A G E (年齢) B P H (収縮期血圧:単位皿Hg) 疾患の改善の有無が目的変数で,説明変数の候補としては, 2値変数が S E XとG A P, 3段階の値を とるのが群変数 G R O U P,連続変数がA G EとB P H である. V . 8のL O G I S T I Cプロシジャでは,様々なタイプ のデータを同時に変数選択の候補とすることができる. SELECTION=BACKWARDI B (変数減少法) FORWARD IF (変数増加法) STEPWISE I S (変数増減法) SCORE (総当たり法) 31‑
L O G I S T I Cプロシジヤではモデル文の S E L E C T I O N =オプションを指定することにより, 4種類の変 数選択が可能である.変数減少法は,最初に候補変数を全てモデルに取り込んでおいてから,必要 のない変数を逐次的に除いていく方法である.これに対し変数増加法は,変数を全く含まない状態 からスタートして,説明力の高い変数から,順次取り込んでいく方法である.この中間的な方法が, 変数増減法で,逐次的に必要な変数を取り入れ,不必要な変数を除いていく方法である.また総当 たり法は,可能な全てのモデルを,モデルに含まれる変数の数ごとに,説明力の高い順に示す方法 である.説明力の高さを測る指揮、は,スコアカイ 2 乗の値である. 種類の方法の実行例を示す.プログラムは表 29のようになる. C ここでは,変数増減法を除く 3 L A S S文で, G R O U P,S E X,G A Pの3 変数を指定する.総当たり法は,自由度2 以上の変数 ( 3水準以上)が l つでも存在すると,実行できないので,モデル文では G R O U Pを変数選択の対象とせず, C L A S S文の 指定も行っていない.モデル文では,変数聞を " 1 "で、つないで,最後に @2を付け加えている. この 次の交互作用を全て(山二 1 0通り)変数 指定を行うことによって,これらの変数の主効果,可能な 2 選択の対象とすることができる. model Y=group[sex[gap[age[bph@2; は次の指定と等価である. model Y=group sex gap age bph group*sex group*gap group*age groupす bph sexす gap sexす age sexす bphgapす age gapす bphageす bphi 。 2 の代わりに駄を指定すれば,可能な k次の交互作用まで変数選択の対象とすることができる.し かし可能な候補変数の組み合わせは,次数を増やすと,爆発的に増えるので,注意が必要である. 特に変数減少法では,最初に全ての候補変数を取り込むので,あまり多すぎるとモデルが出発時点、 で破綻してしまう. 8 e 1 e c t i o n = f o r w a r d で、は,変数を取り込むときの基準として 8 1 e = 0 . 1 5を指定してお り,このため,水準 15%で有意な変数のみが選択される.また 8 e 1 e c t i o n = b a c k w a r dで 、 は , 8 1 8 = 0 . 1 5の 指定によって,水準 15%で有意とならない変数はモデルから除去される . C L A S S文で k水準のカテゴ リカル変数を指定した場合,自由度 k‑ 1の検定によって,変数の有意性が検討される. また i n c l u d e = lの指定によって,モデル文で指定した最初の変数(この例では G R O U P )が,強制的に モデルに取り込まれる.臨床研究では群変数等,直接研究目的に関連する変数を含まないモデルは n c 1 u d e =オプシヨンは有用である. 意味をなさず,このようなとき i O G I S T I Cプロシジャによる変数選択プログラム 表 29 L proc logistic data=ct descending; class group sex gap; model Y=group[sex[gap[age[bph@2/selection=forward incl吋 e=1 sle=O.15;run; proc logistic data=ct descending; class group sex gap; model Y=group[sex[gap[age[bph@2/selection=backward include=l sls=O.15;run; proc logistic data=ct descendingi class sex gap; model Y=sex[gap[age[bph@2/selection=score best=3;run; 表 30 変数増加法の結果 qu 臼 つ
表::l 0にL O G1 S T ICプロシジャの変数増加法によるモデル構築の過程を示す出力を示した . I N C L U D E =オプションの指定によって,変数G R O U Pは強制的にモデルに取り込まれている . C L A S S文でも変数G R t e p 1では G A P,続いて S t e p 2では S E X, O U Pを指定しているのでカテコリカル変数として扱われる. S 最後に S t e p 3で SETGAPの交 E作用が取り込まれ変数選択は終了する.有意水準 0 . 1 5では,取り込ま れる変数はもう存在しない.最終的なモデルには, G R O U P G A P S E X S E X * G A P が含まれることになる. O G I S T I Cプロシジャの変数減少法によるモデル構築の過程を示す出力を示した. 表 31にL 変数減少法では,最初にフルモデルとして, group sex gap age bph group合 sex group合 gap group合 age group合 bph sex合 gap sex合 age sex合 bphgap合 age gap合 bph age合 bph の1 5変数が取り込まれる.その後の 1 1のS t e pで,計 1 1変数が除かれ,最終的に G R O U P G A P S E X S E X 叫A P の4変数が残る. この例では, 変数増加法と結果が完全に一致したが,一般的にはこのようなことは むしろ希である.さて S t e p 1 0で' B P Hが除カ通れているが,そのときの p値は 0 . 7 5 1 9と,その直前の S t e p で除かれた, B P H * S E Xのp 値= 0.2199よりかなり大きい.この例が示唆しているように,必ずしも, 9 モデルに含まれる変数の中で p値が最大のものから除去していくわけではない.変数増加法,減少 法,増減法では,デフォルトでは変数聞の階層繕造が考慮される.なぜなら,交 E作用項 AxBは , 主効果 A とBが取り込まれて始めて解釈可能で,交 E作用項単独では意味をなさないからである. 変数増加法では,高次の交 E作用が取り込まれるには,その交 E作用が含む全ての主効果および 交E作用が既に取り込まれていることが条件として必要になる.逆に変数減少法では,より低次の 交E作用または主効果が除去されるためには,それを含むより高次の交 E作用が全て除去されてい る必要がある.例えば,表 31で S t e p 9までで, B P Hを含む4つの交互作用項が除去されたので, S t e B P Hの主効果を除去することが可能になった. p 1 0で' 表 31 変数減少法の結果 由 目 9‑9 5 n守 ‑ 4 E 42 n J﹄ 国 守 ' ‑ nu‑ 圃n u ・ 8‑9 由 ‑M 4︐ 園 内 U ︒ 目 1 4 QU o ‑9 5 向︒‑"︒ 4I この階層構造に関する指定を行うのがモデル文の H I E R A R C町ニオプションである.ただしこのオプ ションは総当たり法 ( S E L E C T I O N = S C O R E )を指定したときは無効である.次ページの 5種類、のオプシ ョンを指定することが可能である. 変数増加法で町L T I P L Eを指定した場合,例えば qu qu
A, B, (A B AxB) のうち, (A B A xB) を総合的に検定した p値が l 番小さければ,この 3 変数が一度に取り 込まれる.デフォルトの指定はH I E R A R C 町= S I N G L Eである. N O N E :変数聞の階層構造を無視する. S I N G L E:変数聞の階層構造を考慮する(一度に l つの変数のみ選択する) S I N G L E C L A S S:C L A S S文で指定した変数のみ階層構造を考慮する(一度に l つの変数のみ選択する) 町L T I P L E:変数聞の階層構造を考慮する(一度に複数の変数を選択できる) M U LT I P L E C L A S S:C L A S S文で指定した変数のみ階層構造を考慮する (一度に複数の変数を選択できる) 次に総当たり法による変数選択の結果を示す.表 29のプログラムで、 b e s t = 3を指定したことによ り,モデルに含まれる変数ごとに,説明力が高い(スコアカイ 2乗が大きし i )モデルが 3つまで出力 される.ただし階層構造が考慮されてない点に注意する必要がある.例えば,変数を l つだけ含む モデルの中では, G A P,G A PxA G E,G A PxB P Hの3 種類のモデルが示されているが,後の 2つのモデル は,交互作用項のみから構成されているので,その意味付けは困難である.交互作用項を含めた, 総当り法による変数選択は,強力な機能ではあるが,その中には不適切なモデルも含まれているの で,注意する必要がある.またスコアカイ 2乗は変数の数を追加すると単調に大きくなる.この例 つの主効果と 6種類の交互作用を全て含んだフルモデルが 1 9 . 5 4 6 8とスコアカイ 2乗が最大と では4 なる. 表 33 O D Sによる総当たり法の結果の出力プログラム proc logistic data=ct descendingi class group sex g a p i r n o d e lY=sexlgaplagelbph@2/selection=scorebest=3i odsoutputbestsubsets=outiruni dataoutiseto u t i adjscore=scorechisq‑2*(nurnberofvariables+l)i procprintiruni 表 34 ODS による総当たり法の結果の出力(7変数まで) c o n t r o l N u m b e r O f a r i a b l e sS c o r e C h i S qV a r i a b l e s ln Mo d e l a r V a d j s c o r e O b s v 8 . 8 6 7 2G A P O 4 . 8 6 7 2 8 . 4 8 0 5G A P O A G E 4 . 4 8 0 5 2 3 8 . 3 3 7 2G A P O B P H 4 . 3 3 7 2 2 1 6 . 0 7 0 4G A P OS E X 1 B P H 4 1 0 . 0 7 0 4 1 5 . 5 9 6 9G A P O A G ES E X 1 B P H 5 9 . 5 9 6 9 2 1 5 . 4 4 0 7S E X 1G A P O 9 6 . 44 0 7 2 3 1 6 . 9 6 7 5G A P OA G ES E X 1 B P H 7 8 . 9 6 7 5 3 1 6 . 7 6 9 4G A P OS E X 1 B P HA G E B P H 8 . 7 6 9 4 8 3 1 6 . 7 5 3 1G A P OS E X 1 G A P OS E X 1 B P H 8 . 7 5 3 1 9 4 1 7 . 6 7 9 3G A P OS E X 1 G A P OA G ES E X 1 B P H 1 0 7 . 6 7 9 3 4 1 7 . 5 9 1 3G A P OS E X 1 B P HG A P O B P HA G E B P H 7 . 5 9 1 3 1 1 4 1 7 . 3 5 2 1S E X 1G A P OS E X 1 B P HA G E B P H 7 . 3 5 2 1 1 2 1 8 . 4 1 2 8G A P OS E X 1 G A P OS E X 1 B P HG A P O B P HA G E B P H 6 . 4 1 2 8 5 1 3 1 8 . 1 9 1 1G A P OS E X 1 G A P OA G ES E X 1 B P HG A P O B P H 6 . 1 9 1 1 5 1 4 1 7 . 9 9 0 9G A P OS E X 1 G A P OB P HS E X 1 B P HA G E B P H 5 . 9 9 0 9 1 5 5 1 8 . 6 7 9 9S E X 1G A P OS E X 1 G A P OS E X 1 B P HG A P O B P HA G E B P H 4 . 6 7 9 9 1 6 6 6 1 8 . 6 3 7 5G A P OS E X 1 G A P OA G EB P HS E X 1 B P HA G E B P H 4 . 6 3 7 5 1 7 6 1 8 . 5 7 1 8G A P OS E X 1 G A P OB P HS E X 1 B P HG A P O B P HA G E B P H 4 . 5 7 1 8 1 8 1 9 . 3 5 0 1G A P OS E X 1 G A P OA G EB P HS E X 1 B P HG A P O B P HA G E B P H 7 3 . 3 5 0 1 1 9 1 8 . 9 5 8 6S E X 1G A P OS E X 1 G A P OA G EB P HG A P O B P HA G E B P H 2 . 9 5 8 6 7 2 0 1 8 . 8 6 2 0S E X 1G A P OS E X 1 G A P OG A P O A G ES E X 1 B P HG A P O B P HA G E B P H 2 . 8 6 2 0 7 2 1 したがってモデルに含まれる変数の数が異なるときは,スコアカイ 2乗の大きさによって,単純 にモデルの良さを測ることはできない.変数の数を噌加させることによるペナルティを課した指標 として,前述の A I Cが標準的な指標である. A I Cは ‑34‑
表 32 総当り法の結果 1 8 . 1 9 1 1 IGAPOSEX1GA向 AGES日 1BPHGAPoBPH 17鈎 ωIGA向 S印 GAPOBPHS日 1 18.67991SEX1臥 向 SEX1GAPOS日 1 B 開 G APOBPHAGEBPH AIC=‑2x対数尤度 +2x変数の数 として計算される.変数の数を培やすと, 2のペナルティが課される.この A I Cの考え方を応用し て,各モデルのスコアカイ 2乗に 2x(変数の数)のペナルティを与えてみる.このためには L O G I S T . 8のO D S ( O u t p u tD e l i v e r yS y s t e r n )の機能を利用する I Cプロシジャの出力を加工する必要がある. V A Sのプロシジャが出力する全ての統計量を S A Sデータセット, H T M Lファイル,リッチテキスト と , S u に qu
ファイル等の形式でファイルイじすることが可能である. O D Sの詳細については, O n l i n eD o c u m e n t 、 で O G I S T I Cプロシジャの出力を利用して S A Sデータセットの形式で,ファイルイじする場 参照できる. L 合のプログラムは表 33のようになる. 表 29のプログラムに O D S文が追加されている.オプションの o u t p u tを指定することによって, S E S T S U B S E T Sニデータセット名 オプションを指定する A Sデータセットの形式で結果が出力される, B ことより総当り法の結果が出力される. V . 8では, 8 文字以上の変数名が可能で,スコアカイ 2乗が scorechisq,変数の数が numberofvariablesとなる.この 2つの変数からペナルティを課したカイ 2乗を adjscoreとして計算している{切片項を含めているため numberofvariables+1としているわ 結果は表 34のようになる. a d j s c o r eが最大になるのは, G A P OS E X 1 B P H ( 1 0 . 0 7 0 4 )であるが,これは交互作用項に対応する 主効果が含まれてないので意味のないモデルである.結局意味のあるモデルの中で a d j s c o r eが最大 E X 1G A P O ( 9 . 4 4 0 7 )の 2変数のモデルである. になるのは S 6 . クロスバリデーション法による予測確率の評価 L O G I S T I Cプロシジャでは,モデルから求めた予測確率を評価することができるが, V 8から予測確 率の推定をクロスバリデーション法(ある個体の予測式を求めるときにその個体自身を除く方法)に よって行うことが可能になった.厳密にこの方法を行うためには,観測値の個数分のモデル式を計 算する必要があるが, L O G I S T I Cプロシジャでは,反復計算を l 回だけ行う o n e ‑ s t e p近似値を出力す Tについては,変数増加法と減少法の結果, group sex gap sex吋 apというモ る.データセット C デルが選択された.このモデルについて,予測確率を計算してみる.プログラムは表 35のようになる. 表 35 クロスバリデーション法による予測確率の計算プログラム proc logistic data=ct descendingi class group sex gapi model Y=group sex gap sex*gapi output out=out p=p predprobs=crossvalidate i proc sort data=outiby Pi proc print data=outivar group sex gap Y p xp̲l XP̲Oi O U T P U T文の O U T =で指定したデータセットに,結果は出力される. P =で指定した変数名で,予測確 率が示されるが,これは 1 2 5の観測値を全て用いた場合のものである.これに対し, predprobs=c rossvalidateを指定することによって,クロスバリデーション法を用いて,その個体自身を除き 1 2 4の観測値から計算された予測確率が示される.結果の一部(予測確率 pの大きさの順に並べ替え, 0個の観測値)を表 36に示す.クロスバリデーション法による予測確率が変数x p ̲ 1( Yが l に 最初の 1 から引いたものが, X P ̲ O ( YがOになる予測確率)として出力さ なる予測確率)に出力される.これを l P ̲ lに比べて PはY = Oのときは過小に, Y 二l のときは過大に評価されていることがわかる. 2 " " れる. X 日程度の遣いが存在する. 表 36 クロスバリデーション法による予測確率の計算結果(最初の 1 0個の観測値) p X P1 X P0 R O U P S E X G A P Y O b s G 0 . 2 4 3 4 8 0 2 . 2 6 0 6 5 0 . 7 3 9 3 5 0 . 2 4 3 4 8 0 . 2 6 0 6 5 0 . 7 3 9 3 5 2 2 0 . 2 4 3 4 8 0 3 2 . 2 6 0 6 5 0 . 7 3 9 3 5 0 . 2 4 3 4 8 0 . 1 9 5 1 8 0 . 8 0 4 8 2 4 2 0 . 2 4 3 4 8 0 . 1 9 5 1 8 0 . 8 0 4 8 2 2 5 0 . 2 4 3 4 8 0 . 2 6 0 6 5 0 . 7 3 9 3 5 6 2 . 3 4 3 4 7 0 . 6 5 6 5 3 2 2 0 . 3 2 2 2 6 0 7 2 0 . 3 2 2 2 6 0 . 2 8 0 0 3 0 . 7 1 9 9 7 8 2 . 3 4 3 4 7 0 0 . 3 2 2 2 6 0 . 6 5 6 5 3 9 2 2 2 2 0 . 3 2 2 2 6 0 . 2 8 0 0 3 0 . 7 1 9 9 7 1 0 。 。 。 。 。 。 7 . 終わりに V . 8でL O G I S T I Cプロシジャは更に強力になった.しかし,その機能を使いこなすには高度な生物 統計学の知識が必要である.本稿がロジスティックプロシジャの適正な利用の一助になれば幸いで ある. phv ﹃υ
付録データセットC T P H Y O b s G R O U P SEX A G E G A P B 6 0 2 3 4 5 2 6 1 2 2 5 2 5 2 3 9 6 2 5 3 7 3 4 6 8 3 4 7 9 3 5 0 1 0 3 5 3 4 7 1 1 1 2 2 2 1 3 1 4 5 1 2 6 5 4 7 2 2 8 2 3 8 1 7 2 5 1 1 8 2 3 7 1 5 1 6 2 1 9 2 2 5 0 2 0 3 2 4 4 2 1 3 2 2 5 2 2 5 2 2 3 2 2 3 4 2 4 2 2 3 7 2 5 3 2 5 2 2 4 4 2 4 9 2 5 0 2 9 2 4 6 3 0 2 2 8 2 6 3 2 7 2 8 2 3 1 2 2 4 4 3 2 3 2 4 7 3 3 3 2 4 0 3 4 3 5 3 6 2 2 5 3 A P B O b s G R O U P SEX A G E G P H Y 。 。 。 。 。 。 。 。 1 1 7 3 6 1 7 0 3 7 2 1 4 8 3 8 3 2 4 7 1 2 3 3 9 2 4 3 1 2 5 4 0 2 6 0 9 4 4 1 2 2 5 2 1 4 3 4 2 2 2 5 3 1 5 4 4 3 3 2 3 8 1 0 0 4 4 3 2 4 0 1 1 6 4 5 1 4 3 4 6 2 2 4 2 1 2 5 4 7 3 2 4 5 1 1 7 4 8 3 2 4 9 1 2 3 4 9 1 3 8 5 0 8 6 5 1 1 2 2 5 2 1 3 2 5 3 1 1 6 5 4 2 9 1 5 5 3 1 6 2 5 6 1 3 9 5 7 1 1 6 5 8 1 2 3 5 9 2 1 4 3 6 0 3 2 5 6 1 1 6 6 1 2 2 9 1 1 4 6 2 2 3 8 8 9 6 3 2 4 9 1 3 0 6 4 2 4 3 1 5 9 6 5 2 1 1 8 6 6 2 2 3 2 8 1 6 7 3 2 4 4 1 5 2 6 8 3 2 2 7 2 4 9 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 2 3 8 4 7 4 4 2 2 2 6 8 2 4 0 2 4 2 2 4 1 2 5 5 2 2 2 2 4 1 2 6 3 2 5 7 2 5 1 2 6 1 6 6 1 2 0 6 9 1 4 8 7 0L ̲̲J̲ Lι~2_ 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 L 。ー 日竺 。 1 0 5 1 2 0 9 4 1 2 2 1 4 2 1 3 2 9 7 1 0 5 1 2 1 1 6 3 1 4 3 1 4 1 1 4 9 1 5 3 1 4 1 1 2 0 1 2 9 1 1 0 1 6 1 1 2 6 1 2 5 9 8 1 3 3 1 0 6 1 4 0 1 1 7 1 4 9 1 1 4 9 7 1 5 2 8 6 1 1 6 1 7 5 1 6 1 f ワ ぺU q
R O U P S日 O b s G 7 1 2 7 2 3 2 5 5 4 8 4 7 5 8 1 4 6 1 1 0 2 5 5 1 4 9 1 1 1 2 5 6 1 0 9 1 1 2 2 2 4 6 1 2 8 1 1 3 3 2 3 5 1 4 9 1 1 4 2 3 4 1 2 5 1 1 5 1 1 9 1 1 6 2 2 4 8 1 2 3 1 1 7 2 2 5 0 1 1 3 1 1 8 3 2 5 2 1 2 6 1 1 9 3 2 1 5 1 1 2 0 4 3 1 0 8 1 1 2 1 6 6 1 1 8 1 2 2 2 2 5 6 1 4 5 1 2 3 2 2 4 9 1 2 4 2 2 4 8 1 2 5 2 2 4 0 2 2 4 2 7 6 2 2 4 5 7 7 3 2 5 3 7 8 2 3 2 7 9 2 4 6 8 0 2 2 8 2 3 8 2 4 5 3 2 8 5 2 5 3 2 4 3 2 4 9 8 6 2 2 5 7 8 7 3 2 3 5 8 8 3 2 5 2 2 4 9 2 2 4 2 4 9 8 9 9 0 2 9 1 4 5 9 2 9 3 2 2 9 4 2 2 5 1 2 3 3 2 5 7 9 5 9 6 3 9 8 4 5 4 6 9 7 2 2 3 8 4 5 9 9 1 0 0 1 0 1 2 1 0 2 2 2 5 7 2 5 9 4 4 1 0 3 3 2 6 1 1 0 4 3 2 4 8 5 7 1 0 5 1 0 6 2 2 4 5 2 7 5 8 4 2 3 2 2 8 3 1 0 7 1 0 9 7 3 8 2 A G E G A P B P H Y 1 0 8 7 4 5 9 。 。 。 。 。 。 。 。 。 。 。 。 I 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 1 4 7 1 2 6 l 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 │ 。 。 。 。 │ 。 R O U P S日 O b s G 1 6 4 3 4 4 3 2 1 0 1 l 1 2 9 2 2 8 1 。 。 。 。 A G E G A P B P H 2 3 1 5 6 7 5 l 1 3 2 1 3 4 1 5 7 1 3 1 1 3 6 1 2 3 1 0 8 1 5 0 1 3 0 1 3 0 1 5 4 1 5 1 1 1 1 1 3 4 1 5 0 1 6 2 1 3 1 1 0 8 1 2 6 1 3 1 1 9 0 1 3 1 1 1 4 1 2 6 1 2 5 1 6 4 1 2 1 1 3 7 1 5 3 1 6 6 1 6 7 1 6 3 参考文献 l)J.Truett,J.Cornfield andW.Kannel(1967) A multivariate analysis of the risk of cor onaryheart disease i n Framingham. J.Chron. D i s .2 0 511‑524 2)R.E.Derr(2000) Performing exact logistic regression with t h e SAS S y s t e m . SUGI'2000 Proceedings,Paper 254 9 6 ) SASによる用量相関性の解 3 )浜田知久馬(19 析. SUGIJ14 論文集, 331‑346 4 )田中豊・森川敏彦・栗原考次 訳(19 9 3) 統 計モデル入門.共立出版 5 )浜田知久馬(19 9 6)町LTTEST Q & A . SUGIJ18 論文集, 3‑18 6 3) 実験計画法.培 6 )奥野忠一,芳賀敏郎(19 風館 1 1 2 1 2 6 1 0 9 2 38‑
日本 SASユ ー ザ ー 会 (SUG1‑0) SAS/WarehouseA d m i n i s t r a t o rソフトウェアリリース 1 . 3の紹介 高木雅弘 株式会社 S A Sインスティチュートジャパン ソリューション本部プロダクトストラテジ一部 I n t r o d u c t i o nt oSAS!Wa r e h o u s eA d m i n i s t r a t o rS o f t w a r eR e l e a s e1 . 3 M a s a h i r oT a k a g i P r o d u c tS t r a t e g yD e p a r t m e町、 B u s i n e s sD e v e l o p m e n t& S o l u t i o n s SASI n s t i t u t eJ a p a nL t d . 要旨 SAS システムはすでに強力なデータアクセス、解析およびフレゼンテーションの機能を持って おり、ユーザにとってデータウェアハウスを構築するのには十分適したツールである。 SAS 八N a r e h o u s eA d m i n i s t r a t o rソフトウェアは、データウェアハウジングに必要な SASシステム プロダクトの機能を集約して lつのプロダクトとし、データウェアハウスの構築・管理を統合的か っオープンにサポートする。本論文では、このプロダクトの使用方法について紹介する。 キーワード SASlWa r e h o u s eA d m i n i s t r a t o rソフトウェア データウェアハウスの構築、管理および保守を 1 . はじめに 統合的活かつオープンにサポートするツール 企業の意思決定におけるデータウェアハウ である。互換性の問題などを解消しながら、社 スの重要性と必要性は、エンドユーザに理解さ 内標準に合致したデータ統合をスムーズに支 れるようになった。しかし、企業全体での戦略 T部門の負担を大幅に削減することがで 援し、 I 的なデータウェアハウスプロジェクトは、 I T部 きる。また、事業の拡大に応じてスケールの調 門の膨大な時間とリソースを要する。基幹デー 整が可能な、真のスケーラブルなエンタープラ タの抽出やクリー二ング、変換、そしてリポジ イズソリューションを提供する。 トリへのロードなどの時間を要する単調な作 業のために、プログラムを生成することは、す 2 .SAS lW arehouseAdministratorの概要 T部門に でに多くのパックログを抱えている I データアクセス、管理、分析、プレゼンテー おいて、トラブル発生の大きな原因のひとつと ション等の一連の機能を持つ SASシステムは、 なっている。 SAS!Wa r e h o u s eA d m i n i s t r a t o rソフトウェアは、 3 ¥ J 何年にも渡って発展し続けてきたデータウェ
まず、ディスプレイマネージャモードで SAS
アハウスツールであるといえる。 SASシステム
では、ほとんどのデータベース管理システムの
システムを起動してコマンドパーに iDWJ と入
データにアクセスすることができ、広範囲に渡
力して実行すると、図 lのようなのデスクトッ
る統計解析機能やデータマイニング機能が利
プウインドウが表示される。
用できる。 SAS
/W
a
r
e
h
o
u
s
eA
d
m
i
n
i
s
t
r
a
t
o
rソフト
tA岨開閉幅四~.幽明彊温置壇圃鴎冨田園6・・・・ -1 ロ Ix1 ,
ウェアは、これらの機能を結び付けて、データ
園 到 ベ ;
ウェアハウス環境の構築、管理および保守業務
の生産性を向上させることを目的に開発され
;
j
内J
ス
ェ
ウ
3
. システム動作環境
鈴子デア
たプロダクトである。
IJ
データ
データウェアハウス
ユーティリティ
の利用
動作環境は、 W
i
n
d
o
w
s版および UNlX版 SAS
システムリリース 6
.
1
2上のみであるが、データ
図 1‑デスクトップ
ソース、ウェアハウス要素およびウェアハウス
メタデータの保存先は、現在サポートされてい
※通常デモウェアハウスは表示されない
る SAS システムであれば利用できる。必須プ
ロダクトは B
a
s
eSASソフトウェアと S
A
S
/
F
S
P
4
.
1 環境の定義
ソフトウェアである。ただし、 DBMSを管理す
データウェアハウスを実行する最初のステ
ップは、環境の定義である。環境とは、複数の
AS/ACCESS ソフトウェア、メタデ
る場合は S
ータまたはスケジューラのジョブ情報ファイ
ウェアハウスによって使用されるメタデータ
ルへの同時更新アクセスを行う場合は
を保存するための場所を指す。
SAS/SHAREソフトウェアなど、その他のプロ
ダクトが必要になる場合がある。
4
.
1
.
1 データウェアハウス環境の作成
4
.データウェアハウスの構築
プルダウンメニューの「ファイル」から「追
加項目」→「データウェアハウス環境」を選択
ビジネスニーズを分析し、ウェアハウスプロ
すると、図 2のような「データウェアハウス環
ジェクトの論理的および物理的なデータモデ
境のプロパティ」ウインドウが表示される。
ルが完成した後に、データウェアハウスを構築
する必要がある。以下はデータウェアハウスを
ー一一一喧
作成する際の基本ステップである。
司I
1ライブラリ名:晴T
町
一叫 11 ス~両長 er
エンヅン
泌"
1
2
オプション:
‑環境の定義
・ウェアハウス環境への入力の定義
.各要素の定義
・プロセスの定義
名前:
見出し:
・コードの生成とウェアハウスのロード
/W
a
r
e
h
o
u
s
eA
d
m
i
n
i
s
t
r
a
t
o
r
それでは実際に SAS
エ
!
!
̲
]
デモヴェ 7
λ'
5
'
:
<
:
寝
泊
一
主出
三 巴j
ソフトウェアを使用して、データウェアハウス
図 2・データウェアハウス環境のプロパティ
環境を構築する手順を示す。
日
U
4
: ; ; : m : 日 各情報を入力して、「了角平」ボタンをクリック すると、デスクトップウインドウに新しいデー 江笠」 タウェアハウス環境のアイコンが作成される。 カーソルを任意のデータウェアハウス環境の 己己J アイコン上に置き、ポップアップメニューから 「編集」を選択すると、図 3のようなデータウ ェアハウス環境のエクスプローラウインドウ が表示される。 ゴ'唱 1 ,1'"寸の長編了一一 豆 三 豆E S dコ ̲.,ート 咽子向モウ h 円川咋ウ d7';スト 昆 恥 畠 し 三包で‑/c;;'乙マ‑"';7'./~; I一 = ニs壷ドチーす ゴ ' . J . J ヱj i 9‑(" 1 : t iョ'1;;ゆえ喝樋 南町窃事官官席育‑ , " , ,6 時e 調寓胃官官宮湾稽芳ー I D 、 : 戸 持 タ 持 毛 討 ウ 古 王 日 ? 杭 八 う hス榔 時四z メ,デ~ 民 図 4・項目の定義 4 . 2 データウェアハウス環境の構造 図 5に示すのは、 SAS !W a r e h o u s eA d m i n i s t r a t o r のグループとデータストアの階層である。以下 拠出閥均 に本論文で使用しているデータウェアハウス の構成要素について説明する。 戸 データウェアハウス環境: データウェアハウ 図 3‑エクスプローラ スや ODDグループをまとめるグループ。 このウインドウの左側の白い部分には、デー タウェアハウスの階層構造が表示される。右側 データウェアハウス:サブジェクトやデータ グループをまとめるグループ。データウェアハ のタブには選択した要素のメタデータが表示 ウスやデータマートを実装するオブジェクト。 される。なお「メタデータ詳細」ビューを使用 サブジェクト: あるトピックに関するデータ するとウェアハウスの要素を定義するときに をまとめるグループ。 入力する情報の大半を表示できる。 データ 詳細論理テーブル: 多目的利用(詳細l の蓄積、詳細テーブルをまとめるグループ、複 4 . 1 . 2項目の定義 数の詳細テーブルに対するビュー)が可能なグ データウェアハウス環境内のすべてのオブ ループ。 ジェクトで使用できるメタデータ項目を定義 詳細テーブル:サブジェクト内で最も小さい する。共有メタデータは 4つのタイプがある。 単位の要素で、データソースからの初期ロード • SASライブラリの定義 データ(変換済み)が含まれる。 .ホストの定義 ・ DBMS接続の定義 基幹データ定義グループ: ODDをまとめるグ .担当者の定義 ループ。インフォメーションマートを含む場合 もある。 プルダウンメニューの「ファイル」から「環 基幹データ定義:OLTPデータの定義に使用す 境設定」を選択すると図 4のような「項目の定 る 。 OLTPデータとしては、 SASデータセット、 義」ウインドウが表示される。 SASビュー、 SAS/ACCESSビュー、または SQL ビューが使用できる。 4 1
7 両二石山元 二 ldι~"Iァハウス 4 . 3 . 1 基幹データ定義グループの作成 ; まず、 ODDを格納する ODDグループを追加 するには、図 3のウインドウで、データウェア 」醤デタヴルーコ ハウス環境のアイコンにカーソルを置き、プル ダウンメニューの「追加」から「基幹データグ ループ」を選択すると、新しい ODDグループ 日一: が作成される。カーソルを ODDグループのア インコォメーションマートファイル 寸J 「プロパティ」を選択して ODDグループの定 義を行う。 一 HJ‑ ヲ‑ h ル‑ M7 一 ︑用担一 イコン上に置き、ポップアップメニューから 一‑j.QIサフジエウト 4 . 3 . 2基幹データ定義の作成 次に作成した ODDグループに ODDを追加す るには、プルダウンメニューの「追加」から「基 幹データ定義」を選択すると、新しい ODDが 作成される。カーソルを ODDのアイコン上に 置き、ポップアップメニューから「プロパティ」 を選択すると、図 6のような「基幹データ定義 のプロパティ」ウインドウが表示される。 置盟国置罰霞謂i .~ 轟車問 I デー?の保存断│列 i 旦i Z : j 。;己!̲j ソフトラ z鳩 山 崎 併 ジ ヱ 子 五 一 一 斗 I 虫色」 I 1 : 二生三J l ' iフ 門 ェ ア 割 羽 子 ロ吟什 . : J 1 . : J I : 101 : 三l 図 5・グループとデータストアの階層 川 i所有者: 陸線一軒一一一:ー一 . . . . . = : J 管 理 者t 羽田博" 一 一 一 一 剥 ヨj 日 主 国i 図 6・基幹データ定義のプロパティ 4 . 3 ウェアハウス環境への入力の定義 SASfW a r e h o u s eA d m i n i s t r a t o rソフトウェアは、 このウインドウは 3つのタブで構成されて トランザクションデータを直接読み込むので はなく、そのコピーやビ、ューを使用して間接的 いる。「一般」タブは、オブジェクトやプロセ スの名前、見出しなどを、「データの保存場所」 に読み込む。これらは、必ず SAS テーブルか タブは ODDの保存場所を定義する。「列」タブ SASビューであることが条件である。そのため、 データソースをデータウェアハウス環境に読 み込むには、まず SASテーブルか SASビ、ユー を作成してから、基幹データ定義 C O p e r a t i o n a l D a t aD e f i n i t i o n ) に登録しなければならない。 は、データソースを構成している各列の名前、 タイプ、長さなど、テーブルの列属性を定義す る。データソースが SASデータセットの場合、 その変数名や属性を読み込むことができる。 ‑42‑
置き、ポップアップメニューから「プロパティ J 4 . 4各要素の定義 を選択して詳細論理テーブルの定義を行う。 詳細・要約データが格納される要素(ウェア ハウス、サフゃジ、エクト、詳細論理テーブル、詳 4 . 4 . 4詳細テーブルの作成 細 I I テーブルなど)を定義する。 詳細テーブルの追加は、詳細論理テーブルの アイコンにカーソルを置き、プルダウンメニュ 4 . 4 . 1 データウェアハウスの作成 ーの「追加」から「新規詳細テーブル」を選択 データウェアハウスの追加は、図 3のウイン すると、新しい詳細テーブルが作成される。カ ドウで、データウェアハウス環境のアイコンに カーソルを置き、プルダウンメニューの「追加 J から「データウェアハウス」を選択すると、図 ティ」ウインドウが表示される。 イJウインドウが表示される。 l i i I E I 1 ; <女 子 一 何 時 場 所 i ップアップメニューから「プロパテイ J を選択 すると、図 8のような「詳細テーブルのプロパ 7のような「データウェアハウスのプロパテ 一般 ーソルを詳細テーブルのアイコン上に置き、ポ G I I I 密書書留臨lIIii 一般│列 i 保存場所 i アクセスの保存場所│ : J l i l 3 J ぷl i z ] 1 J │鶴子 寸所有者: ~管理事; 開 : 町 一 一 一 山 剖誠 鈴木豆町一 二二;主Jヨ 一一一一一一企j ョl 主 出l 控訴ユ力 図 8‑詳細テーブルのプロパティ 図 7ーデータウェアハウスのプロパティ このウインドウは 4つのタブで構成されて 4. 4. 2サブジェクトの作成 サブジェクトの追加は、データウェアハウス いる。「一般」タブは、オブジェクトやプロセ スの名前、見出しなどを、「列 J タブは、デー のアイコンにカーソルを置き、プルダウンメニ タソースを構成している各列の名前、タイプ、 ューの「追加 Jから「サフ ジェクト」を選択す 長さなど、テーブルの列属性を定義する。「デ ると、新しいサブ、ジェクトが作成される。カー ータの保存場所」タブは、詳細テーブルの保存 ソルをサブジェクトのアイコン上に置き、ポッ 形式 (SASまたは DBMS) とロード方式(更新 e プアップメニューから「プロパティ」を選択し てサブジェクトの定義を行う。 または追加)を定義する。例えば、保存形式に ISASJ を選択し、保存場所の詳細を定義する ために「定義」ボタンをクリックすると、図 9 4. 4. 3詳細論理テーブルの作成 のような ISASテーブルのプロパティ」ウイン ドウが表示され、 SASデータセットの保存場所、 詳細論理テーブルの追加は、サブジェクトの パスワードなどの定義を行える。 アイコンにカーソルを置き、プルダウンメニュ 詳細論理テーブル下に、必要な詳細テーブル ーの「追加」から「詳細論理テーブル」を選択 を作成し、データソースとウェアハウスの骨格 すると、新しい詳細論理テーブルが作成される。 は完成となる。次に定義した基幹データとデー カーソルを詳細論理テーブルのアイコン上に タ属性の対応を定義する。 43‑
哩暗‑ーーーーーーーーーーーーーーでT
n ‑
制 Sテープ')!,の倒干増子府育報:
,
‑
̲
.
.
.
̲
..
.
̲
.
.
.
̲
̲
.
.
.
ω
をグラフイカルに表したものが左側に表示さ
菅間
保存嗣│パスワード│オプション│インデックス l
ホスト
…一一一戸ー一一一一一一一一一ーー品一一一iI 了解 l
l
i
叫ー
…
一:圭l
;51:/ラリ:
!何ハウスアづフイ川
れ、右側にはプロセスダイアグラムで選択中の
項目の名前、タイプなどが表示される。
到;日J
7
I
:劃ヨJ
i "‑H,:/ I
まず ODD と詳細テーブルを関連付けるため
j デイ~.> ~ : 照 町 「 主j
にマッピングを作成する必要がある。プロセス
エディタで、テーブルのポップアップメニュー
から「追加」→「基幹データマッピング」を選
択する。そして「入力ソースセレクタ」ウイン
ドウで「テーブルタイプ」からロードしてくる
図 9・SASテープルのプロパティ
テーブルを選択し、「表示」ボタンをクリック
1 のように使用可能なデータソー
すると、図 1
4
.
5 プロセスの定義
スの一覧が表示される。
基幹データのマッピング(列の変換を含む)、
データ転送、ユーザプログラム、レコード選択
は、プロセスエディタを介して定義することが
できる。プロセスエディタを使うと、生成され
たコードにユーザプログラムを追加したり、置
き換えたりすることができる。
~
函直面圃扇国軍国
却出
了解
I
!
4
.
5
.
1 プロセスエディタ
二極コ!
プロセスエディタでは、ウェアハウス要素に
追加するプロパティや、ウェアハウスにデータ
をロードするプロセスなどを定義できる。詳細
テーブルのアイコンにカーソルを置き、ポップ
二生三j
図 1
1・入力ソースセレクタ
アップメニューから「プロセスエディタ」を選
0のような「プロセスエディタ」
択すると、図 1
ロードするデータソースを選択して「了解」
2 のようにマッ
ボタンをクリックすると、図 1
ウインドウが表示される。
l
l
i
I
i
I
B
i
ピングと選択したデータソースがプロセスダ
イアグラムに追加される。
亙図
斗 週!
R
:
'
e
名前三
》;ブロ柿下糊テエヲ,
「ーーー
斗 遺!
R
:
名 前一 :
i
マ少ピンク
タイプ:
ν
ー
一
ア
7
均
ノ
口
芦
7
国
明
;見出し 2
白
すべてのヲロタクトにつ
レてめ鰭樋
B
7口空?ト詳細テ
Y
1諸
マ
一一
ヲイブ:
ブル
見出し:
国
J
ブロタヲト
Jj
i
g
i
斗
図 10・プロセスエディタ
J
{
f
J
‑
図1
2・プロセスエディタ
このウインドウは、テーブルの作成プロセス
叩
凋斗‑
A斗
・
次に、マッピングのポップアップメニューか
このウインドウの左下にあるマクロ変数、関
ら「プロパティ」を選択すると、すべてのプロ
数、テーブルや演算子ボタンを選択して値式を
セスに共通の 5つのタブとマッピングプロセ
作成することができる。また、 Whereフィール
ス固有の 2つのタブから成る「マッピングプロ
ドに直接コードを入力・編集することができる。
セスプロパティ」ウインドウが表示される。
4
.
5
.
2 ロードステップ
最も重要なのはマッピングを定義するため
の「列のマッピング」タプである。変換を含ま
列のマッピングが終了したら、要素をロード
ないマッピングを定義する場合は、 11対 1マ
する前に、ウェアハウス要素のロードステップ
プロパティを必ず編集する必要がある。
ッピング」を選択すると、図 13 のような 1
1
対 lマッピング」ウインドが表示される。
・要素のロード方法を定義するソースコード
RE
富田哩園田園圃圃圃圃圃圃圃・・・・・・・圃圃圃・圃圃圃圃圃圃園圃圃圃圃r.JOTi1
ソーステーブル・ 1:7口君フト…一~~, ,
,>," N N "
の指定
..~.~""邑j
響繍槻鴨署
器聴覚i
ip蹴正
〉
υ里
」
・ソースコードを実行するホストの指定
・適用可能なロードプロセスのオプションの
二 区J
選択
・要素をロードした後に実行するコードの指定
一
」
ロードステッププロパティを編集するには、
「プロセスエディタ」ウインドウで、カーソル
をロード可能なテーブルに置き、ポップアップ
メニューから「ロードプロセスの編集」を選択
すると、図 1
5 のような「詳細テーブルロード
図 13・ 1対 1マッピング
プロセスの属性」ウインドが表示される。
「クイック」ボタンをクリックすると、ソース
列と名前の同じターゲット列を 1対 1で自動
一
一
一
一
ー墨田
ソースコード│新│オブシヨン│組理 l
的にマッピングできる。ダJ
Iを個々にマッピング
ソースコード作成に必要なデ‑$1を!:J:主レて〈だ E
礼、
するには、ソース列とターゲット列を 1つずつ
選択して I
>
J ボタンをクリックする。変換を
J ユーザ泡定
ソ}立コード
ライブラリ
含むマッピングを定義する場合は、「定義」を
選択すると、図 14 のような「値式編集」ウイ
カ台ログ
エントリ:
ンドウが表示される。
卦
ゑj
I
図1
5‑詳細テーブルロードプロセスの属性
ヰ心ゴゴヰUゴヱとと止;三i 斗斗
i
:
'
含'
Jータイプ》
o
i
ll
J
;
斗主主三Ji ̲
I
̲
笠J
̲J‑l之江Ji
̲
j
(0' ロヲ会~
当ぷI.J
4
.
6 コードの生成とウェアハウスのロード
四ル
ロプ
ヲ数‑
E マ間一ア
E 白ー囚 l d
j
十つ十j
ウェアハウス内に要素を定義し終わったら、
ウェアハウスのロードに必要なコードを生成
し、そのコードを実行するジョブのスケジ、ユー
ルを作成する。
図 14・値式編集
Ru
nq
AS PRODNUM lengヒh=8 4 . 6 . 1実行 ウェアハウス要素をロードするには、要素の PDB.PRODNAME AS PRODNAME lengヒh=15 ポップアップメニューの「実行」を選択すると、 図 16 のような「ロードの生成・実行のプロパ ティ J ウインドウが表示される。 刻一 一一一 a l PDB.PRODID AS PRODID lengヒh=9 FROM PDB.PDB E QUIT; 以下省略 : l i l l I生成されたコード在融します 保存 i コードを保存します 内部駐エジ下り 1 ( '外部ファイル 自 由 一 一 ぷι一一..J 4 . 6 . 2データユーティリティ よごとと」 凱されたソースコードを新します f 己と与ニゴ 生成さ付ごコートモジョブとしてス 7:)~-) [,します 旦 丘j データユーティリティは、主にウェアハウス にあるテーブルの内容の表示、プリント、また ー立与j はクエリーを処理することができる。例えば、 上記で作成した詳細テーブルを参照するには、 図1 6‑ロード生成・実行のプロパティ 詳細テーブルのアイコンにカーソルを置き、ポ 一般的に移行スクリプトの生成は、データウ ェアハウスプロセスでは時間を要する作業で ある。しかし SAS/ WarehouseAdministratorソフ ップアップメニューから「データユーティリテ イ」→「オープン」を選択すると VIEWTABLE ウインドウに表示され、内容を確認できる。 トウェアを使用すれば、早く、安全に、柔軟で 5 .おわりに 信頼性のあるコード生成を行うことができる。 例えば「対話形式」を選択して「サブミット J ボタンをクリックすると、次のようなコードを 自動生成して処理を実行する。 タウェアハウス管理のための柔軟なフレーム /女**女****背骨骨骨骨骨*背骨骨 ****************j /*名前:プロダクト女/ ハ見出し:データのアクセスり ハ生成日 1 1 寺:2000年 6月 28 日 10時 54分*/ /背骨*****女**背骨骨骨********女****背骨台骨骨**/ 要約、プロセスエディット以外に、データウェ アハウスの構築、保守および開発を容易にする アハウスの構築に貢献できれば幸いである。 /***************背骨安安*女***背骨**背骨**女*/ /*名前:抽出*/ /*見出し:プロセスの実行常/ /常生成日時:2000年 6月 28日 10時 54分*/ /背骨骨*******台女台骨骨骨**台女台女台女台女台女台女台女台女/ PROC SQL; CREATE VIEW WORK.exヒprod AS SELECT PDB.PRODNUM ワークを提供している。それらには、ビジネス サブ、ジ、エクト定義、テーブルおよびカラム定義、 多くの機能がある。 SASシステムがデータウェ libname PDB "dwdemo/ー oltpn もlet syslast=PDB.PDB; SAS/ Wa r e h o u s eA d m i n i s t r a t o rソフトウェアは、 メタデータ中心の構成を通して、効率的なデー 6 . 参考文献 • SASWarehouseA d m i n i s t r a t o rRelease1 . 3 ユーザーズガイド F i r s tE d i t i o n • SUGI22P a p e r :SAS/ W a r e h o u s eA d m i n i s t r a t o r UsageandEnhancements, T e r r yLewis,SASI n s t i t u t eI n c .,Cary ,NC ‑46‑
日本 S A Sユ ー ザ ー 会 (SUG I-~) デ、ータマイニングの前の PROCFREQとPROCMEANS 京一-I;\:~ 株式会社 SASイ ン ス テ ィ チ ュ ー ト ジ ャ パ ン 営業本部 ソリューションプランニングセンター UsingPROCFREQ&PROCMEANSb e f o r eDataMining Azuma Kazunal'i S o l u t i o nP l a n n i n gC e n t el ' 、 S ASI n s t i t u t eJapanL t d ̲ 要日 本稿では、様々な S A Sのフcロシジャの中でもいろいろな場面で活用することができる i v ! E A N Sフ。口、ンジャと FREQ プロシジャについて説明を行なってして。詳細な内容などはマニュアル等を参照する必要があるが、簡単なサンプ A Sデータセットを 2つのフ。ロシジャを使って眺めることがで、 ルフoロクマラムを中心としていくので、この論文を読めば S きるようになるはずである。 キーワード: データウェアハウス MEANSプロシジャ FREQプロシジヤ MEANSプロシジャと FREQプロシジャの役割 第 1章 第 1節はじめに 現在、データウェアハウスの有効な利用方法として、自由検索、 OLAP に始まる多次元分析、統計解析、データ マイニング なとーのさまざまな手法・ツールが登場してきでいる。それではこのようにデータウェアハウスをはじめとす F る様々な IT ツールをエンドユーザは使いこなしているのであろうか?今までの経験上、必ずしもヒジネスユーザが これらのツールを使いこなし、問題解決を行なっているとは思えない。それは高度化し、多機能化したツールを使 し、こなしていないことや、データウェアハウスのデータを簡単に取り出せないような構造になっていることすらあるか らである。また、データウェアハウスに格納されている少数のデータを検索・抽出するのではなにほぼデータウェア v 1S などではかなり時聞が方、方、ってしまうとし、うこともありう ノ¥ウス全体を対象として傾向の分析をしようとすると、 RDBt る 。 また大容量データの分析とし、うと、必ずといってし w、ほとずデータマイニング としづ選択肢が出てくるが、データウェ アハウスに格納されている変数・項目の分布やカテゴリごとの件数・合計・平均値の確認を行なわずにいきなりデー タマイニングを行なうことはあまり得策ではないと考える。 ‑47一
SASシステムの中の多くのプロシジャの中で、も、 FREQプロシジャや MEANSプロシジャなどは簡単な記述でデー タの分布や集計などを行なうことができる。また、これらのプロシジャは高速に処理を行なうことがで、きるので、デー タウェアハウス上のデータに対する分析にかなりの効果を発揮する。 第 2節 デ ー タ ウ ェ ア ハ ウ ス と デ ー タ の 要 約 デ、ータウェアハウスを構築する場合に必ず必要となるのは、そのデータをどのように分析をして、何を導き出した し、かとし、うことである。データウェアハウスに格納される情報は詳細なデ、ータもあればある変数(年月日など)をキーと して要約されているものもある。この要約を適切に行なえなければ目的としてしも分析を行うこともできないであろう。 たとえば売上の傾向を分析するのに、商品別に分析をしたいのに中分類のカテゴリに要約されていたり、月別、季 節別に分析をしたいのに年度別などで要約してしまうと、必要な情報はすでに存在しないことになってしまう。よっ てこのデータは目的の分析には適していないデータとなってしまう。 良いデータウェアハウジング、とし、うものは、エンド、ユーザ、のために行なわれるもので、あり、エンド ユーザやヒ守ジネス ユーザの問題解決のために設計が行なわれるもので、分析ニーズに合わせた要約処理が行なわれているべきで ある。 このようなニーズに答えには、詳細データを必要なキ一項目によって要約を行なうか、多次元データベース (MDDB)を構築し公開することによって可能となっている。このようにしておけば、データウェアハウスの利用に関し て詳細レベルで保存されてしも場合よりもはるかに高速にデータの分析を行なうことが可能となってしもし、様々な 角度からデータを眺めることも可能となる。しかしこのようなスピード、アップのためのテクニックも、分析者の視点で設 計が行なわれていなければ意味がないとし、うことを理解する必要がある。 上記のようなデータウェアハウスの加工・要約処理には様々な方法があり、 SASを利用する場合は、 SQLや DATA ステップ、その他には SUMMARYプロシジャ、 FREQプロシジャ、 MEANSプロシジャ、 TABULATEプロシジャ、 MDDBプロシジャ等の PROCステップが存在している。これらのプロシジャはどのようなユーザで、も便利に使うことが できる。 これらのプロシジャは多くの部分で、同じような機能を提供している。たとえば SUMMARYフ。ロシジャは MEANSプ 口、ンジャの統計エンジンを利用していることなどがあげられる。ただし、重なっている機能があるからといっても一つ のフ。ロシジャだ けを利用すればよし、かとし、うと、そうし、うわけでもなく、役割など、に応じて必要なプロシジャの機能を 使い分けていくことが必須となる。 第 3節 論 文 の 目 的 本稿では、上記のようにデータウェアハウスを使って意思決定を行なったり、データウェアハウスの活用の為に SASプロシジャの利用を考えているエンドユーザを対象としている。それぞれ FREQプロシジャと MEANSプロシジ ヤをある小売居の販売デモデータから、サンプルプログラムを利用して各プロシジャの機能を紹介する。 FREQプロ シジャについては検定処理なども行なうことができるが、詳しくは rSAS/STAT ユーザーズガイド, V e r s i o n 6, F o u r t h E d i t i o n Jを参照していただきたい。 同じデータを活用し、サンプルプログ会ラムなどを多く載せている。現在、 SAS システムを利用してしもユーザがす ぐにでもサンプルプログラムを活用して、 SASデータセットの分析に活用できることを目的としている。 ただアウトプットは大量に出力されるので守掲載していない。また詳しい内容はサンプルデータなどは筆者である p n k a a @ jロl1. s a s . c o m )まで問い合わせを頂きたい。 東 一 成 (i サンプルて深!j用するデータセットの構造は以下の通り。 ‑48一
変数名 タイプ D A T E 数値 2 S H O P 数値 3 D E P T 文字 4 P R O D U C T 文字 5 A M O U N T 数値 草 第 2章 出力形式 ラベル 8 。 Y Y M M D D 1 0 . 年月 8 8 底舗 1 6 営業部 8 1 7 商口 口 口 8 2 5 長さ 位置 Y E N 1 0 . 売上高 FREQプ ロ シ ジ ャ の 利 用 例 第 1節 1次 元 の 度 数 表 最も基本的な処理は以下のようなものである。これはデータセットを指定したあとに TABLESステートメントで変数 PRODUCTを指定して 1次元の度集表を作成している。 サンプル p roc freq data=demo.sales; tables product; r u n ; アウトプットでは、何も指定しないと TABLESステートメントで指定した変数に対する F r e q u e n c y (度数)、 P e r c e n t (総度数に対する百分率)、 C u m u l a t i v e F r e q u e n c y(累積度数)、 C u m u l a t i v e P e r c e n t(累積百分率)の 4つが表示さ れている。 また TABLESステートメントに複数の変数名を記述することにより、指定した変数の複数の 1次元度数 表が出力される。 第 2節 2次 元 の 度 数 表 TABLESステートメントに複数の変数を指定してアスターリスク r * Jで区切ることにより、クロス集計を表示させる事 ができる。 サンプル proc freq data=demo.sales; tables shop 寧 dept; r u n ; アウトプットで、は、ひとつのセルの中に 4つの数値が並んでいる。上から各セルの度数、総度数に対するセル百 分率、各行の度数合計に対するセル百分率、各列の度数合計に対するセル百分率が出力されている。また欠損 値はこの集計表には含まれていないが、欠損値の度数は下に表示される。 第 3節 フ ォ ー マ ッ ト を 利 用 し た 度 数 表 プログラム proc format; value format a 0‑ 9 9 9 9 = ' 1 万円未満, 10000‑49999 , ニ 1 万円"" 5万円未満' 50000‑99999 , 二 5万円""1 0万円未満, 1 00000‑150000 , 二1 0万円以上'; proc freq data 二d emo.sales; format amount format̲a.; t a b le s amount ; r u n ; 4 9
上記のプログラムは FORMATプロシジャと併用をしている。変数 a m o u n tを FORMATを使って 4つのグループ に分かれた形式にし、 FREQプ口、ンジャの中で、利用している。 アウトプットには FORMATプロシジャで、指定したグ ルーフ。が出力される。この機能を利用すると売上高や年齢の 刻みといったものを、データ加工なしに自由に変化させることができるので、非常に便利である。 そのほかにも、フォーマットの利用方法もあるので、詳しくはマニュアル等を参考にしていただきたい。 第4節 表 示 を コ ン ト ロ ー ル す る 様々な変数の 2次元の度数分布などを行なって分析を進めていると、かなりの量のアウトプットとなってしまい、必 要のない数値などを表示させたくない場合も多くなる。このような場合には TABLESステートメントにオプションを設 定することにより、制御することができる。いろいろな制御が考えられるが、以下のようなものが代表的である。 • NOCOL...クロス集計表のセルに列百分率を表示しない • NOCUM...l次元度数表、一覧表形式の度数表に、累積度数および累積百分率を表示しない ・ 0 NOFREQ・..クロス集計表にセル度数を表示しない • NOPERCENT.ークロス集計表に百分率を表示しない • NOROW...クロス集計表のセルに行の百分率を表示しない。 以下がそのサンプルプログ、ラムとなっている。上記の 2節のサンプルプログ ラムに NOPERCENTを設定してみる。 サンプル p r o c freq d a t a = d e m o . s a l e s ; t a b l e ss h o p牢 d e p t / n o p e r c e n t ; r u n ; 上記のようにオプションの設定は I / jのあとに指定を行なう。 このようにして NOPERCENTオプションなと。を設定すると、うまく出力結果を調整することも可能となる。 その他の オプション等もいろいろと設定することが可能となってしもので、マニュアルを参照して試していただきたい。 第 3章 MEANSプ ロ シ ジ ャ の 利 用 例 第1 節 OUTPUTステートメントを利用しない場合 第1 項最も基本的なサンプル r o cmeans d a t a = d e m o . s a l e s ; サンプル p v a ra m o u n t ; r u n ; このサンプルプログ、ラムで、は、サンプルデータセットの変数名 a m o u n t (売上高)の算出処理を行なっている。 OUTPUTて1 土サンプルデータの件数( N )は 6 , 0 0 0件で、またそれぞれ平均、標準偏差、最小値、最大値を算出しア ウトプット画面に表示する。もっとも基本的な出力結果となっている。 第 2項 グ ル ー プ ご と の 処 理 l‑BYステートメントの利用 売上の集計を商品カテゴリごとに行なう場合には、グループ。処理を行なう場合のステートメントを利用することが可 能である。今回はその中でも BYステートメントを利用してみる。 5 0
サンプル p r o cm e a n sd a t a = d e m o . s a l e s ; 民主旦血旦; v a ra m o u n t ; r u n ; 特に入力されているデータを考えずに B Yステートメントを利用すると以下のようなエラーメッセージがログ、ウインド ウに表示されて、アウトプットを表示することができない。 ログ、ウインドウ E R R O R : データセット D E M O . S A L E Sは 昇 順 ソ ー ト さ れ て い ま せ ん . 現 在 の B Yグループ は 商 品 = 紳 士 衣 料 で 次 の BYグ ル ー プ は 商 品 = 食 料 で す . 上記の結果からもわかるように、 B Yステートメントを使ったグループ。処理の場合は、 BYステートメントで指定して しも変数でソートを行なっておく必要がある。 サンプル p r o cs o r td a t a二 d e m o . s a l e s ; byp r o d u c t ; p r o cm e a n sd a t a = d e m o . s a l e s ; byp r o d u c t ; v a ra m o u n t ; r u n ; このようにグループ処理を行ないたい変数 PRODUCT( 商品)を B Yステートメントにした SORTプロシジャを行な った後に MEANSプロシジャを行なうと結果を得ることがで、きる。 SORTプロシジャと併用することにより、商品カテゴリ Yステートメントを利用する方法は、処理が速いとしづ利点はあるが ごとの売上の統計量を算出することがてきる。 B 同時に次のような欠点も考えられる。 1 . 大容量のデータウェアハウスの場合で、もソート処理を行なわなければならない。 2 . カテゴリごとに出力結果が区切られて出てくるので、カテゴ、リが多くなってくるとアウトプットの量が増えてしま い、結果が見づ、らくなってしまう。 第 3項 グ ル ー プ ご と の 処 理 2‑CLASSステートメントの利用 第 2項と同じことを行なうが、今度は B Yステートメントではなく CLASSステートメントを利用してみる。 r o cm e a n sd a t a = d e m o . s a l e s ; サンプル p c la s sp r o d u ct ; v a ra m o u n t ; r u n ; CLASSステートメントに変数 PRODCT(商品名)を指定して MEANSプ口、ンジャを行なった。 CLASSステートメントを 利用すれば、データをグ ループ処理したい変数で事前にソートをする必要ない。またアウトプットの結果も CLASS ステートメントで指定したカテゴリ(水準)がリスト形式で出てくるので見た目もわかりやすくなっている。 ただし CLASSステートメントを利用する場合は、すべてのグ ループをメモリに保持する必要があるので、非常に水 Y変数を利用したほうが良い場合もある。 準の多い大容量データセットを分析する場合は B また CLASS変数を以下のとおり複数指定することができる。 r o cm e a n sd a t a = d e m o . s a l e s ; サンプル p ー 只 υ
司 刈 一 u 一 u +し一ふし 一 o ‑mm 盟凹 ︐ d 一a s r a 一 一 1 i a 一 V c 四 r u n ; 出力結果では CLASSステートメントで指定した順番で、入れ子上に処理結果が表示される。 第 4項 出 力 統 計 量 の 指 定 MEANS プロシジャでは PROC MEANS ステートメントで特に指定をしなければ、 N(件数)、 MEAN(平均値)、 STD( 標準偏差)、 MIN(最 ノj 、 値 ) 、 MAX(最大値)を算出するようになっているが、次のサンプルプログ、ラムではその内 容を変更してみる。 r o cmeans data 二d emo.salesn s u m ran~e s k e w n e s sk u r t o s i~; サンプル p c l a s sp r o d u c t ; v a ra m o u n t ; r u n ; このサンプルプログラムでは PROC MEANS ステートメントで N(件数)、 SUM(合計)、 RANGE(範囲)、 SKEWNESS(歪度)、 KURTOSIS(尖度)を指定している。これらの統計量が CLASSステートメントで指定した変数 のグ ループご、とに出力が行なわれる。 第 5項 ソー卜された出力結果一 ORDERオプションの利用 第 4項のようにグループごとの出力結果があるが、実際に利用する場合は度数が多い順番に並べなおして出力 したい場合があると考えられる。そのような場合には以下のような ORDERオプションを指定で、きる。 • DATA'一入力データセットの出現順 • EXTERNA L !FORMATTED.ーフォーマット変換された値の順 ・ ・ FREQ・‑・度数の降順 INTERNAL'・・フォーマット変換前の値の順 r o cmeans data=demo.sales o r d e r 三立盟 s u mm e a n ; プログラム p c l a s sp r o d u c t ; v a ra m o u n t ; r u n ; 上記の ORDERオプ、ンョンで、出力結果は、出現度数の多い順番に出力される。 第 6項 FORMATの 指 定 に よ る 出 力 結 果 の 制 御 FORMAT変換を行なうことにより、元のデータと違う切り口で集計することが可能となる。たとえば変数 DATE は rYYMMDD10.Jとしづ日付形式になっているが、これを曜日に変更して出力する場合は以下のとおりとなっている。 サンプル p r o cmeans d a t a = d e m o . s a l e s ; . d a t e w k 8 . ; f o r m a td a t ei c l a s sd a t e ; v a ra m o u n t ; r u n ; Fhu り lu
上記のように rjDATEWK8.Jとし、う日付型で出力すると、変数名 DATEの列が「月曜日 Jr 火曜日 jとし、うように変換 されて出力される。そのほかにも、ユーザ指定によるフォーマットの利用方法もあるので、マニュアル等を参考にし ていただきたい。 第 2節 OUTPUTス テ ー ト メ ン ト を 利 用 す る 場 合 第 1項 最 も 簡 単 な 要 約 デ ー タ の 書 き 出 し OUTPUTステートメントで=要約された出力データセット名を指定する。 r o cm e a n sd a t a 二d e m o . s a l e s ; サンプル p v a ra m o u n t ; o u t p u to u t = o u t l : r u n ; 出力されるデータセットは統計量を指定しないと、特殊変数 STAT̲に N,MIN,MAX,MEAN,STDの統計量が出 力される。また特殊変数̲FREQーは各分類レベルのオブ ザベーション数を表している。特殊変数 ̲TVPE̲はまたこの 後に説明を行なう。 第 2項 出 力 す る 統 計 量 を 指 定 す る 上記の第 1項の出力例で、は統計量を指定しなかったために、 5つの統計量が出力されているが、以下のように OUTPUTステートメントに指定することができる。今回は SUM(合計)のみを出力する。 r o cm e a n sd a t a = d e m o . s a l e s ; サンプル p v a ra m o u n t ; o u t p u to u tニo u t l盟主; r u n ; 複数の統計量を指定する場合は以下のようになっている。下記の例では合計 (SUM)を変数名 GOKEIとして、平 均 (MEAN)を変数名 HEIKINとして算出してしも。 サンプル p r o cm e a n sd a t a = d e m o . s a l e s ; v a ra m o u n t ; u t l sum=~okei m e a n = h e i k i r l ; o u t p u to u t二 o r u n ; 第 3項 CLASSステートメントを指定したデータセット出力 第 2工頁の統計量の指定に追加して、 CLASSステートメントを指定して、データセットの書き出しを行なってみる。 r o cm e a n sd a t a = d e m o . s a l e s ; サンプル p c l a s sp r o d u c t ; v a ra m o u n t ; o u t p u to u t = o u t ls u m二g o k e im e a n 二h e i k i n ; r u n ; U 内 ぺu ︑ 戸 アウトプットは CLASSステートメントで
して出力されている。 この際に注意するのは特殊変数ーTYPE̲ の部分である。出力データセットの 1オフ、ザベーション目にはーTYPE̲が 1 0 Jのもの、その次からは TYPEが 1 1 Jの2種類がある。このーTYPE̲の値が 1 0 Jの場合はどの CLASS変数でも分類 していないすべてのオブザベーションを利用している。この値が 1 1 Jの場合は CLASSステートメントで指定された PRODUCT別に統計量を出力していることになる。 CLASSステートメントで指定される変数が増えていけば、その分 だけーTYPEの値も増えていき、各変数の統計量と各変数の水準を組み合わせた統計量が表示されるようになる。 しかしながら、データワェアハワスなどから要約されたデータセットを作成する場合に、 CLASSステートメントで指 定された変数の組み合わせ全てを出力せずに、一TYPEの値が最大の値のオフずザ、べーションのみを指定するように するには NWAYオプションを指定する。 ; サンプル proc means data=demo.sales 盟主y class shop dept product; var amount; output out=outl sum=gokei mean=heikin; r u n ; 0 Jのものなどは出力されずに、 CLASSステートメントで指定さ NWAYオフ。ションを指定することにより、ーTYPE̲ が1 れた、 SHOP、DEPT、PRODUCTの各レベルの組み合わせられた結果が出力されている。 第 4章 まとめ 上記で説明してきた FREQプロシジャや MEANSプロシジャは DWト iを利用する上で非常に役に立つものである。 簡単なサンプルフ。ログ、ラムを載せているが、同様の処理を RDBを参照するための標準的な言語である SQLで行な おうとすると、かなり大変なフ。ログ ラミング が必要になってしまう。やはり SASプロシジャ、 DATAステップ、 SQLは利 用の場面に応じて使い分ける必要があるであろう。 FREQプロシジャも MEANSフ。ロシジャも非常に多くのオプションなどが存在しているが、これをすべて覚えるとし、う のは非常に大変であり、時聞がかかってしまうだろう。ただ そこのオプ、ンョンを覚えることで、データワェアハワスの 活用を効率的に行なうことができるであろう。 しかしながらすべてをすぐに覚える必要があるわけではなく、最低限必要な機能を学びあとは実際の分析業務の I Sを 中で徐々に利用を拡大してし、くことが重要であろう。またこれらのプロシジャを通じて今後の利便性の為に、 E 初めとする OLAPのフ。ロダ クトや MDDBの理解を助けるはずである。 MEANSプロシジャと FREQプロシジャというこれらのプロシジャは、単純な平均の算出と度数の算出以上のより高 度な機能をユーザに与えてくれるものである 参照文献 SASプロシジャリファレンス Version6F i r s tEdition SUGI25論文より 1 . rpROCFREQ:lt 'sMoreThanCountsJ RichardSeverino, 1 、 heQueen'sMedicalCenter , Honolulu, HI 2 . t hanj u s . tyouraverageprocedurcJ iPROCMEANS:More. .Welbrock, StrategiclnformationSystem, ln c ., Philadelphia, PA PeterR A ι τ にU
口頭論文発表 医薬
日本 SASユーザー会 (SUG1‑0) ダブルプログラミングによる統計解析の品質管理 0菅 波 秀 規 益 田 隆 史 臨床解析部 興和株式会社 Q u a l i t yC o n t r o lf o rS t a t i s t i c a lAn a l y s i sbyDoubleProgramming H i d e k iSuganami T a k a s h iMasuda KowaC o ., L t d . B i o s t a t i s t i c sandDataManagementD e p t ., 要旨 近年、電子データ処理に関する品質管理が注目されている。今回の検討では、臨床試験データの統 計解析結果に対する品質管理に、独立 2系統によって解析を実施し、結果を比較する方法を採用した (ダブルプログラミングを基礎とする品質管理)。結果の比較は、読み合わせによる方法と COMPARE プロシジャによる方法を採用した。 6つの臨床試験について解析業務を運用した結果、角平析結果の比 較を通過したエラー率は 0 . 1 5 %( 6 / 3 8 6 7 p a g e ) であったo 結果の比較によって検出されなかったエ ラーは、解析に関する指示文書の記載が不十分であることが一因で、あった。本稿では、実際の臨床試 験データに対して運用した品質管理の結果について報告し、フログラミングと解析結果比較における 注意点について例示する。 キーワード: 品質管理、バリデーション、ダブルプログラミング、 COMPAREプロシジヤ 1 . はじめに 新薬製造承認を取得することを目的とした臨床試験(治験)では、試験データの取り扱いの各段階 において品質管理を実施する事が要求されており、特に電子データ処理における品質管理については 近年注目されているところである。厳密な品質管理を行うためには多くのリソースが必要となるが、 統計f 坪析業務全体に割り当てられるリソースは限られていることから、効率良く品質管理を実施する 必要がある。品質管理に費やされるリソースを軽減するためには、バリデーションのとれたプログラ 活E 床試験の初期段階において、将来発生するデータの形式とそ ムを利用することが考えられるが、 q の範囲を予測することは困難であること、@沼ASのメジャーバージョンアッフ。が迫っていたことか ら、解析プログラムに対してバリデーションを行う方法を選択しなかった。我々はバリデーションの 代案として、対象としている解4 斤結果のみを保証する方法として、ダブルプログラミングを基礎とし た品質管理を選択した。 本稿では、実際の│臨床試験データに対し、タブルプログラミンクeによる統計角材斤の品質管理を行っ た結果を示し、プログラミンク守における注意点と解析結果比較における注意点について例示する。 2 . 方法 6つの臨床試験データに対して検討を行った。それぞれの試験の概要を表 lに示す。今回の検討は 57‑
すべて帳票形式でありグラフは含んでいない。また、このうち 5つの臨床試験は同ーの化合物である。 すべての解析は 1999年 "'2000年の問に行われた。 表 l 検討した臨床試験 試験 A B C D E F 計 群数 3 2 3 3 総症例数出力ページ数 34 376 35 912 240 5 0 1 317 1049 36 798 42 2 3 1 704 3867 今回の検討に関わったプログラマは合計 6人である。角材斤業務システムは運用する度に変更が加え られたため、最終的に運用された業務システムを示す(図 1)。なお、①一つのデータベース(以下 回と略す)と角材斤に使用する資料を共通とし、②独立二系統によって解析を実施し、③結果を比較 するという部分は変更されていない。ただし、 2試験については、角平析計画書作成者がプログラマを 兼任したため、完全な独立性は保たれなかった。 図 1 最終的な角平析業務システム 最終的に使用した解析業務システム。共通のデータベースからスタ ートし、制吉報告書へ至るまでの中間を完全に独立な二系統によっ て実施した。 ①IDB は固定されたものを使用した。⑫別府間l書、 III 力計画書、 fgil~析データセット(以下データ セットを DSと略す)定義書、解析結果 DS定義告を共通資料とした。③q i t t 斤DS作成プログラムは 二系統独立に作成した。フログラミングは DB固定前から、入力データを使用して行った。 ‑58一
共通資料作成者に関する問い合わせは白 1
I
1に行えることとしたが、独立したプログラマ同士の問い
合わせは行わなかった。制附プロクeラムは二系統独立に f
1
て成した o 一系統のみ症例取り扱い基準を
反映する前の DSと反映後の DSを COMPARE プロシジャによって比較し、除外したデータの山力
を品質管理担当者へ提出した。⑤品質管理担当者は除外されたデータの根拠が症例取り扱いもしくは
症例データから読み取れることを確認した。⑥出力プログラムは二系統独立に作成した。 O
ID
それぞ
れの SAS データセットを COMPARE プロシジャによって比較した。⑨解析結果が出力された
EXCELs
h
e
e
tは VBAによって作成された比較フ。ロク ラムによって比較した。⑦ ⑨の段階で不一
致が発見された場合には、それぞれの段附を不一致がなくなるまで繰り返した。⑪集計解析結果一覧
a
.表に示されている症例数と集計表から読み取る事ができる;J;~本統計量(比率など)を手計算により確
認した。この段階で発見されたエラーを 結果の比較によって検出されなかったエラー"とした。
解析計画書には、 jlÎ~伊l取り扱い反映方法、解析とのデータ取り扱い(計算項目の丸めのタイミング)
などプログラマ向けの記載も行った。 i
f
J
r
M
J
i
‑
r
l
f・I
l
J
I
l
書のページ、数は平均 6
4
.
3(
m
i
n
:
5
3
"
‑
'
m
a
x
:7
5
) であっ
た。 il\ 力計画書は、1-1ミ~iìl解析結果一覧表ーとして作成される|阪崇例を例示した。 例示には、埋め込まれ
る数値のフォーマットを 9によって示した(例えは連続日であり小数点を伴う場合には 9
.
9、計数値
でf
i
E
数のみの場合には 9、負の値をとりうる場合には ‑9.9など)。出力計画書のページ数は 8
6
.
0
(
m
i
n
:
4
2
"
‑
'
m
a
x
:1
3
8
) で‑あった。
3
. 結果と考察
3
.
1
. 検出されたエラーと検出されなかったエラー
1
1
1
:
析結果の比較によって検出されたエラー数は特定しなかった(一つのプログラムミスが複数の帳
票に影響を及ぼすことがあり、多数のエラーが検 出されたため)。不一致がなくなるまでのクリーニ
ングサイクルは平均 2
.
3巨1
(
1
"
‑
'
3回)であった。ダブルフロミングによる結果の比較を通過したエラー
率は 0
.15%であった (
6
/
3
8
6
7
p
a
g
e:項目数は多数におよぶため特定していなしヨ)。
3
.
2
. 解析結果の比較によって検出されたエラー
検出されたエラーの代表的なものは、症例取り扱い反映エラー、条件付解析の条件判断エラー、解
析J
ら
i
:
l
i
選択エラー(角件斤計画書指定外の角件斤方法の採用)なと であった。
検i
L¥されたエラーの内、プログラミング上注意すべきもの(①変化量を用いた順位検定告凌数の丸
め③重複データ処理)について以下に具休例を示す。
3
.
2
.
1
. 変化量を用いた順位検定
!日値(実数)と後値(尖数)の差を DATAステップで計算し変化量とする場合、 SAS内部では 2
進数の i
i
i
y
算を行っているため、 i
寅算結果を 10進数で表現する際に桁落ち (
u
n
d
e
rf
l
o
w
)が発生してし
まう。これは SAS に限らずコンビュータによる数値演算では1;~ に付きまとう 111弘主である。二つの数
値の泣いは、十分に小数点以下を表示することにより PRINTフロシジャによって確認できる。数値
)。
としてJiiJ等とみなされないため、タイデータとして処理されず、政った結果がレポー卜される(図 2
この問題は DATAステップにおいて RO
Ui¥'D関数を使川して数値を丸めることによって回避でき
る。またUNI¥冶RIATE プロシジャでは、この問題に対処するために ROUNDo
p
t
i
o
nが用意されて
いる。
円川d
td
丸め前 W iI c o x o n2 ‑ S a m p l eT e s t( N o r m a lA p p r o x i m a t i o n ) ( w it hC o n ti n ui t yC o r r e c ti o no f. 5 ) S= 1 3 4 0 8 .0 Z= 一1 . 9 5 5 2 9 P r o b>[ Z [ = Q0 5 0 5 . 0 5 1 7 T ‑ T e s tA p p r o x .S i g n i f i c a n c e=0 K r u s k a l ‑ W a l li sT e s t( C h i ‑ S q u a r eA p p r o x i m a t i o n ) .8 2 6 8 D F= 1 P r o b>C H I S Q=0 . 0 5 0 4 C H I S Q= 3 丸め後 W iI c o x o n2 ‑ S a m p l eT e s t( N o r m a lA p p r o x i m a t i o n ) ( w i t hC o n t i n u i t yC o r r e c t i o no f. 5 ) S= 1 3 4 0 5 .5 Zニ ー 1 . 9 5 9 9 8 Prob> [ Z [ = Q0 5 0 0 . 0 5 1 2 T ‑ T e s tA p p r o x .S i g n i f i c a n c eニ 0 K r u s k a l ‑ W a l li sT e s t( C h i ‑ S q u a r eA p p r o x i m a t i o n ) . 8 4 5 2 D F= 1 P r o b>C H I S Q=0 . 0 4 9 9 C H I S Q= 3 図 2 桁落ちの発生したデータに対する NPAR1WAYプロシジャの出力 桁落ちの発生したデータに対する検定結果が、丸めの有無によって僅かに異なる。この場合、丸め後に 行った解析結果が正しい。 3. 2 . 2 . 変数の丸め RINI'プロシジャにおいて FORMATを指定することによって表示桁を制御することが SASでは P できる。しかし、 FORMATによる表示桁の指定で、は桁落ちが考慮されないため、目的とした四捨五 入にならないことがある。原因は 3 . 2 . 1と同様に桁落ちであるため DATAステップにおいて ROUND 関数を使用することにより回避できる。読み合わせによって解析結果を比較する場合には注意を要す る 。 印 刷A Tによる丸め 0 . 0 4 0 . 0 5 Q . 0 2 0 . 0 6 間U N Dによる丸め 0 . 0 4 0 . 0 5 0 . 0 3 0 . 0 6 四捨五入前 0 . 0 3 5 4 1 6 6 6 6 6 6 6 6 6 6 6 0 0 て 0 4 9 9 9 9 9 9 9 9 9 9 9 9 9 9 4 0 n024999999999999900 0 . 0 6 4 2 8 5 7 1 4 2 8 5 7 1 0 0 0 0 図 3 桁落ちの発生したデータの表示 実数値を用いた演算の結果を S A Sデータセットから P R [ N Tプロシジャによって 出力した例。桁落ちの発生したデータの表示が出力の段階において FORMATを使 用する場合と DATAステップにおいて ROUNDを使用する場合とで、値がことな る。この場合は ROUNDを使用する方が正しい。 3. 2. 3 . 重複データ処理 今回検出された重複処理の問題は SAS特有の問題ではないが、データの質を知る必要がある例と して挙げておく。代表的な副作用用語集(慣用語は 6桁のコードで表される)を利用して有害事象を 集計する際に、下 2桁を切り捨てた上 4桁を基本語として利用することがある。慣用語では辞書によ f lJ.求減少など)が、皇訪主語では自他覚症状の用語 って臨床検査の項目名が割りあたっている項目(赤 r (貧血)となってしまうことがある。自他覚症状と臨床検査項目を分けて集計する際に重複処理を行 )。 うタイミングを誤った場合、有害事象の件数が減少してしまう(図 4 ‑60一
コード 0869 086904 0 8 0 1 080104 080106 名称 めまい 立ちくらみ 貧血 赤血球減少 ヘマトクリット値減少 図 4 重複処理のタイミンクマによって誤まりが生じる例 上段:重複処理( A )を先に実行してしまったため、白他党症状と臨床検査項目を分離する段階(B)において、 臨床検査項目の貧血が消滅してしまった。下段・先に分離を行ったため、適切な集計が実施された。 3 . 3 . 解析結果の比較によって検出されたエラー以外の項目 解析としては誤りではないが、指示文書での記載が十分でないため使用するフ。ロシジャが特定でき ず、結果の比較において不一致であることが検出されてたケースについて以下に示す。本検討では① 等分散を仮定しない t検定、②M ULTTESTプロシジャを用いた並べかえ検定の二点が検出された。 3 . 3 . 1 . 等分散を仮定しな~\t検定 SASでは、等分散を仮定しない t検定を 3つのプロシジャによって実行することができる。 σTEST , G日, I tM l X E D )。このうち TIESTフロシジャは自由度が小数点以下を伴う場合には、 p値 を計算する際に、整数自由度の t 分布に対する線形補完法を用いており、小数点自由度に基づく t 分 布から直接 p値を計算する G日 dと l ¥ I I I X E Dプロシジャの結果と一致しない(図 5)。ダブルプログ ラミンク守によって結果の比較を行う場合には、解析の手法に任意性が生じないように、使用するプロ シジャは指示文書中に指定しておくべきである。 なお、 SASv e r .8 . 1では、 γTESTプロシジャにおいても、正確な小数点自由度から P値を計算す m る方法が採用され、 t検定に関する問題は解 されている。 GLM 工E塗工 G e n e r a lL i n e a r恥 d e l s プロシジャ G N M e a nS t dD e vS t dE r r o rV a r i a n c e s T D F P r o b > I T I W e l c h 'sA N O V Af o rY S o u r c e D F FV a l u e P r>F 1 5 0 . 7 9 40 . 4 8 9 2 70 . 2 1 8 8 U n e q u a l ‑ 2 . 1 8 8 5 6 . 40 . 0 6 8 7 G . 10 0 0 0 4 .7 8 9 7 O .0 6 8 5 262 .1 4 0. 14 0 7 3 7 . O5 7 4 6 E q u aI ‑ 2 .0 2 2 8 . 90 O .0 7 3 8 ,F ' =8 . 2 7D F=( 5,4 )P r o b > F '=0 . 0 6 2 1 E r r o r 6 . 3 8 7 5 F o rH O :V a r i a n c e sa r ee q u al 図 5 使用するプロシジャによって結果が異なる例 等分散を仮定しない t検定の実行を GI ぷ4プロシジャによって場合と T τ百STプロシジャによった場合とで、結果が微妙に異 なる。原因は小説,g自由主の t分布の扱いによる。 3 . 3 . 2 . MULTIEST プロシジャを用いた並び替え検定 MU 工γTESTプロシジャを使用して、標本再t l ! 1出による並べかえ検定を行う場合、解析 D Sのソ PO よ ー
ート! J 闘によって結果が誕なる(図 6) MUL ' I T ESTフロシジャがど、のように並べかえを行っている 0 かについての詳細は不明であるが、おそらく並べかえる前のデータセットについて、乱数を割り付け て並べかえを行っていると予測される。このため並べかえる前のデータセットの並び方によって並べ かえ後のデータセットが異なる事が原因であろう。標本再抽出前のテ、ータセットの並び順によって再 ' I T ESTOUTSAMPo p t i o nによって確認した。 抽出後のデータセットの並び方が変わることは MUL COMPARE プロシジ、ャによって結果の比較を行う場合には、標本再抽出による並べかえ検定を行 う前のソート順を特定しなければならない。 │有効→無効の[I l ! I i::SORT M U LT T E S TP R O C E D U R E T e s tl o rd i s c r e t ev a r i a b [ e s : l ‑ s c o r ea p p r o x i m a t i o nu s e d : C o n t i n u it yc o r r e c t i o n : T a i[ sl o rd i s c r e t et e s t s : S t r a t aa d i u s t m e n t ? P ‑ v a [ u ea d i u s t m e n t s : 1 resamp[es: N u m b e r0 S e e d : C o n t r a s t L 1NEAR MS A T U I │無効→有効の l 頃にSORT M U LT T E S TP R O C E D U R E T e s tl o rd i s c r e t ev a r i a b l e s・ l ‑ s c o r ea p p r o xi m at i o nu s e d : C o n t i n u i t yc o r r e c t i o n : T a i l sl o rd i s c r e t et e s t s : S t r a t aa d i u s t m e n t ? P ‑ v a [ u ea d i u s t m e n t s : N u m b e r0 1r e s a m p [ e s : S e e d・ C o c h r a n ‑ A r m i t a g e E v e r y w h e r e 日 T w o ‑ t a i[ e d N o P e r m u t a t i o n 1 0 0 0 0 9 9 1 1 1 7 M U LT T E S TC O E F F[ C[ E N T S C [a s s 1 ‑ 1 ‑ 2 1 0 0 0 0 9 9 1 1 1 7 C[ a s s C o n t r a s t L 1N E A R MS A T U 1 ‑ 1 ‑ 2 M U LT T E S TT A B L E S C[ a s s 1 2 V a r i a b [ e S t a t i s t i c Y C o u nt 3 .0 0 N e 11 唱 3007 0 0 6 1・3 06 1 3 q 守 20 00 03 3 4 0ω3 5 e d a 1 1 00 00 o0 30 0 1u l c p u t t s n ρU 13+ I ー c an u r t e s co Np e h a r a uu'uva R a wp 0 . 0 1 0 2 O .0 9 5 4 C o c h r a n ‑ A r m it a g e E v e r y w h e r e 0 T w o ‑ t a i l e d N o P e r m u t a t i o n M U LT T E S TC O E F F[ C[ E N T S M U LT T E S TT A B L E S C o n t r a s t L 1NEAR MS A T U I P e r c e n t P e r mp L包虫 C o n t r a s t L [ N E A R M ̲ S A T U 色立.QQ 3 0 .0 0 1 0 . 0 0 4 .0 0 3 0 .0 0 1 3 . 3 3 3 1 1 .0 0 3 0 .0 0 3 6 . 6 7 R a wp P e r mp 0 . 0 1 0 2 O .0 9 5 4 L旦M L立堕 図 6 MULTIESTプロシジャの結果が異なる場合 解析データセットのソート JI!~ によって、結果が微妙に異なる。いづれも解析手法としては正しい。 卜分なシミュレ ーション回数を実施することで表示上の P値は一致するが、 CO MP,組E フロシジャによる比較を行う場合には、 ソート[ I J 員を特定する必要がある。 3. 4 . 解析結果の比較によって検出されなかったエラー 解析結果の比較を通過したエラーはプログラマの単純なプログラミングミスだけなく、他の担当者 (D紛らわしい変数命名法、②共通資料の記載不備が重なったものであった。以下に比較 の配慮不足 C を通過したエラーの具体例を示す。 3. 4. 1 . 変数取得ミス 変数取得ミスが発生した項目は一つであった。ある臨床試験データの角科斤において家族性疾患を集 計することが計画されていた。この 1寺、データベースでの変数名は、家族性疾患を格納する変数とし 品 但LY"が定義されていた。このた て DIAG" C診断名に由来)、家族歴を格納する変数として F め両プログラマともテ、ータセット内容を眺めた時に F 品lILY"を家族性疾患と判断してしまった。 今回はエラーとして検出されなかったが、他にも紛らわしい名称の変数は複数存在する。これは SAS テ、ータセットで許容された変数名長が 8文字に制限されているためであるが、この 8文字制限は SASve 工 8 . 1 において解消されるため、明瞭な変数命名が可能となり、変数取得ミスによるエラ一発生は減少する 6 2 ←
ことが期待できる。 3. 4. 2 . 変数取り扱いミス 変数の取り扱いミスが発生した項目は一つで、あった。特定の変数群について、ほとんどが上昇傾向 に討:目した角件斤を行うところを、 l変数のみ下降傾向に注目した解析を行う必要があった。この変数 を他と同様のマクロに流し込み、 ヒ:?t~{l},iI i Jに注目した解析を行ってしまった。 当時の解析計画書では、新七率を計算することは定義されていたが、悪化とは変数がどちらの方向 に変動した場合のことを指すのかを定義していなかった。フロクすラマが変数の性質について調べてフ。 ログラミングすることが多かったことから、悪化率を定義するという概念に欠けていた。このミスは 指示文書への記載が不一│ー分であったことと、プログラマの思い込みによるプログラミングが原因であ る。指示文書に必要事項を記載すること、任意性のある表現は問い合わせを行うことによって対応可 能であると考えた。 4 . 最後に 今回の検討では、結果の比較によって検出されなかったエラーは 0.15%程度であることが示された。 今回検出で、きなかったエラーは指示文告の記載を改善することによって回避可能であることから、ダ ブルプログラミングを基礎とする品質管理は、受け入れ可能な品質の fq1~析結果を効率的に作成するこ とのできる方法であると考える。 解析結果の比較を読み合わせによる場合には、解析結果の量が増えるに従い読み合わせに必要なリ ソースが増大する。また読み合わせを繰り返す場合には、疲労によるエラー検出力の低下も考慮しな ければならない。今回の検討では、 COMPAREフロシジ、ヤを利用することによってこの問題を解消 した。 今回検討した品質管理方法は、①詳細!な指示文書が準備されるため、一系統を外部に委託し、総解 析1 1 寺問を短縮することが可能であること、@氾OMPAREによる結果の比較に時間を要しないことか ら時間的効率の高い方法であると考えられる。 また、①7 下細な指示文書が作成されるため、後に角材斤内容を確認する必要が生じた場合に、容易に 解析内容を確認することができること、 oヨASデータセットとして解析結果を保持しているため、 DBに変更が生じた際に、 COMPAREプロシジャによって、影響のある解析結果を特定することが 可能であることからも有用である。同時に COMPAREプロシジャの / U力を記録として添付すること によって変更確認の時期も特定され、変更点も明瞭に記録することができる。 検出されたエラー数はプログラマの質を表していると考えられるため、検出されたエラーが予想よりも 多い場合には、系統的エラーが発生していないか確認するほうが良い。 なお、今回の検討にl 探して、データセットの加工がなされるステップでは、プログラマ自身が加工 前後のデータセットを見比べる事による、自主点検を行っているため、系統的に点検記録を残すこと ができれば品質保証の資料となる(今回の検討では l試験を除いて記録していなし】)。 今回の検討では、最終的な集~jl1qll沖肺古来一覧表を作成する部分において SAS 以外のアプリケーション を利用した。このためプログラマは SAS以外のアプリケーションを習得する必要があった。しかし、 SAS 日 1・ 8 . 1では ODS(OutputD e l i v e l YS y s t e m )が完全に利用可能となったことによる、百四ιを始めとした 高品質のレポート作成が可能となることが則待できる。この拡張により、プログラマは SASのみを習得 すれば良いということになるかもしれない。 5 . 参考文献 1 )i ' i川敏仁等訳、「クリニカル・データマネジメント」、サイエンテイスト社、 1 9 9 8 6 3
2 ) 山橋愛子、 1年生の日で見直す SASシステムーSASシステムのプログラミングは難しい?ー、日本 SAS ユーザー会論文集、 1 9 9 7, 3 4 1・354 COMPUTERSYSTEMVALID~官 ON:VALUEADDED 3 )T品品在ALAD.andWOODRUM, ACTMTIESMEETINGREGULATORYIMPERATIVES, DrugI n f o r m a t i o nJo r n a l, 3 2, 9 4 1・ 945, 1 9 9 8 ‑64一
日本 SASユ ー ザ ー 会 (SUG1‑0) 投与前値を共変量とした線形混合モデル 高橋行雄 日本口シュ株式会社 医薬開発本部 MixedModelw i t hB a s e l i n ea sC o v a r i a t e Y u k i oT a k a h a s h i PharmaDevelopmentN i p p o nRocheK . K . 要 旨 MIXED フ。口シジ、ヤを適切に使うためには、固定効果と変量効果の知識、および 実験のランダム化に起因する実験データの誤差構造の知識が必要である。経時的な実験 データを検証的に解析する場合に、投与前値を共変量とし、幾つかの測定時点を繰返し 測定と見なした線形混合モデルの応用範囲は広い。本報告では、非臨床薬理試験で頻繁 に行われている逐次増量による実験データを例にし、実験の手順に関連して生ずるラン ダム化の手)11員、それに伴い発生する誤差を変量効果として交互作用の作り方の関する解 説をし、さらに、用量群を計量値として扱うランダム係数モデルについての基礎的な考 え方を示す。 キーワード SASfMIXED、投与前値、共変量、線形混合モデル、逐次増量試験 1.はじめに MIXED プロシジャの豊富なオプションにより、非臨床、および臨床薬理実験から生ずる様々な データ構造を持つ経時データの解析が、手軽に実施できるようになったことは喜ばしいことであ る。しかしながら、その解析方法は一筋縄ではゆかない。 MIXED フロシジャで探索的な解析を楽 しむだけならば気楽なのであるが、実験データを検証的に解析したいと思う場合には、経時デー タのままでの解析は、検定の多重性の問題が生じがちである。この問題を避けるために、投与前 値を共変量とし、幾つかの測定時点を繰返し測定と見なした線形混合モデルの応用範囲は広く、 検証的な統計解析法として使いやすい。 MIXED プロシジャを適切に使うためには、固定効果と変量効果の知識、および実験のランダム 化に起因する誤差構造の知識が必要である。本報告では、非臨床薬理試験で頻繁に行われている 逐次増量による実験データを例にし、幾つかの題について解析事例を示す。 2 .逐次増量による薬理試験 心不全ブタにおける A 薬と B 薬の降圧効果を持続点滴増量法による用量反応を比較するのが実 験目的である。実験は、心不全ブタ 1 8匹を溶媒、 A 薬、および B 薬に群分けをし、持続点滴増量 0分間は 1m g / k g / m i nを投与し 1 5分目と 3 0分に血圧を測定する。次 法により投与する。始めの 3 の3 0分間は 3m g l k g / r n i nを投与し 4 5分目と 6 0分に血圧を測定し、更に 1 0r n g l k g / r n i nに増量し、 7 5分と 9 0分に血圧を測定する。投与終了後の 3 0分間、投与開始後 1 0 5分と 1 2 0分にも血圧の測 65‑
定を行う。血圧の下降は、これまでの実験結果より 15 分自には定常となることが経験的に知られ ているとしよう。さらに、持ち越し効果は、投与量を 3 倍に増量した場合には、その効果に比べ て相対的に小さく誤差程度と見なせるとしよう。時点聞の相関は、 0 . 8前後で、複合対称 CCompoundSymmetry) であることも知られていたとしよう。 得られた経時データを表 iに、平均値の推移を図 lに示す。 A 薬は、 Img/kg/min, 3mg/kg/min まで用量の増加を反映して血圧の下降しているが、 10 mg /kglmin では、更なる下降には陰りが見 えているようである。 B 薬は、 10 mg/kg/min からはっきりとした下降が観察されている。投与後 30分間での血圧の戻りは、 A 薬では戻りが遅いが、 B 薬では、血圧が低下している時間が A 薬に 比べ短いこと、血圧の絶対値が高いことを無視すれば、血圧の戻りが速やかである。溶媒群は、 ほぼ一定の血圧で推移している。 表 l 心不全ブタに対する血圧下降作用 1 5分 。分 処i i f t 個体 番号 投与前 1 1 0 1 0 0 1 0 7 9 7 1 0 8 8 7 1 0 8 9 9 1 1 7 1 1 2 11 2 9 5 1 2 2 1 0 7 9 7 1 0 0 1 1 2 9 1 溶媒 2 3 4 5 6 7 8 9 1 0 A薬 I I 1 2 1 3 1 4 1 5 1 6 B薬 1 8 I30分 d 投与 i Img/kg/min 投与量 3mg/kg/min 1 0 7 1 0 0 1 0 8 9 7 1 0 8 1 0 0 1 0 7 9 7 1 0 5 8 6 1 0 0 9 3 1 1 3 1 0 2 1 0 0 9 1 1 1 7 1 0 8 9 8 1 0 2 1 0 0 8 7 10~ 8 7 1 0 5 9 5 1 1 6 1 0 6 I1 2 9 3 1 2 5 1 0 5 9 8 1 0 0 1 0 9 9 0 1 0 5 1 0 0 1 0 8 1 0 0 1 0 5 9 0 1 0 5 9 3 1 1 6 1 0 6 1 1 0 9 3 1 2 5 1 1 0 1 0 0 9 8 1 0 0 8 8 血圧 (mmHg) I60分 4 5分 7 5分 I90分 1 0m g / k g / min 1 0 7 1 1 0 1 0 0 1 0 2 1 0 6 1 0 6 9 7 1 0 0 1 0 5 1 0 6 8 5 8 6 1 0 0 1 0 3 9 2 9 1 1 0 5 1 0 4 9 9 1 0 0 1 0 0 9 6 8 8 8 5 1 1 5 1 2 5 1 0 6 1 1 0 9 0 8 8 9 . 1 9 3 1 0 3 11 0 8 3 8 2 1 0 5 1 0 2 1 0 6 9 8 1 0 8 8 8 1 0 0 9 0 1 1 1 1 0 2 1 0 0 8 8 1 2 0 1 0 8 9 9 9 8 1 0 9 8 5 1 0 5分 I120分 投与なし 投与iIl: 1 1 0 1 0 4 1 0 3 1 0 0 1 0 8 8 6 9 9 9 2 1 0 5 1 0 0 9 9 8 7 1 3 0 1 1 0 9 5 9 8 I1 5 8 5 1 1 5 1 0 3 1 0 5 1 0 0 1 0 8 8 7 1 0 6 9 4 1 0 0 1 0 0 9 9 8 7 1 2 8 1 0 3 1 0 2 1 0 0 1 1 2 9 0 1 1 0 9 d . . ; r ‑ ' ‑ " J ‑ . ̲ . ー . ' ・さ. L h1 0 5 z E m山ρLndnu f j fィ / 1 ~r---- I-一 γ/ 弘\r-ププ「 Y1 0 0 9 5 1 0m g / k g / mi n 3m g / k g / mi n v V ¥ "v v v v v v v v v v¥'Vv v Im g / k g / mi n ¥ ' v v ¥ ' v v v v v v v v v v v ¥ ' v ¥ ' v ¥ ' v v v v v v v v v ¥ ' v v 、 一t ‑ ‑ ‑ ‑ ‑ ‑ ‑ t ‑ ‑ ‑ ‑ ‑ ‑ ‑ t VVVVVVV¥'¥'VV¥'VVVV¥'VVV¥'VV¥'VVVVVVV¥'VVV , ¥¥ ' Y Y V Y Y ¥ ' ¥ '¥ ' V V ー t ‑ ‑ ‑ ‑ ‑ ‑ ‑ t ‑ ‑ ‑ ‑ ‑ ‑ ‑ t ‑ ‑ ‑ ‑ ‑ ‑ ‑ t ‑ ‑ o 1 5 3 0 . 1 5 戸 ヤ t ‑ ‑ ‑ ‑ ‑ ‑ ‑ t 6 0 7 5 9 0 1 0 5 1 2 0 T 図 1:心不全ブタに対する血圧下降作用、平均値 ← 66‑ I 対照群 2 :A 薬. 3 :B薬
3 . 解析モデル 探索的な解析 素朴な経時データの解析を適用するとすれば、溶媒群、 A 薬群、および B 薬群の 3群問に o分 から 1 2 0分の 9時点問に経時変化パターンに違いがあるかを検定することになる。グラフから、 投与前値に群問で平均値の差があるようなので、投与前からの差あるいは比を間々の個体ごとに 計算して時間ごとに平均値を比較することも考えられる。あるいは、投与前値を共変量とし、各 時点ごとに共分散分析を行うことも考えられる。持続投与 1 5 分以後には血圧が定常になったと見 なすことにするならば、 1 5分目と 30分自の平均値に対して投与前値を共変量とした共分散分析を 行うことも考えられる。これらの解析方針は、いずれにしても生物学的な評価を伴わない探索的 な統計解析と見なさざるを得ない。 検証的な解析 この実験で何らかの結論を出すための検証的な実験としたいのであるならば、実験前に統計解 析の計画を立てなければならない。実験の主たる目的が何であるかが分からないと適切な解析計 画は立てられない。事後的ではあるが、実験の主たる目的を示す。 B 薬を標準薬(陽性対象)と し、新規化合物 A 薬の効果が持続点滴 1 0m g / k g / m i nで効果が得られることを、溶媒群との差が統 計的にあることをもって証明したいとしよう。また、生物学的な判定基準として、溶媒群に対し て平均値が 10%以上減少し、かつ、溶媒群との差の 90%信頼区間が 10%ライン以下であることと しよう。解析モデルは、投与前値を共変量、繰返し測定を含む線形混合モデルが適当である。 血圧=切片+投与前値+薬剤群+誤差(個体 ID)+誤差(繰返し測定) (モテずル 1 ) 用量反応関係:~副次的解析 副次的に、 A 薬と B 薬の用量反応の形状を比較したいとしよう。 投与前値を共変量、 個体 ID、個体 IDX用量群を変量効果、 薬剤群、用量群、薬剤群×用量群を固定効果 とする投与前値を共変量、繰返し測定を含む線形混合モデルより、間体問の誤差を排除し用量反 応関係を高精度で示すことができる。線形混合モデルは、変量効果を含む広汎な実験データの解 析に応用できるのであるが、実験の手順に関連して交互作用を変量効果として指定する必要があ り、実験のランダム化、複数の誤差構造に対する正確な認識なしには誤用の危険性が付きまと う。そのためには、実際の実験データを用いた丁寧な解説が必要であり、本報告は、その一助と なることを目的としている。 D )+用量群 血圧=切片+投与前値+薬剤群+誤差(個体 I +(薬剤群×用量群)+誤差(個体 IDX用量群)+誤差(繰返し測定) 統計モデル ' s)jk+¥1・ijk+eijkl Y i j k l = μ+S i+X i+ 句+ β k+( α ここで、 μ :総平均 5 1 : 回体の変量効果(個体問誤差) 投与前値(共変量) 個体番号 弓:薬剤の効果 j : j=1 ,2 ,3 薬剤の種類、 α lは溶媒、同は A薬、同は B薬 s k :用量の効果 ( α戸)jk 交互作用 J lJ 定 ) I [ 買 ) (用量 + k :k=1 i ,2,3,4,5 6 7一 Xi 8 i :i=1 ,2,• • • ,1 ← (モデ、ル 2 )
¥ ¥ ' i j k .個体内誤差 E υk l • 測定誤差 用量群を計量値として扱う場合には、投与前値を共変量、繰返し測定を含む線形混合モデル (ランダム係数モデル)となる。これは、個体ごとに回帰直線を当てはめ、その回帰係数を要約統 計量として薬剤群ごとにまとめる方法である。なお、このモデルを使用する場合には、解析モデ ルから切片および薬剤群の主効果を除くことによりモデルの解が回帰係数の切片と傾きが直接求 められる。 血圧=投与前値+薬剤群+誤差(個体 ID)+(薬剤群×用量X) +誤差(個体 IDX用量X)+誤差(繰返し測定) ) (モテ、ル 3 4 . 解析モデルの考え方 l因子モデル 適切な解析モデルを立てるための考え方を示す。第一は実験のラン夕、ム化の手順または構造の 把握である。この実験は、 1 8 頭の心不全ブタを 3 群に群分けすることに始まる。溶媒 P 薬 、 A 薬、および B 薬 3群で、ランダムな順序により実験結果 Yが得られたとすると、これは簡単な I 元配置モデル、 (モデ、ル 4) y= 切片+薬剤群+誤差(個体 I D ) となる。投与前値を共変量とする場合は、共分散分析モデル、 y= 切片+投与前値+薬剤群+誤差(個体 I D ) (モデル 5 ) となる。 枝分れ型の分散分析モデル l頭の心不全ブタに 3用量を十分な間隔でランダムに投与して結果を得た場合には、枝分れ型の 分散分析モデルとなる。解析モデルに用量群の主効果、薬剤群と用量群の交互作用を加えること になる。用量群間の比較のための誤差は、個体と用量群との交互作用である。 GLM プロシジ、ャな どの従来型の線形モデルでは、これを解くことができない。これは、誤差項が 2 つ出てくるため である。最初の誤差は、薬剤聞の主効果を検定するための個体聞の誤差であるが、個体 ID を線形 モデルに含めると、薬剤群が個体 ID と完全に交絡してしまい、解が求まらなくなってしまうから である。 代表的な線形混合モデルである MIXEDプロシジャでは、個体を変量効果と定義し、制限っき最 尤法 (REML)を用いることによりより推定している。この実験は、対照群に比較して薬剤によ り、用量反応が異なることを前提にしているので、薬剤群と用量群との交互作用を固定効果とし てモデルに含める。 y= 切片+投与前値+薬剤群+誤差(個体 I D ) +用量群+(薬剤群×用量群)+誤差(個体 IDX用量群) ) (モデ、ル 6 各用量に増量した 1 5分目と 30分自の測定値を繰り返し測定と見なすことにより、次の 血圧=切片+投与前値+薬剤群+誤差(個体 ID)+用量群 +(薬剤群×用量群)+誤差(個体 IDX用量群)+誤差(繰返し測定) ) (モデ、ル 2 最終的な解析モデルが完成する。モデル式の中で、誤差(繰返し測定)と記載したが、交互作用の 表記にすると、誤差(個体 IDX用量群×測定番号)となる。 68
ランダム係数モデルの考え方 各個体内で用量が 3 水準あるので、図 2 に示すように各個体ごとに回帰直線を当てはめて、個 体ごとに、切片と傾きを求めてみよう。 (モデル7) D ) 血 圧 = 個 体 ID+ (個体 IDX用量 X) +誤差(個体 I B群 A群 P群 1 3 0 ー 、 ‑ . . . . 、 、 、 鍾 一、、、ー胃 、、!側、、民、 一 、 、 、 、 、 、 句 、 ー も 吋 、 園 、 、、 、、、、、唱」 ̲‑‑̲、 『 一 、 . . . ̲ 、 司 』 ・"'''‑iIに日‑ 9 0 Z 内 山町一 巳』 80 1 1 0 >1田 量 一一十一一」仁 町 1 2 0 90 士九七守二 ‑‑ ‑ ‑ ‑ : ̲ ̲ ̲ ̲ ̲ ̲ . ̲ 80 70 70 2 X 図 2 個体ごとの回帰直線の当てはめ このモデルにより、 個体 ID の解が切片になり、個体 IDX用量 X の交互作用の解がそれぞれの 個体の傾きとなる。 この傾きを改めて実験結果として、 1元配置モデルとして解くことが考え られる。 2 ステップによる解析をまとめて解析をする場合には、個体ごとの切片と傾きを変量効果と 見なして、薬剤群ごとの固定効果としての切片と傾きを同時に推定することができる。これ が、ランダム係数モデルと言われる方法である。 血圧=投与前値+薬剤群+誤差(個体 ID)+(薬剤群×用量X) 十誤差(個体 IDX用量X)+誤差(繰返し測定) ) (モデル 8 ランダム係数モデルには、切片と傾きを共に個体ごとに求める考え方以外に、薬剤群に共通 な傾きは持つが切片は個体ごととするモデル、 血圧=薬剤群+誤差(個体 ID)+(薬剤群×用量X)+誤差(繰返し測定) (モデル 9 ) も考えられる。いずれにしても、解析モデルの選択は、実験前に定めておくべきであり、結果 を見てから選択することは慎まなければならない。そうだからと言って、探索的な解析を行つ てはならないと言うわけではない。都合の良い結果を出した方法を、初めから計画していたか のような言い方ではなく、結果を見て反省しつつ行ったことが示されていれば良いのである。 この実験では、個体ごとに薬剤ごとの用量反応が異なることが知られていて、さらに投与前値 の個体問のばらつきが大きいために共変量としてモデルに含めることにしていたとしよう。こ ) により解析する。 の場合に、すでに示した(モデル 3 5 . 検証的な解析の結果 溶媒群に対して A 薬および B薬の血圧の低下は、統計学的には有意であったが、事前に定め た生物学的な差を超えるものではなかった。溶媒群と A 薬との差の 90%信頼区間の下限が 90% ラインを超えることから、全く否定されたものではない。 B 薬については、差の 90%信頼区間 の下限が 90%ライン内に入っているので、生物学的な観点からは降圧作用は認められなかった。 ‑69
表ヲ 1 0 mg /kg/min投与時(75、90分)の血圧低下 ー 、 血圧 I f I l Il :の差 t検定 ( LSD法) LS‑MEAN SEM p;~ tt f 立 P{ f I 'i 1 0 3 . 8 9 3 溶媒{詳 9 4 . 1 9 7 り. 6 9 6 1 . 8 1 6 5 . 3 4 0 . 0 0 0 1 A~ 9 9 . 5 7 7 4 . 3 1 6 1 .776 2. 43 0 . 0 2 9 1 B薬 5 . 3 8 0 1 . 76 5 0 . 0 0 8 7 ‑ 3 . 0 5 A薬 :8薬 差 の 90' 7 c信 似│式J:iI Lower Upper 6. 49 8 1 . 1 8 8 ‑ 8. 490 1 2 . 8 9 6 7. 446 2 . 2 7 1 Tukey‑Kramerの多重比較では、溶媒 i 洋と B楽群は、 P=0.0704NS となる。 0o / c 減 、 I03.893XO.90=93.50mmHg 溶媒群の 1 σb H n H m n u 日リ ( 90 . . . 溶媒群と差の 溶媒群 90%信頼区間 A 薬群 4→ ← ' B薬群 ̲ j ! ̲ ~争 90% 100% 溶媒群との差 図3 . 溶媒群との比較 6 .混合モデルでの解析結果 モデル 2の結果から、誤差分散は、 次のように推定される。 誤差(個体 ID) 3 . 1 1 9 7 誤差(個体 IDX用量 X) 3.9549 誤差(繰返し測定)分散成分 5 . 1 9 1 1 固定効果の交互作用、薬剤群×用量群の P値は、 0.0011 と有意である。 薬剤ごとの推定値を表 3に示す。 表 3 混合線形モデルによる推定値 用量 溶媒 A薬 Dl:1 mglkg/min 1 0 3 . 9 5 .53 1 01 1 0 3 . 6 7 D2:3mglkg/min 1 0 3 . 7 8 9 6 . 5 3 1 0 2 . 2 5 B薬 D3:IOmg/kg/min 1 0 3 . 7 8 94.28 99.58 DX45 1 0 4 . 7 8 9 4 . 3 7 1 0 5 . 1 7 DX60 1 0 5 . 9 5 9 5 . 0 3 1 0 5 . 5 0 図 3 に示すように、溶媒の投与による血圧の変化は、 100mmHg と一定であり、 A 薬、および B 薬の用量反応は、直線的である。 70
BivariateF i tof 推定値 ByX 1 1 0 1 0 5 倒 1 0 0 似 主 催 95 90 85 2 3 X 図 4 薬剤ごとの用量反応 モデル 3 のランダム係数によるから、傾きの推定値とその 90%信頼期間が得られる。これ 、 B 薬共に 95%信頼区間が 0 を越えていないので、統計的には有意である。こ により、 A 薬 れらのことを総合して、薬剤J I B は、血圧に対する用量反応は統計的には確認されたが、生物 学的な有意な効果を得るためには、 10 倍以上の用量が必要であり、これを検証するためには 再実験が必要である。 表 4 傾きの推定値と 95%信頼区間 傾きの推定値 S E 0.5704 l:溶媒 O .0833 2 : A薬 ‑3.6250 0.5704 3 : B薬 2 .0416 0.5704 95%下 限 95%上限 ‑ 1 .2304 . 10638 ‑4.7721 ‑ 2 .4779 ‑ 3 . 1888 ‑ 0 .8946 文献 1 ) S .F r i s o n,S. J .Pocock( 1 9 9 2 ),RepealedMeasuresi nC l i n i c a lT r i a l s :A n a l y s i sUsingMeanSummaryS t a t i s t i c sand 1,1 6 8 5 ‑ 1 7 0 4 . i t sI m p l i c a t i o n sf o rD e s i g n .S t a t i s t i c si nMedicine,1 .Sen(1 9 9 4 ),L e t t e r st oE d i t o r,S t a t i s t i c si nMedicine,13,1 9 7 ‑ 1 9 8 2 )S n s t i t u t e( 1 9 9 7 ),SAS/STATSoftwareChangeandEnhancementsthroughRelese6 . 1 2 . 3 ) SASI 1 9 9 4 )、各種分割実験モデルに対する MIXED プロシジャの活用、第 1 3回 SASユーザ会論文 4 ) 高僑行雄 ( 集 (1 8 3 ‑ 2 0 2 ) . 9 9 6 )、各種の分割実験および経時 i W J定データの解析、第 1 5回 SASユーザ会論文集 ( 2 6 3 ‑ 2 8 6 ) . 5 ) 高橋行雄(1 6 ) 高橋行雄、小野英樹(1998) 、 ~I: 臨床薬理試験における経時制定データの解析はいかにあるべきか、医 薬安全性研究会 75固定例会資料(1 9 9 8 ) . ワi ーム
ー anM 寸 a o ︐ ﹃ o n H U ' O 2 ' ¥/ /'¥/ ¥/ r h u n μ 1 2 日 6 dH 一 円a B n" 9 R τ l ι H H 川 m川 E Hu nu u ' su ラ化川 ︑ 品 ﹃ 内︐ i sd r' MD 同 四国 n u M間同 ↑ o一 n h u ︐ ︑ . H H u n w n n H U n H U ︐ R F UHυ 8 ︑ d ' F h J M / ミ ︑ r a M ‑l'T ' a ? 1 〆 ミ ︑ U ︑ E 4マ FUゐL+L ι ' ︽ 〆 1 l pu p= pu プ 1︑ n o n ee s s γ 1 1 ? A 内 ︑ J I l l ‑ a a AAtt t qa 内 ︑ ‑ u y l γ l d ︑ T1501 T3001 T4 50 2 T6 00 2 T7 50 3 T9 00 3 T1050x T l200x ョ 門 門 門 門 門 門 ー T l0 5O X T l 20O X 争 争 e z 内 f 屯 争 i fO O S E C= ' O X ' ︽ 智 ︽ ︽ aI p h a = o .0 5 町屯U 内 屯叫 M ↑ ト ︽ 争 争 ゐ 守 nH nu l ‑ ‑ HUHU n R H U 20 OUAW st Ln ﹁ ヒ ﹂ H i T E E n w n ゐ l nu rn γl'E q t ゐ u‑ a o︐ ー 円 H 川 内 5 nμ︑3〆pat‑ L 3'= ι ノ !l¥ ' f lm u ' T E E ︐ マ sn du o' J u c puρM d m a u FH EUn H υ ︑ 3 〆 ' ' ' l 円 H ' ﹁一 ト﹄ E L R U t H M 5u 5a 10 ﹄ 〆 内 1 1¥﹀ ﹁ 3 3 l a n H U 1 ︐ ︐ . ︐ n L・ = /; Di Em u‑ a‑ 2EC T 6 一 一 一 n H u n H u n H U f い ︑ J P U ' + ー E T l u nH uvnHU一ゐl ︐︐︐ 3 6 6 eo' m S E S 1 6 E a ﹀ E P U c a v A R U ¥ ノ ‑ 一 ‑ a v t ‑ t l l n H R H u nmH U ︑ 3 〆 =snu n2 l R H U L L L ‑ Hu T 一 mEn RLUWE Tゐ‑Lr rl''q FIbTU sn︐ul ︐ ﹁ ト ﹄ ﹁ ト ﹄ F ト L ロ ‑ ‑ l p h d o n w n n w n n M n ︐ CDU +tn 'xa unn ;nゐ d1du u a q 一 一 一 1 ' Tn l T E E γ 1 1 T E E i' ︐ = = u v a sb li +f na υ‑ 1‑ 0n 1uln/k︐D E ・ ' 一 T E E一 ' i l ﹁jTl O S 0 3 t c c n X ‑‑PU ‑ ‑ 一 一 一 一 ' n ︐ 2 2 c = r D U 日本 n u ‑ ﹄ ︐ ︑ ﹄ a tVAi n u u n L m lL + ? ﹄ 1 1 干 l I L I I L ‑ ‑ L p S P‑1 ' ' 21' 島内 ︒+ L H U ﹁ ト ﹄ ﹁ ト ﹄ F ト L '£ U ' ' ‑ M 同 . ︐ ︐ ︐ t n H n ' p n u ︐ ︐ ︐ t ' + 一 ‑ R H u 'p u ' J u ot n uu一 s︐e n︐u uen k p一 u ' L ‑ ﹁ ヒ E L R R R 島内 '' p ‑‑ q un qu d J﹄ U; C= I1 Tι E? LE DH E?R 5 nU 一 一 一 qJu' ' γ l l T E E T E E n P1 0u3 ‑u FL u ? る /U '‑ pu ﹄U nko n υ n υ g b p U / ' s i n u ' p u n u ︐ p u n υ s 二一 p u r ト ﹄ 肉 ︑ J W ' ゐ l ・ 4 8 γ 1 1 m 川 ︐ . ︐ 一 n H S l ︐ 1 1 . ︐ R H u m ‑ ' 一 ‑ H M m n H u n ノ ﹄ ︐ . ︐ n U E L D ‑ ' ﹁ ヒ フ ﹄ O ' E L / ︐ HU u肉 n︑ HU ﹁M ト ﹄ 1 l n '‑ n H n H J U V4 n u q u︑ '} t V 4 ' RU P U ‑ J uT ‑ ‑n v s n U R u n‑ M γ l ︐ l pu U' PU J E β Mn βH M nE n JW.︐ E S‑ T‑ ‑ q a n H U + k e υv n u n u ?し ﹄ n T t n n u n u l i f t ‑ r 一 百 U 7 1 l ﹂ H ﹂ H ﹂ n h u n H u n H u T l r ゐ L . ︐ T lゐLH ゐ L ゐL H ‑ ' q a uu vn u n υ n kul Juu ' n υ H一 UE L P U a u vu 'n υ 川 U n口 ﹂I I t s ‑ s u m ︐﹁ Iヒ q a m‑‑ 干l b tρMnu一'nυIII‑ nu一nkqu‑nk‑nk‑島内 p u n U 0 c m p u = n u n U E L F u = n u v A T l n r E J ; E s b ・ ‑ E ' ' ' ‑ T t ' 2 3 X v t = T ﹄ I ‑ ‑ F S I ‑ n u Iat ub su ‑‑‑ a c ' D D D Pl U P UUS Ol P U DnURu‑‑nU 本 uu'内dkHυ O ; l s l r l i ' ' ' ゐ l ? l i t ‑ ‑ P U J u = F し n k n U / ' / ' d u p u n k n u n n u ︐ 同 u = p u n k n U E l E ︑ f Ts l t n t s t s p一 u a a R υ γ l e a k u= γ l 1 l su ρ M a k υ γ l 内 M F 7 1 n b l u e s n u n 口=== T‑ lE X ゐ L E x a t r ヒ F U X ゐ L E L O ; d h u ‑ E ﹄ 内 d s l n μ l n H h u 内 d n u v a a n l a q u =L HF Uu la p ︑ d z H U l a p ︑ d = 1 l n μ t nH u n ' h u n l l u r E n s t u r n ‑ ‑ ‑ H U H H u H υ R H U R H u n M n H M m ﹄ n u H υ 内 川 υ R H U P ︑ J U H M m d u n H U R H u n 川 u n M n H M m ﹄ 伺 U n r n Ln K It l l s L I T ‑ punLPU a nR u β M R K .︐ ‑‑n υ l B V 4 1 l n u n υ t l V 4 3 1 n u n υ I l V 4 1 l ' t l s O D U= V 4=︑ 1 t一一 一 一EEE ' T == 0一 一一 一一 一一 H' V﹄ 〆〆 ︽︿ ︑︑ 〆〆 ︽︿ ︑︑ 〆〆 ︽︿ ︑︑ ロLv ハ h 出向一 V‑= 5P 3 3 n Lど e d T E E n h u n A n u n u n u E︑ A U旧S nど ej mu nS Eど m︑ aA u t ゐ ln h u n H hP uU 一一U ︐V ︑ P ︑ J u ・ E ﹄ R H U R H U R H U ' X E S l a ' X E o a ' X l o m rr ar pm i do e sS El d rE ss l ﹁M ヒ E Lp n L LI U P ︑ d U口 E o Eras dE un m m‑ er aJ u n mE ml Ea d uE nd +l k r﹄ o 島内 n k E ln u ︐ s yt ay n T 一一‑SE︐ T︐ T r 3 h l o a S; 3 lm ora S' 3Eh lm ora C U V T γ l n U V A ‑ ‑ T l P U T ‑ γ 1 1 1 I l a ‑ vb J u E W C m r 1 1 eh wc 1l WC es ・' cbcn a ‑ Cl cl Eton n t t ru r u ‑o rn u‑ lo rn ulru a pp J H M TprTprTpr ‑72 E J 2 u F h u n u n D 7 ι c o a q n u n u q u 7 ι n o q a n t n u n t n U 100008090098200019 1111111111111 ﹄ e111111222222333333 nH ao12345678 t a123456789111111111; nu s ' n μ t n μ t n μ t n μ t n μ t n μ t a n n a n n a n n a n n a n n a a n nu nu nu nu nu nu 00 00 79 70 88 70 89 91 71 21 29 52 20 79 70 01 29 1 1 111111111111 70 00 89 70 58 70 59 51 60 61 29 32 50 59 80 00 99 0 0 111111111111 50 00 80 00 59 00 59 31 60 61 09 32 51 00 09 80 08 8 0 1111111111111 80 00 79 70 58 60 09 31 30 20 09 11 70 89 80 20 08 7 0 111111111111 526888001208089895 000908091008209908 11111111111 70 00 60 00 58 50 39 20 59 90 08 81 50 69 09 40 38 3 0 11111111111 n u ? ι ﹄ F h u 7 ι R U E o n U 1 4 a q n U F L O p h d p h d n u n 6 2 u n u n t 1 0 0 9 0 8 0 9 0 0 9 8 2 1 8 9 1 8 1111111111 00 40 30 00 88 69 99 20 50 09 98 73 01 09 59 81 58 5 1 1111111111 0 0 0 1一一一一一一 0 2一 一 一 一 一 一 一 一 0 3 ‑一ー一一一 0 0 ‑ーー一 ‑ * 1 T o 1 5 3 0 4 5 6 0 7 5 9 0 1 0 5 1 2 0* 1 s s J F ' ' ' ' T o=T 00 0 Y .T a k a h a h si
日本 SASユーザー会 (SUGI‑J) V 8の O D Sによる総括報告書の電子化一関西プロジェクトー その 1. What 'sODS? (開発の経緯と今回利用した O D S機能の紹介) 岩本光司 武田薬品工業株式会社 医薬開発本部統計解析部統計G E l e c t r o n i cC l i n i c a lStudyReports(e‑CSR)u s i n gODSi nSASVersion8 ‑KANSAIP r o j e c t一 Part1 .What 'sODS?( In t r o d u c t i o nt oODSusedi nthee‑CSRdevelopment) Ko吋iIwamoto h a r m a c e u t i c a lDevelopmentD i v i s i o n B i o s t a t i s t i c s,P D . TAKEDAC h e m i c a lI n d u s t r i e s,LT 要旨 パージョン 8のO u t p u tD e l i v e r yS y s t e m(ODS)機能を用いて総括報告書の図表をどこま で作成できるかについて企業を越えた枠組みで関西プロジェクトを発足させ、検討 してきた結果をまとめたので、プロジェクトメンバー 5社 6名 が 5つのパートに分 けて報告する。 キーワード:総括報告書、電子化、 O D S機能、関西プロジェクト、 REPORTプロ、ン、ジャ 1 .はじめに 新薬開発における国際的なノ¥ーモナイゼーション(ICH)において新薬申請関係書類(ISE、I S S、総 括報告書など)の電子化 (e‑CTD)の検討が進んでおり、インターネット等の技術の進歩状況からみると 近い将来に現実のものになると考えられる。 一方、 SASシステムは臨床試験データ等の統計解析においてデ、ファクトスタンダードであるが、解析 結果の出力に関しては十分とは言えず(たとえば、各プロシジャの検定結果は網羅的な出力で、あるがゆ えにユーザーにとって不要な出力が多いなど)、これらの出力をそのまま総括報告書などの図表として 利用することがで、きなかった。したがって、ユーザーは期待する図表を得るために E x c e lなどを用いて出 力結果を加工していた。過去の SUGI‑]においても、製薬企業または関連するコンビュータ会社による EXCELなど、の他ソフトウエアを利用した図表作成システムの開発事例発表が数多くなされてきた。 9 9において、パージョン8のODS機能を利用すれば、 SASシステムのすべてのプロシジ しかし SUGI‑J' 形式などへ出 ヤの解析結果をユーザーが自在にカスタマイズ、で、き、さらに、テキスト形式以外に HTML 力できることが紹介されたc この ODS機能を用いれば、新薬開発における解析結果および報告書の作成に、これまでのような方 法を用いることなく、ユーザーが求める図表を作成で、きるので、はないか、また、電子化への対応も可能で はなし、かと考えた。 QU ワt
そこで、我々は企業を越えた枠組みで、関西プロジェクトを発足させ、株式会社 SASインスティチュート 機能の利用について検討を開始 ジャパンの協力を得た上で、昨年 9月より総括報告書の図表への ODS した。今回、この検討結果をまとめたので、プロジェクトに参加した 5社 6名から以下の 5つのパートに分 けて報告する。 'sODS?(開発の経緯と今回利用した ODS 機能の紹介) その1.What .有効性評価に関する報告書作成(計数値を中心として) その 2 .有効性評価に関する報告書作成(計量値を中心として) その 3 .共変量の調整 (FREQプロシジャおよびGENMODプロシジャを例として) その 4 .ModelBased 解析結果の要約 (MIXED プロシジャを例として) その 5 2. 開発のコンセプト 今回の検討を開始するにあたり、各メンバー聞の意思統ーを図るため、次のことを基本的な開発コン セプトとして合意した。 ,GRAPHソフトウエアで行う。 (1)すべて SAS/BASE,STAT ( 2 )プロシジャの結果を用しも (DATAステップでの計算は行わなし、)。 ( 3 )図表は従来の形式に拘らなし、(利用可能なものを提案する)。 ( 4 )紙ベースで、はなく Webベースをイメージする。 ( 5 )統計的な内容も加味する。 これらのコンセプトについて、もう少し詳しく説明する。 (1)今回の目的は、 ODS機能の利用可能性と総括報告書の図表作成の試みであり、システム構築では A S / P H ‑ C l i n i c a lソフトウエアとは切り離して考えた。したがって、ある程度、 ないので、 SAS/AF及び S 状況を特定した形でソースプログラム及びそれに利用するマクロプログラムを作成した。 (2)DATAステップを駆使することにより、かなり柔軟な図表を作成することができるが、そのためにプログ ラム作成工数が増大し、また、 DATAステップによる計算の保証も必要となる。したがって、これらの 問題を避けるためにも、で、きる限りプロ、ンジャの出力結果をそのまま用いることとした(しかし、結果的 に、総括報告書の図表を実現するためには、プロシジャの出力結果をカスタマイズ、するた、けで、は不 十分であることが分かり、 DATAステップをかなり使用する結果となった)。 ( 3 )現在の総括報告書の図表は、一つの図表の中に盛り沢山の情報が詰め込まれているので、頁をめ くらなくてもほとんどの情報を得ることができる?カもしれない。しかし、 SASシステムのみでこれを作 成するにはかなりプロク、、ラミングしなければならないことが予想されたので、見易さを損なわず、必要 最低限の情報が一つの図表にあることを条件に結果を複数の図表にわけることとした。 ( 4 )紙ベースではA4一頁に表示できる内容は限られる。しかし、 Webベースで、あれば、人間の思考ととも に表示内容を変えることができる。即ち、 Frame、C o n t e n t sや Page 機能を活用したり、リンク機能を用 3 )を合せて総括報告書の図表イメージ いて階層的に図表を関連づけることである。これらの機能と ( を検討した。 ( 5 )総括報告書の統計解析上の論点(共変量の調整など)などの解析を行うときによく用いられるプロシ ジャ:GLM,MIXED,LOGISTIC,GENMODの出力は、皆さんご存知の通り、あらゆる解析に対応す るがためにその出力は必要としない結果が多く含まれ、冗長で、非常に見づらい。これらについて、必 要な結果を目的に合わせて見やすい図表にすることを検討した。 3.0DSの機能紹介 まず、パージョン8で、新しく導入されたODS機能について簡単に紹介する。 従来の SASの解析結果は、各プロシジャ毎に固定したレイアウトに対してテキスト形式で出力していた が(一部はデータセット出力できた)、 ODS機能を用いることによりユーザーが自由に加工することが可 ‑74‑
能となった。 ODS機能とは、各プロシジャ毎に結果データ部分 ( D a t aコンポーネント)と出力のためのレイアウト部分 ( T e m p l a t eコンポーネント)に分け、目的ごとにこれらを組み合わせて結果を出力する仕組みである。 さらに、レイアウト部分は各プ口、ン、ジャの出力テーブル毎に定義した「テンプレート」とフォントやスタイ ルを定義する「スタイル」の 2っからなる。レイアウト部分はデ、フォルトの形式として提供されるが、この部 分をユーザーがカスタマイズ、することに DATA 帳票 ( T E X T ) より、出力イメージを変更することが可能 コンポーネント となる。また、各フ。ロシジャから出力した 電子化 (HTML , XML ) 結果データを DATAステップで、加工し、 ユーザーが作成したテンプレートと組み 合わせると、より柔軟な図表を作成する TEMPLATE コンポーネント ことが可能となる。 次に、出力結果がこれまでの TEXT以 文書化 ( RTF, PDF) 図 1.0DS機能による処理イメージ 外にHTML形式などで作成できるようになったことが挙げられる。 この形式で出力する利点は、すべての結果が枠付きの表形式であることと、 HTML形式では図表聞 をリンクしたり、文字の強調やセルの色づけなど図表の修飾が行えることで、ある。また、 SASシステムから これらの修飾に対する指定を行うことが可能である。 さらに、 SAS/G孔生 PHソフトウエアにれが結構扱い難し、もので、見栄えも良くなかった)がドットイメージ G R PV a r i a b l e N M e a n S t dD e v M e d i a n (BMP , GIF)だけでなく、 JAVAおよびACTIVEXのグラフ として直接作成できるようになったことが挙げられる。 これらの機能について、簡単な例を示しながら説明 する。たとえば、投与群町の年齢と体重の要約統計量 一一一一一一一一一一一一ーーーー一一一一一一一一一ーーー‑ー一一一一一ーーーー一一一一一 A A G E W E I G H T A G E W E I G H T P 集計表を考える。 リリース 6 . 1 2では、 MEANSプロ、ンジャの出力結果は 図 2のようになるが(プログラム①、パージョン8でも ODS LISTINGステートメントにより出力可能)、閉じものをパ ージョン8のODS機能を用いて HTML形式で出力すると S t dDev"など)や小数点 S . D . " {こ変更し、 Mean しかし、 MEANSプロシジャの標準出力をテンプレート HU ‑3 n u ﹁ 加工だけでレイアウトを変更するには限界があるので、 <program ①〉 p r o c means data=xxx nmean s t dm e d i a n ; class GRP ; varAGE WEIGHT ; <program②〉 o d s html file= c :¥Kproject¥test.htm" ; p r o c means data=xxx nmean s t dm e d i a n ; class GRP ; var AGE WEIGHT ; r u n o d s html close ; 7 2 .0 0 4 5 . 5 0 7 0 . 0 0 4 8 . 4 5 N M e a nS t dD e v 恥d i a n A A G E W E I G H T .2 4 2 5 71 2 5 4 7 . 4 0 8 . 3 5 8 . 0 1 4 5 . 5 0 P A G E W E I G H T 0 . 1 9 2 6 7 2 6 4 8 . 7 6 9 . 7 9 8 . 4 5 6 . 7 2 4 図3.ODS機能による出力結果 p とMedianを小数点以下 l桁に変更した。この出力結果 を図 4に示した(プロクずラム③)。 8 . 3 5 8 . 0 1 9 .7 9 6 . 7 2 G R PV a r i a b l ε にの例では小数点以下 2桁)を統計量毎に制御できな かったが、テンプ レートのカスタマイズ戸により可能となっ た。そこで、 S t dDev"の表示を 7 1 .2 4 4 7 . 4 0 7 0 . 1 9 4 8 . 7 6 図2 .リリース 6 . 1 2の結果 結果は図 3のようになる(プログラム②)。 これまでは、結果のラベル( 2 5 2 5 2 6 2 6 G R PV a r i a b l e NI M e a nS . D . M e d i a n A A G E W E I G H T . 3 5 2 5 71 .2 8 7 . 4 8 . 0 1 2 5 4 7 2 . 0 4 5 . 5 P A G E W E I G H T 0 . 2 9 2 6 7 . 7 9 2 6 4 8 . 8 6 . 7 2 7 0 . 0 4 8 . 5 図4.t e m p l a t eのカスタマイズ出力結果 V a r i a bl e A G E A C T I V E P L A 庄町 tS . D .( n ) m e a n: m e a n士S . D .( n ) 1 . 2 士8 . 3 5 ( 2 5 ) 7 t9 . 7 9 ( 2 6 )I 7 0 . 2: I 7 . 4 0士8 . 0 0 7 ( 2 5 )4 W E I G H T 4 8 . 7 6士6川 2 6 )I 図5 .独自の t e m p l a t eによる出力結果 RU ワt
ユーザーが必要とするレイアウトにの例では、投与群 e a n : : ! : :S . D .( n )の形式で表示する)を を横に展開して M TEMPLATEプロシ、ジャにより作成する方法を試みた。 まず、このレイアウトに出力で、きる形のデータにする ステ ため、 MEANSプロシジャの結果をODSOUTPUT ートメントにより SASデ.ータセットに落とし、このデータ <program③〉 proc template ; define table base.summary ; define stddev; header='S.D.';.. e n d ; define mean ; . , . format=5.1;..end; , . format=5.1;..end; define median; . e n d ; r u n ; <program④〉 data ̲null̲ ; set yyy ; ップによる ODS機能を用いて出力すると、結果は図 5 file print ods=(template='zzz') のようになる(プロクゃラム④、なお、このプログラムは長 put ̲ods̲ ; run ; かったので、データ加工部分を省略した)。 をDATAステップにより加工する。この 2つを DATAステ HTML形式での出力を考えた場合、 Webの機能と c o n t e n t s )と内容 して、一つの画面 (Frame)を目次 ( ( b o d y )に分けて表示し、目次をクリックすることで、見た いところへジャンプする方法がある。 ODS機能もこの 方法に対応しており、 ODSステートメントに記述するだ けで、 contentsにはプ口、ンジャとプ口、ンジャで、作成され る各テーブノレのタイトルを bodyには出力結果を表示 することができる(プログ、ラム⑤)。 グラフを JAVA形式または ACTIVEX形式で作成す ることは非常に簡単で、 SAS/GRAPHオプ、ンョンで、記 述したプログラムの出力デノ〈イスを JAVAまたは <program⑤〉 ods html frame='c:¥Kproject¥m̲frm.htm' contents='c:¥Kproject¥m̲cnt.htm' body=冗:¥ Kproject¥m̲bdy.htm'; proc means data=xxx n mean std median; class GRP ; var AGE WEIGHT ; run , ods html close ; <program⑥〉 goptions device=activex ; ods html file='c:¥Kproject¥zzz.htm' proc gplot data=HAIKEI plot age*weight ; r u n; ods html close ; ACTIVXと し 、 ODSステートメントを追加するだけでよ 抑止して年齢と体重の散布図の作成例を図 6に示 い 。f した(プログ、ラム⑥)。 AGE 9 0 JAVA形式または ACTIVEX形式のグラフは、カーソ 坐 主 ぶ; i ルをマークに重ねるとその点の年齢と体重の値をポッ プアップ表示する。また、マークの形や大きさの変更、 チックマークの非表示など作成後にグ、ラフの修飾が可 8 7 日 日 → → . 玉 能である。 以上のようにODS機能により、これまで、とは異なった 6 0→企 企企 企 企 . . . 企 ‑企 イメージの図表を作成できることが分かつた。 WEIGHT: 3 6 . 5 住 しかし、残念なことにTABULATEプロシジャと FREQ A G E : 5 8 プロシジャのクロス表は特殊で、あり、ユーザーがテン 40「 I1111I1111I111'flI~ プレートを加工できない。ただし、 TABULATEプロシ 0 5 5 6日 6 3 5 4日 45 5 5 ジャについては、そのプロシジャ内のステートメント上 WEIGHT にODS機能に対する記述を加えることができ、これに 図6 .ACTIVEX形式グラフの例 よりテンプレートの加工と同様のことができる。 パージョン 8で 、 は REPORTプロ、ンジャがかなり変更されており、各種一覧表の作成に使用できるように なった。このプロ、ンジャについても TABULATEプロシジャと同様に、そのステートメント上でスタイルなど を定義できる。 4 .具体的な図表作成例 4 . 1r 人口統計学的及び他の基準値の特性」 「人口統計学的及び他の基準値の特性」を作成した例を紹介する。本表は、分類または順序変数(人 ‑76
種、性、重症度など)についての度数分布と連続変数(年齢、体重など)についての要約統計量を表示 するもので、 2群以上の場合には分布の均一性についての検定も表示する。なお、連続変数について は、要約統計量と同時にカテゴリ化して度数分布を示す。 図表イメージを検討した結果、度数分布と要約統計量は表示方法が異なるので別々の表とし、それ ぞれの均一性の検定は同一表とした (FREQプ口、ンジャで、はクロス表部分と検定部分が別々であることか ら図表も別々にすることも考えたが度数分布と検定は横並びで見る方が良いと考えた)。 まず、度数分布表と検定を同一表とするためにODSOUTPUTステートメントで、 FREQプロシジャのク ロス表部分と検定部分を SASデータセットに落とし、これをDATAステップで、結合した後、 TABULATEプ ロシジャでイ乍表したc この際、 TABULATEプ口、ンジャのODS機能により次のように修飾した。 ( 1 )項目列をCLASSLEVステートメントによりにセンタリンク守した ( c l a s s l e v・ ./style={玖j u s t = cj u s t = c })c ( 2 )FORMATプロシジャとスタイル機能を用いて検定結果が p豆 0 . 2の時に太字 (HTMLでは色っき表 示も可能)とし、意味のない空白セルを灰色表示した(本当はセル結合したかった)。 実現した結果を図 7に示した(プログラム⑦)。 要約統計量として(平均値、標準偏差)と(中央 イ直、最大値、 Q1、Q3)を用いることとし、 値、最ノl 2群の場合には、前者に対してt 検定、後者に対 して Wilcoxon検定を用いて均一性の検定を行 い、それぞれ要約統計量と検定を同一表に表 性 見j I 示することとした。 今回は、平均値、標準偏差と t検定の結果に ついてのみ作表手順を説明する。 MEANSプ口、ンジャの OUTPUTステートメント( 体重 変数名のつき方からODSOUTPUTステートメン 均一性の検定 伊殿 (%) 例数 (%) 手法 p l 直 . 0 9 1 3 4 1 1 5 . 4 χ2検定 0 男 9 1 3 6 . 0 女 4 . 6 4 . 0 2 28 1 66 t 年齢 ブラセボ 実楽 I 頁 目 要約統計量の図表イメージを検討した結果、 . 4 0 3 3 3 . 8 H検定 0 5 0歳未満 0 10 . 0 6 0歳未満 4 1 1 6 . 0 3 1 11 .5 7 0歳未満 5 1 2 0 . 0 9 1 3 4 . 6 7 0歳以上 4 . 0 1 66 0 . 0 1 35 5 0 k g未満 1 66 4 . 0 . 8 5 2 7 1 55 7 . 7 H検定 0 6 0 k g未満 6 1 2 4 . 0 1 03 8 . 5 7 0 k g 未満 3 1 1 2 . 0 3 . 8 図7 .人口統計学的及び他の基準値の特性(1) トを用いなかった)で要約統計量を、 TTESTプロ シジャの検定結果のうちT T e s t sテーブルをODS OUTPUTステートメントを用いてそれぞれSASデ ータセットに落としDATAステップで力日工した後、 デフォルトのテンプレートを用いて DATAステッ プの ODS機能により作表した(図 8)。また、テン プレートを作成する際、 t r a n s l a t e "機能を用いて 〈 1 0 l s i i 出j a r 45.5 日/ p 25 4 47. / ﹄ ハU ハ υハ υ ハUMハUM ︿ Uω且 さω 65432 N 図 8.人口統計学的及び他の基準値の特性 (2) Lー 」 26 E i i 48. 76 日 2S O 45 48. 35 45 55 65 75 85 5 1 0 25 50 75 90 95 N c r m a lP e r c e 円i t 恰s WEIGHT 図9 .UNIVARIATEプロシジャの例 7 7 99
項目名にリンク機能を付加し、項目名から別途作成したUNIVARIATEプロシジャの結果が参照できるよ
うにした(プログ ラム③)。なお、パージョン 8のUNIVARIATEプ口、ンジャから GRAPHオプションが追加さ
れ、頻度分布などがグラフィカルに表示できるようになったので、リンクによる参照にこれを用いた(プロ
グラム⑨)c
<program⑨〉
<programQ)>
goptions device=gif
proc format;
xpixels=350 ypixels=300;
value xf low‑high='#FFFFFF' other='#EOEOEO';
value yf low‑0.20='#FFOOFF' other='#000000'; proc univariate data=HAIKEI;
class GRP ;
other='
;
value zf low‑0.20='bold'
var WEIGHT ;
proc tabulate ;
histogram WEIGHT
/normal(noprint)
var Prob ;
midpoints=35 to 85 by 1
0
;
tables Prob {style={foreground=yf.
inset n mean median
font̲weight=zf.
/noframe format=best5. pos=ne ;
background=xf.}});
proc univariate data=HAIKEI;
run ;
symbol font=special value="K"
class GRP ;
<program⑧〉
var WEIGHT ;
proc template ;
probplot WEIGHT
/normal(mu=est sigma=est)
pctlmino;
run ,
脅
'
・
︿︿
﹀﹀
aa
︐
︐
︐
︐
︐
︐
﹀﹀
齢重
年体
hHhH
3
m
m
+L+L
‑
一
‑
一
nuaunu+L
+Lnuu+Lnuu
nanw
"41"41
‑L"‑lu
U ﹁円 U ﹁
円
Ahwh
EeTe
一︿一︿
可ム目︑ム'
F'
n川
u
︐
.
=a=a
vv
可
ム
hu‑‑
︐
.e a a
a40u
c
u
V14
+L
︑
.ap'a
可4 F '
ounu
nuqa
41+L
au
AU
④一②一④
4.2r
有害事象一覧表」
一覧表を作成する具体的な方法には、次のものが挙げられる。
(l)PRINT
プロシジャまたは SQLプロシジャを用いる方法
(2)DATA
ステップの ODS機能を用しも方法
(3)REPORTプロシジャを用いる方法
1
)の方法で十分であるが、 PRINTプロシジャの ODS機能は特殊であり、テ
簡単な一覧表であれば、 (
ンプレートをカスタマイズで
0
1
0
1
きないことに注意する必要が 0
0
1
0
1
ある (SQLプロシジャでは若 0
0
0
2
0
3
干の加工は可能であるが十
0
0
2
0
3
分とはいえなし、)。なお、今
ト
4
。
コメント
回用いたデータをこの方法
投与2
0日目からふらつき感を訴えたが軽度で患者もさほど気I:f
Jらむいとの」とであったた
0
0
1
0
1 め、継続した。
により図 10に提示した。
Webベースで、リンク付加な 0
0
1
0
1 頭痛後継続したが、一週間後L吐き気ももよおすようになったため中止した。
4日目 1
:経い志心及び動惇が発現した。程度のため継続できると半l
断した。
0
2
0
3 投与 1
ど表示方法を工夫すれば一 0
0
0
2
0
3
覧 表 は P則 NTプロシジャの
図 10.有害事象一覧表に用いたデータの PRINT結果
シンプノレな結果により表現
プロ、ンジャを活
するだけで十分としづ考え方もあるが、 ODS機能及ひ、パージョン8で、拡張された REPORT
用した事例も紹介したし吃考えて、一つのセルの中に複数の項目を表示するなどのやや複雑な形式の
ステートメントを用いればテキスト形式による
ものを作成することとした。これまで、も DATAステップの PUT
、
は
、 3節の
複雑な一覧表を作成することができた(ただし、罫線で囲むことはできなし、)が、パージョン8で
2
)の方
プログ、ラム④で、紹介した DATAステップを用いることで、複雑な一覧表を作成で、きるようになった((
法)。また、パージョン8でREPORTプロシジャが機能拡張し、さらにODS機能に対応したことによりかなり
柔軟な一覧表を作成で、きるようになった((
3
)の方法)。この (
2
)及 び (
3
)の方法について「有害事象一
ワ
t
︒
口
覧表」を例として紹介するが、その前に組み入れた以下の機能について説明する。
(
A
)複数個発現した症例においては最初の l
個目のみ症例情報(性、年齢など)を表示する c
(
B
)発現日と発現までの日数など複数項目を同一セル内に表示する。
(C)コメントなど長しものは折り返して表示する。
(
2
)の方法:テンプレート作成時に (
A
)と(B)の機能を組み込む。 (
A
)は各項目定義で
blank
̲dups"
を指定し、(但
B)土
は
ICOLUMNステ一トメン卜で一つのセルに入れたい項目をカツコで
(
に
C
)
υ
i
土
は HTMLへ出力する際に自動的に折り返し表示となる o また、各項目のセル幅を指定しなければ、
表示する時に自動的にセル幅が割り当てられて期待しないところで折り返すことになるので、あらかじめ
s
t
y
l
e
"の c
e
l
l
w
i
d
t
h
"オプ、ンョンで、セル帽を決めておくとよい。なお、エクスプローラで表示する際に文字
サイズが大きい場合はセル幅が有効とならない場合がある。一覧表の出力は作成したテンプレートを
DATAステップで、指定する(プログラム⑮)。
(
3
)の方法 :REPORTプロシジャはTABULATEプロシジャと同様にプロシジャの中でレイアウトを記述
した後、 ODS HTMLステートメン卜を用いて HTML形式で出力する(プログラム⑪)0 2つのプロク、、ラムを
比較すると、テンプレートの記述と似たものが REPORTプロシジャの中にあることが分かる。組み込む機
能の記述が若干異なっているので解説すると、 (A)は各項目定義の部分で group"を指定し、 (B)は
COMPUTEステートメントにより指定する (
2つの項目を結合するためにダミーの項目名を指定し、元の項
目を非表示にすることと COMPUTEステートメントで項目結合を行う)。また、 style部分の記述が少し異な
2
)及 び (
3
)とも同じ結果であるので、 (
3
)の結果のみ示した(図 11)。
っている。出力結果は、 (
く
program⑮
〉
proc template ;
define table AE ;
column (IDNO GRP) SEX AGE AE (SDATE SDAY) SV SH TK (TDATE TDAY) IR CMT ;
define IDNO ;header="#症例番号# (群) "blank̲dups style={just=c cellwidth=70};end;
define GRP ;
blank̲dups format=grpf.
;end;
define SEX ;header='性, blank̲dups format=sexf. style={just=c cellwidth=10};end;
define AGE ;header='年齢, blank̲dups format=2. style={just=c cellwidth=10};end;
define AE ;header='有害事象名
style={just=L cellwidth=80};end;
define SDATE;header='発現日
style={just=c cellwidth=75};end;
define SDAY ;
format=dayf.
;
end;
end;
ods html file="c:¥Kpr口ject¥ae̲datastep.htm"
data null̲;
set AE ;
file print ods=(template='AE')
put ods一;
run ,
ods html close ;
<program⑪〉
ods html file="c:¥Kproject¥ae̲report.htm"
;
proc report data=AE nowd split='¥1
column IDNO GRP IDGRP SEX AGE AE SDATE SDAY SDD SV SH TK TDATE TDAY TDD IR CMT ;
define IDNO /display group noprint;
define GRP /display group noprint;
define SDATE /display noprint;
define SDAY /display noprint;
define TDATE /display noprint;
define TDAY /display noprint;
define IDGRP /'症例番号判(群)' computed
style(COLUMN)={just=c cellwidth=70};
define SEX /'性
group format=sexf. style(COLUMN)={just=c cellwidth=10};
define AGE /'年齢
group format=2. style(COLUMN)={just=c cellwidth=10};
/'有害事象名
style(COLUMN)={just=L cellwidth=80};
define AE
computed
style(COLUMN)={just=c cellwidth=75};
define SDD /'発現日
compute IDGRP/char length=12; IDGRP=trim(IDNO)1l
' '1Iput(GRP,
grpf.); endcomp;
compute SDD /char length=18 ; SDD=trim(SDATE)1
1
' '1Iput(SDAY,
dayf.) ; endcomp;
compute TDD /char
、l
ength=18 ;TDD=trim(TDATE)1
1
' '1Iput(TDAY,
dayf.) ; endcomp;
run ,
ods html close ;
79
今回の有害事象の一覧表に限っていえば、 ( 2 )または ( 3 )のいずれを用いるかは一長一短があり、ど ちらが良いとは言えなかった。 症押燭号 性 年有害事象名 齢 程度 処置 転帰 9 9 7 / 0 6 / 2 1 程度 0 0 1 0 1 男 3 2ふらつき感 1 ( A ) 2 0日目 継続 悪化 (群) 吐き気 発現日 消失日 因 果 関 係 担当医コメント 投与2 0日目からふらつき感を訴えた 1 9 9 7 / 0 7 / 1 5 ④が程度で患者もさ(まど気にならない 4 3日目 とのことであったため、継続した. 頭痛後継続したが、一昔品1 後に吐き 9 9 7 / 0 7 1 2 0 ④気ももよおすようになったため中止 1 9 9 7 / 0 6 / 2 9 中等度 中止 消失 1 5 0日目 2 8日目 した. 0 0 2 0 3 4 悪心 ( 8 ) 女 2 1 9 9 7 / 0 7 / 2 3 程度 1 4日目 動惨 1 9 9 7 / 0 7 1 2 3 程度 1 4日目 役 与1 4日目 L経い悪心及び富雄が発 継続 継続 消失 1 9 9 7 / 0 7 1 2 8 ② 現した.程度のため判事続できると判 不変 1 9 9 7 / 0 8 / 0 1④ 2 3日目 1 9日目 断した. 図 11.有害事象一覧表の作表例 5 .今後の課題 当初は各プロシジャに用意されている標準のテンプレートを、ユーザーが独自にカスタマイズすること により、自在に図表を作成できると考えていたが、実際にプロク守ラムを作成し始めると、標準のテンプレ ートの加工だけでは要求している帳票を作成することができず、要求に対応するために集計結果を一旦 データセットに落とし、 DATAステツフプρで て出力しなければならないことが分かつた。一方、テンプレートを用いることにより、今回例示したように かなり見栄えもよく、かっ柔軟な図表を作成で、きることも分かった。 6 .おわりに 今回の関西プロジェクトにおいて検討してきた際に、松谷様、渡辺様をはじめとする株式会社 SASイン スティチュートジャパンの方々に協力して頂きましたこと感謝し、たします。また、今回の発表は、総括報 告書に用いる図表をバージョン8の ODS機能を用いてどのように実現できるかが中心で、あったが、今後 は、電子化を踏まえた図表のあり方や総括報告書本文との位置付けなどについても検討していきたい。 また、リリース 8.2では XMLへも対応する予定であり、電子文書化における解析結果の図表とし、うことも 検討していきたし立考えます。 なお、今回発表した内容の詳細およびソースプログラムは、抄録のスペース上省きましたが、関西 SAS ユーザー会のホームページ (http://plaza3.mbn.or・jp/‑sasusergroup/index.html)上ですべて公 開する予定にしております。 参考文献 C h r i sR .O l i n g e r ( I999), "ODSf o rDummies", P a p e r64i nSUGI・25P r o c e e d i n g s C h r i sR .O l i n g e r ( I999), " T w i s t yL it t l eP a s s a g e, A I IAlike‑ODST e m p l a t e sExposed", Paper56i nSUGI・24P r o c e e d i n g s C h r i sR .O l i n g e randR a n d a l lD.T o b i a s ( 1 9 9 8 ), "ODSf o rDataA n a l y s i s :O u t p u tAs‑You‑L ik e ‑I ti nV e r s i o n7 ", Paper 233i nSUGI‑23P r o c e e d i n g s DaphneEwing(2000), "SoNowY o u ' r eUsingPROCREPORT.I sI tP r e t t ya n dAutomated?", Paper1 4 8i nSUGト25 P r o c e e d i n g s 凶 口 i i 日 1 ( 1 9 9 9 ) ν, "Ge 凶 口i n gS t y l 日 i s 泊hw i t hV e r s i o n7BaseRepor 口 t i n g ' ヘPaper190i nSUGI ト ‑ 2 4 DavidK e l l e yandSandyMcNe i P r o c e e d i n g s J .MeimeiMa(2000), " F a s tTrackt oPROCREPORTR e s u l t s ", Paper67i nSUGI‑25P r o c e e d i n g s K i r kP .L a t l e r ( 2 0 0 0 ), "SASOutputD e l i v町 System(ODS)QuickT i p s ", P r e・C o n f e r e n c eSeminori nPharmaSUG・2000 NathanC u r t i s( I999), "TheSASO u t p u tDeliverγSystemf o rDataA n a l y s i s ", ComputerTechnologyWorkshop TheCompleteGuidet oSASO u t p u tD e l i v e r ySystem, V e r s i o n8 . 0 (1 9 9 9 ), Cary , NC:SASI n s t i t u t eI n c W i l l i a mF e h l n e r ( 1 9 9 9 ), "Makingt h eO u t p u tDeliverγSystem(ODS)Workf o rYouヘ Paper6 1i nSUGI‑24P r o c e e d i n g s 岩本光司 ( 1 9 9 9 ) rou 中u tD e l i v e r ySystemを使ってみてー簡単な事例紹介一」第49回関西 SASユ ー ザ 一 会 ‑80
日本 S A Sユ ー ザ ー 会 (SUG I-~) V 8の O D Sによる総括報告書の電子化一関西プロジェクトー その 2 . 有効性評価に関する報告書作成(計数値を中心として) 北日│ 忠行 田辺製薬株式会社 臨床解析部統計解析課 s i n gODSi nSASVersion8 E l e c t r o n i cC l i n i c a lStudyReports( e一CSR)u ‑ KANSAIP r o j e c tー Part2 .Reportingofefficacyanalysis;categoricalvalues T a d a y u k iK i t a g a w a C l i n i c a lS t a t i s t i c sDepartment TanabeS e i y a k uC o . .L td . 要旨 ノ〈ージョン 8で、追加される O u t p u tD e l i v e r ySystem(ODS)機能を用いて、計数値の有効性評 価に関する図表の作成について検討したので 紹介する。また、パージョン8におけるその他 の拡張点についてもしてつか紹介する。 キーワード ODS機能、テンプレート、 FREQプロシジャ、 TABULATEフ。ロシ、ジャ、関西フ。ロジェクト 1 .はじめに 従来、日本で行われたほとんどの臨床試験において、有効性の主要評価項目として順序カテゴリ データである全般改善度が用いられていた。最近は、より客観的な指標を主要評価項目とすることが増 えたため、計量値を用いることが多くなってきたが、依然、有効性の評価項目として計数値を用いること も少なくない。 SASシステムでは計数値の集計、解析を行うプ口、ン、ジャとして代表的なものにFREQフ 。 ロ シジャがある。このフ。ロシジャは多くの統計手法に対応しているだけでなく、 OUTPUTステートメントに よって統計量や検定結果のほとんど、をSASデータセットに出力することができるため、 TABULATEプロ シジャやE x c e l等を利用した、ンステムと組み合わせる手段は報告書における図表の作成に有効で、あり、 筆 者 1)も過去に関西SASユーザー会にてDDE 機能を利用した手法を紹介している c また、 SUGI‑]にお いても同様の手法が幾度か紹介されてきた。(i 列えば小沢らむ) 一方、パージョン8で、はフ。ロ、ンジャの機能が改善されたた、けで、なく、新しく追加されたODS機能を用 しもことにより、全ての出力結果をユーザーが加工し、 HTML形式で、出力することが可能となった。これ により、 E x c e l等の他のアプリケーションと連携を取ることなく図表を作成することで、作業の効率化を図 ることが出来るだけでなく、バリデーションも確保で、きるのではなし、かと考え、検討を行った。 本稿では、計数値データの解析時に有用と思われる新機能を紹介すると共に、 ODS機能を用いて 「有効性の解析」の図表作成を試みたので紹介する。 114 00
2 .r 有効性の解析」の図表作成例 ODS機能については既に岩本 31によりそ の基本的な機能と使い方が紹介されている が、パージョン 8で、はその他にも多くの機能 が追加されている。ここでは ODS機能を用 いた作表例を紹介する前に、 TABULATE や FREQといった比較的身近なフ。口、ンジャを 使用する際に役立ちそうな新機能をいくつ か簡単に紹介する z 例えば有効性の評価が r l.消失 Jr 2 .軽 快 Jr 3 .不 変 Jr 4 .悪化 Jr 5 .不明」の 5つに分 類されていても、実際には r 4 .悪化」と評価さ れた症例は存在しない、とし、うのは良くある <program① 〉 proc tabulate data=WK1; class GROUP HANTEI; tables GROUP= "*(n*f=6. pctn<HANTEI all>), HANTEI=" " all; keylabel n=叶列数" pctn=吋%)" all="計"; format HANTEI HANT1̲F. GROUP GROUP.; run; i 1.消失 1 2 .軽快 1 3 .不変 1 5 .不明│ 計 1 一 一 ー 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 ー + ー ー ー + ー 実薬 │例数 7 1 1 11 │一一一←一一→一一一+ + ーー ー + ー ー ー 4 1 3 1 2 5 ← 一 一 一 ← ー 1 ( % 1 1 28.01 44.01 16.01 12.01 100.0 一 一 一 一 一 一 + ー ー ー 一 一 一 + 一 一 一 一 一 +ー 一 一 一 一 + ー + ー 一 一 ー ー ー + │対照 │例数 1 9[ 6[ 1 1[ 0[ 2 6 [一一ー+ ー+一一一一+一一一+一一一+一一一 [ ( % 1 1 34.6[ 23.1[ 42.31 01100.0 図1.1 9 l ] 数 が 0のカテゴリがある場合の出力 ケースであるが、このようなデータをそのまま TABULATEフ。口、ンジャで、集計すると図 1のよ うに例数が Oのカテゴリは表示されない(プロ グラム①),表示するにはデータを加工する なとやの工夫が必要であったが、パージョン 8 では、表示したい全てのデータ値を含む データセットを作成し、新しく追加された CLASSDATAオフ。ションに指定することで、 容易に可能となった(フ。ロク、、ラム②)c また、パージョン 8では FORMATプロシ ジャにおいて MULTILABELオフ。ションを指 定することにより、同じ値を複数の範囲に含 むフォーマットの作成が可能となった。この 機能は TABULATEプ口、ンジャに追加された MLFオフ。ションを組み合わせることにより、 例えば図 3のように、あるカットポイント以上 の例数や率を集計表に付記したい場合など に有効と思われる(フ。ロクゃラム③)。ただし、 この機能を用いて集計表を作成した場合、 ORDER=INTERNALと指定しても表中の配 列順序がフォーマット化した値の昇1 1 [ 買となっ てしまうため、注意が必要である。 <program② 〉 data DUMMY; do GROUP=1 to 2 ; do HANTEI=1 to 5 ; output; end; end; run; proc tabulate data=WK1 classdata=DUMMY; [1.消失 1 2 .軽快 [ 3 .不変 [ 4 .悪化 [ 5 .不明│ 計 図2 .CLASSDATAオプションの使用例 <program③ 〉 proc format; value HANT2̲F(multilabel) 1="1.消失 n ••• 1̲ 5 = 1 1計1 1 1‑2="軽快以上"; proc tabulate data=WK1 classdata=DUMMY; class GROUP HANTEI/mlf; tables GROUP=" " *(n*f=6. rowpctn), HANTEI=" " ; keylabel n=叶列数" rowpctn="(%) ; format HANTEI HANT2̲F. GROUP GROUP.; run; [ 1 l 一一一一一一一+一一一一+一一一+一一一一←一一一一+一一一+一一一ー l 実薬 l 例数 [ 7[ 1 1[ 4[ 0[ 3[ 25 l 一一一+一一一一+一一一+一一 +一一一+一一一+一一 [ ( % 1 1 28.0[ 44.0[ 16.0[ O . O [ 1 2 . 0 [ 100.0 一 ー ー ー 一 一 + 一 一 一 一 ー ー + ー 一 一 一 一 一 + 一 一 ー ー ー + 一 一 一 一 + 一 一 ー 一 一 一 + ー ー ー ー ー ー + 一 一 一 一 ー 6[ 1 1 1 0[ 0[ 2 6 対照 │例数 9[ │ 一一+ → ー + ー → ‑ ←ー + 一一 [ ( % 1 [ 34.6[ 23.1[ 42.3[ O.O[ O . O [1 0 0 . 0 [ [ 1 軽快以 l 上 +一一 + ー [ 1.消失 1 2 .軽快 1 3 .不変 [ 4 .悪化 [ 5 .不明 l 計 │ー一一一一一 ←一一→ +一一一→一一一←ー │実薬 l 例数 7[ 1 11 4[ 0[ 3[ 2 5[ 1 8 1 一一一+一一一一+一一一+一一 →一一一← 一 ← ー +一一一 [(%) [ 2 8 . 0 [ 4 4 . 0 [ 1 6 . 0 1 O . O [ 1 2 . 0 [1 0 0 . 0 [ 72.0 │ー一一一+一一一一←一一→ ー←一一 ← ー ー + ー + 一 一 + ー l 対照 l 例数 9[ 6[ 1 11 0[ 0[ 2 6[ 1 5 [一一一+一一一+一一一+一一一+一一一←一一一+一一一+一一一 1(%) [ 3 4 . 6 [ 2 3 . 1[ 4 2 . 3 [ O . O [ O . O [1 0 0 . 0 [ 57.7 図3 .MULTlLABELオプション、 MLFオプションの使用例 ‑82一
他に TABULATEフ。口、ンジャに追加 された機能としてキーワード ROWPCTN,COLPCTNがあるつこれ までは、例えば行の合計に対する百 Nu ‑3 等号(<>)で分母とする値を指定する 必要があったが、パージョン 8で、はプ I HANTEI n H ①のようにキーワード PCTNの後に不 proc freq data=WK1; tables HANTEI/bin; ーO UT bin; output out=WK format HANTEI HANT3̲F.; 3‑5='不変以下 BB; n ‑ 分率を出力したし、場合はフ。ログラム <program: 1 J > proc format; value HANT3 F 1‑2='軽快以上 累積 度数 パセント 度数 ログラム③のようにキーワード │軽快以上 │不変以下 ROWPCTNを利用することで指定が 3 3 1 8 簡単になった。 H A N T E I の二項分布の割合 6 4 . 7 1 3 5 .2 9 累積 パーセント 3 3 5 1 6 4 . 7 1 1 0 0 .00 =軽快以上 についても 1点紹介する c リリース 6.12 以降、 RISKDIFFオフ ションを指定す 0 . 6 4 7 1 0.0669 0.5159 0.7782 正確な信頼限界 95%信頼下限 95%信頼上限 ハUハU FREQプロシジャに追加された機能 割合 ;斬近標準誤差 9 5施信頼下限 9 5 犯信頼上限 3 り 、 1群の場合の率の信頼区間と符号 検定の結果を計算することが出来る 帰無仮説が正しいもとでの漸近標準誤差 片側 P r> Z 両側 P r>I ZI サンプルサイズ=5 1 リリース 8.1(日本語版)では図 4のよう 図4 .BINOMIAL ( B I N ) オプションの使用例 に出力を日本語で得ることができるつ メントにより計算結果を データセットに出力するこ とも可能であるつ図 5は、出 力したデータセットに若 干の加工を施し、集計結果 と共に ODS機 能 を 用 い て HTML形 式 で 出 力 し た 例 0.0700 2.1004 0.0178 0.0357 Z ようになった(プログラム④)。なお、 また、 OUTPUTステート •• 割 合 = 0.5 に対する検定 パージョン 8で は BINOMIAL(又は BIN)オフつションを指定することによ Rコ d 7' ﹁ 信頼区間を計算することが出来るが、 J 守7 ' nU ハU 守J ることによって、 2群 の 率 と 率 の 差 の <program⑤〉 data WK̲OUT2; set WK̲OUT; CONF̲INT=put(XL̲BIN 100, 4.1)1 1• ~川 Iput(XU_BIN 合 100 , 4.1) ; 女 ods html file='c:¥Kproject¥output5.htm'; proc tabulate data=WK1 classdata=DUMMY f=6.1; class HANTEI/mlf; tables … proc print data=WK ーO UT2 1 noobs split='*ロ ; var CONF̲INT; label CONF INT= 軽快以上の率の女両恨IJ95%信頼区間(%)'; run; ods html close; である(プログラム⑤)。 1 消失 2 .i [ i ' t 央 3 .不変 何] 1 数 16 17 15 (%) 3 14 3 3 .3 29.4 斬 なお、 SASシステムでは i 近的な信頼区間と正確な 信 頼 区 間 の 2つが出力さ れるが、正確な信頼区間が 4 悪化 5 .不明 。 。 。 33 5 .9 100.0 6 4 .7 軽快以上の率の 両側 95%信頼区間(%) 用いている。 軽快以上 5 1 3 用いられるのが一般的で あり、この例でもそちらを 計 5 0 .1~77. 6 図5.0DS 機能を用いた出力結果 qd o o
このように、標準のテンプレートを使用するだけでも従来より見栄えの良い図表を作成することができ
るが、プロシジャから出力されたデータセットを加工したり、テンプレートを独自に作成することで、よ
り柔軟な図表を作成することが可能である。ここで怯 2群の改善率を F
i
s
h巴r
の直接法で、比較する場合を
想定して「有効性の解析」に関する図表を作成した例を紹介する。
集計表部分は TABULATEプロシジャを用いたが、累積改善率を追加するため、 ODSOUTPUTス
テートメン卜を用いて集計結果 (Repo口)を一旦 SASデ、ータセットに出力した c そして DATAステップ。で、累
積改善率を計算して、再びTABULATEフ。ロシジャで、作表した(フ。ログラム⑥)。この際、フォーマットを
<program
⑦〉
ods output CrossTabFreqs=WK̲FREQ
RiskDiffCo11 =WK DIFF
FishersExact =WK̲FISHER;
proc freq;
tables GROUP JUDGE/fisher riskdiff;
format JUDGE JUDGE̲F.; run;
ods output close;
<program⑤〉
ods output Report=WK̲TAB;
proc tabulate;
ods output close;
合
data WK̲TAB2; set WK̲TAB;
data WK̲ESTIM;
set
proc format; value xf low‑high='bold';
ods html file='c:¥Kproject¥output6.htm;
proc tabulate data=WK̲TAB2;
classlev GROUP VAR/
style={vjust=c just=c cellwidth=45};
tables GROUP
(
n {style={font̲weight=xf.}}
ods html file='c:¥Kproject¥output7.htm';
data ̲null̲;
set WK̲ESTIM;
file print ods=(template='xxx');
put ̲ods̲; run;
ods html close;
合
合
ods html close;
著明
改善
実薬
程度
改善
不変
悪化
。
計
3
仔IJ数
7
1
1
4
%
28.0
44.0
16.0
0.0
12.0
(
2
8
.
0
)
(
72
.
0
)
(
8
8
.
0
)
(
8
8
.
0
)
(
1
0
0
.
0
)
9
6
1
1
3
4
.6
2
3
.1
4
2
.3
0.0
(
3
4
.6
)
(
5
7
.
7
)
(
1
0
00
)
(
1
0
0
.
0
)
(累積%)
例主主
対照
中筈度
改善
%
(累積%)
。 。
。
。
25
26
(
1
0
0
.
0
)
推定結果
評{面指標
中筈度~~蓉以上
点推定値(?6)
実薬
立守照
差の点推定恒例)
72.0 (18/25)
57.7 (15/26)
14.3
実薬ー対照
検定結果
検定手法
p値
Fish巴「の直掻法
P
=
O
.3日2
5?6信頼区間(?6)
差 の9
‑
1
1
.6~ 40.2
伍M
表
作
戸町一
の
解剖
の一
n
u
性
効
有
図
用いて例数を太字で表示している。なお、 HTML形式で出力した場合、指定しなければ表中の各セル の幅は文字列の長さによって自動的に割り当てられるため、この例のように列の見出しの長さが大きく THオフ。ションによりセル幅を指定しておくとよいっ 違う場合には CLASSLEVステートメントで、 CELLWlD 2値として扱うため 一方、推定結果及び検定結果は、姐自に作成したテンフ。レートを用いたc まず、 ( フォーマットを用いた上で )FREQプロシジャのクロス表部分 (CrossTabFreqs)、率の差の信頼区間 ( R i s k D i f f C o l l )、検定結果 ( F i s h e r s E x a c t )をそれぞれ ODS機能を用いてデータセットに出力し、それら をDATAステッフ。で力日工、結合してテンプレートの形式に合わせたテ ータセットを作成した 3 そして、そ c れを DATAステップ。の ODS機能によりテンフ。レートを用いて出力した(プログラム⑦)。 3 .ODS機能を使用してみて このように ODS機能の利用によって SAS、ンステムで、の図表作成が実現するが、実際に作業をしてみ て幾っか気になった点もあるので紹介する。 まず、当初はテンプレートさえカスタマイズ、すれば DATAステップc等による加工を行うことなく、プロシ ジャの出力結果をそのまま使って図表を作成で、きるので、はないか、それによってノ叩デーションも確保 できるのでは、と考えていた。更に、 {~1 えばTABULATEフ。口、ンジャの標準テンフ。レートをカスタマイズ、す るなどすれば、フ。口、ンジャレベルで、は解決で、きない複雑な形式の図表の作成も可能だろうと期待してい た。しかし実際には、 TABULATEフ。口、ンジャや FREQフ。口、ンジャのクロス表の出力は特殊で、あり、通常の テンプレートとは別の方法で管理されているためユーザーによるカスタマイズ、は出来ないようである ま G た、ユーザーが姐自に作成するテンプレートでは出力形式の制御に限界があるため、任意の形式の出 力を得るにはやはり DATAステッフ。による加工を必要とすることが分かつた。 また、 ODS機能により全ての 必ずしも加工しやすし、とは言え する方法は既に紹介したが、こ の結果を ODS機能を用いて SAS デ ータセットに出力すると、右に L a b e l 1 c V a l u e 1 n V a l u e 1 H A N T E [ H A N T E [ H A N T E [ H A N T E [ H A N T E I H A N T E I H A N T E I H A N T E I 割合 漸近標準誤差 9 5自信頼下限 9 5施信頼上限 0 . 6 4 7 1 0 . 0 6 6 9 0 . 5 1 5 9 0 . 7 7 8 2 0 . 6 4 7 0 5 9 0 . 0 6 6 9 1 7 0 . 5 1 5 9 0 3 0 . 7 7 8 2 1 4 正確な信頼限界 9 5 %信頼下限 9 5 %信頼上限 0 . 5 0 0 7 0 . 7 7 5 7 0 . 5 0 0 6 8 2 0 . 7 7 5 6 9 4 fno qdAU マ FhJVFhu づ ない場合もある。例えば FREQプ 口、ンジャで、率の信頼区間を計算 T a b l e t nノ ﹄ 取り込むことが可能となったが、 OBS 可 出 力 結 果 を SASデータセットに 図i .ODS機 能 を 用 い て 作 成 し た デ 示すように、正確な信頼限界の タセット 上限と漸近的な信頼限界の上限 [ する を変数 Labell'こよって区月1 ことができなし、(どちらも 195% { 言 O b s N B [ N E BIN L BIN U BIN X LB[N XU BIN 5 1 0 . 7 7 8 2 1 0 . 6 4 7 0 6 0 . 0 6 6 9 1 7 0.51590 0 . 5 0 0 6 8 0.77569 頼上限 J )。このように、 ODS機 能 によって作成されるデータセット 図8.0UTPUTステ トメン卜による出力テー タセット はユーザーが更に加工すること を前提にしている訳ではないように思われるため、フ。ログ、ラミング〉時には注意が必要で、ある。 85‑
4 .おわりに 前述のように、自在に図表を作成するためにはテンプレートのカスタマイズのみでは不十分で、あり、 DATAステップ等による加工を必要とするため、フ。ロシジャの結果をそのまま用いることによるバリデー 等の他のソフトウェアを利用したシステ ションの確保は難しいようであるつしかし、これまで、各社とも Exc巴l ムを開発してきたが、 ODS機能を利用して SASシステムの中で図表の作成が可能となることは、他のソ フトウェアに依存しないとし、う点で大きな意味を持っと言えるだろう。また、 HTML形式に出力することに より、見栄えが向上するだけでなく、フレームやリンクなどの機能を利用できることは、総括報告書の電 子化への対応を考えると興味深い。 今回の検討は汎用的なシステムの開発を目的したもので、はないため、使用する場面を限定してプロ グラムを作成したが、マクロ化することにより複数の手法や多様な状況に対応することも可能となる。総 括報告書への活用の仕方も含め引き続き検討したい。 参考文献 1 )北川忠行 ( 1 9 9 8 )i 臨床試験データの SASとE x c e Iの連携について」第 48団関西 SASユーザー会 2 ) 小沢義人,吉田彰夫 ( 1 9 9 4 )iWindows版 SASシステムの動的データ交換 (DDE)による M i c r o s o f t Exc巴!とのデータ交換マクロの作成 JSUGI-J' 94 論文集 p415~420 3 ) 岩本光司 ( 2 0 0 0 ) iv8の ODSに よ る 総 括 報 告 書 の 電 子 化 一 関 西 プ ロ ジ ェ ク ト その1. W h a t ' sODS? (開発の経緯と今回利用した ODS機能の紹介 ) JSUGI‑J2000論文集 4 ) Rog 巴rS taum(2000), "SAS S o f t w a r eF o r m a t s : Going Beneath t h eS u r f a c e ", Pap巴r 2i n SUGI‑25 P r o c e e d i n g s 5 ) SASI n s t i t u t巴( 1 9 9 9 )Th巴Compl巴t eGuid 巴t oSASO u t p u tD巴l i v 巴r ySystem,V e r s i o n8 . 0,Cary,NC: n c . SASI n s t i t u t巴 I 86‑
日本 S A Sユーザー会 (SUG I-~) V 8の O D Sによる総括報告書の電子化一関西プロジェクトー その 3. 有 効 性 評 価 に 関 す る 報 告 書 作 成 ( 計 量 値 を 中 心 と し て ) 鍵村達夫 日本ベーリンガーインゲルハイム株式会社 医薬開発本部臨床統計部統計解析課 E l e c t r o n i cC l i n i c a lStudyReports(e‑CSR)usingODSi nSASVersion8 KANSAIProject一 Part3 .Reportingo fe f f i c a c ya n a l y s i s ;continuousvalues TatsuoKagimura S t a t i s t i c a la n a l y s i s,B i o s t a t i s t i c sD i v i s i o n NipponB o e h r i n g e rl n g e l h e i m,LTD 要旨 パージョン 8の OutputD e l i v e r ySystem (ODS) 機能を用いて,計量値の有効性評価に 関する図表の作成について検討したので紹介する。また、パージョン 8におけるその他の拡 張点についても簡単に紹介する。 キーワード:総括報告書、電子化、 ODS機能、テンプレート、 MEANSプ口、ン、ジャ、関西フ ロジェクト o 1 . はじめに 臨床試験に限らず血圧値や臨床検査値などのいわゆる計量値の要約方法として、平均や中央値な どの記述統計量を求めてデータの要約統計量を記述することが推められている c そのため、臨床試験 の総括報告書等においては、通常 》 背景因子やベースラインデータ T Endpointの経時推移 臨床検査値、パイタルサインの推移 などの記述統計量の表が作成されることが常である。また表中には前後の差の記述統計量や検定が 含まれることもあり、また重要な指標についてはグラフ化することにより視覚的に変化の推移を評価する 》 ことができるようにすることもある。 SAS では、変数の記述統計量を算出するプロシジャとして、 UNIYARIATE、MEANS、TTEST があ r8では ODS機能を用いて算出結果の取り込みが可能になったことに止まらず、 MEANSプロシ る 。 Ye. ジャで、中央値、四分位範囲など順位に基づく記述統計量の算出、 TTEST プロシジャで対応のある t検 定ができるなど、これらのプロシジャの機能も大幅に改善された。 また Yer .8 においては、計算結果を直接 TEMPLATEプ口、ンジャを用いてユーザーが任意に作成し た出力形式 (UserDefinedTemplate)に HTML出力させることができる。また、プロシジャの結果を ODS ワt 口 o
機能を用いて一旦 SAS‑Datasetに出力し、その後、ユーザーが任意に作成した出力形式に HTML 出 力させることもできる。 今回、 MEANSプロシジャの新機能を用いて SASVer .8上で総括報告書に通常用し、られる記述統計 量の作表を試みたので報告する。 2 .標準プロシジャで、の図表 ここでは ODS機能を用いた作表例を紹介する前に、パージョン 8 で、プロ、ンジャの直接の出力をど、の程 度までユーザーがカスタマイズできるかについて MEANSとGPLOTプロシジャを例に検討したので簡単 に紹介する。 <program①〉 proc means data二 W K ln onobs nmean s t d d巴vm a x q3 median q lm i n ; c[ass n o m w k ; v a rs y sd i am e ap r r u n ; MEANS プロシジャの 最も注目すべき拡張点 は中央値、四分位範囲 など順位に基づく記述 統計量の算出が可能に なったことで、あろう(プログ ラム①)。 W e e k sV a r i a b l eL a b e l o1SYS N 札l e a n S t dD e v u a r t i l e M ‑ : >x i m u m Up同 rO M e d 由n L 。 、 時rO u a門的 h 届n r m u m 脈拍.~ 6 1 1671311475 100074562 6 1 1011639344 5.7101673 6 1 123147541日 50426054 7 59344262 120012067 6 1 206.0000000 1 1自 0000000 135.0000000 119.0000000 1720000000 164.0000000 1050000000 100.0000000 1270000000 1220000000 8 00000000 7 50000000 1600000000 150.0000000 9 60000000 900000000 1190000000 1100000000 6 80000000 520000000 拡張期血圧 収縮期血圧 平均血圧 I m l白書h 3 . 0日17133 4自 0769231 1 52 1 日1 505 1 9230769 74日 52 9 7.9959454 52 1105769231 50 7 59000000 109493267 184.0000000 110.0000000 135.0000000 116.00000日 日 1565000000 1500000000 970000000 900000000 115.0000000 110500日日日日 8 30000000 755000000 1400000000 1200000000 日 8800000日 7 70000000 1070000000 930000000 6600000日 日 600000000 D I A M E A PR 続E 長期血圧 収縮期血圧 平均血圧 I m l自叡 日 50 1477200000 141046236 18300000日 5日 百9120日日日日 74385647 104.0000000 50 10自 6400000 84726691 128.0000000 50 748400000 104400328 96.0000000 1600000000 1460000000 9 400000日 日 880000000 日 1 06.5000000 11500000日 日30000000 7 50000000 1360000000 1200000000 8 40000000 700000000 1030000000 870000000 660000000 580000000 6 1SYS 拡張期血圧 53 1432075472 106470626 目 2 264151 8504自437 53 日 53 1065660377 79384881 7 4 1 1 5 3 8 4 6 93591810 52 1480000000 1430000000 9 40000000 日日日日日日日日日 1120000000 1050000000 日00000000 72.0000000 1370000000 1200000000 8 40000000 700000000 1030000000 9 10000000 675000000 5000日0000 D I A M E A PR 2 1SYS D I A M E A PR 4 1SYS D I A M E A PR 拡張期血圧 収縮期血圧 平均血圧 4~~百期血圧 平均血圧 I m l自制 170.0000000 114.0000000 1330000000 102.0000000 図1 .プログラム①のデフォルトの出力 岩 本 1)が示したようにこの出力は、 MEANS プロシジャが自動的に結果データ部分 ( D a t a コンポーネ ン卜)を作成し、出力のためのレイアウト部分( I くL O G①〉 Output A d d e d : Template コンポーネン卜)を用いて HTML 出 力したものである。実際に MEANSプ口、ンージ ャが用いたテンプレートを知りたい場合は、プ ログラム①の前に ODSτ' raceo n; N a m e : Lab巴[: T e m p [ a t e : P a t h : Summary Summary stati s ti c s bas巴.summary Means.Summary を加えて実行すると MEANS プロシジャが 用いたテンプレート名が LOG に出力され( LOG①)、これより MEANSプロシジャは base.summaryとしづテンプレートを使用していることが判る c こ の SASが提供してしも標準の base.summaryテンプレートは、 TEMPLATEプ口、ンジャのプロク守ラムの形 でブラウズできるので、それを雛形に出力の有効数字や表示タイトノレなどの変更を行うと図 2 .のような 出力を MEANSプロシジャの標準の出力として得ることができる。 ここで、ユーザーが作成した base.summary テンプレートは、ユーザ一定義テンプレートとして、標準 のテンプレートとは別のカタログに保存されるので標準のテンプレートが無くなってしまうことはないが、 ユーザ一定義テンプレートを削除かリネイムしない限り MEANS プロシジャの標準出力として使用され 回 続けるので注意が必要である。
テンプレートは HTML 出力の列の形式を制御を するので Varステートメント Weeks Label 日 で複数の変数を指定した ~liH白書E 場合、有効数字を変数毎 に変えることはできない。 また、 MEANS プ口、ンジ 拡張期血圧 収縮期血圧 平均血圧 2 拡張期血圧 収縮期血圧 平均血圧 脈拍数 ヤは t統計量と p値 、 95%信 頼区間を出力することがで 4 拡張期血圧 収縮期血圧 平均血圧 日f 白 書t 1 きるので差の変数を指定し た場合、群内検定結果を 出力することはできる。し かし符号付順位検定や符 日 拡張期血圧 収縮期血圧 平均血圧 脈拍数 N r v 1 ean v e x P75% r SD t v 1 edian P25弘 Min 6 1 6 1 6 1 6 1 1 6 7 . 1 1 0 . 0 1 2 5 1 0 1. . 7 1 1 2 3 . 1 5 . 0 4 7 5 . 9 1 2 . 0 0 206 1 1 8 1 3 5 119 1 7 2 1 口5 1 2 7 日D 1 6 4 . 0 1 0 0 . 0 1 2 2 . 0 750 1 6 0 9 6 119 6 8 150 9 0 1 1 0 5 2 5 2 5 2 5 2 5 0 目 1 4 8 . 1 1 3日 9 19 7 . 49 1 1 0 . 6 日日日 759 1 0 . 9 5 1 8 4 110 1 3 5 116 1 5 7 97 1 1 5 自3 1 5 0 . 0 9 0 . 0 1 1日5 7 5 . 5 140 1 2 0 5 0 5日 5 0 5日 1477 1 4 . 1 0 . 4 4 8 9 . 1 7 1086 8. 47 7 4 . 8 1日4 4 183 1 0 4 1 2日 9 6 160 9 4 1 1 5 8 3 5 3 5 3 5 3 5 2 1432 1 0 . 6 5 8 8 . 2 8 . 5 0 1 0 6 . 6 7 . 9 4 7 4 . 1 9 . 3 6 1 7日 1 1 4 133 102 148 9 4 112 日 日 日 日 77 107 6 6 9 3 白 日 1 4 6 . 0 8 8 . 0 1 0 6 . 5 7 5 . 0 136 日4 1日3 6 6 120 7 0 日7 5 8 1 4 3日 8 8 . 0 1 0 5 . 0 7 2 .0 1 3 7 日4 1 0 : 3 6 8 120 7日 9 1 5 0 号検定には対応していな いので、その場合は 図 2 プログ、ラム①のユーザー定義テンプレ トを用いた出力 UNIVARIATE プロシジャ を使用する必要がある。 グラフ出力についてはすでに岩本 1 )が示したように、 goptionsの deviceの指定を activeXとすれば ACTIVEX形 <program②〉 goptions device=activeX: 式の出力を得ることができる(フ。ロク、ラム②) Oevice は標準 symbo1 i =stdlj : では GIF で特に指定しない限り GIF 形式のグラフファイル proc gplot data=WK1: 0 が得られる。 Oeviceの指定としては他にも BMPでピットマッ プ形式、 JPEG で JPEG 形式、 TIFFP で TIFF 形式、 W M F plot sys*nomwk run; qUlt: でメタファイル形式のグラフを作成することができるつ 抵張期血圧 220 200 160 TIltpi 180 140 120 100 rTr'1‑ITTr[‑‑I‑lITrr‑' ' [11' r11'1‑1r1I 11'1 図 3 .ACTlVEX形式での出力伊l 8 9
SAS が作成する i汀 M Lファイルは、 ods f ile二 円 XXX.htll1"で任意の出力先が指定で、きる。指定しない l 1porary Files デレクトリー (work ライブラリーと同じデレクトリー)に作成される。これは 場合は、 SAS Tel SASが終了すると自動的に削除されてしまうので注意が必要である c H T M L の出力はプロシジャ単位で、行われる O そのため複数のプ口、ンジャを連続して動かして結果を 得るような場合、 Ver6 . 1 2ではすべてのプロシジャの処理が終了しない限り結果を参照することができな かったが、 V8で、は一連のプ口、ンジャの起動中でも終了したフ ロシジャから結果を参照することがで、きる c O これは臨床試験の Key Open解析などで、完了した解析カも随時結果を表示することができるので事実 上待ち時間が 0となりとても有効な機能である。 3 . 記述統計量の作表 実際の総括報告書で使用される表の形式は、作成者の好み(表示する統計量、統計量の表示順序、 有効数字の取り方など)もあり多種多様となっており、ユーザー定義テンフ。レートを用いてもプロシジャの 標準の出力では通常対応することができない c そのため O D S 機能を用いて集計結果を一旦中間的な SAS データセットにとり、それを加工して再度ユーザー定義テンプレートを用いて出力させる必要があ る 。 か計にテと法り結 引克小ス法制通出 ル己夕刊いもいの間 ︐令市町シ ξ二 算 ︑述セ t 方丘 αじあ 二十日開閉ゆ臨 ら量取一 ③〉 く program ods output summary二 MEANSl; proc means dataニBG nonobs n mean stddev max q3 median ql min; var AGE W T EPSYS; run; ods output close; ‑ 丁 前 ︑ ノ バ υ 実 ヤ ︑ ソJ J)J f 斗 l酌 ロ フ め み む た 的 ノ 込 Tha 取 を J ツ セ タ 一ア 果 A ︑ 円 u ︑ 円 を N さ凶宏ト鮮プ州初 日 出 引 一 刻 ル バ wom M 算をるト五 f るO 3 . 1 M E A N Sプロシジャの作成する S A Sデータセット 々 u t p u t . oj e c t ‑ s p e c I l う ' " c at I o n=SAS‑dat a . s e に odsoutputo を記述することにより指定した統計量を指定した SAS データセットに取り込むことができる。 output‑object‑ specification はそのプロシジ、ヤが使用するアウトプットオブ ジェクト名で、前述の O D S Trace on を指定することで L O G に出力される。 M E A N S プロシジャは SUI l 1 1 l 1ary とい うアウトプットオブジェクトを使用するが、通常のプロシジャ は複数のアウトプットオフ守ジ、ェクトを使用しており、それらを 指定することによって異なった統計量を SAS データセット に出力させることができる。 図 4は、プログラム③を実行させたときに O D S が作成 する SASデータセットの構造である。 VARステートメントで複数の変数を指定した場合、変数 名に Meanなどの対応した統計量名を付与した変数が作 成されて横長の SAS データセットが作成される。 O D S の 作成する SAS データセットの構造と OUTPUT ステートメ Variable Iype FormatLabel VNameAGE Char V a r i a b l e Label̲AGE Char L a b e l AGEN AGEMean AGEStdOev AGEMax AGEQ3 AGEMedian AGEQ1 AGEM i n VNameWT L a b e lWT WTN WTMean WTStdOev WTMax WTQ3 WTMedian WT̲Q1 WTM i n Num BEST2. I N Num BEST12 Mean f 、 Jum BEST12 StdOev Num BEST12 Maximum Num BEST1 2 UpperQ u a r t i l e Num BEST12 Median f 、 Jum BEST12 LowerQ u a r t i l e Num BEST12 Minimum Char V a r i a b J e Char L a b e l Num BEST2 I N Num BEST 12 Mean Num BEST12 StdOev Num BEST 12 Maximum Num BEST12 UpperQ u a r t i l e 12 Median Num BEST Num BEST12 LowerQ u a r t i J e Num BEST12 Minimum ン卜の作成する SASデータセットの構造は異なっており目 的に応じて使い分ける必要がある。これは M E A N S だけ ‑90 図 4. M E A N Sプロシジャの作成する テ ータセットの構造
ではなく FREQ、UNIVARIATEなど OUTPUTステートメントが使えるプ口、ンジャに共通する問題で、ある 3 . 2データ加工後のユーザー定義テンプレー 卜による出力 <program④〉 d a t aM E A N S1; s e tM E A N S l・ プログラム④では、変数毎に有効数字を変えた f o r m a ta g e ̲ m e a n5 . 0 ; 出力を行うプロクザラム例で、ある c f o r m a tw tm e a n5 . 2 ; f o r m a te p s y sm e a n5 .1; 出力させる変数毎に出力 F o r m a tを D a t aステッ r u n a t a n uI I プで与えた後に、 MEANS プ口、ンジャが標準的に d s e tM E A N S l 用いる b a s e . s u m m a r yテンプレートに D a t aステップ f i l ep r i n to d s= ( template ニ. b a s e .s u m m a r y ' 土で出力する変数を与えている。 c oI u m n s =( l a b e lニ l a b e l ̲ a g e( g e n e r i c二 o n ) 出力するテンプレート名、出力項目、出力項目 n = a g e ̲ n ( g e n e r i cニo n ) に送る SAS データセットの変数名は日 l ep r i n t M e a n ニa g e ̲ M e a n ( g e n e r i c = o n ) l a b e l = l a b e l ̲ w t ( g e n e r i c = o n ) ODS=();の中に記述する。 n = w tn ( g e n e r i c = o n ) T e m p l a t e '中に使用するテンプレート名を M e a n=wt̲Mean ( g e n e ri c = o n ) l a b e l = l a b e l ̲ e p s y s( g e n e r i c = o n ) 指定する。プログラム④の場合は標準テンプレート n =epsys̲n ( g e n e r i c = o n ) M e a n =epsys̲Mean(genericニo n ) を指定したが、ここで、ユーザー定義テンプレートを ニ 指定して出力形式をカスタマイズ、したものを指定す ることもできる c Columns=( )の中にはテンプレート中で定義され p u t o d sー ; r u n ているカラム名に出力させようとする SASデータセ ッ卜中の変数名を指定している c ここでは紙面の都合上、項目名 A n a l y s i sV a r i a b l e 、例数と平均のみを指定したが標準偏差、中央値など他の項目 の指定を行えばそれらに対応した HTML出力が得られる。 実際上の問題としては、これら Columns=()の記述は日 l eステ ー卜メント中の記述であるので記述できる文字数に制限があるた めあまりたくさんの指定ができない。つまり一度に表示できる項 目の数やカラムの数には制限があるとし、うことになる。 L a b e l NIMea n 年齢 2 0 5 6 1B 6 42 7 6 5 . 4 2 0 1 体重 丞準血圧収縮期 図5 .プログラム④の出力 3 . 3 記述統計量の作表例 実際の総括報告書で使用される表の形式が多種多様であるとし、っても、表示する項目をどの l 頃(群 別、時期別、項目別)で出力させるかとしづ表示1 ) 債で大別することができる。さらに表示する統計量を如 何にするかとしウ分類と、差の値を横に出力するのか下に出力するのかとしづ表示の形式で分類できる と考えた。なお表示する統計量はデータの性状を記述するとし、う目的から例数、平均、標準偏差、最小 値、下側四分位点、中央値、上側四分位点、最大値とした。また必要に応じて差の検定統計量、 95%信 頼区間を表示するもめとした。 表示項目 1目 .変数、群、時期の出力順序の組み合わせ 3X2=6通りの表示1 ) 贋序 出力形式 .各時期の統計量の出力(差の統計量を出力しなし、) .各時期の統計量の横に差の統計量を出力 .各時期の統計量の下に差の統計量を出力 3通りの表示形式 汎用マクロと表示項目│慣に対応する 6種類のユーザ一定義テンプレートを作成し、テンプレートへの υ 円同
出力を D a t aステップで制御する SASプロクーラムを作成することにより 6x3=18通りの表示形式に対応 する記述統計量の作表を行った。 群ー時期ー項目順 E 下ー項目ー時 W l j [ 頂 Des c r i p t i v eS t a t i s t回 IValue Desc l~Dti", e St 計 回 目 !Val岨 I I I ωロ ! tem Name Vist G, 20m, 制問血圧! "町明血圧 、!n P2 5~ 目 n S tdDev , N 1M 。 3311666 1540 1 7 2 、 晶 、A ' " 1461 "日 9 1 2日 1 3 6 1480 1531184 .128 '481 1 5~5 1221 1 3 6 1495 1 6 2 " . 9 0 03 s o " 900 1061118 ( < . 11 7 0 890 951104 7 日 3311014 7 " 明日嗣血圧丁 160 2128 2128 'Om可 副 長 則 血 圧 t ‑ . . 1 e dian P75 970 1 5 0 " ' 895 ~ 1 0口 日 " " 1 日5 0 1 5 5 1 6 0 1550 1 7 2 20' 1 5日3 )1 1 l 1f 2 0 "5 1520 1 5 9 1 6 0 '122 1472 1 2日4 1 2 0 1 4 2 1450 1 6 0 1)0 1 1 2 212' " '" " ' " " " " ' " ' ')22 920 1000 1 0 5 1 7 900 9 7I 1 0 9 8 0 815 92) 1 0 2 昭埼明血圧 量刑血圧 41 正f 印日明血圧 ル~x 1 8 ' B O 881 9 0日 971110 1361 1495 1 5 ' 服縄問血圧 291 918 703 住帰瑚血圧 2911491 2 2 1525 1 収S 菌剤血圧 281 995 B41 7 0 箆I!期血圧 2811678 1 日5 0 昭晴朗血圧 2811009 ' " 留縄問血圧 2411503 ' " " 1 ‑ 4 ‑ 5 4 1 ‑ ‑152D 2 0 1197 1 4 昭崎矧血圧 2'1 9 2日 目 下4 1 1 伍混同血圧 22 1 1'72 1 2a~ 1 2 0 暗唱団 l 明 血圧 221 986 '14 B O "3 日4 9SJ 1 96j 1000 ' " 206 1 0 5 1 1 2 1 5 ' 1 5 B 911109 142i 1450 1 0 0 1 7 0 !n I 1 日2 V~t 口roup ItemName Nl~a 門 S出Dev 九ln P25' k毎dian P75 ル~x 970 1 5日 " 日 16'0 1 7 2 1 9 ' 206 収縄問血圧 3311日 " " . 9 0 9 7 1 日00 10' 1 1 8 4 日m, t 丘3 長期血圧 2911618 1日5口 1 5 5 ' 0 0 1650 1 7 2 20' 4日m, 28110日9 1000 1 0 ' " ' ' " 90 9" l6 1 0 1 2 5 1 0 5 1 収荷捌血圧 2911日 日9 9 6 口 日 日 1 1 0 5 1 1 2 2日m, 2811461 申 "9 120 抵 I~ 剤血圧 2811'61 ' " 9 ' 1389 1 2 0 1 3 ' "日日 ' "' " 収堀岡血圧 281 919 703 B C B B 900 91111日 t r H A期血圧 2'11503 2 0 1197 1 "5 1 5 2日 1 5 9 思箱矧血圧 2~! 9 ' z0 B" 1481 1525 122 1 6 0 16'0 1)2 4 日m, 2811679 日5日 1 1 5 5 1 5( Hi50 1 7 2 3 3 I ,014 ,. C l 0' 2 日m, 19 口 口 4日m, 2 ' 11503 " " ' 1154280 11553' ' 1197 1 2 0 20m, 281 918 703 80 4 0",( 2 'I 9 2日 B" 1 7 ' " 日 1 6 ' " 900 971110 2' 2 日m, 40mr " 14!o15 162 "3 2 0 . . ., 2811481 1525 122 1 3 6 40m( 2 2 I 1472 1284 1 2ロ 1 4 2 20mc 281 895 8T 7 0 2I B 8 1 5 ,a " ' l 2 ' l 4 80 8 " 900 971109 1 4 5日 1 6ロ B90 951104 815 9211日2 ・ '120m 1)0 4 0 , . " 抵 I~ 期血圧 2日 昭市朗血圧 " 由 伝情期血圧 崎信剤血圧 1 1 1 5 B " H95 152 183 900 911109 1 3 5 7 0 ,. 890 9511日4 22! 1412 1 2自4 1 2 0 "2 1450 1 5 0 221 886 ' " 。 旬 B ' 875 92' 日2 95 '41 1 7 0 j 頃 項目ー群ー時期 [ D苗 criptiveS出 回 目 1v .国 Des c r i p t i v eSt 司t 回 目 IVaJ 岨 I tem Nam. : . oI VlStI Group I NI 凶 an1StdDe、,[1,,1門│陀四川刷 i a n[P75~ [ 凶 x ぽ縞剤血圧 " ' 1 5 3 3311666 970 1 5 0 項目ー時期ー群順 箆保明血圧 1 0 ' 1480 ' " 留 I~M 血圧 3Jj 1656 2 0町 崎市朗血i1叩 庇 I~ 閉血圧 ( 10日 1 2811461 D e s criptiveStat白 tTCalVa!ue 旬dlan P759 25弘 、 11 , 刊 N ameIGroup N 1,ゐ.n StdDe. M n P 21 971 136: 3311日 " 留保期血圧 D e s criptiveSta市 hcalVaIl舟 日│担保明血圧 9 0 2日 1389 1 溜l 団 岡血圧 2 時期・群ー項目 l 頃 時期ー項目‑群[ j 頃 出 1721194 3311666 2 九匂対 1 6 4日 復帰期血圧 。 4 日m, P75 1601 日 970 1 D 4 97111口 2124 目 28) 1009 20m, "3 日 2811678 も ,.n StdDev M n 円 臼 │ 柚d白 円 ltemト 也 me N ル 口roup V回 il i 6 o I 20mc 331 H 970 150 160 1640 172 I 1 9 4 40m( 2811618 1050 155 160 1650 1 7 2 I 206 21 20m, 2811461 13B9 120 136 1 4自 日 15311B4 40m, 24115日3 1191 1 2 0 1 4 5 1520 1 5 9 1 168 41 20m, 28 1 I~B 1 J ame !temト l '操剤血圧 。 , roup V. 2 0 m l l 4 日 間 車 N 如 包an StdDev M n P25 恥もd飽 n P75' ル~x 1 5 0 1 6 . ( 0 1 7 2 1 9 4 1 3 6 1 4自 目 1 5 3 1 8 4 ' "" ' 0133 1666 5 0 970 1 2128 1461 , 128 1481 1525 0128 167日 1050 '5~ 申 " 2 0 9 1 1495 1 5 2 1 8 3 1 5 0 1650 1 7 2 206 1525 122 "6 1495 162 1 8 3 212' 1503 1197 1 2 0 "5 1520 1 5 9 15' 4日., 2211472 12B4 1 6 0 1)0 • 122 1472 1284 1 2 0 1 4 2 1450 1 6 ' 170 目1 2 日吋 331101 . ' ' " 9'0 .96 9 ' " 1450 o 133 1014 1 0口 口 1 0 ' ' " 91B ' " B9O0 9 7 2128 703 B B 900 971 1 1 0 8<1 ,. 4 0 " ' C 2日 1009 1 2 0 97 1000 1 0 ' 1 1 8 9 6 1000 105 1 1 2 , 128 895 1日09 95110' 2124 920 9211口2 • 122 703 B O BB 900 971110 ' " 1 1 BB 9 0ロ 971109 B" 7 0 " 890 875 40mc I2 2 1 896 ' " 。因 B ' 20mc 0128 281 918 40mc 2 41 9 20 .1 2日m, 281 895 "措期血圧 4 日m, 図6 .表示1 I 直ごとの出力例 9 2 7 0 " '" " . " B O " " ' 9 6 7 7 6" 890 951104 1 日00 1 0 5 900 9711目9 875 921102 1 1 2
差の値を横に出力する表示形式
D
e
s
c
t
l
p
l
l
V
eS
t
a
l
lo
;
.t
o
e
o
!Vdk
.
Je
D
i
f
f
e
r
e
n
c
!
"(Post‑Pre)
I
t
e
m
Ndme
鉱l
.悶血
圧
V
t
s
t
N IMe担
日 6
1
1
6
7
1
SldDev
M~
P25気
1
0
0
1
日
1
1
回
low
Med
、
町 P75箔
1
6
4
0
?
η
M"
N IMe剖
S
t
dD
ev
P
2
5
'
Med刷
P
7
5
'
Max
tI P
r
o
b
9
5
'
l
J
P
95.
2
由
4
8
1
2152 1
1
3
.
0
0 1
2
0
1
4
0
日日
1
1
5
7 1
9
4 5
2 I‑
1
9
7
4 日
1
4
7
.7
2
0
1410 1
1
3
6
1
4
6日
1
6
0
4
3
2
6153 1
1
0
6
5 1
2
0
1
3
7
1
4
3
0
1
4
9 1
7
0 5
3 I‑
2
2
9
9149 1
4
1
6
967 1
2
4
1
3
4
U20
皮
1
4
9 1
4
9I‑
2
5
6
1
日 4
4 1
叫4
1
0
4
5 1
2
0
1
3
3
1
4
0
0
日
1
4
9 1
4
4 I‑
2
6
J
1
2 146 1
3
8
.
8
1
8
1
0
8
6 1
1
3
0
1
3
7
0
1
4
6
1
2
.
7
6 1
0
5
1
3
2
1
4
2
0
曲
1
4
9 1
4
1
5
1
6I5
9 1
M~
田
1
5
0
4
6
1
2
3
9 ‑
‑
2
9
‑190
‑
1
0
41‑10欧諸
〈回)
(
)
1
‑
2
2
1
‑
1
5
2
4
4
‑
2
8
‑
2
0
0
‑
1
0
4 I‑
1
0
.
7
9
2 〈日∞1
‑229
‑
1
5
7
1
0
3
5 一日
‑
3
日
‑230
‑
1
9
通6 〈回)01
‑
2 I‑
1
6段
‑
2
5
7
‑
2
0
0
4
6
9
3
7 ‑
‑
3
2
‑260
‑
1
9
(
)
1
‑
6 I‑
1
9
1
3
5 〈匝)
‑283
‑
2
2
9
1
2
4
6 ー国
ーお
ー2
6日
‑
1
9
(
)
1
21‑14054 〈匝)
日2
‑
3
‑
2
2
6
1
3
1
1 ‑
6
2
‑
3
4
‑
2
9日
‑
2
'
1
日 ‑
1
5
.
3
胃
〈匝)
(
)
1
‑
3
3.
7
‑
2
5
9
1
3
7
7 ‑
6
0
‑
3
2
‑240
‑
1
9
(
)
1
1
4 I‑
1
4
1
9
4 〈匝)
‑290
‑
2
1
9
ー1
9
3
6 I‑
2
9
8
1
7
0 4
5
9 I‑
2
5
4
1
2
6
3
差を下に出力する表示形式
Descriptive S
てat巴t
i
c
a
lValue
I
t
em
Name
拡張期
血圧
Vist Type
an
N IMe
SてdDev M
in P25也 Median P75叫 Mex
t I Prob
Low
Up
95叫
95弘
前 52
量 52
I
差 52
ー187
903
1308
1239
150
120
46
160
140
29
ー1
9日
172
157
10
194
184
4 I‑10.86日
1
〈日日 0
221
152
50
f
童 50
差 50
1670
1477
‑193
920
1410
1263
150
120
‑44
160
136
‑28
1
6
4
.
0
1460
2日日
172
160
‑10
194
183
4 I‑
1日 792 (
.
0
0
0
1
‑229
157
f
童 53
1661
1432
ー229
823
1065
1035
150
120
53
ー5
0
160
137
‑30
1640
1430
230
172
148
‑18
目
1日
170
‑2
16.086 (
.
0
0
0
1
257
‑200
49
f
量 49
差 49
1672
1
4
16
255
921
967
937
150
124
‑45
160
134
‑32
1660
1420
260
172
148
‑18
194
162
‑6
.
0
0
0
1
19135 (
ー283
229
44
155日
1404
264
1054
1045
1246
150
120
‑58
150
133
‑33
1640
1400
260
170
44
14日
ー1日
205
166
2 I‑14.054 (
.
0
0
0
1
302
‑
2
2
.
6
12
46
f
量 46
差 46
1685
138日
29日
1057
1
0
.
8
6
1311
150
1
1日
62
162
130
‑34
1660
1370
2日日
174
146
‑24
206
170
10
15.396 〈日 001
337
ー259
59
16
f
量 59
1670
1
4
15
254
997
1276
1377
150
105
‑60
160
132
‑32
1640
1420
‑
2
4
.
0
172
14日
1日
206
1日
目
1
4
.
1日4 <
'
0
0
0
1
14 ‑
‑29.0
2
1
.
8
2
前
4
前
6
差
53
前
日
ド
開j
品
1日
f
童 44
差
前
前
差
59
1668
1481
1640
1500
図7
. 出力形式ごとの出力例
4
.V8を使用してみて気づいた点
我々は SAS社から 2000年 l月に米国で、リリースされた V8英語バージョンの提供を受けて検討を行った
が、日本語出力とし、う点についてはすでに示した HTML出力例を見ても判るようにほとんど問題がなか
った c 日本語入力とし、う点で は僅かにプログ、ラムエデ ィターで2バイト文字の表示が化ける現象はあった
が入力上の問題はなかった。これは SASがUNICODEに対応したからであろうと想像されるが、私の個人
的感想としては、入出力に問題がない以上、日本語化のためのリリースの遅れよりは、我慢しても英語パ
ージョンで、新機能を使用したい。今後 S
Asl
土に米国で、の新ノミージョンリリース後の早期のローカライゼイ
ションや、日本語化を必要としないユーザーへの米国と同時期のリリースアップを望みたい。
参考文献
1
) 岩本光司 (
2
0
0
0
) iV8の ODSに よ る 総 括 報 告 書 の 電 子 化 一 関 西 プ ロ ジ ェ ク ト
その 1.
W
h
a
t
'
sODS? (開発の経緯と今回利用した ODS機能の紹介 )
J SUGI‑J2000論文集
2
) TheCompleteGuidet
oSASOutputD
e
l
i
v
e
r
ySystem,V
e
r
s
i
o
n8
.
0,Cary,
NC:SASI
n
s
t
i
t
u
t
eI
n
c
.
9
3
日本 SASユーザー会 (SUG1‑0) V 8の O D Sによる総括報告書の電子化一関西プロジェクト‑ その 4 . 共変量の調整 (PROCFREQおよびPROCGENMODを例として) 大津洋・松岡浮 藤沢薬品工業株式会社 開発本部臨床統計企画部 E l e c t r o n i cC l i n i c a lStudyR e p o r t s(e‑CSR)u s i n gODSi nSASV e r s i o n8 ‑KANSAIP r o j e c t一 P a r t4 . A d j u s t m e n to fc o n f o u n d i n gf a c t o r s ( E x a m p l ef o rPROCFREQandPROCGENMOD) H i r o s h iO t s u/J o eM a t s u o k a B i o s t a t i s t i c sa n dP l a n n i n g,D e v e l o p m e n tD i v i s i o n F u j i s a w aP h a r m a c e u t i c a lC o .,L T D . 要旨 背景因子や予後因子,一般的には共変量と目される調整を FREQプロシジャや GENMODプロシジャなどで行い,その結果を ODS機能を用いて実現した。特に, 計量値の場合, PCNTDIFFマクロを利用した結果を報告する。 キーワード:総括報告書,電子化, O DS 機能, F R E Qプロシジヤ電 GENMODプロシジヤ唱 Logisticモデル司関西プロジェクト 1 . はじめに ODS 機能は報告書作成作業を部品化し効率化することを目的とした機能であり,統計的なデータ 解析の過程をオブジェクト指向の処理で実現する上での第一歩である。総括報告書の中で,目的の反 応や結果に影響を及ぼす原因となる背景因子や予後因子,一般的には共変量と目される変量による 調整は, ①背景因子の偏りがあっても,調整することにより公平な比較が可能になる ②見かけ上のノイズを除き,より感度の良い推論が可能になる ③本質的に交絡の存在があるならば,医学的に重要な結論の方向性が与えられる。 としりたことが考えられる。 この調整は SAS/STATソフトウエアで、実現で、きるが ODS機能を用いることにより, SASの出力結果を 整理し必要な情報のみを表示することができる。本論では,下記の表のように,共変量が計数値の場 a n t e l ‑ H a e n s z 巴l法による調整を F REQプロシジャにより,また,さらに一般化した状況での 合として, M L o g i s t i cモデ、ルによる調整を GENMODフロシジャで、実現する。一方,共変量が計量値の場合の調整 は,通常共分散分析によるが,ここではそれを拡張した一般化線型モデルによる調整を PROC GENMODで、実現した事例を紹介する。 Q にd Qd
2 .背景因子の調整そして共変量の調整とは 2処理を独立な 2群に無作為に割り付けて,ある評価変数を比較する場合,両群の性,年齢等々の いわゆる背景因子の構成は症例数が多ければ,ほぼ確率的に同等となるであろう。こうした背景因子 を考慮して評価変数を調整は,比較の感度を上げたり,評価変数における偏りの補正,あるいはサ ブ、、ク、ルーフ。の解析につながる。一般に背景因子の調整法として良く使われる方式には,主として 1 変量毎に調整を行う,直接標準化法, M ant巴l ‑ H a e n s z e l 法が用いられている。これらは調整的な解 析であるが,各群の評価変数に影響を与える背景因子の形式が等しいことが前提となる。 しかし, 同時に多くの背景因子を対象とし,各背景因子の影響をカテゴ、リーのレベルで、はなく個体のレベル での影響を評価する場合は, L o g i s t i cモデ /レや共分散分析(ANOCOVA)が適している。表 lに共 変量のタイプによる調整方式の一覧とその解析を実現する為の SASプロシジャを示す。 表1 . SASによる共変量の調以 " 一 ー 共変量 調整法 計数値 直接標準化法 MH法 (FREQ) 一般化した詞整法 L o g i s t i cモ デ ル (LOGISTICIGENMOD) 一般(化)組形モデル 計量値 共分散分析 (GLMIMIXEDIGENMOD) 一般化推定方程式 (GEE) (GLMIMIXED) (GENMOD) ()内は SASプロシジャ 3 .O D Sを用いて出力する時の指針 ODSを用いて解析結果の本質部分を抽出し,薬剤の評価を行う上でその薬剤の特性を強調する あまり,偏ったプレゼ、ンテーションを行うことは戒めねばならない。統計解析を行う上で我々が意識す べき重要な視点の一つに,その解析がデザインに基づく解析か,あるいはモデルに基づく解析な のかということがある。共変量の解析の多くは後者の立場に従うため,モデルをあてはめるとしづ視 点から,①何をモデ、ル化するのか,②誤差項の推定とサンプリングスキーム,③説明変数の同定と 数値化,④あてはめ方式,⑤診断とモデ、ル選択等と云った諸点に注意する必要がある。 ODSを使 って総括報告書を作成する場合もこれらの諸点の必要最小限な事項は何かと云うことを意識する 必要がある。表 2にこれらの諸点とその内容を示す。 表2 .モデ.ルのあてはめのステップと考慮占 " 内容 あてはめのステップ 1 何をそデ、ル化するのか 2 誤差項の推定とサンプリングス 調定単位と測定誤差,繰り返し測定値,力日法型と乗法型,均質性 キーム 3 説明変数の同定と数値化 4 あてはめ方式 あてはめ基準(最ノj、二乗法,最尤法) 5 診断とモテ、ル選択 残差分析による前提のチェック,影響力の解析,特定の基準やグラ 反応変数の型,変数変換 I J 候補の選択,コード化と変数変換,説明力と予測力のバランス フの利用 4.共変量が計数値の場合の調整 Qd ρb
4
.
1PROCFREQを用いた (Cochrar
ト)
Mantc
I‑HacnszcI法による背景因子の調整
(Cochran‑)Mante卜Haenszel 法による背景因子の調整を行う場合には, Program.l のような処理を実
行させる(図 1
)。
:カスタマイズ、なしで、の実行プロクずラムと結果
図1
句ぞζ量三蚕点牧総主んし
機器藍ねぷ,f-I.時舟時三縁関皆Y勾三空調書ヂ主~~iよ尋ぞ扇面房1:..:: ‘・ 0' 、。I> t~ I1 t$
1
. T~e
'
l
FRF
.
Oプロシジャ
4
速盆~三盆
姐ln~~ ユ~~:H揺3三湛
表~ : t
r
"
.
.t ・ t ・, r ",~ ..
主戸l.}f.出廷
K
.
.
? 貝ほ 3
士
会
主
t 1.I.~".r..!l.!.J[~j_t乞定
法院医勿,...
""出与公悲
鳴約
,,
e~~. , t
,
,
.
日 lh"' l." ,.~~_空内"神修
二~之主半i企
""'斗ぷι斗<‑!主.i!
子主ト主ト一
与三且ム.=玄怨Z
3
・﹂川
'
・
ム
'
1
ムム止正.ll.企
j* F
req *j
proc freq data = xxx
tables sex*treat improvejall;
ー
」
c
>
・
i広三込且:
t
.
斗
Result(De
f
'ault output)
,
r
e h
'
o .
I
u
r
e
¥
r
l
t・
・,
・r
・
o
t
'
会!:
1
m
yム
千﹄・
h川 +
L
tm
u
一h一
a
司ム円
TJU1
nVTJ
¥a
nHPO
免u n H
qU2u
a
‑
‑v
bka
utun
‑‑¥
c‑‑
ec
‑
‑‑
一
pv
m川 口 v
d
aAU
F‑nV
4lhU
<program 1>
j*Define Html Output 合/
ods html
官
五
一
l主 t,"戸 3
t (iπ~rove
。
コ
表
ご主)
,
層 別 変 数 : sex=F朋 爾 1
H出元:;‑,合計
日liijjlu;
山
pbc.:bo
‑3
nH
Hu
n
‑
国
t
合
1* H
十m
lO
I
J十n
l
J十
.
rln只向 *1
計
合 1
,, ;
'
1
ε ~11 ¥
0
0
.~~
7
.
ふ一一一一一
ω
一一一一一一…
時 ?.{Y
通常の出力で、は各層毎に分かれたクロス表と (Cochran‑)Mantel‑Haenszel 法の結果が出力されてい
たが,実行者が見たい )
[
1
買番に出力されなかったご図 lのように, HTML の出力で, F孔生 M E を利用
すれば結果の参照が容易になったが,今回発表を行う背景因子の調整の場合には,
①各層毎のクロス集計表をまとめて見やすくする,各層の標本サイズを見る
② (Cochran‑)Mantel‑Haenszel統計量の結果を見る
③ (Cochran‑)Mantel‑Haenszel統計量と各層の結果を比較して結論を導く
④さらに,調整の有無による結果の比較を行う
のステップ。を踏むと想定し, Templateの改良を行った。
4
.
2PROCLOGISTICorPROCGENMODを用いた背景因子の調整
調整因子が複数ある場合には FREQ フ。口、ンジャを複数回実行することによって調整することは可能
であるごしかし,データによっては欠損IJ値が存在する場合もあり, FREQプロシジャを実行する度に対
象症例数が変わるとしづ問題点がある。統一的に背景因子を調整するために, GENMOD フ。口、ンジ
ャ(5.2参照)を用いて背景因子を調整することとした。しかしながら, GENMODプロシジャは出力さ
れる項目が多く含まれているため,アウトプットをそのまま資料とすることはできず,転記作業・他のア
プリケーションとの連携を余儀なくされていた。したがって,必要とする結果を目的に合わせて見や
すくすることを念頭において Template を改良したc またこの際, 95%信頼区間を算出するのには複
数の手法があるが, Wald統計量には批判的な意見もある為,尤度に基づく統計量を用いた。
5
.共変量が計量値の場合の調整
ー.
1 共分散分析モデルおよびその拡張(一般(化)線型モデルによる調整)
偏相関分析では,影響を与えそうな変量(共変量)を取り除こうとするの対して,共分散分析では,積
極的に共変量を利用する。 共 分 散 分 析 を 更 に 拡 張 し た , 一 般 線 形 モ デ ル は , Nelder と
W巴dderburnl
)
2
)
3
)
(こより古典的な線形正規モデ、/レ
Yニ2
:sx+E
E ~N(O ,
aZ
)
における正規分布の枠組みをより一般的な指数分布族に拡張して,線形モデ ルで、正規分布の仮定
‑97
がなじまない場合でも統一的に推測が可能になるように拡張したものである。これにより,通常の回 帰分析,分散分析, L o g i s t i c 回帰分析,ポアソン回帰分析等が統一的に扱えるようになった。この一 般化線形モデルは,リンク関数 g(・)を導入することにより, g(E(Y))= I :sX あるいは の形で構成される。 y = g ‑ l( I :sX)+E E ~指数型分布族 一 般 化 線 形 モ デ ル の 例 を 表 3に 示 す c 一般化線形モデ ルの解析は, GENMODフ。口、ンジャで、実現で、きる。 ̲ 一般化線形モデ、ルの例 表3 応答 変数 分布 J ) ンク 関数 T r a d i t i o n a l L o g i s t i c回帰 対数線形モデルにお ける P o i s s o n回帰 Logl i n kを伴う Gammaモーでル 連続変数 P r o p o r t i o n Count 正値,連続変数 正規 I d e n t i t y ワ μ B i n o m i a l L o g i t ヮ= I o g ( μI (1 ‑μ ) )L P o i s s o n Log 二log(μ) Gamma l o g ヮ ニ log(μ) 5 . 2GENMODプロシジャ GENMOD フ。口、ンジャで使:うことの . GENMODプロシジャのリンク関数 表4 リンク関数 名称 d e n t i t y 出来るリンク関数と分布形を各々 I r J‑P o g i t ヮ= l o g ( μ1 ( 1・ μ)) (こ示す c GENMOD プロ L 表 4と表 5 ヮ =φ ー l ( μ ) , φ=標準正規累積分布関数 P r o b i t シジャの初期のバージョンで、は,プ Power ヮ=μλif A宇 0,l o g ( μ )i fA=0 ロトタイプの ODSが用いられたが, Log ヮ=log(μ) 現在では全面的に書き改められ, Complementary ヮ= l o g (ーl o g ( 1・ μ)) 特に多くの機能が, ODS ステー 1 豆‑ 1 0 豆 0 トメントに集約されている。詳し ユーザ一定義 ヮ‑ くは, ODSについては TheComplet 巴 G uidet ot h e . GENMODフ。口、ンジャの利用可能 SAS Ol1t pl1tD e l i v e r y System4) また GENMODプ 表 5 な分布と関連する分散 ロシジャについては SAS/STATU s e r ' s Gl1i d e討を参 分布 分散 照のこと。 Normal V(μ)=1 B i n o m i a l ( P r o p o r t i o n ) V(μ)=μ(1‑μ) P o i s s o n V(μ)=μ Gamma V(μ)=μ2 I n v e r s eGal1s s i a n V(μ)=μ3 5 . 2 . 1GENMODプロシジャによる L o g i s t i cモデルを想定した共変量の調整 オ ッ ス s比は 2群聞の関係を評価で、きる指標で、あり, L o g i s t i c回帰モデルを使用すれば共変量である, 性,年齢,施設の効果等を調整して比較することもでき,その値が 1か,あるいは信頼区間がその中 に Oを含むか否かにより, 2群は等しし、かどうかを評価することが出来る。しかし,解釈の容易さから, もっと直接的に,推定された事象の率や実際のパーセントの差にも関心がある 一方で FDAのガイ C ダンス 6)7)では治験薬と実薬対照聞の成功率の差に基づいて,治験の成功の基準を提案している。 そこで推奨されている方式は,治療の差の 95%信頼区間と信頼区間の下限の闇値に基づ、いて推 定を行う方式である。 FREQ フ。口、ンジャの RISKDIFF オフ。ションを用いれば,単純な 2群問の調整されていない成功率,観 測された成功率の差およびその信頼区間を求めることが出来る。共変量を調整した形で、同様のこ 98‑
とを行う為には, L
o
g
i
s
t
i
c モデルを用いれば良い c P
.
C
h
r
i
sI
‑
Io
l
l
a
n
d8)は
, GENMOD プロシジャを用
いて 2群の比較の為に L
o
g
i
s
t
i
cモデ、ルを与え推定された応答の率と調整された応答率を計算する
SASマクロを作成した。この SASマクロにより,率同士の差,対応する p値や信頼区間が算出される O
5
.
2
.
2 実施例
肺炎を治療する為の治験薬と実薬対照の無作為化比較試験で治療後 1週間後で治癒または改善
i
m
i
l
a
r
i
t
yを示すことが目的である試験 1)を考える。
した場合を成功とし,臨床および統計的な S
ι
表6
. FDAj(イ'
1
"はからの B
oundary
Theobservedsuccess The!
o
w
e
rbound0
1t
h
e
r
a
t
el
o
rt
h
eb
e
t
l
e
r0
1t
h
e C
..
1(
i
na
b
s
o
!
u
t
ev
a
!
u
e
)
twoag
号n
t
s
s
h
o
u
!
dn
o
texceed
>=90%
10%
>=80%a
nd<90%
15%
<80%
20%
P
o
i
n
t
st
oC
o
n
s
i
d
e
r
:D
e
l
t
a7)
‑25%
‑20%十一一一一ーで
一
一
一
一
一
一
一
一
一
「
ー15%命
一
一
一
一
一
一
一
一
一
一
ー10%+
ー
き
ち
仏
0%
FDAが提示した基準 'FDA:DAIDP SP
o
i
n
t
st
o
7
001令
80~令
90%
Consid巴r
,1
9
9
2
'6)を表 6に示す。これに従い,試験
1
∞%
の成功確率を, 9S%LCL ~-IS% (治験薬一対照
薬)とする。
表7
.S
t
u
d
yの成績
本試験の成績を表 7に示す。また,図 2およ
び 図 3に FREOプロシジャによる結果を示
す c 治験薬一実薬対照の 95%信頼区 I
/
¥
j
は
, (
‑
0.0259
ー
,0.030)であり,共変量を調整しない
場合には,成功の水準に至らないことがわか
る
。
治験楽
実薬対J!
H
T
o
t
a
!
No
35
(
3
3
.
0
2
%
)
2
1
(
1
8
.
5
8
%
)
56
STATISTICS FOR TABLE OF TMT B
Y SUCCESS
Value
Prob
5.988
Chi‑Square
Likelihood Ratio Chi‑Square 16.027
Continuity Adj. Chi‑Square 1 5.253
Mantel‑Haenszel Chi‑Square 1 5.961
0.014
0.014
0.022
0.015
Statistic
D
F
0.011
Fisher's Exact Test (
L
e
f
t
)
(
R
i
g
h
t
)
0.995
(
2・Tail)
0.020
Phi Coefficient
‑
0.165
Contingency Coefficient
0.163
Cramer's V
‑0.165
図 2. FREOプロシジャによる結果その l
~99
Yes
7
1
(
6
6
.
9
8
%
)
92
@
1
.
42%)
163
T
o
t
a
!
106
1
1
3
219
Column 2 Risk Estimates Row 1 Row 2 Total Risk 95% Confidence Bounds 95% Confidence Bounds ASE (Asymptotic) (Exact) 0.186 0.330 0.256 0.037 0.046 0.029 Difference ・0.144 (Row 1 ・ Row 2) 0.114 0.241 0.198 0.059 0.119 0.242 0.199 0.258 0.420 0.313 ・0.259 0.270 0.428 0.319 ・0.030 Sample Size = 219 図 3. FREQプロシジャによる結果その 2 年齢に関して両群の聞には図 4に見られるような差が存在する。 TTEST PIIOCEDUl I E Variable: 年 齢 君Z 平均 標準偏差 1 1 3 4 2 . 3 4 . 9 6 1 0 8 6 . 9 3 n .~ctiv 巴 COlltr 口 l Ted Drug 4 7 . 3 標準誤差 O : VariaDces are equal. F For H 分散 t 自由度 Prob>ltl n e q u a l ‑ 6 . 0 7 3 4 0 . 4 7 U 1 8 9 . 0 0 0 1 0 . 6 7 E q l l a l 2 1 7 . 0 0 0 0 1.9> 1 DF ‑ 6 . 1 3 S 9 (105.112) Prob>F = 0.0005 匡14. TTESTプロシジャによる結果 ) による SASマ ここで 2群間の,年齢の不均衡を調整してみることを考えよう。 P.Chris Holland8 クロでは以下のように指定する。 %pcntdiff(data=pneumo, response=success, grp=trt, classvrs= , covariat=age, intrax=, byvars=, alpha=O.05, , , outdat=logit desc= noprint=noprint ) ; %PCNTDIFFの実行結果を以下図 5,図 6に示す。 A n a l y s i s 日fP a r a m et e rE st i m at e s 変数 I N T E R C E P E S T T M T T T M T AcmE 自由度 推定量 標準誤差 X2 P r> x 2 4 . 8 7 0 0 1 .1 0 0 0 1 9 .B O 0 . 0 0 0 1 1I‑ 0 . 3 8 1 7 0 . 3 4 7 0 1 . 21 日. 2 7 1 4 0 . 0 0 0 0 A G E 1I‑ 0 . 0 7 9 1 S C A L E 1 . 00 日 日 0 . 0 0 0日 日. 0 2 4 7 1 0 . 2 4 0 . 0 0 1 4 L I I Statistics For Type3 ADalysis Sourc巴 ChiSq ProbChiSq TMT 1 . 2 0 9 3 0 . 2 7 1 5 p . G E 1 0 . 3 9 5 7 0 . 0 1 3 0 DF 0 . 0 0 0 0 図 5. %PCNTDIFF(GENMODプロシジャ)による結果その l ‑100‑
Final Results‑‑ Data Set logit ~; 2 ~H 群 lの 群 2の 調整 i 問 主 主 戚功率 成功率 差 p f直 95% 信頼区間 (正規近似) e s . tD r u g 0 0 . 0 7 ー . 7 B 1 2 0 . 7 2 1 2 ‑ (. 1 8 3 B,0 . 0 4 3 B ) A c t i'leC o n. t r o l T 0 . 2 2 7 1 2 図6 . %PCNTDIFF(GENMODプロシジャ)による結果その 2 ' 十 ‑ ・ の羊左 衡な hづ + 4 lrpt 不で 問の 群土 ︒京十 2同 ムノト九 る( れ率 ︑ 1 7 JU44 月ん放五 I 受さ ︑円 に調 ノ︐︒ よしい る但な い o ら えろば てうな 与だれ をるけ 量なな 定くし 推き意 い大注 良+で﹂ は益と 差利こ くる︑つ づよ云 基にと 二大巳︑ 1tホムし たのは 率調な しこで 整程確 調い正 をきは 齢大) 年がい 6 .終わりに 6.10DSの有用性について ODS 機能は報告書作成作業を部品化し効率化することを目的とした機能であり,統計的なデータ 解析の過程をオブジェクト指向の処理で、実現する上で、の第一歩で、ある o ODS 機能を用いることによ , り SAS の出力結果を整理し必要な情報のみを表示することができた。解析の過程を明確にし,スト ーリーを論理的に表現する上で有用で、あることが解ったO 6 . 2GENMODプロシジャの有用性 GENMOD プ ロシジャは,一般化線形モデルの枠組みの中で,計量値,計数値にかかわらず共変 c 量を調整出来ることができる 3 また,欠測値の問題の解決につながる一般化推定方程式 (GEE)に対 する解析機能も有しており,汎用性が高く,有用なフ。口、ンジャと云える。 最後になりましたが, SAS インステイヲュートジャパン大阪支社の松谷尚子様には, SASパージ ョン 8や ODS に関することだけにとどまらず多くのことでお世話になりました。彼女の助力が なければ,本論は完成出来ませんでした。読んでお礼申し上げます。 参考文献 1 )Nelder ,JA,and Wedderburn,RWM ( 1 9 7 2 ), Generalized L i n e a r Models, "J o u r n a lo ft h e RoyalS t a t i s t i c a lS o c i e t yA,135,370‑384. ,JA( 1 9 8 9 ),Generalized L inearModels,London: Chapman and 2 )McCullagh,P,and Nelder H a l l inear Mixed Models: A Pseudo‑Likelihood 3 )Wolfinger and O'Connell,1993," G e n e r a l i z e dL Approach, "J o u r n a lo fS t a t i s t i c a lComputationandS i m u l a t i o n,48,p .233‑243 4 )TheCompleteGuidet ot h eSASOutputD e l i v e r ySystem,fromt h eURLo fSASI n s t i t u t e . h t t o : / / w w¥V.sas.comh ・ I 1c l l b a s e / e : H ・ l v ‑ a c c e s s / o d s c l o c 2 / s a s h t m l l t w 5 1 9 5 / n s t i t u t e 5 )SAS/STATU s e r ' sguide,SASI 6 )FDA: DAIDP's POINTTO CONSIDER :C l i n i c a l development and l a b e l i n go fa n t i ‑ i n f e c t i v e fa n t i ‑ i n f e c t i v edrugp r o d u c t s ),1992, 1995, 1996 drugproducts,DAIDP(Divisiono t a t i s t i c a l Considerations f o rC l i n i c a lT r i a l si n Deeloping A n t i m i c r o b i a l 7 )L i n,Daphne(1998) S A d v i s o r yCommitteeJ u l y,29, 1998) Drugs,( 1 0 1
8 )H o l l a n d,PC ( 2 0 0 0 ) An A l t e r n a t i v et ot h e Odd R a t i o : A Method f o r Comparing Adjusted fPharmaSUG2000 TreatmentGroupE f f e c t sonaDichotomousOutcome,Proceedingo ContactI n f o r m a t i o n : 大津洋 藤沢薬品工業株式会社開発本部臨床統計企画部 V o i c e : 06‑6390・1189 F a x : 06‑6304‑1570 e ‑ m a i l : I 1 i r o s h i ohtsu( a Ju o . f u i i s a w a . c o . i u 松岡 j 手 e ‑ m a i l : i o e m且t S t l O k a ( a JD o . f u i i s aw旦. C O .lD 本論で用いた SAS ソースリスティングは, SAS インスチチュートジャパンの URLからリン クが張られている,関西フロジェクトの URL(近日中に開示)から入手できます。 1 0 2
日本 S A Sユーザ一会 (SUG I-~) V 8の O D Sによる総括報告書の電子化一関西プロジェクトー その 5. ModeI‑based解析結果の要約 (MIXEDプロシジャを例として) 伊藤要二 アストラゼネ力株式会社 臨床統計・ DM部 臨 床 統 計 グ ル ー プ E l e c t r o n i cC l i n i c a lStudyReports(e‑CSR)u s i n gODSi nSASVersion8 ‑KANSAIProjectー Part5 .Summaryofresultsfrommodel‑basedanalyses( i l l u s t r a t e du s i n gPROCMIXED) Y o h j iI t o h B i o s t a t i s t i c sGroup,D a t a& B i o m e t r i c sDepartment AstraZenecaK . K . 要旨 ODS機能を用いることによる MIXEDプロシジャの出力に対するしてつかの改善策(例えば、 大量の出力から必要な情報のみを最適な形で提示するなど)を、反復測定モデルにおける 共分散構造の選択の問題を題材に例示する。 キーワード ODS機能、 MIXEDプロシジャ、共分散構造、関西プロジェクト 1.はじめに SASシステムにはMIXEDプロシジャ、 GENMODフ。ロシジャ、 PHREGプ口、ンジャなどドのモデル解析の ための高度なプ口、ンジャが用意されている。これらのプロシジャはあらゆる解析に対応することを目的と しているため、特定の目的のためにはそれらの出力は冗長で見づらい場合が多い。そして、それらの 出力の全てが常に重要な情報をもたらすとは隈らず、場合によっては不要なものも含まれる。そのよう な場合、必要な情報だけを見やすい形にレイアウトを加工して提示することのメリットは大きい。パージ ョ ン 8のODS機能を用いれば、このようなフ。口、ンジャからの出力の加工が可能になるので、ある。 他にも、従来の紙ベースを前提としたプロシジャからの出力に対して、 ODS機能を用いることによりし、 くつかの改善策が考えられる。例えば、それらプロシジャからはある注目する要因についての検定結果 が出力されるが、それ以外の情報、すなわち集計表や、特にグラフからの情報は、検定結果を解釈す る上で重要である。例えば、反復測定データの解析において、処置群と時間の交互作用が有意である としづ結果が得られたとしても、各処置群の平均値の時間推移のグラフを見なければ処置群問でどの ような推移パターンの違いがあるのかは分からないし、その臨床的意義を解釈することも困難である。 103‑
そこでODS機能を用いれば、得られた解析結果の聞にリンクを張ることが可能になり、それらの相互参 照が容易となる。一方、モデル解析においてはモデルの妥当性を検討する必要があるが、そのために、 いくつかのモデルの結果を相互に比較することがしばしば行われる。そこでも、 ODS機能を用いれば、 複数のモデ、ノレから得られた解析結果を 1つにまとめることが可能となり、相互の比較が容易となる。 本発表の目的は、このような ODS機能を用いた出力の改善策を、 MIXEDプ口、ンジャを用いた反復測 定モデ、ルによるデータ解析における共分散構造の検討を題材に例示することで、ある。また、 ODS機能 の問題とは別に、その共分散構造の検討に有用と考えられるグラフィカルな方法についても提案をす る 。 2 . 出力の整形 本発表では、例題として、反復測定された収縮期血圧についての2つの実薬群聞の比較試験を考 える。要因として、薬剤群、薬剤群内被験者(変量効果)、時点、薬剤群×時点を含む混合効果モデ ルによる解析を行うものとする。 くp r o g r a m① 〉 MIXEDプロシジャからは表 1に示したような種類 のコンポーネントがそれぞ、れ「テープ /レ」として出力 される。この表に示されているように、多くのテーブ ルがオプ、ンョンにより制御可能となっている。 例えば、 プログ、ラム①で、は、 NOCLP町 NT, NOITP町 NT オプ ションを指定しており、これらにより C l a s s L e v e l s、 I te r H i s t o r y、C o n v e r g e n c e S t a t u sのテーブルが除か o d sh t m lb o d y =冗.糾( p r o j e c t平m o d e l l .h t m " ; p r o cm i x e dd a t a = s b p n o i t p r i n tn o c l p r i n tc o v t e s t ; c l a s sg r o u ps u bt i m e ; m o d e ls b p =g r o u pt i m eg r o u p * t i m e / d d f m = s a t t e r t h ; r a n d o mi n t e r c e p t / s u b j e c t = s u b ( g r o u p ) ; r u n . o d sh t m lc l o s e ; れた出力がHTML形式で得られる。 表1 .MIXEDプロシジャから出力される主なテーブルの種類とその出力制御 p t i o nにより opt Ion o 常に テープ、ル名 ラベル により 削除可 出力 出力可 (OPTION) M o d e l l n f o r r n a t i o n In f o Model (NOINFO) Dimensions Dimensions C l a s s L e v e l s C l a s sL e v e lI n f o r r n a t i o n 。 。 。 (NOCLPR 応i T ) I te r a t i o nH i s t o r y I t e r H i s t o r y C o n v e r g e n c e S t a t u s ConvergenceS t a t u s C o v a r i a n c eP a r a m e t e rE s t i m a t e s C o v P a r r n s A s y m p t o t i cC o v a r i a n c eM a t r i xo fE s t i m a t e s AsyCov A s y m p t o t i cC o r r e l a t i o nM a t r i xo fE s t i m a t e s AsyCorr F i t S t a t i s t i c s F i tS t a t i s t i c s MixedModelE q u a t i o n s 恥4恥~ MixedModelE q u a t i o n sS o l u t i o M恥1EqSol I l I n f o r r n a t i o nC r i t e r i a I n f o C r i t Type3T e s t sofFixedE f f e c t s T e s t s 3 。。 。。 。 。 。 。 (NOITPRINT) A当 1 ょ nU
しかし、オプ、ンョンの指定のみで、は、ユーザーの 望むような出力が必ずしも得られるとし、うわけでは ない。例えば、 Model In f oとD i m e n s i o n sとしづテーブ ルは 1つのオフ。ションNOINFOによって同時に制御 されるため、 Model In f oテーブル(それに含まれる情 報については表 2を参照)は出力し、 D i m e n s i o n sテ 一アール(モテョルに含まれる各要因の次数が含まれ る)は出力しないというような制御はできない。その よ う な 場 合 に は 、 プ ロ グ ラ ム ② に 示 す ODS OUTPUTステートメントを用いることにより、必要な テーフソレのみを選択することが可能となる ここで O 選択されたテーブルは各々が指定されたSASデー < p r o g r a m②〉 o d so u t p u t m o d e li n f o = m o d e li n f o l t e s t s 3 = t e s t s 3 1 f i t s t a t i s t i c s = f i t s t a t i s t i c s l c o v p a r m s = c o v p a r m s l; p r o cm i x e dd a t a = s b p n o i t p r i n tn o c l p r i n tc o v t e s t ; c l a s sg r o u ps u bt i m e ; m o d e ls b p=g r o u pt i m eg r o u p * t i m e / d d f m = s a t t e r t h ; r a n d o mi n t e r c e p t / s u b j e c t = s u b ( g r o u p ) ; r u n ; o d so u t p u tc l o s e ; タセットに出力されるので、後述する方法により各 データセットをHTML形式に出力することができる。 さらに、選択されたテープソレの中身には不必要な情報が含まれている場合があるが、そのような場 合には、それら不必要な情報を削除した上で、最終的にHTML形式で出力することができる。例えば、 表2には、上記プロクーラム②を実行した場合のModel In f oとし、うテーブルの中味の例を示している c これ K .SBPで、あるとしづ情報を考えてみる。こ らの項目の内で、例えば、解析に用いたデータセットがWOR のデータセットは保存されている永久デ ータセットではなく、それを加工してでき た作業用データセットであるため、このデ ータセット名を表示することはあまり意味 o d e l l n f oのデータセットの例 表2 .テープ、 jレM 本発表で 変数 D e s c r 変数 V a l u e の出力へ の使用 があるとは考えられない c 同様に、他の項 D a t aS e t WOR K .SBP × 目についても吟味の上、表 2に示された D e p e n d e n tV a r i a b l e 項目の内、右端のコラムに Oを付けたも C o v a r i a n c eS t r u c t u r e s s b p V a r i a n c e Components ののみを最終的にHTML形式で出力す S u b j e c tE f f e c t s ることとする。表 3にその出力結果を示す E s t i m a t i o nMethod RE恥1L が、これはフ。ログ、ラム③で、出力される結果 R e s i d u a lV a r i a n c eMethod P r o f i l e の一部である。 恥1 o d e l ‑ B a s e d F i x e dEf f e c t sSE恥1 e t h o d D e g r e e so fFreedomMethodIS a t t e r t h w a i t e 。 。 。 フョログ ラム③で、は、フeログ ラム②で、得ら れた各種テープ、ルの結果が収められた s u b ( g r o u p ) × × × × 表3 . 必要な項目のみを残したModeI ln f oテープ、 jレ データセットを読み込んで、不必要な情 M o d e li n f o r m a t i o n 報を削除した上で、 ODS機能により C o v a r i a n c eS t r u c t u r e V a r i a n c eC o m p o n e n t s 用いて出力するために、各データステッ E s t i m a t i o nM e t h o d R E M L プのFILEステートメントにおいてODSオ D e g r e e so fF r e e d o mM e t h o d S i t e a t t e r t h'lla HTML形式で出力している。 ODS機能を ‑ 1 0 5
プションを、 PUT ステートメントにおいて ODS オプ。ションを指定している。そして、 FILEステートメントにおいてはTEMPLATE を指定している。テンプレートとして標準の ものを用いるのであればこれらを指定する 必要はないが、カスタマイズ、するので、あれ ばそれらを予め準備しておく必要がある c 例えば、プログラム④は CovParmsとし、うテ ンプレートを定義してしもが、これをプログ ラム③で用いるためには事前に実行してお く必要がある。このフ。ログラム④についてす こし解説が必要である。プロク ラム②で、は、 J COYTEST オプションを指定しているが、こ れにより、デフォルトで、出力される共分散ノ f ラメタの推定値に加え、その標準誤差、 z検 定統計量、 p 1 [ 直が出力される。しかしながら、 この検定は問題があることが知られている ( Y e r b e k e& M o l e n b e r g h s,1 9 9 7 )。そこで、プ ステートメントに ログ、ラム④で、は、 COLUMN おいて z検定統計量および、p値以外の変数 のみを指定することにより、それらの結果を くp r o g r a m③ 〉 o d sh t m l body= 、:糾(project~modell.htm": d a t a n u1 1 s e tm o d e1 i n f o1: ニ" M o d e1n f o勺; f il ep r i n to d s = ( t e m p l a t e i fd e s c ri n ( " C o v a r i a n c eS t r u c t u r e s " " C o v a r i a n c eS t r u c t u r e " " E s t i m a t i o nM e t h o d " " D e g r e e so fF r e e d o mM e t h o d勺; p u t̲ o d s ̲ : r u n . ; d a t a̲ n u1 1一 s e tf i t s t a t i s t i c s l : f il ep r i n to d s = ( t e m p l a t eニ" F i t S t a t i s t i c s勺; i fd e s c ri n ( " ‑ 2R e sL o gL i k e li h o o d " " A I C( s m a l l e ri sb e t t e r )勺; p u t̲ o d s ̲ : r u n . d a t a n u1 1 s e tc o v p a r m s l: f il ep r i n to d s = ( t e m p l a t e = " C o v P a r m s勺; p u t̲ o d s一 ; r u n : d a t a n u1 1 s e tt e s t s 3 1 : f il ep r i n to d sニ ( t e m p l a t e = " T e s t s 3 " ): p u t̲ o d s ̲ : r u n . o d sh t m lc l o s e : HTML 形式には出力しなし、ようにしている。 表 4にその出力結果を示す。 このようにして、従来の紙ベースではでき なかった出力のきめ細かなカスタマイズが、 ODS機能を用いることによって可能となった。 それにより、不必要な情報を削除し、必要 な情報のみを最適な形式で提示することが できるのである c くp r o g r a m④ 〉 p r o ct e m p [ a t e : d e f i n et a b l eC o v P a r m s : p a r e n t = S t a t .M i x e d . C o v P a r m s : c o l u m nc o v p a r ms u b j e c te s t i m a t es t d e r r : h e a d e rh l : d e f i n eh l : t e x t" C o v a r i a n c ep a r a m e t e re s t i m a t e s " : e n d : e n d : r u n : 表4 .検定を削除した共分散パラメタ推定値の表 C o v a r i a n c ep a r a m e t e re s t i m a t e s C o vP a r m S u b je c t E s t i m a t e S t a n d a r dE r r o r I 円t e r c e p t s u b ( g r o u p ) 1 0 . 2 8 8 5 1 .8 1 7 3 1 5 . 2 2 5 7 0 . 8 0 5 8 R e s . id u a1 ‑106一
3 . グラフや集計表などとのリンク 複雑なモデ、ル解析の結果を示す場合、そ 表5 . F検定の結果 の検定結果を示すだけでは不十分であり、グ Type 3 F‑test for fixed effects ラフや他の集計結果と組み合わせて表示す Num DF Den D F F Value Pr >F Effed ることにより、その検定結果の実際的な意義 を解釈することが容易になり、また関連した有 用な情報が得られることが多い。 例えば、薬剤群、時点、薬斉Ij群×時点の group 1 1 8 1 .0 5 0.3084 t im e 8 714 107.28 < . 0 0 0 1 group市t im e 8 714 . 0 0 0 1 7 . 1 3 < 8 1 2 要因を含む反復測定モデ、ルの解析において、 表 5に示すように薬劃群×時間の交互作用 が統計的に有意でLあったとしても、その臨床 SBP 1 3 0 的意義は p値だ、けからでは判断で、きない。し かし、図 lを見れば、薬剤 Aの方が薬剤 Bよ り も峰圧降下が長く持続することが分かる。この ように、検定結果の臨床的意義の解釈を可 能とするためには、検定結果のみを提示する のではなく、図 1に示すような平均値の推移 グラフや、時点ごとの平均値の集計表などを 組み合わせて提示する必要がある。その点、 ODS機能を用いれば、得られた解析結果の 。 1 0 0 聞にリンクを張ることが可能になり、それら相 4 1 6 2 0 24 時間 ( h ) 互参照を容易にする c 薬 剤 群 ‑ CrugA ‑ ‑ ‑ CrugB また、後述する共分散の時間間隔に対す 図1 . 収縮期血圧の推移図 るフ。ロット(図 2)などとリンクさせることにより、 モデル適合性統計量だけに基づ、いてモデ ル選択を行うので、はなく、グラフィカルな方法と併用してモ デ、ルの検討をすることが可能となる。他にも、残差フ。ロットや、変量効果の予測値のフ。ロットなどの種々 のグラフと組み合わせるることはモデ ル解析上有用である。 4 .モデル間の比較 混合効果モテ、ルなとcのモデル解析においては、モテ、ルの妥当性の検討をする必要があるが、その ために複数のモデ、ルの結果を相互に比較することがよく行われる。そこで、 ODS機能を用いれば、それ ら複数のモテ、/レから得られた解析結果を 1つの表にまとめることが可能となり、相互の比較が容易とな る つ 例えば、反復測定モデルにおいて複数の種類の共分散構造のモデ、ルを仮定し、それらのモテずル適 合性統計量の相互比較を行うことを考える c 反復期、J I定モデ /レの変量要因としては 3 種類のものが考え られる。すなわち、変量効果、系列相聞を持つ誤差、独立な誤差(測定誤差と呼ばれることもある)であ 1 0 7
る( D i g g l ee ta , . l 1994,Verbeke& Molenberghs,1 9 9 7 )。これらの変量要因を全て含んだ下記のようなモ デ ノレを考える C Y i j k= μ+g i+sij+tk+( gxt)ik+eijk+&ijk ただし、 観測値、ここでは収縮期血圧 ( S B P ) Y i j k μ :全平均 ぁ j番目の薬剤群の効果(固定効果) S υ j番目の薬剤群内のj番目の被験者の効果(変量効果) t k : k番目の時点の効果(固定効果) ( gxth: 薬剤群と時点の交五作用 e i j k 系列相聞を持つ誤差 & i j k . 独立な誤差(測定誤差) 3つの変量要因勺, υ e'b & i j kについては次のような分散、共分散を仮定する。 V a r ( 勺)=σ;, COV(Sij, s i j . )=0 o v ( E u k, Ew)=σ;e x p [‑L It ( k, I C ). 1 ρ ' J( L 1t ( k, I C )は時点kおよびr の時間間隔) V a r ( e i j k )=σ;, C Var(匂 )=σ;, Cov(令 ゎ 伽)=0 ここで、は系列相関としては指数型系列相関 ( e x p o n e n t i a ls e r i a lc o r r e l a t i o n )を仮定した。 また、これら 3 つの変量要因を全て含むのではなく、その内の 1~2 つを含むような種々の組み合わ せの共分散構造も考えることができ、それらは表7にまとめである。これらのモデ〉レに基づいてデータ解 i t S t a t i s t i c s )をODS 機能により SASデ? 析を行い、その結果得られたモデ、ル適合性統計量(テープ ル名:F ータセットに出力し、複数のモデル問で、そのデータセットをマージし、それを再びODS機能を用いて出 力すれば表 6のような表を作成することができる。このような表を作成すれば、異なるモデル聞の比較 が非常に容易になる。 . モデル適合性統計量のモデル聞の比較 表6 モテ1 レ適合性統計量 共分散構造モデル ‑ 2R e sL o gL i k e l i h o o d A I C(smaller i sb e t t e r l V d . rjd . n c ec o m p o n e n t 4 8 9 7 . 2 4 9 0 1 . 2 口n e n t i aI S p a t i a le x p 4 9 1 8 . 2 4 9 2 2 . 2 S p a t i a le x p 口n e n t i aI+L 口c a l 4 8 5 0 . 8 4 8 5 8 . 8 V 主r i a円c ec 口 町E 口 円e n t +S p a t iaIe x p o円e n t i a l 4 8 5 7 . 2 4 8 8 3 . 2 4 8 4 3 . 8 .8 4 8 51 も / 主 r i a n c ec C lm p 口n e n ! ̲ +S p a ! ̲i 8 . 1e x p o n e n ! ̲i aI+L o c 8 . 1 また、共分散の時間間隔に対するプロット(図 2 )を作図し、それとリンクさせることにより、モデ、ル適合 性統計量だけに基づいてモデル選択を行うのではなく、グFラフイカルな方法と併用してモデ、ルの検討 をすることが可能となる。 108‑
表 7 反復測定データに対する共分散構造のモデル 共分散構造モデル (SAS用語) 時間間隔と共分散の関係 p r o cm i x e dd a t a = s b p ; c l a s sg r o u ps u bt i m e ; m o d e ls b p=g r o u pt i m eg r o u p * t i m e / d d f m = s a t t e r t h ; r a n d o mi n t e r c e p t / s u b j e c t = s u b ( g r o u p ) ; r u n . 変量効果 ( V a r i a n c ec o m p o n e n t ) b p ; p r o cm i x e dd a t aニs c l a s sg r o u ps u bt i m e ; m o d e ls b pニ g r o u pt i m eg r o u p * t i m e / d d f m = s a t t e r t h ; r e p e a t e dt i m e /t y p eニs p( e x p )( ti m e ) s u b j e c tニs u b( g r o u p ); r u n ; 指数型系列相関 ( S p a t i a le x p o n e n t i a l ) p r o cm i x e dd a t aニs b p ; c l a s sg r o u ps u bt i m e ; m o d e ls b p =g r o u pt i m eg r o u p * t i m e / d d f m二 s a t t e r t h ; r e p e a t e d ti m e / t y p e = s p( e x p )( ti m e ) s u b j e c t = s u b( g r o u p )I o c a1 ; r u n . 指数型系列相関 +測定誤差 ( S p a t i a le x p o n e n t i a l +L o c a l ) p r o cm i x e dd a t a = s b p ; c l a s sg r o u ps u bt i m e : m o d e ls b p=g r o u pt i m eg r o u p * t i m e / d d f m = s a t t e r t h ; r a n d o mi n t e r c e p t /s u b j e c t = s u b ( g r o u p ): r e p e a t e dt i m e /t y p e = s p ( e x p )( t i m e ) s u b j e c t = s u b ( g r o u p ); r u n . 変量効果 +指数型系列相関 ( V a r i a n c ecomponent +S p a t i a le x p o n e n t i a l ) b p : p r o cm i x e dd a t a二 s c l a s sg r o u ps u bt i m e : m o d e ls b pニ g r o u pt i m eg r o u p * t i m e / d d f m = s a t t e r t h : r a n d o mi n t e r c e p t / s u b j e c t = s u b ( g r o u p ) ; r e p e a t e d ti m e /t y p e = s p( e x p )( ti m e ) s u b j e c t = s u b( g r o u p )I o c a1 : r u n . 変量効果 +指数型系列相関 +測定誤差 ( V a r i a n c ecomponent +S p a t i a le x p o n e n t i a I +L o c a l ) SASフ。ログラム 。 1 0 9
5 .共分散の時間間隔に対するプロット 26 共分散の時間間隔に対するフ ロット(以下、 o 24 共分散プロットと略す)は共分散構造をグラフ イカルに検討するために考えられたものでる。 これは ODS機能そのものとは別問題ではある が、統計量による検討とグラフイカルな検討と のリンクということの題材として適したものであ 今く 京 るとし、うことから、ここに提案することとしたもの 叱 である。 共分散構造を検討するためは、同一被験者 内での観測値聞の共分散の時間間隔に伴う 変化パターンを知ることが必要である c その変 化パターンのおおよその姿を見るためには、 以下のようにすればよい。まず、薬剤群×時点 のセルの算術平均を計算する。その算術平均 6 4 。 。 2 4 8 1 2 1 6 20 24 時間間隔 ( h ) . 共分散の時間間隔に対するプロット図 図2 と観測値との偏差を計算し、被験者内で全て の2つの時点の組み合わせについて偏差のベアを作成する。全被験者のデータを用いて、時間間隔 (ベアの時点の時間差)のごとに偏差のベアの共分散を計算する。そして、その共分散を時間間隔に 対してプロットしてやればよい。 この共分散プロットはVariogram( D i g g l ee ta , . l1 9 9 4 )と類似の考えに基づいたものであるが、最大の 違いは、 Variogramで、は時間間隔 0の共分散(すなわち分散)がグラフ上に描けないという点であり、こ れは共分散構造を検討する上で非常に大きな問題点である。ここで、は共分散プロットをより簡単に描く ために、時間間隔ご、とに計算した共分散を単純にプロッ卜したが、 Variogramで、通常用いられるようなス ムージングの手法を用いるなどの改善の余地がある。 6 .おわりに ODS機能を用いることにより、従来の紙ベースを基本とした出力に比べ、モデ /レ解析で、得られた結 果の内の有用な情報のみをコンパクトな形で提示することができ、グラフ等の関連した情報とリンクを張 ることにより相互参照が容易になり、また、複数のモデ、/レの情報を 1つにまとめることにより相互比較が しやすくなるなど改善が可能となる c これらの改善は臨床試験の総括報告書をレビューしやすくすると いう点で非常に有用なことであると考えられる。 参考文献 D i g g l e,P .J .,L i a n g,K .Y .,Zeger,S .L .( 1 9 9 4 )A n a l y s i so fL o n g i t u d i n a lD a t a .OxfordU n i v e r s i t yP r e s s Verbeke, G .,Molenberghs, G .( 19 9 7 )L i n e a rMixedModelsi nP r a c t i c e :A S A S . O r i e n t e dA p p r o a c h . S p r i n g e r ‑V e r l a g . SASI n s t i t u t e( 1 9 9 9 )TheCompleteGuidet oSASO u t p u tD e l i v e r ySystem, V e r s i o n8 . 0,Cary, NC:SAS I n s t i t u t eI n c ‑110一
日本 SASユーザー会 (SUG1‑0) P H ‑ C Ii n i c a lソフトウェアを利用した集計解析表作成について 宇野浩正 宮川元志 S A Sシステム開発推進部 株式会社タクミインフォメーションテクノロジー Development o f Statistical Analysis Reports f o r Clinical Studies b y SAS/PH‑CIi n i c a l Software H iromasa Uno • Motoyuki Miyagawa SAS System Development D e p t . TAKUMI Information Technology I n c . 要旨 SAS/AFソフトウェア F R A M Eエントリを利用したテンプレート作成、 S A S / P H ‑ C Ii n i c a l ソフトウェ L E関連メソッドによる E x c e lへのデータ出力を中心に アより提供されているメソッドの指定、 O S A S / P H ‑ C Ii n i c a l ソフトウェアを利用した臨床試験集計解析表の作成方法と集計解析プログラム の標準化について考察します。 キーワード SAS/ PH‑CIInIcal ソフトウェア、 SAS/AFソフトウェア FRAMEエントリ 1 .はじめに 臨床試験データの集計解析業務は治験実施計画および解析計画に従い行われます。臨床第 I相試 験から第皿相試験までその意味と性格は違いますが患者背景、有害事象、臨床検査値などの集計表は 同様の集計解析処理が行われる場合があり、またプロジェクト単位でも同じような状況が考えられます。 そこで集計解析処理を行うプログラムの標準化を模索し、集計解析業務の合理化と解析結果の信頼性 を保証するための手順書の整備やシステム構築に取り組むことになります。現在、集計解析業務に先進 的なシステムや仕組みを取り入れている企業は多数ありますが、全ては上述した「結果の信頼性を保証 する」ことを念頭に構築されます。例えば、プログラムのバージョン管理、結果の再現性、システム環境全 般のセキュリティ、結果のバリデーションなど標準的な仕様や方法論が確立していないものも多く見られ ますc 今回 S A S / P H ‑ C l i n i c a lソフトウェアと SAS/AFソフトウェアを利用した集計解析表作成用のシステムを構 築し、集計解析業務を行う上での実用的な機能を紹介しますc 1 1 1
2 .データ管理とシステム環境 S A S / P H ‑ C l i n i c a l、ノフトウェアは CDMSとしてのデータ管理機能はなく、一般的に言われる解析用デー A Sフォーマットの管理を行う機能を持ちます c タセットやコードデーータとしての S CDMSへのアクセスは SAS/ACCESSソフトウェアでサポートしている DBMSベースで構築されていれば 基本的には問題ありませんc さらに、クライアント・サーバー環境においても S AS/CONNECTソフトウェア AS/SHAREソフトウェアの機能によりシステム環境を構築でLきます ( F i g u r e 2 . 1 ) 。 やS また、データを管理する単位に関してもフレキシブルに対応できます。通常プロトコーノレ(スタディ)単位 に治験データを管理しますが、データ構造の標準化によりプロジェクト単位やプロトコールを分割、統合 した単位でも管理が可能です。 F i g u e r 2 . 1 データ環境とシステム構成 ①治験データ管理システム D B M Sテーブル、 S A Sデータセット などサポートされている形式。 P H C から直接アクセスも可能。 ② PHCデータ ②P H ‑ C Ii n i c a lデータ(解析用データ) D B M Sテーブルでも可能だが現実的 には S A Sデータセット。 C D M Sより テーブル(データ)を転送して構築。 ③P H ‑ CI i n i c a I データ(解析用データ) D B M Sテーブルでも可能だが現実的 A Sデータセット。 C D M Sより には S テーブル(データ)を転送して構築。 S A S / P H ‑ CI i 円i c aI ③ PHCデータ 3 .データ構造 SAS/PH‑ C l i n i c a lソフトウェアは様々なデータ構造の解析用データセットを管理できます。具体的なデ I S I T単位の構 ータ構造としては患者背景などの 1症例 1オブ ザベーションの構造、臨床検査値などの V F 造、または副作用発現数や臨床検査項目をアイテムとした階層構造などが考えられます。治験データの I S I Tタイプなどの CRFの形式やデータ記入方法の違いな データ構造を構築する場合、 BOOKタイプ、 V ど CRFの設計に大きく左右されます。一般的にはデータの特性別にしてつカ冶のデータファイル(グツレー プ)に分割し、それぞれの分割されたデータに対する最適な構造を考えながら構築します。 1 1 2
分割されたデータは症例番号や VISITなどのキーとなる変数をもとに関連付けされていることが前提と なりますc この分割されたデータのキ一変数による関連付けをそのまま S A S / P H ‑ C l i n i c a lソフトウェア環境 において定義します( F i g u r e 2 . 2 )。このキ一変数による分害I 1 データ聞のリレーション定義は必ず行し、ます。 この定義を行うことによりテンプレートから集計解析処理に必要な変数を選択するだけで、関連データセ ットのキー情報をもとに結合し解析用データセットを自動生成します c また、患者背景データと臨床検査 値データの対応状況を確認したい場合、同じく確認したい変数だけを選択することで結合後のデータ構 造でデータの内容をプレビューする機能にも利用されます。 F i g u r e 2 . 2 スタデイデータに定義されたキー情報 ぽ AI IV ari a bI e s 日 . . , jS A S / P H ‑ C Ii n i c a !S a m p ! eS t u d y 白 . .i lP R O T O C O L Pr o to c o! 白川固 PATIENT Patient I d e n ti fi e r 巳"・回 V I S I T V i s i tI d e n ti fi e r 1 . . . .i lA E C O D E A d v er s eE v e n tC o d e Ii . . .,固 L A B T E S T L a bT e s t ミ e ・ ・ m 固 g P H Y S E X A M P h y sE x a m :T e s tC o d e 臼 . .i lA~lDRGTYP T h er a p yT y p e ~ t . . .固 A N D R U G ~.......回 CMTIME T h e r a p yN a m e C o nM e d s :A c t u a !T i m e ; … ロ STIME EscapeMeds: Schedu!edTime ; … ロ MEDEXAM MedExam: Test Code ! . . . . . . . ロ VASTIME V A SS c h e d u l e dT i m e ;…・回 V I T T I M E V i t a !S i g n s :T i m e S A S / P H ‑ C l i n i c a lソフトウェアで、管理する解析用データセットは CDMSで管理しているデータ構造をそ のまま S A Sデータセットに変換し登録する方法や CDMSから C l i n i c a lD a t aW a r e h o u s eを構築し解析用 データセットに変換し登録する方法などデータ管理上のバリデーションに問題がなければ環境に合わせ た方法を選択することができます。 4 .プログラム、出力情報管理 集計解析用のプログラムは DATAステップや P ROCステップを用いてコーディングされ、プログラムの汎 用性と構造化の観点から一般的に S A Sマクロ言語が利用されます c プログラムは SOPに従い作成、変更 され履歴を残します c また、集計解析処理実行時の LOG、プログラムチース、出力結果、実行時のサマリ 113
ーなどの情報をセットにして保存することも必要になります。 S A S / P H ‑ C l i n i c a l ソフトウェアはこのようなブρログラム開発環境と結果を含む履歴管理の機能を併せ持 ちます。テンプレート機能により標準化されたプログラムを登録し、テンプレート実行時の OUTPliT、 SOURCE、LOG、SUMMARY の各情報は 1つにまとめて FIX し保存します( W i n d o w 4 . 1 )。また、保存した 情報からプログラムだけを実行し解析結果の再現を行うことも、保存した情報を確認することもできます ( W i n d o w 4 . 2 ) oさらに、テンフ。レートのフ。ロク守ラムの指定により解析処理に使用した SAS データセットや解 W i n d o w 4 . 3 )。 析結果の SASデータセットの保存も可能で、す ( W i n d o w 4 . 1 OUTPUT、SOURCE、LOG、SUMMARY出力画面 民 山 IIT, b 制 限 回 関1 ﹂ ‑ 4 1 加 p u t 1S o u r c e 1L o g 1U 匂 畑 S 伽 伽 L l 明 m m 附 哨 n 町 白 川m a r 外J O V AT a b l巴S ‑A d v e r s eE v e n tC od e = 0 0 2 4 0 0 0 3C ∞M e d s :A c t u a lT i m eニ . 一 G e n e r a lL i n e a rM 吋巴I sP r o c e d u r 巴 C l a s sL e v e lI n f o r m a t i o n C l a s s L e v e l s ∞ A ED E V a l u e s 0 0 2 4 0 0 0 3 ゴ ヱj 」 Window4.2 Output選択画面 Window4.3 出力データセット 包鍾昆図面盃面圃画m~拙舷彊貯置費軍司u沼量罰般・圃園圃圃圃圃圃圃圃 -1 ロ Ixl A N O V AT a b l e sw i t hP l o t s A N O V AT a b l e 盟R e s i d岨 I sD a t aF il e し盟 L e a s t ‑ S q u a r e sM e a n sD a t aF il e 図 ‑ ; u m m ar y1 T a b l e 1S ‑ i A B C1 A B C1 2 3 A B C1 2 3 A B C1 2 3 X Y Z9 8 7 A B C1 2 3 A B C1 2 3 0 2 J U N 凶 1 1 A 2 1 J U L 1 1 J U N 2 8 S E P 28S~ これらの保存された情報はすべて SAS/PH‑ C l i n i c a lソフトウェアの環境においてユーザー単位やユー ザーグループ単位に設定されたセキュリティに従い管理されます。また、情報を保存するための形式は fPH一L i b r a r yF o l d e r jf P H ‑ T e r n p l a t e jf R e p o r tS e l e c t i o n s jの3通りあります。 ‑111
5 .テンプレートの作成 S A S / P H ‑ C l i n i c a lテンプレート ( P Hテンプレート)は集計解析処理用プ ログラムの標準化を実現するひと C つの方法てやす τ S A S / P H ‑ C l i n i c a lソフトウェアの標準機能を使用して PHテンプレートを構築する際、ユー ザーが実際に行う作業は「集計解析用プ。ログラムを用意する JI パラメータ設定用のインターフェイス画面 を作成する JI テンプレートの実行テストを行し、検証する J の3つになります。 集計解析用のプログラムは既存のプログラムを登録することも新規に作成することもで、きます。プログラ ASプログラムであれば特に制約は ムの形式は DATAステップ、 PROCステップ、マクロ言語など通常の S ありません。プログラムの中にパラメータとして実行時に指定したい部分はマクロ言語のマクロ変数指定と & J付きのフィールド名を指定します ( W i n d o w 5 .1)。解析用データ作成のプログラムは自動生成さ 同様に I れますのでこの部分を作成、登録する必要ありません。パラメータ指定のフィールドを設定すると自動的 に画面左下の I S u b s t i t u t i o nF i e l d sリストボックスJにフィールド名が表示されます。フィールド名に右下の リストボックスからフィールドタイプを割り当てるとプログラムの指定は完了でLす 。 W i n d o w 5 . 1 PHテンプレートプログラム管理用画面 |霞~凶limIiIlilII~al'.äl! 亙 戸M lnu a Tl '田町田町V hA H v nU UN hA (﹀ 戸M lq c e rl HU p﹂ 円 O b •• 贋鹿間│ . p r o cg l md a t a二 & d a t a : c l a s s& t r e a t : m o d e l& I a b =& t r e a t : I s m e a n s& tr e a t Is t d e r rp d i f ft d i f fo u t 二̲p h m e a n sc o v : o u t p u to u t 二̲ph d i a gr= rs t u d e n t =s t u d e n t p二pu 9 5ニ u 9 51 9 5=I ~ 一 J ' ' 戸M rl ︐ ︐ I P﹂ ri B+L F﹂ a a ‑hH ︺ 1l 1 J s f ・︑ rl 声 角 F+11111 Iltlh ︐ a+ v q lD a + 1ln品 末﹁ L 戸 F+l rfL f/lT nm ー ?LI?J'gg ‑hHr ei 即ゐ一 ρし f ‑ 一ri ︿ F 内 ︑ 戸M l h ‑‑角 VJIl P2 l円以 +LO Iliar‑ O伐 声 a ︐ . '?il円u 町ゐ即ゐ Ih ‑‑ow 斗 と と Fi e l dT y p e s : . . d e a s s i g n . . . ‑l . . .I g n o r e . . . S t u d yD a t a S t u d yC o m m o nK e y s ・. ‑. . S t u d yV a r i a b l e s . . . S t u d yV a r i a b l eA t t r i b u t e s . . . V a r i a b l eD r o p ‑ D o w nL i s t V ari a bI eLi s t V a r i a b l eL i s t &B u t t o nC o m b o V a r i a b l eP u s hB u t t o n S i n g l eV a r i a b l eL i s t &P u s hB u t t o n 1 + s u b s t i t u t i o nF i e l d s : T I T L E T e 以 tT i tl e s&F o o t n o t e s . . . L A B T E S T D r o p ‑ D o w nL i s to fI t e m s D A T A S t u d yD a t a T R E A T S t u d yV a r i a b l e s . L A B S t u d yV a r i a b l e s . L A B T Y P E S t u d yV a r i a b l eA t t r i b u t e s . . L A B V A R S t u d yV a r i a b l e s . T I T L E 2 G r a p h i c a lO p t i o n s . l F7 法話: L 戸 間 「 にU 1ょ 1よ
プログラム登録の完了後、次にインターフェイス画面を作成します。 PHテンプレートのインターフェイス 画面は SAS/AFソフトウェア FRAMEエントリの画面構築と同様の操作を行います。ただし、スクリーンを 制御するためのプログ ラム ( S c r e e nC o n t r o lL a n g u a g e )をコーディング守する必要はありません。 インターフェイス画面の作成完了するとテストを行し、ます。実際のテストは PH テンプレート構築中に随 時行うことができます。テストの結果を確認しながら集計解析プログラムの変更やインターフェイス画面の 変更を平行して行い、結果の検証まで進みます。 6 .FRAMEエントリをテンプレートとして利用 前述した PHテンプレートは FRAMEエントリを代用することも可能です。 SAS/AFソフトウェアの機能を 利用してパラメータ設定用のインターフェイス画面を FRAMEエントリにて作成します。この場合の注意点 は 、S A S / P H ‑ C l i n i c a lソフトウェアの PHテンプレートの環境でらインターフェイス画面を作成すれば修正や 変更の履歴情報はすべて管理されますが、外部カタログに SAS/AFソフトウェア FRAMEエントリを使用し てインターフェイス画面を構築した場合、 SAS/AFの仕様により PHテンプレートと同様の履歴情報は残 せません。同じ理由から作成する FRAMEエントリ内には集計解析用のプログ?ラムはコーディング せず P PHテンプレートに登録した集計解析プログずラムを FRAMEエントリからコールして実行する方法を推奨し ます。 om p o n e n t s画面で指定します ( W i n d o w 6 .1 ) PHテン 作成した FRAMEエントリは PHテンプレートの C 0 プレート実行時に指定したエントリが表示されます。 FRAMEエントリで構築するテンプレートは複数のエ ントリを組み合わせた構造を持つアプリケーションとして構築することも、必要なダイアログウインドウだけ を用意した単一の画面構造として構築することも可能です。 W i n d o w 6 . 1 PH‑TemplateComponents画面 │i1i除制怒らぬ P 帥P 側1m主四千 ヘ山.川.コ¥ γ... 日二 回開畷 1 C u s t o r 山 e dW i n d o w s 1C o d eS e c t i o n s1 1 E 患者背景レポート作成│ ‑ ・ 副 官 四 回 園 田d四 ; : . u m而 田 園 圃 圃 圃 圃 圃 圃 圃 圃 圃 圃 圃 圃 圃 圃 圃 圃 圃 圃 園 xl 川市;品MPLT.K01S001.FRAME 当 │ O ! L ̲ j C a n c e l I R e a t 1 ‑116‑ H e l p II
7.OLEメソッドを利用して EXCELに出力 W i n d o w s環境で集計解析処理を行う場合、集計解析表を E X C E Lに出力するケースが多く見受けられ S V形式のファイルを作成する場合もありますが、 E X C E L環境での編集処理が発生すること、編 ます C 集後の集計解析結果のバリデーションなと 問題が残りますので、ほとんどの場合 D D E機能を利用するこ D E機能を利用した出力処理は D A T Aステップ を利用して P U Tステートメントに E X C E L とになります。 D c c ρ マクロ関数を定義する形式になりますので比較的簡単に指定がてoき、かつマクロ定義をすることによって プログラムの部品化、標準化などの利便性も追求できます。 この D D E機能を P Hテンプレートに利用することもできますが、 S A S / P H ‑ C l i n i c a lソフトウェアに E X C E L 関連の O L E機能をもっクラスが追加されています。現在の S A S / P H ‑ C l i n i c a lソフトウェア R e l e a s e 2 . 1 3の 環境では S A S H E L P . O L Eのカタログ1こクラスおよびメソッドが保存されています ( W i n d o w 7 . 1 。 ) W i n d o w 7 . 1S A S H E L P . O L Eカタログ、 l riJW m‑ 園田路量 L i b r e f :S A S H E L P C a t a l o g :O L E N a m e ~ L A S S E X C E L O L EC F R E 0 1 W A YC L A S S P I E C H A R TC L A S S lS H C L A S S P U BL L A S S X L C H A R T C X L O U T O B JC L A S S X L P R O C S C L A S S C L A S S X L P U B S C L C H A R T S C L E X C E L E X C E L O L ES C L O e s c r i p ti o n M i c r o s o f tE x c e lO L EA u t o m a t i o nC l a s s M i c r o s o f tE x c e ll ‑ W a yF R E OT a b l eC l a s s M i c r o s o f tE x c e lP i e C h a r tP u b li s h e r P U B L I S H . C L A S S M i c r o s o f tE x c e lB a s eC h a r tO b j e c t S A S / P H CO u t p u tO b j e c tE x c e lC l a s s M i c r o s o f tE x c e lP R O C SB a s eC l a s s M i r c o s o f tE x c e lP u b li s h i n gC l a s s C H A R T . S C L E X C E L . S C L M i c r o s o f tE x c e lO L EA u t o m a ti o nC l a s s ヲ ょj これらのメソッドを利用する場合、いくつかのポイントがあります。 ①P D Kクラスのインスタンスを F R A M Eエントリで利用する。 P D Kクラスは S A S / P H ‑ C l i n i c a lソフトウェアの以下にあげる情報を F R A M Eエントリに提供しますc . S A S / P H ‑ C l i n i c a lソフトウェアの環境情報 . P Hテンプレートに定義されている情報 . P Hテンプレート実行時の O U T P U T、S O U R C Eなどのレポート情報 具体的な指定方法は F R A M Eエントリに E N T R Yステートメントを定義します心 │ E N T R YP D K8;* P D Kクラスのインスタンス用 S C Lリスト I Dをパラメータとして受ける; 1 1 7
② PHテンプレートに登録したプログラムを実行する。 集計解析処理を実行させるイベントは FRAMEエントリで発生しますc 従って、 PHテンプレートに登録し たプログラムを実行する場合は RUN̲CODE̲SECTIONメソッドを利用します c c a l lSEND(PDKクラス I D,'̲RUN̲CODE̲SECTION̲',コードセクション I D[,リターンコード J ); ③ EXCELシートへの出力とセル属性の指定 EXCELシートへの出力や属性の設定には PULISHクラス(カスタムクラス)のメソッドを使用します。使用 頻度が高いと思われるメソッド、を紹介します。 SETCELLCVALUEメソッド :EXCELのセルに文字データを出力する O SET̲CELL̲NVALUEメ ソッド、 :EXCELのセルに数値データを出力する。 c a l lSEND(PUBLISHクラス I D,'SET̲CELL̲CVALUE',出力行番号,出力列番号,文字値); c a l lSEND(PUBLISHクラス I D, 'SET̲CELL̲NVALUE',出力行番号,出力列番号,数値 ); DEFINE̲RANGEメソッド:属性定義を行うセルの範囲を指定する。 c a l lSEND(PUBLISHクラス I D, 'DEFINE̲RANGE',範囲開始行番号,範囲開始列番号, 範囲終了行番号,範囲終了列番号,指定範囲設定 ID); SETRANGEHORIZALIGNMENTメソッド.セル内の水平位置調整を行う。 │ 叫 S叩 ( 叩 SETCOLUMN叩 WI 旧 DTHメソツド忙:セルの長さを指定する。 l c a l lSEND(PUBLISHクラス I D, 'SET̲COL州 ̲WIDTH' 指定範囲設定 I D 長さ); RANGEOUTLINEメソッド:指定範囲に罫線を引く │ωSEND(PUBL 附 ク ラ ス ID,'RANGE̲OUTLINE',指定範囲設定 ID 罫 線 位 置 ); 8 .おわりに SAS/PH‑Clinicalソフトウェアのテンプレート機能についての説明はイントロダクションのレベルでL枚数の 制限に達してしまいましたが、その他多くの特筆すべき機能があります。 SUG卜J2000 の会場にて補足説 明をさせていただく機会を幸運にも得ましたので、その場をお借りして詳細をご紹介させていただきま すc [参考文献] 、 1 . SAS/PH‑ClinicalS o f t w a r e : V e r s i o 万 m2, Release2.10, UsageandReference 2 . SAS/PH一C l i n i c a lTemplateD巴V巴 e l o p巴 臼r K i 江 t SASI n s t i t u t eI n c . 118 SASI n s t i t u t eI n c .
日本 SASユーザー会 (SUG1‑0) PharmaSUG2000に参加して 小林章弘 スミスクライン・ビーチャム製薬(株) 研究開発本部バイオメトリックス課 Attendancer e p o r to fPharmaSUG2000 A k i h i r oKobayashi B i o m e t r i c s,R&D,SmithKlineBeechamSeiyaku 要旨 米 国 で 開 催 さ れ た PharmaSUG2000 に 参 加 し た の で 報 告 を す る 。 PharmaSUG (PharmaceuticalI n d u s t r ySASUsersGroup)は製薬企業向けに特化した SUGIという面持ちのカ ンファレンスで、 1997年より行われている。日本からは今回初めて参加した。 キーワード PharmaSUG、V a l i d a t i c n、OutputD e l i v e r ySystem 1 .はじめに 米国内で行われる SASユーザ会は SUGIだけではなく、地域別 l こ6つのグループコがある。データ n d u s t r ySASU s e r sGroup)は製薬企業向 マイニング、のユーザ会もある c PharmaSUG(PharmaceuticalI けのグループであり、 1 9 9 7年より開催されている。今回日本から初めて計 1 5名が参加したc 今回は 2α均年 5 月 7~ 1O日に米国シアトルにて開催された。参加者数は約 5∞名で、あった。 2 .PharmaSUGの内容 PharmaSUGのカンファレンスはチュートリアル、幾つかの会場に分かれてのセツ、ンョン・ポスター発 表、デ'モンストレーションから構成されている。 円叫d l l
(1)チュートリアル 5米 チュートリアルは土日に有料で行われていた。午前と午後に分かれて行われ iコースあたり 7 o c i e t yf o r ド、ルの費用がかかり、事前登録が必要で、あった。このような形態の有料チュートリアルは S C l i n i c a lT r i a l s(SCT)の年会、 DrugI n f o r m a t i o nA s s o c i a t i o n(DIA)でも行われており教育の一環をな e l i v e r y しているとも考えられる。今回は参加者に修了証が配布された。筆者らは SAS Output D System(ODS) Quick T i p sおよび A c c u r a l eM a n i p u l a t i o no fC l i n i c a lT r i a lD a t a( T r i c k s,T r a p s,& T e c h n i q u e s )に出席したc 今回行われたチュートリアルは次の通り(表 1 。 ) 褒1 .チュートリアルの内容 表題 SASO u t p u tDeI iv e r ySystem(ODS)QuickT i p s (*) A c c u r a t eM a n i p u l a t i o no fCI in i c a lT r i a lData (*) SASandt h eWeb B r i n g i n gD a t at ot h eWeb TheDrugDevelopmentP ro c e s s S t a t i s t i c sf o rN o n ‑ S t a t i s t i c i a n , L G e t t i n gs t a r t e dU s i n gSC F u n d a m e n t a l so fVBA *:今回受講したチュートリアル 表題を見るとこれらのコースは SASに限らない一般的な教育 (TheDrug Development p r 田 e s s、 S t a t i s t i c sf o rN o n ‑ S t a t i s t i c i a n )、プログラミング・技術的な問題に関するもので、しかも初級者・初心者 をターゲ、ットにした内容のようである。 筆者の所属する会社の米国本社では、例えば一つの開発品目を担当するグ、ループは統計担当 者、プログ、ラマ等全体で数十人からなり、通常の日本の製薬企業とは全く体制が異なる(職種も s t a t i s t i c i a n と SASprogrammer とが独立している)。日本の製薬企業ユーザには想像しがたい数の SASユーザが米国には存在する。 PharmaSUGはこうした数のユーザを教育・育成するための一つの 機会にもなっていると思われる。 (2)漬圏内容 . 第 1回である 1997年分の抄録 入手で、きた過去の抄録集よりセッ、ンョン別に演題数を示す(表 2 は入手で、きなかった)。この分類は今回と過去 2回でほぼ一定である。 SAS社担当者による解説・紹 介のものの比重も高い。 o d e r ' sComer(コーデ ィングのテクニッ タイトルでも分かるように実務に即した分類であることで、 C ic a t i o nDevelopmentや E l e c t r o n i cS u b m i s s i o nなど)のような内容が狼立し ク)や技術的な問題 (AppI た分類となっていることなど興味深い。統計学などの理論的な内容を含む発表は少なかった。今回 の発表では OutputD e l i v e r ySystem(以下 ODS 後述)の応用、 webpubI is h i n gと呼ばれる形態で の出力、等バージョン 8の新機能を応用した発表が目に付いた。 ‑120‑
表2 .セッション別演題敏 演題分類 A p p l i c a t i o nDeveloP Il1~n! Cod巴r ' sC o r n e r D a t aManagementandV a l i d a t i o n E l e c t r o n i cS u b m i s s i o n(CANDA 氾 SUB) EmergingT e c h n o l o g i e sa n dWebAppli~ati_o_l1 s P o s t巴r s S t a t i s t i c sandP h a r m a c o k i n e t i c s T e c h n i c a lT e c h n i q u e s SASP re s e n t a t i o n s P H ‑ C l i n i c a l T o t a lc o n t巴n t s 2 α均 年 1 1 6 1 9 3 5 1 3 1 1 1 5 1 9 9 9年 1 9 9 8年 8 1 2 2 5 6 8 9 4 1 1 1 0 3 1 2 5 7 1 0 8 3 54 4 62 (3)デモンストレーション JMPソフトウェアやデータマイニングツール E n t e r p r i s eMinerの新ノ〈ージョンのデ、モが別会場で 行 われており、通常は手にとって見る事はあ支りないマニュアルの展示即売もあった c CRO のブースも 多かったっ米国では大手 CRO以外にコンサルティング、会社も多く、上記演題のうちでもかなりの部分 が製薬企業以外の所属の発表者によるもので あった〈 3 .発表内容の紹介 今回参加したチュートリアル、セッ、ンョンで、特に興味深かったものについて紹介する ( ' )005に聞して パージョン 8から本格的に導入された ODS の入門者向けチュートリアルがあり、これに参加した (SASO u t p u tD e l i v e r yS y s t巴m(ODS)QuickT i p s )】参加者は 50名程度で あったが、定員一杯で、あっ i r kP a u lL a f l e r( S o f t w a r 巴I n t巴lIi g e n c eC o r p o r a t i o n )としづ人で SASに関するコンサルタン た。講師は K ト、トレーニング、を行っているようで、 ODS に関する本も出版しているの極めて基礎的なレベルから始 めて、何ができるか、どんなところに注意すべきかに関して一通り解説を行う内容で、あったっ初心者 に背伸びをさせずに、丁寧に教える姿勢には学ぶところが多かった なお、米国で、は既にバージョン O 8はリリースされており、参加者のうちその使用経験者の害J I合は 3分の l程度で あった, E x t e n s i b l eMarkupLanguag巴 ) 口頭発表では ODSとその応用に関する 演題も多く、 ODSとXML( や OLE、DDEを利用し解析の標準アフリケーション化、正確で読みやすいレポートを迅速に作成す R i c hT e x tF o r m a t )、HTML(HyperText Markup るための応用事例が目立った c ODS により RTF( o s t S c r i p t、PDF(AdobeA c r o b a tReaderで読み取る Language 現在のインターネットで、の主力形式)、 P o r t a b l eDocum巴n tF o r m a t 現段階の SASのリリースでは 3テストであり、次リリース 形式のファイル内 P より正式にサポー卜されるとのこと)による出力が簡単に作成できるためレホート作成に要する労力が ‑ 1 2 1
大幅に軽減でき、カットアンドペーストなどの作業が無くせるためレポート内容の信頼'性が大幅に高 められる。ウェブパブPリッシング(インターネット、イントラネットによる解析結果等の表示)も可能なもの となる。解析報告、総括報告書は紙への出力と同時にイントラネット上に作成で、きるなど、解析結果 の表示スタイルが大幅に変わる可能性がある。そうなると当然仕事のやり方、考え方そのものが大き く変わることになる。今後の応用形態についてさまざまな角度からの検討が望まれる。 なお、罫線を含むフォームはプロシジャ毎にデフォールトがあるが、 TEMPLATE プロシジャにより ユーザテンプレートの作成も可能で、あるため、柔軟な対応が出来るものと考えられる c 従来より海外のレポートでは、おそらくタイプライター文化の影響により、モノスペースフォントによ るスペースやタブ設定による桁そろえとハイフンや等号によるセバレータで擬似的な表の体裁をなし たものを作成している場合が多かった。インターネットで汎用される HTML文書では桁揃えをする場 合は表形式を使うのが便利な場合が多く、逆に罫線を伴った表形式の見やすさ l こ英語圏の人聞が 気付き、また表形式による表現を自ら行う必要性を感じ始めた、とし、うのが筆者の仮説である。 将来の典型的な使用法に関する発表では PDF による SAS 出力作成に関するものがあった。 UNIXにおいて TABULATEプロシジャや REPORTプロシジャの出力を、従来は 3段階 (PRINTTO プロ、ンジャで、外部ファイルとして作成し、これをユーティリティでふポストスクリプトファイルに変換、 AdobeD i s t i l l e r, こ よ り PDFファイルを作成)で あったものを ODSで、直接ポストスクリフ'トファイルを作成 することで、作業ステップを減らせる、とし、うものである c SASから直接 PDFファイルを作成することも次 リリースより可能になるとの事であるので、そうなれば更に単純になる c 定型的な出力としては SASか ら直接 PDF、HTMLを(あるいはその両方を一度に)作成することで必要十分であるが、日本の各種 報告書にあるような、本文と図表が混在した場合文書の場合はワード、フ。ロセッサ向けのファイル形式 である RTFの出力が有用である場合が多いと思われるc 次世代インターネットの標準と言われる XMLにおける SAS応用事例の紹介もあったc 作成する表 の論理構造定義とデータベースマップの 2種類の定義を行い、 XML対応文書作成アプリケーション ( A d e p tP u b l i s h e r )とSASを連携し XML文書と SASの PDF出力を行うもので、あったご演者は Z u r i c h B i o s t a t i s t i c s社の所属であり、この会社から他にも XMLに関連する 2演題の発表があった c (これは 同社の技術力の誇示とも考えられ、スポンサーによる一種の宣伝の機会ともなってしもと,思われるつ 筆者の所属する会社も PhannaSUG のスポンサーのひとつとなっており、人材募集広告がレジスト レーションの時に受け取った資料セットに含まれていた。) (2)データマネージメントとバリデーションに関して D a t aManagementandV a l i d a t i o n関連では会場が一杯になり、発表の途中や最後に多くの質問が なされていた c V a l i d a t i o n関連に興味がある人が多い理由を聞いたところ、 2 1CFRP a r t1 1 :E l e c t r o n i c r e c o r d s ;e l e c t r o n i cs i g n a t u r e sの実施で、さまざまな問題が起こっており、企業側も急いで体制を整備し ている最中で、あるとのことで、あった (CFR:Codeo fF e d e r a lR e g u l a t i o n s、その中で 2 1 は Foodand Drugs である)。これは電子化資料にも紙の資料と同じ信頼性を要求するものである。この規制に関 n f o r c e m e n tp o l i c y 文書が昨年公表されたため、更に拍車がかかったとの事で、ある (FDA する e ComplianceP o l i c yGuideS e c t i o n1 6 0 . 8 5 01 9 9 9 / 5/ 13 )。 デ、ータマネージメントの立場で、の問題点に関する発表が多く、技術的な問題に関する具体的な内 容の発表が多かった 日本の SASユーザにも大いに参考となる報告が多いと思われた O ‑122‑
中でも 1D o n ' tLookGoodi nOrangea n dS t r i p e s S u b t i t l e d," H a r dCodingC l i n i c a lD a t ai sn o t P e r m i s s i b l e "( S u s a nM. F e h r e r )と題する発表は特に印象的で、あった、この発表では SASプログ、ラム F文や SASマクロで、置き換える例を幾っか示し(症例番号により変数の中身を置 中で変数の内容を I き換えるなど)、これでは監査証跡が残らなし、こと、 CRFと解析データが一致しないことで重大な問題 がある、と指摘しているご規制に関する概略を見た上で、 FDA はレコードに対してアクセス権があり、 t r i p e s )を着る羽目になるにれは本当かどうか確認 重大な問題のある場合は囚人服 (=OrangeandS はしていなし、が)、とし、うものであるじ筆者の経験でも複雑なデータ取り扱いを行う場合、データの解 析前処理の段階でプログラム中ではデータを論理的に扱いきれず、このようなプログラムを書く場合 も過去にあった。論理的にのみ扱うべきであり反省の必要があると考える一方で、プログラムによる データ加工の際の記録の残し方、データベース構造、 CRFのあり方も良く考える余地があるものと思 われたc 以下に発表の際に出た話で重要と思われる点を列挙する(中外製薬附辻氏によるメモを改変)。 ・規制、動向をつかんで、臨床データに整合性をもたせる ・ 建物、セキュリテイ、記録、限られた人しか扱えなし、ことの証明 記録の保持、どこに保管すべきか • FDAは訓練の記録を抜き打ち検査するカもしれない 抜き打ちでデータ復元をやらされたことがある ・ド、キュメンテーションの完備 • SOPを完備していること、最新のものを適用しているか、保管・利用の形態 SAS プログラムのスタンダード:標準化されているか、そのプログラムは標準に適合して いるか ・開発、コード化、検証、 QA:体制が確立されているか • M i c r o s o f tE x c e lや他のバッケージを使うときは当局に報告 . 開発環境をコントロールする、再現できること ・デ、スクトッフ。 PCのセキュリテイ、パスワード ・どのシステムにいっ誰がアクセスで、きるか、セキュリティログを保存すること ・ ド キュメンテーションされていること ・何をどのようにテストしたか、結果はどうだったか • SASマクロ、 o u t p u t、programl o gとサホートデータの保存 チュードリアルで A c c u r a t eM a n i p u l a t i o no fC l i n i c a lT r i a lD a t a( T r i c k s, T r a p s,& T e c h n i q u e s )に参加 したが、 MERGEステートメントの使い方・落とし穴の解説や重複データを避けるためのテクニックと o r e y氏は N o r t hCaroI ina大学の教授であり、データベース いった内容で、あったO 演者の MalachyJF h e c kd i g i tと呼ばれる人工変数を作り、これをデータチェックに生かす、といった内 中の症例 IDから c i g i t s :A v o i d i n gE r r o r si nC l i n i c a lT r i a I s ) ν 医学統計(もはや「臨床試 容の口演も行っていた (CheckD 験学」と言ってもよし、かもしれなし、)の分野では最も有名な同大学では SASの教育に関しこの演者の ような教授までいることを知り驚いた。支た、このような極めて実務志向の強し、内容の発表が多いこと が PharmaSUGの特徴であるといえると思われる。 ‑123一
4 .最後に PhannaSUG で、は海外のデータマネージメントや解析担当者の生の声を聴くことが出来、 SAS ノミージョン 8に関する情報に直接触れることが出来た。次回もぜひ参加したいと考えている。何よりも 早い時期にバージョン 8を使ってみたいとし、うのが今回の参加者全員が感じたことである。 将来はこちらから学びに行くだけでなく、相互理解のために日本からの発表も出来たらと思う。日 本で、は知何に小人数で業務をこなしているか、あるいは海外の企業にもヒントになることも提供できる のではないか。また来年以降恐らく話題になると思われる、現在 ICH において検討中の巴CTD C e l e c t r o n i c CommonT e c h n i c a l Document)への日本の会社によるアプローチといった内容の発表も できるのではなし、かと思う。 参考資料 本稿執筆にあたり参考とした SAS関連情報、米国の規制情報はインターネットで、参照で、きる。 • h t t p : / / w w w . s a s . c o m l e r v i c eandS u p p o r tの下にある。 SASのホームページ。ユーザグループ関連は S SUGI等での SAS社担当者の発表資料等も含まれ、有用であると思われる。 • h t t p : / / w w w . s o f t w a r e ‑ i n t e l l i g e n c e . c omIH o m e P a g e . h t m l ・ ODSチュートリアルを行った人の会社のサイト。演者による ODSの本の紹介がある 0 h t t p : / / w w w . f d a . g o v / o r a l c o m p l i a n c e ̲ r e f l P a 口l I lD e f a u l. thtm 21CFRP a r t l lの関係資料がまとまっている。 • h t t p : / / w w w . a c c e s s . g p o . g o v / n a r a l c f r / c f r ‑ t a b l e ‑ s e a r c h . h t m l fF e d e r a l N a t i o n a lA r c h i v e sa n dR e c o r d sA d m i n i s t r a t i o n のへージ。ここで Code o R e g u l a t i o n sを参照できる。 謝辞 本稿執筆にあたり次の方のご協力を頂きました。感謝致します。 アラガン株式会社山内英作様 中外製薬株式会社辻隆信様 株式会社 SASインスティチュートジャパン鈴木薫様 ‑124一
日本 SASユーザー会 (SUG1‑0) メタアナリシスにおけるグラフィカル表現:レヴューとひとつの提案 0余田明夫・田崎武信 塩野義製薬株式会社 解析センター GraphicalRepresentationi nMeta‑ An a l y s i s:ReviewandaProposal Aki oYodenandTakenobuTasaki B i o s t a t i s t i c sD e p t ., S h i o n o g i& C o ., L t d . 要旨 メタアナyシスで、は信頼区間を並べてプロットするグ、ラフイカノレ表現が多用されている.この表現法の 難点、は確度が低く,そのために長い信頼区間のほうが,確度が高く,そのために短い信頼区間よりも l o t(山岳プロット)" 目立つことである.この難点を克服するための手段として本稿で、は Mountainsp ASプログ、ラムを紹介する.二つの事例を用いて提案法の長所 を提案する.このプロットを実行する S を提示する.最後に,他の変法にふれる. ,.メタアナリシス,グラフィカル表現,信頼区間, Mountainsp l o t,GPLOTプロシジャ キーワード. 1.はじめに 1.1メタアナリシス メタアナリシスは,独立に実施された多くの異なる試験からの根拠 ( e v i d e n c e )を結合するための方法 earson(1904)で 、 あ である.その起源は相当に古く,試験成績の結合を論じた最初の論文の一つは P i s h e r ( 1 9 3 2 )が p値の併合を考案したことはよく知られている.メタアナリシ るとし、われている.そして, F l k i n ( 1 9 9 6 ),Normand(1999),酒井・林 ( 1 9 9 9 ),S t a n g landB e r r y ( 2 0 0 0 )などで、レヴューされ スは O ominicie ta . l( 1 9 9 9 )で、レヴューされている.ところで, 1998年 1 1 ている.ペイジアンの視点からは D 月に通知された「臨床試験のための統計的原則 J (ICH‑E9ガイドライン)では, r 医学上の問題に複数 O v e r v i e w )またはメタアナリシスが有益で、あろう」と の試験によって対応する場合,統計的要約,総括 ( Agencyf o rHealthCareP o l i c yandResearch)による 述べられている.米国の医療政策研究局 C の分類 ( 1 9 8 9 年の初版)では,最も 5 齢、根拠として無作為化比較試験のメタアナリシスが 「根拠の質 J あげられている.このように,近年,メタアナリシスが脚光を浴びてきている.試験成績を積みあげるため のメタアナリシスの方法論は,いろいろな部分集団の成績を積みあげるためにも利用できる.この立場 で,臨床試験における施設あるいは層などの効果の評価にメタアナリシスが試みられている.このような 事情から,最近の統計学雑誌でもメタアナリシスに関連する論文を目にすることが多い.実際に, ‑125
meta‑ a n a l y s i s combining"をキーとして 6種の統計学雑誌についてメタアナリシス関連の論文を検索した.ここに, 1998年から 2000年 6月現在までに発刊された号を検索対象とした.その結果, Bio m e t r i c s "で 、 は 1 / 8 / 4 3 9,すなわち全論文 439編のうち,メタアナリシスに関連した論文は 8編であり,そのうちグラフイ カノレ表現が含まれていた論文は 1編で、あった.同様の表記を用いて,他の雑誌での検索結果は Drug I n f o r m a t i o l l Journal"で 1 / 2 / 3 1 4, J . A m e r . S t a t i s t . A s s o c ."で 2 / 2 / 2 9 G, Journal o f / 2 / 1 0 1, J . R o y . S t a t i st .Soc.A"で 1 / 1 / 6 2, S t a t i s t i c si n Biopharmaceutical S t a t i s t i c s "で 1 Medicine"、 で7 引 / 凡1 8 1 応 51 叩Oで 連した論文は 3 犯3編でで、あり,そのうち S t a t i s t i c si nMedicine"、 で1 8編と多かった.そしてお編のうち, 1 3編の論文でグラフィカル表現が応用されていた 1 .2メタアナリシスにおけるグラフィカル表現 試験治療と刻 r m治療の比較を目的にして独立に実施された多くの異なる臨床試験の成績を要約す るためのメタアナリシスでは,試験ごとの治療効果の差(またはオッズ比)の点推定値と信頼区間を経歴 的に配置してプロットするのが常套手段となっている.このプロットを視察することにより,試験治療が対 照治療に優る,あるいは劣ることの傾向を把握することができる.前節で述べた,グラフィカル表現を利 ι ( 用していた最近の論文 1 3編において,この平凡な しかし有力な){信言頼区間表示を用いていたものは 4 編で 治台療効果の比の対数値とげf 言頼区間をプロツトするように工夫していた.しかし,こ 上で、各試験における 1 れらの並行信頼区間プロットには,最も規模の小さい(すなわち,情報量の少なし、)試験が最長の区間 をもつことで、視覚的に最も目立ち,逆に情報量の多い試験は狭い信頼区間をもつことにより目立たなく なるとしづ難点がある.このため, G albraith(1988 a b )は区間の短しものから順に上から下へ配置する 信頼区間プロット,さらに R adicalp l o t ( 放射プロット)"と呼ばれる,点推定値とその精度の散布図を 提案している.しかし前者では,情報量の多寡は,表示される順序に間接的に反映されるだ、けで汐J, り 視覚に直接には訴えない.後者は,その図の見方の説明を受けずに解釈できるほどわかりやすくはな く,個々の試験で、の有意性も読み取引こくい.先に述べた検索でも,これらのグラフィカル表現を適用 tal . ( 19 9 7 a )は Weightedf o r e s tp l o t ( 重みつ していた論文は見つけられなかった.最近, Eggere き森林プロット)"を提案している.この図では,信頼区間に加えて,その中心に,その大きさを標本サイ ズにほぼ比例させた黒塗りの四角形が描かれる.先に述べた検索でこの表現は I編で適用されてい たまた,大橋(19 9 8 )と丹後(19 9 8 )で、も紹介されている.しかしこのグラフイカル表現で、も,最も強い訴 ightandPillemer( 19 8 4 )は,公表パ 求力をもたせるべき試験の視覚的な衝撃はまだ弱い.他に, L イアスをも検出することので、きる にf 治台療効果の差(またはオツズ、上比じ ω ),縦軸に治療効果の差(またはオッズ比)の精度指標としての標本サ イズをとり,各試験の成績をプロットする.一般に,学術雑誌には,有意差が認、められなかった結果より も有意差が認められた結果が公表される傾向がある.たとえ有意でない結果が公表されるにしても,そ うした興味を惹きそうにない結果の統計的な詳細は殆ど紹介されない傾向が強い.そういった公表バ イアスはこの Funnelp l o t "で、検出することができる i 根拠に基づく医療」への関心が高まったこと で,最近のメタアナリシスでは公表ノ〈イアスや他の選択ノ〈イアスの存在を評価することへの意識が強ま l o t "はグラフイカノレ表現を用いていた前述の論文 1 3 編のうち 4編で利 っている.そのため, Funnelp ‑126‑
用され,この数は平凡な並列信頼区間プロットを mいていた論文数に匹敵していた.折笠(1994)と柳 川 他( 2 0 0 0 )でもこのプロットがとりあげられている.なお.Eggere t a1 . ( 19 9 7 b )は Funnelp l o t "の 19 9 9 )は横軸に治療効 非対称性を判断するのに回帰分析法を用いている.Thompson and Sharp( 果のベースラインからの差,縦軸にオッズ 比の対数値をとり,各試験を円で表示している.このとき,円 t a1 .( 1 9 9 9 ) の面積を対数オッズ比の分散の逆ー数に比例させている.同様の工夫として Brumbacke は奇形発生率の問題でその発生率をまず昇順に並べ,そして 1 000出生あたりの発生率を円で表示し erry( 19 9 8 )は完全ペイジ ている.このとき,円の半径を試験規模の平方恨に比例させている.別に.B アン階層的モデ、ルのアプローチを提案し,対照治療の対数オッズ、と試験治療の対数オッズの散布図 を作成することでモデルの妥当性を検討している.D ominicie t a1 . ( 19 9 9 )およひ、Mullere t a1 .( 1 9 9 9 )もペイジアンアプローチを提案し,その性能を評価するためにグラフイカノレ表現を工夫している. DuMouchel and Normand(2000)は,ペイジアン階層的モデノレの選択を容易にするものとして Funnelp l o t "や Ladderp l o t (はしごプロット)"などの多くのグ、ラフィカノレ表現を紹介している.ち l o t "は上述した Weightedf o r e s tp l o t "と同ーのもので なみに, Ladderp 2 ひとつの提案 l o t (山岳プロット)"を紹介する. 新しい信頼区間プロット法として Mountainsp 個々の臨床試験の成績が表 1のような対応のない 2X2分割表に要約される状況を考える. x p (ゆ)={Rl(N2‑ R2)}/{R2(N1‑ R1)}によって推定され このとき,オッズ比 τと対数オッズ比 ψは i=e る.そして,ゅの標準誤差は s . c . (ゆ)= . Jl /Rl+1/(N1‑R1)+1/R2+1/(N2 ‑R2) によって近似される. e x p { : t1 . 9 6 s .c .( 手 )}と与えられ,対数オッズ比の 95%信 さらに,オッズ比の 95%信頼区間は近似的に i 頼区間はゆ士 1 . 9 6 s . c . ( q i )と与えられる.これらの信頼区間では正規近似が利用されている. Mountains p l o t "では.95%信頼区間の上に,その近似で用いた正規分布の確率密度関数を描 表1.対応のない 2X2分割表 く.この関数のピーク,すなわち山の中心での 高さは対数オッズ比の標準誤差の逆数に比例 有効数 無効数 計 させる.したがって,最も小さい標準誤差をもっ 試験治療群 R J N1‑R 1 NJ 臨床試験の山が最も高くなり,標準誤差が大き 対照治療群 R2 N2‑ R2 N2 卜 言 R N‑R N くなるほど山が低く拙かれる. 3 . プログラムの開発 l o t "を描くための SASプログラムを開発した.このプログラムは一つ 前節で、提案した Mountainsp のマクロ %mountainからなる.マクロの入力情報は .SASデータセット名,横制!の大目盛りの間隔, =オツズ上比じ)の指定で および横軸にとるスケール (1=リスク差 .2=対数オッズ比 .3二 . 1節の事例に適用した際のプログラムリストとして,データとともに,補遣に与える. このマクロを.4 4 . 事例 4 . 1 事例 1 Hine e t a1 . ( 19 8 9 )は,急性心筋梗塞の患者あるいはその疑いのある患者を対象に,リドカインが予 防投与された無作為化対照試験における死亡率のメタアナリシスを実施している.整理されたデータ がNormand(1999)の表 Iに示されている.この事例は C a r l i ne t a1 .( 2 0 0 0 )で、もとりあげられている. ← 1 2 7 ‑
主な関心はリドカイン群と 08同町 e t剖. 対照群との問で死亡率に 差があるか否かである.し B e n n e t te t剖. かし,各試験は,心臓発作 後の不整脈の発生率を比 Darbye t剖. 較するために実施されてい たので,個別では,死亡率 P i t te t剖. の意味のある差を検出する には規模が小さすぎた. Mogensen 個々のリドカイン試験での 死亡率の対数オッズ比と 9 C h o p r ae t剖. 5%信 頼 区 間 を 図 1に示 す.右方向にあるほどりドカ ‑2 イン群の死亡率が対照群 。 2 4 3 図1.死亡率の対数オッズ比と 95%信頼区間 よりも高い.図 1 から,全試 験に共通の効果がみられる.そして,最上段の最も規模の大きな試験から,統計的に有意ではない が,リドカインの有害な作用を示す若干の根拠が与えられる.ところで図 1 では,試験規模が最大で, 最も強調されるべき 0'B r i e ne tal.の試験よりも,信頼区間の最も長い Choprae tal.の試験の印象 のほうが強い. 同じデータについての Funnelp l o t "を図 2に示す.図 2の横軸は個々の試験で、の対数オッズ比, 縦軸は標本サイズを表している.この図において,最も右側で、最上部にプロットされている試験がほぼ 1の対数オッズ比をもち, 300と最大の規模をもっていることがわかる.この点は O'Briene tal.の試 験に該当している.さらに,この図の左側が空白であることから,選択バイアスの存在が示唆される.し かしこの Funnel図からは対数オッズ比の信頼度は読みとれない. R a d i c a lp l o t "を図 3 に示す.この図で横軸は x=1 /s.e.(手 ),縦軸は 同じデータについての y=ゆ/s . e . (ゆ)を表し,各試験が 1 つの点で、示される.点線で、示した水平直線はオッズ 比が 1の位置 0, 0 )から個々の試験のプ を指示する参照線である.右側の円弧はオッズ比のスケーノレを表す.原点 ( ロット点を通る直線を引き,その直線と円弧の交点、の目盛りから,対応する試験で、のオッズ比が読み取 れる. R a d i c a lp l o t "で、は対数オッズ比の規準化した値が大きい試験が上方にプロットされる.また, ∞ 4 O'Drianc ta l . 2 • •• 笈X J ∞ 1 。 • • 夜間 1 • 1 . 5 • • ロ ……………………‑・‑・………………… +1 T o 1 o g e n s cIl • ‑2 o 1 2 ロ 2 図3 .R a d i c a lp l o t 図2 .Funnelp l o t ‑128
精度の低い試験が横車 1 1 1 上で左側に,一方,精 OBrian e tal . 度の高い,すなわち多 くの情報をもっ試験が Bennette tal . 右側にプロットされる. Darbye tal . この図はその見方につ いての説明を受けずに P詑te tal . 解釈できるほどわカ冶りや Mogensen すくはない. 同じデータについての Weighted f o r e s t . Choprae tal p l o t "を図 4に示す.こ の図では,試験規模を 黒塗りの矩形の大きさ ‑2 ‑1 0 1 2 3 図4 . Weightedf o r e s tp l o t に反映させている.したがって,最も強調されるべき 0'B riene tal.の試験の視覚的な衝撃が比較的 強く感じられるようになってきているが,それでもまだその印象は弱い. 我々の提案した Mountainsp l o t "を同じデータに適用した結果を図 5に示す.この図で試験規模 は山の高さに反映されている.そして,最も訴求力をもつべき 0'B riene tal.の試験が視覚的に最も 強い衝撃を与え,情報量が最も少なく目立たせるべきでない Choprae tal.の試験は視覚的に最も目 立たなくなっている Mountainsp l o t "はオッズ比の尺度上でも描くことがで、きる.それを図 6に示す. しかし,山は左右同形のほうが美しし吃感じられる. OBrian e ta. l Bennette ta. l Da 巾 ye ta. l P i t te ta. l Mogensen" . Choprae tal ‑2 。 図5 . Mountainsp l o t 129‑ 2 3 4
4 . 2 事例 2 試験の成績が連続量で O B r l a ne ta. l 得られている場合にも Mountainsp l o t "を適 B e n n e t te tal . 用することができる.たと えば, Cochrane Darby e tal . Databaseo fSystem・ P比te tal . a t i cReviews(1995)では, 心臓発作をおこした入院 Mogensen 患者に対する専門家によ る看護と非専門家による . Choprae tal 看護の有効性を比較して o 10 20 図6 . オッズ比の尺度に戻した Mountainsp l o t いる試験についての情報 が集積されている.ページ数の都合上,ここでも再掲載しないが,データは Normand( 1 9 9 9 )の表 H に与えられている.この事例もやはり C a r l i ne ta. l( 2 0 0 0 )で、とりあげられている.なお, Normand ( 1 9 9 9 )のグラフィカル表現では,論文の著者と成績とが対応していなかった.ここで確かめたいことは, 専門家による看護では非専門家による看護よりも入院日数が短くなるか否かである.入院日数につい て専門家の看護を受けた患者群と非専門家の看護を受けた患者群の聞で、の差の 95%信頼区間の Mountainsp l o t "を図 7に示す.この図で,原点より左方向にあれば専門家による看護のほうが非 専門家による看護より入院日数を短かくしたことを意味している .9個の試験のうち 4個の試験 ( O r p i n g t o n ‑ M i l d,M o n t r e a l ‑ T r a n s f e r,Newcastle1993,Uppsala1 9 8 2 )で専門家の看護による 入院日数のほうが非専門家による看護の場合よりも有意に短かった.強調されるべき試験,たとえば Orpington‑Severeが適切に強調され,強調されるべきで、ない試験,たとえば Montreal‑Transferが 適切に強調されていない. Edinburgh Orpington一Mild Orpington‑Moderate Orpington‑Severe Montreal‑Home Montreal‑Transfer Newcastle 1993‑ 4ζコ 二三』 Umea 1985 Uppsala 1982‑ ‑100 ‑80 ‑ーー一‑,‑‑ー‑ー ‑60 ‑40 ‑20 0 図7 . 平均入院日数の差に閲する Mountainsp l o t 1 3 0一 20 40
5 むすびにかえてほかの可能性
4節で、例示した Mountainsp
l
o
t
"で、は,山の高さを点推定値の標準誤差の逆数のみに比例させた.
より一般的に,根拠の強さの指数を定義し,その定義した指数を山の高さに反映させることもできる.ま
た,高さに応じて山に濃淡をつけることで,精度の高い試験をさらに強調することもできる.
もっと単純に,信頼区間の線の太さを変えて拙くことも考えられる.すなわち,最も強調されるべき試
験の信頼区間を最も太い線で描くことができるこのようなグラブイカル表現は試験の個数が多い場合
に威力を発揮するであろう.
i
fックスプロットについて標本ザイズの違いを強調する変法が考えられている.たとえば,ボックスのサ
イズを標準誤差の逆数あるいは愚者数に比例させて描く変法がある.これをメタアナリシスにおける信
頼区間表示に応用すれば
Weightedf
o
r
e
s
tp
l
o
t
"のようなものになる.
2変量応答の場合,信頼区間は信頼楕円になり,同時信頼域が表示されることになる.このときでも,
情報量の少ない臨床試験が大きな楕円で、描かれ,逆に情報量の多い臨床試験が小さな楕円で描か
れるとしづ不都合が生じる.これを改善するために,同時信頼域をドーナツ状に描き,ドーナツの幅とそ
の濃淡に情報量の多寡を反映させることが考えられる.
参考文献
Bcrry,
S.M.(
1998).Undcrstandingandtcstingf
o
rh
c
t
c
r
o・
g
c
n
c
i
.
t
ya
c
r
o
s
s 2x 2 t
a
b
l
c
s a
p
p
l
i
c
a
t
i
o
nt
o mcta‑
1
7,
2
3
5
3
‑
2
3
6
9
.
a
n
a
l
y
s
i
s
.S
t
a
!
i
s
t
i
c
si
nMcdicinc,
Brumback,
B
.A.,
Holmes,
L
.
B
. and Ryan,
L
. M.(
1999)
fc
h
o
r
i
o
n
i
cv
i
l
l
u
ssampling amcta‑
Adversec
f
f
c
c
to
1
8,
2
1
6
3
‑
2
1
7
5
.
a
n
a
l
y
s
i
s
.S
!
a
t
i
s
!
i
c
si
nMcdicinc,
J
.
l
l
. and C
l
i
n
i
c
a
lE
p
i
d
c
m
i
o
l
o
g
y and l
Ji
o
s
!
a
t
i
s
t
i
c
s
C
a
r
l
i
n,
,
U
n
i
!
(
2
0
0
0
)
.L
c
t
.
!
c
r
s!
oc
d
i
!
o
r M
c
!
a
‑
a
n
a
l
y
s
i
s ・f
o
r
m
u
‑
v
a
l
u
a
!
i
.
ng, combining, and r
c
p
o
r
t
i
n
g by
l
a
t
i
n
g, c
Normand,
S
.L
.
(
1999)." Statistics i
n Mcdicinc,1
9,7
5
3・
7
61
.
CochrancD
a
!
a
b
a
s
co
fS
y
s
!
c
m
a
t
i
cncvicws(
1995)
F
.
,
l
'a
r
m
i
g
i
a
n
i,
G
.,
Wolpcrt,
H
.
L
.and llassclblad,
D
o
m
i
n
i
c
i,
V
.(
1999). Mcta‑analy日 s of migrainc hcadachc
!
r
e
a
t
m
c
n
t
s
combining i
n
f
o
r
m
a
t
i
o
n from h
c
!
c
r
o
‑
gcncousd開 i
g
n
s
.J.Amcr
.St
.
at
i
s
L
A
s
s
o
c
.,9~ , 16-28
DuMouchcl,
W. and Normand,
S
.
L
.
(
2
0
0
0
)
. Computcr‑
.
t
a
‑
a
n
a
l
y
s
i
s
modcling and g
r
a
p
h
i
c
a
ls
t
r
a
t
c
g
i
c
sf
o
r mc
M
c
!
a
‑
a
n
a
l
y
s
i
si
n Mcdicinc and Hcalth I
'o
l
i
c
y,
c
d
. by
S
!
a
n
g
l,
D
.
K
. and Bcrry,
D
.A
.,Chap.6,
Marccl Dckkcr,
1
2
7
‑
1
7
8
M.,
Smi!h,
G.D. and P
h
i
l
l
i
p
s,
A.N. (
l997a). Mc!a‑
Eggcr,
a
n
a
l
y
s
i
s‑p
r
i
n
c
i
p
l
c
sandp
r
o
c
c
d
u
r
c
s
.B
r
i
t
i
s
h Mcdical
315,1
5
3
3
‑
1
5
3
7
.
J
O
l
l
r
n
a
l,
M.,
Smith,
G
.
D
.,
Schncidcr,
M.andMindcr,
C(
l997b).
Eggcr,
D
i
a
si
n mctn‑analy副 sd
c
!
c
c
t
c
d byas
i
m
p
l
cg
r
a
p
h
i
c
a
l
t
c
s
LB
r
i
.
t
i
s
hMcdicalJ
O
l
l
r
n
a
l,
315,
629-63~.
F
i
s
l
w
r,
R
.
A
.(
l932). Slatis.
l
i
c
a
l Mcthods f
o
r R
c
s
c
a
r
c
h
d
i
n
b
u
r
g
h
.
W
o
r
k
c
r
o
.O
l
i
v
c
randl
l
o
y
d,E
I
L
F
.
(1
D8
8
a
)
. Graphical d
i
s
p
l
a
yo
fc
s
l
i
m
a
!
c
s
G
a
l
b
r
a
i
t
h,
30,
having d
i
f
f
c
r
i
n
g standard c
r
r
o
r
s
. Tcchnomc!rics,
2
7
1・2
8
1
R
.F.(I9
8
8
b
)
.A n
o
!
cong
r
a
p
h
i
c
a
lp
r
c
s
c
n
t
a
t
i
o
n
G
a
l
b
r
a
i
t
h,
.
t
ima!ed odds r
a
t叩 sfrom c
v
c
r
a
lc
l
i
n
i
c
a
l.
t
r
i
a
l
s
o
fc
s
.
t
i
s
t
i
c
si
nMcdicinc,
7,
889‑894
S
l
a
L
.
,
.
<
1Laird,
N
.,
l
l
c
w
it
t
,
P.and Chalmcrs,
T
.
C
.(
I9
8
9
)
.
Hi
n
c,
M
c
t
a
‑
a
n
a
l
y
t
i
cc
v
i【I
c
n
c
ca
g
a
i
n
s
tp
r
o
p
h
y
l
a
c
t
i
cI
I凹 o
f
i
.
o
n
.A
r
c
h
i
v
c
so
fl
n
‑
l
i
d
o
c
a
i
n
ci
nM
y
o
c
a
r
d
i
a
ll
n
f
a
r
c
!
,
t
.
cr
n
a
l Mcdicinc , I~9 , 269~-2698
L
i
g
h
t,
R
.
J
. and Pillcmcr , D. B.(1 98~). Summing 1
.
)p :Thc
S
c
i
c
n
c
co
f Rcvicwing R
c
s
c
a
r
c
h
. Harvard U
n
i
v
c
r
s
i
t
y
P
r
c
s
s
M
u
l
l
c
r,
P
.,
Parmig悶 n
i,
G
.,
S
c
h
i
l
d
k
r
a
u
t,
J
. and T
a
r
d
c
l
l
a,
L
.
o
rcombining
(
1999).A lJaycsianhicrarchicalapproachf
.
t
i
v
cs
t
l
l
d
i
c
s
.B
io
m
c
t
r
i
c
s,
55,
8
5
8
.
c
a
s
c
‑
c
o
n
t
r
o
l andp
r
o
o
p
c
c
866
d,
S
.
L
.(
1999). Mct
.
a‑
a
n
a
l
y
s
i
s f
o
r
m
u
l
a
t
i
n
g,c
v
a
l
u
‑
Norm則 l
a
t
i
n
g,
combining,
andr
c
p
o
r
.
t
i
n
g
.St
.
at
i
s
t
i
c
si
nM
c
d
i
c
i
n
c,
1
8
,
3
2
1・
3
5
9
I
.
(
l996). Mcta‑analysis currcntissucsi
nr
c
s
c
a
r
c
h
O
l
k
i
l
l,
s
y
n
t
h
c
s
i
s
.S
t
a
t
i
s
t
i
c
si
nMcdicinc,
1
5,1253・1
2
5
7
.
Pcarson ,K.(l 90~). R
cport on c
c
r
t
a
i
l
le
n
t
c
r
i
cf
c
v
c
ri
n
o
c
u・
l
a
t
i
o
ns
t
.
at
i
s
t
i
c
s,
B
r
i
t
i
s
hM
e
d
i
c
a
lJ
o
u
r
n
a
l,
3,
12~3-12~6.
Schmid,
C.
lI
.,
L
a
l
l,
J
.,
Mclnωsh,
M. and C
a
p
p
c
l
l
c
r
r
i,
J
.
C
(
1998).Ancmpiricalstlldyofthccffcctofthccon!r
.o
lr
a
ω
mc
n
tc
f
f
i
c
a
c
yi
nmct
.
a‑
a
n
a
l
y
s
i
so
f
a
sap
r
c
d
i
c
t
o
ro
ft
r
c
a
t.
.
at
i
s
t
i
c
si
nM
c
d
i
c
i
n
c,
7,1923-19~2
c
l
i
n
i
c
a
lt
r
i
a
l
s
.St
S
!
a
n
g
l,
D
.K
. and Bcrry,
D
.
A
.
(
2
0
0
0
)
. Mct
.
a‑
a
n
a
l
y
s
i
s i
n
.
M
c
d
i
c
i
n
candI
I
c
a
l
t
hP
o
l
i
c
y
.MarcelDckkcr
Thomp60n,
S
.
G
.and Sharp,
S
.
J
.(
1999).Explaininghc!cro.
.
a
‑
g
e
n
c
i
t
yi
nm
c
t
a
‑
a
n
a
l
y
s
i
s:
acomparisono
fm
c
t
h
o
d
s
.St
t
i
s
t
i
c
si
nM
c
d
i
c
i
n
e,
1
8,
2693.2708
大橋情雄(1998).臨床試験で用いられる統計手法.1998.
4.
2
3
9
B
i
o
s
(1)資料 NO.3,3
8
‑
4
9
.
折笠秀樹(l 99~). 臨床研究デザイン:医学研究における統計入門.
真興交易医書出版部.
酒チ│弘憲,林邦彦(1999).薬剤学研究におけるメタ・アナリシスの
実際ーメタ・アナリシスを利用した薬物治療法の有効性と安全性
の評価ー.薬剤疫学,~, 173-183
丹後俊郎 (
1D98).統計学のセンス:デザインする視点・データを見
る目.朝倉書底.
柳)
1
1敏
彦
, Ian Hobcrts,津谷喜一郎 (2000).METAとは何かー
未公表臨床試験を探す「アムネスティ jの試み
1
3
1一
5
0
3
‑
5
0
8
臨床評価, 27,
謝辞
原稿のピアレヴューをお願いした同僚の土屋住英さんと古 J
I
[雅史さん,そして S
ASマクロの開発を
支援していただし、た同僚の本田圭ーさんに,この場を借りて厚くお礼申しあげたい.
補遺 :SASプログラムリスト
合横取1の範閉;
proc summary data=ds40;
var x;
output out=order1 min=min max=max;
data nu11; set order1;
r1=(int(max/&xh)+1)*&xh; ca11
symput('r1',
r1);
if min<O then min=min‑&xh;
11=(int(min/&xh))*&xh;
ll);
ca11 symput('ll',
runi
合7
.
ロット;
goptions gunit=cm ftext=swissb;
%macro href;
もif &id=l or &id=2 %then 毛str(href=O )
;
宅
工 f &id=3
もthen 屯str(href=l )
;
もmend href;
もdo i=l もto &
sn;
symbo1品工 c=b1ack interpo1=join height=l
w=3;
もe
nd;
axis1 order=l to %eva1(&sn+1) by 1
minor=none major=none 1abe1=none va1ue=
(f=swiss h=0.5 t=%eva1(&sn+1) " )
;
axis2 1abe1=none va1ue=(f=swiss h=0.5)
order=&ll to &r1 by &xh;
宅
工 f &id=l 毛then
もstr(footnote "Risk Difference";);
もif &id=2 毛then
宅str(footnote "Log Odds Ratio";);
%ifιid=3 屯then
もstr(footnote "Odds Ratio";);
proc gp10t data=ds40 ;
p10t y*x=study / no1egend vaxis=axis1
haxis=axis2 %href;
format y study.;
run ; footnote; quit;
宅mend mountain;
Mountains p10t
inds士入力テ'一内外;
* xh= 械制i
の大目盛りの間隔;
* id= 横軸のスケーI
レ:
ドリスク差 or 2=対数オッス.比 or 3=オ7ズ 比 ;
合
もmacro mounta工n(
inds,xh,工 d);
合J
在木データセァトの変数;
* study: スタテ・ィ帯号 (seria1 No.);
合 ym: リスク差 or オッス・比; ysd: ymの標準誤差;
ref:スタディ名 or論文の著者;
data ds10; set 品inds;
もif &id=l もthen %
do;
p1=c/(a+c); p2=d/(b+d);
ym=p1‑p2; ysd=sqrt(p1*(1‑p1)/
(a+c)+p2*(1‑p2)/(b+d)); ypr=l/ysd;
宅e
nd;
も
工f&
工 d=2 or &id=3 %then もd
o;
ym=log((b*c)/(a*d));
ysd=sqrt(1/a+1/b+1/c+1/d); ypr=l/ysd;
もe
nd;
keep study ym ysd ypr ref;
runi
合スタテ・ィ名のアォーマァト情報化;
data y1abe1; set ds10;
fmtname='study';
rename study=start ref=labe1;
keep fmtname study ref;
proc format cnt1in=y1abe1; run;
q タテ・ィ数(オプずイーション数);
data nu11; set ds10 nobs=studyn;
ca11 symput('sn',
studyn);
runi
ロ
ッ
ト
J
T
l
テ
・
ー
タ
セ
ッ
ト
;
*
7
.
proc sort data=ds10; by descending ypr;
data ds20; set ds10; retain ysdmax 0
;
if ysdmax < ypr then ysdmax=ypr;
proc sort data=ds20; by descend工ng study;
data ds30; set ds20; retain yymax 0
;
if yymax < study then yymax=study;
data ds40; set ds30; retain hh 2
;
x95=1.96*ysd; pai=3.14;
x1=x95*2/1000; y1=hh/ysdmax;
y=study; x=ym‑x95;
%if 品工 d=3 もthen %str(x=exp(ym‑x95););
output; x=ym+x95;
もif &id=3 毛then 宅str(x=exp(ym+x95););
output; x=ym;
もif &id=3 もthen %str(x=exp(ym););
output;
do s=O to 500;
if s=O then x=ym; e1se x=ym‑x1*s;
y=study+(1/(sqrt(2 pai)*ysd)
exp(ー (x‑ym)**2/(2 ysd**2)))*y1;
も
工 f &id=3 毛then 屯str(x=exp(x););
output ;
end;
do s=O to 1000;
x=ym‑x95+x1*s;
y=study+(1/(sqrt(2*pai)*ysd)
exp(ー (x‑ym)骨 2/(2*ysd**2)))*y1;
宅if &id=3 宅then もstr(x=exp(
x););
output ;
end ;
run ;
会
鳴
骨骨食*吸入力データセットの変数;
* study: スタディ番号 (seria1 No.);
* a:試験治療:有効数; b:対f!日治療:有効数;
*C:試験治療:無効数; d:対照治療:無効数;
* ref:
スタテ.ィ名 or 論文の著者;
data dsOO;
1ength ref $40;
input study a b c d ref;
data1ines;
1 37 42 2 1 Chaopra et al.
2 40 40 4 4 Mogensen
3 101 106 6 4 Pitt et a1.
4 96 95 7 5 Darby et a1.
5 103 103 7 3 sennett et a1.
Brian et al.
6 143 142 11 4 0・
合
合
runi
options mprint;
,
,
,
,
もmountain(dsOO 0.04 1
);
もmountain(dsOO 1
2);
もmounta工n(dsOO,
10 ,
3);
合
ηノ
1よ
qO
日本 S A Sユーザー会 (SUG I-~) 乱数を利用する症例数設計 0 篠原英之介 小島慶嗣 クインタイルズ・アジア・インク 西次男 生物統計部 S a m p l eS i z eC a l c u l a t i o nU s i n gR a n d o mN u m b e r E i n o s u k eS h i n o h a r a,Y o s h it s u g uK o ji m a,a n dT s u g i oN i s h i . , Q u i n t il e sA s i a,I n c . B i o s t a t i s t i cD e pt 要旨 統計量の分布を数式として捉える事が困難な場合、 S A Sでは R A N N O R等の乱数を用いて 理論分布を近似する方法が利用できる。本報告では、臨床試験の症例数設計においてこ の手法を利用した最近の経験を紹介する。 キーワード 1 . R A N N O R関数, R A N B I N関数 はじめに 臨床試験では、プロトコール作成段階において症例数設計が必要とされる。症例数設 計の際、その根拠となるのは、対照群との比較試験では検定の検出力である。検出力が 高いほど検定は有意になりやすく、検出力は症例数を増やすほど増加するが、治験に参 加して頂く被験者への効果と安全性のバランス、治験自体の経済性、対象とする疾患の 全患者数、臨床的に意味のある結果を見出す事等を考慮した妥当な症例数が要求される。 検出力に基く症例数設計を行う際には、第 l種の過誤率、検出力、評価項目、検定手 法、評価項目の分布・パラメータ等をあらかじめ設定しておく必要がある。 第 l種の過誤率は当局の関与が大きく、治験の内容にも拠るものの、両側 5 %とされ る事が多い。他方、検出力(1 第 2種の過誤率)は治験実施者によって設定されるも のである。検出力は治験実施者が結論づけたい仮説が成立する確率であるから、高い方 が良いが、始めに述べた理由等から 80%程度に設定される事が多い。現実問題として 133‑
の症例数設計は、検出力とパラメータを候補となる範囲内で変動させ、それに対応する 症例数の中から適切なものを選択する事で行われる事も多い。 検定手法として l検定やが検定が選択された場合は、非心分布を利用した症例数設 計が知られている。有意水準と検出力の関係を説明する際、しばしば描かれる中心分布 点を非心分布に当てはめ、 と非心分布の 2つの山形分布が示すように、中心分布の αE 検出力を算出する。 本報告で紹介するのは、そのような統計量の分布を理論的に求めて行う症例数設計で はなく、乱数を利用して数千回から数万回の単位でシミュレーションデータを発生させ、 理論分布に極めて近い分布を得る事で行う症例数設計の最近の経験である。 乱数を利用する症例数設計において検出力を求める手順は、以下の通りである。 ①乱数を利用して、ある症例数のシミュレーションデータの組を数千回から数万回 単位で発生させる。 ②シミュレーションデータについて有意水準 αの検定を行う。 ③検定が有意となった回数/総シミュレーション回数で検出力の近似値を求める。 しかしながら、本報告で扱っているのは 2群比較の試験ではなく、非対照臨床試験お よび用量反応試験における症例数設計である。これらの症例数設計では根拠として、通 常の検出力ではなく「結果として言いたい条件(あるいは仮説)を満たす(あるいは採 択する)確率」の近似値を求めるが、その枠組みは 2群比較と同様である。 2 . 対象となる症例が極めて少ない非対照臨床試験の l例 疾患 Aにおける非対照臨床試験 この治験の背景の概略は、以下の通りである。 対象となる患者数が極めて少なく、オーファンドラッグの指定を受けている。 0 0 例以上の海外治験データが存在 海外では治験が終了し、既に承認を得ている。 1 する。 J が設定されたが、症例ごとのバラ 主要評価項目として「薬剤効果の持続時間(日 ) ツキが大きいという特徴がある。 日本での承認を得るための症例数は、対象となる患者数が極めて少ないため、先に 6 例程度が良いのではないかという見込みが立てられたが、統計的な症例数設計根拠が必 要であった。また、この薬剤は「効果の持続時間」が海外の治験結果と同様である事が 承認の条件であった。 そこで、次のような逐次的な治験デザインを提案した。 ① 6例までは無条件で治験を行う。その結果が海外の治験結果と同様とみなす条件 A I tEL ハペu 4・
を満たした場合には治験を終了し、申請を行う。 ②条件A [を満たさない場合には、症例数を増やしてさらに治験を続行する。 ③最大 1 0例まで治験を続行し、条件 A zを満たしたら治験を終了し、申請を行う。条件 A zを満たさない場合でも治験を終了し、報告を行う。 0例の時の条件をんとしたのは、終了条件としてそれまでとは異な (ここで、特に 1 る条件を設定する事も考慮、したためである。) この治験では症例数の限界が既にある程度決まっているため、「海外と同様な治験結 [,A z J と「症例数」を同時に設計する必要があった。 果であるとみなす条件 A 具体的には、 条件は海外治験データと本治験のデータの要約統計量に基づいて構成する。 海外治験データに基いて症例数 6~10 例のシミュレーションデータを発生させた時、 これらの条件がクリアできる確率を、 6 例の場合には 80~90% 程度、 10 例の場合に はほぼ 1 0 0 %に近い事を目標とする。 という点を考慮した。 症例ごとのバラツキが大きい「効果の持続時間」のデータは対数をとると対称な分布 に近づく。従って「効果の持続時間」のシミュレーションデータは、 R A N N O R関数によ り正規乱数を発生させ、これを逆対数変換 ( E X P関数)することで得た。 条件は、平均値、中央値、最大値、最小値のいずれかから構成することとし、最も適 切なものを決定するために、シミュレーションによりその分布を近似し、考察した。プ ログラムを以下に示す。 材料材料******材料材料材料ヰプログラム材料材料材料材料材料材料材料材木 古l e t~ 村 本 s i m =1 0 0 0 0 シミュレーションデータ作成 宇件; d a t aw o r k ; . 1 9 3 s i g m aニ 0 . 3 8 4 ;村本母平均,母標準偏差本件; m e a n 4 d or e p=6t o1 2b y2 ; d on o =1t o& Ns i m . 0 r e p d op at=1t a n n o r ( 5 4 8 1 2 6 5 ) * s i g m a x=m e a nt r y =e x p ( x ) o u t p u t e n d e n d e n d k e e pn or e py ; 村 本 シミュレーション1"0,症例数,持続時間 村本; r u n 二 p r o cu n i v a r i a t ed a t a = w o r kn o p r i n t v a ry o u t p u to u tニ o u tn = nm e a n = m e a ns t d = s t dm e d i a n = m e d i a nm i n = m i nm a x = m a x b yr e pn o ‑ 1 3 5 ‑ 一
r u n ti t1 e'要約統計量の分布 ; p r o cu n i v a r i a t ed a t a = o u tp l o t v a rm e a ns t dm a xm e d i a nm i n b yr e p ; r u n 材料材料材料材料材料材料村本プログラム終了材料材料材料材料材料材料材料件 シュミレーションによる近似分布から以下のような結果となった。 9 . 4日 、 9 5 %点は 8 9 .3日であり、海外治験デー 症例数 6の場合、中央値の時点は 4 1 = 5 0( 第 l四分位点)、および Q 3 = 8 6( 第 3四分位点)に近いものであった。 タの Q すなわち、海外治験データの Q 1 ‑ Q 3に 6例の中央値が入る確率が 9 0 %程度であるこ とを意味した。 6 . 2日、最大値の 9 5 %点は 1 6 5 .2日であり、何ら 症例数 6の場合、最小値の時点は 2 かの基準を想定することは困難であった。また、症例数の増加に伴い、最小値はよ り小さく、最大値はより大きくなる点も好ましくなかった。 1 0例まで到達したときの最後の基準(条件ん)として、最大値と最小値を除いた場 合の最大値と最小値、すなわち、二番目に大きい値と二番目に小さい値を使う可能 %点は 2 9 . 6日 、 9 9 %, 8は 1 51 .6日であり、これも何らか 性を検討した。その場合の 1 の基準を想定することは困難であった。 また、本報告の目的から外れるため要約にとどめるが、理論分布からの正規乱数では なく、海外治験データからの非復元抽出についても同時に行った結果、 6例の中央値の 5 %点は 4 9 .9日 、 9 5 %点は 8 8 .9日であり、正規乱数の場合と同様に海外治験データの Q 1, Q 3に近かった。 これらの結果から条件を構成する統計量として中央値を選択し、海外治験データの Qト Q 3 (50-86) に入る確率を 6~12 例まで 2 例刻みで計算した。 そのプログラムを以下に示す。 材料材料材料材料材料材料キプログラム(続き) 材料材料材料材料材料材料材料本 d a t ao u t 2 s e to u t b yr e p r e t a i nn5 08 60 ; 日 5 08 6 =( l‑ f i r st .r e p )杓 5 0 ̲ 8 6+( 5 0く= m e d i a n< =8 6 ) /品N ̲ s i m .; if1 a st .re p r u n e 、症例数と Ql~Q3 に入る確率の対応‘; t i t 1 ‑136
p r o cp f l n t ̲ 5 0 ̲ 8 6 ; v a rr e pN r u n 材料材料材料材料材料材料ヰプログラム終了材料材料材料材料材料材料材料ヰ 海外治験データからの非復元抽出も含め、結果は以下の通りであった。 症例数 Q [ ‑ Q 3( 5 0 ‑ 8 6 )に入る確率 ( n ) 正規乱数の場合 非復冗抽出の場合 6 : f タ ' 1 J 8例 [ 0例 [ 2例 8 6 . 9 % 9 [ . [ % 9 4 . 5 % 9 5 . 9 % 8 8 . 4 % 9 2 .i % 9 5 . 0 % 9 6 .9 % 一 以上の結果から、次の様な治験デザインを提案した。 6例までは無条件で治験を行い、中央値が海外治験データの Q [ ‑ Q 3である 5 0日以上 8 6日以下であれば、大きな違いはないと見なして治験を終了し、申請する。 6例の中央値が 4 9日以下あるいは 8 i日以上であれば、 2例を追加して、 8例で同様 の基準を適用し、 Q [‑Q 3内にあれば治験を終了し、申請する。 8例の中央値が 4 9日以下あるいは 8 i日以上であれば、さらに 2例を追加して、[0 例で同様の基準を適用し、 Q [‑Q 3内にあれば治験を終了し、申請する。 [ 0例の中央値が 4 9日以下あるいは 8 i日以上であれば、そのような結果であったこ とを当局へ報告する。 また、このような手続きで進めるときに 6W I Jで治験を終了し申請を行える確率は、 8 5 %以上は確保できる。 [ 0例で治験を終了し申請を行える確率は、約 9 5 %である。 従って、最終的に海外の結果と同様であるとして申請へ移行で、きない確率は日程度と 予想された。 3 . 選択問題の枠組みで行った症例数設計の l例 疾患 Bの 3用量試験 この治験の背景の概!II告は、以下の通りである。 治験薬剤の投与により状態 B Iに到達し、そのうち特定の条件を満たした場合にのみ 薬剤 Gを投与する。薬剤 Gの投与により、治療の目的である状態 81へ到達する。 プラセボ効果はほとんど期待できず、プラセボ対照を置くのは困難である。このた め治験薬剤の 3用量について試験が行われる。ただし、過去の治療経験に基づいて 無処置の効果の上限を想定し、その上限と各用量群問の比較を行って、低用量でも 明らかな効果があることを示しておく。 1 3 7
症例数設定においては、「無処置の効果の上限と 3用量群の比較」と 1 3用量群問の 比較」の両方を考慮する必要がある。 乱数を利用した症例数設定を行ったのは 1 3用量群聞の比較」である。 3用量群聞の比較における主要評価項目と副次的評価項目には以下の性質がある。 副次的評価項目「状態 B Iに到達する割合」は用量の増加に応じて上昇が見込まれる。 主要評価項目「状態 B 1に到達する割合」に関して、高用量では薬剤 Gを投与する条 件を満たさない可能性が高くなるため、中用量より低下する事も十分に予想される。 以下、 以上の点から、症例数設定には主要評価項目である「状態 B 1に達する割合 J ( 「到達割合 J ) に関して、優れた用量を選択する可能性を高め、劣った用量を選択する 可能性を低くするために、いくつかの典型的な状況下において実現値が最も高い用量を 選択するという選択問題の枠組みで症例数設定を試みる事とした。 具体的には、到達割合の推定値を大まかに 5 0 %前後かそれ以上、 3つの初期投与量に よる到達割合の差を!日程度聞くものと見込んで、前提条件 I T1が最も優れ、 T 3が最も 劣り、 T ,は T 1 と T 3 の間にある」の下で典型的な状況 1~4 を検討した。 状況 2 3 4 T1 T , T 3 6 0 % 6 0 % 6 0 % 6 0 % 6 0 % 5 5 % 5 0 % 4 5 % 4 5 % 4 5 % 4 5 % 4 5 % 目的 T1あるいはじを選択したい ( T3だけは選択したくない) T1を選択したいがじでもよい ( T3だけは選択したくない) T1だけを選択したい T1だけを選択したい 症例数設定の際には、「目的」を達成できる確率のみでなく、目的を達成できない、 あるいは最も悪いじを選択する確率も考慮する必要があるので、 Nを 3 0例から 8 0例ま で 5例刻みで変動させた時に各用量群が選択される確率をそれぞれ求めた。ここで 3群 は同一症例数とした。 プログラムでは状況 1~4 の母発現率を持つ二項乱数を RANBIN 関数を利用して発生さ せ 、 3群の割合の実現値が最高の用量群を選択するという試行を 1 0万回繰り返し、(最 高値となった回数/ 1 0万)で確率を計算している。ただし、各群の最高値が同値であ った場合、それぞれ(1/同値の群の数)をカウントした。 材料材料材料宇件宇材料材料材料フログラム材料材料材料件材料キキキキ材料キ仲村宇 % l e lN ̲ s i m = I O O O O O ; 件 宇 シミュレーションデータ作成 材宇: d a t aw o r k s e e d = 2 4 1 8 5 7 ; p ̲ l = 0.60 ;p ̲ 3 = 0.45 :村キ T1群 , T 作の到達割合 31 ‑138 村キ;
' 守 備 Aa 占 m川 m川 m川 nup u ︑︑ υ 一一︑ 一 円 wjunMn u 必 nbun 糸川凶 /J/// !+i!l+ll+l 症例数 C i ) 状況 4 T [を選択 T,を選択 T : !を選択 T [を選択 T,を選択 T3を選択 3 0 3 5 4 0 4 5 O .7 2 3 5 0 . 7 4 7 9 0 . 7 7 4 1 0 . 7 9 0 7 O .1 9 2 0 O .1 7 9 9 O .1 6 5 6 O .1 5 5 9 0 . 0 8 4 5 0 . 0 7 2 2 0 . 0 6 0 3 0 . 0 5 3 3 0 . 8 0 0 6 0 . 8 2 6 2 0 . 8 4 9 6 0 . 8 6 9 2 O .1 0 1 1 0 . 0 8 7 8 0 . 0 7 5 5 0 . 0 6 5 2 0 . 0 9 8 3 0 . 0 8 6 0 0 . 0 7 4 8 0 . 0 6 5 6 状1 兄3 rn ︐ . ヰノ ))) ) 3) 3) 2 /kfkft 0 . 6 4 5 7 O .6 6 0 4 0 . 6 7 4 9 O .6 8 4 2 0 . 6 9 3 6 0 . 7 0 3 6 O .7 1 2 2 0 . 7 2 2 0 O .7 3 0 4 0 . 0 6 3 4 0 . 0 5 3 1 0 . 0 4 5 3 0 . 0 3 8 3 0 . 0 3 2 4 O .0 2 6 5 0 . 0 2 3 2 0 . 0 1 9 6 0 . 0 1 7 6 0 . 0 1 4 5 0 . 0 1 2 1 0 . 0 4 2 7 0 . 0 3 3 9 0 . 0 2 7 5 0 . 0 2 2 4 0 . 0 1 8 2 O .0 1 5 1 0 . 0 1 1 8 0 . 0 1 0 2 0 . 0 0 8 1 0 . 0 0 6 1 0 . 0 0 5 9 一一一 ・I ・‑L 2一 l一 3一 合 川川6 1 L 定日一一一一一一 連 け川4 1 L ' l ' l zよ 2113 一一一一 U 一 一 一 一 一 一 ︑u c ︑ TIt‑nrhq υ 一一一 T3を選択 0 . 3 2 3 4 0 . 3 1 5 1 0 . 3 0 9 0 0 . 3 0 1 3 0 . 2 9 2 7 0 . 2 8 9 3 0 . 2 8 3 2 0 . 2 7 6 8 0 . 2 7 0 2 0 . 2 6 3 5 0 . 2 5 7 5 0 . 4 7 8 5 0 . 4 8 2 6 0 . 4 8 6 2 0 . 4 8 6 9 0 . 4 9 1 2 0 . 4 8 9 3 O .4 9 4 1 0 . 4 9 6 2 0 . 4 9 6 4 0 . 4 9 8 2 0 . 4 9 5 7 ︑﹄ノ ︿))): 群 T1 1 1 1 2 ︐ . ﹁ +aT'leleLQ/ /L 〆L / L 本 一 r . ' 守 備 ︐.︐.︐ l+ll+ll+lnu・ j j︑J 1 1 1 i 1 l u ︑ ︑ ︽ Jf¥Jf h lAQJム ηU c J .︐一一一︑ J/J/// ︐ ︑ 弘 ﹃ 〆 ﹁ dDanu‑P j︑ J︑ jIl nu ・' ' ' ' V A V A V︑ A‑‑ 一 n u ‑ ‑ h u h u h H A八 A八 A八 円 ド ハ U=ccc ・'HUAH月 HMAUHU 8 ︑︑ r.を選択 0 . 4 7 8 8 0 . 4 8 3 5 0 . 4 8 6 3 0 . 4 9 0 7 0 . 4 9 0 6 0 . 4 9 5 6 0 . 4 9 4 1 0 . 4 9 3 6 0 . 4 9 5 4 0 . 4 9 5 7 0 . 4 9 8 4 . o6133 . o6317 T [を選択 T3を選択 3 0 3 5 4 0 4 5 5 0 5 5 6 0 6 5 7 0 7 5 8 0 1 3 9 T [を選択 r.を選択 ( ¥ ) 状1 ) (2 状況 l 症例数 ‑aaa j 一一一一一一日 5 y D q dm e︑ 司U1inrhqdE b Y p一 ‑e ‑ e一 一一一一一 h r A 'hUHucδnununu'l'l'l'l ・ ' P し nuS 一 ''''/K/L/La nhunU 川 γ A n j n U 1U パ J n u n f l u ‑ u パ n し ・' t E E C ‑ + + + n 一 n H U U ρ u ρ し O し φ l n し n u n uハ= n u q u q u q u ' 1 l n r h q d 0 1η川 LIftftfti‑‑ 一 ・' 3 tl γ山 γλγ 円 一 一 nynυany‑ OPTITil‑‑uuulp ﹁ D q d u D U D U D U / L 5 5 5 u Ats=Y ‑ Y‑ v n v A P 9 u =AIA 凡 A凡 a 一 一 一 一 一 一 l 一 n u ‑ ‑ I l n n n n n k m川 H u nド ' h H 円u a 1 i n r h 司U O ニ c=l 一一一一一一二一一一 l 呂 1Ar‑‑ηLqdvAppp 一 ηLρ し 一 OL‑‑ 一 A八 HUHUHu ・ ' 一一 D a l ‑ ‑ M 5 5 5 d nu‑nHHunununu ・ dAUρuρ し‑‑ nun uρ し ︑ 円 AUAubAnu H u title ‘状況 1~4 の各用量選択率‘: p r o c PrIn t b yp ̲ 1p ̲ 2p ̲ 3 ; r u n 材料材料材料材料材料材料村プログラム終了材料材料材料材料材料材料料材料
症例数 ( N ) 5 0 5 5 6 0 6 5 7 0 7 5 8 0 T [を選択 0 . 8 0 6 7 0 . 8 2 5 9 0 . 8 3 8 7 0 . 8 5 0 9 0 . 8 6 2 9 0 . 8 7 2 6 0 . 8 8 2 5 状況 3 T 2を選択 o .[477 o .[ 3 4 [ o .[265 o .[90 O .[ [ [ 2 O .[ 0 4 5 0 . 0 9 8 0 T 3を選択 0 . 0 4 5 6 0 . 0 4 0 0 0 . 0 3 4 7 0 . 0 3 0 [ 0 . 0 2 5 9 0 . 0 2 2 9 O .O [9 5 T [を選択 0 . 8 8 6 5 o .9 0[ [ 0 . 9[ 2 9 O .9 2 5[ 0 . 9 3 4 5 0 . 9 4 2 7 0 . 9 4 9 0 状況 4 T2を選択 0 . 0 5 7 2 0 . 0 5 0[ 0 . 0 4 4 5 0 . 0 3 6 8 0 . 0 3 2 4 0 . 0 2 8 7 0 . 0 2 5[ T3を選択 0 . 0 5 6 3 0 . 0 4 8 9 0 . 0 4 2 6 0 . 0 3 8 [ 0 . 0 3 3[ 0 . 0 2 8 6 0 . 0 2 6 0 結果をまとめると以下の通りであった。 および 2において、目的通り 状況 l I T [あるいは T 2を選択する」確率は、設定した Nの範囲ではすべて 0 . 8 0を超えていた。 状況 3において、目的通り I T [だけを選択する」確率が 0 . 8 0を超えるためには l群 0例が必要であった。またその時、最も劣る T . 0 5未満 あたり 5 3を選択する確率は 0 であった。 状況 4において、目的通り I T [だけを選択する」確率が 0 . 8 0を超えるためには N が3 0例程度は必要である。 このことから、 3群聞の真の到達割合の聞に [ 5%程度の差がある場合、真の到達割合 .8 0以上 が高いものを正しく選択する確率(劣るものを間違って選択しない確率)を O 0例程度が必要と判断した。 とするためには、 l群あたり 5 本報告の内容と異なるためここには示さないが、無処置の効果の上限値に比べて 3用 量とも有意に到達割合が高い事を示せるであろう症例数は各投与群あたり 3 0例以下で あった。 4 . おわりに 何らかの見込み(あるいは仮説)を検証する事を目的とすると、上の例のように「前 提条件の下でその見込み(仮説)を採択する確率」が症例数の設定根拠となる。取上げ る統計量の分布を理論的に計算するのが難しい場合、特にこの手法は役に立つ。また、 理論分布に基づく症例数設定の確認にも利用できる。 ‑140一
日本 SASユーザー会 (SUG1‑0) 臨床試験の解析計画書から SASプログラム自動生成の試み 0萩 野 篤 司 、 水 留 稔 、 矢 島 勉 、 舟 喜 光 一 医薬開発部 持田製薬株式会社 Computerg e n e r a t i o no fSASprogramsfromS t a t i s t i c a la n a l y s i sp l a n so fC l i n i c a lt r a i a l s OAtsushiHagino,MinoruMizutome,TsutomuY司j i m a,K o i c h iF u n a k i B i o s t a t i s t i c s& C l i n i c a lDataManagementS e c t i o n MOCHIDAPHAMACEUTICALCO.,LTD. 要旨 SUGI‑J' 9 8において、臨床試験の解析報告書を SAS/lntrNetを用いて作成し、膨大な資 料を効率的に作成および、整理する、ンステムの構築について報告を行った。今回、さらに業務 の効率化を目指し、臨床試験の解析計画書から解析用 SAS プログ.ラムを自動生成する方法 を検討したので報告する。 キーワード: 臨床試験、解析計画書、 SAS、プログ ラム、自動生成、ジェネレータ一、 DDE 1.はじめに SUGI‑J ' 9 8において、臨床試験の解析報告書を SAS/lntrNetを用いて作成し、膨大な資 料を効率的に作成および整理するシステムの構築について報告を行った。解析報告書を電 子化することにより、資料の整理、ブラウザを用いることによる資料閲覧の容易さ、電子ファイ ルの使いまわしによる業務の効率化、解析結果の信頼性の保証等のメリットが得られた。今回 は、さらに業務の効率化を進めるために、臨床試験の解析用 SASプロク守ラムを解析計画書か ら自動生成する方法を検討した。 ‑141‑
2 . 解析業務の流れ 図 1l こ解析業務の流れを示す。 【 図 1 解析業務の流れ】 ‑ ‑ ‑ 、 臨床試験の解析計画書は、主として「治験総括報告書作成の手引き(日本製薬工業協 会)J を参考に、帳票イメージおよびグラフイメージをもとに MicrosoflExcel (以下、 Excel)を用 いて作成している。解析計画書を Excelで作成することの利点の 1つは、 SASで計算させた結 果を DDE(DynamicData Exchange)機能により ExceIへ出力する際の枠を事前に準備できる ことである。 この解析計画書をもとに、 2名の解析担当者が独立に解析用 SAS プログラムを作成し、帳 票およびグラフを完成する。 独立に得られた 2つの解析結果の整合性を確認し、解析結果の信頼性の保証を行なう。 ‑142
3
. 解析用 SASプログラム自動生成の検討の経緯
解析用 S
A
Sプログラムの作成には膨大な作業量を必要するため、準備および作成に多大
な時間を要するこ
そこで、ど¢ようにすれば解析用 S
A
Sプログラムを作成するための作業量および時間を削
減できるかとしづ観点から、解析
mSASプロク、.ラム自動生成についての検討を行なった。
4
. 解析用 SASプログラム自動生成の流れ
解析
mSASプロクザラム n動生成は、以下のく手1)出 1>~く下 )1偵 5 >に従う
く下順1>:解析計 11
;
:i
与を Exccl で作成する(結果を出力する l
脹禁を合む)。
)
恒 2
>
:解 析 対 象 集 合 名 、 解 析 項 目 名 、 分 類 項 目 名 、 解 析 手 法 等 を 解 析 計 画 書 に
く手1
記載する。
【
図 2 解析計画書の例】
1
1 有効性の評価
11
.2 人口統計学的及び他の基準値の特性
(
1)患者背景 (FAS
解析対象{
?
I
j
)
首景因子を群別に集計する。
h
e
r
の直接確率計算j
去を行い、有意水準は両側・・唱とすξ。
また、比較可能性の確認(J';ために、円 s
ι
・
・
一
・
・
‑
・
・
一
・
・
一
・
・
一
・
・
一
・
・
一
・
・
・
・
一
・
・
一
・
・
一
・
皇
・
・
一
・
・
一
・
・
一
・
・
一
・
・
‑
・
・
一
・
・
一
・
皇
・
・
一
・
・
一
・
・
、解析対象集合名 変数名 解析手法を記載
ν
x
2
なし
解析の内容
解析手法
解析対象集日
解析項目(縦3
分類項目(横変重量)
その他
重症度
クロス集計
一
‑
FAS
x
5
5
BE‑‑
A
。年齢
。クロス集計
n
FAS
。
x
6
0
x
2
なし
azp議レ句メータ)を nDE 機締ごて議舟込み、災!\~デー
タセット(パラメタセット)を作成
H3
く手順 3
>
:解析計画書から解析 JHSASプログ、ラムに使用する変数(く手順 2
> で、記載し
た項目)をDDE機能で読み込み、 SASデータセット化する(パラメータセットの
作成)。
‑解析対象集合名、変数名等を以下のプログ、ラムにて読み込む。
filename xlsl dde "excell解析計画書 &k!R7C4:RIOOC4";
data p
r
n
s &k;
/
合
k=l,
2,
.
.
..
*/
/合例 )
k=lの時、 p
r
n
s
̲
l
(解析 1
のパラメータセット)*/
;
infilexls1
length p $20;
input p $ ;
run;
‑読み込んだ変数(解析対象集合名、変数o6等)を解析用 SASプログラムに使用できる
ように加工する。以下にプロク、.ラムの一部を示す
G
data p
r
n
sー &k;set p
r
n
sー &k;
:='F
阻 Q
';
if cornpress(p)=・クロス集計事 thenpror
if cornpress(p)=・要約統計量, then proc=・
四 IVARIATE';
run;
このような操作により、以下のようなパラメータセットを作成する。
【図 3パラメータセットの例】
FMπD
2
x
2
x
2
AMJUAM‑uJUJμJUJU
o
O
x
x
5
0
x
5
5
x
5
5
x
5
5
x
6
0
x
6
0
x
6
0
GR
x
5
0
c
.
x
5
0
c
.
x
5
5
c
x
5
5
c
.
x
5
5
c
.
x
6
0
c
.
)
'
6
0
c
.
x
6
0
c
.
FMπD
GR
x
2c
.
x
2
c
.
x
3
x
3
x
2c
.
x
2
c
.
x
2c
.
x
2
c
.
x
2c
.
x
2
c
.
x
2c
.
x
2
c
.
FMTGR COMMENT CODE
∞ x3∞c.
c
.
∞ x3∞
有効性
有効性
2
CEL
上
R
3C3:
R
4
C
9
R5C
3
:
R
6C
9
• 1
'
¥ラメータセットを読み込み、プログラムジェネレータ!こて
SAS
プログラムを生成
1
4
4
く手順 4 > :作成されたパラメータセットを読み込み、以下のプログ、ラムジェネレーターによ り、解析用 SASプログラムを自動生成させる。 。作成されたパラメータセットを以下のプロク♂ラムジェネレーターで読み込み、解析用 SASプログラムを自動生成する。 data null i set p r n sー &kend=lastreci file" C:¥USERS¥prograrn &k..sas . .i if n >0 then dOi /*ーー一一一一 ー‑ /*伊1) k=lの時、 prograrn̲̲l(解析 1のプログラムド/ ーー一ー一一ー一一一一一一一一一一一一一一一一一ーーーーーー一一一一一一一一ーー一一*/ /* i 'REQ, UN工VAR工ATE */ /*ーーーー一一ーーーーーーーーーーーーー‑ーーーーー一ー一一一一一一一一一一一一一一ーーーーー一一一一一一ー*/ /* F阻 Qプロシジャによる解析*/ if proc=' FREQ' then dOi put • title . . 'cornment' . ・ . . , put • data t e r n p i set 'da己a ・ iif ,id '= ・ code '; runi '; ,, . put • proc freq data = ternp ; /*分類変数がある場合 if gr ne ' ・ put 一一一一一「 */ then dOi ' tables 'gr ・ * ・ id '/ nopercent nocol 'i 以下、省略』一一一一ー 以下に、生成されたプログラム(例 ※太字は、パラメータ program̲l.sas)のー部を示す。 title ..性別"; data ternpiset FAS iif x50 = 1 iruni proc freq data=ternpi tables x2 * x50 / nopercent nocol out=outi forrnat x2 x2c. i forrnat x50 x50c. i runi 一一一一ー『以下、省略』一一一一一 1 4 5 ※太字は、パラメータ
く 手1 ) 出5 > :生成された解析 H)SASプログラムを読み込み実行する。 もinc" C:¥USERS¥program ̲1.sas .iμprogram̲l(解析 1 のプログラム)脅/ %inc" C:町 SERS¥program̲2.sas 勺ハ program̲2(解析 2のプログラム)脅/ 一一一一一『以下、省略』一一一一ー 5 . 解 析 用 SASプログラム自動生成の利点 ( 1) 解析 j l jSASプロクずラム作成の作業量および時間を削減することが出来るコ ( 2 ) 解析計断書と解析用 SヘSプログラムが l対 l対応となる。 ( 3 ) 解析計画書の表現に多義性、 l 凄味さがなくなる ( t 1 ) ( 2 )、は)より解析計 @I需の信頼性を保証すると、自動的に解析用 SASプログラムの J 信頼性も保証される。 ( 5 ) 解析計断書の迫力II 、変更に伴い、解析 ~H SASプログラムも自動的に更新される。 6 .結 論 解析計 n l l i書から解析用 SASプログラムを作成する際、作業量の膨大さ、または解析計画書 の変更に伴う解析Jfl SASプログラム修正の煩雑さ等、問題点が多々ある。今回、その問題点 を少しでも改善しようと、解析計 IJlij書から解析用 SASプログラムを自動的に生成する方法を検 討した。 これまでは、解析結果の保証を行なうために、独立に 2名の解析担当者が解析用 SASプログ P ラムを作成していた。今後、一方の解析朋 SASプログ、ラムは解析計画書から自動生成し、他方 の解析 JHSASプロク、、ラムは従来通りの方法にて作成し、各々から導き出された解析結果の整 合性を確認し、解析結果の信頼性の保証を行うとしづ方法が可能となるかもしれないの 今回検討した解析用 SASプログラムの自動生成方法は、現時点では、必ずしも全ての要求 に対し満足に容えられないが、今後、解析計画書および解析用 SASプログラムの標準化を念 頭に置きながら、より一層改善してして予定である。 146‑
(参考文献) 1 ) 第1 7回日本 SASユーザー会総会および研究発表会論文集 i S A S / l n t r N e tを活用した臨床試験解析報告書作成の試み J 矢島勉、水留稔、萩野篤司、舟喜光ー/持田製薬株式会社 2 ) 治験総括報告書作成の手引一「治験の総括報告書の構成と内容に関するガイドライン j の理解のために一、平成 9年 2月 日本製薬工業協会医薬品評価委員会臨床評価部会 3 ) W i n d o w s版 SASシステム使用の手引き Ven , i o n6F i r s tE d i t i o n SASt I : l l J 友局 1 4 7
日本 SASユーザー会 (SUGI-~) 臨 床 デ ー タ 解 析 に お け る SASプログラミングバリデーション 佐々木徹也 日本ロシュ株式会社医薬開発本部 SAS ProgramingValidation o fC l i n i c a l Data Analysis Tetsuya Sasaki Pharma Development Nippon Roche 要旨 臨床データ解析における、対象となる試験の解析にのみ作成される、いわゆる 一 品 生 産 さ れ る SASフログラムのバリデーションについてパージョンコントロールソ フトウエアを利用する一方式を紹介し、同方式を導入した弊社の経験を基にS A Sシ ス テ ム の 環 境 を 解 説 す る c キーワード:ノくリデーション、パージョンコントロール、グローバノレマクロ変数 1.はじめに 臨 床 デ ー タ の 解 析 に 用 い ら れ る SASプログラムは、 IICH E 9の 臨 床 試 験 の 統 計 的 原 則 」 の 15. 8デ ー タ の 完 全 性 の 維 持 と コ ン ピ ュ ー タ ソ フ ト ウ エ ア の 妥 当 性 」 によって検証手順を資料化することが要求されている。 臨床データ解析に用い る SASプ ロ グ ラ ム は 共 通 で 用 い る も の だ け で な く 、 対 象 と な る 試 験 の 解 析 の た め だ けに作成される、プロトコノレに特化した、いわゆる一品生産されるプログラムも多く 存在する。 これまでこれらのプログラムをどのようにバリデーションしていくかが臨床 データ解析における悩みのタネであった。 一 品 生 産 さ れ る SASプ ロ グ ラ ム の バ リ デ ー シ ョ ン を 実 施 す る た め に は 一 般 的 な プ ログラムバリデーションの方式を適用することが有益で、本来のバリデーションの原 則に則っていると考えるc そこで、パージョンコントロールソフトウエアの機能に着 目 し 、 同 ソ フ ト ウ エ ア の 利 用 に よ り 一 品 生 産 さ れ る SASプログラムのバリデーション が、より明快に実施できるようになったので報告する。 ‑149
2 . SASプログラム開発 2. 1 V Diagram と 臨 床 デ ー タ 解 析 に お け る SAS プ ロ グ ラ ム 開 発 一 般 的 な ノ く リ デ ー シ ョ ン の 方 式 と し て シ ス テ ム 開 発 で よ く 利 用 さ れ る V Diagram (図 1) に 、 臨 床 デ ー タ 解 析 に お け る SAS プ ロ グ ラ ム 開 発 の 流 れ を 適 用 さ せ る と 以 下のように考えることができる。 Specify and Design Build and Test 図 1 V Diagram Specify and Design • Us巴 r Requir巴 ments:こ の タ ス ク で の 成 果 物 は 試 験 計 画 書 の 統 計 解 析 部 分 、 解析計画書や症例数設定計画書などに相当する。 • Syst巴 m Speci f icati 0n お よ び Technic乱 1Design:これら 2つのタスクで 1つ の 成 果 物 =SAS プ ロ グ ラ ム 仕 様 書 を 作 成 す る こ と に 相 当 す る 。 同 仕 様 書 で は User Requirements に 基 づ い て 作 成 す る SAS プ ロ グ ラ ム 中 に コ ー デ ィ ン グ さ れ る べ き 適 切な解析を行うプロシジャを指定したり、そのためのライブラリ設定、入出力情報 やプログラム中で行うデータ処理を指定する。 • Programs Development:SASプ ロ グ ラ ム 仕 様 書 に 基 づ い た SASプログラムコー ディングを実施する。 本 コ ー デ ィ ン グ は 通 常 、 次 ス テ ッ プ の Unit Testing に て 述 べ て い る SAS プ ロ グ ラ ム 開 発 段 階 の テ ス ト と 同 時 に 行 わ れ る 。 Build and Test .Unit Testing:SAS プ ロ グ ラ ム 開 発 段 階 の テ ス ト を 実 施 す る 。 前作業である、 Programs Development でコーデイングした SAS フ ロ グ ラ ム が 正 常 に 実 行 で き る こ とを確認する c 1 5 0一
.lntegration Testing お よ び System Testing:品 質 保 証 作 業 を 実 施 す る c の 作 業 は 前 述 の SYtem Speci f icati 0nお よ び Technical Designと対をなしており、 s . ' ¥ sプ ロ グ ラ ム 仕 様 書 に 基 づ い て プ ロ グ ラ ム が 開 発 さ れ て い る か を 確 認 す る 作 業 を 実施するc .Acccptance 丁 目 i ng:こ こ で の 作 業 は 前 述 の User l¥equirem巴口 t s と対をなす。 品 質 保 証 作 業 の 終 わ っ た SAS プ ロ グ ラ ム を 実 行 し 、 そ の 結 果 を 用 い て 解 析 計 画 書に対する解析報告書の作成を行い、解析報告書を受け取るユーザの承認を 得る。 V Diagram に お け る タ ス ク と 臨 床 デ ー タ 解 析 に お け る SAS プ ロ グ ラ ム 開 発 に お け る タ ス ク の 対 応 を 表 1に示す。 表 1 V Diagram 対 応 表 V Diagram / segment Specify and Design Bui I d and Test User Requirements System Specification Technical Design Programs Development Unit Testing Integration Testing System Testing Acceptance Testing 臨床データ解析における SAS プ ロ グ ラ ム 開 発 作 業 解析計画書等作成 SAS プ ロ グ ラ ム 仕 様 書 作 成 SAS プログフムコープ、イング SAS プ ロ グ フ ム 開 発 ナ ス ト 実 施 品質保証テスト実施 解析報告書等作成 2.2 SAS プ ロ グ ラ ム 開 発 体 制 体制について最低限守られるべき事柄についてここでは述べる。 表 1に お い て 作 成 さ れ る 書 類 ( 解 析 計 画 書 、 SAS フ ロ グ ラ ム 仕 様 書 、 解 析 報 告 書 等 ) に は 作 成 日 時 お よ び 作 成 者 の 署 名 お よ び 作 成 者 と は 月I J人 の 適 切 な 承 認 者の署名および承認日付が必要であるc SAS プ ロ グ ラ ム コ ー デ イ ン グ と 開 発 テ ス ト実施は通常、同一人物が行い、この場合、品質保証テストはプログラムコーディ ングを行った人物とは別の適切な人物によって行われるべきである。 2.3 SAS プログラムのステータス(状態)とリビジョン(版) SAS プ ロ グ ラ ム 開 発 作 業 に て 作 成 さ れ る す べ て の SAS プログラムファイルには SAS プ ロ グ ラ ム コ ー デ ィ ン グ か ら 解 析 報 告 書 作 成 ま で の 各 段 階 に 対 応 す る ス テ ー タスを与える。 本 編 で は 表 2に 示 す ス テ ー タ ス を 定 義 し た 。 ス テ ー タ ス と 同 様 に す べ て の SASプログラムはリビジョンを持つ。 リビジョンは SAS プログラムファイルに対して改訂を行う場合にその番号を上げるものとする。 1 5 1
表 2 SASプ ロ グ ラ ム の ス テ ー タ ス 臨床デ タ解析 1 =おける SAS プログラム開発作業 解析計画書作成 SASプ ロ グ フ ム 仕 様 書 作 成 SASプログフムコ ディング SASプ ロ グ フ ム 開 発 ァ ス ト 実 施 品質保証ァスト実施 解析報告書作成 SASプ ロ グ ラ ム ス テ ー タ ス N/A Development QA Production Delelopment の 作 業 、 つ ま り SASプ ロ グ ラ ム コ ー デ ィ ン グ と 開 発 テ ス ト が 完 了 し た らステータスを QAに し 、 品 質 保 証 作 業 で あ る QAの 作 業 が 完 了 す れ ば ス テ ー タ ス を Production に 変 更 し て SASプ ロ グ ラ ム を 実 行 し 、 そ の 結 果 を 用 い て 解 析 報 告 書等を作成する。 2. 4 SASプ ロ グ ラ ム フ ァ イ ル の ス テ ー タ ス ラ イ フ サ イ ク ル SASプログラムファイルのステータスライフサイクルは前述のステータスとリビジョン に て 管 理 さ れ る ( 図 2)。 本 編 中 で は 同 ラ イ フ サ イ ク ル の 基 本 的 流 れ を 図 2に 示 し たように Development→ QA→ Productionとしている。 同ライフサイクルの通常時 の 流 れ で は 、 ス テ ー タ ス が 変 更 し で も SASプ ロ グ ラ ム フ ァ イ ル 自 身 に 変 更 が な い た め、リビジョンに変更はない。 し か し 、 変 更 要 求 に 従 っ て QAや Productionス テ ー タ ス に あ る フ ァ イ ル を 変 更 す る 場 合 は ス テ ー タ ス を Delelopment に戻してリビジョンを上げる。 その後は通常 時の流れにのって作業を行う。 QA Production ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ . ・ ・ ・ ・ ・ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ・ ・ ・ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 凡例 一一歩通常時の流れ。 リビジョンは変わらない。ステータスは上位に変更される。 …・砂:変更要求時の流れ。 リビジョンは新しくなる。ステータスは最下位に変更される。 図 2 ステータスライフサイクル ‑152‑
2. 5 変 更 管 理 臨 床 デ ー タ 解 析 に お け る SAS プ ロ グ ラ ム 開 発 作 業 の 成 果 物 に 対 す る 改 訂 は す べて変更に関する手順を定めた、変更管理手順のもとで実施されろ必要がある v SASプ ロ グ ラ ム フ ァ イ ル 変 更 手 順 に は SASプ ロ グ ラ ム フ ァ イ ル の 改 訂 を 行 う と 同 時 に「誰が」、「し、つ」、「どのファイルに対して」、「どのような変更を加えたか」の記録 を残す事を明記する必要がある。 2. 6 SAS プ ロ グ ラ ム フ ァ イ ル 開 発 の 問 題 点 と 解 決 策 一 つ の プ ロ ト コ ル に お い て SAS プ ロ グ ラ ム は 、 プ ロ グ ラ ム 作 成 方 法 に も よ る が 、 非 常に多数/大量に作成される。 そして、それらの多くは対象となる試験の解析 のためだけに作成される、プロトコノレに特化した、いわゆる一品生産されるプログラ ムである。 これらの SAS フ ロ グ ラ ム は 開 発 テ ス ト お よ び 品 質 保 証 テ ス ト を 繰 り 返 し 実施することが多く、これらの作業に伴う変更管理記録を残すために各テストの 担当者は多くの時間を費やすこととなる。 ま た 、 作 業 し て い る SASプ ロ グ ラ ム が 現 在 開 発 テ ス ト を 行 っ て い る の か 、 品 質 保 証 テ ス ト を 行 っ て い る の か と い っ た SASプロ グラムのステータスの管理も必要である。 これらのテストやステータス管理といった 作業は単純に記録を残すものであるため、記録の漏れや間違いなどのエラーが 発生しやすい。 ま た 、 多 人 数 で の 開 発 作 業 に お い て は SAS プログラムファイルの 同時開発/修正などによる間違った上書きなどの危険性も生じる。 これらのステータス変更やリビジョン変更に伴うエラー等を回避するためにパージ ョンコントローノレソフトウエアによる SAS プログラムファイルのパージョンコントロールを 実施する。 これにより作業記録作成の自動化など前節で挙げた作業の効率よ い実施が可能となるc パージョンコントロールソフトウエアは前述の項目、つまり、「誰が」、「し、つ」、「どの ファイノレに対して」、「どのような変更を加えたか」の変更管理で残す記録を集中 管理することに加え、ステータスの変更作業およびその記録をも自動的に一括し て管理することができるの また、同ソフトウエアは改訂したファイルのどのリビジョン に対してもいつでも戻る/参照することができるので、プログラム開発効率を上げる ことが可能である。 3 . SAS環 境 の 実 装 弊 社 で は Unix 環 境 下 で パ ー ジ ョ ン コ ン ト ロ ー ル ソ フ ト ウ エ ア を 利 用 し た SAS プロ グラム開発を開始・運用しているc 本 章 で は 弊 社 で の 経 験 を 基 に SASプログラム 開 発 の 環 境 を 具 体 的 に ど の よ う に 実 装 す る か 解 説 す 6, 153‑
3. 1 Unix 環 境 SAS プログラムファイルのステータスをそのファイルが置かれているディレクトリで定 一つのプロトコルディレクトリ(表 3 にある drugl)は 3つ の ス テ ー タ 義すろ(表 3) 0 ス領域に同じ要領で作成される。 SASプログラムファイノレはそのステータスの変更 に伴い、パージョンコントローノレソフトウエアによる管理の下でディレクトリ聞を移動 する。 表 3 ステータスとディレクトリの対応表 ステータス ディレクトリ Development /opt/stat/development/drug1 QA /opt/stat/qa/drug1 Production /opt/stat/production/drug1 3. 2 SAS 環 境 SASプログラムファイルはステータスを変更するたびにディレクトリを移動するため、 SAS プ ロ グ ラ ム 中 で ラ イ ブ ラ リ 参 照 す る デ ィ レ ク ト リ 名 や 入 出 力 フ ァ イ ル の パ ス 名 を 変更する必要がある。 ス テ ー タ ス 変 更 に 伴 う SAS プ ロ グ ラ ム の 改 訂 作 業 は 単 純 なスペルミスなどのエラーを発生させる原因となる。 また、改訂作業によりリビジョ ンが増えることはサーバ資源の枯渇を招く原因ともなる。 これらの問題を回避す るため、 SAS起 動 時 に グ ロ ー パ ル マ ク ロ 変 数 と し て SASプ ロ グ ラ ム 実 行 時 の カ レ ン ト ディレクトリを割り当て、さらにそのグローパルマクロ変数を Libnameステートメント等 に割り当てる c きる。 これらのライブラリ参照名を利用することで前述の問題は解決で 参考資料としてサンプルプログラムを添付した。 3. 3 運 用 時 の 注 意 点 前 述 の 設 定 を 実 装 す る 場 合 は 、 AUTOEXEC.SAS 内 に そ の 設 定 を 記 述 し 、 各 ユ ー ザ が SAS を 起 動 し た 時 に 自 動 的 に 読 み 込 む 設 定 に し て 、 設 定 し た 共 通 ラ イ ブラリ名を使用することを勧める。 参考資料のサンプルプログラムを応用してプロ トコルに特化した解析用データセットやマクロファイル保管ディレクトリなどのライブ ラリ参照名も追加して設定が可能である。 本設定を実装することで利点がある一方で、制約もあることを忘れではならない。 すべてのプロトコルの SAS プ ロ グ ラ ム 開 発 に 対 応 す る た め 、 デ ィ レ ク ト リ 構 造 の 標 準 化を導入する必要があることや、グローパルマクロ変数名は予約語として扱う必要 がある。 これらの管理のためにディレクトリ作成規則やグローパルマクロ変数命名 規則を準備することが望ましい。 Aせ にU 1 ょ
そ の 他 の 注 意 点 と し て 、 ス テ ー タ ス が Q A や Production である SAS プログラムフ ァイルおよびそのファイノレが置泊、れているディレクトリに対して適切なセキュリティ対 策を施す必要があるυ 4 .今 後 の 課 題 今 後 の 課 題 と し て 、 プ ロ ト コ ル に 特 化 し た SASプ ロ グ ラ ム 開 発 以 外 の 業 務 を 挙 げ る 。 そ れ ら は プ ロ ト コ ノ レ 共 通 で 用 い る 、 い わ ゆ る 標 準 SAS プ ロ グ ラ ム の 開 発 ・ 運 用 手順や臨床データの受け入れに関する手順である。 前者の課題についてはビジ ネスニーズを慎重に確認した上で検討を進めるべきと考えるc また、後者につい ては統計解析部門とデータマネージメント部門との連携が必須であり、同部署と のコミュニケーションを密に行い、両者が満足する合意を得て手順が作成されるこ とが結果として効率よい業務を実施することができると考える。 参考文献 1) SAS ランゲージ:リファレンス Version6,First Edition 2) BaseSAS ソフトウエア:SAS マ ク ロ 機 能 : 使 用 方 法 お よ び リ フ ァ レ ン ス Version6,Second Edition 3) Unix 版 SAS シ ス テ ム : 使 用 の 手 引 き Version6, First Edition 4) 臨 床 試 験 の た め の 統 計 的 原 則 、 医 薬 審 第 1047号 、 平 成 10年 11月 30日 5) GLOSSARY O F C O¥ l 1PUTERIZED SYSTEM AND SOFTWARE DEVELOPMENT TERMINOLOGY、 FDA(www.fd乱 .gov/ora/inspect̲ref/igs/gloss.html)、August, 1995 6) Computerized Systems Validalion, 社 内 資 料 1 5 5
参考資料 グローパルマクロ変数およびライブラリ参照名割り当てサンプルプログラム SAS:リリース 6.12 ディレクトリ構造:表 2を 参 照 環境 O/S:卜IP‑UXIO.2 内容 グ ロ ー パ ル マ ク ロ 変 数 STATUSにステータス、 DRUGに drug1を害J Iり当て、 Libname STAT にステータス、 DRUG に drugl のパス名を割り当てる。 /** グ ロ ー パ ル マ ク ロ 変 数 の 宣 言 も globa1 **/ STATUS ̲DRUG /** カレントディレクトリ名取得 **/ fi1enarne DUMMY pipe '/usr/bin/pwd' /**グローパルマクロ変数にディレクトリを寄lり 当 て る **/ da七 a nu11 1eng七 h CURRENT $100; infi1e DUMMY ; inpu七 CURRENT $ /* ス テ ー タ ス の 取 得 */ FLAG1 = subs七 r(scan(CURRENT, 3, '/'), /*グロ パルマクロ変数 se1ec七 (FLAG1) 1, 2) STATUS ヘディレクトリ名の割り当て*/ when ('de') ca11 syrnpu七 ( when ( 'qa' ) STATUS' , "/op七 /s七a七 /deve1oprnen七 " ) ca11 syrnpu七 ('̲STATUS' , "/op七 /s七a七 /qa") when ('pr') ca11 syrnpu七 ('̲STATUS' , "/op七 /s七 a七 /produc七 ion") 0 七 herwise ; end ; /*プロトコルディレクトリ名の取得 */ FLAG2 = scan(CURRENT, 4, '/') /* グ ロ ー パ ル マ ク ロ 変 数 ̲DRUG ヘディレクトリ名の割り当て*/ ca11 syrnpu七 ('̲DRUG' , FLAG2 ) run /** Libnarne ステ トメン卜への割り当て**/ data nu11 SYSRC = 1ibnarne('STAT' , "& STATUS"); SYSRC = 1ibnarne('DRUG' , "&̲STATUS/&̲DRUG"); run i F 旬 ム Fhu n o
口頭論文発表 金融
日本 SASユーザー会 (SUG1‑0) 信用リスクを考慮した債券の評価 加藤浩一 主任コンサルタント 株式会社金融エンジニアリング・グループ C r e d i tRiskEstimationo fCorporateBonds KatoK o i c h i S e n i o rConsultant In c . F i n a n c i a lEngineeringGroup, 要旨 社債の信用リスクに対するプレミアムであるイールド・スプレッドを、金利とデフォルト率の期 間構造から計算した。デフォルト率の期間構造は、吸収マルコフ連鎖モデルによって格付推 移行列から推計した。 キーワード: SAS/IMLソフトウェア、信用リスク、吸収マルコフ連鎖モテ守ル、分散投資効果 1 . はじめに 社債のイールド・スフ。レッド、は市場で、観測することがで、きるが、特に相対的に悪い格付の銘 柄のデータは数が少なく、流動性等のフ。レミアムも加わって安定性に欠ける。 そこで、デ フォルトの期間構造が、格付推移行列で説明されると仮定して、回収率が一定と しウ条件のもとで、イールド・スプレッド を試算したO 単一の銘柄を保有した場合、リスクホライズンにおける価格分布を知るのに、価格がその時 点の格付のみに依存するとした場合に、このスフ。レッドを利用することがで、きる。 社債のポートフォリオを保有した場合には、さらに、会社の格付聞の相聞を考慮する必要が ある。これをモンテカルロ・シミュレーションで、評価し、分散投資効果を、会社数と相関係数とリ スク量の関係として評価したc 1 5 9
手1 ) 債としては、まず、金利の期間構造は、スワップ・イールドカーブから、スポット・レートを計 算する c 次に、デフォルト率の期間構造は、吸収マルコフ連鎖モデ、ルを用いて、格付推移行列を累 乗することによって累積倒産確率、生存率、ハザード、率を推定する c 金利とデ、フォルト確率の期間構造から、想定されるキャッシュフローの現在価値を求め、債 券の現在価値を算出し、その複利利回りからスプレッドを計算する。 このスプレッド、を利用して、債券ポートフォリオを保有した場合の価格分布を計算し、格付の 相聞と、保有銘柄数による分散投資効果をシミュレートする。 2 .金利の期間構造の計算 金利の期間構造は、パー・イールドとしてスワップ・レートを使用し、これを補間してから、ブ ーツストラップ法で、スポット・イールド に換算した。 2000年 2月時点のデータを使った計算結果を表 1 、図 1に示す。 図1 イールドカーブ 表1:イールドカーブ ••••••••• •••• ••••• •••••• 1 0 2 0 1v 民町予 1 2 3 4 5 10 20 30 ••••• •••• •••••• •••••••••••• •••••••••••••••••••••• PAR SPOT 0 . 2 3 0 . 2 3 0 . 5 0 0 . 5 0 0 . 7 7 0 . 7 7 1 .04 1 .04 1 .30 1 .31 2 . 1 7 2 . 2 1 2 . 5 9 2 . 6 6 2 . 7 7 2 . 7 0 ‑ Y …. P A R ‑SPOT 3 0 3 . 吸収マルコフ連鎖モテ、ルによるテ、フォルト率の推定 社債の格付を表わす状態空間を N={, l 2, … , 7,8 )とする。格付は Moody'sのものを想 定し、 1が Aaa、2が Aa.・・などとし、 7が Caa、8がデ、フォルトとする。状態空間 N上の確率過程 {X, , t= 0 , 1 , 2,…}を考える。社債がある時点で格付 i にあり、 1年後に格付jに推移する確率を とし、格付推移行列をPとすると Pij P i j ( t, t+1)=P{X'+1=j!X,= i }, i , j E 三N ← 160‑
Pll .P l 7 P l 8 P l ユ . pユl P 2 2 P ( t, t+l)=1 P 2 7 日 。。 P 7 1 P 7 2 沼 │ ー ( ; O T P 7 7 P 7 8 G と表現できる c デ、フォルトに相当する 8番目の行が吸収状態を表わしており、 8番目の列が各 格付からのデフォルト率に相当する c 0時点からt時点まで、の推移確率P ( O、t )は P(O, t )=P(0, 1 ) P ( 1, 2 )…P ( t‑1, t )=pt とPを累乗することによって求めることがで、き、その 8番目の列が累積倒産確率になるが、 r ( O, t )= T(O, t‑ l ) r ( t‑l , t )+. ,( O, t‑ 1 ) =T 1 ‑ 1 r+r ( O, t‑ 1 ) =( T 1+ T I ‑ 2+…+T+/ ) r ト と小行列からも計算できる 0 ・生存率は累積倒産確率から、当初格付j として S j( t )=1‑P j 8 ( 0, t )=1‑r/O, t ) ・ハザード、率については、当初格付Jとして Pj8( O, t )‑Pj8( O, t‑1 ) r/O, t)‑r ( わ‑ 1 ) j l IF ( f ) = J 1 " 1‑Pj8(0, t‑1) S/t‑1) のように、累積倒産確率から計算できる。 JPモルガンのサイトから入手した 1999年 1 1月日付の格付推移行列を表 2に示す。 表 2:格付推移行手I J Aaa Aaa Aa A B a a Ba B C a a D Aa A B a a Ba B C a a D 88.6583 10.2937 l .0169 0 .0000 0 . 0 3 1 1 0.0000 0.0000 0 . 0 0 0 0 1 1 .0787 88.7045 9.5530 0.3423 0.1452 0.1452 0.0000 0 . 0 3 1 1 0.0625 2.8759 90.2053 5.9185 0.7398 0.1771 0.0104 0.0104 0.0529 0.3386 7.0688 85.2381 6.0529 l .0053 0 .0847 0.1587 . 5 5 7 1 5.6800 83.5718 8.0830 0.5352 0.0328 0.0765 0 l .4637 0.0109 0.0435 0.1738 0.6519 6.5950 82.7032 2.7597 7.0621 0.0000 0.0000 0.6600 l .0500 3 .0500 6.1100 62.9700 2 6 . 1 6 0 0 1 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 100.0000 1 6 1
これから計算すると、 生存関数 S ( t ) (グラフ中では Aaaを 1 、Aaを 2、…、 Caaを 7とする) ‑虫‑ n u n H n 目 守 hM0000000000 生存関数 InURUS4η3 内 己 anu 1l 2 0 1 0 H 3 0 →S 1昨今 S 2 T +今 S 3 + + →S 4! ‑ + →S 5 t‑HS 8 + ‑ + →S 7 また、 ハザード‑関数 h ( t ) 図3 ハザード関数 3 0 2 0 1 0 2 0 1 0 H →H I 昨今 H 2 T +今 H 3 t + →H 4 ! ‑ + →H 5 t‑HH 8 + ‑ + →H 7 1 6 2一 3 0
4 .デフォルトを考慮した社債の現在価値の計算 クーポン C円で満期 N年の社債を考える c キャッシュフローに影響を与えるのはデ、フォルトの みで、デフォルト時にはその時点で債券元本に対する回収率 6で回収することとする。 N 5の例を示すと、時点 tにおけるキャッシュ・フロー CFは、生存関数 S ( t )、ハザード関数 二 h ( t )、スポット・レートY ( t )とすると tC El ててミ ミ c 肝 フ オ 川C c c C+l デフォルト時 各キャッシュフローの現在価値の合計から債券価格Pは k p= 附 C+S(i‑ 1 ) これまでで計算されているデフォルトと金利の期間構造から、社債価格を計算し、複利利回 から、イールド・スプレッド、を計算する。クーポンは、各満期のパー・イールドを設定した。 回収率を 50%とした場合の格付別のイールド・スプレッド、を図 4に示す。 図4 子 一争↓‑一 今一‑一一 1 ・ i‑‑101 15 11 13 12 11 10 11176D 債券の満期とイールド・スプレッドの関係 ‑e P‑ ‑ u s脅姐置 1 6 3 2 0 H →S P D 5 H . . . . .S P D7 →S P D 6 . U . . υ 4 1 0 S P D 2 H →S P D 3 ~, SPD~ 汗寸 川 ハ内 時→ S P D I 岡崎 一‑一ハ川 U υ品曹 44tφ 計すすすー?
回収率との関係は、債券の満期 10年として、図 5のようになる。 図5 回収率とイールド・スプレッドの関係 1 8 1 6 1 4 1 2 1 0 1 0 H →S P D I H 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 0 →S P D 2 r HS P D 3 t ‑ + →S P D 4 ~S P D 5 時 +S P D 6 1‑++ S P D 7 1 0 0 5 .債券ポートフオリオの価格分布 あるリスク・ホライズンにおける社債の価格分布が、その時点における格付のみによって決 定されるとしたとき、これまで、で ここでで、は、格付推移の相関の効果を見るために、複数の会社の銘柄を保有した場合のリスク 低減効果をシミュレーションする。 j 慣としては、 手l 1 . 相聞を設定した多次元正規乱数を発生し、格付シナリオを 1万本生成する。相関行列 は保有銘柄数分の次元をとり、対角成分以外を全部同ーの値とし、 0から 1までの間で 変化させる。 2 . リスクホライズンにおける各銘柄の格付から、ポートフォリオの時価を算出する。 3 . 保有銘柄数を変えた場合の効果、相聞を変えた場合の効果について試算する c 多次元正規乱数を発生させるプロセスではコレスキー分解等の行列演算が必要となるが、 SAS/IMLソフトウェアによって簡単に実行で、きる。 なお、保有銘柄については当初、残存 10年、格付は Baaとして統一し、等金額投資する。リ スクホライズンは5年とし、その時点で、残存5年の債券となる。 ‑164‑
リスク量としては、平均と 1% タイル点の差を「予測され f~\ハ損失額 J としてとらえる。 まず、 1 00銘柄に投資した場合の相関による分布形状変化ををパーセンタイル点で、探ると、 図6 価格分布 1 1 0 1 0 0 9 0 8 0 7 0 6 0 ‑ t‑++m e a n ‑ p 5 0 • n u 日U 1 I‑++ ‑ p l O ︽URU t‑++ n u AHHU u p 5 マi ‑ 内川川 ‑ t‑H‑ • AKHU 9h1υ 1 ‑ + →p 4 AHHu ‑ a凋他 E t ‑ + ‑ tP 3 n U u p 2 内川川 t‑+噌 • AY →p I • ︑u H O .I 向ソむ 0 . 0 日U 5 0 投資銘柄数とリスク量の関係は、相関係数を Oから 1まで 0 . 1刻みで変えて図 7に示す。 (グラフ中では相関係数 0 . 1を 1 、0 . 2を 2、・ヘ 0 . 9を 9、0 . 0 1を 0、0 . 9 9を Aで示す) 図7 投資銘柄数と予測されない損失額(1 %タイル) 6 0 5 0 4 0 3 0 2 0 1 0 2 0 3 0 1 0 OR 2 H →C O R I t‑+‑t‑C 円 . . .COR7 t‑++COR8 8 0 9 0 7 0 4 0 5 0 6 0 t ‑ + ‑ tC OR 3 1 ‑ + →C O R 4 t‑H‑C O R 5 t‑++C O R s I‑H C O R 9 t+tC O R O . . .C O R I O 噌 ‑165‑ 1 0 0
相関係数を横軸にフ。ロットした場合は、銘柄数を 1 , 2, 5, 1 0, 20, 50, 100として、 図8 相蘭係数と分散投資効果 6 0 5 0 4 0 3 0 2 0 1 0 ‑ ‑ ‑ 日 u l‑ AHMυ n u nuRU n u AKHU AHHU ‑ 0 . 7 + ‑ + ‑ →U L I O t‑+→ U L 2 0 t‑HU L 5 0 + + + U L I O O 0 . 4 U L 5 ph1υ t ‑ + → U n川 u ‑ U L 2 内ソ︑ t ‑ + 噌 AHHU U L I + + ‑ + ‑ O .I 内 ' u 0 . 0 U n川 0 6 .まとめ イールド・スプレッドについては、 B、Caaと言った低格付債券について、市場でよく見られる 満期が長いとスフ。レッド が縮小する期間構造を再現することがで、きた c これは、ハザード関数 の形状を反映しており、格付推移行列に織り込まれている情報品、える。 また、回収率とスフ。レッド、は、ほぼリニアな関係にあるので、この適切な評価が重要である。 銘柄分散効果については、企業数は、数銘柄で急速に効いてくるが、相関係数によって、 分散効果がかなり限定されることがわかった。ただ銘柄数を増やすのではなく、相聞の低い銘 柄を選択することによって効果的な分散投資ができるとし、える。 参考文献 ‑木島正明編著 [ 1 9 9 8 ]i 金利リスクの定量化(下)クレ、ジット・リスク」金融財政事情研究会 ・ J .P .Morgan&C o .[ 1 9 9 7 ]''CreditMetrics™Technical Document."April1997 ‑166
日本 SASユーザー会 (SUG1‑0) 層別サンプリングの改良による自然災害シミュレーション 田村憲利 (株)金融エンジニアリング・グループ AMonteC a r l oMethodw i t hH y b r i dS t r a t i f i e dSamplingf o rCatastropheS i m u l a t i o n N o r i t o s h iTamura F i n a n c i a lE n g i n e e r i n gGroup,I n c . 要旨 イベント毎の損害推定情報に基づく、自然災害損害額のモンテカルロシミュレーションで、 層別サンプリングの適用を工夫し、限られた試行回数及びコンビュータ資源で、安定した結果 が得られる方法について報告する。 キーワード BASESAS Monte Carlo 損害保険経営リスク自然災害 1 .はじめに 損害保険会社が抱える経営リスクの中で、自然災害(地震、台風)による損害は、発生頻度 が極めて低いにもかかわらず発生時の金額が大きくなる場合が予想され、会計年度単位で見 た場合のボラティリティは高くなり、ともすれば会社の存続をも危うくする可能性を持つ厄介な ものの一つである。それゆえ自然災害損害額のモンテカルロシミュレーションを行う場合には、 精度の向上のために準乱数の使用、十分な試行回数の確保、層別サンプリングの採用などシ ミュレーション方法に何らかの工夫を施す必要がある。 小稿で、は、自然災害リスク分析会社 (EQE社及びRMS社)から提供された、地震および台 風のイベント毎の損害推定情報に基づ、き乱数によって、通常時を含めて等確率となる試行シ 1万件)を作り出す方法を紹介する。精度の向上のために、当初は層別サンプリング ナリオ群 ( の適用を試行していたが、全イベント情報を用いて参照テープ、ルを作成すると、そのサイズが 膨大なものとなるためにテーブルの並べ替えすらままならない状況に陥り、実行を断念せざる 1 6 7 . .
おえなかった。 そこで高損害額イベントだけを抽出しその部分のみ層別サンプリングを施す 工夫を考える事となった。また層別サンプリング法を用しも場合は発生回数がポアソン分布に 従うと仮定した場合、サンプリング個数が変化するために適用が困難となることも指摘しておき たい。最終的には発生回数がポアソン分布に従うとする下位層、層別サンプリングを施す上位 層、年開発生頻度が上位層との合計で 1になるように調整する為に設けた中間層の 3つにイ ベントを分類して、サンプリングpを行うというハイブ、リッド司型の層別サンプリング、の方法をとること とした。小稿は、三井海上火災保険より委託されたプロジェクトの一環として、会社全体の財務 状況をシミュレートした分析作業の中で、自然災害リスク部分について実際に行ったシミュレー ション方法を報告するもので、ある。 2 .損害推定情報 EQE社及びRMS社から提供されるデータは、付加情報やレイアウトの違いを除けば、基本 項目として次のような内容が提供される。 実際、地震のイベント数は約 30万件 (EQE 社)、台風のイベント数は、約 1万 1千件 (RMS社)程度で あった。 イベント番号 │年開発生頻度 │期待値 EVENTIDλI E l 0 . 0 0 0 0 3I 2 I 3E・8 I │標準偏差 │上限値 IV I L 50000I 60000I 1200000 100000I 900000I 3000000 表1.損害推定情報テーブル 各イベントが発生した場合の損害額の分布は、下限値と上限値が定まっているので、ベー タ分布を用いるのが妥当である。その場合ベータ分布の形状パラメータは、 μ =E/L , a =( V /L) 2 とおくと、次のように計算できる。 a =μ2(1ー μ)/a 一 μ ( 1 ) b =μ(1一 μ)2 /a一(1μ) ( 2 ) 168‑
3 .シミュレーション概要 シミュレーションを実行するに際し、次の条件を前提条件とする。 ‑ 各イベントの年開発生頻度はいずれも低いので、イベント聞の相聞については無視で きるものとし、それぞれが独立した事象として扱う c ‑ 年間自然災害発生件数はポアソン分布に従う 3 . 1 単純サンプリング 前提条件により年開発生件数は、全イベントの年開発生頻度の合計を自然災害発生率とし て、ポアソン分布に従う乱数により求められる。すなわち、 :λ ) 年 開 発 生 件 数 = RANPOI( L ( 3 ) で求められる。 今回用いたデータは年開発生頻度が地震は約 8回、台風は約 5回で、あった。 最も単純な、ンミュレーションとして、 1試行につき ( 3 )式で求めた回数分のイベントのサンプリン グを行い、イベント情報にあるパラメータによってベータ分布に従う損害額を求める方法がある。 この方法では、ど、のような災害で、あったかを EVENTIDによって識別で、きるので、付帯情報を 検索し損害保険金支払以外のシナリオ生成に活用できるメリットがある c 3 .2 AEP(Aggregatee x c e e d i n gp r o b a b i l i t y ) 単純サンプリングでは、分散を減らすために回数をある程度確保しなければならない。 AEP は、どの自然災害が起こったかとしヴイベント情報は欠落してしまうが、損害額だけを正確にシ ミュレーションしたい場合には適切な方法である。 イベントの全体で、ある金額 X以上の損害が発生する確率を ER(>=X)とすれば、 ER(>=X) = L : λi ( 1 ‑ Beta( a i,b i,X/Li)) ( 4 ) ここで、 λ1 イベント i の発生頻度 Beta( ベータ分布の累積確率 L i .a i .b i イベント iの上限値 L、形状パラメータ a, b ‑169一
災害発生はポアソン分布に従うとすると、複数回の災害発生を考慮しなければならない。そ の場合、金額 X以上の損害が発生する確率は、 AEP(> 二 X ) = 1 ‑ EXP( ‑ER(>=X)) ( 5 ) により求まる。式 ( 5 )によって損害額全体の分布を求めることがで、きるので¥し、ったん作ってし まえば一様乱数によって簡単に分散の少ない損害額のシミュレーションが行える。 3.3 1¥イフリッド層別サンプリング 単純サンプリング 、AEP共に各イベントを一様に扱っているのだが、データとして比較的高 F 額な損害を発生しうる一部イベントと多数の少額な損害を発生するイベントがあるはずで、ハイ ブリッド、層別サンプリングは高額側に属するイベントに対してのみ分散を押さえ込む手立てを 打てば、十分な効果が期待できるのではなし、かとし、うところに着目した方法である。 圭盟 1 . イベントの分割 スコアリングを定め高額イベント群と低額イベント群に分割する。 スコアリングには期待値+標準偏差 *2 を用いた。 高額イベント群には、スコアが高いイベントによって発生頻度 λの合計が 1になるよ うに選ぶ。高額イベントはさらに、層別サンプリングを行う最上位イベント群とそれ以 外(中間イベント群)に分割する。 2 . 層別サンプリング 用参照テープ、ル作成 最上位群の各イベントで、年開発生頻度に応じた回数の乱数を発生させ、ベータ 分布関数によって損害額のレコード、を乱数分(確率的に均等になるように)作成する。 デ、ータが出来上がったら、損害額によってソートしておく。 3 . 層別サンプリングの実行 最上位イベント群の発生頻度の配分を ψとすると、サンプリング件数は試行回数 に ψを乗じた値である。上で、求めた参照テーブルをいくつかの層に切り、レコード件 数に応じてサンプリング件数を配分した上でサンプリングを行い、損害額を求める。 司hム U 円 t ヴ
4 . 中間イベント群のサンプリング 中間イベント群のサンプリング件数は、 サンプリング 件 数 = 試 行 回 数 * ( 1 ‑ < t ) P ( 6 ) となる。件数分のイベントをサンプリングし、 BETAINV関数に一様乱数を与え損害 額を計算する。 5 . 低額イベント群の単純サンプリング 低額イベント群について年開発生頻度の合計を算出し、単純サンプリングをおこな 。 つ 6 . データの合成 これまで分割実行してきたサンプリングの結果を合成する。 最上位イベント群のサンプリング件数と中間イベント群のサンプリング件数の合計 は、試行回数に一致する。したがって両者を結合したのち、 PLANプロシジャによ ってランダ、ムに並べ替えたうえで、各シナリオに 1つずつ配分する。最後に各試行シ ナリオ毎に金額を合計すれば 1年間で発生する損害額となる。 4 .シミュレーション実行結果 シミュレーション実行条件 シナリオ :地震損害 使用言語 :SASDATAステップ 最上位群の配分 1 0 0 0 0回 0 . 0 5 層別サンプリング、の最小単位頻度 3 E ‑ 8 層別サンプリングの件数配分 (上から)1 、1 0、1 0 0、389 試行回数 PEC. 使用計算機 S I I500MHzMemory64Mbyte :PentiumI HDD1 2 G b y t e (ノートタイプパソコン) SASシステムバージョン 6, 1 2 171‑
ハイブリッド層別サンプリング累積確率分布(全体像) 1 .0 0 . 9 O . B 0 . 7 iOB 0 . 5 0 . 1 0 . 5 O . ! 0 . 1 0 0 0 O B 0 5 0 0 0 0 0 0 0 0 0 0 5 O B O 0 0 0 0 0 4 O o ‑ O ‑ B O O B 0 . 0 繍嘗額 l P L O T ‑ ‑U E Dl AK 一一 P 5 陥 一 山 図1.ハイブリッド層別サンプリングと AEP 単純サンプリング累積確率分布 ( 1 0 0 0 0 0以上) 単純サンプリング累積確率分布 ( 100000tU) ︑ れ いγ¥ i ( │ ¥ ︐ E二三亙E 二 百 匝ζ三三工三三日 , 二三I 二二 4 t‑ ‑ 1 図 3( a ) . 単純サンプリング 図 2( a ) . 単純サンプリング ハイプリフド層別サンプリング累積確芽杉子布 ( 1 0 0 0 0 0 t l 上) ハイプリフ F 層~IJサンプリング累積確率分布 (100000以上) ‑6 1MM ︐ s ︐ ︐ 一副一 而Fで士~, .τコ五ーでコ了 J グ ︐ ︑Tlノ ︑/ プ 卜 H yJ プ サ 玉別 三層 一間一 2ノ イ ︑ ︑ ︑ qa o 図 三ツ • 二忌コ 図 3(b).ハイブリッド層別サンプリング 1よ η4 ηI
試行 10000回での処理時間 単純サンプリング 約 4分 ハイブリッド 層別サンプリング 約 25分(参照データ作成 2 1分、サンプリング 4分) ーセンタイノレ点による比較 ノf 各パーセンタイルでの金額の比較を表 2に示す。 手法 AEP HSS 発生周期 ‑ ‑ ‑ 95% メジアン 単純 100年 ( 1 .0%) 93.380 98, 020 5% 95% メジアン 5% AEP HSS 単純 93, 960 900 89, 040 109, 97, 440 88, 740 200年 (0.5%) 134, 560 146, 740 135, 720 124, 700 157, 180 138, 620 122, 960 500年 1000年 (0.2%) ( 0 . 1%) 203, 000 263, 320 220, 400 291, 160 204, 160 266, 220 860 256, 360 183, 236, 640 312, 040 204, 160 267, 380 172, 840 225, 040 A g g r e g a t eE x c e e d i n gP r o b a b i l i t y ハイプリッド層別サンプリング 単純サンプリング 表2 . 各パーセンタイノレ点で、の金額 AEPの分布との比較のため、グラフはすべて高額側からの累積確率(=発生累積件数 /試行回数)を示している。図 lは分布全体を描いたものだが、低損害側で若干のずれ が確認できるものの全体的には AEPをよく追従していることがわかる。図 2は試行回 数 10000回 lセットだけで作成した分布の高額側の様子である。バラツキの大きい 単純サンプリングにくらべ、ハイブリッド層別サンプリングがほぼ AEP曲線に乗って いる様子が確認できる。図 3では単純サンプリング及びハイブリッド層別サンプリング で示している確率はそれぞれ試行回数 10000回のシミュレーションを 100回ずつ行い、 累積確率の中央値及び 5%、95%のハ。センタイ))‑値を求めた。これらのグラフにより単純サ ンプリングのぶれが大きいことが確認できる一方で、ハイブリッド層別サンプリングの 中央値が AEP曲線上をフロットしていることが確認できる。 1 7 3 ‑
6 . まとめ 層別サンプリングは、分散の低減に有効な手法の一つだが、均等確率の参照テーブ、ルを 作る場合、最小発生頻度が小さい場合データ件数が爆発的に増加してしまう。イベント情報を まず分類し、特に影響が大きくなる可能性を持つイベント群についてのみ層別サンプリングを 施すことにより、シミュレーション効率を上げる事がで、きる。高損害額側で期待通りの結果が得 られたが、低損害額あるいは通常時において若干のバイアスの存在が認められる。しかし、リ スク管理の観点カもすれば、このバイアスはあまり問題にならない。今後さらに、ンミュレーション 効率を向上させるには、イベント情報のスコアリング、方法及び分割配分をどう設定するかにつ いての研究が必要である。 7 . 謝辞 プロジェクト遂行時のみならず、本稿をまとめる際に多大なご助言ご協力を賜りました三井 海上火災保険株式会社社長室、荻野歩氏、露直行氏に深く感謝し、たしますο 8 .参考文献 [ 1 ] 津田孝夫,モンテカルロ法とシミュレーション,培風館 1969P98‑100 [ 2 ] J.M.HammersleyandD.C.Handscomb,MonteC a r l oMethods Methuen,London,1964,Chapter8 [ 3 ] 小針唄宏》確率・統計入門,岩波書庖, 1973,P66,P159‑166 [ 4 ] 長坂建二,統計学,放送大学教育振興会, 1989,P278 一174‑
口頭論文発表 経営
日本 SASユ ー ザ 一 会 (SUG1‑0) 力スタマーオリエンテッドによる管理会計への転換 ーコストマネジメントからレベニューマネジメントへ 清水孝郎 株 式 会 社 SASインスティチュートジャパン ソリューシヨン本部、ノリューシヨンサービス部データウェアハウスグふループ ConversiontomanagementaccountingdependingonCustomero r i e n t e d . TakaoShimizu BusinessDevelopment& SolutionsSolutionServicesDepartment DataWarehouseGroup.SASI n s t i t u t eJapanL t d . 要旨 従来の管理会計の考え方では、コストのコントロールによる利益の確保が目的である。しかし顧 客指向を前提とした場合、管理会計はレベニューのコントロール、及び、長期に渡る顧客との関係 構築を考慮した利益の確保が目的となる。本研究ではケーススタディを通してレベニューマネジメ ントを行っていくために必須なレベニュードライパー抽出の方法について考察した。 "SAS/WarehouseA d m i n i s t r a t o rソフトウェア . E n t e r p r i s eMinerソフトウェア, キーワー卜・レベニューマネジメント、 CRM , " 管理会計、 1.はじめに マイケル・ E .ポーターは、オペレーションの効率化によってコストの削減のみを実現させても、 長期的視点においては収益を培加させなければ、利益の増加は限界となると指摘している。また、 企業は収益を増加させるために、マーケティング戦略を策定しているが、従来のマスマーケテイン グの手法のみでは利益の増加に限界が出始めている。もともと収益は、コントロールできないもの とされているため、マネジメントなど不可能であるという前提が従来の管理会計の考え方には存在 する。しかし、今後、企業が長期的に収益を確保していく上で収益の管理、すなわちレベニューマ ネジメントをいかに行うかが重要であると考えられる。しかし、レベニューマネジメントに必要な レベニュードライパーを発見することは、難しい作業であり、明確な方法論等は特に存在していな いのが現状である。レベニュードライパーとは「収益に影響を与える要因」を示す。 2 . 顧客中心のビジネスアプローチ 経済が成熟するに連れて市場のシェアを取るのみの企業は、長期に渡る収益を上げる事が難しく なってきている。従って、顧客に対して最適な商品、サービスを提供するために、どの業界の企業 1 7 7
でも顧客の動向を追い始めている現状があるが、顧客の動向を的確に捉える事は難しく、試行錯誤 をしているのが現状である。 長期に渡る顧客との関係を築き、収益を上げるために顧客を維持し続け、かつ、高い収益性を保 ち続けるためには、顧客中心のビジネスアプローチへの転換が必要である。日本では、昔から「お 客様第一主義」を唱えている企業は多いが、顧客の事を企業自身が把握しているのではなく顧客対 応担当者個人が把握しているのみで、担当者が変れば企業は顧客を失う可能性が高いのである。し たがって、企業自身が顧客行動を理解、予測、収益の作用因であるレベニュードライパーを把握し、 企業として現在の取るべき行動を適切に策定できる事が必要となる。 3 . レペニュードライパー抽出ステップ レベニュードライパー抽出方法を 4 S l e pで構成した。全 S l叩 を 図 lに示す。 S l e p 1では、過去の t c p 2では、抽出 売上データから顧客毎に傾向パターンを抽出し、事例データベースへ保存する。 S した傾向パターンの分類と傾向パターンを予測する顧客群の選別。 S t c p 3では、事例ベース推論に t e p 4では、予測傾向パターンと顧客属性の関係を分析し、 よる売上傾向パターンの予測をする。 S レベニュードライパーを抽出する。 :step3:顧客売上傾向予測 l‑ ー 顧客属性デ‑$1ベース 図 I レベニュードライパ一抽出 S t e p 本研究では、ケーススタディを通して、レベニュードライパ一抽出方法論の実証を行う。なお、 0 本ケーススタディでは、情報系システムを構築するために用いるソフトウェア販売会社の過去 1 年の売上データ(約 4万件)、顧客属性データ(約 2千件)を用いた。売上データについては、会 計の基幹システムからデータを抽出、変換、加工、再編成を行い、データマートを構築した。また、 1 7 8
すべての作業は、 S A S1 n st i t u[(、社製のソフトウェア ( S A SS y s t c m¥ ' c r 61 2 .S A S / V la r e h o u s c , A d m i n i s l r a l o rソフトウェア.E n t c r p r i s cM i n e rソフトウェア)を利用した。次節以降では、ケー ススタディを通して各 S t c pについて詳細を説明する。 3‑ 1 .S t e p1.データ整備 売上の傾向は、顧客により千差万別で ある。売上データをグラフ化して人間が 目で見ることによってある程度、売上デ ( 3 " ータを傾向別に分類を行うことは可能 0 ; であるが、データ量が膨大な場合は人間 ノ O/ ( . 1 ) V⑤ • では事実上、分類する事が不可能となる。 S t c p lでは、売上データの傾向を定性的 に捉える手法を用いて、売上の傾向パタ ーンの抽出を行う。図 2は時系列で値が 変化している 4種類のグラフである。各 ~問、 グラフの①→②→③→④→⑤の順序で ⑤ 人間が定性的に傾向を捉えると、①→② →③の状態は「上昇開始」、②→③→④ 図 2時系列グラフ の状態は「上昇停止」、③→④→⑤の状 態は「下降開始」という把握になる。論 理的に考えると、人間は、定性的に傾向を把握するために時系列の値を速度と加速度の変化で捉え ている。すなわち、時系列の変化を速度と加速度の変化で傾向を抽出する手法を用いる事により定 性的な情報を抽出できる。従って 3区間において、時系列値を速度と加速度の変化で傾向を捉える と、変化傾向は 1 3種類のパターンに分類できる。 3‑ 2. S t e p 2 .顧客売上傾向理解 St c p 2 では、 S t c pl.で抽出した売上の傾向パターンの分類を行う事により、顧客は、どのような 傾向で会社に対して収益をもたらしてくれたのかを把握する。ケーススタディでは、傾向パターン 別に顧客を分類した結果、 1 7 0 9の顧客から 4 4 6の分類をした。 4 4 6の傾向パターンの中から、変化 傾向が異なる 2つの例を説明する。 1存在している。このグルーフは、以前から商品を購入し続け 図 3の傾向パターンを示す顧客は 5 ているが、最近、商品の購入を控え始めている顧客群である。 1985年 。 1 9叩 年 1995年 2 。 1998年 • • 。 / ¥ 、 • • • • • • • • 図 3 以前商品を購入していたが、最近購入を控え始めている顧客群の傾向パターン 1 7 9
図 4の傾向パターンを示す顧客は 2 0存在している。このグループは順調に売上が上がっている顧 客群である。 0 〆 ノ • 0 0 0 1998年 1995年 1990年 1985年 • • • • • • • ・ ‑ ‑ ‑ ‑ ‑ 図 4 売上を順調に上げている顧客群の傾向パターン 以上の様に、 1 9 8 5から 1 9 9 8年までの売上データを用いて傾向パターンを抽出する事により、過去 の売上から顧客がどのような成長をしているかの動向を把握する事が可能である。すなわち、企業 自身が顧客行動を理解する事が可能となる。しかし、把握している情報は過去の情報であり、次に 顧客がどのような動向を示すかを把握する事が出来なければ、顧客に対する次年度のアプローチを 策定する事は難しい。次節では、顧客毎に抽出した傾向パターンを蓄積した事例データベースを利 用し、事例ベース推論による傾向 パターンの予測について説明する。 傾向 3‑3 .8 t e p 3 .顧客売上傾向予測 事例ベース推論 パターン ( C a s eb a s e d n g )とは、与えた情報に類 r e a s o ni 年 似する過去の事例を直接利用して 1996 199i 1998 傾向パターン数回 t e p 3 . 解を導く枠組みの事である。 S では、過去の売上データの傾向パ 20 図 5 2年連続購入が加速的に増加している顧客群 ターンを保存した事例データベー 出制確率 スと St c p 2 .で傾向別に分類 5 した傾向パターンを入力デ 5.6% . . . : I ータとして、事例ベース推 論により、入力データに対 する将来の売上傾向の予測 を行う。ケーススタディで は、顧客群の内 1 9 9 8年に初 1999 22.0% . ゐ │ 29.9% {頃向 パターン ‑ . ‑ . A l 42.~% めて商品を購入し始め、さ も多く商品を購入し 年 らに 1 9 9 9年に 1 9 9 8年より 1 9 9 i ! f l 9 6 1998 1999 2000 た顧客の傾向パターンを 傾向バターシ数:事例データベースから検索された傾向パターン数 入力データとした。この 出現確率 傾向パターン数/傾向パターン数合計 図 6 2000年の予測傾向パターン ‑180 ←
傾向を示す顧客群は 2 0顧客存在している。 2年連続して購入が加速度的に増加している顧客であ るので今後も会社にとっては続けて購入を促したい顧客である。傾向パターンを図 5に示す。 事例ベース推論によって、 2 0 0 0年の傾向パターンを予測した結果を図 6に示す。予測結果から、 2 0 0 0 年も更に加速して購入する出現確率は、 5 .師、購入が鈍る出現確率は、 2 2 %、購入が止まる出現確 0 %、購入量が下がってしまう出現確率は 4 2 . 4 %である。したがって、 1 9 9 9年までは非常に 率は約 3 0 0 0年も引 優良な顧客であると思われたが、実は、購入量が下がってしまう出現確率が多いので 2 き続き購入を促すような対策を立てる必要がある。事例ベース推論の結果、一見、優良顧客に見え た顧客群は、長期に渡る取引が難しい可能性のある顧客と判明した。 以上の様に、事例ベース推 論を用いて傾向パターンの予測を行うことにより、顧客行動の予測を行うことが可能となる。しか し、傾向パターンの予測のみでは長期に渡る取引が、なぜ続かないのかの要因は不明である。次節 では、予測傾向パターンと顧客属性データベースから予測傾向パターンと顧客属性の関係分析によ る収益要因の把握、また、レベニュードライパーを抽出した結果について説明する。 3‑4. S t e p 4 .収益要因把握 Ste p 4 .では予測傾向パターンと顧客属性の関係を分析し、レベニュードライパーを抽出する。分 析の手法としては、デシジョンツリーを用いる。データマイニングのテクニックを用いる事により、 管理会計の分野において、従来、抽出する事が不可能であったレベニュードライパーの抽出と、レ 器量冨盤量 注:金額等の数値は、傾向を損なわないように加工を施した 図 7 デシジョンツリーによる顧客分類、の結果(全体図) 1 8 1
ベニュー・マネジメントを行う事が可能になる。ケーススタディでは、 2 0 0 0年時点で 3年続けて加 速度的に商品購入が予測される顧客群とそれ以外の顧客群の属性の違いをデシジョンツリーによ 0 0 0年時点 って分類した。結果の全体図を図 7に示す。このデシジョンツリーで分析すべき点は、 2 で 3年続けて加速度的に商品購入が予測される顧客群である。この顧客の割合が高いセグメントの 要因がレベニュードライパーとなる。いくつか把握している、レベニュードライパ一例を挙げて説 明する。 「レベニュードライパー:特定のコンビュータを含めた顧客への提案」 顧客の割合が 6 6 .9 %となるセグメントを図 8に示す。要因は、商品をインストールしているコン ビュータの種類で判別されている。コンビュータの種類の傾向を見てみると、メインフレームと 3 0 9 日 寸7 0J 9 0 0 0刀1 2 / 8 0 9 1 2 1 ‑ 4 日 日 9672‑R15 2 9 6 7 2 ‑R3 9672‑R45 ALPHAS e r v e r1 0 0 0 ‑ 4 1 お6 4 / 2 0 0 ALPHAS e r v e r2 1 ‑ ALPHAS t a t i o n2 日ト4 DECS t a t i o n5 0 0 0 1 2 0 0 MILLENIUM425 S ‑ 4 / 2 0Model50 l50 S‑4/20HMode1 SPARCC l a s s i cSe r v e r ! 4WAY SPARCS e r v e r1 0 o oE 日 日 U l t r a2‑22 ∞ ハ ∞ ; ; : 圃 U 園 叩 嗣 ﹃ ハFhJV ︿ ︐ L ff ‑ 内 U al nHU 刷 nHU 酬 nHU 圃 l 醐 、、 田 ん 211川91 j ( 1 6 o 33.1% " , T o t aI 1 0 0 % n n (什﹀醐 MiC¥ n J ι ノ 3 6 0 、‑‑ → 『 ← ーー 図 8顧 客 の 割 合 が 6 6 . 9 %となるセグメント U N I X系の比較的新しい機種が含まれている。レベニュードライパーは、特定のコンビュータを含め た提案を顧客に対して行う事と把握できる。提案例としては、メインフレームで運用されている基 幹系のシステム内に存在するデータを対象としたデータウェアハウスの構築が挙げられる。 以上の様に、デシジョンツリーの結果を分析する事によって、将来の売上の傾向に対するレベニ ュードライパーを抽出できる。抽出したレベニュードライパーと予測傾向パターンを用いる事によ り、企業として顧客毎に現在の取るべき行動を策定する事が可能となる。 4. 結論 レベニューのコントロールを実現するためには、顧客行動を理解、予測、収益の作用因であるレ ベニュードライパーを把握して、企業として現在の取るべき行動を適切に策定できるための仕組み が必要である。ケーススタディを通して、「レベニュードライパー抽出 S t c P J を用いる事で過去の ‑182‑
売上データと属性データが存在すれば、レベニューマネジメントを行うために必須なレベニュード ライパーを抽出できる事が実証できた。本ケースの場合には、 2年間加速的に商品を購入している 顧客に対して次年度も更に多く商品の購入を促せる、提案方法がレベニュードライパーとして抽出 する事が出来た。 5 . 終わりに 長期に渡る顧客との関係を築き、収益を上げるために顧客を維持し続け、かつ、高い収益性を保 ち続けるためには、顧客中心のビジネスアフローチへの転換が必要で、ある。そのためには、管理会 計の手法においても顧客指向の考え方を取り入れる必要がある。従来の管理会計の考え方では、コ ストのコントロールによる利益の確保が目的であったが、顧客指向の管理会計においては、レベニ ューのコントロールにより、長期に渡る顧客との関係を築き、高い収益を上げ続ける事が目的とな る。しかし、レベニューのコントロールなど不可能であるという前提が従来の管理会計の考え方に は存在するが、情報技術の発達によりレベニュードライパーを把握する事が可能となった。すなわ ち、今後は、レベニューマネジメントを行うための管理会計を行っていく事が可能となるのである。 本研究ではケーススタディを通して、レベニューマネジメントを行っていくために必須なレベニュ ードライパー抽出の方法について考察した。「レベニュードライパーは、さまざまなレベルで定義 S t c p1: デ ヲ 整 備 過去の売よデヲ :S t e p2:顧 客 亮 よ 傾 向 理 解 Step5 レベニュードライバー 設定後の結果把握 :S t e p3:顧客売よ傾向予測 顧客属性デ‑$1ベース 図 9 レベニュードライパー抽出最適化のためのサイクル 1 8 3
することができる。」と言われている通り、品質、ブランド、価格等のさまざまなレベニュードラ イパーが考えられる。本研究で説明した「レベニュードライパー抽出方法論」は、売上の変化傾向 と相対する属性データから選られるレベニュードライパーのみを対象としている。従って、属性デ ータに品質、ブランド、価格等のデータが存在し、レベニューに対して品質、ブランド、価格等が 強い説明力を有していればレベニュードライパーとして抽出可能と考えられる。最後に今後の課題 は、図 9に示す様に S t e p 5を追加して、抽出したレベニュードライパーを用いて、顧客への対応を 策定、実施し、その効果の測定結果を事例データベースへ再保存をし、最適化のためのサイクルを 形成することにある。この一連のサイクルが完成することによってはじめて、収益の発生のメカニ ズムが十分に分析され、マーケティング活動を含めた企業のトータルな活動を計画し、統制するこ とが可能になってくるものと考えられる。 1 8 4
口頭論文発表 システム
日本 SASユーザー会 (SUG1‑0) 社会調査におけるデータ収集・集計作業の実際 アンケート調査事の陵計、エラー修正、データ集計作緩行糧管理 T i p sの 紹 介 入江秀見 株式会社三菱総合研究所 社会情報システム部 Howt oo b t a i nr e l i a b l edatai nas o c i a lsurvey H i d e a k iI R I E S o c i a l l n f o r m a t i o nSystemsDepartment,M i t s u b i s h iResearchI n s t i t u t e,INC 要旨 社会調査におけるデータ収集と集計の実務に焦点、を当て、品質確保のための方策について考える。 具体的には、①調査データの実査、②進捗管理、③集計プログラム作成等のプロセスを扱う。 調査データの精度は「手引き・調査票の設計」及び「調査票回収とエラーチェック」の進め方に 依存するところが大きい。設計段階は作業時闘が短いが、後への影響は大きく、作業時間として は、岡収段階が大きい。作業をどのように組み立てるかによって精度は変わってくるし、この後 の集計・分析への影響も大きい。有効と思われる、システムと手作業の組み合わせ及び適切なド キュメンテーションの方法について探る。 キーワード: BaseSAS,M i c r o s o f tE x c e !,アンケート調査,データ実査,集計 1.はじめに 本稿では、調査業務実際上の T i p sを紹介する。なお、本稿は、某省庁から受託している調査 をもとにしている。この調査の、レコード数は 1 0万以上の規模のもので、調査項目には、選択 肢を番号で記入するものと、実数を記入するものが混在している。この調査は、悉皆調査 iであ り、調査対象は全数回収し、記入者にエラー修正票を送付してデータ修正を行うなど、業務量は かなり大きいが、継続的に受託しているためそれなりにノウハウが蓄積されている。こうしたノ ウハウは地昧だが、データ精度に与える影響は大きく、その後の解析を意味あるものにするため には不可欠である。 2 . アンケ一卜調査の全体の流れ データ調製作業を中心に、調査の全体の流れを図に示すと以下のようになる。 l 悉皆調査: 該当するすべてを対象とする調査。サンプル調査の反対語。 ‑187‑
図 1 アンケート調査におけるデータ調製作業の流れ ‑台帳管理 ・コード関係等パン チ作業の前に事 前チェック 3 . 調査票回収時のデータ実査 │ T i p s記入者には、記入者でなければ修正できない箇所のみ修正させるべきである。 プログラムで検出できるエラーには次のようなものがある。 ①未記入 ②データ範囲外 ③関連エラー (例) 1 "‑4までなのに 5と記入されている。 (例) Q 1に開始年度、と Q2に完了年度を聞く場合、大小関係として、 Q1~Q2 となっていないといけないのに矛盾したデータがある。 ④コード関係エラー (例)調査票をコピーして提出してきたため、本来一意である調査 票番号が重複している。 ⑤データパンチエラー (例)入力作業で桁ずれをおこした。 この例で言えば、④や⑤は、記入者に確認すべきエラーではない。そのエラーがどういう種類 のエラーであるかを判断することは重要である。 i 発見したエラーへの対応方法 j ①記入者に修正してもらう、または記入者から真の値をきき取り。・・・ 0 ②論理的な仮定を置いて自動的に置き換える。・・・ム ③矛盾したデータのまま放置する。・・・ x (場合によって可) ④実査作業者による恋意的な修正。・・・ xx ~188 一
│ T i p sパンチデータの修正仕横は文書化しておく。 また、調査票記入内容をどのようにパンチするかについては、以下のようにできるだけ詳しく 決めておくべきである。そのデータについての誤差が減るだけではなく、実際に作業する人たち にとって、きっちりした指針があると安心して作業できるという心理的な効果もある。 このような作業指針を作業開始前に作っておいても想定外の記入が起こるが、このような場合 でも、随時作業指針に書き込んでいけばよい。 図 2 データパンチ作業仕様例(抜粋) 調査票記入内容 :, ,1 , 2,31 41 l 11 21 3111 パンチ 1 .1 11 21 31 4 1 (基本パターン) 1 同 11 1 21 3 1 (右詰してパンチ) │1 1 & 1 11 31 ~ エ江~----I 1 2 (オーバフロー) 制1 1 21 31 4 15 1(桁数が許せばそのまま) 区囚三工~--------11121314151 : 回 (データが不明の場合) 日 日口 Ifi~~Tb~孟 己 ‑ 1 ( はパンチする) 亡ヨ ピ判 1111 判 ェ I1111 ‑ 1(ーは右詰でパンチする) ゴ コ 判 , . . 11111(無記入はパンチ不要) [ J J . 1 11 回 1 &1 (負数は不明扱い) 同 i l i J I I D . 1 1 11回 1 &1 (小数は不明扱い) 制 ﹁ド﹂﹁L コ ヨ E , 1 8 9
4 . 調査票回収時の業務管理の方法 調査票設計が重要 l T i p s悉皆調査の場合、調査対象外の調査票も回収するべきである。 調査対象外の調査票を回収しないと、単に提出していないものと、調査対象外となったものの 区別ができない。そのため、調査票設計時に、どのように回収管理をするかを考えておくべきで ある。悉皆調査は、調査対象外のものも含め、まずは未回収をゼロにし、しかる後にエラーをゼ ロにするように精査すればよい。 図 3 調査票の設計例 当該地域が、調査対象であるか否か、次の区分に従い、該当するものを 1つ選び、 その番号を記入してください。この設問で、 i1J 又は i2J を回答した地域につ いては以降の設問への回答は不要で、す。 調 査対 象 の 確 、 三 口 , 刃 o 00地域 番号 1* xx地域 2* その他 3 調査対象 でない 調査対象で ある E瓦 [ I J 図 4 調査実施中の管理報告票の例 (SASによるパンチデータ処理結果) 1 9 0
T i p s 記入者に管理番号を書かせるべきでない。 調査マスタデータベースのキ一項目になる、調査レコードの IDは、配布する調査票にあらか じめ記載しておくべきである。 調査レコードの IDを記入者に書かせる運用にしていると、その項目の書き忘れが起きたとき の対処が難しくなる。その ID項目以外のアンケートデータへの記述があると、作業の流れを中 断して、 ID項目を聴き取るなどをしなければならなくなるので、非効率である。効率性を上げ るためには、ロバスト性の高い作業手順をつくる必要がある。 T i p s今調査データがどこまで集まっているかを示す総指表を 2段階(全国と都道府 県など)に持つと便利である。また、手書きの管理台帳と電子化されたデータの総括 表の両方を用いると良い。 記入者の立場に立つと、調査票を提出してからずいぶん経って忘れたころにエラーの修正依頼 が来てもそれに応えるのはおっくうになる。そうなれば、修正票の提出は遅れ、結局は調査実施 側の負担も大きくなる。おそくとも提出後 1週間から 2週間までに修正依頼を出すことが望まし い。そのためには、調査票の電算化作業は、調査票の到着服に行うべきである。また、下図のよ うな手書きの管理台帳も便利である。 図 5 手書き管理台帳の例 一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一ー一一一一一一一一一一一一一一ー一一一一一一一一一一一一一一一一一一一一ー一一一一ーーー 都道府県名 到着目 パンチ出し 0 0県 xx県 0月O 日 0月O日 0月O 日 0月O 日 ... パンチ受け 修正票送付 0月O日 0月O 日 管J I U台帳には、どこから提出されたか(上記の例ではどの都道府県から提出されたか)をチェ ックするだけでなく、日付を記入するところがミソである。作業上の流れがうまくいっているか どうかを、常に最新の状態で知ることができるし、毎週これをコピーして顧客に示せば、電子化 されていないデータを含めて、調査作業の進捗の概要が分かる。電子化されたデータについては 前述の調査実施中の管理報告票で報告すれば良い。こちらの作成については、これを作成するプ ログラムをパンチデータの読み込みプログラムと同時に走らせるようにしておけば、常に最新の 状況が一目で把握できる。 大切なことは、こうした進捗管理のしくみを調査票が提出される前に完成させてしまうことで ある。 191‑
5 . 集計プログラムをチェックする方法 l T i p sS A Sで汎用集計プログラムを作ると、集計上のチェックに役に立つ。 A Sには、 アンケート調査の結果は報告書本文と共に集計表にまとめられるのが通常である。 S p r o cf r e q 、p r o cs u 皿a r y、p r o ct a b l e、p r o cr e p o r tなどもあり複雑な集計表作成が簡易なもの になっている。しかしながら、集計表には小計列を挿入したり、読者にとって読みやすいように 生データを相当複雑に加工しなければならないこともあり、集計プログラムはどうしても複雑に なりがちである。下記のような汎用簡易集計表も別ロジックで作成しておくと、集計プログラム をチェックができる。また、データ中の異常値を発見するメリットもある。 図 6 汎用簡易集計表 (SAS出力) 項目 名 欠損 。 度数 2 3 ...10 合計 " "2 0 1 0 0 値 1 0 0 0 D 1 D 2 D 3 汎用簡易集計表を作成するに当たっては、以下のようにすればよい。 すべての項目について一覧できるように範囲を決める。 欠損値の度数、ゼロ値の度数もそれぞれ出力する。 l T i p sE X C E Lの削でチェック用の関数を自作すると便利である。 集計結果が正しいかどうかを、最終的には集計表をプリントアウトして電卓等でチェックする 場合がある。集計表を少し修正するなどの事態が発生するとそのチェック作業もばかにならなく なる。かといってこういう作業を省くとおもわぬミスを、報告書印刷後に見つけるかもしれない。 そういうことがないように、チェックについても半自動化することができる。以下に示す EXCEL VBAマクロプログラムは簡単なチェックプログラムである。 ‑1 9 2
図 7 集計プログラムのチェック用の簡単な VBAプログラム例 : P u b li cC o n s t町 R o w=1 4'基準行 : P u b1 i cC o n s tm y S N= S h e e t 1 " : P u b li cC o n s tm y G o k e i =3 0 0 0'チェック伯 : F u n c t i o nM y C h e c k ( n u 皿1 ,n u m 2 )A sB o o l e a n D i m iA sI n t e g e r D i mG o k e iA sL o n g 四 2=0T h e nn u m 2=n 四 l I fn F o r i=n u m 1T on u m 2 h i s w o r k b o o k . W o r k s h e e t s ( m y S N ) . C e l l s (町 R o w,i ) . V a l u e G o k e i =G o k e i +T N e x ti I fA b s ( G o k e i ‑ 皿y G o k e i )く 0 . 1t h e n M y C h e c k=T r u e E l s e M y C h e c k=F a l s e E n d : E n dF u n c ti o n 電卓でチェックする内容をワークシートJjlに埋め込んでおけば、データを新しくしてもすぐに 誤りを発見できる。 VBA で定義した関数は、 EXCEL にもともとついている s 四 r~l 数などと同様に、 =MyCheck(10 , 20) などと式を埋め込めば結果を表示してくれる。 I f関数などを J T Jいても同等の結果は得られるが、 可読性は悪くなる。 土日己の集計チェックの他にも、次のようなチェック方針がある。下記で、① ③及び⑧は、出力 した紙ベースでのチェックを行い、④ ⑦は M ic r o s o f tE x c e1のファイル内でチェックすればよ し 、 。 ①タイトルを読んでみて、まちがいないか。 ②集計表のナンバリングがあっているか、出力が切れていないか。 ③調査票と集計表の表現が合っているか。 ④度数の合計が合うか。 ⑤小計が合うか。 ⑥パーセントの計算が合っているか。 ⑦平均値の計算が合っているか。 ⑧常識的または業界情報から見て過大又は過小の数値はないか。(前回調査、類似調査の結果 と突き合わせる) 1 9 3一
6 . おわりに 今後の調査のあり方に向けて 6 . 1 まとめ 以上、紙ベースのアンケート調査による社会調査で、規模のある業務について具体的な管理方 法を中心に説明してきた。調査票回収時のデータ実査、調査票回収時の業務管理、及び集計の各 フェーズ、で有用と忠われるノウハウを具体的に説明した。図 1に見られるように、システム的に 対処できる箇所は限定されるが、定型化すべきことはできるだけ定型化するという方針の延長線 上にプログラムの利用を考える限り、業務効率化の効果は大きい。 6 . 2 WEBの利用 こうしたアンケート調査に、阻Bのブラウザを用いる方法は今後ますます普及していくと思わ れる。 W E B 仁でデータエントリーする仕組みにすれば、①即時集計が可能になる、②範囲外のような タイプのエラーは起こりえない、③その他のエラーについてもエラーの修正をその場でできる、 ④ハイパーテキストのメリットを生かし、リンク先を適切に設定して用語説明などわかりやすい 質問票を作れる、⑤F A Qの作成・即時更新が容易、などのメリットがあり、調査業務全体を効率 化することが可能だと思われる。 (例えば、株式会社三菱総合研究所とエフストリーム株式会社の、 iモードを利用したシステム 事例もある。参照:h t t p :/ / w w w . m r i . c o . . i p / N E W S / 1 9 9 9 / p r 9 9 1 2 1 3 0 0 . h t m1 ) 6 . 3 よりよい調査データを求めて しかし、職場によっては阻Bへのアクセスが禁じられているところもあり、また、紙の方が y 良いという回答者にブラウザの操作を強いることができない場合もあるだろう。企業内などのケ ースを除いて悉皆調査では、しばらく紙の調査票が使われつづけるであろう。また、紙ベースと システムベースが混在した中での管理手法も今後必要になると忠われる。 また、阻Bベースの調査であれ、紙ベースの調査であれ、回答すること、データエントリーの 仕組みを作ること、集計すること、これらすべては人聞が行うことで、規模が大きくなれば思わ ぬミスが潜む余地が大きくなる。本稿で紹介した管理レポートなどは W E Bベースの調査において も裏方として有用であろう。 パソコンの能力が高くなってきたこともあり、集計値ではなく、個々のレコードのデータまで 湖りたいという欲求が高まっている。こうしたなかで調査作業管理の重要性はますます高くなっ ている。 7. 連絡先 電話 0 3・3 2 7 7 ‑ 0 7 6 2 FAJ(0332773 4 7 2 E ‑ m a i l :i r i e @ m r i . c o . j p ・ ・ 1 9 4
日本 SASユーザー会 ( SUGI‑0) S A Sによるバランス卜・スコアカード最新動向 南恭子 株式会社 S A Sインスティチユー卜ジャパン 営業本部ソリユーションプランニングセンター B a l a n c e dS c o r eC a r ds o l u t i o nu s i n gS A St e c h n o l o g i e s Y a s u k oM i n a m i S o l u t i o nP l a n n i n gC e n t e r S A SI n s t i t u t eJ a p a nL t d . 要旨 近年日本でも話題により始めた B a l a n c e dS c o r e c a r d (以下 B S Cと表記)という手法が一体 A Sの技術でどのように実現可能なのか、また最新 どういうものなのかというところから、 S の動向としてどのようなものが出てきているのか、 K a p l a n教授の S U G I 2 5での論文内容も交 えながら紹介したい。 キーワード B 旬 、 S t r a t e g i cV i s i o n( M a p、C o m p a s s、K n o w l e d g eB a s e ) はじめに 米国では 90年代前半の大規模なリエンジ二アリングの結果、従来の組織、業務プロセ スが刷新された。それらを正しく理解し管理するという経営側のニ ズと、流動化した 労働者が新しい職場で即戦力として活かされる為の K n o w1 e d g eB a s eの二一ズ、短期的、 S Cという新し 財務的な結果のみを追い求める企業への社会からの批判などをうけて、 B い業績評価管理の仕組みが導入され始めた。 90年代後半からヨーロッパでも導入され 始め、近年、日本での注目も高まっている。 -19~
2 バランスト・スコアカード ( B S C ) とは? 企業の将来展望と、それに対応した評価基準のモニタリング、評価に応じた必要なアク シヨン、このような戦略的な経営管理の仕組みを B S Cという。この概念は、大企業の経 営戦略研究の成果として 1993年にハーバード大学のロパ 卜・力プラン、デビッ ト・ノートン両教授がはじめて提唱した。 3 なぜ必要なのか? 従来の経営管理方法では、以下のような問題が発生していた。 3 .1 .1財務的指標や売上高/生産量を管理するのみ。それでは「起こってしまった 事」への後手後手の、それも短期的な対応しか望めない。 3 .1 .2事業部、部署毎のバラバラな目的を目指して組織が運営されていた。それで は「会社全体」の戦略が見えず、他の部署との整合性も取れていなかった。 3 .1 .3限られた財務的数値にフォーカスする為に、それを上げる事に集中し、他へ の影響(マイナス)を考慮する事が出来なかった。 3 .1 .4 i声の大きいものが得をする(予算を多く獲得できる ) J理昧な経営計画。 本当に必要なところに予算が割り振れず、評価も出来ない。 3 .1 .5やみくもな「経費節減」は、適切な投資や改革、市場への積極的なアプロー チを妨げる。 B S Cを導入する事により、過去の財務数値を評価するだけではなく、将来の戦略に基づ いた企業全体の指標をモニターし、アクションする事が出来る。つまり、問題解決!こ必 要な道筋を明らかにする事が出来る。 4 どんなものなのか? 全社経営計画は、四つの視点(財務・顧客・学習と成長・業務プロセス)でのそれぞれ 戦略目標、業績評価指標 ( K P I ‑ K e yP e r f o r m a n c eI n d i c a t o r ) へと展開される。全社レ ベルが定まると、今度はそれを事業所などの組織毎に、四つの視点での目標、指標に翻 訳する必要がある。当然、目標指標は現場レベルの実感覚に則したものであり、元とな った経営計画、戦略目標と密接に関わっている。 ‑196
顧客 財務 ・使用資本利益率 ・ ‑顧客満足度 ・顧客のロイヤルティ ROI ・キャッシュフロー ・顧客収益性 ・市場占有率 e t c ・総売上 e t c 学習と成長 ‑従業員満足度 ・従業員獲職率 ・従業員一人あたり生産性 e t c 四つの視点は互いに因果関係がある。例えば従業員の生産性が上がれば業務改善率が向 S C 上し、顧客の満足度もあがり、収益を押し上げる、といった具合に正比例していく。 B ではそのような異なった視点における指標の関係も正しく定義して、評価する際に因果 関係をドリルダウンできるようにする。 5S ASの提供する B S C 現在米国で B S Cを導入した時の失敗する一番の理由(I まぽ 80%)として挙げられている のが、必要とされる指標をきちんと集められず、それを元にすべき定期的な評価・検討 会議を聞く事ができない、と言われている。つまり、集めたデータが信用できない為に A Sの技術を利用すれば、必要なデータ せっかく設定した指標を活用できないでいる。 S を必要な時に取り出せる E n d ‑ t o ‑ E n dの仕組みを手に入れる事が出来る。また米フオー チュン誌によれば、戦略を成功裏に実施できる企業は全体の 10%に満たない、と言う。 K a p l a n教授の S U G I 2 5での報告に拠れば、その理由は以下の四つの視点で語る事が出来 る 。 戦略の浸透度が社内全体で 5%にすぎない 5%にすぎない 戦略の成否が自分のインセンティプとなる管理職が全体の 2 全体の組織のうち 60%は戦略と関係のない予算計画を立てている 5%は、月次会議に十分な時聞を取っていない 管理職の 8 e y となる P e r f o r m a n c e つまり、仕組み作りに時間をかけるのではなく、本当に K I n d i c a t o rにフォー力スを絞り、社員全体への浸透と管理職の積極的な役割を求める努 S C実行環境を、 S A Sは提供する。 力が重要となる。その際に必要となるシームレスな B 1 9 7
5 .1 データの収集 B S Cに必要とされるデータは、ほとんどの場合一個所に集中している事はない。例 A Pの R j 3にあるかもしれないし、社員のアンケー卜結 えば、費用や予算データは S 果などは L o t u sN o t e sにあるかもしれない。それぞれ全く違ったプラットフォーム E A = Mu l tiE n g in e に 存 在 す る 事 も 往 々 に し て あ る 。 ど ん な デ ー タ で も (M A r c h i t e c t u r e )、どんなプラットフォーム上でも ( M V A = M u l t iV e n d o rA r c h i t e c t u r e ) データを取り込む事が出来る S A S j A c c e s sソフトウェアで、 R j 3の財務データも、 L o t u sN o t e sの社員データも簡単に取り込む事が出来る。このような雑多なデータ ソースからの抽出プロセスを管理するツールとして、 S A S j W a r e h o u s eA d m i n i s t r a t o r ソフトウェアが用意されている。 5 . 2 データの加工 様々なところから集められてきたデータは、デ タとしての統一性に欠け、とても そのままで使えるものではない。例えばあるデータでは性別を「男/女」とし、あ るデータでは単純に iM/FJ として扱っているかもしれない。欠損値や誤入力な どもチェックする必要がある。これらのプロセスをデータクリーニングという。ま た、デ タをそのまま扱うのではなく、見易さやパフォーマンスを考慮してデータ S A S / W a r e h o u s e サマリーも行う必要がある。これら一連のプロセスは、 A d m i n i s t r a t o rソフトウェアを使って行う。 M a p p i n gや S u m m a r yなど、ある程度のコ ードは自動生成させる事が出来る。 S A S / W a r e h o u s eA d m i n i s t r a t o r ソフトウェアにはスケジューリング機能があり、そ れを使えば、例えば不良品率などの指標は週単位で更新し、売上高などの財務指標 は月単位で、などというようにテーブル毎に異なった管理を行える。 5 . 3 データの共有 このように集められた指標を社内で情報として共有する際、操作が簡単な一目でビ ジュアルに理解される仕組みが求められる。それによって社内での B S Cの浸透度、 利用度は飛躍的に向上する。 S A S j E I S ソフトウェアのような E I S( E x e c u ti v e A S j l n t r N e tソフトウェアのような W e b配信技術によってそ I n f o r m a t i o nS y s t e m )、S の仕組みが実現可能となる。 5 . 4 必要に応じたドリルダウン 例えば管理職が、自分の事業所のワ 二ングレポート上で「注意すべき」マークの ) ついた指標をクリックし、詳細情報やその指標に関連する他の視点の指標へとド 1 ルダウンするには、 S A S j M D D BS e r v e rソフトウェアのような多次元の O L A P( O n l i n e A n a l y t i c a lP r o c e s s i n g )技術が必要となる。これにより、利用者のニーズに合わせ ‑198‑
た柔軟な切り口での分析が可能になる。 5 . 5 将来予測 B S C上で現時点までの履歴データだけではなく、それを元にした将来予測が見られ たら。 SAS/ETS ソフトウェアのような時系列分析ツールを組み合わせることによっ て実現することができる。また例えば、 Enterprise附 nerソフトウェアのようなマ イニング技術を利用して指標聞の相関関係を検証し、誤った仮説に基づいたアクシ ヨンを未然に防ぐ必要もあるかもしれない。 まず初めは一事業所で、限られた視点の、限られた指標だけで B S Cを実現してみる。 B S C 成功への道は S t e pb yS t e p、T r ya n dE r r o rを繰り返す事にある。高いスケーラビリテ ィをもっ S A Sの製品群は、この B S Cの実現プロセスに適していると言える。 6S A Sの次世代 B S Cツール ( S t r a t e g i cV i s i o n ) 今秋、米国においてリリース予定の次世代 B S Cツ ル 、S t r a t e g icV is io nExpress( M a p、 Compass機能のみ)は、従来から S A Sが持つ技術を生かし、より簡単に B S Cを実現でき る環境を提供する。全社経営計画から戦略目標、業績評価指標 (KPI)、アクションプ ランなどをそれぞれの相関関係と共に定義して行き、ビジュアルに全体像を確認できる。 つまり、 StrategicV i s i o nE x p r e s sは 、 B S Cを導入する際のプロトタイプとしての役割 を果たすことになる。次いでリリース予定の S t r a t e g i cVisionAuto ( M a p、Compass、 Knowledge B a s e )以降のパッケージでは、実際のデータを取り込み、 Web配信するとこ ろまでの一貫した S A S技術をバンドルした形で提供する事になる。 6 .1 プランを設計する機能 ‑Map Map!ま、以下のような機能を提供する スコアカードを E 宣 言 十 階層&ヒ ューを定義 》 親/子関係の定義 》 表、グラフ&改革ステップの定義 ~ XML/HTMLへの書き出し 設計プロセス&結果のドキュメン卜化 》 経営改革の方向性&責任範囲の明確化 〉 戦略目標、評価基準、実践対策の定義 ー 1 9 9 ←
" ︐ 三 . ﹀ 右 組問 ‑ ‑ En白aSEre I~ I 1,:-~け 晴刷工 ・ MGh g e aa 地 『不可‑1│ E ‑03N1 比 3E BEgsszz一EZEE‑去 B哩EZE‑E曾 匂袋帽︒SE虫色︒ B 也主主. e M E l ‑ Ea is ︐ f⁝ E 3こ E I υ a‑ 包E E白B E 1 2ま3 tH2u 冒1 z m 口s 口f e官製w s a ' E 芯w 見 u a 且M 輔 4 e ‑ m @ " E 司HZ 喝 ‑m pE 民 ↑曾菅喝畠‑ w s ‑ a E 句 Z E E h u p E ω 8522EEE﹀ ESOBE 担白︑︒ 制4 e i ア 占
6
.
2 見たいところにナピゲートする ‑
C
o
m
p
a
s
s
Compassは、以下のような機能を提供する
数値&テキストデータの組み合わせ表示
》
フォルダー内のすべてのデータにアクセス
》
手元の P
Cから簡単に操作
グラフイカルな指標表示
》
ワ一二ングカラー表示&実数値表示
》
目標値ごとの範囲指定
》
シンボ J
レから、その後ろに隠れた詳細データへのドリルダウンが可能
W
e
bペース
軽く、移行しやすい XML/HTML構 造
》
データ量が少なくてすむ?2
5指標まで
》
ひとつのフレームで複数のビューを保存
》
ユーザ一数に制限がない
》
サーバー資源に影響を及ぼさない
Navigation機 能
》
指標聞の因果関係
》
実践対策、責任者&情報ソース
,
.
,
.
0
:
:
>
.
,
,
‑
‑
,
主
恒
三1
‑
,
‑
‑
1
コ2ιをヨ'
:
:
̲
l
f
̲
;
‑
1
[
工
1
l
l
̲
e
s
c
r
i
r
J
t
i
玉E
仁hi"
l
‑'
:
、
可e1
;
二匂9‑2
0
‑
:
0S!
r
a
t
e
円
F1,
. ((')1r
γI
!Fr
.
~( J
<
;
.A
r
A
A
<
:
;
R
仁1
,
,
‑
,
軍需胃帯型塑円司r:m!!:霊童聞置歯菌I
I
I
I
I
I
I
I
I
I
I
置理盟盟冨田園理主型空盟国蝿i
i
l
盟問冒圏軍曹胃用車置宮提‑‑
,~ I
i
ζ~
+
+
w ト
1
‑
t
多国
タ N
..
タ 凶 +
30
3
.
1
4
325
1
1
6
.
6
7
'
10350
2叩
25%
125
40
34
白5
.
0
0
∞
45
羽
田 89
@
40
2.85
7
1
.25
dN
..
95
92
96.84
序回
..
92
叩
97.83
90
目
98.89
25
"
1
.
20%
80.00
1
0
6
60.00
40
35
百7.
50
序回
、
ラ N
タ
タ N
w
‑
2
0
1一
40
+
+
@
6 . 3 新しい切り口を見出す‑Know1 edge Base Knowledge B a s eは、以下のような機能を提供する Warehouse Administrator ( W A ) を利用 ~ Mapを使って定義されたメタデータを WAへ移行 ~ K n o w1 edgeB a s eで定義したデータ抽出のプロセスを実行することにより、 自動的に必要なファイルを作成 》 履歴データの管理 ユーザー管理 〉 アクセス権限のコントロール 7 要約 A Sの提供できる技術だけでも、 S A Sによって実現される B S Cはその統合性、 現時点で S 分析力、共有化により、高いレベルでの完成を見る事が出来る。また、 B S Cに特化した 次世代ソリュ ション S trategicV i s i o nによって、より短期間での現実的なアプロー チが見込まれる。 2 0 2一
日本 SASユ ー ザ ー 会 (SUG1‑0) UNIX版 SASシステムにおけるパフォーマンスチューニングについて 斎藤祐二 カストマーサービス本部カストマーサポート部テクニカルサポートグ ループ 株式会社 SASインスティチュート、ジャパン Thr n i n gt h eSASSystemf o rUNIXO p e r a t i n gS y s t e m . Y u j iS a i t o u T e c h n i c a lSupportGroup,CustomerSupportDepartment, CustomerS e r v i c e sD i v i s i o n, SASI n s . t i t u t eJapanL . t d . 要旨 コンピュータシステムの性能は各資源の使用状況により変化する場合がある。本稿では SAS システムより採取できる情報を用いて各資源の状況を判断する手がかりを提供する キーワード 3 fullstimerオプション UNIX オペレーテイングシステム 1.はじめに 一般的なコンヒ。ュータシステムを考えた場合、システムの持つ処理能力はそのシステムが持つ各資源 により決定され、それ以上の処理能力を求めることは難しいと考えられる。しかしながら、あるジョブヲT す る具現化された処理能力が本来そのシステムの持つ処理能力を最大限引き出した結果であるかどうか は疑問が残る。 本稿の目的は、特に UNIXオペレーティングシステムと S ASシステムに的を絞り、現在の処理能力 の妥当性を明らかにするため各種情報の採取方法とその意味について解説をし、その処理能力を改善 するためのガイドラインを示すことである D 2 .処理能力が低下する原因 コンピュータシステムに搭載されている物理的資源は一定である。 UNIXオペレーティングシステムは 複数のプログラム実行し、これらの資源を共有させ有効に使用させるための機構を備えている。しかしな がら、複数プログラムからの資源の共有はその競合の発生を意味している。資源、の競合が発生した場 ‑203‑
合、資源、を使用できないプログFラムは処理を中断し資源が使用で、きるようになるまで、待たなければならな し 、 。 CPUパ ワ ー の 不 足 通常、 UNIXオペレーティングシステムのようなマルチプログラムミングオペレーティングシステムに PU時間の割り当ては各プログ.ラムに対して平等に行われる。これはシステムで処理すべ おいては C きプログラム(プロセス)が多数あった場合で、も同様で、ある。よって、処理すべきプログ ラムが多数存在 P つのプログ ラムあたりの C PU時間が短くなり、結果的に各プログラムの処理に要する時 する場合、 1 P 間(スループット)は長くなってし、くことが容易に想像できる。 CPUパワーが不足していると判断できる場合、ジョブ、のスケジュールや不要なプログラムの停止等 PUパワーが不足しないようシステムの使い方を検討することも改善策の 1 つ思われる。ま により C ASシステム自体は SMP( S y m m e t l i cM u l t i p u l eP r o c e s s o r )対応ではないが、 CPUを複数 た 、S PUパワー不足が解消す 用意することによりオペレーティングシステムによる適切な振り分けにより C る可能性はある。 メモリの競合 UNIXオペレーティング システムは仮想メモリ機構を備えており、システムに搭載されているメモリ P (物理メモリ)以上のメモリ容量を仮想的に提供することが可能である。これにより、物理メモリ容量以 上を要求するプログラムや、より多くのプログ、ラムを一度に扱うことを可能とする。しかしながら、仮想メ モリ機構は物理メモリ上のイメージを一時的に DISK装置に待避する手法を用いており、イメージの DISK装置への待避動作や DISK装置から物理メモリへの読み込みには余計な時間を要すること になる。従って、システムが仮想メモリ機構を使用する頻度が高くなると各プロク、、ラムの処理はより時 間を要するようになる。なお、メモリ上に存在するイメージの一部を DISK装置に待避することはペー ジング、活動していないプロクゃラムイメージ全体を待避することはスワッヒ。ングFと呼ばれる。 SASシステムでは処理を行う上で使用するメモリの上限値を設定することが可能である。使用する メモリを制限することは処理効率の低下を引き起こす可能性があるが、反面、過剰な設定は仮想メモ リ機構の使用を誘発しシステム全体の処理に影響を与える可能性がある。 メモリ不足の疑いがある場合、メモリ不足に陥らない様に処理を実行するスケジュールや各処理が 必要とするメモリ容量を調整し、仮想メモリ機構を使用しないようにすることが理想的である。 入出力の競合 DISK装置や NETWORKを介したデータの入出力装置の性能は、処理能力を考える上で重要 な要素であるc 一般的にデータの入出力には時間的コストを要し、その処理の大部分を入出力で費 やすようなプログラムも少なくない。従って、入出力の性能を改善することは処理能力を大幅に向上さ せる可能性がある。入出力が競合した場合、資源を利用できないプログラムは処理の中断を強し、ら れ、資源が利用可能になるまで待たなければならない。また、 DISK装置は仮想メモリ機構のイメー ジ待避場所でもあるので、スワッヒ。ング 等をしているプログ.ラムへも影響を及ぼす可能性がある ‑204 G
SASシステムにおいて、ファイルへの入出力はすべてオペレーティング システムへのリクエストとし F て実装されている。これは、 SASで、使用するファイルはファイルシステムの種類に依存しないことを示 している。即ち、オペレーティング、システム上がサポートするファイルシステムで、有れば、 SASからも 扱うことが可能である。 SASシステムの DISK装置への入出力に関して改善を計る場合、コンヒ。ュー タシステム自体の入出力を改善することが SASシステムからの入出力を改善することに繋がることを 意味している。入出力を改善する上で、各オペレーティングシステムにてより効率の良いファイルシス テムを選ぶことは非常に有効な手段である。 3 . SASほ お け る 情 報 収 集 と 状 況 の 把 握 SASシステムにおいては、各 DATAステップやプロシジャ毎に処理時間を表示するようになってい る。また、 FULLST1MERオプションを用いることにより処理において使用された各資源の利用状況を 把握することが可能である。 FULLSTIMERオ プ シ ョ ン 使 用 例 1 2 o p t i o n sf u l l s t i m e r ; d a t at e s t ;s e tm a p s . j a p a n ;r u n ; N O T E : データセット W O R K . T E S Tは 5 0 8 9 オブザベーシヨン, 4変数です. N O T E : DATAs t a t e m e n tで以下のシステムリソースを使用しました: 皿e m o r y : t i m e : p a g ef a u l t s 1 8 r e a l 0 . 9 1 0秒 p a g e r e c l a i m s 0 u s e rc p u 0 . 0 9 3秒 u s a g e 3 5K s y s t e mc p u 0 . 1 7 4秒 c o n t e x ts w i t c h e s : b l o c k1 / 0o p e r a t i o n s : v o l u n t a r y 4 6 i n p u t 5 i n v o l u n t a r y 3 o u t p u t 9 FULLSTIMERオ プ シ ョ ン 使 用 時 の 出 力 結 果 と 評 価 FULLST1MERオプ、ンョンにより得られる情報とその意味は以下のようになる。 timeカテゴリ r e a l " は全体の処理時間を示めしている。また、 " u s e rc p u ", systemc p u " はプログラムそ れぞれ、 SASシステム、オペレーティングシステムが CPUを利用した時間を示している。これらの 値は、統計解析処理等、数値演算を主とする処理においては、 u s e rcpu がカウントされ、 DISK 装置への書き込み等、オペレーティングシステムのサービスを利用した場合 s ystemcpuがカウ ン卜される傾向にある。但し、 u s e rcpuの値と s y s胎 m cpuの値を加算しても、 r e a lt i m eとはなら ない。 r e a lt i m eはプロクーラムが開始されてから終了するまで、の時間を計算した値であるが、プログ ラムは全ての時間 CPUを使用しているわけでーはなく、各資源を待つ時間や他のプログ、ラムによっ て待機させられることで CPUを使用しない時間が発生するためである。 2 0 5
この値からは、処理の性質を見極めることが可能であり、一連の処理をおいて、計算を主とする か、入出力を主とするかを判断する材料となりうる。 memoryカテゴリ u s a g e " はこの処理で使用したメモリの使用容量を示している。但し、その処理全体が使用した メモリ容量を反映しているわけで、はない。また、処理によっては他のサフ、システムを呼び出す場合 があるが、呼び出したサブシステムが使用するメモリ容量をこの値に反映することは出来ない場合 がある。この値は、目安ではあるが、処理が要求するメモリ容量を見積もることが可能である。 p a g ef a u l t s " pager e c l a i m s " は処理実行中に発生した pagef a u l t s の回数を示してい る 。p agef a u l t sと本来あるべきメモリ領域が物理メモリ上に存在しない場合に発生し、仮想メモリ 機構により、再び 物理メモリ上に読み込まなければならなくなった場合に発生する。 p agef a u l t s " は DISK装置への入出力を伴う読み込みに対して、 p a g er e c l a i m s "は入出力を伴わない読み 込みに対してカウントされる。 p agef a u l t sが発生した瞬間、プログラムはメモリイメージが展開され るまで待たなければならない。仮想メモリ機構はオペレーティング、、システムが管理を行っているた め、ページング処理を任意に操作することは出来ないが、システムが搭載する物理メモリの容量が 大きければページング 処理自体の発生を抑えることが可能である。従ってこれらのカウントが極端 P に高いシステムでは、より多くの物理メモリを搭載することにより各プログラムの処理効率を改善させ る可能性があると考えられる。ただ、この現象が一時的であるか慢性的であるかを考えるべきであ る 。 b l o c k1 / 0o p e r a t i o n sカテゴリ i n p u t "、 o u t p u t "はプロクずラムからの読み込み、書き込み操作等、 DISK装置等のブロックデ? パイスに対して操作が行われた回数を示している。但し、ファイルの読み込み、書き込み操作に対 して常にブロックI1 0 操作が発生するわけではない。大抵の場合、 DISK装置に対する入出力は キヤツ、ンング されている。またファイルはネットワークファイルシステムやメモリファイルシステムなどブ P ロックデ、パイス以外に存在する場合があり、それらのデバイスに対する入出力ではカウントされな い。また、一部オペレーティング システムで1 土 、 DISK装置への入出力操作自体をページング と し P P て処理し、 SASシステムからは検出できないものも存在する。 DISK装置への操作の目安として評 価するべきである。 c o n t e x ts w i t c h e r sカテゴリ v o l u n t a r yの値は、プログラムが与えられた CPU時間を使いきる前に CPUを開放しオベレー ティング システムへ制御を明け渡した際にカウン卜される。本来であれば、オペレーティングシステム より制御を奪われるまで、稼動することが最も効率的と考えられるが、入出力のようなオベレーテイン ク、、システムからのサーヒ♂スの提供を待っている場合、オペレーティングシステムへ制御を戻す場合 ある。 206
v o l u n t a r yの値が大きい場合、オペレーティングシステムへのリクエストに対して即座に要求に 応じてもらえなかった場合が多く、プログラム自体が待ち状態にあったと考えることが出来る。大抵 の場合は DISK装置への入出力が集中しているような場合でこのような状況が発生することが多 し 、 。 逆に i n v o l u n t a r yは、プログラムがオペレーティングシステムから与えられた CPU時間を使い 切った際、即ち、オペレーティングシステムにより制御を他のフoログ.ラムに移された場合にカウントさ れる。この場合、他の資源を待つことなくプロクずラムを実行していた状態と考えることができる。しか n v o l u n t a r yの値が極端に高い場合、実は、システム全体が高負荷な状態で、あった可 しながら、 i 能性がある。このような場合、各プログラムに与えられた CPU時間が比較的短く、また、プログラム から他のプログラムへの制御の切り替えが頻発している状態が考えられる。システム全体が高負荷 な状態では実行すべきプログラムが多数に及び、 1つのプログラムに割り当てることが出来る CPU 時間は減少し、 1つのプログラムから他のプログラムへの CPU割り当て操作が頻繋に発生するよう n v o l u n t a r yのカウントは上昇する。従って極端に i n v o l u n t a r y の値が高い になる。結果的に、 i 場合、その処理中 CPUパワーが不足していた可能性がある。 4. SASシステムで調整可能なパラメタ SASシステムにおいて、各資源への使用方法を制限するパラメタは以下のようなものがある。 メモリに関して 五回MSIZEシステムオプション MEMSIZEオプションは SASシステムが使用する最大メモリ容量を定義する。ただし、常にこ のメモリ容量を確保するわけではなく、あくまでも上限値である。 SASシステムでは決められたメモ リ内にて稼動を試みるが、いくつかのプロシジャ (SORT、MEANS、SUMMARY等)では扱うデ ータの大きさに応じて十分なメモリ容量を確保する必要がある。 MEMSIZEオフ。ションの値には仮 想メモリ機構を稼動させることがないような容量を与えるのが最も処理効率を高める方法であると考 えられるが、具体的な数値は、ユーザ数や同時処理されるプロク、、ラムの数、使用できるメモリ資源 等、各環境に依存する。また、 UNIXオペレーティング、、システムによっては、 1つのプログラムが使 用することが出来るメモリ容量が制限されている場合があるので注意が必要である。デ フォルトで、 32Mが設定されている。 SORTSIZEシステムオプション SORTSIZEオフ ションは SORTプ口、ンジャにて使用するメモリ容量を定義する。実際に SORT o プロシジャで、用いられるメモリ容量は扱うデータセットの容量とソート対象の変数の数に依存するた め一概には最適値を求めることは出来ない。また、 SORTSIZE オフoションで指定した容量は MEMSIZEオプ、ンョンで、定義したメモリ容量を越えることは出来ない。デフォルトで、 16Mで設定さ れている。 -2ü7~
入出力に関して SASWORKシ ス テ ム オ プ シ ョ ン WORKライブラリはユーザの一時的な SASファイルの保管場所として使用される作業領域で あ るが、 SASシステム内部においても処理おける中間結果や処理に必要な情報を WORKライブラ リにファイルとして書き出している。この結果、 WORKライブラリにはより多くの入出力が発生してい ると考えてよい。したがって、 WORKライブラリに割り当てられるファイルシステムにはより高速な装 置を用いるべきである。但し、処理により非常に大きなファイルを作成する可能性があるため、その 容量は考慮しなければならない。 BUFNOシステムオプション、 BUFNO ニデータセットオプション BUFNOオプ、ンョンは SASデータセットにアクセスする際にバッファ領域の数を定義する(容量 は BUFSIZEオプションに依存)。但し、現在の高速なシステムではこのパラメタを調節しても入出 力の性能に殆ど変化をみることは出来ないことが判っている。なお、現在、 UNIX版 SASシステム において、 BUFNOシステムオプションのデ フォルト値は 1である。 BUFSIZEシステムオプション、 BUFSIZE=デ ー タ セ ッ ト オ プ シ ョ ン BUFSIZEオプションは SASデータセットにアクセスする際に確保するバッファ領域の容量を定 義している。但し、指定した値で、は不足だった場合は自動的に調整されため、通常の使用におい ては特別意識する必要はない。デフォルト値は Oである。 COMPRESS=YES システムオプション、 COMPRESS ニYES デ ー タ セ ッ ト オ プ シ ヨン 通常、 SASシステムのデータセットは圧縮されていないが、このオプションを設定することで、デー タセット作成時に圧縮をかけ、データセットの容量を縮小することが出来る。圧縮されたデータセッ トはプログラム上制約が課せられることと、読み込み・書き込みの際に圧縮・展開が行われるため、 余計の CPU時間が必要となる。しかしながら、データセットの容量が縮小されるため、入出力オベ レーションが軽減し、全体のスループットが向上する可能性がある。 TBUFSIZE=オ プ シ ョ ン TBUFSIZEニオプションは SAS/CONNECTにおける signonステートメントのオプションで、あ り、データ送受信のために確保するバッファ領域のメモリ容量を設定することが可能でドある。デフォ ルトでは 32Kバイトがバッファ領域として確保され、また、通常の環境では 32Kバイトとし、う値が最 適値で、あることが判っている。しかしながら、調整を行うことでさらに通信効率を向上させる可能性 がある。 ‑208‑
5. UNIXオ ペ レ ー テ ィ ン グ シ ス テ ム が 提 供 す る 情 報 収 集 プ ロ グ ラ ム ここではオペレーティングシステムが提供するシステムの状態を把握するためのプログラムを紹介す るc これらを使用して、 S ASシステムの動作を確認することが可能で、ある なお、各コマンドの出力は、各 O オペレーティングシステムに応じて異なるため、詳細は各システムのマニュアルを参照頂きたい。 w ,uptime コマンド このコマンド、はシステムの負荷を把握するために役立つ。主な出力である l o a da v e r a g e "の数値 は、コンピュータシステムにおける過去 1分間、 5分間、 15分間の負荷平均を示している。負荷平均と は、単位時間あたり、どれだ、けのプログラム(プロセス)が実行可能な状態で、あったか、即ち、ある瞬間 の実行されることを待っているプログラムの数の平均を示している。従って、 l o a da v e r a g e " の数値 が高い場合、実行を待たされているプログラムが多く存在したことを示し、システム全体の処理能力が 低下していることを示しているス但し、入出力待ちのプログラムもカウント対象になっているため、一概 にC PUパワー不足を判定する材料とはならない。 psコマンド ps コマンドは現在実行しているプログラム(プロセス)に関する情報を出力する。出力内容には、 プログ.ラムの現在の稼動状態、プロセス番号、所有者、実行時間、実際のコマンド等がある。その瞬 間のスナップ、ンヨットしか出力できないが、その瞬間のプロクーラムの稼動を確認するために用いること が可能である。 vmstat コマンド vmstatコマンドはシステムの仮想メモリに関する統計情報を取得するコマンド、で、ある。実行中の プログラム(プロセス)の数やページング.やスワッヒ。ンクずの発生状況を把握することが可能で、ある 大ま O かであるが、システム全体の仮想メモリ機構の使用状況を把握することが可能である。 i o s t a tコマンド I O s t a tコマンドはI!O サブ、ンステムの統計情報を採取するコマンドで、ある 各システムにより出力 O される項目は異なるが、各 DISK装置に対する入出力の発生状況を把握することが可能である。 n e t s t a tコマンド n e t s t a tコマンド、は NETWORKの状態を示すコマンドであり、 network‑ i にてインターフェイス 毎の入出力の状況を表示することが可能である。また、インターフェイスで、検出したエラーをカウントし ているため、ネットワークの異常を確認することが可能で、ある c ‑209‑
s a r コマンド s a rはシステムの保々な状態を出力で、きる複雑なツールで、ある。出力できる情報には、 CPUの使 用率、 DISK装置の入出力、ページング情報、メモリに関する情報など多岐に渡るが、このコマンドを 使用するためには事前の設定が必要である場合が多い。 t o p コマンド t o p コマンド、は現在のプログラム(プロセス)の状態をリアルタイムで、リスト表示することが可能で あ る。主な出力は CPUの使用率、使用しているメモリ容量、現在の負荷平均等である。このツールは 標準で実装されていない場合が多いが、海外の Webサイト等を通じ比較的簡単に入手することが可 能である。 その他 オペレーティングシステムを提供するメーカから、各オペレーティングシステム専用のツールが提 供されている場合がある。これらはより詳細な情報とより良い使い勝手を提供してくれるに違いない。 6. 最 後 に SASシステムの処理効率としづ面で考えると、 SASシステムで設定出来るパラメータはあまり多くはな い。また、それらのパラメタも長年の経験により最適値が設定されているため、調整を試みても現状以上 の処理能力は得られない場合が多い。詰まるところはハード‑ウェアの増強を考えることになるカも知れな い。しかしながら、現状の使用方法において、処理のボ トルネックとなる部分や改善部分等を把握してお くことは非常に有効であると考える。例えば、本来、 DISK装置の入出力がボ トルネックで、あったのに、 CPUを高速にしても無意味な投資である。 本稿が、現状の SASシステムで、行う処理がどのようにコンヒ。ュータシステムを使用しているか、また、 何が処理能力を低下させる要因になっているかを判断する手がかりとして役に立てば幸いである。 7. 参考資料 1 )Clark Thacher 著 、 i Turning t h e SAS System f o r UNIX and Tur i n g UNIX f o r SAS SystemJ、SUGI25paper 2 )マイク・ルーカイズ著、砂原秀樹監訳 iUNIXシステムチューニングタ」、アスキー出版局 3 )アイリーン・フリッ、ンュ著、谷川 l 哲司監訳 iUNIXシステム管理改定版 J、オライリー・ジャパン 4 )ユーレッシュ・ヴァハリア著、徳田秀幸、中村明、戸辺義人、津田悦幸訳「最前線 UNIXのカーネ ルJ 、ピアゾン・エデュケーション 5 )h1,t n: / / w¥Vw S:l s , ~om/n :l rtn f' rs/t f'~hnolo!"v/indf',(, h t m1 ‑210
口頭論文発表 データマイニング
日本 SASユーザー会 (SUG1‑0) Webログを活用したデータマイニング 0柳 還 彩 子 松本雅彦 株式会社 CSK 技術企画・推進本部 WebDataA n a l y s i su s i n gDataM i n i n gTechnique AyakoYanagisawa MasahikoMatsumoto TechnologyP l a n n i n g&PromotionDepartment ,CSKC orp. 要旨 顧客の晴好、行動を知る上で貴重な情報が Web でも収集できる。顧客/サービス/商品 分析に、 Web ログを付加した際の相乗効果を取り上げ、適用分野の位置付け、現状における 問題点とその解決方法、今後の展望に関して述べる。 キーワード E n t e r p r i s eMinerソフトウエア、 Webマーケティング、データ統合、 CRM , .はじめに 現在、インターネットがビジネス戦略の重要な位置を占め、その成功が数多く紹介されるよう になってきたc サイバー・スペースは、米国においても、日本においても、今後拡大しつつある 市場として注目されている。 Bt o C ビジネスにおいては、マーケテインク守戦略として、顧客の噌好や行動を知ることが重 要である。インターネットは、この貴重な情報の収集の場であると同時に、顧客にとって有用な 情報を提供できる場でもある。いかに、この場を有効に活用できるかが成功のためのキーとな る。また、インターネットにおける情報収集はコスト面、スピード[白も非常に魅力がある。 本稿では、まず Web ログを活用する上で、現状の問題点について述べる。次に、 Webデー タ(ログなど)を既存データや他のチャネルヵ、らの情報と統合することで効果が得られた事例を 紹介する。最後に、実際に Webデータを活用するときのポイントについて議論する。 la 唱 η nd ︒
2 .データマイニングと Webデータ これまで E n t e r p r i s eMinerソフトウェアを含む SASシステムを用いて、クレジット業界を 中心にリスク管理、マーケテイング、 CRM といった分野において様々な分析実績を重 ・ ・ ・ ・ ・ ・ ・ ねてきた。代表的な分析事例を下記に示す。 第三者不正利用検知]( M o d e l i n g ) 長期延滞者予測 ( M o d e l i n g ) 退会者予測 ( M o d e l i n g ) 顧客分析(デ¥ンル分析/RFM分析など) キャンペーン分析(企画/評価) • FSP(マイレージ/ポイントプログ ラム)利用促進分析 顧客チャネル分析 (DM/コールセンター /Web/E‑mail ) アンケート分析 (Web/アウトノくウンド、/紙) データマイニングの成功には下記に示す作業がポイントとなる。 ①現状の問題と目的を整理し、その解決策としてデータマイニングでできるものと そうではないものを明確にする。 ②分析に必要なデータが準備できるか、また、そのデータは件数、質ともに使える データかなどを事前に確認する。本来であれば、既存のデータを用いて分析する のではなく、分析に必要なデータを収集するための手段や仕組みから検討するべ きである。 ③外部情報の活用を含め、さまざまなデータを統合し加工する。本作業は分析作業 の大半を占め、モデルの精度に大きく依存する。 データマイニングでは、目的に合致したデータをいかに活用するかが肝になる。 Web ログは、他では取れない顧客の行動履歴や晴好が読み取れるため、さらなる精度向上 が期待できる。ただし、 Web ログを収集するにはまだまだ制約があり、それについて は次章に譲る。 3 .現状における問題点 この章では、 Webロク寸を活用するにあたっての現状における問題点について述べる。 各社 Webサイトの問題は、基幹システムとは別に Webサイトが作られている点である。基幹 システムと Web は管轄部門の違し、から連携ができていなしものや、目的を明確にしないまま 時代の流れた けで、開設してしまったため、未だ、にその機能が明確になっていないものがある。 ‑214一
Wcbログサンフ。ル XXX.XXX.XXX.145 [25/May/2000:16:20:07 +0900] "GET /vendor/sun/ HTTP/l.O " 200 1954 ..http://www.tdユ.csk.co.jp/vendor/" "Moziユla/4.7 [ j a ] (WinNT; 工)" XXX.XXX.XXX.101 一一 [25/May/2000:16:26:07 +0900] "GET / HTTP/1.0" 304 ‑ 一 " n uMoziユ a/4.5 [ j a ] (Win98; 工)" Web ロ グpも他のデータ同保、目的に応じて収集・加工すべきデータであるが、その性棉上、 下記に示すような問題が見受けられるの ①ログを取ってない、標準ログしかない グFは活用されるために貯められたものではなく、システムが自動的に吐き出 もともと Webロ す他のログ同様、その存在自体知られていなかったり、どのような情報があるのか理解され ていない場合が多し、(サンフ。ル参!出)。また、標準ログだけでLはクッキー情報などが取れない ため、訪問者が再訪問者かどうか、どのサイトから来たのかなどは不明である。 ②大量のログを実際にどう扱ってよいのかわからない Webログは l 日数百 M B"‑'数 GB単位の膨大なデータ量となる。その中から必要な情報 だけを効率良く収集することが必要である。 ③ログと顧客 IDをマージできない Web ログと基幹系システムの顧客データを統合するには、フォームを使って情報を顧客に 登録してもらう必要がある。また、 ID を発行して顧客に毎回入力してもらうなとずして完全に個 人を特定てやきなければ、顧客データと統合することは難しい。 ④データが十分集まっていなし、(期間) 分析を行う上で、特に季節変動などを考慮する際には、履歴データにはある程度の期間 の蓄積が必要である。過去のログを保存していなかったり、年数が浅いために卜分なデータ がない場合も多い。 ⑤その他組織的問題などの制約事項 Web ログを管理している部門、新規顧客に対応する部門、既存顧客に対応する部門、広 報部門、情報サービス部門、マーケティング部門など、 Web に関連すると思われる部署聞 l心となる部 の連携不足から、データの活用が難しくなっている。インフラの設計をするにも q 門がないのである。また、進め方の問題も挙げられる。いきなり大きな目標を摘し、ても、なか なカポタートできないことが多い。できることから少しずつ始めることも大切だが、その際にも 目的・目標を決めて取りかかることが重要である c ‑215
4
.検証事例
Web データを目的に沿って適切に加工することによって、他のデータと同慌にデータマイニ
ングに適用することができる。ここでは、 Web データを付加したマイニングが効果的であること
を検証した一例を紹介する。
【目的] ROIの高いキャンペーンを行うため、過去に実施したキャンペーンから反応率の高
し、顧客を抽出するモデルを作成する c
【使用データ]
①属性データ:性別、年齢、職業、住所、家族数など
履歴:金額集計、回数集計、取引期間など
②取ヲl
③反応データ:キャンベーン反応(レスポンスデータ)、サービス利用有無など
④ Web データ:インターネット購入有無、通販利用額、アンケート回答デー夕、メール配信サ
ーピス利用有無、特定ページのアクセス回数など
⑤他モデルスコア
[方法] キャンペーンの反応を目的変数とし、説明変数には上記のデータ項目の組み合わ
[‑m
せを用いる。その中で精度的に最も効果的な組み合わせを探索する。
一 一 切 ま 一 一 論 を 用 し て 一 例 町 剖
含めたデータクリーニング、変数加工、変数選択を行っている。
I
<EnterpriseMinerソフトウェアでら作成したプロジェクトのフロー>
一
一
回
一
一
!1m叩 IseMin町 〉 円 可 ‑ 酒
編集
ビ
ュ
ー
l~ト〉心
如、ーハ'Jl,(~)
.
1
)
ち.
J(Q) ウイット勺~
吋げ
ヨ豆盟盗j刈Rヨ│劇的 i
蓮鱗欝灘F
鱗事E
輔 暴 恒 輔E
踊 2紬.,~n~~5_D7.~WZtl.'l甲山富国一.二平常総説話
臼プロジェク卜
目 白 Campaign
~.._;Ë~盟国型彊圏
}
ー
さ:Campai
g
n
‑
‑
B
L̲,~, C
ampai
g
n
‑
‑
C
属性データのみ
ょ{
‑216‑
[結果]
<利用データによるモデ、ル精度の違い>
院I!問調圃幽阻幽圃圃阻固目幽臨時輔韓関問機議選議量殺長緩斗忌凶
iE
A忘事事袈議会
10
「期待手1益ベクトル一一一‑, 1
1 属性のみ
30
I 20
40
50
60
7
0
90
80
1
0
0
i
宇奈 j
譲;
:
;
:
i 1i
1
i
!
i
i
J
I
i
l
B
上記、正反応補足割合による比較の結果から、より多くのチャネルを通して得られたデータ
を扱ったモデルの方が、的確に顧客を捉えている傾向が得られた。
ROI 重視の考え方で顧客のセグメント化が不十分なままキャンペーンを行うと、顧客に受け
入れられず、逆にロイヤリティの低下を招く可能性がある。それを防ぐためには、上記のような
モデルを採用し、適切にターゲティングすることが望ましい。より良い顧客関係を築くことができ
れば、結果的に ROIの向上も期待される c
5.+Webログの相乗効果
第 3章で取りとげたような I
¥
I
J
題点が解決されたと想定して、実際に V
.
Jc
bログを活用しようとし
f
l
j,こ述べる O
た時のポイントを、 Webマーケティングーの佃域を{
W巴b ログは、他では取れない則容の行動履歴や H存好が読み取れるというメリットに
とどまらず、分析に必要なデータをタイムリーに、鮮度よく、かつ確実(自動的)に
i
:
l1すべきである。さらに、入手で、情報を収集するのに比
収集できるチャネルとして i
べ格段に低コストで情報を収集できること、分析結果を反映したマーケテイングプラ
ンを比較的容易にホームページに反映できることも見逃せなし、。さらに、ホームペー
罰則できる c
ジだけでなく、 E‑mailや日本では携帯電話も有効なチャネルとして j
Web が単なる情報発信の場から、顧客との保々なコミュニケーションの場に広がってきたよう
に、新規顧客の開拓と顧客の維持とし、う 2つの段階があることを税理し、それぞれに応じた対
応を取る必要がある。
217一
顧客維持 顧客開拓 5 . 1顧客開拓の STEP 狙し、が優良顧客の囲い込みでも、前述の問題点でも述べたように、現状、データを正しく取 得されているケースは非常に少ない。しかし、データがない顧客開拓の段階においても Web ログを活用できることがある。例えば、 Web サイトのパフォーマンスの安定化と顧客ニーズ の把 握である。 ①アクセス数、時間→パフォーマンスの問題改善、キャパシティ計画 ②人気ページ、クリックストリーム→デザイン、サービスの再構築 ③アクセス経路→パナ一広告の最適化 ④リピータ一、好み→オプトインメール活用 しかし、相手が特定できない以上、実現できることにも限りがあるつ 5 . 2顧客維持の STEP Webサイトには、趣味趣向・行動履歴の情報元や、情報・サービス提供の場としての Webサ イト、取ヲ l 市場を直接 Web上に持つための Webサイトとがある c その双方において共通なの が、情報の収集やインフラ面での仕組みである=実際に分析を行う際には、利用するデータも、 その加工方法も異なってくる。データはそれぞれ一長一短があり、組み合わせが肝心になる。 営業ーなど ‑ 2 1 8
Webデータの分析は、リアルの }
;
I
;
t
i
l
lを持つような企業、 .COM企業など、範囲やレベルこそ
n
Jにで、も当てはめられるとし、うことは、ど
違え、どの業界業種にも当てはまると言ってよい。逆に {
化のポイントになる。例えば、インターネットプ。ロ
のようなことに応用するかとしづアイデアが足跡l
パイダーにおいて、顧客をセグメント化し、その中での掲示板、チャッ卜を共有で、きる仕組みを
構築する c 顧客にあったコミュニティを作って育てていくことができれば、顧客を固い込むこと
!
I
Iにおいて、対象セグメン卜やアクセスチャネル、イ
ができる。別の例では、キャンペーンの企I!
ンセンティブなどを決める際に、より反応の高い組み合わせを提供することができるであろう。
t
'
,
i
'
に有効で、あると考えられる。
様々なデータを既に入手しているクレジットカード、や流通業界で'
I
ることが重要である。それ
どのようなアイデアを考えるにしても、まずはデータを見て顧客を失1
I
lを開発すべきで、ある O それは、既存
を踏まえた上で、顧客のニーズに対比;したサービスや商 J
のサーヒザスや商品とまったく異なる領域のものカもしれない。しかし、顧客がインターネットの市
場に何を求めているのかを掌握できなければ、この新しい市場において顧客指向の発想に転
換した対応を取ることはできないc
分析だけでなく、業務全体のサイクルを怠識した仕組み作りが必要で、ある。サイクルを回すこ
とにより、質の高いデータが収集でき、分析の精度と共に顧客とのコミュニケーションも向上す
ることが期待できる c 情報は Pushするだけでなく、行き過ぎた Onc lo Oneにならなし、ように、
P
u
l
l データを反映して双方向の閣係を築ヵ、なければならない。仕組みを効率よく構築するに
は、レコメンデーションツール、 Onc lo One対応ツール、キャンベーンマネージメントツールな
どの導入も検討すると良い c
6
.まとめ
顧客の噌好、行動を知る l
二で、貴重な情報が ¥
^
/
e
bでも収集できることから、現在、その活用方
V
e
bデータ単独ではその活 J
I
Jには唄界がある c 既存データ
法が注目を浴びている c しかし、'v
や他のチャネルからの情報を統合して初めて有効に活用することがで、きる。今回は、顧客/サ
ebログを村 J
J
nした│探の相乗効果を取り上げ、検証を行ってみたところ、
ービス/商品分析に、 W
日的に適した加工をすれば、モデ、ル精度の向上やセグメンテーションに役立つことが確認で、
i
l
iJ
l
JL
の問題点を解決しつつ、 y
iなる J
;
t
:用分野の閣拓に
きた。今後は、インフラも含めた実 i
努める。
‑219一
日本 SASユーザー会 (SUG1‑0) ツリー分析における予測レスポンス率の修正方法について 一分析対象データに過去のアプローチ実績有無のデータが混在してしも場合一 0 平松宏之 若井延夫 株式会社ジェーシーピー 営業本部データマイニング、グ、ループ A methodo fm o d i f y i n gano r i g i n a lr e s p o n s er a t i oc a l c u l a t e dbyt r e ea n a l y s i s oHiroyukiHiramatsu NobuoWakai LTD. 8 u s i n e s sA d m i n i s t r a t i o nDepartmentDataM i n i n g JC8CO., 要旨 E n t e r p r i s eMinerソフトウェアを用いたデシジョンツリー分析において、分析対象データの中に過去 のアプローチ実績有無のデータが混在する場合の予測レスポンス率の修正方法について記述する。 キーワード: E n t e r p r i s eMinerソフトウェア・デシジョンツリー・レスポンス率 1 .はじめに E n t e r p r i s eMinerソフトウェアでは、主に以下のモデリング手法が提供されている0 ・デシジョンツリー(決定木) ・回帰分析(線形回帰・ロジスティック回帰) .ニューラルネットワーク ここでは、デシジョンツリー分析を例にとり紹介する 後述するが、ターゲ、ツト変数の存在する他のモデリ C ング手法にも適用は可能である。 通常、モデリングを行なうケースでは、分析対象を以下2つの方法のどちらかから選択するc ①過去にアプローチを実施したことがあるユーザーのみを対象。 ②過去にアプローチを実施したことがないユーザーのみ(自然体)を対象。 しかし、実務をこなしてしも方はよくご存知のことかとは思うが、以下の理由により、このような理想的な ‑221‑
サンフ。/レデータは実際には準備で、きず、アフ。ローチ実績有無の対象が混在するケースがほとんどで、ある。 ①反応者が十分に確保できない c (母数が足りないため、モデノレが不安定になる o ) また、従来のアプローチにおいても、何らかのセグメント化が行われており、偏ったサンフ。ノレとなる 場合がある。 ②過去のすべてのアプローチ実績が把握困難なため、純粋な未アプローチ対象の特定ができないc この場合、前述2つのケースで、通常行なう単純にサンフ。/レ率で害J Iり戻す算出方法で、は、アプローチ後の レスポンス率を正確に想定することはできない乙その理由(問題点)を次項で示し、予測レスポンス率の修 正方法について、詳述するc 2 問題点 以下のような例を考えていただきたい。(下図 l参照) このケースでは、下図をご覧いただければお分かりし、ただけるように、単純にサンフ。ノレ率で害J Iり戻すこと によりレスポンスを算出している c しかし、実際には過去のアプローチ実績ありのユーザーが含まれる割合はノード(セグメント)毎に異な っており、サンフ。ノレ率で、の害J Iり戻しのみでは正確なレスポンスは想定で、きなかった。(テストマーケティン グにより実証済。) ※分析データについては、過去の反応ユーザーを 1 0 0 弘、未反応ユーザーを 1 0 弘でサンプリング lg =l ' ※過去の反応ユーザーを F ※分析データを 1 : 1で、分析用 ( M o d e l )、検証用 ( V a l i d a t i o n )に分割 ノ ド〈セグメント)毎に高低の君臨調Eが み ら れ る . ノード肉のアプローチ実絶件敏の割合が異なるため ( 図 1:サンプノレ率からの単純な割り戻し) nL nL nL
3 .修正予測レスポンス率の算出方法 3‑1.合計比較による算出 下図 2‑1をご覧いただきたいc このケースでは、①過去アフ。ローチ ( DM)実績のあるユーザーのみを抽出し、先に作成したモデ、/レで、 スコアリンク、を実施 o (レスポンス率は従来の単純割り戻しによる値を用いる 0)②その結果計算される予 測反応数 ( P r d )合計値と実際の反応数 ( A c t )合計値の比較により、その比(効果)を算出し、③先に作成 したモデル予測レスポンス率に効果を掛け合わせ、修正予測レスポンス率を導き出している。 (下図詳細説明) 1.アフ。ローチ実績のあるユーザーのみをスコアリング、(( 3 )表) 2 .実績 ( A c t )合計 ( 8 0 + 1 0 2 )/予測(Pr d )合計 ( 7 1+ 9 6 )二効果(1.091倍) (合計二 M o d e l + V a l i d a t i o n ) 3 .ノード 05→予測レスポンス率(1.9 7 % )x効果(1.091倍)ニ修正予測レスポンス率 ( 2 . 1 5 % ) 庫品目J::ョ・1; (1) = Acl合計 (80叶 02)/Prd合計(71+96) ‑ ・ ] ¥ 1 ' , 5 ' 手' J 1 民 ‑ ・E ・ ・E ・ ・E ・...l.!I. ( 図 2‑1:合計比較による算出) 4 円 η3 9u
3‑2.線形回帰(散布図)による算出 をご覧いただきたい。 下図 2‑2 このケースでは、前項同様に、①過去アプローチ ( DM)実績のあるユーザーのみを対象にスコアリング を実施。②スコア化されたノード、の予測レスポンス ( P r d )率をX軸に、実績レスポンス ( A c t )率をY軸にとり、 散布図を作成。回帰直線を求め、③その回帰式(効果)により、修正予測レスポンス率を導き出している。 (下図詳細説明) ( 3 )表) 1.アプローチ実績のあるユーザーのみをスコアリング ( 2 .散布図作成日 3 )表の右グラフ)・回帰直線生成 ( y = 0 . 9 8 7 8 x + 0 . 0 0 0 6 ) 5→予測レスポンス率(1.9 7 % )X係数 ( 0 . 9 8 7 8倍)+0.06%=修正予測レスポンス率 ( 2 . 0 1九 ) 3 .ノード 0 ヨ ・ 里 司 ー ー ー ー ー ー 駒 田E ̲(11 幽箇圃・梅・酬 y=0.9878x+ O.0006 y= 0.9878x+ 0.0006 R' =0.9903 1 . 5 0 ' ! 1 • 1αn 05 0 ' 0 00 0 ; , し 竺 α oJ'I ( 図 2‑2:線形回帰(散布図)による算出) ‑ 2 2 : 1 0 .50'0町民 1 虫J'I 2 . 白 川
3‑3.ロジスティック回帰による算出 下図 2‑3をご覧いただきたいc このケースでは、前項同様に、①過去アフ。ローチ ( DM)実績のあるユーザーのみを対象にスコアリンク、、 を実施c ②スコア化されたノードの予測レスポンス ( P r d )率および実績レスポンス ( A c t )率をロジット変換し、 変換後の予測値をX軸に、実績値をY軸にとり、散布図を作成c 回帰直線を求め、③その回帰式(効果)に より、値を算出後、④逆変換し、修正予測レスポンス率を導き出している。 (下図詳細説明) 1.アフcローチ実績のあるユーザーのみをスコアリング、(( 3 )表) 2 .ロジット変換後、散布図作成(( 3 )表の右グラフ)・回帰直線生成 ( y = 0 . 9 8 5 2 x ‑ 0 . 0 0 6 3 ) 5→予測レスポンス値 ( ‑ 3 . 91 )x係 数 ( 0 . 9 8 S 2倍 ) 一0.0063=修正予測レスポンス値(‑ 3 . 8 S ) 3 .ノード 0 4 .修正予測レスポンス値(‑ 3 . 8 5 )を逆変換→修正予測レスポンス率 ( 2 . 0 7 % ) 宮古田直~1・堅.,.------". 画圃・・騨・噌欄 yoO.9852x‑0. 0 0 6 3 ∞ ‑ 8 ∞ ‑ 6 ∞ 4 y 0 0.9852x‑0.0063 ∞ / 斗 ‑ 3 444 ‑225 ‑2∞} R' 0 0 . 9 9 6 ∞∞∞∞ ( 図 2‑3:ロジスティック回帰による算出) ∞‑1∞0.t00 2
4 .まとめ 今回のモデ ルで、 4つの手法別に実績値と予測値の比較検証を行なった。(下図 3参照) このケースでは、ロジスティック回帰による修正予測が、もっとも実績値に比較し近似値を示したと いえる。ただし、以下の理由により、一概に必ずこの手法を選択すべきであるとはし、えない。 ・モデ、ルの安定度による影響を受け、(オーバートレーニング、になっていなし、かどうか等)、どの 手法が適してしもかはそのモデ、ルによって異なるこ 、 こ R‑squareの値があまりにも落ちる場合は、 ・線形回帰法やロジスティック回帰法をもちいた際 l 合計比較法が適している場合がある二 現在も、様々なモデルで、結果検証中でらあるが、今のところ、線形回帰もしくはロジスティック回帰による 手法が近似値を示す場合が多い。また、今回はデ、シジョンツリー分析を例にとり紹介しているが、この レスポンス修正方法については、ターゲ、ツト変数のある他のマイニンクー分析(クラスアソ、ンエーション等)に も適用は可能である。 ( 図3 :比較検証) 実際のマーケティング試行において、費用対効果をシミュレートし、最大収益点や限界コスト等を見極め ることは、必要不可欠な要件である。 今回の試みである r (正確な)予測レスポンス率の算出」は、まさにこの要件をみたすうえでの「前提」とな るステップ。で、あるc 今後も、データマイニング、により抽出されたモデ、ルをビジネスで、活用するため、より正確 な予測レスポンスを算出すべく、様々な修正方法にチャレンジしていきたし立考える。 ハ O ηL η4
日本 SASユーザー会 (SUG1‑0) データマイニングによる製造プロセスの品質解析事例 水田匡彦 住友金属工業株式会社 総合技術研究所 システム研究開発部 Aq u a l i t ya n a l y s i soft h emanufactureprocessbyd a t aminingmethod M a s a h i k oM i z u t a ComputerS y s t e mT e c h n o l o g yD e p a r t m e n t C o r p o r a t eR e s e a r c ha n dD e v e l o p m e n tLab o r a t o r i e s l . 1d . SumitomoM e t a ll n d u s t r i e s, 要旨 製造業においては、製品品質の向上と生産性の向上は永遠の課題である。高品質化を実現す るためには、品質と製造条件との相関関係を把握する必要がある。従来、品質解析はいわゆる 統計解析手法により実施してきたが、製造プロセスが復雑さを増すとともに取扱うデータ量が 大容量化してきたことから、迅速かつ的確に品質解析を行うことはますます困難となってきた。 そこで、今回、迅速かつ的確に品質解析を実施すべく、品質解析にはじめてデータマイニング を適用した。その結果、製品品質の不良要因が判明するとともに、定量評価を施した結果を製 造プロセスの操業条件にフィードバックすることにより品質改善を図ることができた。 キーワード: データマイニング品質解析不良要因分析 はじめに 製造業では、顧客の要求に応える製品の品質向上と経営に直接寄与する生産コストの低減が大きな使命 である。製品品質の高品質化と生産性の向上とは密接に関係しており、高品質化のみならず生産性の向上 を実現するためにも品質解析を実施することは非常に重要である。品質解析とは、着目する品質に関して 如何なる操業要因が影響を及ぼしているかを明らかにする相関解析、操業要因がどの程度品質に影響を及 ぼしているかを把握するための定量評価、さらに製品品質不良がなぜ生じているかを明確化するための不 良要因分析等を包括した呼称、である。これら品質解析は、これまで統計解析手法を駆使することにより実 施してきたが、製品品質の高品質化に伴って製造プロセスは複雑さを増すとともに、データ解析環境の向 上に伴って取扱うことのできるデータ量は大容量化しており、品質解析に多大な時間を要するようになっ てきた。一方、近年、データマイニングに関するソフトウェアが充実してきており、製造業の品質解析に もデータマイニングを適用することが可能な環境が整ってきた。そこで、品質解析の効率化を図るべく、 製造業の品質解析にはじめてデータマイニングを適用することとした。 n t e r p r i s eMine rソフトウェアによる製造プロセスの品質解析事例について報告する。 本論文では、 E ‑227一
2 品質解析 2. 1 一般的なアプローチ方法 製造業における品質解析の一般的なアブローチ方法を図 lに示す。品質解析を実施するにあたり、予め 着目する製品品質と製造プロセスおよび操業要因に関する生データを収集し、収集した生データを基に必 要な加工を行う。次に、品質ぱらつき要因と品質不良要因を抽出したうえで定量的な評価を行う。最終的 には、その結果を製造プロセスの操業条件にフィードパックし製品品質の向上を図る。本アブローチでは、 着目する製品品質に影響を及ぼす製造プロセスあるいは操業要因を抽出することが最重要課題である。し たがって、製造現場において品質および製造方法に関する綿密なヒアリングを実施し従来から判明してい る知見を整理することは重要である。さらに、着目する品質と操業要因との相関関係を表す散布図を基に、 品質に影響を及ぼす操業要因を推定することも重要である。品質ぱらつきあるいは品質不良の要因が判明 すれば、回帰分析手法あるいは操業要因を従属変数として重回帰分析手法や PLS分析手法を適用するこ とにより定量評価を実施する。最終的には、定量評価で得られた結果を製造プロセスにフィードパックし 操業条件を適正化することにより、品質ぱらつきおよび、品質不良の低減を図る。 製造プロセスに フィードバック 図 1 品質解析のアプローチ方法 2 . 2 相関関係の抽出 製品の品質不良は、製造プロセスに起因する場合と、操業条件に起因する場合がある。原因を明らかに するためには、製造現場におけるヒアリングを中心に詳細な解析作業を実施する必要がある。製品品質と 製造プロセスの関係を評価する場合には、図 2に示す一例のように評価対象としている製品品質と製造プ ロセスとの相関を調査する。図 2では、プロセス C により製品の良品率が悪化すること、プロセス C の 前にプロセス B を実施すれば良品率は向上すること、プロセス E を実施する製品は良品率が良いことが わかる。これらの結果をもとにプロセス改善を実施し、品質不良の低減を図る。なお、同じプロセスで製 造した製品の品質にばらつきが生じる場合には、品質と操業条件との相関関係を散布図等をもとに調査す る必要がある。 プロセスA 図 2 製造プロセスと良品率の相関調査 ‑228‑
2 . 3 定量評価 品質と操業要因に相関関係があることが判明し、解析結果をプロセス制御に利用する場合には、回帰分 析手法を適用して相関関係の定量評価を実施する。図 3に操業要因 A に対して品質 B 良品率をプロット した散布図の一例を示すが、両者の聞には正の強い相関がある。すなわち、操業要因 Aの操作量が大きい ほど品質 B の良品率は向上する。この関係に回帰分析手法を適用すると(1)式の関係式を得る。ただし、 a )の散布図から判断すると、図中に示された関係式から大きく外れるデータ群が存在する。このデー 図 3( 2 )式となる。 ( 2 )式に示す関係 タ群を除去することができれば、操業要因 A と品質 B 良品率の相関関係は ( 式は相関係数から判断して、(1)式よりも相関が強いことがわかる。したがって、より相関の強い関係式を a )に存在する外れデータ群に着目し外れ原因の究明にあたる必要がある。外れ原因が 得るためには、図 3( 判明しない場合には、相関係数が良くなるという理由だけで無闇にデータを除去してはならず、相関関係 は(1)式を用いることになる。 Y=0.83X+3 . 5 4 2 ・ ‑ ( 1 ) 2 … (2) R =0 . 8 1 Y= 1 .01X‑1 .40 R =0 . 9 9 ただし、 x:操業要因 A、Y:品質 B良品率、 R 2 :相関係数 1/ ず 100 100 d 時 ャ 即 ロ E60 E 2 H 60 ∞ 40 紙 m { 紙 ∞ 40 E120 ロ E20 〈 日 。 。 。 。 20 40 60 80 100 20 40 6 0 80 100 保業要因 A(ー) 燥業要因 A(ー) ( a ) 相関関係 1 (b)相関関係 2 図 3 操業要因 A と品質 B良品率の関係 2 . 4 品質解析の課題 統計解析手法はひとつの変数が他の変数とどのように関係しているかを調べる手段であり、解析者が考 えた仮説の検証として相関関係式を算出しそれをもとに推定することを得意とする。このとき、操業要因 と品質との相関関係の抽出は、製造現場におけるヒアリングの結果等をもとに解析者が実施する。ただし、 知見に固執するとデータ聞に潜む相関関係抽出の妨げになることもある。したがって、知見を鵜呑みにす ることなく、データによる裏付けを忘れてはならない。さらに、データ聞に潜む相関関係を抽出するため には、様々な可能性を探求すべきである。しかしながら、製造プロセスの複雑化とデータ量の大容量化が 原因で様々な仮説を立てて検証していく解析作業は、多大な時間を必要とし全ての関係を解析することは 事実上不可能に近い。また、製品品質を向上させるうえで不良要因分析は重要であるが、不良データは正 常データに比べて極端に少なく、統計解析手法は不良要因を抽出することを得意としていない。 これらの事情を鑑みて、品質解析の効率化と不良要因分析を目的に、近年着目されているデータマイニ ングを品質解析に適用するに至った。 ‑ 2 2 9
3 データマイニングの適用 3. 1 KDDプロセス σ 近年、データベースから知識発見 Ulo w l e d g eDis c o v e r yi nD a t a b a s e s:KDD)を行う考え方が急速に広 まってきている。その背景には、大量かつ多様に蓄積されたデータの有効活用に対する要請、データベー ス、機会学習、統計などの理論を統合しようとする理論的な要請、さらには成熟しつつある人工知能やデ ータベースの技術をソフトウェア化して大規模問題に適用しようとする技術的な要請がある。従来の解析 では、十分なデータが無いという理由やデータが存在しでも分散しているなどの理由から簡単な解析に甘 んじていたが、データの蓄積が進み容易に発見することのできない複雑な知識を発見したいという質の高 い解析への要求が高まってきた。 KDD とは、妥当性、新規性、潜在的有用性あるいは理解可能性なパタ ーンをデータから同定するためのプロセスを意味する。 KDDプロセスには、図 4に示すように生データ の獲得から始まり、データの抽出、ノイズや異常値を除去するデータの加工、データマイニング、データ 解釈と評価という各ステップが含まれる。この KDDプロセスの lステッフであるデータマイニングとは、 データ分析とデータ発見のアルゴリズムを適用して、計算効率を考慮しつつデータに潜む特定のパターン を抽出するものである。 I n f o r m a t i o n D a t aWarehouse D a t aMining 図 4 KDDプロセス 3 . 2 データマイニング慨要 近年、大容量データを取扱う様々な分野で、データマイニングを適用した事例が紹介されるようになっ てきた。データマイニングとは、データの中から知識を得る行為を意味するので、いわゆる統計解析手法 も広義の意味ではデータマイニングの一種である。ただし、近年注目を集めているデータマイニングは、 決定木(ディシジョンツリー)やニューラルネットワーク、遺伝的アルゴリズム等を分類モデルとした手法 であり、データマイニングと言えばこれらを意味するのが一般的である。データマイニングの特徴は、大 容量データから数学的なアルゴリズムを用いて、データ問に潜む相関関係を瞬時に抽出することにある。 2 3 0一
3 . 3 決定木 データマイニングの中で最も利用されている手法として決定木を挙げることができる。決定木は、目的 変数の値を説明変数の基準値により効率良く分割してデータのセグメンテーションを行う手法である。決 定木の構成要素は葉および判別ノードであり、葉はクラスを指し判別ノードはひとつの属性値を調べるテ ストの指定を意味する。それぞれのテスト結果にはひとつの分岐と部分木が対応する。決定木の分割ルー ルは表 lに示すアルゴリズムを用いており、これらの分割ルールにより得られた決定木の一例を図 5に示 す。とこでは、ある催事の開催と中止を過去のデータにより分類した例を示す。この決定木から、天気が くもりの場合および天気が雨で風が弱い場合には開催されること、天気が晴れの場合にはそれ以上の情報 がなく分類できないことがわかる。本手法の利点は、決定木として表された結果が解釈しやすい点にある。 表 1 決定木の分割ルール 名称 CHAID(Chi‑squareda u t o m a t i ci n t e r a c t i o nd e t e c t i o n ) CART(Classi 五c a t i o nandR e g r e s s i o nTre e s ) C 4 . 5 分割の基準値 力イ二乗検定の p 値 Gini指標値の減少 エントロビーの減少 図 5 決定木の一例 3. 4 E n t e r p r i s eMi ner ソフトウェア概要 E n t e r p r i s e1¥位且 e rソフトウェアはデータマイニングの手法と理論を統合したパッケージプロダクトで ある。その特徴は、データのサンプリングやクラスター分析、ビジュアル化、結果予測のためのモデル作 成やその評価というデータマイニングの各プロセスをマウス操作で実行できることである。 E n t e r p r i s e Mine rソフトウェアの決定木には表 2に示すモデルノードが準備されている。 モデルノード 1 ーユーフルネット 2 ユーザ定義 3 回帰分析 4 決定木 表 2 決定木のモデルノード 内容 多層のーユーフルネットワークを作成し学習により調整を行う。 ユーザが独自に定義したモデルから出力される予測値を使って評価用 の統計量を作成する。 線形およびロジスァィック回帰モデルを 1つ前のプロセスフローで出 力されたデータセットに適応させることができる。 一般的な決定木のアルゴリズム (CHAID,CAR 即時用して決定│ 木モデルを作成する。自動学習と対話型学習の両方をサポートする。 ‑231‑
4 品質解析事例 4. 1 課題 ある製造プロセスで製造された製品の品質 A に関する品質不良を低減し、製品品質を向上させるという 課題を考える。現状、品質 A の不良率は少ないものの不良が生じた場合にはユーザからクレームがつくた め、さらにその不良率を下げたい。ただし、製造プロセスを変更することなく操業条件の変更により対応 したい。また、他の品質が悪化することは許さないこととする。 4 . 2 ソフトウェア利用手順 上記課題を解決すべく、 E n t e r p r i s eMin e rソフトウェアを利用してデータマイニングを実施する。具 t a r g e t )に品質 A を指 体的な作業手順を表 3に示す。必要なデータファイルを準備したうえで、目的変数 ( 定し、品質 A に影響を及ぼす操業要因を 96種類の説明変数から抽出する。抽出した操業要因に対して定 量的な評価を行い、得られた結果を操業条件にフィードパックすることにより品質 A の不良率を低減する。 1 2 3 4 5 6 7 表 3 作業手JI~ 作業内容 ファイルの読み込みウェザードによるファイルの読み込み SASデータセット保管場所の指定 プロジェクトの追加・プロジェクトフイブフリ及びデータフイプフリの指定 プロジェクトワークスペースでのノード追加(入力データソース。 決定木) 入力データの役割の設定( r 品質 A J を目的変数( t a r g e t ) f こ指定) ダイアグ フムの中にフロー作成(入力データアイコンと決定木アイコンの接続) データマイーングの実行 一 一 一 一 一 4. 3 自動分析結果 E n t e r p r i s eMi n e r ソフトウェアを用いて、品質 A を目的関数とした決定木による自動分析を実施した。 v e r a g eの値が小さいほど品質 A が良好であることを示す。決定木の その結果を図 6に示す。図 6では A 自動分析の結果、品質 A に関する影響要因として、要因 1、要因 2および要因 7が抽出された。要因 7は 従来からの知見に一致しており、データマイニングを適用しでも同様に抽出された。一方、要因 1および 要因 2は、品質 A に影響を及ぼす要因として従来あまり着目されていなかった要因である。決定木の自動 分析を実施することにより、品質 A の不良要因となり得る操業要因の抽出を迅速に行うことができた。 u η喝 ︐ ︒qou 図 6 決定木(自動分析)
4 . 4 自動分析結果の評価 決定木の自動分析により抽出された不良要因が品質 A に影響を及ぼすかどうかについて、その物理的意 味を考察した。その結果、要因 lおよび要因 7は、その大小が品質 A に影響を及ぼすことが物理的に説明 できることが判明した。一方、要因 2に関しては品質 A に影響を及ぼすことが説明で、きない。したがって、 今回得られた決定木の自動分析結果から要因 1および要因 7を品質 Aへの影響要因と決定した。 このように製造プロセスにおける品質解析の場合には決定木の自動分析結果を評価することが可能で ある。自動分析により統計値として相関の強い結果が得られたとしても、物理的に意味を見出せない結果 であれば、サンプルデータにより偶然得られた結果の可能性もある。したがって、解析結果の信頼性を向 上させるためには、統計的なアプローチの充実とともに解析結果の評価が必要不可欠である。 4 . 5 対話型学習分析結果 決定木の自動分析結果とその物理的意味の考察から、品質 A に影響を及ぼしている操業要因は要因 lと 要因 7であると結論付けた。これらの要因が品質 A に及ぼす影響を定量的に評価すべく、決定木の対話型 学習による分析を実施した。対話型学習により得られた決定木を図 7に示す。この結果から、要因 1の値 が大きくなるほど品質 A の不良率が培すこと、各分岐において要因 7の値が大きいほど品質 A の不良率 が培すことがわかる。さらに、定性的な知識が得られたのみならず定量評価も可能であったことが各分岐 からわかる。このデータマイニング結果をもとに、製造プロセスに対して要因 1および要因 7の操業条件 を制限するフィードパックを実施した。その結果、品質 A の不良率は低減し品質向上が確認された。なお、 要因 7に設けた制限が他の品質に悪影響を及ぼさないことは別途確認した。 図 7 決定木(対話型学習) ‑233
5 まとめと課題 5. 1 まとめ 製造業の品質解析にデータマイニングを適用した結果、品質不良要因に関する知識を得ることができた。 すなわち、決定木の自動分析を実行することにより品質不良要因を抽出することができ、抽出された操業 要因に対して製造プロセスにおける物理的意味を考慮したうえで品質不良要因を確定し、さらに確定した 品質不良要因をもとに決定木による解析を実行した結果、品質の良否と操業条件との関係を明確にするこ とができた。得られたデータマイニング結果を製造プロセスの操業制約としてフィードパックすることに より、製品の品質不良を低減させることができた。 品質解析にデータマイニングを適用した結果、品質解析に要する時間の短縮とデータに潜む知識の獲得 を実現できたことから、データマイニングが製造業の品質解析に有力な武器と成り得ることを実感した。 5 . 2 課題 品質解析にデータマイニングを適用する際の課題としては、生データの加工および、適切なサンプリング を行うデータ前処理の実施、データを決定木作成用データと評価用データに分割し順次入れ換えを行うこ とにより決定木の評価を行うクロスバリデーション ( C r o s sV a l i d a t i o n )の実施、さらにデータマイニング 実施目的に合った適切なモデルの選択とパラメータ設定等が挙げられる。 5. 3 ソフトウェア利用の留意点 データマイニングを実現するソフトウェアの登場により、データ解析プロセスは変わりつつある。ソフ トウェアの利点は省力および、効率化であり、解析者がソフトウェアを巧みに使いこなすことができれば、 解析者はさらに質の高い解析に時間を費やすことが可能となる。一方、ソフトウェアの使い勝手の良さを いいことに、解析者が自分の頭で考えることをやめてしまえば、ソフトウェアにより算出された決定木は 実のない単なる木で終わってしまう。実のある木にするためには解析者の力量が問われるため、品質解析 の対象とする製造プロセスの知識とともに統計に関する知識も必要である。 また、製造業における品質解析が金融や流通分野における解析業務と決定的に異なる点は、データマイ ニング結果を物理的視点から評価できる点にあると考える。すなわち、データマイニング結果を物理的に 評価することにより、データマイニングにより得られた知識の信頼性を向上させることができる。 参考文献 ( 1 )E n t e r p r i s eMin e r ソフトウヱア入門ガイド ( 2 ) データマイニング SASインスティチュートジャパン, 1998 マイケル J.Aペリー/ゴードン・ 1 )ノフ,海文堂, 1 9 9 9 . R .キンラン, TOPPAN, 1 9 9 5 ( 3 )AIによるデータ解析 J ( 4 ) 回帰分析とその応用 ウォナコット,現代数学社, 1 9 9 8 ‑2: : l t J ‑
日本 S A Sユーザー会 (SUG I-~) ニューラルネットワークモデルによる牛乳販売量予測の検討 0高橋幸一 石川征郎 森永乳業株式会社 販売業務部製品企画室 A NEWRALNETWORKMODELFORMILKSALESFORECASTING. K o u i c h iTakahashi、YukuoI s h i k a w a i l kI n d u s t r yCO.,LTD. ProductsP l a n n i n g0何 ce、 MorinagaM 要旨 日本全国のスーパー 180庖舗で 1996年 1月 1白から 1998年 12月 31白迄に販売された 牛乳の POSデータ(約 20万件)に、商圏データ及び気象データ並びに主要経済統計データ を加味して、ある日ある庖舗である牛乳の販売量を予測するニューラルネットワークモデルを 検討した。 キーワード: E n t e r p r i s eMiner ソフトウェア、 ニューラルネットワーク、 予測 1 . はじめに 牛乳は、価格変動による販売註変化が顕著で、日次に配荷され、小売業者でふはバイヤーの業務 1リ JI 1の販売量)の予測値を得ることは自らの業務遂行上非常に重要で において、日次の販売量 ( ある c 小売業を業態別にみると、対而販売中心の小規模販売広の減少及びスーパーマーケット、 cv Sなど、のセルフサービス府の上自力1 I、並びに売場面積の拡大傾向が続いており、生活者は C V S、 G: v rS (GeneralMerchandiseStore)、 SM (SuperMarket) で牛乳を購入する機会が上回加し ている。 ほとんど、の小売業で、は、何が、いつ、どれだけ売れたかというデータを簡単に取り込める販売 時点管理システム、いわゆる P0 S (Point OfSales) システムを導入している c 商品には、匡l よれ、商 IIJh のメーカー名、 B'~ r I ' u 1コードからなるバーコード ( JA Nコード)が付加されており、こ の JAN コードを POS のレジスターで読み取り、p,'~II''''{llIí 栴をストア・コントローラー・コンピ ‑235‑
ュータから受け取り、販売情報として菩積している この販売情報を活用して売れ筋商品を見出 し、適切な仕入れ(在庫)計画を作成することができるつ 一方、販売量を予測する場合は、その庖舗の商圏内の人口及び世帯数などから潜在需要を測定 占舗の立地条件によって売上高のグノレーープ分けを行っておき、 し考慮する必要がある c そして、各 j 占舗の戦略・戦術を手本にしてレベノレアップ 同じグループ内で販売量の高い庖舗があれば、その J をしたり、新規出庖計画立案時の判断材料に使用する乙 ニューラノレネットワークはパターン認識(文字や音声の識別等)及び予測などの認知的な仕事 を最も得意とし、経済予測、制御等の分野においても実用的な応用事例が出ている 1) 本稿は、 1996年から 1998年までの日本全国のスーパー 180匝舗における!古別、日別、 ] A Nコード別の牛乳の POSデータ及びJ 占舗属性(商圏)デー夕、並びに気象データ及び経済 統計データを用いて、ある庖舗での翌日のある牛乳の販売量を予測するニューラルネットワーク モデルを検討することを目的とした。 2 . 検討に用いたデータ 1996年 1月 1日から 1998年 12月 3 1日までの、日本全国のスーパー(売場面積 10 0 0n i以上の G M S及び SM) 180庖舗の主要 4品目の 1L紙ノ fック牛乳販売量 (POS) デ ータ及び庖舗属性 (1km~ 2km商圏)データは、社会調査研究所から提供を受けた。気象デ ータは気象庁のアメダスデータから、気温と降水量を使用し、経済統計データは日本銀行調査統 計局の 1999主要経済・金融データから、公定歩合、株式売買高(東証 1部 1日平均)、生産 指数(平成 7年 平 均 =100)、有効求人倍率、所定労働時間、経常収支、消費者物価指数(生 鮮食品)を使用し、合計で 90変数(表1.表 2)、 3813オブザベーションを検討に用いた。 データは、祭日と連休前は 0, 1 の 2 値データとし、これ以外は 0~1 の値となるように最大 値で除するなどの変換をして使用した c 3 . ニューラルネットワークモデル ニューラルネットワークモデ ルの検討には、株式会社 S A Sインスティチュートジャパンの EnterpriseMiner ,Ver.3.0(Eng.) を用いて、ステップワイズ変数選択の後、庖舗所在地域、月、 日、曜日の変数を加えて入力データとして、 A社の牛乳販売量をターゲットデータとして、学習 用 (40%)、評価用 (30%)、テスト用 (30%)にランダムに分割し、 SumofSquaredErrors を評価基準に、学習回数を 100固として、試行錯誤的方法で、隠れ層及び、ニューロン数を決定し たc さらに、決定されたモデルの予測精度を、ランダムに 4 0 %を抽出したデータセットを作成 して評価した c ‑236‑
表 1 データ内容(1) 12) 1.月 ( 26. 35~~i9 歳(男) 5 1. 2人世帯 2 . 日 (31) 27. 35~39 歳(友) 52. 3人世帯 1 歪日 (7) 3 .1 28. 40~44 歳(男) 53. 4人 世 帯 4. 祭 日 (2) 39 . 40~44 歳(女) 54. 5人世帯 5 . 連休前 (2) 30. 45~49 歳(男) 55. 6人世帯 6 . 応舗所在地域 (9) 3 1. 45~49 歳(女) 56. 7人 以 上 世 帯 7 . 来底客数 32 . 50~54 歳(男) 57. 世 帯 総 数 8. 気温(日平均) 33. 50~54 歳(女) 58. 一 般 世 帯 数 9 . 降水量(日総量) 34. 55~59 歳(男) 59. 核 家 族 世 帯 数 1O. 人口(男) 35 . 55~59 歳(女) 60. 持 ち 家 世 帯 数 11 . 人口(女) 36. 60~64 歳(男) 61 . 一戸建て世帯数 12 . O~4 歳(男) 37 . 60~64 歳(女) 62. 昼間人口 13 . O~4 歳(女) 38. 65~69 歳(男) 63. 夜間人口 14. 5~9 歳(男) 39 . 65~69 歳(女) 64. 第 1次産業就業者数 15 . 5~9 歳(女) 40. 70~79 歳(男) 65. 第 2次産業就業者数 16 . 10~ 14歳(男) 4 1. 66. 第 3次産業就業者数 17 10~ 14歳(女) 42. 80~84 歳(男) 67. 就 業 者 総 数 18. 15~ 19歳(男) 43. 80~84 歳(女) 68. 人 口 ( 平 成 7年) 19 . 15~ 19歳(女) 44. 85歳以上(男) 69. 人 口 ( 平 成 2年) 20. 2O~ 24歳(男) 45. 85歳以上(女) 70. 小 売 業 年 問 販 売 額 21 . 20~24 歳(女) 46. o~ 14歳 71 . 第一種大型小売底数 22. 25~29 歳(男) 47. 15~ 64歳 72. 第二種大型小売底数 23. 25~29 歳(女) 48. 65歳以上 73. 人口集中地区人口比 24. 30~34 歳(男) 49. 高齢単身世帯 74. 所得格差(全国 1 0 0 ) 25. 30~34 歳(女) 50. 1人世帯 75. 預貯金残高(百万円) 表 2 データ内容 70~79 歳(女) l (2) 76. 9 i年住民基本台帳人口 81 77. 事業所総従業員数 82. 生産指数(Hi平均二 1 0 0 ) 87. 経 常 収 支 78. 総 事 業 所 数 83. 可処分所得(円) 88. 消費者物価指数{生鮮品) 株売買高{東証 1配!日平均) 86 所定労働時間 79 . 乗用自動車保有台数 84. 消費者物価指数 (H7=100 ) 89 . A社牛乳販売数量 80. 公定歩合(年利%) 90. B牡牛乳販売価格 85. 有効求人倍率 ‑237‑
E MWorkspace: Neural Netwロrk N e u r a lNetwork Optimizationp l o t : 日目 321DEE‑E54321DE 目 7E 444411133323132222 日日 E ﹁﹁ Q﹁ 日目日目 H 日目日日目日目日日目日日目日目日目 ︒H D E EE 1E 1E 1E 1E EE E E EHEEEEE E D H E r r o rf u n c t i o n s byI t e r a t i o n 1日 2D 3日 4日 50 BO Iter0 1i cn nI ln Ler Troin i n l l '/allda¥ion ‑238 1 0 日 目 日 目 1日 日
4 . 結果 4 . 1 入力変数の選択 Entel'p l ' i s eMinel'( E n g . ) のステッブワイズ変数選択の結巣、表 3に ' 1と す I: 3変数が選られた z 表3 変数選択結果 6 . 5人世併 11 人 1集中地区人口比 2 . 気温(日平均) 7. 80~84 歳(男) 12 . 有効求人倍率 3 .1 1 M日 8 . 20~24 歳(女) 1~:l. 所定労働時間 4 . B社牛乳販売価格 9 . 第ー南大型小売 f 百数 来庇客数 1O . 第二極大型小売応数 5 . 核家族世帯数 t,: g : 。 被家族世帯とは、夫婦のみ、夫婦+子供、片親+子供で情成される U 000n f以上(ただし、政令指定都市は 6 0 0 0n f以上J の小売応。 第ー極大型小売庖とは、 3 第二陣大型小売市とは、 5 0 0ば以上で、第一純大型小売出に満たなし、小売J 占 。 1kn f当たり約 5 0 0 0人)に住む人口が総人口に 人口集中地区人口比とは、人口集中地区 ( 含まれる割合c 4 .2 隠れ層及びニューロン数の選定 ステップワイズ変数選択の後、応t; i l所 在 地J 或、月、日、 1 1 従1 = 1の変数を } J I Iえて入力データとし、 A 社の牛乳販売量をターゲットデータとして、隠れ層及び、ニューーロン数の異なる種々のニューラルネッ トワークモデルを作成して、データを学習用 (40%)、評価周 (30%)、テスト用 (30%) にラ fSquaredE r r o r s( 表4 ) から、隠れ層 ンダムに分割し、学習回数を 100固として得られた Sumo の数を 2、第 1隠れ層のニューロン数を 13側、第 2隠れ層のニューロン数を 7個とするモデルを選 定した。 fS q u a r e dE r r o r s 表 4 閣れ層のニューロン数とテストデータの Sumo Sumo fSquaredEl'l'o r s ニューロン数 第]隠れ層 第 2隠れ J o : ' i 10 2 . 98 11 2 . 90 12 3 . 10 13 2 . 89 14 2, 98 1 3 5 2 . 86 1 3 6 2 . 85 1 3 7 2 . 82 ‑239‑
4 . 3予測誤差 選定されたニューラルネットワークモデルに対して、ランダムに 40% ( 1 525O b s . ) を抽 J I 販売最との差の絶対値の平均本数でみ 出したデータセットを適応させた予測精度を、実販売量と['iJl ると、 15本であった c 180 160 140 120 100 80 60 40 20 。 図 1 実販売数量と予測数量の比較例 5 .考察 1996年 1月 1日から 1998年 12月 3 1日までの、日本全国のスーパー(売場面積 10 o0r r f以上の GMS及 び SM) 180庖舗の主要 4品目の牛乳販売量 ( P0S ) データ及び庖 舗属性 (1km~ 2km商問)データ並びに、気象デ』タ(気温と降水量)及び経済統計データ (公定歩合、株式売買高、生産指数、有効求人倍率、所定労働時間、経常収支、消費者物価指数) を使用し、合計で 9 0変数、 38 13オブザベーションのデータセットを用いて、ある庖舗で ある日の A社の牛乳販売量を予測するニューラルネットワークモデルを検討し、入力層として、 庖舗所在地域、予測したい月、目、曜日、来庖客数、 5人世帯数、人口集中地区人口比、気温、 80~84 歳の男性数、有効求人倍率、 20~24 歳の女性数、所定労働時間、 B 社牛乳販売 価格、第一種大型小売庖数、核家族世帯数、第二種大型小売庖数の 16変数を用い、二つの隠 れ層(それぞれ 13個と 7伺のニューロンで構成される)を持つ多照パーセプ卜ロンモデルを 得た c ‑ 2 4 0一
En七erprise Mユner (Eng.) 図 2 ニューラルネットワークモデル ‑241‑
モデール t 夜祭I I 寺のテストデータ (:30%ランダム.J11 1 U ¥ ) での Sumo fSqua1'edE l ・ 1 '01 'S は 2 . 82で 、 Iデータ (40%ランダム t l l l il L)での実販売最と予測販売抗との差の絶対値の平均 モデル回定後の評I! 本数は 1 54 ,;で、あった J 牛乳の W i売量に影特を与える要因として、 r l J i ' J rI き、IlMf l、 天 候 (i f f i t度)があることは経験的に j ; ! 1ら 怖、曜日、気 n ; l.が有意となっていた。しかし、今 れており、今回の検討結果においても B社の!似売I!iiI 回取りヒげた 4 社の牛乳について、すべてfJi 売している庖舗はほとんどなく、 A 社の牛乳販売 j 古舗を 基準にした場合に、データのサンプル数を多くとるためには B社の牛乳に検討対象を限定せざるをえ なかったっ今回の検討では、商問内の 80~84 歳の男性数、 20~24 歳の女性数が有立で、あった が、全国牛乳普及協会の牛乳乳製品の消作動 I [ I Jに関する調査によると、性年齢日J I 1人 1日当たりの 平均牛乳飲川量は 10代の男女がきわだって高く、 30代の女性も高くなっており、飲用量の内訳を みると、 70%が普通牛乳、 18%が低!I日 J J ) j 乳 、 12%が栄養強化牛乳となっている 2)。 今回の検討は、費やせる時間的制約の関係から、変数選択において、決定木及びコホーネンモデル などのアプローチも検討できなかったため、十分な 1今味を行ったとはいえない。さらに、マルチ出力 モデル及び時系列モデルの検討ができなかったことは、今後に大きな課題を残している。 今回は、 A社の牛乳販売量予測について、小売業の 1庖舗の潜在購買力(潜在需要)を商圏データ という形で加味し、さらに、経済統計データを検討対象に加えて検討した SCM及 び GISの有効 性を高めるためにも、より精度の高い予測モデルの確立が急務である c なお、本研究は日本科学技術連盟・多変量解析研究会において研究したテーマで、ある。 今回の検討では、株式会社社会調査研究所の保有する P O Sデータをご好意により使用させていた だいた。本研究の主旨をご理解し、ただき貴重なデータを快く提供していただいた株式会社社会調査研 n t e r p r i s e Miner , 究所調査事業本部橋本氏及びニューラルネットワークモデルの検討に、 E V e r . 3 . 0 ( E n g . ) の使用環境を提供していただいた株式会社 SASインスティチュートジャパンプロ 7エ ツ ショナ叶‑t"^本部の中西氏、並びに、本検討過程において貴重なご教示と示唆をいただきました(株) 日経リサーチの鈴木氏にこの場を借りて感謝申し上げます。 参考文献 1) BahmanKermanshahi:ニューラルネットワークの設計と応用.株式会社昭晃堂. p5, 1999. 2) Researchonmilk&d a i r yp r o d u c t sconsumption1999:社団法人全国牛乳普及協会. p7.1999. ‑242‑
日本 S A Sユーザー会 (SUG I-~)
POSデータのデータマイニング
鈴木督久,小宮葉子
株式会社日経リサーチ
データベース局データベース第二部
DataM
iningonPOSScannerData
T
o
k
u
h
i
s
aS
u
z
u
k
i,YokoKomiya
.C
I
‑
IJNC
DatabaseD
i
v
i
s
i
o
n, NIKKEIRESEAH
,
要旨
POSデータに対するデータマイニングの事例として,ニューラルネットワークモデルに
よる牛乳の翌日販売量を予測するモデル構成を紹介する.届舗別の 1
2ヶ月分の日次データを
モ デ ル の 推 定 (t
r
a
i
n
i
n
g
) と交差妥当化 (
v
a
l
i
d
a
t
i
o
n
) に使い,モデルの評{I1
i
l
は 1
3ヶ月日以
降のデータで検証 (
1
肘 t
) する.予測モデルは lケ J
J
ごとに見直し,新しい 12ヶ月分のデー
タで再構成した新しいモデルへと毎月更新しながら運用することを前提とする.地域全体の
牛乳販売量は庖舗別モデルの予測伯を杭み仁げる.
キーワード:
データマイニング,ニューラルネットワーク, POS,牛乳
1 はじめに
,
スーパーマーケット等の坑 l
駒山て、販売する牛乳パックは,豆腐などと I
l
i
J岐に
1
1
1配品」と
n
rばれ,新鮮なうちに売り切ることが出まれる. J
l
Jl限を過ぎた残存分は牛乳メーカーの引失
となるので「明日の牛乳販売 I
T
(
J をj
E(t'{r[に予測することは引侃に直結する重要課題である.
1'
,
.
'
;
1L
版売景を予測するモデルを構
この諜題を解決するために POSデータを使ってま!日の '
成することを試みる. E
n
t
e
l
下r
i
s
pMin円ソフトウエアのニューラルネットを使川した.
2 分析データ
日本経済新聞社の P0S
.
t
i
1
j報サービス INEEDS‑SCANJ から分析川にげ n
r
S
[
胡の 5
1
舗を選 1
1
¥
し
,
1
1
;
川1 ~)訓
ω)~
川
D 付 f々{ゴ 1 円
J
J
‑ I什
1 1~1~ο)~ο
ω川
似
)~
iο) イ午!ド: 日
1
1川
J
J:~川川
川
H01川
l
までの 2
以
却
oケ「日]分の 牛
F│
ド
‑
乳
!
版
以5
子
完
2
s
己デ一夕を
日
i
i
兄り山した'‑ヨ生
i
主ごデ一夕は I
向
'
1
V
"
U
仙
向
向
払
.
、
弘
h
J
i
l
川
J
[
【
243‑
アがほぼ 9割以上なので, 1リットルパック牛乳だけを分析対象とした. 目的変数は販売本数とする.分析目的によって特定商品(ブランド)の予測をしたい場合 もあるが,ここでは庖舗全体の販売本数を予測する.従って lオプザベーションは 1日分の 販売データである.販売本数の四分位範囲1.5倍以上を外れ値として推定の際に除外した. 販 予測変数としては「曜日」のほか, 3目前までの「販売個数(庖舗全体と上位 4商品)Jr 売価格(上位 4商品 )J r 来庖客数 J r 降水量 J r 日照時間 J . 当日および 3目前までの「不快指 数 Jr 最高気温 J r 最低気温 J r 平均気温 Jr 湿度 J r 天気」を使った.天気と曜日は名義尺度な ので 2値変数とすると合計 7 5変数となる. 3 . 予測モデル モデル構成用データは 1 2ヶ月分とし,推定用と交差妥当化用データの配分は r6:4Jか ら r7 :3J の近傍で試行錯誤した.予測モデルを 1ヶ月間運用する前提なので検証用デー タは 1 3ヶ月日の 1月分を使ってモデルの評価をした. 1999 年 4 月 ~ll 月の 8 ヶ月分を検証 に使えるので, 1ヶ月ずつずらして 8回モデル構成をして検討した. ネットワーク・トポロジーは 4層モデルとし第 1層(入力層ニ予測変数)のユニット数が 7 5,第 4層(出力層=目的変数)は 1である.隠れ層の第 2層のユニット数は 3 0 : : ! : :1O程度, 5 : : ! : :1 0程度の組み合わせを中心に試行錯誤した.ユニット内の変換関数はデフォル 第 3層は 1 トの H y p e r b o l i cTangentである.間隔尺度の変数はデフォルトのまま標準化した. 最初の庖舗で得たネットワーク・トポロジーを 2[. 占目のスタート・モデルとして利用しな がら若干の試行錯誤を加えてモデル評価をしつつ, 5 庖 ~Ifi ごとの予~Jl!J モデルを構成した. 分析結果は当日,プレゼンテーションする. I N T R V L 参考文献 豊川秀樹 (2000) データマイニングとニューラルネット.日本科学技術Jili.~・多変量解析研究 会 7月例会講演資料. ‑244
マイニング・ツールの比較評価と 選択のポイント 小野 潔 株式会社三和銀行リテール統括部 HowDoYouFindE v a l u a t i o nofMiningT o o l s ? Ki yoshiOno RetailBankingPlanning&AdministrationDepartment, TheSanwaBa n . ] r 要旨 マイニング・ツールは著しく作業効率を改善するため、ユーザーのモデル開発 には必要不可欠である。多くのベンダーから機能も値段も異なるツールが販売さ れている。そこで主要ベンダー 8社のツールを比較評価し、ツールの選択基準に ついて考察した。現状のマイニング・ツールは、重要な点で人間の判断が必要で 優れた分析者J r 使いやすいツール」が揃って、 ある。そのため「正しいデータ J r 初めてマイニングの成功に結びっく。 キーワード: データマイニング マイニング・ツール SAS~Enterprise Miner 回 Dプロセス アンサンプルモデル 1 . マイニング・ツールの比較 データマイニングの分析では、マイニング・ツールと呼ばれる専用のソフトウェアを使用することが多 い。マイニング・ツールを使うと作業効率が 3~5 倍になるため、金融機関のデータマイニングには欠かせな い。現在、日本では多くのマイニング・ツールが販売されているが、ベンダーごとに機能や分析手法の種類 が異なっているおり、すべてを兼ね備えた製品はない。 マイニング・ツールの選択を間違えると、無用な時間と多額の費用を費やすことになる。しかし、マイ ニング・ツール機能や分析手法を比較したレポートは少ないため、ユーザーは単に「価格」や「分析手法の 数」でツールを選択するケースが多い。そこで本報告書は、ユーザーの見地からベンダー 8社のツールを比 較評価し、ツールの選択基準を考察する。ただしハードに強く依存するような処理速度や大量データについ ては対象としていない。 2 . KDDプロセスとマイニング・ツール マイニング・ツールの選択基準を考える上で、データマイニングのプロセスを理解することは重要であ w l e d g eD i s c o v e r yi nD a t a b a s e s、データベースからの知識 る。データマイニングは、 KDDプロセス(Kno s e l e c t i o n )、 ② 前 処 理 ( pr e p r o c e s s i n g )、 ③ 変 形 発見)から成り立つ。 KDD プ ロ セ ス は 、 ① 選 択 ( ( t r a n s f o r m a t i o n )、④データマイニング ( d a t am i n i n g )、⑤解釈・評価 ( i n t e r p r e t a t i o n/e v a l u a t i o n )、⑥ル ール生成 ( r u l e ) から成り立つ。つまり KDD プロセスは分析だけはなく、マイニングの知識発見の一連作 業を指す。マイニング・ツールは、 KDDプロセスをモデルに実装したものである。 分析では、 KDD プロセスを一度、実行するだけで終了するわけでなく、これらのプロセスを繰り返す ことで、精度の高い知識を生成させる。マイニング・ツールは、モデルのスクラップ&ビルドをプログラム 2 4 5 ‑
レスで実現した。マイニング・ツールの出現は、 KDDプロセスを一般ユーザーへ開放したと言える。 データマイニングのプロセスの中で、一番時間と労力を要する部分は分析ではなく、データクリーニン グを含む前処理・変形・評価プロセスである。実用性の高いツールは、これらのプロセスを容易に扱える機 能が備わっている。複数のプロセスをサポートするツールは、マルチ・タスク・ツールと呼ばれる。このツ ールは、多種類の分類手法、視覚的手法、データベース操作機能を備え、同時に専用のコマンド、視覚化プ ログラミング言語を含み、統一的なインターフェースを提供している。 ① D プロセスの重要となる意志決定機能が充分でないため、マイニン 現在のマイニング・ツールは、 I グ・ツールを購入しただけでは、マイニングの成功と結びつかない。なぜならマイニング・ツールは KDD プロセスを繰り返す度に人の判断が必要であるため、単純に最適モデルを算出できないからである。データ ベースとツールを揃えれば、データマイニングに成功すると考えている人もいるが、それほど簡単ではない。 最近は、クロスバリデーション、パギング、ブーステイング、ブートストラップ、ハイブリッドモデル をプログラムレスで処理できるマイニング・ツールが現われてきた。しかし、複雑な処理はやはりユーザー がプログラムを書く必要がある。 3 . ツールの種類とベンダー 米国 I では、 1995~96 年頃から KDD の複数プロセスをサポートするマルチ・タスク・ツールの販売が 始まった。それ以前の多くのツールは、単独の分析手法のみをサポートするシングル・タスク・ツールにす ぎなかった。日本では、 1997年頃から日本語対応のツールが販売され始め、現在では約 20種類のマイニン グ・ツールが販売されている。今回の調査対象は、圏内で販売されている主要 8 社のマルチ・タスク・ツー 。 ) ルである(表 1 表 1 マイニング・ツールの種類(五十音順) 販売ベンダー 本社 会 社 日本 メ 力 一 東芝 日本ユニシス 米国 メー力一 日本 IBM 2 米国 メーカー 日本 SGI 米国 メーカー 目立製作所 日本 メー力一 富士通 日本 メー力一 SA S 3 S PS S 4 米国 統計ソフト 米国 統計ソフト 製品名 Ver 発売日 MiningPro21(開発は日本) 分析テンプレート I n t e l l i g e n tMiner 6 . 1 9 9 . 1 0 マイーング・エンジン R e l a t i o n s h i pMarketing 1 .0 9 9 . 1 0 マイニング・ナビ 99.04 ルール抽出機能付きーユーロ 9 9 . 0 4 ファジィ決定木 9 9 . 1 0 マイーング・エンジン 9 9 . 1 0 マイニング・ナピ MineSet 3 . 0 9 9 . 0 7 マイーング・エンジン DATAFRONT 2 . 0 1 0 0 . 0 3 マイーング・エンジン SymfoWAREP a r a l l e lM i n i n gServer 4 . 0 SymfoWAREVisualMiner 4 . 0 9 9 . 1 2 マイーング・エンジン 9 9 . 1 2 平行座標ソフト NEUROSIM/L 2 . 0 9 9 . 1 2 ニューラルネットワーク E n t e r p r i s eMiner 2 . 0 2 9 8 . 0 7 マイーング・エンジン Clementine 5 . 2 9 9 . 0 5 マイニング・エンジン AnswerTree N e u r a lConnection 2 . 1 2 . 0 SmartScore 1 .0 決定木 ニューラルネットワーク 9 9 . 0 6 開発支援ツール 97 95 ( i { i f J 考 ) 2000年 7月 24日現在の調査結果 1 米国のマイニング・ツールの情報は、次の Webサイトを参照。 ht . tp :l ! www.krlllU~~台 Ls ∞ m 2 日 本 IBMの正式名称は、日本アイ・ビー・エムである。 3 機能 1 .0 1 .0 1 .0 1 .0 KINOsuite‑PR KINOsuite‑IDTF SASの正式名称、は、 SASインスティチュートジャパンである。 4 SPSSの正式名称は、エス・ピー・エス・エスである。 246
ユーザー 1 l ! J はマイニングの専門家が不足しているため、ベンダーが分析から運用システムの構築までを 請 け 負 う こ と が 多 い 。 そ の た め 昨 年 か ら 各 ベ ン ダ ー は 、 デ ー タ マ イ ニ ン グ の コ ン サ ル タ ン ト 事 業5を積極的 に展開している。特に日本ベンダーは、製品を単独に販売するよりも、システム・ソリューションの過程で 自社ツールを使った分析とシステム開発を行なうケースが多い。 4 . 分析手法の種類 データマイニングの分析手法は、主要なものでも 30~50 個以上あり、改良型や組み合わせ型を加える と、無数の手法が存在する。注意するボイントは同じ分析手法でもその背景となる分析のアルゴリズムは 1 種類ではなく、バリエーションが数種類存在する点である。表 2はマイニング・ツールに搭載されている手 法である。 表2 .分 析 手 法 の 種 類 分類 東 芝 日本 分析手法 決定木 C4.5 決定木 C5.0 決定木 CART 決定木 CHAID 決定木 QUEST 決定木 PseudoD e c i t i o nTree 決定木 Option Tree 決定木 ファジ一決定木 未定 決定木 領域分割決定木 決定木 その他機能拡張決定木 ニューロ Back Propagation ニュー口 R a d i c a lB a s i sF u n c t i o n ニューロ ペイジアン・ネットワーク ウ フ ス' ) 1 )ン ウ コホーネン・ネットワーク 1 ヴ フ ス9 ウ )ン K‑means法 1 ヴ フ ス9 ゲ )ン Ward法 1 ウ ラ ス9 ゲ )ン コンドルセの手法 ウ ラ ス9 リング 概念クラスタリング アソシエーション 順序アソシエーション アソシエーション 類似時系列パターン ルール抽出 ニューフルネットワ一久 MLP ルール抽出 l レ‑)レインダクション 最 小 近 傍 法 MBR(記憶ベース推論) ロジスァイツク回帰分析 丁キストマインゲ ァキストマイニング 丁キストマインク.ConceptBaseSearch (備考 )0 …機能有りム…別売り 次期 ム 次期 次期 ム 次期 次期 p r i o r i アソシエーション A u l eI n d u c t i o n アソシエーション Generalized R 回帰分析 日本 日本 目 立 富士通 SAS SPSS IBM SGI 。 。。 。 。。。 。 。。 。 。 。 。 。 。。。 。。 。 。 。 。 。 。。。 。。 。 。。。 。。。 。 。 。。 。 。 。 。。。 。。 ユニシス 次期 次期 次期 ム ム ム ム ム 次期…次期バージョンで対応予定 未定 ム 次期 ム 未定…開発中 …該当機能無し 5 マイニングのコンサルタントは、各ベンダーによって大きくノウハウや技量が違う。もし 2つ以上の分析案件があれ ば別々のコンサルタントに依頼し、その実力とノウハウを比較すると良い。 2~7
金融や流通、製造など業種が異なれば、求められる分析手法が違うので、ユーザーは目的に応じて手法 を選択すると良い。データマイニングでよく使われる分析手法は、「決定木 Ji ニューラルネットワーク Ji ア ソシエーション J i クラスタリング J iロジスティック回帰」である。 決定木は分析対象をクラス分類し、 IF‑THEN 形式のルールに表すことができるため、ユーザーに理解 しやすい。また大量データを高速に処理できるため、分析によく利用される。決定木はカテゴリー値の分析 が得意であるが、数値とカテゴリー値が混在データにも適用できる。応用分野は幅広い。ニューラルネット ワークは因果関係が存在する事象全般に使える。数値の分析データに強いが、説明変数が多いと学習時間が 長くなる。財務指標を使った企業格付に使われる。アソシエーション・ルールはトランザクションデータか ら同時におこるアイテムを探り当てる。例えば購入商品の組合せ分析に使われる。米国小売業のウォルマー トが発見した「ビールとおむつを同時に購入する顧客が多い」という逸話は、この手法を適用した結果であ る。クラスタリングは顧客をクラス分類することができるが、決定木ほど明確に顧客分類はできない。ロジ スティック回帰分析は単回帰分析と違って、目的変数がカテゴリ値でも回帰分析できる。決定木と同様に適 用分野は幅広い。 (M emorv‑BasedReasonine:、記憶ベース推 最近は新しい分析手法を搭載したツールが出てきた。 MBR 塾l は、蓄積データから目標データと類似したデータを探し出し、重み付き多数決で未知データのクラスを 決定する。コホーネン・ネットワークは、クラスタリング分析に使われる。従来のクラスタリング分析と異 a d i c a lB a s i sFunctionNetworksは亘坦孟 なり、巨大クラスターが発生しないので米国ではよく使われる。 R PrODae ‑ a t i o n 法より高速でニューラルネットワークを解ける。テキスト・マイニングは既にコールセンター のオンラインマニュアル探索に使われている。最近では eコマースの発達により、 Web サイトやログファ イルの解析への応用が研究されている。 ConceDtBaseSearchはナレッジマネジメントに使われる技術で、 ジャストシステムがライセンスを供給している。 5 . マイニング・ツールの機能比較 分析手法の数は、ツールの選択基準の重要な一つであるが、併せてツールの機能も考慮しなければならな い。表 3は主観的に各ツールの機能を比較したものである。「並列処理」は、流通業のバスケット分析、小 売業における商品の日次処理、クレジット・カードの不正使用探索、銀行口座の異常取引分析などに威力を 発揮する。「リフト図」はモデルの精度を図示したものである。多数のモデルを比較するときに使われる。 iKDD プロセスの可視化」は、 KDD フロセスをいかにわかりやすく表示できるかどうかである。「プロセ rXLM言語変換」は、完成したモデル・プロセスを C言語や XLM言語に変換機能である。見洛と スの C o しはならない点は、「定期セミナー」、「専門の質問応答セクション」がある。日本の企業では人事口一テン ションが多いため、後任者の教育にベンダーのサポートが必要不可欠である。 5 0 0万円以上と幅が広い。この価格差は、機能性や操作性、ヘ マイニング・ツールの価格は 30万円'"1 ルプデスクや定期セミナーの有無、保守体制といった要因から生じる。確かに価格が高い製品には、それな りの理由が存在する。ベンターによっては機能や分析手法を分割して販売するケースもあり、ただ単にツー ル本体の価格を比較することは意味がない。またユーザー数や CPU の種類によってライセンス料が違う。 このように価格はユーザーの目的やコンビュータ環境によって大きく変わるため、正確な価格はベンダーヘ 問い合わせて欲しい。 ツールの中にはデータ項目やレコード数に制限があったり、大量データになると極端に処理速度が遅く なる製品がある。よって大容量のデータを分析する場合は、購入前にパフォーマンスを確かめる必要がある。 また商品のアソシエーションは特に長い処浬時間を要するため、サーバーとの並列処理まで視野に入れる必 ‑248‑
要がある。ただ並列処理はハードや 08に制限があったり、他ソフトが必要になるケースが多いので、ベン ダーに確認する必要がある。 表3 . 機能一覧 東芝 日本 。 。 日本 IBM 。 。 。 次期 。 。 ユ ニ シ ス 並列処理 UNIX版 NT版 L 1NUX版 メインフレーム版 リフト図(モデル的中率の比較) 説明属性の選択機能 r平行座標 品度な 3次冗散布図 o KDDプロセスの可視化 費用を考慮した収益計算機能 初心者向けのナピ、ゲータ機能 プロセスの C o rXLM冨語変換 レポート機能 日本語のマニュアル本 定期セミナーの開催 専門の質問応答セクション 価格 。 。 。 。 。 未定 。 。 ム ム 未定 。 ム B ム 。 。 。 。 。 。 。 ム A ム C ム ム ム 。 。 。 ム 。 。 未定 未定 。 。 。 。 。 。 。 。 。 。 。 。 次期 ム B ム ム A ム A 次期 。 。 。 。 C 。 。 。 。 。 B O…十分な機能が備わっている ム…機能が備わっている 次期…次期パージョン対応予定 A…300万円未満 。 。 。 。 。 次期 (備考)(Q)…優れた機能が備わっている 。…対応可能 目立 富士通 SAS SPSS 日本 SGI 。 B … 300~800 万円 未定…開発中 …該当機能なし C…800万円以上 6 . 各社のマイニング・ツールの特徴(五十音順) 東芝は、他社にない独創的なアルゴリズムを採用している。ツールは「ルール抽出機能付きニューラル ネットワーク」と「ファジィ決定木」からなる。従来のニューラルネットワークはブラックボックスであっ たが、このツールはネットワークの重みから日常の言葉でルールを抽出できる。ファジィ決定木は、連続的 な数値であってもファジィ理論を用いることにより決定木を作ることができる。このツールは他社のツール と組み合せて使用すれば、大きな効果が得られる。 ユーザーがツールの多機能をすべて使っているわけではない。日本ユニシスは必要な機能と分析手法を 限定し、製品価格を下げている。対象とする多くの利用者が初心者であるため、このツールは OLAPや簡 単なマイニング・ナビゲータ機能を取り入れている。製品は自社開発のスプレッド・シードを中心に分析を 2 0 0 0年 1 0 月予定)では、「クラスタリング分析の強化」と「マイニングの結 進めていく。次期パージョン ( 果得られたルールを DB上の全データに適用する機能」を追加する。 E杢 IB旦は分析手法が豊富である。特にアソシエーション分析が充実しており、商品の相関関係図がと てもわかりやすい。アルゴリズムにロバスト性をもたせ、設定パラメータ数が少なくとも最適なモデルを算 R e l a t i o n s h i pMarketing) が販売された。このソ 出する。昨年、本体ツールをサポートする新しいソフト ( フトは、「リフト図」と初心者でもマイニングができるように「マイニング・ナビゲータ機能」を搭載して いる。米国では BPR (ビジネス・プロセス・リエンジニアリング)のコンサルテーションにデータマイニ ングを用いた業務モデルが使われる。日本 IBM は単なるシステム開発に留まらず、ビジネスプロダクトま 249
で提案できる。またマイニングの並列処理は、国内の実績がある。 データマイニングの分析手法は不完全なことが多く、最終的には外れ値や特殊パターンを目で探索するこ とが重要になる。そのため高度なグラフィック技術は、これからのデータマイニングに不可欠な技術である。 日本 SGI はグラフィックス分野で、他社が追随できないほどの高い技術を有している。 SGI は、データの 密度を様々な色彩や形状の変化を利用して 7次元まで図示できる。この表現方法は、人間の視覚によるパタ ーン探索を大いに補助してくれる。分析結果も繊細なグラフィックスで表示し、ドリルダウンにより細かい データを見ることができる。 LINUX対応版も開発中である。米国では、 SASのツールと組み合せて使用し、 結果を SGIのツールでプレゼンテーションするユーザーもいる。 日立製作所は、独自の「データのカテゴリー化によるルール抽出」と、新しいマイニング手法である MBR を採用している。ルール抽出は、どのデータをいくつのカテゴリに区切るかを指定する作業は難しいが、業 務の専門家が使用すれば効率よく解を探索できる。またこのツールは、他のアフリケーションや OLAP と の連携性が良い。 マイニングでは、取り扱うデータ項目が多いため、各ベンダーはデータの表示方法を工夫している。富 士通は、一目でデータベースの全体を把握できる分布図(平行座標)を開発した。平行座標上でクラスタリ ングした後に、決定木やニューラルネットワークを連続して適用し、結果も表示できる。分析手法は数多く x c e lとの連動性が高 揃っているが、その中で MBRを採用している点が注目できる。 OLAPの分析結果と E いため、一般ユーザーになじみやすい。既に MBRを使った分析やシステム構築のコンサルタントを行なっ ており、 MBRのノウハウに関しては、他社に先行している。 SESS̲は、 C lementineとAnswer Tre eから構成され、 SPSS̲BASEとダイレクトインターフェイスで連 werTre e は自社開発の決定木であるのに対して、 C l e m e n t i n e は買収したソフト会社の 携されている。Ans 製品である。 C lementineは操作性・ DBアクセス性・ GUI表現が優れており、初心者にも習得が容易であ る。アルゴリズムの数は比較的多く、特にニューラルネットワークはコホーネンやペイジアン・ネットワー ク等の多種類のアルゴリズムを備えている。特筆するべき機能は、モデルを C言語 o rX I ¥ 在L言語に落とす機 l e m e n t i n eから IBMのツー 能が既に実現していることである。今年、 SPSSは日本 IBMと提携を結び、 C ルを利用できるようになった。ただこれを実現するには、両社のソフト・ライセンス料が必要になる。 7 .S A S / E n t e r p r i s eM i n e rモデル ツールの特徴は、 SASが提唱した SEMMAモデルを実現したことである。 SEMMAモデルは、サンプ S a m p l e )、探索 ( E x p l o r e )、加工 ( M a n i p u l a t e )、モデル化 (Mode l)、評価(Ass e s )という KDD プロ ル抽出 ( セスから成り立っている。実際にツール用いて作業をすると、一連の作業をそのモデル内で完結できるため、 作業効率が高い。 SAS は初心者でも規定値のまま分析可能だが、詳細なパラメータ設定ができるため専門家向きのチュー ニングも可能である。マイニングのプロセスを GUI表現できるので、初心者でも簡単に取り扱いやすい。 リフト図や KDD プロセスの可視化や収束条件の変更による変化を表示する機能が充実している。密度を考 慮した高度な 3次元散布図を描くことができ、特殊パターンや外れ値の発見にも利用できる。ニューラルネ ットワークは、ユニット間のリンクの追加・削除、といった構造可変型のネットワークを構築できる。大量デ ータの分析にも、多くの実績がある。 SASの大きな強みはツールが強力なだけでなく、同じ iSASシステム」の環境下でデータベースへのア クセス、統計処理、マイニングができることである。 SAS システムは、様々なフォーマットのデータを取 り込むことができるので、実務データの取り込みにすぐれた力を発揮する。短所は毎年ライセンスの更新契 一2 5 0 ‑
約が必要なため、ランニングコストが高い。その代わりに定期セミナーやユーザー会の開催や質問応答セク ションが独立しており、購入後の教育を含めたメンテナンスに安心感がある。 次期パージョン (2000年第 4半期予定)では、 MBR とコホーネン・ネットワークが新たな分析手法として 追加される。同時にモデルの精度を改善するために、パギング、ブースティングおよび、モデルのアンサンプ 席 、 MBR を混合させた混合モデル)が追 ル機能(決定木、ニューラル・ネットワーク、ロジスティック回 l 加される。このアンサンブル機能は非常に強力なモデルを構成するため、 SAS が他社ツールに比べて頭ひ とつ優位に立つことになる。ただ他社も追随することは予想されるため、今後、ユーザーは各ベンダーが発 表する新しいモデ、ルを絶えず、チェックする必要がある。 8 . 今後のツール開発の方向性 ここでは、直近のツール開発動向を考察する。 ①プロセスを C言語や XML言語に変換機能 SPSSと SAS (次期)は KDDフロセスを C言語や XML言語に変換機能がある。この機能を使 えば、従来クラアント・サーバー型でしか運用できなかったツールを、シングル・アローン型でも運 用が実現できる。つまりコンビュータにマイニング・ツールが存在しなくとも、モデルのみをスタン ドアローンで動かすことが可能になる。モデルを多数のユーザーへ配布する場合、この機能は強力な 力となる。またスタンド・アローン型はネットワークを組む必要がないので、セキュリティにコスト をかけずに済む。 ②モデル運用の開発支援ツール SPSSは昨年、インターフェース用の開発支援ツール S m a r t S c o r e の販売を開始した。運用モデ ルを更新すると、データ項目の変更が有りうる。その場合は運用インターフェースの変更を伴うこと になるが、この開発支援ツールは項目の変更を自動的にインターフェースに反映することができる。 このような機能は、モデルの実務運用にとって重要である。 ③マイニング・ナビ機能 e l a t i o n s h i p M a r k e t i n g 日本 IBMは初心者でもマイニングができるように、補助機能がついた R を完成させた。ユーザーは分析目的、変数選択、分析手法等をリストから選択するだけでマイニング ができる。この仕組のミソは、システム部門がユーザーの必要とするデータ項目を、あらかじめ用意 しているところにある。そのためトータル作業量はさほど変化しないが、エンドユーザーとシステム 部門の作業を分離することで作業効率化を計ることができる。 ④パギング但 a g g i n g )、ブーステインク寺但 o o s t i n g )、ブートストラッフ。但 o o t s t r a p ) 1997年頃から米国の学会では、パギング、ブースティングあるいはブートストラップが話題にな s e m b l e )という仮説の集合を作り、精度の改善を目指す手法であ っている。これらはアンサンプル(En v e r ‑ F i t t i n g る。今後のマイニング・ツールの標準技術になる可能性が高い。アンサンブルを用いると、 O を起こしにくい。 パギング及びブースティングは復元抽出のランダム・サンプリングで複数のモデルを作成し、投 票で最終結果を得る方法である。両者の相違は重みづけをするか否かである。ブーステイングは、前 のモデルの対して重みづけをおこなう方法であるため、直列モデルになる。それに対して、パキング は同時に行うことができるので、並列モデルになる。将来、並列コンビュータでパキングは高速化が 計れるが、ブースティングは前モデルの結果を考慮した後に重みづけを行うため、並列処理に向かな い。ブートストラップはデータの判別境目を探し出し、そのデータ毎に合わせた最適な分析手法を選 ‑2己!
択する複合モデルである。 ⑤新しい分析手法 モデルの運用分野で注目されている分析手法は MBR (記憶ベース推論)である。 MBRは高い精 度で判別でき、同時に確信度を算出できるため、決定木より使いやすい。他の手法で開発したモデル は、ある一定期間後に再構築する必要があるが、 MBRではモデルの再学習や再構築が不要である。 そのため MBR は毎年更新が必要な実務運用に向いている。ただデータ数が少ないと、精度が悪いと いう欠点をもつため、 l万件以上のホワイト&ブラックの事例データ 6を用意する必要がある。最近は 大規模なデータウェアハウスの登場によってデータ数は満たされるようになってきた。 他に注目されている手法は、ラフ集合(Ro ughS e t )がある。日本ではファジー集合 σuzzyS e t )が発 達したが、米国ではラフ集合が一般的である。残念ながら、まだ日本語を扱えるツールは販売されて いない。ニューラルネットワークでは、ペイジアン・ネットワークが欧米で盛んに研究されている。 9 . まとめ マイニング・ツールは各社各様の機能を有しており、簡単にどのマイニング・ツールが優れているとは、 断定できない。各社のツールを見ると、すべての機能や分析手法を包括しているツールは存在しない。ツー ルの選定は、ツールの分析手法や機能も重要であるが、ユーザーの目的や将来の方向、分析者の資質、運用 形態、コンサルタント能力など多方面から総合的に決定する必要がある。もし予算に余裕があれば、まず中 核になるツールを決め、不足する機能や手法を他のツールで補うと理想のツール構成になる。米国企業では、 2~3 種類のツールを同時に使用することも珍しくない。 現状のツールは正直に言って未完成品であり、重要な部分で人間の判断が必要である。つまりツールを 購入しただけでは、マイニングの成功には結び付かない。ツールの性能を最大限に発揮できるかどうかは、 優れたデータ分析者の確保に関わっている。いくら自動車が高性能であっても、性能を最大限に引き出すの は 、 ドライパーの腕前次第である。すなわち、データマイニングの成功は、第ーに良いデー夕、第二に経験 を積んだ分析者、第三に高度な機能をもっマイニング・ツールが鍋って、初めて可能となる。 実際にツールを選択には、無料セミナーや試用版を利用して、多くのツールを比較することが大切であ る。ユーザーは価格や分析手法の数のみに目を奪われてツールを決定し、あとで後悔しないようにしたい。 1 0 .あとがき この報告書を作成するにあたり、各ベンダーの開発者、および責任者にご協力して頂きました。また数 社からソフトウェアを拝借させて頂きました。改めて、ベンダーの皆様のご協力に感謝いたします。 まだ筆者は SASの次期パージョンを入手していないので、報告書と機能が相違する可能性があります。 報告書の内容と相違した場合は、お詫びいたします。 なお、本報告書は個人的見解で書かれており、所属する三和銀行の意見をあらわすものではありません。 1 1 .参考文献 ・寺野隆雄、 KDDツールの動向と課題"、人工知能学会, vo. l1 2No. 4, pp5 2 1 ‑ 5 2 1, 1 9 9 7 目 ・小里子潔、 マイニング・ツール選択のポイント"、日経情報ストラテジー, vo. l7, 1 ) 1 ). 5 6 ‑ 5 9,日経 BP社 、 2 0 0 0 . ・各社マイニング‑ツールのオンライン・ヘルプおよびマニュアル B 金融機関は、従来ブラックデータを蓄積することが少なかったため、大量のブラックデータの確保が成功の鍵となる。 ‑252一
日本 SASユ ー ザ ー 会 (SUG1‑0) 時系列データによるデータマイニング‑牛乳販売量の需要予測ー 0高 野 江 里 子 中 西 み な と ソリューション本部ソリユーションサーピ、ス部データサイエンスグループ 株式会社 SASインスティチユートジャパン OataM i n i n gt oa n a l y s i so ft i m es e r i e sdata ‑Thesystemf o rp r e d i c t i n gm i l ks a l e svolume ‑ E r i k oTakano,OataScienceGroup80S,SASI n s t i t u t eJapanL td . MinatoN a k a n i s h i,OataScienceGroup80S,SASI n s t i t u t eJapanL td . 要旨 製造業や流通業の多くの企業では、自社商品や他社競合商品の市場動向を把握する目的で卸売 り実績データを収集している。しかし、生産や物流を実際に行うラインでは経験や勘に基づいた需要 予測に留まり、実データに基づく予測を行っていないケースが意外と多い。 本稿では、牛乳販売量データを分析対象として週次で予測を行うことにより、伝統的な時系列解析 手法とデータマイニングツールを適用した場合による比較検討、需要予測システムの重要性について 示唆することを目的とする。 キーワード: E n t e r p r i s eMinerソフトウェア、 SAS/ETSソフトウェア、 SAS/INSIGHTソフトウェア o .はじめに 製造業や流通業の多くの企業では、自社商品および他社競合商品の市場動向を把握する目的で 卸売り実績データを収集している。しかし、生産や物流を実際に行うラインで、 i ま経験や勘に基づいた 需要予測に留まり、実データに基づく予測を行っていないケースが意外と多い。 近年、さまざまな業界で導入が進んでいる子ータマイニングでは、蓄積されたログデータを主な解析 対象とする。経時的に観測される時間情報を持つ時系列データもログデータのひとつである。リノフ等 が『データマイニング手法』で指摘しているように、さまざまな領域において未来を予測するために時 系列データを扱う予測手法が必要とされているものの、時系列データをそのまま解析できるデータマイ ニンゲ手法i ま少ない。 本稿では、牛乳販売量データを分析対象として週次で予測を行うことにより、伝統的な時系列解析 手法を適用した場合=データマイニングツールを適用した場合による比較検討を行うこと、企業の生産 や販売を統括する部門で需要予測システムを構築する重要性について示唆することを目的とした。 ‑253‑
↑分析対象データ 分析対象データとして、全国 180庖舗における日販の牛乳販売量 ( 1L紙パックの本数)を利用する。 主要 4大銘柄ブ、ランドに限定しているため、牛乳市場全体の約 15%に相当するデータである。製品が 生鮮品である特徴と実運用上の面から、 3年間 (JAN96・DEC98)の実績データから翌年の需要を週次 で予測することを目的とした。 時系列予測では過去の実績データに基づいた 1変量による予測を基本とする。ここではさらに精度 を高めることを目的に、牛乳販売量に関連が高いと思われる要因の絞り込みを行い、要因を付加した 多変量による予測を試みた。牛乳販売量と関連が高いと思われる要因としては、特売などの値引き効 果が最も大きいことが予想されるが、今回利用したログデータには収集されていない。利用可能な要 因項目として、庖舗情報データ(来庖客数・販売個数・販売価格)、気象データ(気温・降水量)、人口 統計・経済動向・家計調査などの約 80項目を利用した。 2 .予備解析 全国 10エリアの銘柄別シェアを図 1に示す。エリアによって銘柄シェアに大きな遣いが見られる o 2 京阪 7日日出 3 9日 邸 4 北海 東海 5 1 . 0 部 4且 9% 0 . 0 岨 0.1% 1 2 . 0 剖 5 聞東 8 0 . 2 部 1 1 .8% 0 . 1 % 7.8% 拓 4 . 6 6 九州 9 9 . 3 珂 0.7% 3 . 2 % 7 北陸 四国 日4 . 9 弼 中国 6 5 . 9 % 東北 70.9 部 1 9 . 5 % 胃 1 . 7 0 . 0 剖 1. 4 % 28.5% 1 2 . 3 弼 2 .2 % 8 4 . 5 % 0 . 0 剖 1 . 6 % 2 8 .6% 0 . 9 % 1 . 3 % 100.0% 図 1 :エリア男 1 Iの銘柄シェア 以下の分析では、 4銘柄がともに含まれている関東エリアにおける販売量データのみを対象とした。 まず、時系列解析の最初のステップとして系列の特徴を把握するためにプロット図を出力する。販売 合計量の原系列を図 2に、加法型モデルにより季節成分や不規則成分を除去したトレンド傾向成分を 図 3に示す。図 3では、消費者が直後庖舗で購入する白牛乳はこの 3年間で約 50%ほど減少した下 降トレンドを示している。 E l i 図2 : 牛乳販売量の原系列プロット :トレンド(傾向)成分 図3 ‑ 2 5 4 ト
3
.データマイニング手法
時系列データを扱うデータマイニング手法としては、 1
I
頂序パターンを解析するシーケンシャル解析が
一般的である。ここでは、要因項目を絞り込む目的のために決定木を、 1変量 ARモデルのアプローチ
の効果を評価する目的のためにニューラルネットワークを適用した。データマイニングツールとして、
E
n
t
e
r
p
r
i
s
eM
i
n
e
rソフトウェアを利用した。
3
‑
1
. 決定木
百的変数(合計販売量)に関連の高い要因だけを説明変数として利用する絞り込みを行うため変数
選択を行ったところ、説明変数は 1
6個となり寄与率は 65%であった。
ときE 臼 聖i
笠
.
C
U
1
ヨπ .
.
噂
PCP̲
y'4 ic
宅
a
l
'
CPν も 冨F可H
1'CP̲
Y
.7 mp
回
目 P]8
i
l
!
pul
FGP̲
i
"
O
mpm
守
宅
ごPー
:
:
'
1
8 出
.
put
F訂 " " 岬d
島田
データ
:
F
a
~:m
S
E
:
rAJJ2 mp
匂t
よ亘
データセ,、
J
!
N
l
三̲
0
1
I
D
P
'
U
I
.
曙性
T官~l
m
pa
包
SYDTCK I
a
p
1
l
1
戸
.
D̲nu
C
'
E i
D
p
l
l
l
.
A̲PRICE l
%
f
'
1
l
I
8̲PR
!
CE mpm
m~!p
図4
: 決定木による解析フロー
D
I
J
"
ポ
図5
:
決定木により時系列データを分析する場合、時間変化を明確に示す差や導関数を算出して時系列
イベント1
I
聞に分割するようにデータ加工を行ってツリー構築をすることが一般的な方法であると、『デー
タマイニング手法』で、リノフ等は述べている。
ここでは、販売合計量を 2分割して販売量が多い・少ない場合を決める要因を特定するルールを抽
出する目的として決定木を利用した。
モ~,レ
すべて
1
F
.
担
尾 :
ツソー J
ンヲ】テ ‑
7
.
‑
¥
. フロント
葺約
「
主
主
スコア ロヲ
一号fF4司
ー
ミ
ゴ
}警部仁 $
T
A
,
i市t:.1'j'
20
'
;
]
,
:
;
0
‑
.
,
、
!前..,可
)-~ι
i
E
亨笠
己i
一〔ずづか::門問問勺
o
。
r
:
̲
.
‑
ー
~2::E
5
二
斗
二 2333
~
(¥::;
10
8J3
J •
ムーャ:J
票白書
図6
: 決定木の結果画面
図7
: ツリーによるルール表示
決定木の結果から、牛乳の合計販売量には来庖客数及び B社の販売価格などの庖舗情報の影響
が最も起因しているルールを抽出した。このモデルを利用したアセスメントからは、正分類率 :85%、誤
分類率 :15%の結果を得た。
‑255一
3・2 . ニューラルネットワーク 『データマイニンゲ手法』および ~Neur~i N e t w o r kM o d e l i n gC o u r s eNotes~ にも記載されているが、 ニューラルネットワークでは ARモギルと同等の時系列分析を行える。 1変量および多変量モデル共に 扱うことができるが、ここでは 1変量の ARモデルを適用した。 ii! x 一斗111114 立/?で墨 二I 二I 誉u t t i p !言 。bj目 t i v e7 ' : ~~抽?J・帯刊 図8 : ニューラルネットワークの解析フロー 図9 : 誤差収束のモニタリング ARモデルとは、過去の時点から未来の時点を予測する重回帰的なアプローチモデルである。また、 入力層と出力層を直結した隠れ層なしのニューラルネットワークは、ロジスティック回帰と同等モデル であるが、隠れ層ユニットを加えることにより非線型系の効果を加えることができる。 。 Y, =φ +φ l Y 'ー1+φ 2 Y ' ‑ 2+...+φ p Y ' ‑ p+ε r AR(3) Y ' ‑ lCk, Y t ‑2D ....:.;;コQ Y‑ 3臼,/,/,. y, t Y t ‑ lι ト 卜 1 2 13 1 8 1 9 1 5 8 1 2 1 3 1 8 1 9 15 1 2 1 3 1 8 19 。 y 2留 F J/ / J ti Yty, ー1Y ι Y i 1 1 2 2 :1 3 3 :1 8 4 :1 9 5 :1 5 6 :8 7 :1 1 バ : 、 Y t グ ー Yt ‑ 3翠ぷーー g~l ( Y t )=WO+W1 Y t ‑ l+W2 Y 2+W3 Y ' ‑ 3 ト +W a 凶 (W W l l Y tー1+W21Yt ‑ 2+W3 t ‑ 3 ) 0 1+ 1Y 4t +w5t a n h ( w tー1+W22Y t ‑ 2+W3 2Yt‑J 0 2+W12Y 図1 1:隠れ層のある ARモデル 図1 0 : ニューラルネットワークによる ARモデル ここでは、ニューラルネットワークのデフォルト設定により隠れ層 i こ 3つのユニットを加えて ARモデ ルを構築した。アセスメントから、ニューラルネットワークの予測誤差は 29%の結果を得た。 ‑256 ←
4 .伝統的な手法 時系列解析を行う手法としては、 Boxand J e n k i n sが提唱した ARIMAモデル CAutoRegressive I n t e g r a t e d Moving Average 自己回帰和分移動平均モデル)が一般的に利用される。 ARIMA ( p, d, q )( p, d, q ) sモデルの各次数 Cp=AR次数、 d = 1次数、 q=MA次数)を指定してフィルターを組み合 わせることにより、柔軟なモデルを構築できる。時系列解析ツールとして、 SAS/ETSソフトウェアを利 用した。 Z( t ) ト一歩 和分 フィルター 自己回帰 フィルタ‑ 移動平均 フィルタ‑ AR MA 図1 1 :ARIMAモデルの構造図 ARIMAモデルでは、以下のステップを効果的に繰り返すことにより対話的にモデル構築を行う ( 1 )系列の同定 ( i d e n t i f y ) ( 2 )モデルの推定および診断チェック ( e s t i m a t e ) ( 3 ) 系列の予測 ( f o r e c a s t ) O 1)モデルのフイツテイングが最良であった。この 1変量モデルに決定木で抽出し 1変量では IMA(1, た要因項目(来庖客数・ B社の販売価格)をさらに加える ζ とにより、 AIC基準が改良され誤差は 8%ま で向上した。 │当蛍白星盟封 週刊日一昭 τ 日足首;‑, s 主量 F 目 、 " " 3;U~: 3 お7句 認 " 単品量 国 1 2 :ARIMAモデルによる解析画面 今回の分析では行っていないが、要因の特定には時間のズレによる影響を考慮した系列のラグを 加味した検討も必要である。 ‑257
5 .需 要 予 測 シ ス テ ム の 必 要 性 製造業や流通業などのメーカーでは、欠品による機会損失や余剰在庫よるコストの問題が発生して いる。調達・生産・販売を統合的にマネジメントする SCM( S u p p l yC h a i nM a n a g e m e n t )においても、 需要予測は重要である。正確に需要予測を行うことは、需要と供給のズレ(誤差)を最小化して欠品数 の改善および余剰在庫の削減などの問題解消に繋がる。 4 0 2 0 ー ∞ 需 主1 凶 J I 6 0 1 4 0 ~盆盆 2 0 o 1 0 図1 3 :SCMモデル 図1 4 :需要と供給の関係 6 . まとめ 時系列データについて系列の分解や予測を行う場合、時系列解析ツールを利用することが一般的 であり精度も良い。また、分析目的は限定されるものの半自動的に要因の特定やモデリングを利用で きるため、データマイニンゲツールを利用する利点もあると考える。両者の長所を組み合わせることに より、最適モデルを構築して予測システムに実装することもひとつの選択であると考える。 業務スピードや効率に対して競争が激化しているビジネスでは、経験や勘にのみ基づく意思決定で はなく、業務上の固有技術をデータにより実証したベストモデルに基づく意思決定を迅速に行うことが 求められている。最近で、はインターネットを利用するビジネスも激増しており、日々蓄積される大量の ログデータにデータマイニングを適用する研究も盛んである。データにより示された知見を日々の業務 にどう活用していくか、業界を問わずこれからのビジネスにおいてますます重要になることを予想す る 。 7 .謝 辞 本テーマは、(財)日本科学技術連盟の第 23回多変量解析研究会シンポジウムにおける研究テー マに基づきます。データのご提供およびご助言をいただきました(株)社会調査研究所の橋本様、森永 乳業(株)の高橋樟、(株)日経リサーチの鈴木樟のご厚意に感謝いたします。 8 .参考文献 .W データマイニング手法』ゴードン・リノフ著 SASインステイチユートジャパン共訳海文堂 • W N e u r a lN e t w o r kM o d e l i n gC o u r s eNotes~ W i l lP o t t s著 SASI n s t i t u t eI n c ‑258
口頭論文発表 統計
日本 S A Sユーザー会 (SUG I-~) S A S / I M Lを用いた局所影響分析:相関行列にもとづく主成分分析の場合 0強 方 紅 ・ 李 聖 照 " 石 川 和 昭 川 田中豊..・‑ ・バイオスタット株式会社統計解析部 "公州大学校科学教育研究所 側バイオスタット株式会社代表取締役 U U岡山大学環境理工学部 L o c a lI n f l u e n c eA n a l y s i sU s i n gS A S / I M L : P r i n c i p a lC o m p o n e n tA n a l y s i so fC o r r e l a t i o nM a t r i x F a n g h o n gZ h a n g,S u n g ‑ H e eL e e,K a z u a k iI s h i k a w aa n dY u l a k aT a n a k a o s l a lI n c .,I n s l i l u l eo fS c i e n c ea n dE d u c a l i o nK o n g j uN a l i o n a lU n i v e r s i l y, B i o s l a l i s l i c sD e p l . 日i P r e s i d e n lB i o s l a lI n c .,D e pt .o fE n v i r o n m e n l a la n dM a l h e m a l i c a lS c i e n c eO k a y a m aU n i v e r s i l y 要旨 主成分分析は S A Sでは P R I N C O M Pプロシジャがあるが診断統計量を出力するオプションはない。そ A S / I M Lを用いて主成分分析での C o o kの局所影響を評価する S A Sマクロを作成したので紹介す こで S る キーワード: S A S / IM L,局所影響,診断統計量,主成分分析 1 はじめに 回帰モテ'ルを扱っている SASユーザーには,外れ値 ( o u t l i e r ) .影響力の大きい観測値 ( i n f l u e n t i a l o b s e r v a t i o n )を検出する診断統計量がよく知られている.例えば. REGプロシジャはスチューデン o o k ' sD,CovR a t i oなどを出力するオフションが用意されている.それらの ト化残差,てこ比. C 診断統計量は 1 9 7 0年代後半から研究されてきた回帰診断において提唱されたものである ( B e l s l e y, KuhandWelsh,1 9 8 0 ;CookandW e i s b e r g,1 9 8 2 ) . 一方,多くの多変量解析の場合,例えば主成分 分析には SASシステムでは PRINCOMPプロシジャが用意されているが REGプロシジャのように 診断統計量を出力するオプションは用意されていない.しかしながら,モデルやデータの診断は回 帰分析独自の問題ではなく,多変量解析も含め,統計的なデータ解析の全般の問題である.回帰診 a s ed e l e t i o nにもとづくアブローチ,すなわち,観測値を取り除く前後の 断においては,主として c i f f e r e n c e )が採用されている.しかし,回帰モデルなどの数 パラメータの推定値を比較する方法(d 学処理の簡単な統計モデルの場合を除き,直接 c a s ed e l e t i o nにもとづくアプローチを利用すること は実用的ではない.一方, c a s ed e l e t i o nにもとづくアフローチの結果を近似的に評価し,数学的に 便利な方法として微分法(d i f f e r e n t i a t i o n )が利用できる.影響関数 (Hampel,1 9 7 4 )は,一種の微分 . l J ' の種類の微分法として, 法として,多くの統計モデルにおける影響分析に利用されている.また. 5 ‑261‑
Cook(1986)は,より一般的な意味での摂動を表すパラメータを導入し,モデルパラメータの摂動パ ラメータに関する偏微分を用いて,局所影響(lo c a li n f i u e n c e )を評価している.診断統計量として, 幾伺学の視点から得られた影響曲面(または影響グラフ)の最大法曲率とそれと対応する方向を利用 している.その後,多変量解析を含む様々な統計モデルにおいて. Cookの局所影響にもとづくアプ ee,1 9 9 6 ;S h i,1 9 9 7 ;Kwan ローチが提案され,両者の関係についても研究されてきた (WangandL 1 9 9 8 ;L e s a f f r eandVerbeke1 9 9 8 :TanakaandZhang, 1 9 9 9 ) . andFung, 主成分分析は多変量解析の古典とでもいうべき手法であるが,残念ながら,少数個の外れ値がし ばしば主成分を決定することがある.外れ値を除くか否かによって解析結果は大きく変わり,再現性 のない主成分に一般的な意味づけをすることは危険である.主成分分析は共分散行ヂJ I:Eにもとづく 場合と相関行列 Pにもとづく場合がある.:Eにもとづく主成分は変数の単位のとり方によって変わ る.また各変数が異なった尺度によって測定が行われるものであれば,それらの線形結合の解釈が むずかしくなり,あるいは,できなくなってしまう.このような場合には,あらかじめ変数を基準化 し,相関行列 P にもとづく主成分分析が行われる. PRINCOMPプロシジャも COVARIANCEオ プションにより Zか .Pかを選択でき,デフォルトは P に基づく主成分分析を行う.:Eにもとづく 主成分分析の影響分析について多くの著者が研究してきた ( RadhakrishnanandK s h i r s a g a r ,・ 1 9 8 1 ; C r i t c h l e y,1 9 8 5 :Tanaka,1 9 8 8 :S h i,1 9 9 7 ;Tanakae tal . .1 9 9 8 ) . それに対して .Pにもとづく主成 分分析の影響分析に関する研究は少なく,わずかに Packe ta l .( 1 9 8 8 ) .S h i ( 1 9 9 7 )などが見られるに 過ぎない.前者は影響関数を用いた接近法である.後者は,尤度距離を使わないアブローチを提案 している.本研究では,統計的に解釈しやすい Cookの尤度距離にもとづくアブローチの定式化を行 い. SAS/IMLを用いて SASマクロを作成し,先行研究により開発されたソフトウエアの LOCPCA に組み込み,デモを行う. 2 Cookの局所影響分析 2 . 1 Cookの距離と尤度距離 各観測値が分析結果にどのように影響するかを評価して影響力の大きい観測値を見つける過程は 影響分析である.回帰分析において i番目の観測値 ( X i, Y i )の影響力を評価するには,最も自然な方 法としては.( x ;, Y i )を取り除く前後の分析結果(例えばパラメータの推定値)の変化量を評価する方 a s ed e l e t i o nアプローチといわれている.回帰診断には c a s ed e l e t i o nアプ 法であろう.この方法は c ローチを利用して,様々な診断統計量を提案している.その中で代表的なものは回帰係数の信頼域 から提案された Cookの距離である.標準的な線形回帰モデル ) ( 唱Eム 工 = Xs+豆 .x を考えよう.ここで,工は η x1ベクトル は η xpの f u l lrank 行列 .ß は px1 ベクトル~は 2 N(Q, aJ )に従うとする.回帰係数 Fの信頼域は次のように表す. ( β 一β)TXTX( β‑β) ‑~〆 4 、 一一 《 つ 一 = ‑s :I'IP, η ‑ p, 1一 α). p σ ( 2 ) ム b ただし. / 3=(XTX)一lXTy,ポ =11工 ‑x/ 3W / (η ‑ p )である.式 ( 2 )は を中心とする楕球を示 しており,その楕球は確率 l一 αで βを含んでいる. Cook(1 9 7 7 )は次のような距離を定義して i番 目の観測値の βに対する影響力を評価している. 丸一企)TXTX(色。立) Dz=( p σー 2 6 2一 ( 3 )
ただし , f
!
̲
()
iは t
番目の観測値を取り除いた後の E
の推定値である .D
iは Cookの距離と呼ばれて
いる.
i番目の観測値を取り除くのは Y
iの分散を σ2
j
wへと変化させるような摂動の特別な場合に相当
却を式 (
3
)の f
!
̲
(i) に変えて定義した距離
する.この摂動の下で回帰係数の推定値 E
Tx
(β‑βfx
(β s
)
Di(ω)= 担 ー ‑
p
σ
を用いて摂動の効果を評価する .ω → 0のとき,分散 V
(
Y
i
)→ ∞ ,s
町→企 (
i
)
' 従って,日付)→ D
i
距離 Di(ω)は t番目の観測値を取り除く前後の 2つの状態の間の状態を示しており , w =0以外の
D
i
(
W
)の振る舞いを調べるのは単個の観測値の影響により完全に把屈できる.更に, Cook(1986)は
,
Di(刈 と モ デ ル (
1
)の対数尤度 L
(β
)との関係式
pDi(ω) = 2
[
L
(里
)‑L
(
,
̲
!
fJ
]
を利用し,その右辺を尤度距離 (
1パラメータ)と定義して摂動の効果を評価する方法を提案した.
ただし,立
=
ι
=
1
'
ι はめだけが分散 2j を持つときの,立の推定値である.
σ ω
2
.
2 Cookの局所影響の評価
前の節で示しているように, C
ook(1986)は c
a
s
ed
e
l
e
t
i
o
nを特殊な場合とするモデルへのより一
般的な意味て、の摂動(説明変量への摂動,予測変量への摂動,重みあるいは分散摂動など)を導入し
ている.ここで,分散摂動を取り上げよう.使動を表すパラメータベクトル笠 =(ωlい
・ ωn
)
Tを
考え,望。= (
1,
・
・
.
, 1f(摂動前)から笠(摂動後)に,或いは個体の分散を
{
V
(ぉ) = ,
;
I i lー
・
ー
、η
}→ {
V
(ぉ)= ω
ι l,
;
I i=1,
.
.
.
, n}
二
(
4
)
に変化させる. C
ook(1986)は,尤度距離
D
(笠)二 2
[
L
(
宣│凶)‑L
(ι│凶)]
を利用して,摂動盟の影響を測定している.もし,盟。の近くの 1
立に対して D
(
笠)が大きい場合,摂
t
t
Jは分析結果に対して大きい変化を与えるといえる. Cookは (η+1
)x1ベクトルの影響グラフ
i
(
笠
)= I 笠
¥ D凶 j
を定義し,それによって影響の状況を評価する方法を提案した.特に一定方向豆に沿って,盟。→
,
̲
j
r [
[
r
j
̲
[
[=1だけ変化させ,その方向の尤度距離 D(t
r
1
)の変化率を利用して局所的な影
笠ニ望。 +t
響を評価している.尤度距離 D
(tr
j
̲
)を tの関数とみなし ,t= 0でテーラー展開すると,住(笠)の望。
における法曲率
│中 θofθ2
L θι│
(
)
̲
) =2[
C'ó_d(
r
j
̲
"{
.;三一一一下
ーキrj̲[
T
\~1
i
=
h
ιf
J
(
)
f
J
e
a:
!
Q
T=[
‑
IW
ー』
2L
が得られる.また,ト o
j
o
(
)
̲
θ(
)
̲
T
]は F
i
s
h
e
r情報行列であり,()̲の漸近共分散行列の逆行列[正面 (
(
)
̲
)
]
‑
1
oT
.̲
c
o
v
(f
!
̲
)=
T
(X X)‑1σ2は立の分散であるため, Cookの距離は Di= (丸一企f
[eoV(企)]‑1(ι)一立)
j
pにな
.0
になる.従って,法山率は C<
j
̲
(
(
)
̲
)= 2
[r
j
̲
TθE
笠jOl立[
a
eO
v
(
(
)
̲
)
]
‑
1
θ白
笠/
θ笠Tr
j
̲
[出になる.一方
(
(
)
̲
)は Cookの距離 Diと比べると,差分 (
f
!
̲
(i) ‑ f
!
̲
)の変わりに,偏微分
ることがわかる.法曲率 C4
ò~wjò笠T を利用していることが分かる.
ι
ι
法曲率が最大となる方向 nax を影響最大の方向と考え,
nax の絶対値の大きい要素に対応する
個体を影響の大きい観測値の集合 (
i
l
l
f
l
u
e
n
t
i
a
ls
u
b
s
c
t
)とみなしている.
‑263‑
3 相関行列の固有値・固有ベクトルにおける局所影響の評価
主成分分析において,観測値の選択に対する結果の安定性を調べるためには,データを分割して
解析を繰り返す方法があり,外れ値を見つけるためには,主成分得点を散布図にプロットしてみる
方法がある(市川・他, 1
9
9
3
)
. しかし,前者は簡単ではあるが効率的でないし,後者は視覚的な判
断である.統計的な解釈ができる診断統計量があれば有益であろう. Cookの尤度距離を用いる方法
について, S
h
i
(
1
9
9
7
)は多変量解析における局所影響を評価するのは容易ではないとして,代替的な
アブローチを提案しているが,本発表は,プログラミングのしやすさも考慮に入れ,最尤法を扱っ
ている既存の統計パッケージが利用できる尤度距離を用いて定式化を行い,局所影響を評価する診
断統計量を提供する.
μ,
E
),η >pとする.摂動 (
4
)
主1,'・・?らは互いに独立な η 個の p変量確率ベクトルで,ぉ rv N(
を導入する場合,主z N(E
,
ω712).相関行ヂI
J
Pの固有値・固有ベクトルに関心があるから , Pのス
T
1
1
'・
・
" 1)' A = d
i
a
g
(主1
い・ 斗)である.こ
ペクトル分解 P= rAr を利用する.ただし ,r= (
p
i
a
g
(
E
)を加えてパラメータ fi=(A,
r,
D)とする, Cook(1986)とは異なって,
こで, A と rに D =d
Eの一意性がないため,制約条件 rTr=1, diag(rArT)=1を課することにする.パラメータの推
定は L
agrange関数を用いて行う.また,尤度距離の代わりに, Lagrange関数距離を定義して局所
影響を評価する.摂動後のパラメータ Eの L
a
g
r
a
n
g
e関数
よ / γ:D‑iSwD‑iγ ¥ vム
G
(
f
i,
凶笠) = ):I
l
o
g
σ
i
i+log入i+一
‑
'
‑
,
斗 │ ζ):
l
o
g
ω
乞白~ ¥
入i
J n乞
:
P
p
Il
'
+乞 di(272z一 1
)+2乞 di12711+乞 mil乞
入J込
i
=
1
i
=
1
i<j
¥
j1
二
¥
I
1
/
ただし ,S
!
'
!
̲ η ー 12
:
:i=1叫(主i一主山)主
(z一
主町 )
T,主山=(乞;二 l叫 )12Ll町山であり,どは要素
8
8
m i を持つ L
agrange乗数ベクトルである.
i,
i
j,
f
i
f)と分割し, f
ilだけに関心がある場合を考える .Lagrange関数距離を
パラメータを e=(fii,
二
GD(笠)ニ 2[
G
(
白1,f
l
̲2(
s
.1)I
山)‑G(
.
s
I
!
'
!
̲
1.
B
出)]
2(ι)I
と定義する.ただし,関数 f
i
2(
f
i
l
)は,固定的な f
i
lに対して,制約条件の下で色を最大化すること
色ι
)の (
f
l
̲T,
l
!
̲
T)Tに関する 2階微分であり, (~, f!̲)の値を代入したもので
により得られる.。は G(
あり ,(
f
l
̲
[
,(
f
l
̲
f
,
l
!
̲
T
)
)
Tのような分割に対応して
G=
(G
,
̲
}
IQ, GQ,
Q
2 GQ
,
!
.¥
GQ
!
.
2!
¥ G!
.
Q
,
G!
!
.
Q2 Gvv J
IG1M,GQ必
I
l
l GI2 '
一 (G
¥
‑"
G
21
G22 )
のように分割する. f
l
̲1に関心のある場合の法曲率は
O一
d
‑
ム
¥1tiff/
!日=出
今‑
I
一一
2
6
4一
1fl111111IJ
ム0一一 02G(宣之│笠2
1
旦
a
(
)
aωT
IJ9‑q4
一
︑
υ
o‑2
rto
G
nunU
Ftipi‑it4L
G
ω一
To
一
JF2111E¥
ム
η
J一
一
一
)‑
一
(
σ
A一
α
になる.ただし,
(
5
)
Gffは
GEE¥
δ
‑
1= /‑G‑11/GEE
(盟I!..!: 1 = (
1
¥Gv
¥GVO Gl/̲l/̲ J
O Gv
vJ
1...7‑
の左上の部分で,
1...7‑
G
j
F
2は
お=(G22Gjf)
G~2
G岩
nu一
JU
一
一
一
1 fll
ノ
yi
︑
︼
︑ T
AU‑
ム
となる.
ar
︐
¥︑ It‑‑
ノ
一
﹁1111111111114
fJ q ‑ n 4
‑
2
σ
n
︑
︐o
︐
︑
G
﹁111111111111﹄
nunu
ω一
G
/Is‑‑t
︑
To
︑
︑
ム
n
r11 II
︑
ノ
の左上の部分である (G
お は G22 の :
Y
1
o
o
r
e
‑P
e
n
r
o
s
e逆行列である). Cmax,
dmax を求める固有値問
題は
(
6
)
ι
C
o
o
k
(
1
9
8
6
)は,影響の大きい観測値を探索するため,
1
1口のインデックスプロットを利用して
いる.局所影響分析の固有値問題 (
6
)の固有値を Tl > 乃>・・・とし,それに対応する固有ベクトル
をd.1、 .
d
.
・
と
す
る
.
T
a
n
a
k
a
(
1
9
9
4
)
や Tanaba
ndZ
h
a
n
g
(
1
9
9
9
)は Cookの局所影響分析にもとづ
.
•
2
anakae
ta
.
l(
1
9
9
0
)や T
a
n
a
k
a
(
1
9
9
4
)によ
く接近法と影響関数にもとづく媛近法の関係に注目し, T
り提案されている方法にもとづいて, C
o
o
k
(
1
9
8
6
)の基準値 2より大きい固有値に対応する固有ベク
トルの散布図,例えば, (
d
.1,
d
2)などを診断統計量として利用する方法を提唱している.
4 マクロの概要と実行例
ここで,数値例を用いて,作成したマクロ %macroL
ocPca(data=,ML={O}..
¥
I
1G={0},
outdata=)
の構造と出力を紹介する.
マクロ変数として, d
a
t
aは主成分分析対象の SASデータセット, "
"
I
Lと M Gは影響を調べたい固
有値と固有ベクトルの爵号 (
{
O
}を初期値にする), o
u
t
d
a
t
aは出力データセットである.マクロは 4
つの部分からなる.第 l部分は初期値の設定と標本相関行列 R に対する主成分分析を行う.第 2部
分は式 (
5
),(
6
)の中の微分 G とム里を計算する.計算式は張・田中 (
1
9
9
9
)を参照している.第 3部
分は局所影響分析の固有値問題 (
6
)を解く.第 4部分は局所影響分析の結果を SASデータセットに
落とし,診断統計量の散布図 (
d
.1 出)を出力する.
1
9
8
5
)の肝疾忠データ(データセット名:l
i,叩)を利用する. l
i
v
e
rデータは, 4つの
例として,黄 (
F
F脆大, ZTT:硫酸亜鉛混濁試験, AFP:α ーフエトプロテイン), 20観
変数 (GPT:GPT,SIZE:J
測値である.標本相関行列の固有値と同有ベクトルは表 lの通りで,主成分数は 3とする.黄 (
1
9
8
5
)
は,第 l主成分は GPTと SIZEに重みが高いので,急性肝炎を表していると解釈し,第 2主成分は
ZTTに重みが高いので,慢性肝炎を表していると解釈し,第 3主成分は AFPに重みが高く肝細胞
癌の疑いと解釈している.
ここで本マクロを用いて固有ベクトル
h1,1
2
'1)に対する局所影響を評価する.
%macroL
o
c
P
c
a
(
d
a
t
a
=
l
i
v
e
r,.
¥
I
IL={O},v
:
rGニ {
123
}o
l
l
t
d
a
t
a
=
o
u
t
)の出力より,局所影響分析
の固有値問題 (
6
)の非零固有値は 3
.
9
1
8
5
1
4
9> 2.3790707>l
.5
360104> 0
.
8
1
2
0
8
9
2> 0
.
5
4
3
0
6
3
6と
なり 2より大きい固有値は 2つであるため,その 2つの固有値に対応する固有ベクトルの散布図
亘
(1
・
d
.
1
11
2
'
1
)に対する影響の大きい観測値候補は #4と
2)を図 1で示している,図 1を見ると, {
#14であることがわかる.そこで,それぞれ, #4と#14を除いて主成分分析を行い,その影響を
確認する.主成分分析の結果は表 2と 3で示している.それを見ると, #4を除いたとき,第 l主成
分の AFPの重みが相当増加した.全データを用いた場合と同係な解釈(急性肝炎)は,難しくなる.
‑265‑
表 1:l i v e rデータの全データの固有値と固有ベクトル 固有値 固有ベクトル 累積寄与率 第 l主成分 第 2主成分 第 3主成分 1 .71825 1 .09354 0 . 9 8 1 3 5 0 . 6 9 9 9 6 4 0 . 0 9 5 0 1 0 0 . 6 8 9 7 9 8 0 . 0 8 7 9 3 9 ‑ 0 . 2 8 3 6 4 7 0 . 1 6 2 7 7 7 0 . 9 0 4 1 5 9 0 . 3 0 4 9 8 3 0. 42956 0 . 7 0 2 9 5 第 4主成分 0 . 2 0 6 8 7 変数名 0 . 2 4 0 0 4 9 ‑ 0 . 6 6 5 8 8 3 0 . 0 5 8 4 6 3 0 . 2 7 0 3 1 4 0 . 6 6 3 5 5 5 ー 0 . 9 3 0 5 3 2 0 . 3 1 8 8 9 5 ‑ 0 . 1 2 0 8 3 0 0 . 9 4 8 2 8 1 第 4主成分 GPT S I Z E ZTT AFP 表 2:l i v e rデータの #4を除いた固有値と固有ベクトル 第 1主成分 第 2主成分 第 3主成分 固有値 1 .84577 1 . 12 496 0 . 8 6 1 3 6 0 . 1 6 4 6 1 3 ‑ 0 . 5 1 9 9 8 6 固有ベクトル 0 . 6 0 7 2 2 2 0 . 6 6 7 9 0 1 0 . 0 2 7 6 8 7 0 . 4 2 9 4 4 5 ‑ 0 . 2 8 9 5 8 4 0 . 9 2 9 6 1 1 0 . 1 5 7 6 9 0 一0 . 0 6 9 5 5 8 ‑ 0 . 0 7 3 4 6 4 0 . 8 4 8 1 6 2 ‑ 0 . 5 7 7 7 5 3 0 . 6 8 2 0 6 4 0 . 3 6 0 0 8 2 ‑ 0 . 2 6 7 0 8 0 累積寄与率 0 . 4 6 1 4 4 0 . 7 4 2 6 8 0 . 9 5 8 0 2 l 0 . 1 6 7 9 0 変数名 GPT S I Z E ZTT AFP 一方. #14を除いた場合,第 2主成分の AFPの重み,及び第 3主成分の ZTTの重みの絶対値と符 号が共に変わった.全データの場合と同じような解釈ができなくなる.このような少数個の観測値 を除くか否かによって,解析結果は大きく変わり,再現性のない主成分には一般的な意味づけをす ることはできない.最後に,全データに対する主成分分析の第 lと第 2主成分得点の散布図を図 2 で示した.視覚的に見ても. #14と#4は第 1と第 2主成分に寄与が大きいことが分かる. 5 おわりに 本研究は,相関行列の固有値・回有ベクトルの全部,又は任意部分に対する局所影響を評価する ため,統計的に解釈しやすい Cookの尤度距離を用いて定式化を行い,診断統計量を出力するマク ロを紹介した.実例に適用した結果,見つけた影響の大きい観測値を削除して確認したところ,主 成分分析の結果は大きく変わった.これより,紹介したマクロは,主成分分析において影響の大き い観測値を見つけるのに,有効であると言える. 表 3:i Iverデータの #14を除いた固有値と固有ベクトル 固有値 固有ベクトル 累積寄与率 第 1主成分 第 2主成分 6391 1 .7 1 . 18 771 0 . 8 2 9 5 5 0 . 6 9 4 4 4 7 0 . 1 7 1 6 7 0 ‑ 0 . 1 1 0 7 4 5 ー0 . 1 9 8 1 0 7 0 . 6 8 5 5 5 2 0 . 1 5 1 7 2 0 0 . 1 5 7 2 9 8 0 . 4 4 0 9 8 0 . 1 7 8 9 9 3 0 . 7 0 8 2 6 7 ‑ 0 . 6 6 0 9 4 6 ー 0 . 7 3 7 9 0 ‑266‑ 第 3主成分 0 . 6 5 1 9 4 3 0 . 7 2 3 5 0 5 0 . 9 4 5 2 9 第 4主成分 0 . 2 1 8 8 4 変数名 ‑ 0 . 6 8 9 9 3 3 0 . 6 7 7 2 9 9 0 . 2 2 4 2 9 8 ‑ 0 . 1 2 2 2 6 4 1 GPT S I Z E ZTT AFP
。 14 0 . 5 0 . 4 0 . 3 0.21 ・ 。。 4344 P 7 12 1 0 . 1 5 e e 3 0 . 0 4 ' 4 T e Q e 2 φ B 1 司 令 5 。 1 1 6 0 . 1 ‑ 0 . 2 T ' S 2 φD ‑ 0 . 3 ‑0. 4 4 ' 8 ‑ 0 . 3 ‑ 0 . 2 ‑ 0 . 1 0 . 0 0 . 1 0 . 2 0 . 3 0. 4 0 . 5 0.6 0 . 7 0 . 8 d 1 図1 :( 41, 4 2) の散布図 PRIM3 3 叶2 2 4 ' 7 。 T日 1 1 3 u o e V4av 自a v 什a 59 j '~ nu' Y 1・ φ lB ‑ 1 山岳 げ AV 34守 。 s 20 φ •4 ‑2 ‑ 1 口 2 PRIN1 図2 :l i v e rデータの第1,第 2主成分得点の散布図 一267‑ 3
参考文献 B e l s l e y ,D .A.,Kuh,E .andWelsch,R .E .( 1 9 8 0 ) .R e g r e s s i o nD i a g n o s t i c s :l d e n t i f y i n gl n f i u e n t i a l DataandS o u r c e so fC o l l i n e a r i t y ,JohnWiley& Sons, NewY o r k . R .D .( 1 9 8 6 ) .Assessmento fl o c a li n f i u e n c e .J .R .S t a t i s t .S o c ., B48,1 3 3 ‑ 1 6 9 . Cook, Cook, R.D.andWeisberg, S .( 1 9 8 2 ) .R e s i d u a l sandl n f i u e n c ei nR e g r e s s i o n . ChapmanandHall . C r i t c h l e y ,F .( 1 9 8 5 ) .I n f i回 目ei np r i n c i p a lcomponenta n a l y s i s .B i o m e t r i k仏 72, 6 2 7 ‑ 6 3 6 . Hampel F .R .( 1 9 7 4 ) . Thei n f i u e n c ec u r v eandi t sr o l ei nr o b u s te s t i m a t i o n .J .Amer. S t a t i s t . ヲ 69, 3 8 3 ‑ 3 9 3 . A s s o c ., 黄正南 ( 1 9 8 5 ) . 医学における多変量分析及び計算機プログラム(中国語).湖南科学技術出版社, 1 1 8 ‑ 1 4 0 市川伸一・大橋靖雄・岸本淳司・浜田知久馬 ( 1 9 9 3 ) .SASによるデータ解析入門.東京大学出版会 1 9 1 ‑ 2 0 4 . Kwan,C .W.andFung, W.K .( 1 9 9 8 ) .A s s e s s i n gl o c a li n f i u e n c ef o rs p e c i f i cr e s t r i c t e dl i k e l i h o o d : s y c h o m e t r i k a , 63, 3 5 ‑ 4 6 . A p p l i c a t i o nt of a c t o ra n a l y s i s .P L e s a f f r e,E . andV e r b e k e .G .( 1 9 9 8 ) .L o c a li n f i u e n c ei nl i n e a rmixedm o d e l s .B i o m e t r i c s,54 5 7 0 ‑ 5 8 2 . P a c l 仁 P .J o l l i f f , 1 .T .andMorgan, B .J .T .( 1 9 8 8 ) .I n f i u e n t i a lo b s e r v a t i o n si np r i n c i p a lcomponent a n a l y s i s :ac 出 es t u d y .J o u r n a lo fA p p l i e dS t a t i s t i c s, 15, 3 9 ‑ 5 2 . ヲ Radhakrishnan,R .andK s h i r s a g a r,A .M.( 1 9 8 1 ) .I n f i u e n c ef u n c t i o n sf o rc e r t a i np a r a m e t e r si n m u t i v a r i a t ea n a l y s i s . Comm. S t a t i s t .‑ T h e o r yandMethod ,10,515‑529. S h i, L .( 1 9 9 7 ) .L o c a li n f i u e n c ei np r i n c i p a lcomponenta n a l y s i s .B i o m e t r i k a ,84,175‑186. Tana 旬 、 Y .( 1 9 8 8 ), S e n s i t i v i t ya n a l y s i si np r i n c i p a lcomponenta n a l y s i s :I n f i u e n c eont h es u b s p a c e t a t i s t .‑ T h e o r yandMethod ,17,3157‑3175 spannedbyp r i n c i p a lc o m p o n e n t s . Comm. S Tanaka Y.( 1 9 9 4 ) . Recentadvancei ns e n s i t i v i t ya n a l y s i si nm u l t i v a r i a t emethods,J .J p n .S o c 7ヲ 1 ‑ 2 5 . Comp. S t a t i s t ., 司 Tanaka,Y.,C a s t a n o ‑Tostado E .andOdaka,Y .( 1 9 9 0 ) .S e n s i t i v i t ya n a l y s e si nf a c t o ra n a l y s i s : Methodsands o f t w a r e .I nK .MomirovicandV.M i l d e r( E d s . ),Cor 叩 s t a t1990 ,H e i d l b e r g : P h y s i c a ‑V e r l a g, 2 0 5 ‑ 2 1 0 . ヲ Tana 回 、 Y .andZha 時ぅ F .( 1 9 9 9 ) . R‑modeandQ‑modeI n f i u e n c eA n a l y s e si nS t a t i s t i c a lMod‑ e l l i n g :R e l a t i o n s h i p betweenI n f i u e n c eF u n c t i o nApproach andL o c a lI n f i u e n c eApproach, Comp. S t a t i s t . & Dα t αA n a l y s i s32, 1 9 7 ‑ 2 1 8 . Tanaka,Y.Zhang,F .andMori,Y.( 1 9 9 8 ) .I n f i u e n c ei nP r i n c i p a lComponentA n a l y s i sR e v i s i t e d . I nS tαt i s t i c a lMethodsandS t a t i s t i c a lComputingTowardst h eT h i r dMillenium P r o c .o ft h e ThirdC o n f e r e n c eonS t a t i s t i c a lComputingo ft h eAsianR e g i o n a lS e c t i o no fIASC.3 1 9 ‑ 3 3 0 . Wang, S .J .andLeeS .Y.( 1 9 9 6 ) .S e n s i t i v i t ya n a l y s i so fs t r u c t u r a le q u a t i o nmodelsw i t he q u a l i t y f u n c t i o nc o n s t r a i n t s . Comp. S t a t i s t . & Dα t αA n a l y s i s , 23, 2 3 9 ‑ 2 5 6 張方紅,田中豊 ( 1 9 9 9 ).主成分分析における局所影響分析:相関行列にもとづく主成分分析の場合. T e c h n i c a lR e p o r to fOkayamaS t a t i s t i c α1A s s o c iαt i o n .No. 7 2 . ‑268‑
口頭論文発表 品質管理
日本 SASユーザー会 (SUGI‑J) 化粧品製造における重回帰分析と数量化 I類の適用事例 池山豊 株式会社コーセー 開発研究所 Theapplicationexampleofm u l t i p l eregressionanalysis andquantificationtheoryIi ncosmeticsmanufacture YutakaIkeyama ProductDeveiopmentLaboratory,KOSECorporation 要旨 ファンデーション Xの主要原料で、ある粉体 Aの品質が変化したため、それに伴い Xの硬度値 が規格をはずれた。この事態に対しAの物理特性値、 Xの処方量について数量化 I類、重回 帰分析で検討した事例を紹介する。 キーワード: JMPソフトウ工ア、 F i tModel 1.はじめに フアンデ一シヨンはべ一スメイキヘヤ ツ フ F l 弘であり札、物理的な性状の違し、から、パウダータイプ、 せることを機能として期待されている{化七粧 品 油性タイプ、乳化タイプ、ケーキタイプ等に分類される また、メーキャッフ。化粧行動の最初に O 位置する商品であり、現在で、はサマ』ー用ならびにスリーシーズン用(夏以外)の年 2回の新製 品フ。ロモーションが一般的となっている当担に限らず化粧品メーカーにとってはマーケティン グ的にも重要な戦略商品としづ位置づけがなされている。 ファンデーションの基本機能は上に述べたようなもので、あるが、それに付随する官能的品質 としては(たとえばパウダータイフ。で ì~上)、マットへの取れ、使用感の軽さ、肌への密着感、カバ ー力、しっとり感、キメの細かさ、もちのよさ、・・・等、枚挙にいとまがない。これらの品質の設定 i r , するものでも顧客の要望に応じるべく、多くのファン により、同じパウダーファンデーションに J デ?ーションが上市されている c 2 7 1 ←
粉体Aはパウダータイフ。ファンデ、ーションXの主要成分の一つで、ある c このAの製造元がその 製造工程を変更したため、その過渡期の問題として品質も含めてAの安定した供給が維持で きなくなった oXの本格生産を間近にひかえて、今後供給される粉体Aの品質のブ、レに速やか に対処しつつ、 Xの設計品質を維持する方策の発見が急務となったり JMP~ こ限らず、統計ソフトウェアにおいて重回帰分析 Lt 主成分分析と並んで、多変量解析の 入門としてよく紹介される手法である また、数量化 I類はダミー変数を設定することにより重 η 回帰分析として解くことができる点から、方法論として学習する際は重回帰分析と同一視して 扱われることが多い c 今回紹介する事例は、上記のような突発的に生じた化粧品製造との課 題について、数量化 I類ならびに重回帰分析で解析したものであり、質的解析と量的解析の 長所・短所を示しながら、実用上からは予測としづ面でその有効性が異なることを例示するもの である《 2 . 実験 従来の粉体A( A1)と粉体製造工程変更後の 2 種の粉体 ( A2、A3)を入手し、ファンデーショ ンXの品質がどのように変化するかを調べることにした。因子としては、粉体の質 (A)、粉体の 量 (B)、油剤の量 (C)の3つを想定し、それぞれ3水準から成る 3因子実験を行った。これら粉 体による硬度値の変動を他の因子(粉体の量、油剤の量)で吸収することで硬度値を標準値 に調整できるかどうかが重要であるため、因子 B と因子 C の水準の設定にあたってはファン デ、ーション開発の経験が豊富な研究員の意見が反映されたハ 2 . 1 硬度値の測定 パウダーファンデーションの物性特性値の一つであるレオメーター硬度値は、金皿プレス時 の条件設定においても重要な情報であり、ファンデーションの官能項目との関連性も大きいこ とから、これを特性値として用いることとした。 硬度値はフ。レスされたバルクの均寸/主やプレス表面の状態によるバラツキが大きいため、 1 種類のファンデーションにつき 5個のフ。レス品を、また l個のファンデーションについて 5ヶ所を 測定し、計 2 5回のデータの平均値会そのファンデーションの硬度値とした,表 lにレオメータ であった [B1C : ー硬度値を示す c なお、品質標準品は A l t 2 . 2 粉体の物性測定 一方、 3種類の粉体 A1‑んにどのような{ 生質の違いがあるのか、何がファンデ、ーションの最 終的な品質に影響を及ぼしているのかを知るため、これら3種の粉体の物理分析を実験(1)に 並行して行ったc その結果を表 2~ こ示寸二 2 7 2 ‑
表 1 ファンデーション×の硬度値 粉体の種類 粉体量 油剤量 A : 3 A2 A1 83 8, 82 83 C, 532.0 563.6 636.8 539.2 495.6 524.0 480.0 624.8 614.0 C2 4 500.0 484.8 521 . 2 592.8 468.8 403.2 490. C3 461 .6 495.6 600.0 318.0 385.2 479.2 8, 82 8, 83 82 , 12.0% 8・ 82:15.0% 83・18.0児 27.8% : , C2・2 9 . 3見 C3:30.0% C 583.6 556.0 4 606.0 488. 543.2 表 2 粉体 Aの物理特性値(1) 粒径分布 かさ 比容積 個数 σ 体積平均 体積 σ 比表面積 cm/g 3 吸j 由 量 ml/g 個数平均 cm3/g μm μm μm μm m /g A, 4.20 2.50 1 . 22 13.50 10.90 43.9 20. 40 1 .96 A2 2.80 2.17 0.85 25.70 12.50 39.2 11 . 10 1 . 3 4 A3 3.20 1 . 9 4 0.62 8. 42 5.05 20.9 9.67 1 . 3 1 粉体の種類 2 3 .解 析 粉体 A の問題発生とともに直ちに前述のデータのすべてが入手できたわけではなく、 H 寺金 追うごとに徐々に情報が揃っていったしたがって、問題発生直後に行った「状況把握のため の解析」と、その後の粉体の物性特性データが揃ってから行った「歯止めのための解析」はお のずと異なったものになった U 3 . 1 分散分析 3種類の粉体 A の性質を知るために行った 3因子実験から得られた表 lのデータを 1 : ‑3元配 置繰り返しなし J として,JMPの F i tModelで解析したぐ JMPの出力結果(一部)を図 l に、分散分析表としてまとめたものを表 3に示した。主効果は いずれも 1 %有意で、交互作川も粉体の挿類×粉体量が fi%有意となった】 3つの主効果の i u合示しており、やはり粉体の変化が硬度値に多大な 中で、は粉体の種類がもっとも大きな Ff 影響を与えた事実がうかがえるごこの凶(‑ A:粉体の変化の影響を他の 2つの尉子(B粉体 : 卜1 1 ] '能かどうかが問題となるが、この分散分析表から判断 量 ・ C:油剤量)を加減することで梢 i するかぎりでは、 B とCの変動の和I(JA による変動とほぼ同じ程度で、あり、粉体 A!~ 、 A~ 0:使用 ﹃U ηI ヮ
した際においても品質標準品 AjBjC;;と同程度の硬度値を有するファンデーシ ~J ン在処方する ことができる可能性がみてとれる c I Analysis ofVariance Source Model E r r o r C .T o t a l DF Sumo fSquares MeanSquare 137817. 56 7656.53 1 8 8 9 5 6 8 . 0 5 1 1 9 6 . 0 1 1 4 7 3 8 5 . 6 1 26 FR a t i o 6. 4018 Prob>F 0 . 0 0 5 8 L i E C t Te‑sts Nparm Source 2 粉 体 質N 粉 体 量N 粉体質Nキ粉体量N 4 i 由剤量N 4 粉 体 質N*; 白剤量N 4 粉体量 N*;由 ~I量 N 図, DF Sumo fSquares 52735.799 32436.990 4 18620.397 2 22884.350 4 7759. 490 3380.539 4 FR a t i o 22.0466 1 3. 5605 3 . 8 9 2 2 9 . 5 6 7 0 1 .6220 0.7066 Prob>F 0 . 0 0 0 6 0 . 0 0 2 7 0 . 0 4 8 3 0 . 0 0 7 6 0 . 2 5 9 5 0 . 6 0 9 5 JMPによる分散分析結果(部分) 表 3 分散分析表 不偏分散 F o 検定 確率P 要因 平方和 自由度 A :粉体の種類 5 2 7 3 5 .8 2 2 6 3 6 7 .9 2 2 .0 ヰ ヰ O .0 0 1 8 :粉体量 3 2 4 3 7 .0 2 1 6 2 1 8 . 5 1 3 .6 牢 牢 O .0 0 3 C :油剤量 2 2 8 8 4 . 4 2 1 1 4 4 2 . 2 9 . 6 牢 牢 O .0 0 8 Ax8 1 8 6 2 0 .4 4 6 5 5 . 1 3 .9 O .0 4 8 AxC 8xC 7 7 5 9 . 5 3 3 8 0 .5 4 4 4 t 1 9 3 9 . 9 8 4 5 . 1 1 . 6 O .7 誤差 9 5 6 8 .0 8 1 1 9 6 . 0 計 1 4 7 3 8 5 . 6 2 6 ‑ 2 7 4一 0 . 2 6 0 0 . 6 0 9
3
. 2 数量化 I類を含む重回帰分析
3 つの主効果 A~C を説明変数とし、硬度値 y~三目的変数とした重回帰分析を,JMP の Fi t:
M
o
c
l
e
lにて行った 因子 A は質的変数であるからいわゆる層別因子を含む重回帰分析(数
r
量化 I類を含む重回帰)となるパ
分散分析の結果では交互作!日 ^XBカ'
5%有意となったが、これは層別因子でめる粉体の
1
8
:に与える影響の程度が異なることを
種類によって、その配合量によるファンデーション硬度 1
示している c この交互作用が技術的には何を意味するのかについては後段にて考察するが、
ここでは主効果のみによる全変数選択の重回帰分析を行い、図 2のような.JMP の出力結果
杭類の粉体 A1‑A
(部分)を得たc これらから、 3
3における以下ーのような (1)式が得られた
y= 1
2
51
.4+14.1 (粉体 [
1
:
:
) ‑3.
170
1
[
1斉
J
I
量)
粉体 A ,のとき
y= 1
1
6
4
.2+1
4
.1(粉体世) ‑3.
17U
l
l
i剤量)
粉体 A 2のとき
y= 1
2
6
3
.
4
+
1
4
.
1 (粉体坑) ‑3.
17U
I
I
I剤量)
{
す^
2
=
O
.
G
8
4
:=
O
.
7
:
1
:
1 !
R
=
O
.
8
5
G R^2
のとき
粉体 A:
J
2O
.
G
:
H
J
]{**八 ニ
ISummary of Fit
RSquare
0.732627
RSquareA
d
j
0.684013
RootMeanSquareE
r
r
o
r
42.32289
s
e
5
1
8
.
0
7
4
1
Mean0
1Res凹 n
O
b
s
e
r
v
a
t
i
o
n
s(
o
rSumW
g
t
s
)
27
IAnalysis of Variance
Source
Model
E
r
r
o
r
c
.Total
DF Sum0
1Squares MeanS
q
u
a
r
e
4
22
26
107978.62
39406.99
1
4
7
3
8
5
.
6
1
26994.7
1
7
9
1
.
2
FR
a
t
i
o
15.0705
Prob>F
<
.
0
0
0
1
IParameter Estimates
,
e
r
π
1
I
n
t
e
r
c
e
p
t
粉体質N[A1]
粉体質N[A2]
粉体量
泊予~l 量
E
s
t
i
m
a
t
e
1226.2796
25081481
62.11852
1
4
.
1
4
0
7
4
1
31.69862
rr
o
r tR
a
t
i
o p
r
o
b
>
l
t
l
S
t
dE
4
.
6
7 0
2
6
2
.
5
8
7
1
.
0
0
0
1
11.51883
2
.
1
8 0.0405
11.51883
5
.
3
9 <
.
0
0
0
1
3
.
3
2
5
2
4
.
2
5 0.0003
8.
875239
3
.
5
7 0.0017
図2 JMPによる数量化 I類を含む重回帰分析結果(部分)
3
. 3 変数選択による重回帰分析
上記の重回帰分析では粉体の違いを質的データとして扱ったため、数量化 I類を含む亘回
の3
f
i
J
¥の粉体 A
J、Ac、A
;
Jに
帰分析となったcしかしながら、この解析で得られた予測式は既知l
ついてのものであり、今後入手されみであろう第4の粉体A4については何らの準備を与えるも
1
のではなく、歯止めとはならない。第4の粉体に対する処方の予測のためには、ファン'デ」シ "
ンの硬度値の変動をもっとも説明できる「粉体の物理特性値」を発見する必要があるそこで、
解析(1)における質的変叙Aに代わって日項円にわたる粉体の物理特性値{i:導入し、硬度(直
一2
75‑
yを目的変数とした重回帰分析を,JMPの F i tM o c l e lにて行った、これら物理特性値問の相 t e p w i s eによったり 聞は 1であり多重共線性の問題にさらされていることから、当然ながら S JMPの出力結果を図 3に示す 3 粉体量 B、油剤量 Cとともに、粉体の質全表現する変数として個数平均粒径が選択され、ファ ンデーション硬度値の予測式 ( 2 )は 、 y= 1 3 21 .5 ‑ 6 .0 0 (佃数平均粒径) +1 4 .1(粉体量) ‑3 1 .7(油剤量〉・・(2)式 R0 . 8 4 9 二 R^~=O. n1 R^ 2ニO . G 8i ' 会 R * * ^ 2 = 0 . G 5 1 となり、今回測定した物理測定値の l j Jで壮個数平均粒径が粉体の違いをもっとも良く説明でき るようである c したがって、今後は納入予定の粉体Ajについて個数平均粒径を測定・管理して いくことにより、新たなロットの粉体Aに対する最適な処方の目安を立てることが可能となったの みならず、納入業者への品質の指導を行うことが可能となった。 IStepwise Fit Res凹 n s e :硬 度 値 │Stepwise Regression Control ロ : : : : : ニ 巨 費 議 機 塑 ぷ ア 面i 4 I~濯機長総当 D i 悶 c t i o n 選 室 長j率鐙選挙鐙選榊 7rowsn o tusedd u et om i s s i n gv a l u e s . ICurrent Estimates SSE DFE MSE RSquare RSquareA d j Cp AIC 41085.855 231786.342 0. 7212 0 . 6 8 4 9 3.93727205.8447 SS "FR a t i o " "Prob>F" E s t i m a t e nDF Lock EnteredParameter p 1 会 I n t e r c e p t 1 3 2 1. 46976 0 . 0 0 0 1,0000 γ γ 1 1678.863 0 . 9 3 7 0 . 3 4 3 5 かさ γ 1678.863 「 0 . 9 3 7 0.3435 比容積 γ 「 吸j 由量 1678.863 0 . 9 3 7 0 . 3 4 3 5 p ‑5.9968588 1 51056,94 0.0000 「 個数平問粒径 2 8 . 5 8 2 γ 1 1678.863 0 . 9 3 7 「 個数平灼粒径 σ 0 . 3 4 3 5 γ 「 1 1678,863 0,937 0,3435 体積平均粒径 γ 「 1678,863 0,937 0,3435 体積平問粒径 σ γ 「 1678.863 0,937 0,3435 比表面積 γ I 言 14.1407407 32393,6 1 1 8 . 1 3 4 0 . 0 0 0 3 粉体量 γ w i 2 2 8 4 9 . 2 1 1 2 . 7 9 1 0.0016 31.698622 由剤量 。 I Step History Step 2 3 .S i gProb" SeqSS RSquare A c t i o n . Cp Parameter 0 . 0 0 1 2 51056.94 0 個数平灼粒径 E n t e r e c . 3 4 6 4 30.778 E n t e r e d 0 . 0 0 1 9 32393.61 0 . 5 6 6 2 1 4 . 6 9 3 粉体量 E n t e r e d 0 . 0 0 1 6 2 2 8 4 9 . 2 1 0 . 7 2 1 2 3 . 9 3 7 3 ;由 ~j 量 図 3 JMPによる変数選択重回帰分析結果 ‑27 6一 ロ 2 3 4
4 .予測式の検証 上記の変数選択による重回帰分析で件られた硬度値予測式 ( 2 )の有効性確認のため、上 記解析以降に新たに納入された表4の上〉な物理特性を有する粉体九、 A / S : :含 む 7ケ』ースの I値と J .担J I値の差を見ても、これら 7 ケースの中には当ては圭り 追加実験を行った c 表 5の実視J が十分とは言えなしものもあり、個数平均粒径だけでは粉体の質の違いを表現しきれない場 合があることが懸念されたの 表 4 粉体 Aの物理物性(2) 粒径分布 かさ cm3/g 比容積 吸j 由量 ml/g 個数平均 個数σ 体積平均 体積σ 比表面積 cm3/g μr 竹 μr 竹 μ 円1 μr 竹 m /g A r . 2 . 8 0 2 . 0 2 0 . 7 5 2 3 . 6 0 8 . 1 1 31 . 2 1 0 . 3 0 A5 2 . 8 4 2 . 1 1 0 . 7 9 3 4 . 1 0 1 4 . 1 0 4 45. 9 . 2 6 粉体の種類 2 表 5 確認実験 粉体の種類A 硬度値 粉体量 油斉J I 量 個数平均粒径 B C 実現J I 値 予測値 A l 1 3 . 5 0 1 3 . 5 283 目 6 0 7 . 2 5 3 4 . 3 A2 2 5 . 7 0 1 7 . 0 2 8 . 8 500. 4 494.8 A3 8. 42 1 6 . 0 2 9 . 8 5 7 7 . 6 5 5 2 . 6 A4 2 3 . 6 0 1 2 . 0 3 0 . 0 5 0 2 . 4 3 9 8 . 7 A4 2 3 . 6 0 1 8 . 0 2 7 . 8 5 5 6 . 7 5 5 3 . 2 A5 3 4 . 1 0 1 2 . 0 3 0 . 0 3 3 5 . 6 3 3 5 . 7 A5 3 4 . 1 0 1 8 . 0 2 7 . 8 5 4 6 . 8 4 9 0 . 3 5 .考察その後 先にも述べたように、ファンデーションの硬度値は金皿にフ。レスするために考慮しなけれほな らない品質特性の lつにすぎず、硬度値以外にもファンデーションには種々の重要な品質特 性があるため、実際の現場ではこれらのバランスをとりながら商品設計が成されている今回 の事例も硬度値を一定に保つことのみに執着した解析として紹介したが、現実にはその他の 「マットへのとれ j、「のび J、「カノト ))J等の官能特性も無視で、きるものではなく、粉体の質の 変化を補うべく増減させた粉体量や計Ii剤量の変化は、それ自体は決して望ましいことではな ー 2 7 7一
かったっとはいえ、硬度値の過不足はチれらファンデーションの官能特性にも多大な影響を与
えるものであり、これを規格内に収めることを第一の目標とせざるを得なかったわけである z ま
た、本格的な量産時期が迫ってし、たこともあり、当時は上記の一連の解析以上のことを実施す
る時間的余裕もなかった
n
また、原料とされる粉体も一定の粒径の粉の集合体ではなく、ある粒径分布を持ったもので、
ある。その後、図 4
1こ示すそれぞれの粉体の粒径分布を入手することができた この粒径分布
O
を見てもわかるように、粒径分布が歪んでいるために粒径の平均値が粒径分布の代表特性値
としてふさわしくない粉体A;もありうることが推察されたの表 3の分散分析で、粉体の種類Aと粉
体の量Bの交互作用 AXBが有意だ、ったことも考え合わせると、粉体の種類Aと粉体量Bの関
係、は、L:(ある粒径範囲の粉体の硬度値に与える影響×その粒径範囲の粉体の量)と考え
るべきと思われた。したがって、粒径に対して融ー度値に及ぼす効果が直線的な関係かど、うか、
について解明されれば、これら粉体の粒径分布から、さらに精密な硬度値予測が可能となるも
のと推察され、さらなる研究課題として認識されたの
粉体A2
粉体 A1
30
30
25
25
20
20
一
‑EE;
s
a10
s
{
一
函 15
函 15
環 1
0
一
II ¥
'
./
'
,
.
:
1
+
‑
'
ー
→
←
4←寸一一←+
~
5
5
0
o 10 20 30 40 50 60 70 80
oI
一一」ーー」ー̲j
o 10 20 30 40 50 60 70 80
粒 径 {μm)
粒 径 {μm)
I : '‑ " :
;
.
ネ 九 一 ベ
粉体 A5
粉体 A4
30
30
25
20
s
S
函 15
:
「
/¥ j
戸
I
!
l 10
5
o
γ
ι
,
̲
̲
)
/ 、ヰ誌広以
L口....三υ2υ:~.:'
函 15
司
1.•
:¥
八八 A~.F-'"",
i と」ぺi.~.,?-:; γ~~
o 10 20 30 40 50 60 70 80
'
0径 (μm)
粒径〈 μm)
図 4 粉体の粒径分布
‑278
ι
日本 SASユーザー会 (SUG1‑0) SASシステムによる半導体製造装置稼働デ タ分析ツールの構築 0山 本 幸 恵 渡 部 和 浩 富士通エイ・エム・ディ・セミコンダクタ株式会社 製造システム部 Implementationo fSemiconductorEquipmentS t a t u sDataAnalysisT o o lUsingSASSystem YukieYamamoto,KazuhiroWatanabe : 1 emsEngineeringDepartment, P r o d u c t i o nEquipment&Sys F u j i t s uAMDSemiconductorLimited 要旨 半導体産業は「設備産業」と言われ、製造装置稼働の効率向上による生産性向上が要求される。それ に対応するため SASシステムを用いて装置稼働の各種解析を目的とする『半導体製造装置稼働データ 解析ツーノレ』を構築した。本論文では、本ツー/レの機能や実用例等を紹介する。 キ ー ワ ー ド :SASシステム, O v e r a l lEquipmentE f f e c t i v e n e s s,Cumu l a t i v eCountControl‑Chart 1.はじめに 昨今、半導体デ司パイスは販売価格が下降の一途を辿るのに対し、製造装置価格は更なる微細加工を 実現するために高騰し続けている。それに対応するためは限られた台数の製造装置を最大限有効活用 する工夫が必要となる。これまでも各種情報を活用し、製造装置の状態監視や能力分析を行う努力が図 られてきた。 この度、装置稼働の各種解析を目的として、 SAS システムによる ~ECAS~ (イーカス:Equipment C a p a c i t yA n a l y s i sSystem)を開発した。 2 7 9
2 . ECAS(EquipmentCapacityA n a l y s i sSystem)について 当社は装置の状態をリアルタイムに監視することができる生産管理、ンステム (MES: 1ヶ月あたり、約 90万の装置イベント情報を技術情報データベースに定期的に格納)他、装置の C a p a c i t y情報を格納し ているデータベースを保有している。 ~Equipment C a p a c i t yA n a l y s i sSystem] j(以下~ECAS j])は SAS システムを用いて、その技術情 報データベースや C a p a c i t yデータベースに格納された膨大な情報を取り扱い、各種解析を短時間で 行うためのインターフェースを提供する。 l‑ MES (生産管理 技術情報 Database システム) SASシステム (UNIX版) 亡 今 ECAS コ 図 2 mCAS~ システム構成図 3 . ECASの機能 3 ‑1.装置データ参照機能 ECAS を起動すると、各機能へ進む窓口となるオープρンメニューが表示、 ~ECAS メインメニュー』を指 定後、解析対象の装置と解析期間を指定する画面が表示される(図 3 ‑ 1 )。ここでは指定された期間、装 置の種類、装置 IDでの検索条件を選択する。ここで ORACLEデータベースよりデータ抽出するために、 自動で SQL文を作成する。その SQLにより検索が開始されると、技術情報データベースから対象期間 内の装置のイベント情報を抽出する。抽出後は、テーブル画面によりデータを参照することができる。こ の画面から抽出データの各種解析を行なう。 3 ‑ 2 .装 置 能 力 解 析 機 能 装置データ参照機能画面のメニューより「装置能力解析』を選択すると OEE(OverallEquipment E f f e c t i v e n e s s :設備効率を把握する管理手法)の算出結果を出力する(図 3.2.2)oOEEは装置の損失 原因及び、領域 (DownTimeL o s s、SpeedL o s s、Q u a l i t yL o s s )の顕在化を目的としている。 ‑280一
図3 ‑ 2 ‑ 1に OEEの算出方法を示す。 A v a i l a b i l i t y Performance E f f i c i e n c y Rateo f Q u a l i t y A v a i l a b i l i t y= (負荷時間 PerformanceE f f i c i e n c y Rateo fQ u a l i t y DownTime) 1負荷時間 (理論 C y c l eTime X 処理時間 ) 1稼働時間 良品数/処理数 OEE=100 X A v a i l a b i l i t y X PerformanceE f f i c i e n c y X Rateo fQ u a l i t y 図 3‑2‑10EE算出方法 3 ‑ 3 .SpeedLoss 解 析 機 能 装置毎に設定された製品処理時間の理論値と実績値の事離を算出し、結果をヒストグラムと時系列グ apacityの情報を用いて対象期間の装 ラフで表示する。技術情報データベース以外に、対象装置の C ossを算出する。(図 3 ‑ 3 ) 置能力を測るために SpeedL 3 ‑ 4 .装 置 稼 働 状 況 、 故 障 状 況 解 析 機 能 『装置稼働状況、故障状況解析』を選択すると、抽出した装置情報から装置稼働、故障、信頼性情報 (MTBF 爪lTTR等)を示すグラフ、情報が出力される。(図 3 ‑ 4 ) 0SEMIの E10に準拠した代表的な信頼 性情報の指標を以下に示す。 MTBF(平均故嘩間隔) = 総稼動時間/故障件数 MTTR(平均修理時間) = 総 故 障 休 止 時 間 / 故 障 件 数 2 8 1
3 ‑ 5 .CCC‑Chart機 能 (CumulativeCountC o n t r o l ‑ C h a r t ) 縦軸に製品処理数の累積、横軸に時系列を取り、故障の間隔と製品処理数の関係を時間軸で捉える 事が出来る。ここでは MTBFでは把握できない個々の装置の故障ノミターンを観察する事が出来る o ( 図 3・5 ) 3 ‑ 6 .E veballAnalvsis機 能 本来の ~Eyeball A n a l y s i sJlとは、生データを直視し、その性格をイメージするといった原始的な解析 方法であるが、ここでは選択されたテ ータをグラフやチャートに変換し、付帯作業、装置故障時の作業時 P 問、時間帯別、曜日別のバラツキなとや装置の傾向を視覚的な角度から比較検討を行なうツールとして捉 えている。(図 3 ‑ 6 ‑ 1, 図 3 ‑ 6 ‑ 2, 図 3・6 ‑ 3, 図 3・6・4, 図 3・6・5, 図 3・6・6 ) 3 ‑ 7 . 初心者のためのヘルプ機能 工場の生産現場ではプログラミングや統計はもとより、 P/C操作が不得手な層が少なからず存在する。 本システムは当社に存在する他の SASシステムにより開発されたツールの 100 倍程度の対象ユーザー 数を見込んで開発を意図したため、データ取得期間の入力以外は全てマウス操作とした。通常のヘルプ 機能とは別に『初心者の館』なる機能を設定し、 6種類の目的を選択させ該当設備と期間を入力して結 果を出力し、解析まで与導くルーチンを用意した。 3 ‑ 8 . メール送信機能 当社では U nix版 SASシステムを利用しているため、 SASデータセットを E x c e l形式として出力する ことができない。出力されたデータや解析結果はファイル形式 :CSVで E ‑ m a i lにて解析者本人、或い は他者に配布され、様々な情報に変換される。 SASのスピードが評価され、より特化された解析や異な る業務を行なう部門からの引き合いに対応した機能として位置付けた。 2 8 2
京 置 ID
三~
図3
・1メインメニュー画面
」 叫ん
H
'
,!骨;
!
fo
j
'
:
lDf
l
!
1
吟.
1
1
崎市ヰヘ料
i
j
i
t
J
U
1
J
j
0
.
0 目.
0由。担 0
4
0
.
0 日.
0曲 0
7
0
.
0 田』田 01
凹 1
1
0
1
田
"
I
̲
.
.
T
.
・
・
姐
m
一 戸 川
図 3・2・2 装置能力解析画面
図 3・3SpeedLoss解 析 画 面
CCCC
h
a
r
t
!
(
g
i
堅
苦i
窓1
1ifFliEE
i 回(1)
EE
,‑ nuωI~叫 lt4 Þoott.削嗣由剖山凶!:Sc:h・.t-Jl od ø-..!I!} !br四"""'!1j
おじ主主J
iJLJLif
DATE
1
&
・
・ f713
図 3・5CCC‑Chart機 能 画 面
283‑
Hi
s
t
o
αramofPMTime(CJ
H'
i
s
t
o
a
r
a
mofBMηme
匝 亙 コ IW28D4コ E豆二コ l
W7t
l二
コ
1
W2NJ2
コE量二コ巨ζ 二コ
1
4
2
2
1
.2
5 8汚 1 .
2
5 8
.
7
5
o
1
.
2
5 8
.
7
百1.
2
5 8
.
7
5
4
0
0
拍
o
40
百me(
H
)
官 me
(
H
)
図 3・6・1保全時間のヒストグラム
図 3・6‑2障害時間のヒストグラム
H
i
s
t
o
a
r
a
mo
fW
e
e
k
l
v
H'
i
s
t
o
a
r
卸 1o
fE
v
e
r
vHour
,
駅x
l
ヨx
l
制抑
fvpとF
∞
2
賞x
l
B
4
3
s
g
t
'
1
1
1
1
1
1
1
1
1
1
1
1
1
1 山山!1I1
1
1
l
l
l
l
1
1
l
l
1
1
1 山 山 川l
l
Hlwmm 山 山"
i
i
j
i
l
l
i
i
j
i
l
l
i
i
月/<>,ホ金土 a
~I<氷木孟土日
月J<;j;;j;金土目
月1<氷木盆土 g
川
ト W1OO2→
ト明剛→
ト W担 13 →
ト W713 →
ト
ー W措
定
‑
‑
‑
1ト
ー W加 4 ‑
‑
‑
1 トー W却 13 ‑
‑
‑
1 トー W713
圃 C
•
G
.
H,
.
I
,
JK
圃 0
• Q
・
.,
EF
.
L
P
圃 C
γ
G
.
H
.
I
,
J
.K
図 3・6・3 曜日別のヒストグラム
→
‑
圃 0
•
Q
圃 E
.F
,
I
..
P
T
図 3・6・4 時間帯別ヒストグラム
i
=
̲
̲
̲ー
i
l
月火:1:ホ金土目
見火;1:沖:全土 a
nl<t.木全土 6 n
l
<氷ホ盆土自
ト W相支→
ト明刷→
ト W3
B
13 →
山
ト w713 →
図 3・6・5 曜日別の処理数ヒストグラム
"
"
"
1
1
1
1
1
1
1
1
1
1
1
1
1
1 山山"'1II1
1
1
1
11
l1
1"
"
"
"
"
I
I!l1I1II1II1I山川"
1
1
1
1
1
1
1
1
1
1
1
1
1
1
トw2盟→
←W2OO4→
ト W担 ロ →
←
‑
図 3・6
‑
6時間帯別の処理数ヒストグラム
‑284‑
→
Wl13‑
4 .実用例 4 ‑1.装置能力解析機能(図 3 ‑ 2 ) 上から 3 番目の装置の O p e r a t i o n a lE f f i c i e n c y( S p e e dL o s sを示す値)が他の装置に比べて低い値 となっている。装置、又はオペレーションに不具合がある事が判る。それが原因となり OEEが低下してい る 。 42 .SpeedL o s s解 析 機 能 ( 図 33 ) ・ ・ 以前と比較すると S p e e dL o s sのバラツキが大きくなっている。作業者やシフト毎のオペレーションに 偏りが無し、か等の再調査を行なうべきである。 4 ‑ 3 . 装置稼働状況、故障状況解析機能(図 3 ‑ 4 ) 装置稼働、故障、信頼性情報(MTBF 爪1 t TTR等)を示すグラフ(左)、情報の出力例である。稼動時間、 稼動可能時間に差は見られないないが、 MTBF(中)と MTTR(右)差が見られる。特に左端の装置の 故障間隔時聞が短く、修復時聞が長いため何らかの改善が必要である。 4 ‑ 5 .C CC‑Chart機 能 ( C u m u l a t i v eCountC o n t r o l ‑ C h a r t ) (図 3‑5) 以前は故障間隔が短かったが、最近は改善されている。 4 ‑ 6 .E v e b a l lA n a l v s i s機 能 4 ‑ 6 ‑1.装置付帯作業時間(図 3 ‑ 6 ‑ 1 ) 付帯作業にバラツキは無い。 4 ‑ 6 ‑ 2 . 装置故障時間(図 3 ‑ 6 ‑ 2 ) 各装置の故障休止時間にバラツキが有る。(他 1台は無故障) 4 ‑ 6 ‑ 3 . 曜日見 IJの装置状態(図 3・6 ‑ 3 ) 程度の差は有るが、各装置週末から週初めにかけて故障休止時間が集中している。 4‑6・4 . 時間帯別の装置状態(図 3 ‑ 6 ‑ 4 ) 付帯作業は昼間に、故障休止時間は夜間に集中している。 4 ‑ 6 ‑ 5 曜日目l の製品処理数(図 3 ‑ 6 ‑ 5 ) 曜日による製品処理数に偏りはないが右端の装置は全体的な処理数が少ない。 2 8 5 ‑
4 ‑ 6 ‑ 6 . 時間帯見J Iの製品処理数(図 3 ‑ 6 ‑ 6 ) オペレータがシフ卜する時間帯や食事時間帯は製品処理数が低下しているのでボトノレネッ ク装置で‑あればオペレーションを強化しなければならない。 5 .最 後 に 表面上は面倒な計算を排除し、単純に「見る、読む」動作で、解析が行えることを念頭に置き SAS シス テムを利用して本ツールを開発した。初心者向けにヘルフーを充実させ、多くの人は SASシステムに介入 していることさえ意識せずに使用している。 しかし、現在、 Windows環境を使い慣れている利用者は Unix版の SASシステムの利用を敬遠する 傾向がある。更に、現状では工場内で本ツールを利用することがで・きない環境であるため、今後は Web 環境で・のツールへと発展させていきたい。 2 8 6 ‑
ポスターセッション 医薬
日本 SASユーザー会 (SUG1‑0) C l i n t r i a l のデータを SASで利用する方法の紹介 0藤 田 和 也 宣原智子竹口素子 リリーリサーチラボラトリーズジャパン臨床開発部 U↑i l i z a↑ ionofS ASsys↑e mforClintrialda↑G KazuyaF u j i↑oandTomol くoK asahara C l i n i c a lDevelopmen ,t L il l yResearchLabora↑o r i e sJapan キーワード SAS/lntrNetソフトウェア SAS/SHAREソフトウェア, C l i n t r i a l はじめに 我々は C l i n t r i a l4 .1]および SASを使用して臨床試験データの管理をしている。昨年、 C l i n t r i a l のデータを SASデータビューとして利用する方法として SAS/AFソフトウェアにて作成したツールを紹介した。これは、臨 床試験データ管理システムの「システムバリデーション」に対応するために我々が作成した 3種類のうちの 1 つである。 (CT‑DevT o o l,CT‑SAST o o l,ADS‑SpecT o o l これらに関してはデモにて紹介する。) l i n t r i a lの設計/開発から解析者が利用する SASデータセット作 今回,これらのツールを使用して行われる C 成までの工程を簡単に紹介する。 2 工程の概要 2 . 1 入力用データベース ( C l i n t r i a l )の設計・開発 C l i n t r i a lにてデータ入力システムを作成する。ここでは、以下の 3段階がある。 1 )設計 e s i g n プロトコール・ CRFから入力用データベース構造、コードリスト、画面イメージなどに関する内容を D o o lの設計・仕様書の作成機能を利用する。 S h e e t(設計・仕様書)に作成する。ここで、 CT‑DevT 2 )作成 D e s i g nS h e e tが承認されると、 C l i n t r i a lにて実際にデータ入力システムを作成してして。作成後 D e s i g n S h e e tの内容にしたがってデータベースやコード リストが作成されているかを、 CT‑DevT o o lのメタデー タ比較機能を使用して調査する。これにより問題がなければテスト作業に移る。 3 )テスト o o lを使用して作成したテスト指示書に従い行う単 ここでは、 2種類のテストを行う。開発者が、 CT‑DevT 体・結合テストと、ユーザーが実際の状況を想定して作成したデ、ータを使用して行うドライランがある。 ‑288‑
2 . 2C l i n t r i a l から SAS へ の 変 換 システムが承認されると、データ入力作業が開始可能になるのと同時に、データを SASで利用するための l i n t r i al)の構造にしたがった SASViewを作成することである。 準備を行う。それは入力用データベース(C ここでは、昨年紹介した SAS/AFソフトウェアを使用して作成した CT‑SASToolにてプログ、ラムの作成お よび管理を行う。 2 . 3 解析用データセットの設計・開発 解析者が利用するための SAS データセットを作成する c 1)設計 n a l y s i sDataS e t ) 解析者と打ち合わせを行い、 ADS‑SpecTool を使用して解析用データセッ}‑‑(ADS:A の仕様書を作成する。 2 )作成 仕様書が承認された後、テスト指示書およびプログラムを作成する。 3 )テスト ここでは、テスト指示書にしたがったヒ。ア・レビ、ューまたはウォークスルーにてテストを行う。 3 終わりに 今回, C l i n t r i a lの設計/開発から解析者が利用する SASデータセット作成まで、の工程を簡単に紹介した。 C l i n t r i a l,SAS)を構築する際に、米国本社よりシステムバリデーションを要求さ 我々はデータ管理、ンステム ( れたc それは「システムバリデーション」であり「プロクずラムバリデーション」で、は意味がなかった。そしてその ために作業行程を考え直し、 3つのツーノレを作成した。我々が考えるシステムバリデーションに関して詳し く説明はしないが、簡単に言えば「顧客(クライアント)の要求どうりにシステムが機能(作成・実行・管理)す ること。」である。 これを実現するために重要なのは、設計、確認(テスト)および変更管理である。 設計の重要性は一般的に認識されてしもと思われるが、我々が工夫したのは設計時における確認(テス ト)の位置づけである。顧客が、設計図(仕様書)だけで要求内容が全て反映されてしもか判断するのは 困難であると考え、顧客が条件(内容)を指定できるテストを用意した。つまり設計段階終了時には、仕様 書とテスト内容を完成させるようにした。 次にこれらを維持してし、くために重要と考えるのは、変更管理である。これは、顧客や開発者など関係者 に正しい情報をタイムリーに渡すことである。変更管理がされていなし吐顧客は当然実現されると思ってい た変更内容が、最終物に実現されていないとし、うことが発生すると考えられる。この場合、顧客が納品時 に気がつけば良いが、実際に本番使用したときに発見されるとビジネス上かなりの問題となるであろう。 我々は、手順に従いこれらのツールを利用することによって、一品生産のため管理しにくし、と思っていた 作業に対して統一のとれた管理が可能となったo ‑289
日本 SASユーザー会 (SUGI‑J)
SAS および E
x
c
e
l を用いた OLE および OLE
AutomationServer の利用
0小 沢 義 人 吉 村 克 己
日本化薬株式会社医薬事業本部薬制部
業務管理室
UsingOLEandOLEAutomationServeri
nTheSASSystemandM
i
c
r
o
s
o
f
tE
x
c
e
l
Y
o
s
h
i
h
i
t
oOzawaandKatsumiYoshimura
S
e
c
t
i
o
nOfP
o
s
tM
a
r
k
e
t
i
n
gResearchAndS
u
r
v
e
i
l
l
a
n
c
e
PharmaceuticalsGroup
NipponKayakuCO..LTD.TOKYOJAPAN
L
E, E
x
c
e
l
SAS O
L
EA
U
T
O
M
A
T
IO
N, O
キーワード:
1.はじめに
我々は、 DDE を用いたデータ交換の汎用マクロおよび DDE を用いた EXCEL の
)。現在でも DDE 汎用マク
コントロールする応用 Program を作成し報告したり 2
口、及び、 Excel のコントロール Program を業務の中で多用している。 しか
し
、 Excel のコマンドは VBA CVisual Basic for Application) 以前のマクロコ
マンドであり、現在では、そのコマンドを調べることも困難となってきており、
現実的には Excel の VBA で作成したマクロを実行するマクロコマンドを実行す
るのが精一杯となってきている。また、 ¥
¥
'
i
n
d
o
w
sで・のプロセス開通信の主流も
DDECDynamic Data Exchange)、から、 OLE CObject Linking and Embedding )へ
と変わってきている。これは DDE 通信が非同期処理である事、グローパルメモリ
のアドレスを使ってデータのやり取りをしており、 6
4
K bytesの壁を越えられない
という制限があること等、柔軟なコントロールを行ったり、大量データの通信等
を行う場合には、 DDE 処理から OLE 処理に置換える事が将来的に必須であると感
じている。また SAS の現在のパージョン CVersion 6) の SCL は Screen Con
trol Language であるが今後 CVersion 8
) の SCL は SASComponent Language と
なり、 Object の Control も今以上に、使いやすいものになっていくものと期待
される。今回は、現在の SASVersion 6 の SCL を用いた Excel OLE と Excel
VBA による SASOLE Automation Server のコントロール Program を試作したの
で報告する。
2
.SASSCL ‑
)E
x
c
e
lO
L
E
:~:::~・-抽出品一一位;
,
."~-"'~‘
崎
j
町.:'.
::~~.:e~-~'...
叩五了、
i
;
"
:
:
.
:
.
:
辺
む
冶
:
.
:
.
,
.
!
コマンドラインから
AF c=work.xl̲ns.main.frame と入力し program を起動します。
左図 main 画面が表示され、 Excel が起動します。
設さ炉室寝苦泌総結~~語詰苦手~:::::;:;:::: ;
:
:
:
:
:
;
:
;
:
:
主
1l
a
f//f/J
ψ
A
γ
ψ
A
T
円 し 円U
‑‑+L
ndnu
凸﹂円U
//'・ 1よ ヲ 白
AT+L
・
1
/Jψt
rr
H
f//f//ψ小 ﹂
川
mobwvHn
ψ小 ψ小
っ
ょ
dnn
ioOQυ
ヴ
nu‑‑ょ ρ﹄ 凸 ﹂
+ L + L D UAUAU
干 よ 円 ド +Le‑‑‑‑
eooobSS
TLTIRu︐
eeepu‑‑‑l
obubob‑‑1i1i
AUVAVAVA
AU・
AU・
n制Un制UnれU
1i1i1inU1 'u
vAVAVA1A1A1i
.BordersCxlEdgeLeft).LineStyle
.BordersCxlEdgeTop).LineStyle
.BordersCxlEdgeBottom).LineStyle
.BordersCxlEdgeRight).LineStyle
.BordersCXlinsideVertical ).LineStyle
.BordersCXlinsideHorizontal).LineStyle
2
9
0一
←
冷
・ψ
A・ψ
A
γ
ψ
A
γ ←A
T
ψ
A
γ
f//f//f//ffJrrJf/J
VBA のプロパティ
"データ消去".ClearContents
"線を引く"
"font 変更" . F o n t .Name F o n t .size "font 上付き" . Characters(Start:=X ,Length:=Y ) .F o n t .Superscript =True "font 下付き" . Characters(Start:=X ,Length: Y).Font.Subscript =True 整列(上下) .HorizontalAlignment 整列(左右) .VerticalAlignment' これらを、 Call send ルーチンの ̲get̲property̲, ̲set̲property̲ メソッドでオ 二 ブジェクトプロパティに値を割り当てていきます。 すなわち、オブジェクトを決めて、下記のように記述する、ということです。 C a l l send (オブジェクト , ̲get ̲ property̲) ̲ property̲) Call send (オブジェクト ,̲set V B A で記述された With による簡略表現も 別々にオブジェクトを指定して記述していけばよいが、手作業では かなり複雑なステップでした。 3 .Excel VBA ‑ ) SAS OLE Automation Server よ 轟 O l e a u t o l . e x e 次は SAS の OLEAutomation Server についてです。 SAS の I n s t a l l をすると sasrootVbaseVsampleVoleautol に Oleautol .exe 、Visual Basic と Visual C のソースコードが含まれている かと思います。 V B から V B A への変更は VBA 側 で ユ ー ザーフォームを作成しなおすだけの、簡単 なものであり、 SAS OLE オートメーション で使うメソッドは、全部使うことができま した。 そこで、 Excel から SASOLE Automation server に SAS コードを submit してやる、ボタンを作成し、 EXCEL 上のデー 夕、および、 SAS Program を submit してやるような VBA Program を何種類か試作してみました。右図はその l例です。 4 .おわりに OLE は DDE と同時に Windows 版 SAS リリース 6 .08 からサポートされている 4)。 SAS リリース 6 .1 1 からは OLE2.0 がサポートされ人 OLE オートメーションサーノ〈ーに .1 1 メンティナンス版より提供さているの。 ついてはリリース 6 しかし、 SAS の提供する OLE を使うためには、 SASAF または FSP の SCL により記述し なくてはならな L刊。今回、 SCLProgram を作成してみたが、決して使いやすいものとは思 えなかった。しかし Excel VBA のプロパティ、メソッドを調べて記述すればかなりのオペ レーションは可能であることが確認できた。 SAS の 次 期 SCL である SASComponent Lan‑ guage に期待したい。また、 OLE オートメーションサーバーに関しては、 Excel か ら 直 接 SAS の Program をサブミットでき、 SAS のデータステップ、プロシジャを実行するきるの で、強力な統計機能をユーザーが簡単に使えるというようなシステムが簡単にできるのでは ないか?と期待される結果が得られた。しかしここでも、データを Excel に戻すには、 DDE を用いており、この部分も . . excel.ワークシート = S A S .データセット"またはその逆のような記述が SAS の program editor からサブミット可能になると、 L叫、な, , と思った。 これからが、本格的な DDE → [ OLE / CO~ / Active X ]への幕開けと感じた。 5 .参考資料 ‑ r ‑ ‑ r ‑ 会 ( S U G I ‑ J ) W i n d o w s版 S A Sシステムの動的ヂイ交換 ( D D E )による l ¥i c r o s o f t E x c e l との :(‑7 交換 7j口の作成 2 ). 9 5 年日本 S A Sユ 会 ( S U G I‑ J ) 研究会解析 ( K e yO p e n )における S A Sと E x c e l の利用例 3 )U R Lh t t p : / / w w w . s a s . c o m / u s e r g r o u p s / s u g i / s u g i 2 5 / 2 5 p 0 3 9 .p d fC h a n g e sa n d E n h a n c e m e n t st ot h eS A SC o m p o n e n tL a n g u a g e( S C L )F o rC o m p o n e n tD e v e l o p m e n t 1 1 9 9 3 4 )S A ST e c h n i c a lN e w sV ol 5 )S A ST e c h n i c a lN e w sV o 1 3N o 21 9 9 5 A Sユーサ。ー会 ( S U G1 ‑ J )S A S / A F ソフトウエアにおける O L E オートメーションの利用 6 ). 9 6 年日本 S 7 ). 9 6 年日本 S A Sユーずー会 ( S U G I‑1) W i n d o w s版 S A S システムリリース f . i1 1 が提供する O L E機能について ‑ 2 9 1 1 ) .9 4 年日本 S A Sユ
日本 SASユーザー会 (SUGI‑J) SASシステムをベースとした臨床試験データプロセスの検討 渡辺昌彦 住商情報システム株式会社 システム・マネシ.メント第三部 E x a m i n a t i o no fc l i n i c a ld a t ap r o c e s sb a s e do n SAS s y s t e m M a s a h i k oW a t a n a b e SYSTEMS MANAGEMENT DEPT~ SUMISHO COMPUTER SYSTEMS CORPORATION キーワード: データマネジメント、集計解析表、 S ASシステム、 MSE x c e l 1 . はじめに 臨床開発業務から、市販後調査にいたるまでの一連の作業の中で、データに関係する作業 は、更に増大している。個々の作業フェーズにおける単体システムの運用から、各システム聞の 連携を確立し、作業のスムーズな移行を計り、更に、バリデーションを含めた新GCPへの、ンステ ム的な対応による作業軽減を考え、 SAS、ンステムを中心とした臨床データプロセスの統合運用 を検討した。 2 .システムの概要 C Ii n ‑ T a b u l a t e C Ii n ‑ M a n a g e r B a s eS A S S A S / S T A T S A S / F S P S A S / G R A P H ! S A S / P H ‑ CI jn jc aII i ソ フ ト ウ ェ7 i L 一一一一一一一一一」 ‑292‑
2 . 1 Clin‑Manager OS:Windows9 5、WindowsNT 使用プロダクト :BaseSAS、SAS/FSP システムの概要 臨床データマネ、ジメント支援、ンステム。臨床データの入力修正、運用管理を目的として 開発。弊社内で、実際のエントリー業務の運用管理を行うと共に適宜改訂を行ってきた。 弊社 SOPに適合すると共に機能操作性に慣れる。システム自体のバリデーション資料も 整備されている。 主な機能 .OB設計機能 ‑入力画面自動生成機能 .データ固定機能 ・読合わせリスト、履歴リスト出力機能 .セキュリティ機能 2 .2 C l i n ‑ T a b u l a t e OS:Windows95、WindowsNT 使用プロダクト :BaseSAS、SAS/STAT、SAS/GRAPH、MSE x c e l システムの概要 簡単なパラメータ設定による集計解析プログラムを自動作成し、定型的な罫線を設定し た帳票 ( E x c e lファイル)の自動作成が可能。また、パラメータや集計解析結果を一括管理 することで、集計解析結果の確認や訂正が容易にでき、再現性の確保を実現した。 システム自体のバリデーション資料も整備されている。 主な機能 ・帳票作成機能 (患者背景、分割表、信頼区間、臨床検査値クロス表、散布図、推移表) ・セキュリティ機能 ‑履歴管理機能 3 .統合運用について デ ータプロセスのベースを SASシステムとし、統一化により臨床デー夕、プログラムの流用性を図 り、業務プロセスの簡素化及び OM"‑'申請 市販後調査など次フェーズ、へのスムーズ、な移行が 実現可能となる。 4 . お問合せ 住商情報システム株式会社、ンステム・マネジメント事業部システム・マネジメント第三部 TEL :0 3 ‑ 5 6 7 4 ‑ 4 0 4 8 FAX:0 3 ‑ 5 6 7 4 ‑ 4 0 2 5 E ‑ m a i l :s a s @ s m s . s c s . c o . j p Qd nd つd
日本 SASユーザー会 (SUG1‑0) JMPを用いた WHO‑QOL質問表の解析について 0板東説也本 宮岡悦良率* 田崎美弥子寧* 事有限会社電助システムズ電脳事業部 事事東京理科大学理学部 Thea n a l y s i so ft h eWHO‑QOLq u e s t i o n n a i r eu s i n gJMP EtsuyaBandoh 率 E t s u oMiyaoka 寧 . MiyakoT a z a k i '• 事DENSUKESYSTEMSC o ., L t d . 事 S c i e n c eU n i v e r s i t yo fTokyo キーワード: JMPソフトウエア Version4.0、JMPScriptingLanguage(JSL)、QOL 日本・ロシア・スペイン 3カ国を対象とした WHO‑QOL質問表データを用い、先日リリースさ i v l Pソフトウェア V e r s i o n 4 . 0にてその集計及び解析を行ったC れた J 特に各種作業は J i v l Pソフトウェア V e r s i o n 4 . 0から加わった新機能 J I ¥ 伊S c r i p t i n gLanguage( 以 下 JSL)を用いて行った サンプルを交えながら報告する c C 1.はじめに WHO‑QOL 質問表は世界保険機構が定めた人々の「生活のしやすさ」を調査する為の質 6項目から構成され、各項目に対する回 問表である。国や自治体単位で実施し、内容は全 2 、 WHO‑QOL 質 問 表 や 調 査 に つ い て の 詳 細 答 は 5択方式が採用されている c 尚 は"QUALITYOFLIFE OF CAREGIVERS OFPEOPLEWITH DEMENTIA"[1999J ,Acta MedicaN a g a s a k i e n s i aVo . l44を参照のこと。 実際、収集された質問表を解析するには、次のような手順で行う。 1 ) 収集されたデータのクリーニング(欠損値・正常値等チェック)( 図1 ) ) 2 ) 各項目に対するヒストグラム出力及び基本統計量の算出及び解析(図 2 尚、以下に紹介する.JSLプログ.ラム名の後に 率が付いているものは、 JMPソフトウェアに c r i p tを自動的にジェネレートすることが可能で、ある。 てS ‑294‑
2
.データクリーニング
Samplel(データクリーニング)
Dt=i
f
(hostis(Windows),
Open(ぺ
."
iS
ugi‑J
̲
s
a
m
p
l
e"
ii
n
t
q
o
l
e
x
.
j
m
p
"
),
Open("::
S
u
g
i一
J
̲叩 n
6
I
e
:
i
n
t
q
o
l
e
x
"
)
)
;
く1
)く
くC
o
l
o
r
s
(
O
)
<くm
a
r
k
e
r
s
(
5
)
;
Dt<<
S
e
l
e
c
twhere(Q1
Dtく<
S
e
l
e
c
twhere(Q1)
5
)
<<
C
o
l
o
r
s
(
8
)
<<markers(1
0
)
;
IsMissing(Ql))<<Colors(14)<<
Dt<<selectwhere(
m
a
r
k
e
r
(
2
)
;
以下同様
Note:使
i吏用した Da
瓜t
a
占F
i
l
eは、生デ一タを一度 J
t
v
l
Pで読込み J恥
M問
Pd叫
at
お
as
e
飢t
を作成し、干臼Su凶
gi
‑J
̲
s
a
m
p
l
e
フオルダに i
n
t
同
q
o
l
目
eX
丸.
j
m
pとし、うう名で保存されている。
図 1 データクリーニング用 jSLサンプルプログラム及び出力結果
3
. ヒストグラム出力及び基本統計量の算出及び解析
質問項目に対して、度数分布やヒストグラムを作成し視覚的な面からのチェックを行う作業
を判断するだけではなく、どの質問項目が平均値の増減を
を行う c これはデータの「散らばり J
左右しているかの探求的な解析を行う際の判断材料とすることが出来る。そしてスコア算出に
ついては、国毎の平均の差や Weight をつけた計算等してつかが考えられるが、ここでは「国
毎の平均の差の検定 J
すなわち 3カ国聞における平均の差の検定を行ったc
Sample2ホホ(ヒストグラム出力及び基本統計 '
l
t
J
十三一一一一一一
Dist=distribution(Columns(Q1,
Q2,
Q3,
Q4,
Q5,
Q6,
Q7,
Q8,
Q9,
Q1
0,
Q1
1,
Q1
2,
Q1
3,
Q1
4,
Q1
5,
Q1
6,
Q1
7,
Q1
8,
Q1
9,
Q20,
Q21,
Q22,
Q23,
Q24,
Q25,
Q
2
6
)
)
;
D
i
s
t
<<{moments(O),
q
u
a
n
t
i
l
e
s
(
O
)
}
;
S
a
m
p
l
e
3
・
・ (解析)
OneObjニ Oneway(Y(MEAI
¥QOL
)
.X(COUI
¥THY),M
e
a
n
s
(
l
)
.E
a
c
hP
a
i
r
(
l
)
.A
I
IP
a
i
r
s(
l
)
, BoxP
l
o
t
s
(
O
),
MeanDiamonds(
l
)
,C
o
m
p
a
r
i
s
o
nC
i
r
c
l
e
s
(
!
)
)
;
:』lll 凶~I
図2 ヒストグラム出力及び解析用 jSLサンフ。ルフ。ロク、ラム及び出力結果
4
.まとめ
以上、簡単ではあるが jSLを用いて一連の作業を行ってきた c 但し jSLを jMPソフトウェアか
ら自動的にジ ェネレー卜することが可能なのは、グラフ出力や解析部分のみで、データテーブ
ル操作に関しては自動作成が出来ない点は、非常に残念であると共に今後に期待をしたい。
今回紹介した機能は jSLの一部であり、それ以外にも多くの機能が組込まれている。よって既
存の使用方法に jSLを上手く組み合わせれば殆どの処理が可能になるのではなし、かと思う。
‑295一
日本 5 A 5ユーザー会 (5U G I‑J) 幻尚子 里立変 悟学 正大 地潟 菊新 0昭 俊 彦 1)、稲葉裕 2、) 佐 藤 俊 哉 3)、 高木慶文 4)、 東 京 慈 恵 会 医 科 大 学 1)、 順天堂大学 2)、 京 都 大 学 3)、 子大 智科 美医 沢知 東山梨コホー トにおける生活習慣とその死亡原因との関係 A longitudinalstudyofl i f es t y l e sanddeathcausesi nHigashi‑Yamanashic o h o r t . l u t a k aI n a b a2l,T o s h i y aS a t o3 ,H i r o f u m iT a k a g i4l,SyogoK i k u c h i5l,Michiko T o s h i h i k oA g a t a1) Y 2 l Kurosawa . / J i k e i U n i v e r s i t y l l, J u n t e n d o U n i v e r s i t y2l, Kyoto U n i v e r s i t y3l, N i i g a t a U n i v e r s i t y ぺAichiMedicalUniversity幻 ラ キワード: コホー卜、生活習慣、全死因、悪J性 新 生 物 、 心 疾 患 、 脳 血 管 疾 患 く緒言> 生活習慣病は、我が国の死因の 1/3を占め、その対策は、国家的課題である。著者らは 山梨県東山梨郡の 3町村で東山梨コホートを設定し、ベースライン調査 (1 9 8 9年)後、長期間追跡し、 生活習慣と疾病、死因との関係を研究している。今回は生活習慣調査とその後生存死亡状況の追跡結果を 基に、性、年齢を考慮した上で、生活習慣と生死(死因別も含む)との関連を検討したので報告する。 く方法> 1 9 8 9年 1月に東山梨郡の 3町村で 30歳以上の住民を対象にコホート調査の一環として生活習 慣調査を行い、 9 , 068人から有効回答を得た。その後死亡調査を行い 1 9 9 3年末までに 4 8 8人の死亡が確 認された。総合生活習慣は、 B r e s l o w方法 11 f こ準じた 7項目とし(表 1)、実行している場合には 1点、し ていない場合には 0点を与え、各対象者の点数を算出した。これらの資料を基に、生死を従属変数(死亡 = 0、 生 存 =1) とし、総合生活習慣、性、年齢 (10歳間隔)の 3項目、及び生活習慣 7項目、性、年 齢の 9項目を独立変数としてロジスティックモデルにより、 SAS6.12 で解析した。従属変数の具体的項目 は生存または死亡、生存または癌(悪性新生物)による死亡、生存または心疾患による死亡、生存または 脳血管疾患による死亡の 4項目である。 表1. 7つの生活習慣 る す を ツ 一る ポとい スをな に食し 的朝を 期日食 定毎間 3. 適正体重を維持する 4. 過度の飲酒をしない RunO 巧/ 1 . 適正な睡眠時間をとる 2 . 喫煙をしない く結果> 対象者は 9, 068名(男 4, 2 8 2名、女 4, 7 8 6名)で、その調査開始時の年齢分布は、 3 0歳代 2 0. 4 ' % ( 男 21 .0%、女 1 9 . 9 % )、40歳代 20.5% ( 男 21.5%、女 1 9 . 7 % )、5 0歳代 21 .0% ( 男 21 .6%、女 2 0 . 5 % )、6 0 歳代 20.9%( 男 20.0%、女 21 .7%)、7 0歳代 1 2 . 6 ' } ' o( 男 12.0%、女 1 3 . 1 % )、8 0歳代 .U%(男 3.4%、女 4.6%)、9 0 歳代 0.5%( 男 0.3%、女 0 . 6 % ) で、平均は 5.U歳、標準偏差 1 4 . 7歳で、性別では女の方が1.4歳高かった。 総合生活習慣の性別得点分布は、 7点 1 9 5名・ 3% ( 男 1.5%、女 4 . 6 % )、 6点 1 . 0 9 7名・ 17% ( 男 11 .2%、 女2 3 . 1 % )、 5点 2 , 0 4 3名・ 32%( 男 28.1%、女 3 5 . 5 % )、4点1.967名・ 31%( 男 35.1%、女 2 5 . 9 % )、 3点 9 3 4 名・ 15%( 男 19.5%、女 9. 4 % ) 、 2点 1 8 1: 名 ・ 3 ' ; ‑ ' 0( 男 4.2%、女1.4%)、 1点 2 1名・ 0%( 男 0.5%、女 0 . 2 % ) であった。 適切な生活習慣の頻度は、適正体重維持:72%、毎日の朝食:96%、間食をしない :53%、適切な睡眠 69%、 禁煙:48%、過度の飲酒をしない 91%、適度の運動:31%であった。また、年齢階級別総合生活習慣得点分布 は 、 30歳代では 5点 34%、4点 25%、4 0歳代では 5点 34%、4点 30%、5 0歳代では 5点 32%、4点 31%、6 0 歳代では 4点 34%、 5点 29%、7 0歳代では 4点 34%、 5点 28%、80歳代では 4点 43%、 3点 2 4 ' X ,と、中 ・壮年層では 5点が中心となるが、老年層では 4点が中心の分布となる。 従属変数の頻度は生死では死亡 488名(男 2 7 4名、女 214名)・生存 8, 5 8 0名である。性年齢階級別死亡 比率(年齢は調査開始時)は 3 0歳代で男 0.2%、女 0.3%、全体で 0.3%、4 0歳代で男1.1%、女 0.3%、全 体で 0.7%、5 0歳代で男 3.6%、女 0.9%、全体で 2.2%、6 0歳代で男 6.7%、女 4.1%、全体で 5.2%、7 0歳代 で男 18.5%、女 8.7%、全体で 13.2%、8 0歳以上で男 4 6 . 9、女 4 0 . 5、全体で 43.0%で、あった。性年齢階級別 死亡比率では、やはり、男性の方が死亡時の年齢の低いことが判明した。性別死因では、男は悪性新生物 32%、心疾患 23%、脳血管疾患 11%、外国死 6%、その他 29%である。一方、女では悪性新生物 29%、心 疾患 17%、脳血管疾患 14%、外因死 5%、その他 35%で、男で悪性新生物、心疾患が多く、女では脳血管 疾患が多いのは、全国の状況と類似している。 生死と総合生活習慣の得点分布については得点が 1点の者では、死亡 14.3%、生存 85.7%、 2点の者で は、死亡 9.4%、生存 90.6%、3点の者では、死亡 6.5%、生存 93.5%、4点の者では、死亡 4.2%、生存 95.8%、 5点の者では、死亡 2.6%、生存 97.5%、6点の者では、死亡1.6%、生存 98. 4 % 、 7点の者では、死亡1.0%、 生存 99.0%と総合生活習慣得点の低い者の方が死亡割合が高い (pニ 0 . ( 0 0 )。 性、年齢を考慮、した上での総合生活習慣と死亡との関係は表 2, 表 3の様であった。生存及び全死亡、 生存及び心疾患よる死亡については、回帰係数は有意となり、死亡に及ぽす総合生活習慣の o d d s比の 9 5 % 信頼区間も生存及び全死亡に閲しては、1.0 8 7 ‑ ‑1 .4 1 9 0、生存及び心疾患よる死亡に関しては1.20 5 5 ‑ 2 . 1 5 6 9 となった。 一方、生存及び癌(悪性新生物)よる死亡、 生存及び脳血管疾患よる死亡に関しては、総合生活習慣は 有意な役割をすることはなかった。 296
表2 . 多重ロジスティックモデルによる総合生活習慣と死亡との関係 亡 死 る よ亡 に死 )亡る 物死よ 生るに 新よ患 性に疾 亡悪患管 死(疾血 全癌心脳 びぴぴび 及及及及 存存存存 生生生生 表3 p 0 . 2 1 6 8 0 . 1 1 8 7 4778 0. ‑ 0 . 0 7 4 1 0 . 0 0 1 4 0 . 2 8 3 0 0 . 0 0 1 3 0 . 7 0 2 4 多重ロジスティックモデ、ルによる死亡におよぼす総合生活習慣の o d d s比 (95%信頼区間) 生存及び全死亡 生存及び癌(悪性新生物)による死亡 生存及び心疾患による死亡 生存及び脳血管疾患による死亡 表 4. 回帰係数 下限 上限 1 .0 8 7 1 0 . 9 0 6 6 1 . 20 5 5 0 . 6 3 4 7 1 . 41 9 0 1 . 39 8 3 2 . 1 5 6 9 1 . 3582 多重ロジスティックモデルによる生活習慣各項目と死亡との関係(有意差のあるもののみ) 回喧係数 P 生存及び全死亡 体重 H 垂H民 喫煙 運動 ‑ . 0 8 1 8 ‑ . 2 9 6 9 ー. 3 9 3 1 ‑ . 3 9 2 9 0 . 0 0 0 6 0 . 0 3 6 3 0 . 0 3 8 4 0 . 0 1 1 7 生存及び癌(悪性新生物)による死亡 体重 喫煙 ‑ . 0 8 3 7 ‑ . 6 3 6 9 0 . 0 3 9 3 0 . 0 4 5 6 生存及び心疾患、による死亡 陸 1民 ‑ 1 .0 6 5 1 0 . 0 0 0 8 生存及び脳血管疾患による死亡 該当無し 生存及び全死亡、生存及び心疾患よる死亡については、良い総合生活習慣を持つ者の方が生存の可能性 が高いことが判明した。また、表 4に多重ロジスティックモデルによる生活習慣各項目と死亡との関係、(有 意差のあるもののみ)を示す。多重ロジスティックモデルにより、適正体重維持、適切な睡眠、禁煙、定 期的運動が、全死亡、悪性新生物、心疾患の死亡を低める方向に働いていることが判明した。特に適正体 重維持は、全死亡、悪性新生物の死亡を低める方向に働く重要な要因であることが判明した。 r e s l o w,S t a m f e r , Vuorl) ‑3) らの報告でも、よい総合生活習慣を持つ者、適王体重を維持し く考察> B ている者は疾病に擢患する可能性も低く、全死因の死亡率が低いと報告されており、今回も同様の結果を 得ている。特に生存及び心疾患よる死亡に関しては、死亡例が 4 7例と少ないにも拘わらず、回帰係数は d d s比の 95% 信頼区間も1.2 0 5 5・・2 . 1 5 6 9 となり、 1から大き 有意となり、死亡に及(ます総合生活習慣の o く離れ、よい総合生活習慣を持つ者は、心疾患による死亡の可能性が低いことが示されたっしかし、 t h e F r a m i n g h a r nS t u d y, NHANES s t u d y, )‑B) では運動不足、喫煙、若い世代に比べ中年での体重増加などは心疾 患死亡のリスクフアクターとされたが、今回の結果は必ずしもそれを支持するものとはなっていない。今 後症例を増やすなどしてさらに検討していく必要があろうっ く 結 語 > 山梨県の東山梨コホートで生活習慣調査を行い、その後の死亡調査などを基に、性、年齢を 考慮した上で、総合生活習慣と生死との関連を検討した結果、良い総合生活習慣を持つ者は、全死亡と生 存、心疾患による死亡と生存に関して、生存の可能性が高いことが判明した。また、生活習慣の内容まで 吟味すると適正体重維持が重要要因と判明した。 文献 1 )Bel Io c,N . B .,a n dB r e s l o ¥ ¥,L : R e l a t i o n s h i po fp h y s i c a lh e a l t hs t a t l l sa n dh e a l t hp r a c t i c e s .P r e ¥ ' e n t i ¥ ' eM e d i c i n e 1: 40 9・4 2 1, 1 9 7 2 1 9 7 2: 2 )S t a r n p f e rMJ. Hu F B . MansonJE,RimmEB,Wil Ie t tW P r i m a r yp r e v e n t i o no fc o r o n 叫 h e a r td i s e a s 巴 i n 巴s t y l e . NE n g lJ加l e d .2000J u l6 ; 3 4 3( 1 ): 1 6 ‑ 2 2 ¥ ¥ ' o m e nt h r o u g hd i e ta n dl i f l 3 )V u o r i1 . Doesp h y s i c a la c t i u t ye 油 田c eh e a l t h ? P a t i e n tEducC o u n s .1 9 9 8Apr ;3 3( 1Suppl ): S 9 5 ‑ 1 0 3 巴1 ,W . B : H a b i t u a ll e v e lo fph 戸i c a la c t i ¥ ' i t y田 dr i s ko fc o r o n a r yh e a r td i s e a s e ;t h eF r a n l i n g h a mS t u d y 4)Kann 9 6 7 ; 9 6 : 8 1 1・8 1 2 . C a n a d i a nM e d i c a lA s s o c i a t i o nJ O l l m a l,1 ' A g o s t i m oR .K a n n e lW,CobbJ .B e n e f i t sa n da d v巴r s 巴e f f i 巴c t so fw e i g h tl o s s .Obser¥剖i o n sfromt h e 5 )H i g g i n sM,D 巴m Med1 9 9 3 ; 1 1 9 : 7 5 8 ‑ 6 3 . F r a m i n g h a n ls t u d y .Annl n t 6 )H a r r i sTB,B a l l a r d ‑ B出も c s hR .MadansJ .MakucD M FeldmanJ1 .0ver¥v e i g h t,w e i g h t1 0 5 5a n dr i s ko fc o r o n a r 下 h e a口 d i s 巴a s巴 i no l d e r¥¥'omenηleNHANES1e p i d 巴m i o l o g i cf ol Iow‑ups t u d y .AmJE p i d ほm i o I 1 9 9 3 ; 1 3 7 : 1 3 1 8 ‑ 2 7 7 )HammP .S h e k e l l eRB .S t a m l e r1 .L a r g 巴f l u c t u a t i o n si nbod~ ・\\'eight d u r i n gyounga d u l t h o o da n dt w e n t yf i ¥ ' ey e a r r i s ko fcoronmyd e a t hi nm e n .AmJE p i d e n l i o l1 9 8 9 ;1 2 9 : 3 1 2 ‑ 1 8 8 )Wa 1 kc rM,e t a. lW eightc h a n g ea n dr i s ko fh e a r ta t t a c ki nm i d d l e ‑ a g e d .I n tJE p i d e m i o l1 9 9 5 ; 2 4・694・7 0 3 . ‑297‑ c . 予
ポスターセッション 金融
日本 SASユーザー会 (SUGI-~) 資産価格形成モデルへの マーケット・マイクロストラクチャーによる流動性の導入 仲村敏隆 東京理科大学大学院経営学研究科経営学専攻 TheE f f e c to fL i q u i d i t yonS t o c kReturnsi nt h eJapaneseMarket : A s s e tP r i c i n gModelR e c o n s i c l e r e d T o s h i t a k aNakamura S c i e n c eU n i v e r c i t yo fTokyoG r a c l u a t eS c h o o lo fManagement キーワード: SAS/ETSソフトウェア、流動性、マーケット・マイクロストラクチャー 1.はじめに 本研究では、日本の株式市場(東京証券取引所市場第 1部)について、資産価格形成モデルに市 場の流動性要因を導入し、流動性が株価形成(資産価格形成)の有意な決定要因かを SAS/STATソ フトウェア、 SAS/ETSソフトウェアを用い検討し、価格形成と流動性の関係を考察した。また、 流動性指標はさまざま存在するが、大きく分けると質的な指標と量的な指標になることから、そ れぞれ K yle型の λと売買回転率について比較検討した。 2 .推計の期間と方法 推計の期間は 1 9 8 7年初 ‑ ‑ ‑ 1 9 9 7年末とし、サブセットとして 1 9 8 7年初 ‑ ‑ ‑ 1 9 9 1年末、 初‑ ‑ ‑ 1 9 9 7年末、 1 9 9 3年 1 9 8 7年初 ‑ ‑ ‑ 1 9 8 9年末、 1 9 9 1年初 ‑ ‑ ‑ 1 9 9 3年末、 1 9 9 5年初 ‑ ‑ ‑ 1 9 9 7年末につい ても推計を行い、都合 6期間について推計を行った。 推計の方法は以下のとおり。 6つの推計期間について、推計期間の最初の年の 1 2月時点の株価の終値と発行済み株式数をかけ、 各銘柄の時価総額(企業規模)を計算する。求めた時価総額の大きさにより、 rankプロシジャを用いて 銘柄群を 5等分し 5つのポートフォリオをつくる 3 つぎに、 6つの推計期間について、推計期間の最初の年の日次の株価の終値、出来高のデータから 以下の式により、 r e gプロシジャを用いて流動性指標の K y l e型の λを各銘柄について推計した ζ P:株価、 q :出来高、 0:買主導(+1 )か売主導(‑1)かを示すダミー、 E JJ I ︑ ( • I n~ ‑I n~-l = A q {+ψ( D {‑D{̲l)+1::{ 誤差項、 t :時点、である 先 3 に時価総額で 5等分した各ポートフォリオの中を、このようにして求めた λ(流動性指標)の大きさにより、 ‑300‑
rankプロシジャを用いてさらに 5等分する。したがって都合 2
5個のポートフォリオができる。
つぎに、これら 2
5個のボートフォリオについて、 Famaa
n
c
lFrenchモデ ルに流動性ダ、ミーを追加した
以下の式について、 s
y
s
l
i
nプ口、ンジャを用い、オプ、ンョンで'
s
u
rを指定し、 6つの推計期間について月次
データにより SURで 推計を行った。
6
R
;
r= α;+ 山
+
β;M
K
I
;+仰
B
r+kJ!M
い EiJ
一
・(
2
)
R
:ポートフォリオ Iの超過収益率、 L:5分位の流動性グループのダミー変数、 MKT:市場の超過収益率、
5MB:企業規模、 HML:簿価時価比率 (BPR=l
IPBR)、1
:ポートフォリオ、 t
:時点、である。超過収益率
を求めるために長期国債 1
0年物のデータを、市場を代理するデータとして NIKKEI225のデー
タを用いている。
3
.推計の結果
株価形成(資産価格形成)において、人と売買回転率は時価総額(企業規模)がそれぞれ、小 中
規模かっ流動性が中
小
高の銘柄で、小
中規模の銘柄で有意であった。日本の株式市場において、
中規模の銘柄には収益率を流動性要因が説明している部分があることがわかった。また流動
性指標とはいっても、質的な指標 (λ)と量的な指標(売買回転率)により、収益率への効き方は異
なるようである。そして日本の株式市場では、流動性が高いほど流動性 I単位の増加に対してよ
り高い収益率が得られることがわかった。流動性プレミアムといわれる、流動性の低い銘柄(リ
スクが高い銘柄)の収益率が高くなる、という原則と全く逆になっていることがわかった。
4
.おわりに
株価形成(資産価格形成)に流動性要因が影響するということは、フィイナンスの理論の示す均衡値
から現実の値が釆離し、理論の上で、は裁定機会が残っていることを意味する。流動性要因が市場参加
者の知るところとなっても、なお存在するなら、市場は効率的であるが価格形成理論・モデルが誤っ
ているか、市場が非効率的であるかということになる。前者は価格形成理論・モデルの改良を促すこ
とになり、後者は市場改革の必要 性の問題提起につながると考えられる。
I
このように株価形成(資産価格形成)に流動性要因が影響するか否かを検証することは、理論と現実
の釆雌をっきつめ、理論あるいは現実のいずれか、または両方に改善を求めるというインパクトを持
っている。
<主要参考文献>
B
r
e
n
n
a
n,
ト1
ic
h
a
e1叩 dA
v
a
n
i
d
h
a
rS
u
b
r
a
h
m叩 Y四 [
1
9
9
6
,
]
"
M
a
r
k
e
tM
ic
r
o
s
t
r
u
c
t
u
r
e叩 dA
s
s
e
tP
r
i
c
i
n
g
:o
ntheCompensationfor1
1
1i
q
u
i
d
i
t
yi
nS
t
o
c
kR
e
t
u
r
n
s
",
J
o
u
r
n
a
lo
fF
i
n
a
n
c
i
a
lE
c
o
n
o
m
i
c
s4
1,p
p
.
4
4
1
‑
4
6
4
.
tム
司
ハ
u
qd
日本 SASユーザー会 (SUG1‑0) サプライチェーンのパターン化とその評価に関する研究 李絹 株式会社金融エンジニアリング.グループ コンサルタント本部 AStudyont h ePatternandEvaluationo fSupplyChain L i Qi ConsultantDepartment、F i n a n c i a lEngineeringGroup,I n c . キーワード: SCM、数量化第一類、数量化第三類、物流パターン 1.はじめに 日本におけるサプライチェーン戦略の現状と問題点を明らかにすることによって、従来のサプライチ ェーン戦略から、価値創造 CValued‑‑Marked)チェーン戦略への移行に伴い、トレードオフのパラダイ ムが崩れていることを示し、物流のパターン化を行う必要性を指摘した。本論文では、力一ゴ、ニュース 9とし、くつかのケーススタディを用いて、物の 物流要覧に収録されている荷主企業 1000社の物流デ‑ 流れを分析することによって、いくつかの物流パターンを抽出し、分類することにした。 2 .サプライチェーンにおける物流パターンの定義 表2 ‑ 1 物流パターンの定義 義 定 A 無在庫直 ‑工場倉庫 配送デポ(仕分け機能)‑ユーザー 送フロー式 B分散新型 C集約新型 ‑工場(生産、保管機能)‑ユーザー ‑工場 ‑TC或は中継センター(仕分け機能)‑ユーザー ‑工場倉庫 配送センター(多ヶ所)‑TC或いは DC‑ユーザー ‑工場 地域 SP( 分散型の自社拠点或は販売会社を利用した拠点)‑ユーザー ‑工場倉庫 集約ハブセンタ一(一ヶ所)‑TC、DC( 営業倉庫或は地方デポ)‑ユーザー ‑工場 集約 1¥ブセンター(ーケ所或は二拠点体制)‑ユーザー ‑地域商品センター(一ヶ所以上)‑ユーザー 3 .物流パターンに関する解析 3 . 1 物流パターンの関係分析 調査対象企業のリスト:力一ゴニュース 99年版「物流要覧」より、五つの業界に絞って 174社を調べ た。物流パターンと業種との関係を調べるため、カイ 2乗検定で行う。結果は有意になっているため、物 流パターンに差があることが認められた。すなわち物流パタ ると考えられる。 3 0 2一 ンと業界因子の有意な関係の存在があ
3 . 2 数量化三類によるメーカーの対経営インフラ軸の特定 業種、物流パターンと物流管理形態から構成された会社経営インフラがどのような特徴を付 けるのを探るため、数量化三類分析を行った。結果としては、参照図 3・2・ 1 .第 1軸がプラスからマイナスに繊維、精密、紙、機械、輸送用機器の順に並んでいることから、第一軸 は製品の特性を現れていると言える。(第一軸の右から左まで革新的な商品 機能的な商品という順 に解釈できる)。 .第 2軸のプラスからマイナスに分散新型、無在庫直送、集約新型という順に並んでいることからサプ ライチェーンの戦略指向を表している軸と見なすことができる。(第 2軸の上から下まで物流拠点が顧客 指向を特徴とした市場対応型 メーカー指向を特徴とした資源指向型という)1固に解釈できる)。 .繊維、集約新型と機械、無在庫直送、自社菅理運営という二つグループを見出すことができる。 1 1 2拍 1 1 1拍│ ‑業界 置物流パヲン 物流管理形態 l 図 3・2 ‑ 1 数量化 E類による第 1軸と第 2軸のカテゴリースコア布置図 4 .物流パターンと各パフォーマンスとの関係分析 4 . 1 売上高対物流コスト比率と物流パターンの関係から、物流コスト比率を高くする要因は分散 型と集約型に対して、売上高対物流コスト比率を低くする要因は無在庫直送フロー式で、ある ことがわかった。 4 . 2 棚卸資産回転率と物流パターンの関係から、集約新型は回転率を高くする要因になり、分散 型は回転率を低くする要因であることがわかる。 4 . 3 ROAと物流パターンの関係を考察した。 5 .結 論 業界による物流パターンに差があることを示した。このような結果から、 SCMを進めるにあたって は、業種や業態によって事業特性が遣うことを念頭に置かなければ成らないことが示唆され、特性に 合った SCMの形態 (SCMを実現するための手段や仕組み、仕掛け)にしなければ、需要の取り込み や変化への対応、顧客サービス水準の維持が困難になると思われる。さらに、パフォーマンスとの関 係から、物流パターンと物流管理形態の有効性を検証するとともに、物流拠点配置、アウトソーシング η0 nU q u に関する戦略について考察した。
日本 S A Sユーザー会 (SUG J ‑J) 地域協同組織金融機関の収益性分析近畿圏を例として 川向肇 神戸商科大学 商経学部管理科学科 AnE m p i r i c a lStudyonP r o f i t a b i l i t yo fL o c a lS m a l lC o o p e r a t i v eBanksi nK a n s a iArea HajimeKawamukai n i v e r s i t yo fCommerce Departmento fManagementScience,KobeU キーワード:地域メッシュデー夕、業務純益分析、共同組織金融機関 1 .はじめに 金融界における規制緩和や金融機関の相次ぐ経営破綻の結果、他業種からの銀行業への参入、 都銀等の業態を越えた統合・業務提携、あるいは合併などに見られるように金融界の再編の動きが 激しい。地域密着型の経営を行ってきた金融機関で、ある信用組合・信用金庫で、も、一方に規模拡大 や新商品開発に力を入れる組織もあれば、他方経営破綻のため、解散や吸収合併される組織もあ る。このように多様な動きを見せる地域を活動拠点として営業を行う信用金庫・信用組合の現状を、 庖舗展開してしも小地域の経済特性・経済地盤、他の金融機関との競合関係、さらには、個別の企 業の経営組織に関する指標の 3つの観点を計量的に示す指標を作成し、 J MPVersion3.2.6を用い た線形回帰分析によって定量的に計測することを試みた。 2 .作業仮説と使用したデータ 地域系金融機関に関する従来の計量的研究では、経済学的な利潤最大化仮説を前提とした議論 が中心であり、経営的側面、立地の側面の考慮が十分でなしものか、地理学的観点からの、庖舗の 地理的な空間分布や預貸率ベースで、の空間的な特性の記述を中心とするもので、あった。本研究で は、これら両者の研究に配慮、しつつ、信用金庫・信用組合といった地域の金融機関のパフォーマン スを預金量・貸出総額、業務純益総額などの規模の指標により評価するのではなく、経営資源がど の程度効率的に運用され収益を上げているかの指標、具体的には業務純益率 (ROA 業務純益/総 資産)で捕捉する。この業務純益率を規定する要因として、図?に示すような地域の経済地盤、他の 金融機関との競合、企業の組織構造という観点を表す変数を用いて、定量的に分析する。 変数作成の詳細は川向 (2000)に譲るが、地域の経済基盤の指標として、よりミクロな分析を可能と する地域メッシュデ、ータを活用し、支庖近傍の 9個の 4 次 (500m)メッシュ(入手できない場合は、 4 3 0 4一
個の 1kmメッシュ)内に居住する 2次 ・ 3次産業の従業人口を預金獲得先の代理変数とし、資本金 1000万円未満の事業所数を貸出先を示す変数とし、資本金 1000万円超の中堅以上の事業所数 を、都市銀・地方銀行との競合関係にある貸出先を示す変数として想定し、各金融機関ごとに集計 した。しかし、規模の影響を排除するため、これらを一庖舗あたりの値として分析に利用した 3 庖舗周辺の金融機関との競合関係も収益性に影響するであろうと考えられる。金融機関が集中的 に立地しているいわゆる金融街や地域の中心地に立地すれば、取引費用を下げ金融機関の信用 度を増すとしづメリットもある半面、融資、預金獲得の両面で他の金融機関との競合関係に入ることも あろう。これらのことを考慮し、住所情報に基づき支庖の立地する近傍の 9個の 500mメッシュに含ま れる地方銀行以上の金融機関の支店数 CNB、同信用金庫信用組合の支庖数 CCB、郵便局農協 等の局・支所数 CPBを計測した。なお分析にあたっては、規模効果を補正するためー庖舗あたりの 指標に変換して分析に利用した。 さらに、企業の組織構成指標として、直上上司が配下に何人の部下を平均的に抱えているのかの 4 に、職位のランク数の逆数をかけた 一種の組織構造指標)を作成し、組 織構造のフラット性と業務純益率と の関連を分析するため使用した。 ︑¥一山町一出⁝⁝今一 し で i f ‑ ‑ e d一 一 一 一 値 h ‑ ‑ 一 札 ︑ 江 川 しu 一山一・ で 仁 川 以 下 e M A A ‑‑gli m ‑ p e :ded 一 日 一 三 三 一 山川川以下叫一一 λ ム ; 一 一一 ;‑rw 収益性 ( R O A ) 級同等級以上の上位職位者の割合 ;づ ! 割合 DPE(全職位者に占める部長 組織指標 地域性(地盤) NA W.SBF.LBF DPE 図 1 収益性に影響を与える指標 3 .分析手法と分析結果 分析手法としては、結果の直感的理解が容易な単純線形回帰を JMPVersion3.2.6により行い、各 変数についての係数とその係数の有為性を確認した。分析の結果は、以下の通りで、ある(カッコ内の 数値は t値であり、それぞれに付された記号は、 は 1% 有意、勺ま 501も有意水準であることを示す)。 ROA=1.365+ 0 . 0 0 7 1SBF‑0.0014LBF+3.9E‑6NAW+0.0038CNB+0.037CCB‑0.34CPB‑0.0053DPE ( 6 . 9 * * ) ( 3 . 3 0 * * ) ( ‑ 2 . 8 6 * * ) ( 0 . 11 ) 勺 ( 2 . 0 5 ( 0. 41 ) ( ‑ 2 . 9 3 * * ) ( ‑ 2 . 5 7・ ) N=57,R2A d j = 0 . 3 4 9 ‑結果の解釈 小規模事業者や個人を営業対象とした金融業務こそこれら金融機関の収益性の基礎であることが 示された。郵便局等との競合関係が推測される反面、銀行、信金信組支店間との競合関係の影響 は明白ではない。組織構成に関しては、フラット化組織によるデ、メリットの存在がうかがわれる。 【参考文献】 ) I [向肇 (2000),地域系協同組織金融機関の収益性に関する研究一関西地方を例として一,神戸商 科大学創立 70周年記念論文集, pp213‑231. ‑305‑
ポスターセッション システム
日本 SAS ユーザー会 (SUGI-~) W i n d o w s版 S A Sとテキストエディタの 連携パッケージ S ASOLEの開発とその紹介 菊地賢一 大学入試センタ一研究開発部 I n t r o d u c t i o nt oSASOLEi nSASSystemf o rWindows K e n i c h iKIKUCHI ResearchD i v i s i o n,N a t i o n a lCenterf o rU n i v e r s i t yEntranceExaminations キーワード: Windows版SASシステム、テキス卜エディ夕、 PROGRAMEDITOR 1.はじめに Windows 版SASシステムを利用しているユーザの多くは、 SASプログラムを汎用テキ ストエディタで作成し、 SASシステムでは SUBMITだけを行っている場合が多い。これ 孔生 MEDITOR のユーザインターフェースには、汎用機の形態 は 、 SASシステムの PROG を踏襲している部分が多いため、なかなか慣れることができないためであろう。そこ で、こういったユーザのために、テキストエディタから直接 SASシステムにプログラム 可能とするプログラムパッケージ、の開発を行った。 をSUBMIT 開発したパッケージ SASOLEを用いることにより、 Windowsユーザの間で広く用いら 版SASシステムの PROGRAMEDITORのよ れている秀丸エディタを、あたかも Windows うに利用することが可能となる。 2.機能 秀丸エディタで作成した SASプログラムを、秀丸エディタのマクロ機能を用いて、 SASシステムに直接 SUBMITする。 SUBMIT する際には、 PROG 孔生 MEDITORと同様に、 選択が行われていればその部分のみがSUBMITされる。また、選択が行われていなけれ ば、ファイルの内容のすべてがSUBMITされる。 3.パッケージ内容 ‑プログラム SASOLE.EXE .秀丸マクロ SASOLE.MAC ただし、 V i s u a lB a s i c6関連の DLLが必要である。なお、後述の URLから DLLも含めて ダウンロードが可能である。 308
4.使用方法 i .SASプログラムの選択 秀丸エディタで作成している SASプログラムの中で SUBMITする部分を、 て選択する。 ドラッグし 2 .秀丸マク口 SASOLE.MACの実行 秀丸マクロ SASOLE.MACを実行する。マクロの初回の実行時に、 SASシステムが自 動的に起動して、セッションが開始する。セッション開始時には、作業ディレクトリ を選択するダイアログが開くので、作業ディレクトリを指定する。なお、秀丸エディ タの上で、 SUBMITする部分が選択されていない場合には、ファイルの内容のすべてを SUBMIT する。また、 SASOLE.MACを秀丸エディタのツールパーに登録することで、ツ ールパーのボタンを押すだけで SUBMITが可能となる。 (注) SASシステムの起動方法について SASシステムは、 01 玉オートメーションにより起動する必要があり、すでにスタート メニューなどから起動されているセッションには、 SASプログラムを SUBMITすること はできない。また、 (他のアプリケーションからであってい SASシステムがO日 オ ー トメーションによりすでに起動されている場合には、新たなセッションは起動されず に、そのセッションに SUBMITされる。 5.必要条件 ‑動作確認 V i s u a lB a s i c6で作成し、 Windows9 8 ( 9 5 ) 、Windows 版 SASシステムリリース 6 . 1 2、 秀丸エディタ V e r s i o n2 . 2 9で、動作確認を行った。 •V i s u a lB a s i c6の DLL V i s u a lB a s i c6関連の DLLが必要である。なお、後述の URLから DLLも含めてダウンロ ードが可能である。 .SASシステムのレジストリへの登録 Windows 版 SASシステムは、製品版 CDのインストーラで通常どおりインストールを 行い、レジスト Iハこ正確に登録されている必要がある。登録されていないと、 O日 オ ー トメーションから起動できない(登録されていない場合の回避方法は、後述の URL参 照)。 6 . 秀丸エディタ以外のアプリケ‑ション 本プログラム (SASOLE.EXE) は、クリップボード内のテキストデータを SASシステ ムに SUBMITするように設計されている。このため、単独で用いたり、他のエディタな どとの併用も可能である(詳細は、後述の URL 参照)。 配付元 h七 七p://www.rd.dnc.ac.jp/‑kikuchi/sofヒ ware/SASOLE.h七ml 309
日本 SASユ ー ザ ー 会 (SUG1‑0) webEISソフトウェアを体験 阿部一也 渡部義弘 株式会社タクミインフォメーションテクノロジー SAS開発推進部 ITソリューションク。ループ webEIS Software Report KazuyaAbe Y o s h i h i r oWatanabe SASSystemDevelopmentD e p t .TakumiI n f o r m a t i o nTechnologyI n c . キーワード: webEISソフトウェア 1 .はじめに webEIS ソフトウェアはブ、ラウザ上で、動作するレポートを設計で、きる開発ツールで、ある。 J a v a を利 用する事により Web上で MVAを実現し、ホームページ作成ツールの様な操作感で、レポートを作 成でき、リモートアクセスでいつでも最新のデータをレポーティングできる。使用したのは 3版では あるが、 webEISソフトウェアをレポートしていきたいと思う。 2 .アプリケーションの作成 webEISソフトウェアのアプリケーション作成には、 J a v aや SASシステムのプログラミングの知識は 必須ではなく、 SAS/EIS ソフトウェアと同様に、マウス操作とフィールド への入力だ、けで、簡単に作成 することができる。コード、を記述することなく、マウス操作だけで表示させたいデータや表示位置を 変えられることは初心者には取り付きゃすく、また視覚的に設計できることは開発時間の大幅な短 縮につながる。設計中にも画面のレビューが可能で、データテーブルを基準に連動するグ、ラフは 動かすたびに即座に情報を表示してくれる。 以下に簡単ではあるが、作成手順を挙げる。 ① webEISを起動し、ド、キュメントとセクションを作成 ② SASサーバーへ接続し、使用するデータを選択 (MDDBテープ、ルや SASデータセット) ③グラフ、表、テキスト等のオブ、ジェクトをド、ラック、&ドロップで、配置 ④行、列項目、統計量をド、ラックー&ド ロップで設定 a v aアプレットとして保存し、 Webブ ラウザ上でプレビュー ⑤ J ‑ 3 1 0
3 .アプリケーションの使用 作成したアプリケーションを Webブラウザ上で使用する。ブラウザ上には、ナビゲーションエリア e b E I Sソフトウェアで作成した画面が表示される。 (コンテンツ、データ)と、 w 主:~と ー 、F 再民み辺d歩 本 ‑ " 叫).(1: P 昌 M 副旦i 孟 盟 古 集 " ' , 表示申 :̲,'¥‑,/:n@l Communic.lor(Q̲) ファイ刷 E ) C 三 ゴ 3 l f ‑ ' ‑ ) ) ' イ ド 一E 竣素 印闘 tう " 2 : : . 1 肘 2リ テ4 r ③④ 司芭 ーク工り 目行 " 1 、 商 品 売り土 、'"績~'I 売りよ ー回列 、 売 り 上 げ' t d .i 1 読売り上げ出負 託完りよ:ア開軍 一註急吊社量 話会計 e JPRD臼 正 + 守 層 話 詔q 売り上げ守 l l ' l売りよ:1'1‑ 1 ‑ 、 種 主l . ' 売りよげ1 日盛拝, 去5 り止二1 1J 1 i U1 : 売りよげ埠威金割 誕売りよげ予,閉 読売りよ>:,退院寧ぶ 高畠町タイブ 家具 カナダ IFイツ i 末 国 ♂合計 宅 , , 1 1 , ̲ , 似 包 直孟のタイブ回 「 S E ? 民二二百二;;;J τ . . τ τ一寸 「 臨 時 タ イ ヲ 固 口事 A ~'..ツ 田章 A 角~. ① 使用した主な機能: ①データタブから、行、列項目、統計量を選択し表示するデータを変更 ②更新ボタンを押し、最新のデータへ更新 ③テープ、/レやグラフ上で、ドリルダウン、サブ セット、回転等を実行 F ④データを E x c e l( c s vファイノレ)へ書き出して保存 4 .まとめ ブラウザ上でデータを使用するために、 S A Sサーバーが設定、使用できることが前提条件となる。 この前提条件をクリアできれば、アプリケーションの構築、 Web上での使用ともに簡単に行なうこと ができる。特にアプリケーションの構築は、エンドユーザーで、も短時間で、作成することが可能で、変 e b E I Sソフトウェアを体験し、意思決 更などの編集作業も速やかに反映させることができた。今回 w 定支援のために必要な機能を備えた有用なソフトウェアとしづ感想をもった。 3 1 1一
日本 SASユーザー会 (SUG1‑0) Open OLAP Serverの機能と利用方法 宗像志保 株式会社タクミインフォメーションテクノロジ‑ SAS開発推進部 ITソリューショング、ノレープ IntroductionofOpenOLAPServerSoftware S h i h oMunakata SASSystemDevelopmentD e p t .TakumiI n f o r m a t i o nTechnologyI n c . キーワード: OpenOLAPServerソフトウェア 1 .はじめに OpenOLAPS e r v e rソフトウェアは OLEDBf o rOLAPに対応した OLAPツールから MDDB(多 次元データベース)に直接アクセスし、 OLAPの技術を利用するためのソフトウェアです o SASシス テムがインストールされていないクライアント環境からサーバー環境の SAS/MDDBソフトウェアの機 能を利用できること、普段使い慣れているツールを利用して本格的な OLAP環境と処理が実現で e r v e r3 . 0を使用する機会を得られたので機能と利用方法 きることが利点です。今回 OpenOLAPS をユーザーの視点から紹介しますc 2 .OpenOLAPS e r v e rを利用するには Open OLAP S e r v e rソフトウェアは AIX、HP‑UX、S o l a r i s、WindowsNT、Windows95など多くの OS環境で利用が可能です。一般的にはサーバー環境の MDDBをクライアントからアクセスするク e r v e r ソフトウェアと ライアント/サーバー環境でL利用します。サーバーマ、ンンに SAS/MDDB S Open OLAP S e r v e rソフトウェアをインストーノレし、クライアントには OpenOLAP S e r v e rC l i e n tと OLAPツールのインストールが必要になります。クライアントに SASシステム環境は必要ありません。 実際に利用する場合は、アクセス対象の MDDBを多次元テーブソレオブfジェクト (SAS/EISソフト ウェア)または MDDB プロシジャを使用してサーバー環境に構築します。次にサーバー環境で OpenOLAPS e r v e rを起動します。ここまでの操作が完了するとクライアント環境で OLAPツールを e r v e rを GUI 利用してサーバー環境の MDDBにアクセスが可能になります。また、 OpenOLAP S 環境でインタラクティブ戸に管理することが可能な OpenOLAPS e r v e rアドミニストレータも利用できま す 。 ‑312
3 .EXCEL2000環境での機能 OLAPツールとして EXCEL2000を利用した場合のいくつかの機能を紹介します。 EXCEL2000の 場合、ヒ。ボットテープ ノレおよびヒ。ボットグ、ラフを利用して OLAP環境を実現します。データソースの 設定はピボットテーブソレウィザードを利用して「外部データソース」にアクセス対象とするサーバー 。 環境の MDDBテーブルを指定するだけで3す OLAPツールとしての機能はピボットテーブル、ピボットグラフの特徴に依存します。主 な機能としては、テーブルおよびグラフの作成におけるインタラクティブで自由なレイア ウトが可能である点や、レイアウト変更やグループ指定、集計対象項目の変更などもドラ ッグ&ドロップで指定ができ操作性に優れていることです。 ‑ ドイ主主 立旦主本 1994 オフィス用テーブル 楊子 オフィス用計木 三 E‑ 家具計ホ 自旦主木 総計ホ 465 510 535 503 557 455 506 504 50日 537 552 532 米国 5 1日 用 「γ一 一 一 ̲ . . . . " 、 円 4日2 冊以 524 1 ¥ ~ 508 I 640 │総言十本 冊 目 490 ‑ 565 5 3 1 507 499 486 49日 507 4 7 1 489 494 512 4日 日 539 514 525 515 4 .まとめ Open OLAP S e r v e rソフトウェアはリリースされたばかりのプロダクトですが、 MDDBテープ!レを OLAPツーノレから広く利用できる、しカも手軽にクライアント/サーバーでの OLAP環境を構築で きるところがポイントです。大きなデータをアクセスする場合や MDDBのドリルダウン階層が多い場 合は多少のストレスは感じますが、比較的小さなデータを対象にすれば操作性は十分です。 3 1 3一
日本 SASユーザー会 (SUG1 ‑ ' ‑ ' ) SASの利用形態の変動 0 久富丈志 金運正憲 京都大学大型計算機センター TransitionofSASusage TakeshiHisatomi 乱1asanoriKanazawa KyotoUniversity DataProcessingCenter, キーワード 1 SASシステム はじめに 京都大学大型計算機センターは、全国の大学、高等専門学校などの研究者が、学術研究 にともなう計算および情報の処理を行うために利用する全国共同利用施設で、昭和 44年 l 月に運用を開始し、平成 1 2年 6月では、約 2300名の利用者がいる。現在、本センターで は、メインフレーム版リリース 6 . 0 8の SASシステムを運用している。 本稿では、本センターにおける SASの利用状況と利用形態について述べる。 1.利用状況 本センターは、京都大学の施設ではあるが全国共同利用施設の性格上、 SASの利 用者も京都大学の教官、大学院生を中心に多数の大学の利用者から利用されている。 そのため、研究分野も理系、文系を問わず広範囲に利用されている。今回は、過去の 5年間のデータを基に SASの利用状況および利用者の研究分野について分析を行う。 2 . 利用形態 近年、ネットワークが発達し、パソコンおよび各種アプリケーションソフトの普及 によりコンビュータが身近な存在になっている。 その中、講習会および各種相談業務で利用者から受ける SASの相談内容は、この 数年大きく様変わりしている。 本稿では、この相談内容を基に本センターにおける SASの利用形態について検証 する。 2 利用状況 利用者数 本章では、過去 5年間の SAS利用者の変動を研究分野と利用者の身分について利用者数 と CPU時間により分析し、検討を行う。 ム 句白l nd dq
【データ 1】 研究分野別利用状況 まず、研究分野別の利用状況は、表 2のようになる。 詳細な表は省略するが、文系では、主に教育学系(特に社会・心理学系)が回帰・分 散分析、カテゴリカルデータ分析、記述統計などが利用されている。工学系では、交 通工学系で SAS/ETSがよく利用され、農学系では、 SAS/GRAPH、記述統計、回 帰・分散分析されている。 研究分野 文系 理学系 工学系 農学系 医学系 その他 表 2 : 研究分野別の利用者数、 CPU時間の比率(%) 利用者数 CPU 1995年 1 9 9 6 1997 1998 1999 9 9 5年 1 9 9 6 1997 1998 1 9 9 9 1 0 . 2 3 7 . 9 2 5 . 0 . 6 1 31 .5 3 5 . 5 1 11 .5 8 6. 4 2 . 0 0 . 7 7 . 8 7 . 2 1 4 . 5 1 2 . 0 2 . 5 2 . 8 7. 4 1 .6 1 . 1 0 . 5 4 5 2 . 5 4 6 8. 9 . 9 7 1 8 . 1 1 6 . 7 1 5 . 2 1 8 . 8I 2 0 . 7 3 . 5 8 0 . 6 6 . 8 2 8 . 2 2 6 . 1 1 4 . 6 3 2 . 8 2 2 6 . 9 2 7 . 1 2 0 . 0 2 2 . 9 8 . 6 . 1 7. 4 7 . 8 5 . 1 9 . 4 9 . 8 2 . 1 2 8 . 6 0. 4 9 . 5 . 9 8 . 7 1 0. 4 1 0 . 2 11 . 2 6. . 5 0 . 1 4i 0 0 . 1 1 . 21 3 【データ 2 1 職種別利用状況 職種別では、この 5年間で文系の学部 職種別の利用状況は、表 3のようになる。 学生の利用数とそれに伴い CPU時間の割合が減少し、工学系の大学院学生の CPU時 間の割合が増加している。 表 3 : 職種(身分)別の利用者数、 CPU時間の比率(%) 利用者数 CPU 職名(身分) 9 9 8 1 9 9 9 1 9 9 5 1 9 9 6 1997 1998 1999 1 9 9 5 1996 1997 1 教員 4 0 . 2 3 4 . 9 3 2 . 7 4 7 . 0 51 7. 4 3 3 . 2 41 . 1 .6 21 .8 21 . 7 4 . 5 1 6 . 2 1 4 . 1 9 . 2 5 . 1 3 . 0 1 4 . 1 1 0 . 9 大学院(博士) 1 6 . 9 8. 4 0 . 5 2 2 . 8 3 9 . 9 2 7 . 1 2 7 . 5 2 9 . 2 4 0 . 5 4 0 . 2 5 大学院(修士) 1 4 6 5. 5 . 9 2 . 0 8 . 7 4 0 . 7 1 学部学生 2 4 . 5 2 0 . 3 2 3 . 1 1 3 . 8 2 5. 4 1 4 . 9 3 . 9 その他 3 . 6 4 . 3 3 . 3 0 . 5 0. 2. 4 4 1 .9 1 .0 0 . 1 [データ 1 ] 、 [データ 2 ] の状況より、パソコンのアプリケーションで容易に行える記 SAS/ETS、 SAS/IML等 の特殊処理を行う工学系の大学院学生利用および大量の統計データを処理する医学系の CPU 述統計や回帰分析等の利用を行っている文系の学部学生が減り、 利用が増えてきている。 3 利用形態 本センターの SAS利用者の相談として最も多い内容は、データの作成処理についてであ る。その相談内容は、数年前までは、入力データの加工処理が中心であったのに対し、現在 は、パソコンのアプリケーションで作成したデータの SASシステムへの取り込みと SASシ ステムで作成されたデータを他のアプリケーションで利用するための取り出しに関する相談 である。 これは、本センターの SASシステムの OSがメインフレームであるため特に明確に発生 する内容であるとは思うが、 SASの利用者が今までは SASシステムの中だけで処理してい たものが、コンビュータを利用する一連の中で部分的に SASシステムを利用する形態に変 わってきた現れのように思う。 3 1 5
日本 SASユ ー ザ ー 会 (SUG1‑0) SASV8への [EXSAS]の対応 【プログラムの変更‑/'¥リデーション 標準化】 0山本典子・ 常吉華奈亨 浜田知久馬幹 事株式会社アームシステム企画部 梓京都大学医学部薬剤疫学教室 Changef o r[EXSAS]i nSASV8 【 M o d i f i c a t i o n‑V a l i d a t i o n‑S t a n d a r d i z a t i o n ] N o r i k oYamamoto KanaT s u n e y o s h i SystemP l a n n i n gD i v i s i o n .ArmC o r p o r a t i o n ChikumaHamada K y o t oU n i v e r s i t y キーワード EXSAS、SASV8、ODSC O u t p u tD e l i v e r ySystem)、バリデーシヨン、標準化 近々予定されている SASシステムの V8 へのバージョンアップにより、 SASを用いて作成された既 存のアプリケーションや業務システムのプログラムの変更・修正が必要となる。本稿では、様々な生 物統計の解析手法が実施できる生物実験データの統計解析システム [EXSAS]について SASシステ ム V e r s i o n 8 への対応を検討すると伴に、バリデーションや標準化などについてユーザー事例を踏ま えながら [EXSAS]の取り組みについて紹介する。 1 .V8対応へのプログラムの置換え 現在、 [EXSASJに組み込まれている統計手法は、非臨床試験の生物統計に関する統計手法をほぼ 網羅している。これらの検定手法は、 SASプロシジャの outputステートメントなどにより出力された SASデ 「 ータセットを利用し、解析結果を EXCEUこ出力している。 V e r s i o n 8 で追加予定の ODSC O u t p u tD e l i v e r y e r s i o n 6 . 1 2 で作成 S y s t e m )では、出力されるデータセットの種類や内容が大幅に変更・追加されるため、 V したプログラムが正しく実行されない可能性が考えられる。そこで、検定手法毎にプログラム修正の必要性 個の統計手法のプログラム置換えに関する状況は次のとおりでらあった。 について調査を行ったところ、 55 [①そのまま使用できるが、詳細の確認は必要 :56%、② outputデータセットの仕様変更があるが置換え はなし 2%、③ outputデータセットの仕様変更のため置換え :13%、④新しし、 outputデータセットを利 用して置換え :27%、⑤新しし、 outputデータセットの調査が必要: 2% ] 前述の結果から、①を除いた約半数の手法についてプログラムの置換えが必要となり、そのバリデー ションを含めた作業量は膨大なもので二あると予想される。また、調査の結果、見落とされやすい仕様の変 更なども確認されている。 ODSを利用したプロログラムの置換えには慎重な調査と詳細な確認を行うことが 重要である。 唱 nb F 1 4 qu
2 .プログラム変更に伴うバリデーション システムのバージョンアップ。やブρログラム変更に伴い、パりデーションが必要となる。 [EXSAS]のノ叩 デーションは、各手法毎に SASの natl¥.e プログラムでの実行結果との値の確認、 SASのデータステップ によるダブ } レプログラミングを中心に実施し、パりデーション資料には、 SASのソースプログラム(ロジック) を公開している c さらに、第三者による独立したバリデーションを実施し、より高い信頼性の確保をめざして いるc その他、信頼性確保のために必要とされる項目を一部列挙する。 <システム開発側の信頼性確保のため、その充実が求められる項目> ① システム開発体制と教育体制②システム仕様とシステムテストの体制③導入実績 ④サポート( Q&A含む)体制⑤検証(パリテ ーション)資料などドキュメントの保存体制 J ⑥障害発生時の体制 <システムを受け入れるユーザー側の信頼性確保のため、その充実が求められる項目> ①導入時ノ旬デーション②運用時ノ叩デーション(オンゴーイングバリデーション) ③ Q仙 記 録 の 保 管 ④ 標 準 手 順 書 ( S O p )の整備⑤システム利用者の教育体制 システムの信頼性確保のためには、開発側とユーザー側が双方の立場・視点カもの確認を行うことが 望ましいc 3 .標準化へのユーザーの取り組み ユーザーの [EXSAS]を使用した標準化への取り組みは様々であるが、基本的には、標準手順書 ( S O p )の作成が一般的である。 [EXSAS]ユーザーに対するアンケート調査の結果からも、薬理試験に おいて、統計手法の標準化が必要で、あるとの認識が高まっている。 標準化に際し、市販ソフトウェアを利用するので‑あれば、標準統計解析ソフトウェアの選定が行われる c その際、統計担当者、システム担当者および研究担当者(エンド、ユーザー)など様々な立場からの検討が 重要である。また、エンドユーザーが正しい環境で正しい入力・設定・操作を行い、意図した解析が実施で、 きるように各現場への普及と教育が大きな課題となっている。この解決策として、頻繁に使用する解析方法 のマニュアルを作成し、それを標準的な指針として現場への普及活動を行ってしも例がある。 4 .求められるシステム機能 信頼性確保のために、また、標準化への対応のためにシステムが求められる機能として①操作が簡 単なこと②データが途中で変わらないこと(インテグリティ)③システム変更が出来ないこと④処理 記録が残ること⑤改貰防止機能があること、などが挙げ色れるc 5 .まとめ 非臨床部門での統計解析の質の向上が求められてきてしも現状の中で、より信頼性の高いシステム、 統計解析の質の向上の助けとなるシステムを目指して、今後も [EXSAS]の開発を進めていきたい。 (参考文献)山本典子、浜田知l 久馬(1997): SAS上での統計解析アプリケーションの開発一 [EXSASJ の開発を例にとってー第 16凹日本 SASユーザー会総会および研究発表会論文集、 2 2 7 ‑ 2 3 6 ‑317‑
日本 SASユーザー会 (SUGJ ‑0) 臨床試験データの一覧表作成システムの紹介 ‑ ISE LIST2000、 SAS2SDF 西原健白、山本昭一 株式会社アイ エス イー B B L i s ts y s t e mf o rc l i n i c a ld a t a i r e c to u t p u tt oE X C E L一 ‑Without S A Ss c r i p tp r o g r a m m i n g &d K e n j iN i s h i h a r a,S h o i c h iY a m a m o t o I n t e r n a t i o n a lS y s t e m sE n g i n e e r i n gI n c . キーワード LIST ,CLINICALDAT , A EXCEL 1 はじめに 咋年発表した ISESTAT2000は 、 SASスクリプトを記述することなく簡単なパラメータ の設定のみで臨床試験データの集計・解析が行え、その結果があらかじめ作成した EXCEL表へ出力されるものであった a 今回その一環として、臨床試験データの一覧表作成システムを開発したので発表させ ていただし 2 システムの特長 ( 1 ) 咋年と同じく SASスクリプトの記述は必要ない ο ( 2 ) 一症例分の EXCEL作表フォームを作成するのみでよい。 ( 3 ) 一覧表の中で EXCELの機能をフルに活用できる。 ( 4 ) 作表設定は表示したい項目を(変数)を EXCEL 作表フォーム上の表示したい場所 にド、ラック、 &ド、ロップすることで、簡単に設定で、きる。 ( 5 ) 抽出条件、表示条件等を簡単なパラメータの設定で行える。 ( 6 ) ユーザーフレンド、リーなインターフェースを実現した o 3 連絡先 詳細については、以下にお問し、合わせください。 T 150・ 0043 東 京 都 渋 谷 区 道 玄 坂 1・ 9・ 2 第5アーパネット渋谷ヒール 7F TEL:033476‑5160 ・ E‑m出1 :[email protected] 株式会社アイ・エス・イー T qu n oム
4 作表フォームと作表設定
M
S
‑
E
x
c
e
Iで、一覧表枠の作成、データの位置や印刷1
ページの設定などを行し、ます。
=
;
‑
'
‑
‑
1
1
書~分
;
B
J
11
"
"
"
ト
ム
引
一 一 一 一 ー が は
τ
T
:
‑
ー岡国下プでr‑r
で J}
フォーマットのなかから表示したい項目を探し、:マウスをその行に合わせてボタンを押す
色町
;畳珪~.
2
手伝〈倉) J
.
‑
:
:
雪量〈同) :
‑
会;""
2極主分~t!.竺!_t3_
,
;
r
t
口んかん察
←
n
‑
t
喝
E
u
扇扇蝿!醤鐙酒盛彊礎鳶轟滋灘磁磁亘語頭副編磁端溢議議属議滋副 之 覧 表 作 両 足 手 正 竺 平 ‑ ー 蛍 墾 経 溜 翻 轟 濁
‑319‑
ポスターセッション グラフィック
日本 SASユーザー会 (SUG1‑0) SAS/GRAPHソフトウェアを用いたフラクタル図形の作成 長谷川要 キリンビール株式会社 医薬事業本部開発部 MakeaF r a c t a lP a t t e r nbySAS/GRAPHS o f t w a r e くanameHasegawa l ProductDevelopmentDepartment,PharmaceuticalD i v i s i o n ,L lMITED KIRINBREWERYCOMPANY キーワード SAS/GRAPHソフトウエア、 GCONTOURプロシジャ、 GPLOTプロシジャ、 FRACTAL、 MANDELBROT 1.はじめに フラクタルは 20年余り前にフランス人のベノワ・マンデ/レブ ロー ( B e n o i tB .Mandelbrot)氏によって P 発見された概念です。フラクタル図形としてもっとも有名なものとして、マンデルブロー集合があります。 マンデルブ、ロー集合は自己相似性を持ち、どんなに拡大しても元と同じような図形が現れて来る不思議 な図形です。この図形は、 Z,,+I = Z"* Z "+C で、初期値 Z o= 0としたとき、│陣 Z し、ますO 結果として得られる左辺の Zを右辺の Z に入力し繰り返し計 y 算し、計算ループの回数の聞に一定の数を超えなければ「収束」、 回数以内に超えれば「発散」として取り扱います。そして、数学的 E す。この着色方法によって同じ計算を行っても違った雰囲気の図 E には色は無関係なため、収束の回数の値に応じて適宜着色しま q司 形が作成されます。ここで、 Z及び Cは複素数であり、実際の計ミ iとしち式に置き換え、このとき xとyの値を平面広 算では C = x+y 上の座標にの平面を複素平面という)として値を代入し、計算を 行し、ます。これを平面上の各座標について計算を行うと右図のよ Reala x i s うな複雑な模様が作成されます。 2 . SASでの計算 SASで、マンデルブ、ロー集合を計算させるには、 DATAステップ内で、前節で、説明した原理に従い計 算を行わせる。複素数演算が含まれるが、複素数をそのまま扱うことが出来ないので、実部と虚部に分 ‑322 X
けて計算を行主この際に、出力データセットとして、複素平面座標の xとy及び収束の回数の 3 つの 変数を含めたデータを作成しますハこのデータセットは平面上の 1つの座標について lオフ♂ザベーショ ン出力させるので、仮に横 100X縦 1 00の座標について計算を行った場合には計 1 0, 000オブザベー ションもの膨大なデータを作成することになる e 3 . SASでの作図方法 SAS には強力な作図用のプロシジャがし、くつも用意されている。その中でも、今回のようなデータに 対して都合の良し、プロシジャとして以下のものが考えらる。各プ口、ンジャの機能を簡単に紹介する c OGCONTOURフ合口、ンジャ:このプロシジャは 3つの変数の値が 2次元で表現される等高変数であり、 00レベルまで、プロットで、きます。 PATTERNオプションを使用することにより等高レベルご、とに 最高 1 色や線種を変えたり、各レベルをパターン指定で塗りつぶすことがで、きます C OGPLOTプロシジャ:GPLOTプロ、ン、ジャの PLOTステートメントに x*y=z形式を指定することにより、 zの値毎に x " " yがプロットされます。プロットはすべて同一グ、ラフ上に描かれるので、 GCONTOURと 同様の出力を得ることが可能です。 SYMBOLステートメントと組合わせて使うことにより zの値毎に 色を変えることができます。 GCONTOURプロ、ンジャで、は 1 00レベルまで、しか色分けがで、きないが、 GPLOTプロシジャで、は SYMBOLステートメントの定義可能な 255レベルまで、色分けが使えるのが 特徴です。 上記で、紹介したプ口、ンジャ以外でも、例えば G3Dプロシジャなどを用いることにより、立体的なフラクタ ル図形の作図も可能で、ある。 4 .プログラムの実際 以下に実際にマンデ、ルブ、ロ集合を作図させるための SASプログラムを紹介する。作図に必要なパラ メータ(座標の指定、繰り返し回数、座標の分割数等)はマクロ変数として与えるようにしたので、この部 分の数値を変更することにより様々な図形を作成することが出来る。 do count=O to &max until(z>4); zr2=zr会 zr‑zi会 zi+x; zi2=2会 zr会 zi+y; z=zr2会 zr2+zi2会 zi2; zr=zr2; zi=zi2; end; output; end; end; run; 会一一ーーーパラメータ初期設定; 日 et rs=‑2.0; 会複素平面の実部の始点座標; %let re= 1.0; 会複素平面の実部の終点座標; %let iS=‑1.5; 会複素平面の虚部の始点座標; %let ie= 1.5; 会複素平面の虚部の終点座標; 告let s tep=100ゾ実部、虚部の分寄l 数; %let max=100; 会最大繰り返し数; 会ーーーーー計算処理; data mandel; keep x y count; do x=&rs to &re by (&re‑&rs)j&step; do y=&is to &ie by (&ie‑&is)j&step; zr=O; zi=O; 会ーー ‑323 ー作図; proc gcontour data=mandel; plot Y会 x=countjnlevels=100 nolegend; run;
日本 SASユーザー会 (SUG1‑0) SASによるフラクタル表現 0 山下敏治* 奥田達也付 *ファイザー製薬(株)バイオメトリクス部解析グループ 付住商情報システム(株)システム・マネジメント事業部 F r a c t a lV i s u a l i z a t i o nbySAS/GRAPHsoftware ToshiharuYamashita*andTatsuyaOkuda** z e rPharmaceuticalsI n c . *B i o m e t r i c s,同i * *SystemsManagementDep , . tSumishoComputerSystemsCorporation キーワード: SAS/GRAPHソフトウェア、 F r a c t a l、自己相似集合、 GPLOTプロ、ンジャ 1 . はじめに 一般的なフラクタルの確率的、ンミュレーション、マンデ ルブロー集合、ジュリア集合などの複素関数族、 ストレンジアトラクタ、ミラの写像などの離散力学系カオスを基礎的な理論式および SAS/GRAPHソフト ウェアによるプログラム例をあげて紹介します。 2 . フラクタルとその基礎的な理論式 2 .1 . 一般的なフラクタル コッホ曲綿、葉脈曲線、シェルヒ。ンスキーのギヤスケット、レヴィの C 曲線など一般的なフラクタルは、い ずれも複素数 z=x+iyとして基本的に下記に示す標準形(自己相似な集合を縮小する写像)を、無限回 ︑ ︐ ノ ︑︐‑ く n u ' + α く n u ' + α t ︑ ︐ ノ ︑ K つ ・ ︐ ︐ F F しl い υ ︑ ︐ ノ K n u ' 111111/ 一 一 K ︑ ︑ α & ︐ ︑ + AU‑‑ fell‑‑¥ 一 Z 今4 ¥alli‑‑︐/ Z /FIll‑‑s¥ ¥211112/ /tili‑‑t¥ αα ZZ ¥ ︑ 一 一 l i t i ‑ ‑︐/ ︐ ノ ︑︐︐ r ︑ /FIll115 ︑¥ F ハ F勺 Aβ' を考えて確率的に繰り返し反復計算することでグラフ化することができます。 ここで R、円は縮小写像、 Kはこれらの縮小写像で、定まる自己相似集合を表します。 l 1 コッホ曲線は、 α 1二 院.ニ 0, β iニ ニ , β2β1 として集合 K を複素平面上にプロットすること ,. ,1‑ー2+ 6 ゐ 』 でグラフ化できます。‑一 ( F i g . 1 ) .(シェルヒ。ンスキーのギャスケットの場合はさらに縮小写像円が加わる) 2.2. 複素関数族のフラクタル yは 、 z=x+iyとして下記の複素関数式を反復計算することで与 マ〉デ、ルブ、ロー集合 M、ジュリア集合 K えられ、収束条件を満たして得られる極限集合を複素平面上にプロットすることで、グラフ化で、きます。収 Z n lに応じて色相を工夫することができます。 束の反復回数や収束点、での I !(Z)=Z2+y , Y=α+ib, M =iylf(Z)Jo=o , b │ z n │く ∞ J . . . ( F i g . 2 ) ‑324
f
(
z
)ニ Z
2+y
, y=σ+札
名
ず
作 )=i
ky=izo│f(zLlblzn│<∞J.
.
.(勾・3
)
<∞)内 4)
y=ef ky={zo│f(ZLl史I
z
,, 1
2.3. 離散力学系の力オス
ローレンツ方程式など、のストレンジアトラクタ、審美的カオスの代表例であるグモアスキーとミラの写像は
それぞれ次式で与えられ、繰り返し計算された軌道を 3次元あるいは 2次元の実数空間・平面上にプ
ロッ卜してし、くことで、ヒ、、ジュアル化することがで、きます。
dx/d
t=‑ox+砂,砂 /
d
t=‑xz+口
y,
dz/dt=xy‑bz .
一(Fig.5)
2
1
‑a)x
2(
F(x)ニ ax+ーァーァ一, X,,+I =b
Y
n+F(x,
) y,,+1 =‑x"+F
(
x
"
+
I
) ・
ー(
F
i
g
.
6
)
1+x‑
ここで、ローレンツ方程式で σ=10、r=28、b=1.6、ミラの写像で a=0.7、b=0.9998o
3
. SASによるプログラム例(コッホ曲線)
data koch;
if f=l then do;
u= a*x‑b女 y+a; v=‑b女 x‑a y+b;
a=1/2; b=sqrt(3)/6;
xO=l; yO=O; x=xO; y=yO; retain x y;
x=u; y=v; output; retain x y;
end;
do i=l to 2**14;
f=1*(ranuni(i)>=0.5);
end;
if f=O then do;
symbol1 v=dot I=noneh三,0.01c=grayOO;
u=a*x+b*y; v=b*x‑a*y;
proc gplot data=koch;
x=u; y=v; output; retain x y;
plot Y * x I nolegend;
run;
end;
安
F
i
g
.
1 I
くochCUNe
F
i
g.
4J
u
l
i
a Set
¥
I
I
andelbrotSe
t
F
i
g
.
2 l
F
i
g
.
5 Lo陪 nzAttractor
3
2
5
F
i
g
.
3 J
u
l
i
aSe
t
F
i
g
.
6 M
i
r
a
's Map
•
ポスターセッション 届質管理
日本 SASユーザー会 (SUGI‑J) オフィスビル外観の「汚れ感」評価 0武藤浩事 小島隆矢梓 株式会社竹中工務庖 建設省建築研究所 技術研究所研究開発部 第一研究部 P s y c h o l o g i c a le v a l u a t i o no fs t a i nont h ei m p r e s s i o no fo f f i c eb u i l d i n ge x t e r i o r 本 H i r o s h iM u t o .Research&DevelopmentI n s t i t u t e .TakenakaC o r p o r a t i o n 肺 Ta k a y aK o j i m a .B u i l d i n gResearchI n s t i t u t e .M i n i s t r yo fC o n s t r u c t i o n キーワード・官能評価、要因分析、 REGプロシジャ、ステップワイズ、回帰分析、個人差 1.はじめに 建物のタト壁は、時間の経過とともに汚れてゆく。外壁の汚れは美観を損なうため定期的に洗浄されているが、かなり のコストがかかる。建物の長寿命化のニーズ、を受け、タ嘩の汚れへの関心が高まっており、汚れ{こくし、塗料などの材料 開発が盛んに行われているc それ以外にも、汚れの評価基準の確立や設計デザインからの配慮も必要と思われる。 ところで、外壁が汚れていてもそれほど汚し、と感じられない建物がある。本研究では、建物外観から受ける不快な印 象としての汚さを「汚れ感」と定義し、物理的な汚れの程度を示す「汚れ度」と区別したうえで、そのような建物の特徴を 把握すること、そして評価に影響する要因を明らかにすることを目的とする。評価実験を行し¥両者の晶、を砺忍すると ともに、それぞれに影響する要因を絞り込み、影響度の大きさを明らかにした。 2 .方法 評価実験に用いた刺激は、 67 の-fl掛句な 5~ 1O階建てのオフィスピルの外観写真 であり、それぞれについて全景と汚れてしも部分の拡大を用意した(写真 1 )。被験者 5名と一般人 1 0名の計 3 5名(うち男性 1 7名)である。 は、建築系学生 2 まず全景をスライドで l肘えっ示し、外観から受ける印象を、「汚れ感」を評価する r I青潔な一汚し、」を含む 8項目の SD 法 7閥曙尺度で評価させたぺO その後、汚れている 7枚を見比べ、汚れの程度(1汚れ度J )で 5段階に分類させた。 部分の拡大写真 6 3 .分析、結果 3 . 1i 汚れ感」と「汚れ度」の違い 「汚れ感」評価の SD尺度に 1~7、「内れ度」評1rlljの分類データ(こ 1~5 の数値を与え、刺激ごとに全被自如雪の評定平 均値を求め、代表値とした。数値が大きし、ほど、 I t 与し、」あるし、は「汚れてし、る」と評価されたことを意味する。 )。阿者には相聞があ 横軸に「汚れ度」、託岬自に「汚れ感」をとったクーラフに各刺激の値をプロットした(図 1 ‑ 3 2 8
るものの、違いのある刺激もある。 グラフの
'幅制
.z
.・・ ' m m
・
︐
...・宮
b
外壁素材がタイルであるとし、った鞘数がある。
v
し a r ‑ d h
汚れている範囲が一部である、目地が目立つ、
.一︐・︑提
られなヵ、ったもので、あり、写真 2のように、
bvoo
岨)安時似川町崎S ﹁出出兵町民
右下の刺激は、汚れている割には汚し、と感じ
.
.
.
.
.
.
.
た
附
2
3.2評価に影響する要因の絞り込みと景建度
状直
踊
雨
書
し
み
線
睡
だ
状
、
れ
状
、
〈
斑
す
状み
・
「汚れ感」の場合は「汚れ度」を加えた 1
1の 要
因を説明変数とした回帰分析を行った(表 1
)。
O一
庁一∞一円四⁝c一
回
一 O一 竺 一 一 一 一 一 一 一 二 さ
0の要因、
感」を H的変数、「汚れ度」の場合は 1
。
。
ト
。
す
Ath
μ
4
JJ
れ
}寸a
#
パ
﹂
治
退
生
﹃l'民
ヨ
ノ
汗円}
4
‑
A
/
工
勺
の
れ
庁
L
け
︼
四
る
手
ワ
て
れ
﹃
と
差
度
明
の
斗
﹂
匹
面
壁
で
r
H
J
度
れ
の一主一同⁝明山一同一川一山一日一明日明閉山一四一叫⁝判明一例叫⁝同一肪
を除くろ 7刺激を支持ゑに、「汚れ度」または「汚れ
恥例一望日いとrμhfド ト は
υ
で激
EFLFιkF主仁ヒ地
・
。
状
買
空
性
T 一系彰竪山一点一江一凶⁝恥一ノ面
口
ヘ
写真治、ら汚れが確認できない刺激(図 1の0)
明
402 058
479
403
387
353
368
396
432
417
357 041
406
375 ‑027
418
455 024
373
122
090
696,
039
置
程
れ
震
汚
置 程
れ
評価に影響する要因だけに絞り込むために、
,
号
れ
竪
5
7
1
2
1 432
01
明
1
6
1 357 ‑05
1
2
0
そ
1
E
5度以
度下
1
4
1 312 ‑114
垂
1
5
1 246 ‑187
の規
1
5
1 312
)
1
2
1
1
324 027
i
規
や
ま
駅
ら
や
!
蝿
前
まら
興l
的
211 356 064
4
3
1
342
F
占'"全部分
体
1
4I 302 043
E
1
0
j
J7
5
る
91 341
要形
ー‑
‑
1
71 362
因
1
2
1 386
ーー‑)
1
9I 262
402
084
高
自
量
差
姻
蓋
定
繍
酷
平
量
事
保
方
面
和
融差
1270
050
じぷ一肘一岨一何回一日一回一日一段刊一回一四一時一日一回一何日目一止及注目一差
,
奇
れ
直
剰車
数 平均瞳スコア 平均憧スコア
九則一一fご一一一一一一一一一一一一一一一一一一二三一一一一一一一一一一一一一一呆
コ可一直一丈一一一一一一二二一一一二一一一一一力
カテコリー
,
号
れ
宏一衆童一タ一石一ガ一あ一主自一目一茶一膏一無一9 師一時一臥一殺少一フ一車己
明世一仕上げ材料冨時一目地一色恒一明壇一回凸一川
説明
重量
分け、カテコリーを設定した(表 1
)。
説宜﹁副到割配ゐEZ
表 1 回帰分析の結果
する要因」と「外壁素材の性質に関する要因」に
日
一
回
一 9一3一
旧
⁝4111同一同一回一白一明
! ら 一 糊 敏 一 8一
fin‑n⁝
である。抽出した 1
0の要因を「汚れの状態に関
写何)一回一広島ル一刊一るし一言
図 1i
汚れ度」と「汚れ感J
町村 t
里山日E口出ωHUUR心 度
ま亘叶斗当計一三川↓4 初
「汚れ度」の評定平匂{直
これらの特徴は、評価に影響する要因の{戻補
(
r
Iとの明度差が大きし、ほど、汚れてしも範囲が広し、ほど、汚れが不J,Q
F
V
J
なほど「汚れてしも」と評価されている c
いc 壁 r
「汚れ感」では、「汚れ度」や汚れてしも範 r
i[Jだけでなく、汚れの形状、仕 tげ材料の極類、中期哀の有無、目地の目立ち
二げの場合、または模様や目立つ目地が
度が選択され、なかでも仕上げ材不μ〉種類の影響が大きい。素地や塗装仕 I
ないと「汚し、」と感じられやすい。
3
.
3個人差の検討
7刺激をサンフ。ル、被験者を変数とした主成分分析を行ったところ、第一主成分の寄与
個人別の生データを用いて、 5
率はii':
i
れ度」で 60%、「汚れ感」で 41%
となった。このことから、「汚れ感」で個人差が大きし、ことがわかった また、 {
f
l
t
l
O
人別の「汚れ度」と「汚れ感」データを目的変数とし、 1
0の要因、被験者、および両者の交互作用を説明変数とした回帰
分析を行ったところ、「汚れ感」ではしてつかの交互作用が有意となったが、「汚れ度」で、は有意となる交互作用はなかっ
た。さらに、「汚れ感」の個人差の内容を把握するため、 5
7刺激をサンフ,/レ、表 1の要因を説明変数群、被験者ごとの評
価データを目的変数群として、ダミー変数を用いた回帰主成分分析も試みた(詳細はポスターにて報告する)。
4
.まとめ
①i
i
i
;
れ度」と「汚れ感」は一致しない2 つまり、汚れていても汚し、と感じられ(こくし、建物がある。②「汚れ度」は、壁面と
の明度完や汚れてしも範囲など、汚れの状態だけでほぼ説明できる.. W.iれ感」はそれに加えて、仕ヒげ材料の種類
および、十草津美や目地の有無などの外壁素材の性質も影現寸る勺③「汚れ度 J
より「汚れ感」で個人差が大きい。
‑329
ポスターセッション マーケティング
日本 SASユーザー会 (SUGI‑J) 患者の満足度調査 一入院外来、性年代の影響について一 田久浩志 中部学院大学短期大学部経営学科 E f f e c t so fsexandageonp a t i e n ts a t i s f a c t i o nr a t i n g TakyuH i r o s h i o l l e g e F a c u l t yo fB u s i n e s sA d m i n i s t r a t i o n,ChubuGakuinC t a k y u@ c h u b u ‑ g u . a c . j p キーワード: 患 者 満 足 度 、 性 年 代 、 入 院 外 来 、 JMP はじめに 従来より、患者により良い医療環境を提供するために、患者に対する満足度調査が行われてきた。 しかし、それらの調査で、入院患者と外来患者とでは、性別、年代によって、同じ質問でも満足度 の分布が異なる可能性が考えられる。そうなると、職員が患者へサービスを提供する場合に、それ らの点を考麗しないと無用なトラブルを引き起す可能性がある。そこで入院患者と外来患者を対象 に、対人患者サービスと院内環境に関する満足度の評価を試みた。 対象と方法 調査は T大学医学部付属 O 病院の看護部の協力のもとに行った。今回の調査は看護婦に関する 質問と院内環境に関する質問に限定し、医師や疾病に対する質問は扱わなかった。 調査は患者に対する調査票を作成して行った。フェース項目として性別と年令、外来患者では外 来初診の有無、入院患者では入院期間などを用いた。入院患者では、看護婦の身なり・礼儀・態度、 入院中の生活、症状・検査・治療・処置、など 3 6項目、外来患者では看護婦の身なり・礼儀・態 度、病院の環境、症状・検査・治療など 22項目の満足度を 5段階で測定した。 アンケート調査の結果、外来患者 826 名、入院患者 440 名の調査票を回収した。フェース項目 の欠如、誤記入等を除外すると共に、当該病院の患者年齢層を考虜して、 2 0歳代から 70歳代まで で本人回答のみの質問票を解析対象とした。その結果、解析対象は外来 5 05枚、入院 334枚とな e r 4 . 0B e t a 6B u i l d 3を用いた。 った。解析は、 JMP V 結果 入院外来、性、年代を対比して満足度の分布を比較した。代表的な例を図 1‑4に示す。なお図の 中で、 「 女2 3 J の記述は女性 20‑30代を意味する。 全般的に入院外来とも、男性の 4 0‑50歳代の満足度が向性の他年代に比較して低下する傾向、 つまりグラフで 2, 3,4の点数割合が増加する傾向が見られた。外来患者の女性では、常に 20‑30歳 代の満足度が低く、年代とともに改善する傾向がみられた。また男女を問わず、外来の質問の満足 度が入院のものより低下する傾向が見られた。 考察 今回の入院患者の調査結果では、男女とも 4 0‑50歳代が他年代より満足度が悪化していた。女 0‑30歳代が常に厳しい評価を下していたが、高齢化するにつれて評価は改善 性の外来患者では 2 ‑ 3 3 2
された。今回調査した病院では、病棟と外来とでは看護婦、院内環境等に極端な差はない。従って これらの現象の解釈として、まず、 4 0 ‑ 5 0歳代の評価は常に厳しく評価する傾向があり、外来患者 ではその傾向に、看護婦と向性同年代の視点のシビアさが加わり、評価が変化すると解釈できる。 薗o saicPlol 0 . ' , 匝 , < 1 │ 叫 " . < 0.3 性年齢 性年代 図 2 外来:看護婦の礼儀正しさ 図 l 入院:看護婦の礼儀正しさ Eosaic. p f ol " ' 戸ーー盟国 1 .0 雪 │ 性年代 世年('< 図 4 外来:看護婦の思いやり 図 3 入院:看護婦の思いやり 0 ‑ 5 0歳代の評価は常に厳しく評価する理由として、患者が自分の部下あるいは子供を見 一方、 4 るのと同様の視点を持っとも解釈できる。その点を検討するには、子供の有無、担身既婚、社会的 地位などの患者が人生を築いている環境の差異が、これらの満足度に影響をあたえる影響を検討し なくてはならない。そのため、詳細な解明は今後の解析を待ちたい。 入院患者の評価が外来患者より良くなる点は、入院により看護婦を身近にみることができる、看 護婦と患者の聞にコミュニケーションが成立するなどの理由が考えられる。入院後の日数に応じて、 どのように満足度が変化するかは興味あるところである。 まとめ 今回の解析により、1.外来患者の評価は入院患者より常に厳しい、 2 .特に女性の 20‑30代の外来 患者の評価が極端に厳しい、などの点が明らかになった。現実に存在する、患者の入院外来、性、 年代別による満足度評価の差を考えると、これらの傾向をすぐに業務の参考にするべきであろう。 国民医療費の高騰に伴う医療費抑制政策は、医療現場への締め付けとなってあらわれている。従 って、医療施設にとって患者を自分の施設に定着させることは急務である。今回の結果を元に、患 者に的確なサービスを提供して患者の苦情を少なくできれば、長期的には患者が自分の施設に定着 し、ひいては医療経営に貢献すると言えよう qu q a qd
日本 SASユーザー会 (SUG1 ‑ ' ‑ ' ) 大学病院の患者満足度に及ぼす要因の解析 0楊 学 坤 1) 今 井 喜 正 1) 荒 井 美 帆 2) 1) 順 天 堂 大 学 医 学 部 病 院 管 理 学 研 究 室 小 島 茂 2) 2 )順天堂大学医学部中央電算機室 PATIENTSATISFACTIONWITHCAREI NAUNIVERSITYHOSPITAL ‑ ‑ A n a l y s i so fF a c t o r sA s s o c i a t e dw i t hP a t i e n tS a t i s f a c t i o n‑ ‑ 1 ) l ・l 1 ) 1 1 XuekunYang),HisamasaI m a i),MihoA r a i),S h i g e r uKojima I ) O e p a r t m e n to fH o s p i t a lA d r n i n i s t r a t i o n,J u n t 巴n d oU n i v 巴r s i t yS c h o o lo fM巴d i c i n e 1 ic e,J u n t c n d oU n i v 巴r s i t yS c h o o lo fM巴d i c i n c 2 ) C e n t r a lC o m p u t e rOt キーワード:大学病院,患者満足度,アンケート調査, SASシステム [目的]筆者らの所属する大学病院で,医療の質の自己評価の一環として外来と入院患 者の満足度調査を同時に施行した。その方法と集計結果を提示し,併せて患者満足度に 及ぼす要因を解析した結果を報告する。 1月 か ら 約 2ヶ 月 に か け て 外 来 と 入 院 の 患 者 満 足 度 ア ン ケ ー ト 調 査 を [方法) 1999年 1 行った。調査の対象は,外来は初診患者,入院は退院患者を対象とし,アンケートの記 入場所を院内でなく, I自 宅 で 記 入 し 郵 送 に て 返 信 」 し て い た だ く 方 法 と し た 。 回 収 数 は 外 来 が 1021通 ( 回 収 率 25%) , 入 院 が 1009通 ( 回 数 率 50%) だ っ た 。 満 足 度 評 価 の 対象項目は外来と入院でやや異なるが,医事課職員,医師,看護婦,薬剤師,技師,待 ち時間,環境,売庖と食堂,病院の食事(入院のみ) ,フライパシー,安全,全般とし た 。 評 価 は 5段 階 ( 満 足 5, や や 満 足 4,普通 3, や や 不 満 2, 不 満 1) と し た 。 統 計 解 析 には SASシステムを用いた。 [結果]①外来患者の満足度は,満足とやや満足を合わせると「環境と設備」に対する 評価が最高で,次に「医師」など職員の評価がほぼ横並びで一定の高い評価を受けた。 不満は, I 待ち時間」で突出し,次に「売屈と食堂」で高かった。全般的満足度に対す る 各 評 価 対 象 の 影 響 度 は , 表 1を 示 し , 重 回 帰 分 析 で す べ て 5 %有意に達しなかった。 ②入院患者の満足度は, I 医師」と「看護婦」が「環境と設備」より高かった。不満は, 「 病 院 の 食 事 」 が 最 高 だ っ た 。 全 般 的 満 足 度 に 対 す る 各 評 価 対 象 の 影 響 度 は , 表 2を 示 し,重回帰分析で, I 看護婦 J , I 安全 J, I 医師 J, I 病院の食事 J , I 環境と設備 J , の 順 で 5 %有 意 に 認 め ら れ た 。 ③ 満 足 度 の 性 差 は , 外 来 は 差 が な く , 入 院 は 男 が 女 よ り やや高かった。満足度の年齢差は,外来,入院ともに高齢になるほど上昇する傾向が有 意 に 認 め ら れ た 。 性 と 年 齢 の 2元 配 置 分 散 分 析 で は , 図 1を 示 し , 外 来 , 入 院 と も に 年 齢 差 の み が 有 意 で , 交 互 作 用 は 5 %有意に達しなかった。 [結論]①外来患者の不満は「待ち時間」に集中していた。②入院患者の不満は「病院 ‑ 3 3 4
の食事 Jが 最 高 だ っ た が , 全 般 的 満 足 度 に 与 え る 影 響 度 は I医 師 」 と 「 看 護 婦 J より 低かった。③「医師」と「看護婦Jがいずれも外来より入院で高い評価を受け,全般的 満足度も外来より入院の方が高かった。入院より外来医療にさらに改善の余地がある。 ④満足度の性差は否定的だが,年齢差,すなわち年齢が高まるほど満足度が上昇する傾 向の存在が示唆された。 表 1外来患者の全般的満足度に 表 2 入院患者の全般的満足度に 及ぼす各評価対象の影響度 及ぼす各評価対象の影響度 説明変数 相関係数 標準偏回帰係数 職員 0.55** 0.06 医師 0.52安 安 0.18 看護婦 0.55女 * ー 0.16 検技師 0. 46** ー 0.37 放技師 0.44安 安 0.57 薬剤師 0.55** ー 待時間 説明変数 相関係数 標準偏回帰係数 看護婦 0.68** 0.28** 医師 0.59** 0.22安 安 職員 0.60** ー 待時間 0.34** 0.04 0 . 11 食事 0.43** 0.13** 0.53** 0.26 環境 0.61* * 0.12* 環境 0.53** 0.24 売庖 0.35** 0.001 売庖 0.35** プライバシ 0.54** 0.054 プライバシ 0. 42** 0.22 0.57** 0.24* 0. 49** 0.05 安全 安全 ー 0.003 *:1 コ <0.05,**:P<0.01 0.07 女 *:P<0 . 0 5,**:P<0 . 0 1 df 4. 4 4 . 1 ー‑・ーー男 一 d﹂ 初 dd・一刊 一ム'十一一一 一・ 一 一︑︑︑/一 ヘ ︐ r 4 . 7 3 . 8 20 図 1患者の全般的満足度の性別・年齢階層別曲線 30 40 50 60 外来 ( A ) のs e xP=0 . 8 3,ageP = O . O O O l, sex*ageP=0 . 0 7。入院 ( B ) のs e xP = O . 8 8ageP = O . O O O lsex*ageP = 0 . 0 6。 70歳 にd qd qu
V8eにおける拡張機能の紹介
lJsingSAS/GRAPH@SoftwaretoCreate GraphsnJltheW e h a t e l StuartNisbet &HillldhP ABSTRACT UsingSAS/GRAPHDeviceDrivers T h i sp a p e rh i g h l i g h t s some ways o fc u s t o m i z i n g SAS/GRAPH@ d e v i c ed r i v e r st op r o d u c eg r a p h i c s t h a ta r es u i t a b l ef o rp r e s e n t a t i o nont h eWeb.I ta l s o h i g h l i g h t snewV e r s i o n8 eenhanじe m e n t st h a ta l l o w yout oc r e a t eHTMLimagemapsi no r d e rt op r o d u c e d r i l l ‑ d o w ng r a p h sont h eWeb yp r e f e rt h i smethodi fyouh a v ee x p e r i e n c e Youl11a n t s . w i t hd e v i c ed r i v e r sa n d GOPTIONS s t a t el11e SAS/GRAPHs o f t w a r ep r o v i d e st h r e ed e v i c ed r i v e r s HTMLand t oc r e a t eHTMLo u t p u tf o rt h eWeb:GIF, WEBFRAME. TheGIFd r i v e rc r e a t e saGIFf o r m a t f i l et h a tc a nb er e f e r e n c e di ny o u rHT 恥1 Lt i l ef o r 乱1 Lf i l e, v i e w i n g .TheHTMLd r i v e rc r e a t e soneHT a n da l s oo n eGIFt i l ef o re a c hg r a p hp r o d u c e d by SAS/GRAPH p r o c e d u r e s .A l lt h e GIF f i l e sa r e di nt h e HT 恥1 Lf i l e . The WEBFRA恥1E r e f e r e nじe d r i v e ri ss i m i l a rt ot h eHTMLd r i v e r,b u ti tc r e a t e s m u l t i p l eHTMLt i l e st h a te s t a b l i s has e to ff r al11e sf o r d i s p l a y i n g t h e GIF i m a g e s a s t h u m b n a i l l i n k s . C l i c k i n gont h e s el i n k sw i l lc a u s et h ef u l l ‑ s i z ev e r s i o n n a i lt ob ed i s p l a y e d o ft h et h ul11b INTRODUCTION Youc a nu s eSAS/GRAPHs o f t w a r ei nt h r e ed i f f e r e n t wayst op r o d u c eo u t p u tont h eWeb: 1 .SAS/GRAPHDeviceDrivers T h i s method i sd e s i g n e df o rb a t c hj o b s .I t じr e a t e s HTML f i l e sf o r you a n du s e st h e GOPTIONS i r e c tp r o c e d u r eo u t p u tt oGIFf i l e st h a t s t a t e m e n ttod 乱1 L白l e s . a r er e f e r e n c e di nt h eHT GIFDEVICEDRIVER T h i si st h em o s tb a s iじ methodt og e tt h eSAS/GRAPH o u t p u ti ny o u rHTMLt i l e s .A I Io t h e rmethodsu t i l i z e GIFd e v i c ed r i v e r st oc r e a t et h eSAS/GRAPHo u t p u t i nGIFf o r m a tt ob er e f e r e n c e di nHTMLf i l e s . 2 .OutputDeliverySystem(ODS) T h i smethoda l s oc r e a t e sHT 恥1 Lf i l e sf o ry o u .The a d v a n t a g eo fu s i n gt h i smethodo v e rd e v i c ed r i v e r si s t h a t i t l e t s you combine o u t p u t from d i f f e r e n t p r o c e d u r e st od e f i n ecustom l a y o u t s . Youc a na l s o じr e a t eJ a v aandActiveXc h a r t s . HTMLDEVICEDRIVERS You c a nu s et h e HTMLd e v i c ed r i v e rt oc r e a t ea s i m p l es c r o l l a b l eg r a p ht h a tcan b ev i e w e d on a n y v i e w er .TheHTMLd e v i c ed r i v e rc r e a t e soneo rmore GIFf i l e sandoneHTMLf i l et h a tr e f e r e n c e st h eGIF e a t e d . To c r e a t e as e r i e so fg r a p h su s e l l n a g e s じr .T h i sc r e a t e sd e f a u l t GOPTIONS DEVICE=HTML HTMLf i l ec a l l e di n d e x . h t m lt h a tc a nb eviewedon a n yb r o w s er .I ta l s oc r e a t e saGIFt i l ef o re v e r yg r a p h t h a ti sp r o d u c e d byt h ep r o c e d u r e . Olltpllt 1and2 showt h ef i r s ttwog r a p h si nas e r i e so ff i v eg r a p h s p r o d u c e dbyt h eGCHARTp r o c e d u r ew i t ht h eHTML d e v i c ed r i v er . 3 .OutputDataS e tofSAS/GRAPH T h i s method i sf o ru s e r sw i t he x t e n s i v e HTML knowledgewhowantt ow r i t et h e i rownWebp a g e s t h a ti n c l u d e SAS/GRAPH o u t p u tw i t hd r i l l ‑ d o w n s et h e SAS c a p a b i l i t i e s . With t h i s method,you u 恥1 Lf i l e s .Thus, l a n g u a g et og e n e r a t ey o u rown HT y o u rHTMLpaged e s i g ni sn o ti ll11i t e dt od e s i g n st h e t i r s ttwomethodsg e n e r a t ef o ry o u ;youc a nd e s i g n t h eWebp a g e sanywayyoul i k e T h i si st h eprogramt h a tc r e a t e st h eg r a p h sshowni n O l l t p l l t1a nd2 Example1 : d a t at o ( ( / I s : l e n g t hd e p t$7s i t e$8 ; i n p l l fd e p ts i t eq l l a r t e rs a l e s ; d a t a l i n e s ; Qd qd qu
P a r t s Sydney 14043.97 P a r t sA t l a n t a16 2 2 5 . 2 6 P a r t sP a r i s 13 5 4 3 . 9 7 R e p a i r sSydney 15 5 9 2 . 8 2 R e p a i r sA t l a n t a19 2 1 0 . 2 1 R e p a i r sP a r i s1 8591.98 T o o l s Sydney 11 7 7 5 . 7 4 T o o l sA t l a n t a12 4 2 4 . 1 9 T o o l sP a r i s1 5914.25 P a r t sS y d n e y23723 . 4 4 P a r t sA t l a n t a21 1 5 9 5 . 0 7 5 5 8 . 2 9 P a r t sP a r i s 29 R e p a i r sS y d n e y25 5 0 5 . 3 1 R e p a i r sA t l a n t a24 5 8 9 . 5 9 R e p a i r sP a r i s 27 5 3 8 . 5 6 T o o l sS y d n e y22945.17 T o o l sA t l a n t a21903.99 T o o l sP a r i s 27 8 6 8 . 3 4 P a r t sS y d n e y 3843ス96 P a r t sA t l a n t a36 8 4 7 . 9 1 P a r t sP a r i s 36789.85 x i s 2 g a x i s=a c a x i s = b l a c k l e g e n d = l e g e n d 1 name=' S a l e s ' ; r l l n ; / *C r e a t eα3dp i ec h a r tf o rA t l a n t aキf t i t l e' Ql Ia r t e r l yS a l e sForA t l a n t a ' ; w h e r es i t e =" A t l a n t a " ; p i e 3 dd e p t/n o h e a d i n g r = s a l e s s l l ml'a name=' A t l a n t a' ; r t m ; / *C r e a t ea3 d p i ec h a r tf o rP a r i s* / t i t l e' Ql Ia r t e r l yS a l e sForP a r i s ' ; w h e r es i t e =" P a r i s " ; p i e 3 dd e p t/n o h e a d i n g s U17lv a r = s a l e s name=' P a r i s ' ; r l l n ; ︐ E y Z) *f VJ 一︐ ︐ ゐ一日 四 fJV れ吋J m ' J 山 A山 九 市 り 岡 山 叩 宮 の tP J U 1 1 ︐ Ga γ Jn 日 gs v T ω4fEh︐ Jm=nr J ︐ 37N/; Es ad nh en nm t i J / *S p e c i f yd e v i c er e l a t e do p t i o n s* / g o p t i o n sr e s e t = a/ l n o d i s p l a y d e v i c e = h t m l g s f n a m e = o l l t g s f 1 7 l0 d e = r e p l a c e ; φか砂川却叩 一i l I干 / ホd e f i n el o c a t i o nf o rO U t p l l tf i l e s* / j i l e n a17leO l l t' / t m p ' ; au= げ 司 J fL E T E rep‑ vcnuE4ιρ一 L ωLM 幻d r︐ fxr E.d FEM 川 P T l ln ; T l ln ; q u u ; 今ノ& 2ρL'a 吋 一 一 l I d ‑ ‑ /+' u・ ' myaL 川司﹃ cd"H" k m山 町 ・ ・町﹂一一一 ︒ Fli t eo T 'on ftt mukm GEE 'nnn ﹃ n n じtl c u r '‑ ﹀ 岬弘 1削1 i 似似 釘 4 1 d 今4 dMMM F g o p t i o n sd i s p l a yd e v = h t m l ; p r o cg r e p l a yi g o u t = w o r k . g s e gn o f s ; r e p l a y̲a/ l ̲ ; r l l n ; q l l l t ; / ホd e f i n el e g e n dc h a r a c t e r i s t i c s* / l e g e n d 1c b o r d e r = b l a c kl a b e l = n o n e ; / *C r e a t eav e r t i c a lb a rc h a r t* / p r o cg c h a r td a t a = t o t a l s ; t i t l e' Q u a r t e r l yS a l e sb yS i t e ' ; f o n n a tq u a r t e rr o m a n . ; 叩 t s a l e sdo/ l a r 8 . ; fon v b a rs i t e/s l l l l l v a r = s a l e s s u b g r o u p = s i t e g r o l l p = q l l a r t e r gspace=4 space=l r e f = 2 0 0 0 0 m a x i s = a x i s 1 r 似 i s = a x i s 2 ‑340‑
[
i
l
e f
d
i
tY
:
i
e
w Qo F~ontes t
i
e
l
p
Example1c
r
e
a
t
e
sa
ni
n
d
e
x
.
h
t
m
lf
i
l
e and f
o
u
rGIF
f
i
l
e
s,one f
o
r each g
r
a
p
h
. The d
r
i
v
e
rf
o
r
m
a
t
st
h
e
;q
コs> 0
[
z
l ~③~
HTMLf
i
l
es
ot
h
a
t eachGIFimaged
i
s
p
l
a
y
si
nt
h
e
viewwindowo
fanHTMLbrowseri
ns
e
q
u
e
n
c
e
.
ゴ
The GSFNAME f
i
e
l
di
nt
h
e HTML d
e
v
i
c
ee
n
t
r
y
p
o
i
n
t
st
ot
h
ed
e
f
a
u
l
tl
o
c
a
t
i
o
n where t
h
ef
i
l
e
sa
r
e
s
t
o
r
e
d
. On most h
o
s
t
st
h
i
sd
e
f
a
u
l
t
st
o yourcuπent
d
i
r
e
c
t
o
r
y
.Tor
e
d
i
r
e
c
tt
h
eg
r
a
p
h
i
c
so
u
t
p
u
te
l
s
e
w
h
e
r
e
youcanchanget
h
eGS問 AMEv
a
l
u
ebymodifying
t
h
ed
e
v
i
c
ee
n
t
r
yo
rbyu
s
i
n
gaGOPTIONSs
t
a
t
e
m
e
n
t
t
占.
.
.
..,.:."''"'f.lI1:,..:..,:.;I:I~1T'iiIT'iJ:l品岡山叫開園 -I ロ Ixl
1 日拙 F
酬 .
.
d S
t
o
p R
e
l
r
e,
h H
o
m
e 5回 目 h,
1山 a
1
U
n
k
sl
1
lBestoltheW曲目 Tod引 凶k,l
1
lWebGdIl町
,
j
A
dd
r
e
s
sI附 )Iw~w 山地田町内a岬/日sgra凶h阿
Q
L
副圃IySaJ園IJfSl匝
As t
h
ec
h
a
r
t
sa
r
eb
e
i
n
gg
e
n
e
r
a
t
e
d, GOPTIONS
NODISPLAY i
ss
et
. Whent
h
ePROCGCHARTh
a
s
ss
e
t,and t
h
e
completed,GOPTIONS DISPLAY i
p
r
e
v
i
o
u
s
l
yg
e
n
e
r
a
t
e
dc
h
a
r
t
sa
r
er
e
p
l
a
y
e
di
n
t
ot
h
e
i
n
d
e
x
.
h
t
m
lf
i
l
e
. This p
r
e
v
e
n
t
s each c
h
a
r
t 合om
o
v
e
r
w
r
i
t
i
n
gt
h
ep
r
e
v
i
o
u
si
n
d
e
x
.
h
t
m
lf
i
l
ea
si
ti
s
g
e
n
e
r
a
t
e
d
.
WEBFRAMEDRIVER
。圃加暫制帽Fa処置也
ニl
Output1
i- 宜主""'''f.iC'l:''.'::l=IiI~四百岡市川田町llmllM -1 ロ Ixl
E
il
e f
d
i
t ~ew Qo F~vorìtes
4
コs>
0
目的
白合~ '~
8
.
c
k F
町
,w
a
r
d S
t
o
p R
e
f
r
e,
h H
o
m
e S
.
,.ch,~・
Un財 団 日 出 0
1t
h
eWebl
1
lTゆ L曲 目 WebGdIl町
A
dd国叶 h
U
p
j
川w
w
.u
n
x
.s
a
s
.c
o
m
l
.
.
.
.
.
s
a
s
h目 的 吋a
p
h州
ゴ
The WEBFRAME d
e
v
i
c
e works l
i
k
et
h
e HTML
d
e
v
i
c
ew
i
t
hamore advanced l
a
y
o
ut
.WEBFRAME
c
r
e
a
t
e
soneo
rmoreGIFf
i
l
e
sands
e
v
e
r
a
lHTMLf
i
l
e
s
t
h
a
td
i
s
p
l
a
yt
h
eGIFimagesw
i
t
ht
h
u
m
b
n
a
i
ll
i
n
k
s
.By
d
e
f
a
u
l
tt
h
el
a
y
o
u
ti
sbrokendowni
ntwov
i
e
w
s
.The
l
e
f
ts
i
d
ec
o
n
t
a
i
n
st
h
ethumbnails
i
z
eg
r
a
p
h
sandt
h
e
r
i
g
h
ts
i
d
ec
o
n
t
a
i
n
st
h
e cuπentf
u
I
Is
i
z
eg
r
a
p
h
. You
can s
e
l
e
c
t a thumbnail graph t
o view t
h
e
c
o
r
r
e
s
p
o
n
d
i
n
gf
u
I
Is
i
z
eimageont
h
er
i
g
h
ts
i
d
eo
ft
h
e
u
t
p
u
t3 i
sc
r
e
a
t
e
dbyr
u
n
n
i
n
gt
h
ecodefrom
p
a
g
e
.O
Example1,r
e
p
l
a
c
i
n
gGOPTIONSDEVICE=HTML
w
i
t
hGOPTIONSDEVICE=WEBFRAME
。岨I
伽 暫 細 田 F a 組 副 首a
~I:I"
I
r
也
III・~!
QLI
眠 時 創 国 F aP町包
こl
Output2
341‑
I
議開:l.."f'
i
t
t
:
r
.
.
:
.
.
'
:
'
:
B:
r
;
r
r
;
f
l
i
'
r
:
f
i
H週日間'l'i'rnlI:r閉山山ーーーー̲‑IロI
x
l
日e Ed 比~師阜o F
l!¥吊耐 s t
!e
l
p
・
@ 白 G l @ 白 . ~三F;'J
?
Bd
C
k
5
1叩
Aeu田 h H
α明
Ad臨時!帥J
畑山田封印
c
o
•
Pmjb
孟4
S
e
a
r
c
hF
酎世田
U耐 白 Mol!heW,曲目 T
明"凶曲目馳白向
日抽出陶
ヱj
p
l
s
a
s
g
a
p
h
.h1:附
間伽開句
•
白血旭町嗣園町自画
ーL
Thef
i
l
e
sg
e
n
e
r
a
t
e
dbyt
h
eWEBFRAMEd
e
v
i
c
ea
r
e
:
・
1
.
圃
1
1
1
1
1・ 園 田 恥 1
・
・
・
hlllY
I
・
Output3
I
nO
u
t
p
u
t3whenyouc
l
i
c
kont
h
et
h
u
m
b
n
a
i
lf
o
rP
a
r
i
s
t
h
eg
r
a
p
hf
o
rP
a
r
i
sa
p
p
e
a
r
s on t
h
er
i
g
h
t frame a
s
shown i
nO
u
t
p
u
t4
. Each f
u
l
l
‑
s
i
z
eg
r
a
p
hh
a
sa
s
e
p
a
r
a
t
eHTMLf
i
l
e
.
i
樋
;
‑
f
.
.
:
.
.
"
"
.
.
.
.
同盟国日 B:",~í1t…… l ::r.rn…̲ ̲ ̲
.̲Iolxl
B
l
eE
d
i
t ~8W .
Q
o F
=
r
i
t
e
s!
:
!
e
l
p
i
む
白
合 @Sd白
,重図
5
1
叩
A
e
l
r
e
由 同 時
c
h Fめ明田 p ,,~
や
Ba
<
ゴ
,
a/
,
JU
耐 白 日 出d
t
h
e
W
曲目T
岬叫,
:
i
A
‑
E
s
s
i
附 /
/
w u
n
x
s
a
s
c
ー
!
~w曲目曲y
~P,O<Ld N .
.
州
Q圃国1yS:幽植民茸同血
A百一ANr
A 1
~
i
l
l
d
e
x
.
h
t
m
l
:Thisi
st
h
el
a
y
o
u
tdocumentandt
h
e
most i
m
p
o
r
t
a
n
to
ft
h
eg
r
o
u
p
.a
st
h
i
sf
i
l
ei
st
h
e
onewhichi
si
n
t
e
n
d
e
dt
obeviewedbyabrowser
o
rr
e
f
e
r
e
n
c
e
dfroma
n
o
t
h
e
rHTMLpage
s
a
s
t
h
u
m
b
.
h
t
l
l
l
l
:Thisf
i
l
ed
i
s
p
l
a
y
st
h
u
m
b
n
a
i
l
so
f
e
a
c
hf
u
l
ls
i
z
eGIFimagec
r
e
a
t
e
dbyt
h
ed
r
i
v
e
ri
n
aframe on t
h
el
e
f
t hand s
i
d
eo
ft
h
e browser
ta
l
s
ol
i
n
k
st
h
et
h
u
m
b
n
a
i
l
st
ot
h
ef
u
l
l
window. I
s
i
z
e GIF i
m
a
g
e
s
. When t
h
et
h
u
m
b
n
a
i
l
sa
r
e
c
l
i
c
k
e
d,t
h
ef
u
l
ls
i
z
e image i
sd
i
s
p
l
a
y
e
di
nt
h
e
t
a
r
g
e
tf
r
a
m
e
. The nameo
fe
a
c
h image a
p
p
e
a
r
s
j
u
s
tbelowe
a
c
ht
h
u
m
b
n
a
i
landcoπespondst
ot
h
e
namet
h
a
ti
sf
o
u
n
di
nt
h
eGRSEGe
n
t
r
y
<
g
r
a
p
h
n
a
m
e
>
.
l
z
t
m
l
: This HTML f
i
l
es
i
m
p
l
y
d
i
s
p
l
a
y
st
h
ef
u
l
ls
i
z
e image i
n
d
i
c
a
t
e
d,where
<graphname>i
st
h
eb
a
s
enamea
s
s
o
c
i
a
t
e
dw
i
t
h
t
h
ef
u
l
ls
i
z
ei
m
a
g
e
.Therei
soneo
ft
h
e
s
eHTML
f
i
l
e
sc
r
e
a
t
e
df
o
re
a
c
hg
r
a
p
h produced by t
h
e
p
r
o
c
e
d
u
r
e
<GRSEGe
n
t
r
yn
a
m
e
>
.
g
i
f
: The WEBFRAME
d
e
v
i
c
ec
r
e
a
t
e
sat
h
u
m
b
n
a
i
landaf
u
l
ls
i
z
eimage
p
a
i
rf
o
re
a
c
hg
r
a
p
hproducedbyt
h
ep
r
o
c
e
d
u
r
e
.
Thef
u
l
ls
i
z
eimagef
i
l
e
n
a
m
ec
o
r
r
e
s
p
o
n
d
st
ot
h
e
namei
nt
h
eGRSEGe
n
t
r
y
.Thet
h
u
m
b
n
a
i
ls
i
z
e
imagef
i
l
e
n
a
m
eb
e
g
i
n
sw
i
t
h f
'
.Ther
e
m
a
i
n
i
n
g
c
h
a
r
a
c
t
e
r
sa
r
et
h
esamea
st
h
o
s
et
h
a
ta
r
eu
s
e
df
o
r
t
h
ef
u
l
ls
i
z
eimagef
i
l
e
n
a
m
e
.
h
eGSFNAMEf
i
e
l
do
ft
h
eWEBFRAME
Byd
e
f
a
u
l
t,t
d
e
v
i
c
ee
n
t
r
yp
o
i
n
t
st
ot
h
el
o
c
a
t
i
o
nwheret
h
ef
i
l
e
sa
r
e
c
r
e
a
t
e
d
. On mosth
o
s
t
st
h
i
sd
e
f
a
u
l
t
st
oyourcuπent
d
i
r
e
c
t
o
r
y
.Tor
e
d
i
r
e
c
tyourg
r
a
p
h
i
c
so
u
t
p
u
te
l
s
e
w
h
e
r
e
youmayt
a
k
et
h
esameapproacha
sw
i
t
ht
h
eHTML
d
e
v
i
c
e
.T
h
i
sd
e
v
i
c
ew
i
l
lc
r
e
a
t
es
e
v
e
r
a
l HT
恥1Lf
i
l
e
s
and c
a
n p
o
t
e
n
t
i
a
l
l
yc
r
e
a
t
e many GIF f
i
l
e
sp
e
r
p
r
o
c
e
d
u
r
e
.L
i
k
et
h
eHT
恥1Ld
e
v
i
c
e,t
h
eWEBFRAME
si
n
t
e
n
d
e
dt
obeu
s
e
di
nb
a
t
c
hj
o
b
st
oc
r
e
a
t
e
d即 日 i
1y
.
HTMLp
a
g
e
sont
h
ef
U
s
i
n
gOutputD
e
l
i
v
e
r
ySystem(ODS)
ーt
PARl
S
Output4
.
l
r
l
L
L
i
k
et
h
ed
e
v
i
c
ed
r
i
v
e
r
s,t
h
e ODS HTMLs
t
a
t
e
m
e
n
t
a
l
l
o
w
syout
oc
r
e
a
t
eSAS/GRAPHo
u
t
p
u
tf
o
rt
h
eWeb
w
i
t
hd
r
i
l
l
‑
d
o
w
nc
a
p
a
b
i
l
i
t
y
.I
na
d
d
i
t
i
o
n,ODSa
l
l
o
w
s
yout
ocombineo
u
t
p
u
tfromd
i
f
f
e
r
e
n
tp
r
o
c
e
d
u
r
e
sand
d
e
f
i
n
e custom l
a
y
o
u
t
s
.T
h
i
s method r
e
q
u
i
r
e
s some
knowledgeoft
h
eHTMLl
a
n
g
u
a
g
e
.Yous
h
o
u
l
da
l
s
o
b
ef
a
m
i
l
i
a
rw
i
t
ht
h
eODSHTMLs
t
a
t
e
m
e
n
tandhow
t
h
eg
r
a
p
h
sa
r
ec
r
e
a
t
e
dfromt
h
ed
a
t
as
e
t
s
342一
C
r
e
a
t
i
l
l
gSASIGRAPHO
l
l
t
p
u
tWithODS
ODSHTMLo
u
t
p
u
talwaysc
r
e
a
t
e
sa body"f
i
l
et
h
a
t
t
h
ev
i
e
w
e
rd
i
s
p
l
a
y
sa
sas
i
n
g
l
e Web p
a
g
e
. ODS
HTMLc
a
na
l
s
oc
r
e
a
t
ea frame"白l
e,whicha
l
l
o
w
s
yout
od
i
v
i
d
et
h
eWebpagei
n
t
oa
r
e
a
s
.Youc
a
nu
s
e
a
b
l
eofωntents,
t
h
eframet
od
i
s
p
l
a
yt
h
ebodyt
i
l
e,at
ando
t
h
e
rf
r
a
m
e
s
.Forexample,t
h
ef
o
l
l
o
w
i
n
go
u
t
p
u
t
d
i
s
p
l
a
y
sat
a
b
l
eo
fc
o
n
t
e
n
t
sandagraphi
nas
i
n
g
l
e
f
r
a
m
e
.
I
nt
h
i
sexampleyoucana
l
s
od
r
i
l
ldownont
h
eb
a
r
s
.I
f
youc
l
i
c
kont
h
eb
a
rf
o
rA
t
l
a
n
t
a,i
td
i
s
p
l
a
y
sa3Dp
i
e
c
h
a
r
tf
o
rt
h
es
i
t
eA
t
l
a
n
t
a
.S
i
m
i
l
a
r
l
y,youc
a
nc
l
i
c
kon
P
a
r
i
so
rSydneyt
og
e
tt
h
e3Dp
i
ec
h
a
r
tf
o
re
a
c
hc
i
t
y
e
p
a
i
r
so
r Tools
C
l
i
c
k
i
n
g LEGEND f
o
rP
a
r
t
s, R
d
i
s
p
l
a
y
saq
u
a
r
t
e
r
l
yr
e
p
o
r
tt
h
a
twas produced u
s
i
n
g
l
i
c
k
i
n
gont
h
et
e
x
tl
i
n
k
s
PROCPRINT.I
na
d
d
i
t
i
o
n,c
i
nt
h
eTableo
fC
o
n
t
e
n
t
sw
i
l
ld
i
s
p
l
a
yt
h
ea
p
p
r
o
p
r
i
a
t
e
口s
.
g
r
a
p
h
so
rr
e
p
o
you
Tog
e
n
e
r
a
t
et
h
i
sgraphw
i
t
hd
r
i
l
l
‑
d
o
w
nc
a
p
a
b
i
l
i
t
y,
mustd
e
f
i
n
et
h
el
i
n
k
st
h
a
tc
o
n
n
e
c
teachc
l
i
c
k
a
b
l
ea
r
e
a
w
i
t
ht
h
ec
o
r
r
e
s
p
o
n
d
i
n
gp
i
ec
h
a
r
to
rr
e
p
o口 These
l
i
n
k
sa
r
e HTML commands t
h
a
ta
r
es
t
o
r
e
di
nt
h
e
i
l
eandp
o
i
n
tt
ot
h
ef
l
l
et
h
a
ti
st
h
et
a
r
g
e
t
HT恥1Lbodyf
o
ft
h
ed
r
i
l
l
‑
d
o
w
n
.
巴s
el
i
n
k
s,yous
t
o
r
et
h
eHT恥1Lcommands
Tod
e
f
i
n
et
h
.Whent
h
eODS
i
nanewv
a
r
i
a
b
l
eoft
h
ei
n
p
u
td
a
t
as
et
tc
r
e
a
t
e
st
h
e body f
i
l
e,i
ti
n
c
l
u
d
e
s
HTML s
t
a
t
e
m巴n
t
h巴s
ecommandsi
nt
h
ef
i
l
e
.
F
i
r
s
t,l
o
o
ka
tt
h巴 cuπentd
a
t
aandd巴c
i
d
ewhata
c
t
i
o
n
n
e
e
d
st
ohappenwhenyouc
l
i
c
kont
h
eb
a
r
s
. Then
h
a
td
e
f
i
n
e
st
h
e
a
s
s
i
g
nt
h
i
sa
c
t
i
o
nt
oanewv
a
r
i
a
b
l巴 t
i
n
k
sfromt
h
o
s巴 b
a
r
s
.A n巴wv
a
r
i
a
b
l
ei
sadd巴d
HT恥1Ll
t
ot
h
ed
a
t
as
巴tf
romExample 1,which d
e
f
i
n
e
st
h
e
r
eB
a
r
d
r
i
l
l
s and
d
r
i
l
l
‑
d
o
w
na
r
e
a
s
. These v
a
r
i
a
b
l巴sa
Leg
e
n
d
d
r
i
l
l
s
.A v
a
l
u巴 f
o
rB
a
r
d
r
i
l
l
sw
i
l
lb
es
巴tb
ased
on A
t
l
a
n
t
aぺ P
a
r
i
s
",and Sydney"b
a
r
s,s
ot
h巴 new
v
a
l
u
e
sw
i
l
lbea
s
s
i
g
n
e
db
a
s巴dont
h巴 s
i
t
ev
a
r
i
a
b
l
eo
f
t
h巴 newv
a
r
i
a
b
l巴 B
a
r
d
r
i
l
l
s
.Leg巴ndsc
a
na
l
s
ohavea
s
i
m
i
l
a
rd
r
i
l
l
‑
d
o
w
nc
a
p
a
b
i
l
i
t
y
. To d
e
f
i
n
ed
r
i
l
l
‑
d
o
w
n
a
c
t
i
o
nf
o
rt
h
el
e
g
e
n
d Pa
口s
",R巴p
a
i
r
s
",and Tools",
youw
i
l
la
s
s
i
g
nnewv
a
l
u
e
sbasedont
h
ed
e
p
tv
a
r
i
a
b
l
e
f
o
rt
h
巴n
ewv
a
r
i
a
b
l
eLeg巴n
d
d
r
i
l
l
s
.
d
Output5
Thecodebelowi
su
s
e
dt
og
e
n
e
r
a
t
ewhati
sd
i
s
p
l
a
y
e
d
ll
f
J
1
I15
. Thed
a
t
as
e
t,n
e
w
t
o
t
a
l,i
sb
a
s
e
dont
h
e
i
n01
t
o
t
a
l
sd
a
t
as
e
tc
r
e
a
t
e
di
nExample1
.
Example2
:
d
a
r
an
e
w
r
o
r
a
l
;
s
e
l
l
o
r
a
l
s・
l
e
n
g
r
hB
a
r
d
r
i
l
I
s$40L
e
g
e
n
d
d
r
il
I
s$4
0
;
Bardrills='HREF=
引I
t
r
i
m
(
s
i
t
e
)
;
Legenddrills='HREF=#
1
'
l
t
r
i
m
(
d
e
p
t
)
;
r
u
n
;
fb
o
t
ht
h
enewv
a
r
i
a
b
l
e
si
sof
Notet
h
a
tt
h
ev
a
l
u巴so
t
h
巴f
orm HREF=#<anchor‑nam巴>'. T
h
i
si
sr
e
q
u
i
r
e
d
s
y
n
t
a
xf
o
rHTML
.
くAnchor‑nam巴>canbeanyunique
name,b
u
ti
t must match 巴x
a
c
t
l
yt
h
e name o
ft
h
e
c
o
r
r
e
s
p
o
n
d
i
n
g outpu.
t To c
o
n
t
r
o
lt
h
e name o
ft
h
e
o
u
t
p
u
t,u
s
et
h
eANCHORo
p
t
i
o
ni
nt
h
eODSHTML
s
t
a
t
e
m
e
n
tb
e
f
o
r
et
h
ep
r
o
c
e
d
u
r
e
.
Oncet
h巴 d
a
t
as
巴t
i
ss
e
t
u
p,youneedt
os
t
o
pt
h
eo
u
t
p
u
t
fromgoingto t
h
egraphando
u
t
p
u
twindow.A
l
lt
h
e
g
r
a
p
h
sa
r
ed
i
s
p
l
a
y巴di
nt
h
eGIFformat
.GIFf
i
l巴scan
.Bothoft
h
e
s
e
b
ec
r
e
a
t
e
du
s
i
n
gt
h
eGIFd
e
v
i
c
ed
r
i
v
er
s
t
a
t
e
m
e
n
t
sa
r
er
e
q
u
i
r
e
dt
og
e
tyourHTMLo
u
t
p
u
t
/
*S
r
a
r
/s
e
n
d
i
n
g01l/{J1I/
/
oh
/
m
l*
/
o
d
sl
i
s
/
i
n
gc
l
o
s
e
;
g
o
p
/
i
o
n
sr
e
s
e
t
=ロ/
l
d
e
v
i
c
e
=
g
i
f
;
ODS h
a
ss
e
v巴r
a
lp
r
巴d
e
f
i
n
e
dl
a
y
o
u
t
sw
l
l
i
c
h can b巴
s
e
l
e
c
t
巴db
yt
h
e STYLE=o
p
t
i
o
n
.O
u
t
p
l
l
t5d
i
s
p
l
a
y
s
a
y
o
u
to
ft
h
e main frame,c
o
n
t
a
i
n
i
n
g two sub
t
h巴 l
f
r
a
m
e
s,t
a
b
l巴 ofc
o
n
t
e
n
t
sand t
h
eo
u
t
p
u
tf
r
a
m
e
.The
343
日LE o p t i o ns p e c i f i e st h e HTML body t h a ti st h e d e s t i n a t i o nf o rt h eg r a p h i c so u t p u td i s p l a y e dont h e r i g h thands i d e ;t h i si sar e q u i r e do p t i o n .ThePATH= o p t i o ns p e c i f i e st h ed e s t i n a t i o nf o rt h eg r a p h i c s o u t p u tt h a ti sg e n e r a t e dbyt h eODSHTMLs t a t e m e n t The CONTENTS= o p t i o n c r e a t e s t h e 行l e t h a t c o n t a i n st h eHTMLi n f o r m a t i o nr e g a r d i n gt h et a b l e t h a ti sd i s p l a y e don t h el e f tcolumn.TheFRAME= o p t i o nc r e a t e st h ef i l et h a ti st h e main f i l et h a ti s viewed once t h eg r a p h sa r ec r e a t e d .Theframef i l e c o n t a i n st h el o c a t i o nf o rt h ec o n t e n t sand t h ebody c r e a t e df o rt h eg r a p h s . / *C r e a t ev e r t i c a lbarw i t hd r i l l ‑ d o w na c t i o n* / procg r a d a r ; t i t l e' S a l e sb yD e p a r t m e n t ' ; c h a r td e p t/s l l l l l v a r = s a l e s o v e r l a y = s i t e プ i l l = ( r e dg r e e nb l l l e ) c s t a l s t a l プ i l l = (s o l i ds o l i ds o l i d ) h t l l l l = B a r d r i l l s h t m l ̲ l e g e n d = L e g e n d d r i l l s / ホD i s p l a y e di nT a b l eo fc o n t e n t s* / des=' S a l e sByS i t e ' ; r l l n ; / *d e f i n e f i l e st og e n e r a t eh t m l&g i f f i l e s* / o d sh t m l f i l e =' c h a r t . h t l l l l ' s t y l e = s t y l e s . d 3 d path=' m y d i r ' c o n t e n t s =' c o n t e n t s . h t m / ' ' f r a l l l e .h t m l; ' frame= Thegrapht h a tw i l lbed i s p l a y e dwhent h ed r i l l ‑ d o w n i ss e l e c t e d on t h eb a rw i l l depend on t h eu n i qu e anchor name g i v e nt ot h a tg r a p h . Anchor name s h o u l dbed e f i n e db e f o r eeachgraphi sp r o d u c e d .I f no anchor name i sd e f i n e dt h e n ODS w i l lg i v ea u n i q u e name s t a r t i n g w i t h IDXく i n d e x >, where くi n d e x >s t a r t sw i t hO .I nt h eO l l t p l l t5,a3dp i ef o r s e l e c t e ds i t ei sd i s p l a y e dwhent h ed r i l l ‑ d o w na c t i o n . i sperformedont h ev e r t i c a lbar Tod e f i n ead r i l l ‑ d o w na c t i o nf o rA t l a n t aa nanchor name s h o u l d be a s s i g n e d . The anchorname h a st o .S i n c et h en e x tc h a r t matcht h e one i nt h ed a t as et u s e s aWHERE c l a u s et og e tt h ei n f o r m a t i o no n l y oa s s i g nt h eODS HTML a b o u tA t l a n t a,youneed t ANCHORo p t i o nt oA t l a n t a . Theanchornamef o r Sydney and P a r i s a l s o needs t o be a s s i g n e d a p p r o p r i a t e l yb e f o r et h ePIE3Ds t a t e m e n t Byd e f a u l tt h egraphh a saw h i t eb a c k g r o u n d .Tog i v e t h egraphat r a n s p a r e n c ye f f e c ts p e c i f y : g o p tlOn st r a n s p a r e n c y ; Byd e f a u l tt a b l eo fc o n t e n t sw i l l have nameo ft h e p r o c e d u r ea st h el a b e lf o reachgrapht h a ti sd i s p l a y e d i nt h eframewindow.Too v e r w r i t et h ed e f a u l tl a b e l s p e c i f y f o l l o w i n g ODS s t a t e m e n t b e f o r e e a c h p r o c e d u r e : o d sproc/a b e l= ' S a l e s ' ; I fyouhavea nimagemapi nt h ebackgroundt h e nyou w i l l bea b l et ou s et h a ta st h ebackgroundf o ry o u r graph 仁子沼︑ 一 ↑ 一 vhfn 引'.︐ g a s d ‑ bvJnsey 司 明 ︐ U円M d d 3 3e.dG03z 白砂 LMm M 幻d n h m7f/ ︐ w v J E n ︐ ‑344‑ d ︐・y o d sh t m lanchor=' P a r i s ' ; w h e r es i t e?' P a r i s ' ; t i t l e' S a l e sForP a r i s ' ; p i e 3 dd e p t/n o h e a d i n g w v J r l l n ; CJ r o e a y r o一 此白 ω 一 内 官 ︑o n ρLρL ー nuρLEuea !ep i‑‑J? n s a d u o v︑ ugf 'hn nepl d‑w The HT 品1L̲LEGEND= a l l o w s you t oc o n t r o lt h e d r i l l ‑ d o w na c t i o nf o reachl e g e n dv a l u ei nt h eg r a p h . a r i a b l e I n t h e d a t a s e t NEWTOTAL, a new v LEGENDDRILLSi sde行口巴: dt oa l l o wt h ed r i l l ‑ d o w n . a c t i o nf o reachdepartment A 必 M‑M ︐ ︑ OMhup・ l l Oncet h es e t u pf o rt h ef i l e sandd e v i c e si sdone,a t h a t r e m a i n s a r e t h e g r a p h s and r e p o r t s . The GCHART p r o c e d u r e h a s two VBAR s t a t e m e n t o p t i o n st h a tc o n t r o lt h ed r i l l ‑ d o w nf e a t u r e :HTML= v a r i a b l e and HTML LEGEND= v a r i a b l e . The HTML=v a r i a b l eo p t i o ni sa s s o c i a t e dw i t ht h egraph a r e asucha sr e c t a n g l e sandpolygonst h a ta r eu s e dt o drawt h egraphi t s e l f .I nt h ed a t as e tNEWTOTAL,a newv a r i a b l e,BARDRILLS,i sd e f i n e dt oa l l o wt h e d r i l l ‑ d o w na c t i o nf o reachs i t e . / *d e f i l l et h eanchorp o i n ti nt h eh t 川f i l e* / o d sh t m lanchor=' A t l a n t a' ; p r o cg c h a r t ; w h e r es i t e?' A t l a n t a ' ; t i t l e' S a l e sForA t l a n t a; ' p i e 3 dd e p t/n o h e a d i n g s l l m v a r = s a l e s d e s = ' S a l e sForA t l a n t a ' n a m e = ' A t l a n t a ' ; r l l n ;
To r e d i r e c tf u t u r eo u t p u tt oi t sd e f a u l t window a n ODSLISTINGs t a t e m e n ti sr e q u i r e d s l ll1lv a r = s a l e s des=' S a l e sForP a r i s ' P a r i s; ' nal1le=' l 1 l1 c /o s e ; o d sh t o d sl i s t i n g ; r u n ;qUl I ; The Legend d r iI l‑down a c t i o nn e e d st ob ed e f i n e d b a s e d on t h ea n c h o rv a l u et h a ti su s e di nt h e LEGENDDRILLS v a r i a b l e . B e f o r e e a c h PROC 恥1 LANCHORo p t i o n PRINTs t a t e m e n ta nODSHT s h o u l db eu s e dt od e f i n et h eu n i q u ea n c h o rf o re a c h d e p a r t m e nt .Anchornames h o u l dmatcht h enamet h a t i su s e di nt h e LEGENDDRILLS v a r i a b l ef o re a c h .PROCSORTs o r t st h ed a t abys i t er a t h e r d e p a r t m e nt t h a nbyd e p a r t m e n t / キs o口 dataforprocp r i n tO l l t p l l t吋 procS Oη d a t a = n e w t o t a l ;bys i t e ;r l l n ; / キg e n e r a t ear e p o r tforeachd e p a r t m e n t吋 Toc r e a t eag r a p hu s i n gc l i e n tt e c h n o l o g yr e p l a c eg i f l d e v i c ew i t hActiveXo rJ a v a .D e v i c eo fActiveXw iI p r o d u c eag r a p hu s i n gActiveXc o n t r o lwhichi smore s u i t a b l ef o rPCb a s e dc l i e n t s .Deviceo fJ a v ai smore s u i t a b l ef o rnon‑PCb a s e dc l i e n t s .ActiveXa n dJ a v a g r a p h sa r el i v eg r a p h sandc o u l dbem a n i p u l a t e don t h ew e b . ActiveXg r a p h sc a na l s ob ep a s t e di nt h e word doc a n dc o u l db em a n i p u l a t e d . Most o ft h e SAS/Graphf u n c t i o n a l i t yi ssuppo口e du n d e rActiveX a n dJ a v a .F o rac o m p l e t el i s tp l e a s er e f e rt ot h eV8e o n l i n ed o c u m e n t a t i o n You c a nu s et h e ODS HTML s t a t e m e n tw i t ha n y SAS/GRAPH p r o c e d u r e s . The HTML a n d lowt h ed r iI l‑down HTML̲LEGENDo p t i o n st h a taI a b i l i t ya r eo n l y suppo口e d u n d e rt h ef oI lowing p r o c e d u r es t a t e m e n t s : / キo daanchor=d e f i n e st h eI I n i q z . 日 h t l 1 l1 anc/lOr匂 t i t l e' P a r t sS o l d ' ; o d sh t m lanchor=' P a r t s ' ; ' ; o d sp r o c l a b e l =' P aηs procp r i n td a t a = n e w t o t a l d e p t?' P a r t s ' ) )I lo o b s ; ( w h e r e=( fonnats a l e sd o l l a r 8 . ; S I l I 1 ls a l e s ; l ' ars i t eq l l aηe rs a l e s ; r u n ; PROCGRADAR‑ • CHART PROCGCHART • VBAR,HBAR • BLOCK • PIE,PIE3D • VBAR3D,HBAR3D STAR, • DONUT PROCGPLOT‑ • AREAS • POINTS PROCGMAP‑ • CHORO BLOCK PRISM t i t l e' R e p a i r sD o n e ' ; o d sh t m la n c h o r = ' R e p a i r s ' ; o d sp r o c l a b e l =' R e p a i r s ' ; procp r i n td a t a = n e w t o t a l ( w h e r e=( d e p tフ ' R e p a i r s ' ) )n o o b s ; f O n l z a ts a l e sd o l l a r 8 . ; s l l ms a l e s ; ν a rs i t eq u a r t e rs a l e s ; ・ ・ 11m; ・ t i t l eToolsS o l d ' ; o d sh t m la n c h o r = T o o l s ' ; o l s ' ; o d sp r o c l a b e l ='To procp r i n tdata=newtotα i ( w h e r e= ( d e p t?T o o l s ' ) )n o o b s ; fonnats a l e sd o l l a r 8 . ; I l I 1 ls a l e s ; S v a rs i t eq l l aηe rs a l e s ; T u n ; U s i n gOutputDataS e to fSAS/GRAPH I fyouh a v ee x t e n s i v e knowledge a b o u tHTMLa n d w a n tt ow r i t ey o u r own Web p a g e st h a ti n c l u d e o u t p u tfrom SAS/GRAPH s o f t w a r ew i t hd r iI l‑down o p t i o n s,u s et h eo u t p u td a t as e tm e t h o d . The CLOSEo p t i o nf o rt h e ODS HTMLs t a t e m e n t c l o s e sa l lf i l e sopenedbyt h eFILE=,FRA恥1E=,a n d CONTENTS= o p t i o n sa n ds t o p sg e n e r a t i n gHT恥1L o u t p ut .T hesef i l e sr e m a i nopenu n t i lyouc l o s ethem w i t ht h eCLOSEo p t i o no ryous p e c i f yad i f f e r e n tt i l e . T h i s method combines p r o c e d u r es y n t a xw i t h SAS DATA s t e p sa n d macros t og e n e r a t et h e HTML o u t p ut .Tog e n e r a t et h eGCHART,GPLOTo rGMAP o u t p u t,youu s et h ep r o c e d u r e 's1 恥1AGEMAP=o p t i o n t os p e c i f yad a t as e tt h a twiI ls t o r ei n f o r m a t i o nt h a ti s ‑345‑
u
s
e
d t
o g
e
n
e
r
a
t
e t
h
e g
r
a
p
h
s produced by t
h
e
p
r
o
c
e
d
u
r
e
.1
na
d
d
i
t
i
o
nt
ot
h
e1MAGEMAP=o
p
t
i
o
n,
u
s
et
h
ep
r
o
c
e
d
u
r
e
'
s HTML=o
rHTML̲LEGEND=
o
p
t
i
o
nt
oi
d
e
n
t
i
f
yt
h
ev
a
r
i
a
b
l
ewhosev
a
lu
e
sc
r
e
a
t
et
h
e
HTMLd
r
iI
l‑downI
in
k
s
.Tog
e
n
e
r
a
t
et
h
eHTMLcode,
you u
s
eSASDATA s
t
e
p
st
ow
r
i
t
et
h
eHTMLt
a
g
s
t
h
a
tyoun
e
e
dt
oc
r
e
a
t
eandd
e
s
i
g
ny
o
u
rf
r
a
m
e
s,and
lyc
o
n
s汀 u
c
tt
h
e
t
h
eSASmacrol
a
n
g
u
a
g
et
odynamicaI
Web p
a
g
e
s,b
a
s
e
d on t
h
eo
u
t
p
u
t from your SAS
p
r
o
g
r
a
m
.
lc
r
e
a
t
et
h
e
Using1MAGEMAP=<datas
e
tname>w
iI
o
u
t
p
u
td
a
t
as
e
tt
h
a
tc
o
n
t
a
i
n
st
h
eo
u
t
l
i
n
ei
n
f
o
r
m
a
t
i
o
n
a
b
o
u
tt
h
es
h
a
p
e
su
s
e
di
nt
h
eg
r
a
p
h
.The HTMLo
r
HTML̲LEGENDp
r
o
c
e
d
u
r
eo
p
t
i
o
ni
sn
e
c
e
s
s
a
r
yf
o
r
t
h
e1MAGEMAPo
p
t
i
o
nt
oc
r
e
a
t
eaSASd
a
t
as
et
.The
o
u
t
p
u
td
a
t
as
e
th
a
st
h
ef
oI
lowingv
a
r
i
a
b
l
e
s
:
graphv
a
r
i
a
b
l
e
:T
h
i
si
sane
i
g
h
tc
h
a
r
a
c
t
e
rv
a
r
i
a
b
l
e
.
Byd
e
f
a
u
l
ti
th
a
st
h
enameo
ft
h
eg
r
a
p
h
.1
nc
a
s
eo
f
lh
aveav
a
l
u
eo
fGCHART.
PROCGCHARTi
tw
iI
The namingc
o
n
v
e
n
t
i
o
n
sa
r
et
h
e same a
st
h
o
s
ef
o
r
GRSEGSandc
a
nbem
o
d
i
f
i
e
dbyu
s
i
n
gt
h
eNAME
o
p
t
i
o
ni
nt
h
ep
r
o
c
e
d
u
r
e
.
a
p
p
r
o
p
r
i
a
t
e image m
a
p
s
. OUlp1
l1 6 s
hows t
h
e Web
p
a
g
et
h
a
twasc
r
e
a
t
e
du
s
i
n
gt
h
eo
u
t
p
u
td
a
t
as
e
tfrom
SAS/GRAPHu
s
i
n
gt
h
e1MAGEMAP=andHTML=
o
p
t
i
o
n
s
. The d
i
s
p
l
a
yi
sd
i
v
i
d
e
di
n
t
o two s
e
p
a
r
a
t
e
f
r
a
m
e
s
.Thel
e
f
ts
i
d
eo
ft
h
ef
r
a
m
ed
i
s
p
l
a
y
st
h
eBAR
c
h
a
r
tw
i
t
hd
r
iI
l‑down r
e
g
i
o
n
sandt
h
er
i
g
h
td
i
s
p
l
a
y
s
t
h
eo
u
t
p
u
td
i
s
p
l
a
y
e
db
a
s
e
dont
h
ed
r
iI
l‑downa
c
t
i
o
n
.
The 1MAGEMAP=<data s
e
t name> o
p
t
i
o
n i
s
. By d
e
f
a
u
l
ti
t
s
p
e
c
i
f
i
e
da
st
h
ep
r
o
c
e
d
u
r
es
t
a
t
e
m
e
nt
lc
r
e
a
t
et
h
eSASd
a
t
as
e
ti
nt
h
eworkd
i
r
e
c
t
o
r
y
.
w
iI
Exall1p
l
e3p
r
o
d
u
c
e
st
h
eh
t
m
lf
i
l
ed
i
s
p
l
a
y
e
di
nO
l
l
l
p
l
l
l
6
. A VBAR c
h
a
r
ts
i
m
i
l
a
rt
o Example 2 c
a
nb
e
c
r
e
a
t
e
dw
i
t
ht
h
e1MAGEMAP=o
p
t
i
o
n,f
oI
lowedbya
P1E3Dc
h
a
r
tt
od
i
s
p
l
a
yi
nt
h
ei
n
i
t
i
a
lc
o
n
t
e
n
twindow
(
o
nt
h
er
i
g
h
ts
i
d
e
),andP1E3Dc
h
a
r
t
sf
o
re
a
c
hs
i
t
e,t
o
d
i
s
p
l
a
y when t
h
e coπesponding b
a
ri
sc
l
i
c
k
e
d
.
Example3s
t
a
r
t
sw
i
t
ht
h
en
e
w
t
o
t
a
ld
a
t
as
e
tc
r
e
a
t
e
di
n
Example2
.
II~ごニムム F-i ム込
~
!
f
.
I
二
2 ♀.e.~己 J弘 t言 語
'9:
t
.
d
..
9
"
"
'
.
.
.
.
"
'
‑
[
1
1
1
噛 ・ 四 百 四6朗
自 内 自 』 自 ぬ 国
山川町一一…一
,..
.
.
蜘
・
S曲・., 51包向, ~D耳町加町而
n
g
l
hv
a
r
i
a
b
l
e
:T
h
i
si
s a numeric v
a
r
i
a
b
l
et
h
a
t
Le
c
o
n
t
a
i
n
st
h
ec
h
a
r
a
c
t
e
rl
e
n
g
t
ho
ft
h
eL
i
n
kv
a
r
i
a
b
l
e
.
L
in
kv
a
r
i
a
b
l
e
:T
h
i
si
sac
h
a
r
a
c
t
e
rv
a
r
i
a
b
l
et
h
a
t
c
o
n
t
a
i
n
st
h
ei
n
f
o
r
m
a
t
i
o
nt
h
a
t you a
s
s
i
g
n
e
df
o
rt
h
e
.1
th
a
s amaximum
HTML v
a
r
i
a
b
l
ei
nt
h
ed
a
t
as
et
u
ti
t
s cuπent l
e
n
g
t
hi
s
l
e
n
g
t
h of 1024 c
h
a
r
a
c
t
e
r
s,b
g
t
hv
a
r
i
a
b
l
e
.
d
e
t
e
r
m
i
n
e
d from t
h
ev
a
l
u
ei
nt
h
e Len
FromExample2,t
h
i
sv
a
r
i
a
b
l
e wiI
lc
o
n
t
a
i
nt
h
esame
i
n
f
o
r
m
a
t
i
o
na
sB
a
r
d
r
iI
lso
rL
e
g
e
n
d
d
r
iI
ls
.
Shapev
a
r
i
a
b
l
e
:T
h
i
si
saf
o
u
rc
h
a
r
a
c
t
e
rnameo
ft
h
e
s
h
a
p
et
h
a
ti
sc
o
n
t
a
i
n
e
di
nt
h
egraphandc
a
nb
ee
i
t
h
e
r
RECTo
rPOLY.ForaBARc
h
a
r
ti
tw
i
l
lh
a
v
eav
a
l
u
e
o
fRECTando
t
h
e
rc
h
a
r
tt
y
p
e
sw
il
Ih
a
v
eav
a
l
u
eo
f
POLY.
.
.
租 .
8
自制圃陶僧
Example3
:
1
*L
o
c
a
l
i
o
n10s
l
o
r
ea
l
l
l
h
ej
i
!
e
sc
r
e
a
l
e
d*
1
%
l
e
ldupalh=<sloraged
i
r
e
c
l
o
r
ypalh>;
d
i
r
p
a
l
h
'
j
i
!
e
n
a
l
l
l
e
f
r
a
m
e&
j
i
l
e
n
a
l
l
l
eh
l
m
!'
&
d
i
r
p
a
l
l
z
'
j
i
!
e
n
a
l
l
l
es
a
l
e
s
p
i
e'
&
d
i
r
l
フ
ロI
h
'
j
i
!
e
n
a
l
l
l
eimage &
d
i
r
p
a
l
h
'
;
&
d
i
r
p
a
l
h
'
;
!
i
b
n
a
m
ee
x・
E4
c
=
Qx
T
l
I
C
P
‑
・
pM
n'H
=y
げ
0 4・ 官
E 円υ C F
︐
d 口υH
l
e
g
e
n
dl
a
b
e
l
=
(
'
D
e
p
l
.'
)
;
V1n=
=ιEZa
vXH
Y71t
叩
O
s
l
!
a
b
e
l
=
{
'
S
i
t
e
'
)
;
日
正i
s
2!
a
b
e
l
=
{
'
S
a
l
e
s
'
)
;
3
4
6一
g ゆdhM
d‑MO
ιmymr 的
z‑‑4・ 日
'μnob
刊 E=w
h
nss
t
md=
Fnxd
・ t J
﹃f
陀 4 P E
OEXAμd
間
l
1
3
1
c
o
o
r
d
i
n
a
t
e
so
ft
h
es
h
a
p
e
Witht
h
ed
a
t
as
e
ti
n
f
o
r
m
a
t
i
o
nyouc
a
nu
s
et
h
eSAS
MACROf
a
c
i
l
i
t
yt
oc
r
e
a
t
et
h
e HTMLf
i
l
ew
i
t
ht
h
e
自画岡田̲To咽
Output6
Xl 10 X100: These a
r
e numeric v
a
r
i
a
b
l
e
sf
o
rt
h
ex
Y1 10 Y1
0
0
: These a
r
en
u
m
e
r
i
cv
a
r
i
a
b
l
e
sf
o
rt
h
ey
c
o
o
r
d
i
n
a
t
e
so
ft
h
es
h
a
p
e
.",柑W
.".."・
....
町
・
・
包
0
ρ
︒
a灯 油l
e
:T
h
i
s i
s a numeric v
a
r
i
a
b
l
et
h
a
t
Nxy v
d
e
s
i
g
n
a
t
e
st
h
e number ofp
o
i
n
t
s(
x
yp
a
i
r
s
)f
o
rt
h
e
s
h
a
p
e
.1
nt
h
ec
a
s
eo
fRECTi
tw
iI
lh
a
v
et
h
el
o
w
e
rl
e
f
t
a
st
h
ef
i
r
s
tp
a
i
randu
p
p
e
rr
i
g
h
ta
st
h
es
e
c
o
n
dp
a
ir
.
P町 袖
岨算事
固
ヨ
T
i
l
l
ez
1=5p
C
I'
S
a
l
e
sByS
i
l
eForE
a
c
l
z
Deparlmenls
;
'
l
i
l
m
al11ee
x'
s
u
g
i
2
4
'
;
/
*Ceneralep
i
c
l
u
r
eforCOl山1
1
I
Sf
r
al11e*
/
procg
c
l
z
aバ g
o
u
l
=
e
x
.ιp2
imagemap=lzlmldal
dma=neWlolal;
l
1
1a
ls
a
l
e
sdol
/a
r
8
.
;
for
νb
αrs
i
l
e/subgroup=d
e
p
l
s
U
l
l
ll'a
r
=
s
a
l
e
s
l
I
'i
d
l
l
z
=
J
O
l
I
la
x
i
s
=
a
x
i
sJ
r
a
x
i
s
=
a
x
i
s
2
legend=legendJ
z
11
1
1
1
1
=
b
a
r
d
r
i
l
/
des='
s
a
l
e
sb
rs
i
l
e
'
n
a
l
l
l
e
='
s
a
l
e
s
b
a
r
'
;
r
u
n
;
q
U
I
I
;
/
*Ceneralei
nげi
a
lp
i
C
l
l
l
r
eforbodyfral11e*
/
t
i
l
l
ez
1=5p
C
I'
S
a
l
e
sByS
i
l
e
'
;
;
procg
c
l
z
a
r
tgouI=ex.exp2daw=newlo/al
fo円 n
a
ls
a
l
e
sdol
/
a
r
8
.
;
pie3ds
i
l
e/n
o
l
z
e
a
d
i
n
g
sumvar=sales
des='
S
a
l
e
sb
rs
i
t
e
'
name='
s
a
l
e
s
p
i
e
'
;
、
r
t
l
n
;
/
*Ceneralep
i
c
l
u
r
efore
a
c
l
zs
i
l
e*
/
T
i
l
l
ez
1=5pCI'
S
a
l
e
sForA
t
l
a
n
t
a
'
;
A
t
l
a
n
t
a
'
;
w
l
z
e
r
es
i
t
e? '
pie3dd
e
p
t/n
o
l
z
e
a
d
i
n
g
¥
'
a
r
=
s
a
le
s
S
IIllI
des='
s
a
l
e
s
f
o
ra
t
l
a
n
w
'
name='
a
t
l
a
n
t
a;
'
n/
l
l
;
T
i
t
l
ez
1=5pct'
S
a
l
e
sForS
y
d
n
e
y
'
;
S
y
d
n
e
y
'
;
w
l
z
e
r
es
i
t
e?'
p
i
e3dd
e
p
t/Ilo
l
z
e
a
d
i
n
g
s
Ul
1
1v
a
r
=
s
a
l
e
s
des='
s
a
l
e
sfors
y
d
n
e
y
'
name='
s
y
d
n
e
y
'
;
qua;
To g
e
n
e
r
a
t
et
h
e main frame window t
h
a
tc
o
n
t
a
i
n
s
.h
t
m
lands
a
l
e
s
p
i
e
.
h
t
m
lwew
i
l
lu
s
eas
i
m
p
l
e
s
a
l
e
s
b
ar
SASDATA s
t
e
pw
i
t
hPUTs
t
a
t
e
m
e
n
t
st
h
a
tw
i
l
lw
r
i
t
e
HTML i
n
f
o
rl
l
1a
t
i
o
nt
oa
n extemal f
i
l
e
. The main
framewindowi
sd
i
v
i
d
e
di
n
t
otwosubframewindows.
O
l
l
t
e
l
l
t
s
,c
o
n
t
a
i
n
i
n
g
Thel
e
f
tframei
sr
e
f
e
r
e
n
c
e
da
sC
t
h
eo
u
t
p
u
tf
r
ol
l
1 s
a
l
e
s
b
a
r
.
l
z
t
l
1
ll
,a
nd t
h
er
i
g
h
ti
s
o
n
t
a
i
n
i
n
gt
h
eo
u
t
p
u
t from
r
e
f
e
r
e
n
c
e
da
s body, c
s
a
l
e
s
p
i
e
.
l
z
t
l
1
ll
. Note t
h
i
st
y
p
eo
fl
a
y
o
u
ti
sd
e
f
i
n
e
d
a
u
t
o
m
a
t
i
c
a
l
l
yf
o
ryou i
fyous
e
l
e
c
tt
h
eODS HTML
method.
/
*c陀 a
t
et
l
z
el
1
1a
i
nf
r
al11ef
i
l
e*
/
f
i
l
e
n
a
m
ef
r
al11e'
&
d
i
r
p
a
t
l
z
l
f
r
a
m
e
.
l
z
t
l
l
l
/
'
;
d
a
l
a nul
/
f
i
l
ef
r
a
附,
p
l
l
t'<HTML>';
put'<HEAD>';
put'<TITLE>SalesC
r
a
p
l
z
sくITJTLE>';
<
l
HEAD>;
'
put'
put'<FRAMESETFRAMEBORDER=YES'@;
put FRAMESPACJNC=OCOLS="
5
2
9
もメ">';
put'<FRAMEMARCJNW
lDTH="
O
'
'
'
@
put MARCJNHEJCHT
ニ"
O"'@;
put'S
R
C
=
"
s
a
l
e
s
b
a
r
.
l
z
t
m
/
"NAME="contellts">';
p
l
l
t'<FRAMEMARCJNW
lDTH="O"'@,
・
put'MARCINHEJCHT="O'''@;
pUI'SRC=なa
l
e
s
p
i
e
.
l
z
t
m
/
"NA凡1E="body">';
<
メ'
F
R
A凡1ESET>';
p
u
t'
put'
<
l
HTML>';
p
u
t'
<
l
FONT>';
く/
BODY>';
put'
p
l
l
t'
<
l
HTML>';
r
u
n
Then
e
x
ts
t
e
pi
st
or
e
a
di
nt
h
eo
u
t
p
u
td
a
t
as
e
tt
h
a
twas
c
r
e
a
t
e
dbyt
h
eIMAGE恥1APo
p
t
i
o
n,andg
e
n
e
r
a
t
ea
n
HTMLf
i
l
ew
i
t
ha
p
p
r
o
p
r
i
a
t
eimagemaps.C
r
e
a
t
i
o
no
f
t
h
i
sHT
恥1Lt
i
l
ecanbeviewedi
nt
h
r
e
es
e
c
t
i
o
n
s
:
•
•
•
I
n
i
t
i
a
l
i
z
i
n
gt
h
en
e
c
e
s
s
a
r
yHT恥1Lt
a
g
s
G
e
n
e
r
a
t
i
n
gt
h
ea
p
p
r
o
p
r
i
a
t
eimagemaps
fromt
h
eIMAGEMAPd
a
t
as
et
.
C
l
o
s
i
n
gt
h
en
e
c
e
s
s
a
r
yHTMLt
a
g
s
.
r
t
l
n
;
1=5p
c
t'
S
a
l
e
sForP
a
r
i
s
'
;
T
i
t
l
ez
¥
l
'
l
z
e
r
es
i
t
e?'
P
a
r
i
s
'
;
p
ie
3ddept/Ilo
l
z
e
a
d
u
l
g
a
r
=
s
a
l
e
s
s
Ul11v
des='
s
a
l
e
sforp
a
r
i
s
'
name='
pa
r
i
s
'
;
n
l
yt
h
en
e
c
e
s
s
a
r
y
To make t
h
e example s
i
m
p
l
e,o
HTMLt
a
g
shavebeenu
s
e
d
.A
f
t
e
ri
n
i
t
i
a
l
i
z
i
n
gHTML
t
a
g
s,youcanc
u
s
t
ol
l
1i
z
et
h
es
t
a
t
e
m
e
n
tbased ont
h
e
shapev
a
r
i
a
b
l
e,ando
u
t
p
u
tt
ot
h
el
i
n
k,andc
o
o
r
d
i
n
a
t
e
s
f
o
rt
h
eimagemaps.
/
キC
eneratez
It
l
l
l
lf
i
l
e¥Vi
t
l
zd
r
il
/‑
downi
n
f
o
m
z
a
t
i
ol
1*
/
r
t
l
n,
‑347‑
d
a
t
a̲nul
/
̲
;
s
e
th
t
m
l
d
a
te
n
d
=
l
a
s
t
;
f
i
l
eh
t
m
l
;
/
*I
n
i
t
i
a/
i
z
et
h
eHTMLfilew
i
t
hr
e
q
u
i
r
e
d
pωg
sandi
n
f
o
r
m
a
t
i
o
n
f
o
rt
h
e
f
i
r
s
tgraph
.
グ̲n一=1t
h
e
nd
o
;
p
u
t'<HTML>;
'
p
u
t'<HEAD>;
'
p
u
t'
.
く
刀T
LE>SalesC
h
a
r
t<IT
ITLE>;
'
<
l
HEAD>;
'
p
u
t'
p
u
t'<BODY>;
'
p
u
t'<IMGS
R
C
=
"
s
a
l
e
s
b
a
r
.
g
i
f
' @
p
u
t'USEMAP="
#
b
a
r
c
h
a
r
t
̲
m
a
pう'.
p
u
t
'
くMAPN
AME="barchart̲map">';
e
n
d
;
t
h
es
i
t
enamea
sap
a
r
a
m
e
t
e
randc
r
e
a
t
e
st
h
eHTML
f
i
l
eb
a
s
e
dont
h
i
sname
/
*C
r
e
a
t
et
h
el
i
n
k
f
i
l
ei
nas
e
p
e
r
a
t
eHTMLfile *
/
%macrol
i
n
k
f
i
l
e
(
h
t
m伊);
%
l
e
tflname=&dirpath\&htm~川tml;
d
a
t
a nul
/;
f
i
l
e"
&
f
l
name";
くH
TML>';
p
u
t
'
p
u
t'<HEAD>';
p
l
l
t'<TITLE>,
"
&
h
t
m
l
f
l
"'
<
l
T
I
T
L
E
>
'
;
p
l
l
t
'
く/
HEAD>';
くB
ODY>';
p
u
t
'
p
u
t'<MAPNAME="
冶h
t
m
l
f
l'
'
'
>;
'
f
l
"'
.
g
i
f
>;
'
p
l
l
t'<lMGSRC='"&h同 l
p
l
l
t'
<
l
BODY>';
p
l
l
t'
<
l
HTML>'
,
r
l
l
n
;
%mend;
*
/
*
/
a
r
r
a
yx
(/OO
}x
l
‑
x/OO
;
a
r
r
a
yy
(/OO
}y
l
‑
y/OO
;
/
*C
r
e
a
t
et
h
eh
t
m
lf
i
l
et
ob
eshowni
n
i
t
i
a
l
/
y*
/
%
l
i
n
伊l
e
(
s
a
l
e
s
p
i
e
)
;
/
*Addi
m
a
g
emapp
o
i
n
t
sb
a
s
e
dons
h
a
p
e*
/
i
f
s
h
a
p
eニ 'REC
T
't
h
e
nd
o
;
p
u
t'<AREASHAPE="RECT"'@;
p
u
tl
i
n
k$
v
a
r
y
i
n
g
.l
e
n
g
t
h@;
p
u
t'TARGET="body削@;
p
u
t'
COORDS=削@;
p
u
t'
x
l4
.'
,
'y14
.'
,
'x
24
.'
,
'y
24
.'"
>;
'
e
n
d
;
e
l
s
e
i
fshape='
P
O
L
Y
't
h
e
nd
o
;
p
u
t
'
くAREAS
HAPE="POLY"'@;
p
u
tl
i
n
k$
v
a
r
y
i
n
g
.l
e
n
g
t
h@;
p
u
t'TARGET="body削@;
p
u
t'
COORDS=削@;
doi
=
1t
on
x
y
‑
I
;
i
}4 γ@;
p
u
tx
(
i
}4
.γy(
e
n
d
:
.'
,
'y
(
n
x
y
}4
.@;
p
u
tx
(
n
x
y
}4
p
u
t'
"
>;
'
e
n
d
:
/
*C
r
e
a
t
et
h
eh
t
m
l
f
i
l
e
st
ol
Is
ewhend
r
i
l
l
i
n
gdown*
/
%
l
i
n
伊l
e
(
a
t
l
a
n
t
a
)
;
%
l
i
n
伊l
e
(
s
y
d
n
e
y
)
;
%
l
i
n
伊l
e
(
p
a
r
i
s
)
;
SAS w
i
l
lp
r
o
v
i
d
e some s
i
m
p
l
e macros t
h
a
tw
i
l
l
g
e
n
e
r
a
t
eab
a
s
i
cHTMLf
i
l
efromt
h
ed
a
t
as
e
tt
h
a
twas
c
r
e
a
t
e
d by t
h
e IMAGEMAP o
p
t
i
o
n
. These macros
w
i
l
lb
el
o
c
a
t
e
di
nt
h
e ANNOMAC l
i
b
r
a
r
y
. The
df
o
rt
h
e
IMAGEMAP o
p
t
i
o
ni
sc
u
r
r
e
n
t
l
y suppo口e
f
o
l
l
o
w
i
n
gp
r
o
c
e
d
u
r
e
s
:
•
•
•
GCHART
GPLOT
GMAP
Notet
h
a
tt
h
eIMAGEMAPo
p
t
i
o
nc
a
nbeu
s
e
do
n
l
y
n
d
/
o
rHTML̲LEGEND=o
p
t
i
o
n
s,
w
i
t
ht
h
eHTML=a
suppo口e
du
n
d
e
rt
h
eSAS/GRAPHp
r
o
c
e
d
u
r
e
s
.
/
*Endt
h
eHTMLfile *
/
i
fl
a
s
tt
h
e
nd
o
;
p
l
l
t'
<
l
MAP>';
<
l
BODY>';
p
l
l
t'
p
u
t'
<
l
HTML>';
e
n
d
;
CONCLUSION
r
l
l
n
;
Whenyoud
r
i
l
ldownont
h
eb
a
r,t
h
eb
odyframeg
e
t
s
u
p
d
a
t
e
dw
i
t
ht
h
ea
p
p
r
o
p
r
i
a
t
e PIE3Dc
h
a
r
t
. Eacho
f
t
h
e3Dp
i
e
si
sd
i
s
p
l
a
y
e
dfromas
e
p
a
r
a
t
eHTMLf
i
l
e
.
l
l
t
p
u
t6t
h
e
r
ea
r
et
h
r
e
e3Dp
i
e
s,
onef
o
re
a
c
hs
i
t
e
.
I
nO
I
ti
sa
p
p
r
o
p
r
i
a
t
et
ow
r
i
t
eas
i
m
p
l
emacrot
h
a
ta
c
c
e
p
t
s
SAS/GRAPH s
o
f
t
w
a
r
ep
r
o
v
i
d
e
st
h
r
e
e methods t
o
p
r
o
d
u
c
eWebo
u
t
p
u
t,e
a
c
hw
i
t
hi
t
sowna
d
v
a
n
t
a
g
e
s
.I
f
y
o
u
'
r
el
o
o
k
i
n
gf
o
ras
i
m
p
l
eWebo
u
t
p
u
tf
o
r
m
a
tw
i
t
ha
s
et
h
ed
e
v
i
c
ed
r
i
v
e
rm
e
t
h
o
d
.
p
r
e
d
e
f
i
n
e
dl
a
y
o
u
t, u
D
e
v
i
c
ed
r
i
v
e
r
sc
a
ni
n
c
l
u
d
et
h
eo
u
t
p
u
to
n
l
y from
SAS/GRAPH p
r
o
c
e
d
u
r
e
s
.I
f you want t
o combine
e
f
i
n
eyourl
a
y
o
u
t,andhaved
a
t
a
‑
d
r
i
v
e
n,
p
r
o
c
e
d
u
r
e
s,d
d
r
i
l
l
‑
d
o
w
na
b
i
l
i
t
i
e
s,u
s
et
h
eODSm
e
t
h
o
d
.I
fyouh
a
v
e
‑348
e x t e n s i v eHTMLknowledgea n ds p e c i f i cf o口nattmg r e q u i r e m e n t s,u s et h eIMAGEMAPm e t h o d . CONTACTINFORMATION Your comments a n d q u e s t i o n s a r e v a l u e d a n d e n c o u r a g e d .C o n t a c tt h ea u t h o ra t : HimeshP a t e l( H i m e s h . P a t e l @ s a s . c o m ) SASCampusD r i v巴 Cary,NorthC a r o l i n a 27513 SASa n dSAS/GRAPHa r er e g i s t e r e dt r a d e m a r ko rt r a d e m a r k so f SASI n s t i t u t eI n ci nt h eUSAa n do t h e rc o u n t r i e s .① i n d i c a t e sUSA r e g l s t r a t l o n . O t h e rb r a n da n dp r o d u c tn a m e sa r er e g i s t e r e dt r a d e m a r k so r t r a d e m a r k so ft h e i rr e s p e c t i v ec o m p a n i e s ‑349
日本 SASユーザー会 (SUG1‑0) S A SV 8 eによる O D Sの機能紹介、及びに便利な使い方 木下貴文 A SI n s t i t u t eJ a p a n 株式会社 S 営業本部ソリユーションプラン二ングセンター I n t r o d u c t i o no fU s i n gODSF o rSASV8e TakafumiK in o s h i t a ,SASI n s t i t u t eJapanL t d . S o l u t i o nPlanningCenter 要旨 この論文は、 S UGI25 で発表された論文の翻訳をメインに行う。また実際に、どのように ODS 機能を使えるかについてサンプルプログラムを使って発表する。 SASV7から機能追加が行わ O u t p u tD e l i v e r yS y s t e m )の機能を使うことにより BASE、STATで、行った分析結果 れた ODSC のアウトプットをユーザーに様々な形で提供できるようになった。この ODS機能の概要説明 と、どのような形でユーザーが実用的にこの機能を使用できるかについて述べていく。 キーワード: ODS H T M L I n f o r m a t i o nT e c h n o l o g y はじめに O D S ( O u t p u tD e li v 巴r yS y s t巴m )とは、 S A Sの次期パージョンに搭載されている新機能であり、様々なア ウトプット形式の選択、出力形式のカスタマイズを可能にさせる機能である。従来のパージョン ( S A S 6 .1 2 )までの、 P R O Cステップまたは、 D A T Aステップでのテキスト形式のアウトプットから、出力 形式を用途に応じて選択、テープルのカスタマイズができることにより、一層、目的に応じたかたち A Sシステムを使用することができる。 でS 新しい出力形式として、 L i s t i n g ‑ H T M L :従来のアウトプット。デフォルトではこの形式になる。 :H y p 巴rT 巴x tM a r k u pL a n g u a g巴。現在、最もポピュラ な情報共有手段で ブラウザーソフトを通じて参照が可能。 O U T P U T :S A SD a t a s e tとしてのアウトプット。そのために、 P R O CP R I N T T Oを 使う必要はなくなった。 ‑ 3 5 1 ‑
‑ R T F :R I C HT e x tF o r m a t。マイクロソフト W o r dに対応可能。 ‑PS/PDF/PCL :P o s tS c r i p t,P o r t a b l eD o c u m e n tF o r m a t,P r i n t e rC o n t r o lL a n g u a g e (ただし、日本語版では e x p e r im e n t a1パージョンとしてリリース予定。) 一L a T e x :テキストフォーマッター ‑ X M L :e X t e n d e dM a r k叩 L a n g u a g eo W 3 Cが検討している 3 テキストペースのタグ付きフォーマ ットを定義するためのメタ言語。 E A N Sプロシジャで得たアウト 以上の形式をサポートしている。これらの機能を利用すると例えば、 M プットを H T M Lに出力させることや、 S A S / G R A P Hソフトウェアの結果を P D Fファイルで出力させるとい D Sの機能・概念など、 ったかたちで、バリエーションに富んだ使用方法が可能になる。この論文は O D Sを記述して使っていけるのかをアウトプット作成方法と、テープルカスタ また実際にどのように O マイズの方法などを中心に述べていく。 第 1章 O D Sの概要 第 1節 O D Sとアウトプットオプシ・ェクトとは O D Sはその名前のとおり、 S A Sでおこなった分析の結果や、テープル、グラフなどのアウトプットを D Sを構成しているものはアウト ユーザーの要望にそった形で配信するシステムである。基本的に、 O プットオブジェクトと呼ばれている、プロシジャ、デ タステップの結果である。アウトプットオブ ジェクトとは、基本的なアウトプットの結果でテープルやグラフが代表的なものである。 アウトプットオプシ・ェクトには基本的に 2つの要素から構成されている。 1つ目は生データの値を基 に構成された情報と、もう 1つはテンプレートコンポーネントである。生データからの情報は、デー T M L、R T Fなどで保存されており、テンプレートコンホーネントは S A Sのプロシ タセットの形式や、 H ジャなどで処理を行い、ユーザーが結果を見たい形でアウトプットするものである。この様なタイプ E M P L A T Eプロシジヤなどが挙げられる。例えば T E M P L A T Eプロシジャで の代表的なプロシジャとして T 得た結果のテープルテンプレートを、 H T M Lや X M Lに出力することにより、ユーザーの報告書作成や W E Bでの配信等の情報共有を効率的に行うことが可能になる。また、グラフ類の出力は J A V Aや A c t i v e Xによって出力することにより、よりユーザーフレンドリ な出力を得ることができる。 この様に、 O D S機能の出現によって S A Sでのインフォメーションデリ J'Iリーが飛躍的に発展すること が考えられる。 352一
O D Sをイ吏った H T阿L出力例 T h eGLMP r o c e d u r e l 闘輔錨髄髄髄欄躍題調同 J A V Aでの出力例 sepallen 日 日 75 70 65 60 55 5口 petallen 70 45 40 petalwid ηJ つJ Rり
A c t i v e Xでの出力例 high 3口 口 口 企 25日 日 2000‑i A 15 日日‑l d F J 抑札均 500 日 1950 197 口 1960 196 口 199 口 ye.r 第2 章O D Sによる出力方法 この章では、どのような形でアウトプットオプシ・ェク卜(例えば H T M L ) が作成できるか について実際のプログラムを用いて述べていく。 A S プログラミング文にほんの数行追加させるだけ アウトプットオブジェク卜の作成は、従来使用の S R O Cステップや D A T Aステップを実行すると、 O D Sが P R O C で可能となる。数行のコマンドを追加させた P ステップ、 D A T Aステップの結果をアウトプットオブジェク卜に送ることができる。また、アウトプッ E M P L A T Eプロシジャで行える。 トテーブルのカスタマイズを T 第 1節出力の表示、非表示設定 L i s t i n g、H T M L、O U T P U T 出力形式に対して、表示指定が可能になります。デフォル卜では、 L i s t i n g の出力形式は表示で、 O u t p u tの出力形式は非表示である。 L i s t i n gの出力形式を 表示させる構文は、 o d sl i s t i n g ; また、出力を非表示にする場合は、 o d s <destination> c l o s e ; phd ぺU n 4
となる。<d e s t in a t io n>のほうに、 L i s t i n g、H T M L、O u t p u tを記入する。これらの機能により、出力 の表示・非表示を効率的に使い分けることが可能になった。 第 2節 S e l e c t i o nと E x c l u s i o nリスト S A Sシステムでは、どのオブジェク卜をどの出力形式にアウトプットさせるかを選択することができ る。もし特定のオブジェク卜を出力形式にアウトプットさせたくない場合は、 E x c l u s i o nリストを使 e c t i o n リストを使うことができる。これらの、 うことができ、アウトプットさせたい場合はおl E x c l u s i o nリスト, S e l e c t i o nリストを単体で使用することも可能だが、 E x c l u s i o nリストと S e l e c t i o n リストを一緒に使うことにより、特定のオブ.ジェク卜のみの書き出しも可能になる。 S e l e c tと E x c l u d eの使用には、以下のような構文を用いる。 o d s< o p t i o n s > ; o d sl i s t i n g< o p t i o n s > ; o d sh t m l< o p t io n s > ; < o p t i o n s >の中では、以下の構文を使用することができる。 s e l e c t< s e l e c t i o n s > s e le c ta l l s e l e c tn o n e e x c l u d e< e x c l u s i o n s > e x c lu d ea l l e x c l u d en o n e また、出力形式によって以下のようなデフォル卜値が設定されている。 全ての 1 )ス卜 ‑s e l e c ta l l l i s t i n g出力 ‑s e l e c ta l l H T M L出力 ‑s e l e c ta l l O u t p u t出力 一e x c lu d ea l l 全てのリストに対する設定値の変更は、有効に使用することができる。例えば、ある一つのオブジェ ク卜を全ての出力形式にアウトプッ卜したくない場合は、 o d sh t m le x c l u d ea l l ; o d sl i s t i n ge x c l u d ea l l ; と記述という記入方法も可能だが、 o d se x c l u d ea l l ; と記入することにより、簡単に記述することができる。 に リ 巳リ り つ
また、 s e l e c t i o nや E x c l u s i o nリストを使用しなかった場合、 O D Sは自動的にデフォル卜の 設定によるアウトプットを毎処理ごとにおこなう。そのため、特定の値のみが必要な場合は、 s e l e c t、 e x c l u d eの使い分けにより行うことができる。しかし、 s e l e c t i o n リストで特定の統計量のみを出力 するようにしても、デフォル卜では一つの処理にしか対応できない(1つの処理というのは、最初から r u n ;までの間)。要するに 2回同じ処理を行うと、 1回目は指定された統計量のみのアウトプットがで N I V A R I A T Eプロシジャを使 るが、 2回目の処理結果は全てのアウトプットを出してしまう。例えば、 U って以下のような処理を行った。 o d sl i s t i n gs e l e c tb a s i c m e a s u r e s ; p r o cu n i v a r i a t ed a t a = s a s u s e r . c l a s s ; r u n ; p r o cu n i v a r i a t ed a t a = s a s u s e r . c l a s s ; r u n ; この結果、 1回目の U N I V A R I A T Eプロシジャの結果は指定された" B a s i c 阿e a s u r e s "のみがアウトプッ 卜されるが、 2回目の結果は全ての結果をアウトプッ卜してしまう。この様なことがないように、全 ての処理に対してアウトプットの制限を加えたい場合は、 PRESIST オプションを使えば良~\。上記の 処理に対して、 P R E S I S Tオプションを使った場合は両方とも B a s i c 阿e a s u r e s "の結果のみが表示され る 。 P R E S I S Tオプションの使用例: o d sl i s t i n gs e l e c tb a s i c m e a s u r e s ( p e r s i s t ) ; p r o cu n i v a r i a t ed a t a = s a s u s e r . c l a s s ; r u n ; p r o cu n i v a r i a t ed a t a = s a s u s e r . c l a s s ; r u n ; この様な U N I V A R I A T Eプロシジャの場合、 P R O Cステップや S e l e c t i o nリストは R U Nステー卜メン卜で U Nステー卜メン卜でリセットを行わない G L 阿プロシジャや R E Gプロシジャは Q u i t リセッ卜されるが、 R ステー卜メン卜でリセットが可能になる。まず、以下の例を見て頂きたい。 。 d sh t m lf i l e = 'c :半t e m p . h t m ' o d sh t m ls e l e c tA n o v a ; p r o c r e gd a t a = s a s u s e r . c l a s s ; m o d e lh e i g h t = a g e ; r u n ; 。 d sh t m ls e l e c tF i t S t a t i s t i c s ; p r o cr e gd a t a = s a s u s e r . c l a s s ; m o d e lw e i g h t = a g e ; r u n ; o d sh t m lc l o s e ; 以上のような処理を行う場合 ( R E Gプロシジヤなど)を行う場合、最初の処理である、, A n o v a ' のみの nb phu つd
アウトプットを作成させる S e r e c t i o nリストが有効になる。しかし、 ; ) :,'F i t S t a t i s t i c s ' )のみを表示させる処理を行っても、 R E Gプロシジヤ その後に他の統計量(例で 1 )セッ卜されていないために、 2つ目の R E Gプロシジャではデフォルトの S E L E C TA L Lの処理で全 が1 U I T てのアウトプットを作成してしまう。このような問題を避けるために、各プロシジャごとに、 Q ステー卜メン卜が必要になる。 o d sh t m lf i l e = 'c :半t e m p . h t m ' o d sh t m l select FitStatistics; o d sh t m l select A n o v a ; p r o cr e g data=sasuser.class; p r o c r e g data=sasuser.class; m o d e lh e i g h t = a g e ; m o d e l weight=age; r u n ; r u n ; o d sh t m ls h o w ; o d sh t m ls h o w ; q u i t ; q u it ; o d sh t m lc l o s e ; このように、 Q U I Tステートメントを使用することによって 1つ目の処理は, A N O V A ' のみのアウトプ i t S t a t i s t i c s ' の出力が得られるようになる。 ット、 2つ目は, F 第 3節 O D SH T M L出力 S A Sのアウトプットを O D Sの機能を用いて H T M Lファイルを作成する場合、 4種類のファイルを作成す O D Yファイル、 C O N T E N T Sファイル、 P A G Eファイル、 F R A M E ることができます。これらのファイルは B ファイルの 4種類になり、作成したい場合は、 o d s h t m l< f i l e ‑ t y p e >ゴ フ ァ イ ル 1 ¥ス , < ( o p t i o n s ) > ; という構文を使う。 例え I t、BODYファイルと CONTENTSファイルを C ドライブ直下に作成したい場合は、 o d sh t m lb o d y contents = 'c :半b o d y . h t m ' = 'c :半contents.htm' ; と記述すればよい。また P A T Hオプションを使えば、どこのディレクトリにファイルを保存させるか T M Lファイルにアンカーをつけたい場合、 一括に指定ができる。作成した H A n c h o r = 'a n c h o r ‑ n a m e ' とアンカーオプションを設定すれば行うことができる。次に、 N O ̲ T O P ̲ M A T T E R、N OB O T T O MM A T T E Rオプションを使つてのアウトプット形式の変更、 D e s c r ip ti v et e x t オプションによるコメントの挿入などが行える。 O D Sを利用して、 H T M L等にテ プル結果をアウトプットする場合、複数の結果のテーブルをそれぞれ 異なったテーブルに 1つずつ表示を行いたい場合には、 N E W F I L Eオプションに よって出力 B O D Yファイルの指定ができる。指定方法は、以下のような構文で実行できる。 n e w f i l e = <starting p o i n t > ; デフォル卜では全てのアウトプットが 1つのファイルに出力されるが、 < s t a r t i n gp o i n t > 3 5 7 ‑ ー
を. o u t p u t ' とすると、 B O D Yファイルごとに 1オブジェク卜(前述のテーブル)ずつアウトプットさせ a g e ' とすると、アウトプット画面のペ ることができる。また、, p ジごとに O D Yファイルに出力される。 S t a r t i n gp o i n tを , p r o c ' とすると、各プロシジヤ 異なった B ごとの結果オプシ・ェク卜が異なった B O D Yファイルに書き出すことが可能になる。 プログラム例: o d s h t m ls e l e c tM o m e n t s ; p r o cr e gd a t a = s a s u s e r . c l a s s ; m o d e lw e i g h t = a g e ; r u n ; HU &L G‑ ・ 1 FI O R V ︑︑﹄︐︐ n u z nu &L &L a u m川 nu L み 川 L 品 (nH ︐m inH 内 門MU RUE 凸 し W d S o d sl i s t i n gc l o s e ; e m p ' ' c :半t o d sh t m lp a t h f i l e ' f i l e . h t m ' c o n t e n t s = ' c o n t e n t s . h t m ' f r a m e ' f r a m e . h t m ' ー p a g e ー p a g e ; n e w f i l e o d sh t m lc l o s e ; これまで説明してきたオプションを使うと、上記のようなプログラムで O D Sを実行することができ、 アウトプットのカスタマイズも柔軟に行うことができる。 まとめ 本論文では、 S A Sの O D Sについての概要、及び O D Sのカスタマイズ法を例を使って説明してきた。こ A Sの新機能を利用することで S A Sを使つてのデータの一層有効的な活用、また のような、新時代の S n f o r m a t i o nT e c h n o l o g yが実現される。また、これらの機能以外にも S A S新パージョン は効率的な I には、多くの有用な機能力t追加されているため、新機能を使つての既存の S A Sシステム環境の拡張 も考えられる。今回の論文上では、ペ ジの都合上、 O D Sの全ての内容を網羅できることができなっ たため、補足資料としてアウトプット画面の作成などを行ったサンプルプログラムをメールで配布を 行いたい。希望者は、 i p n t b k @ ; p n . s a s . c o mまで。 参考資料 S U G I 2 5論文より 1 .i O D SF o rD u m m i e s J C h r i sO l i n g e r,S A SI n s t i t u t eI n c .,C a r y,N C 2 .i O D S, YES!Odius, N O ! ‑A nI n t r o d u c t i o nt ot h eS A SO u t p u tD e l i v e r yS y s t e m J n i v e r s i t yo fN o r t hC a r o l i n aa tC h a p e lH i l l, C h a p e lH i l l,N C L a r aB r y a n t, U n i v e r s i t yo fN o r t hC a r o l i n aa tC h a p e lH i l l,C h a p e lH i l l,N C S a l l yM u l l e r,U R a yP a s s, R a yP a s sC o n s u l t i n g, H a r t s d a l e,N Y ‑358‑
V 6か うV 8 eへの移行における技術の紹介
MakingtheMovetoVersion8
SteveBeatrous,SASI
n
s
t
i
t
u
t
eI
n
c
.,Cary,N C
r
u
l
e
sandp
r
o
v
i
d
e
sv
e
r
s
i
o
n
i
n
gt
oa
l
l
o
wyout
okeep
morethanonecopyo
ft
h
esamef
i
l
e
Abstract
V
e
r
s
i
o
n8r
e
p
r
e
s
e
n
t
sanewg
e
n
e
r
a
t
i
o
no
fSAS
③
s
o
f
t
w
a
r
e
.Customersc
o
n
f
r
o
r
i
l
e
dw
i
t
hanewg
e
n
e
r
a
t
i
o
n
o
fs
(
)
f
t
w
a
r
eareconcernedaboutt
h
ec
o
s
to
fmovingt
h
e
i
r
a
p
p
l
i
c
a
t
i
o
n
st
ot
h
a
tnewr
e
l
e
a
s
eanda
r
er
e
l
u
c
t
a
n
tt
o
n
i
o
v
ee
v
e
r
y
t
h
i
n
ga
tonce
:
r
h
i
spap~r h
j
g
h
l
i
g
h
t
sso~e o
ft
h
ene¥
ifeatu~es~f
Youwouldbem
o
t
i
v
a
t
e
dt
oc
o
n
v
e
r
tt
oV
e
r
s
i
o
n8f
ianyo
f
t
h
ep
r
e
v
i
o
u
sf
e
a
t
u
r
e
sa
r
ei
m
p
o
r
t
a
n
tt
oy
o
u
.
so
n
l
yp
a
r
t
̲
o
.
f
jhes
t
o
r
y
.V
e
r
s
i
o
n8
M
o
t
i
v
a
t
i
o
n,however,i
r~presents ?new.
g
e
n
e
r
a
t
i
o
no~ SASso~àre... Many
s
i
f
e
sar~ g
o
i
n
g
.t
o?
t
econserv
号t
i
v
eabouti
n
s
t
a
l
l
i
n
g
n
e
w
a
e
n
e
r
a
t
i
o
n
so
f
fs
o
f
t
w
a
r
et
h
a
ti
sm
i
s
s
i
o
nc
r
i
t
i
c
a
.
l Dneo
f
f
h
ec
e
n
t
r
a
l~essages o
f
t
h
i
spaperi
st
h
a
tyour
movementfromV6t
oV8c
a
r
ibedonea
tayourp
a
c
e
.
V
e
r
s
i
o
r
i8
. Thesenewf
e
a
t
u
r
e
sa
r
et
h
em
o
t
i
v
a
t
i
o
nf
o
r
movingSASa
p
p
l
i
c
a
t
i
o
n
st
oV
e
r
s
i
o
n8
. Wer
e
c
o
g
n
i
z
e
t
h
a
tmanys
i
t
e
sw
i
l
ln
o
twantt
omovee
v
e
r
y
t
h
i
n
glorward
.
h
i
spaperdi~cus~~s
a
tt
h
e
.samet
i
m
e
;
.t
h
e
r
e
f
o
r
e,t
tec~fl!qu~s t
q
̲mak~ pa
,
同 almigralions(mixingVersion6
)gV
e
r
s
i
o
n8a
p
p
l
i
c
a
t
i
(
)
n
s
)a~d \~chniques fo~ r
u
n
n
i
n
g
af
c
r
i
t
i
c
戸1
s
'
{
s
t
e,
]
!
fsi
npara!l ~1 (
t
o,
f
a
c
H
i
,
¥
a
t
e.COr
T
)pe
l
;r
i
n
g
V
e
r
s
i
o
n6t
o
β
)
.M
a
i
n
t
a
i
n
i
n
gd
a
t
al
i
b
r
a
r
i
e
si
r
it
h
eproper
f
o
r
m
a
tI
V
e
r
s
i
o
n6versus8
1andc
r
o
s
sv
e
r
s
i
o
n
c
o
m
p
a
t
i
b
i
l
i
t
yi
s
s
u
e
si
nac
l
i
e
n
t
l
s
e
r
v
e
renvironmenta
r
e
twoo
ft
h
econcernsaddressed.
ModelforConvertingtoa NewRelease
I
nt
h
ep
a
s
t,c
o
n
v
e
r
t
i
n
gfromone̲
re
leaseo
fas
o
f
t
w
a
r
e
i
k
emovingi
n
t
oanewhouse
producttoamt附 wasI
hecustomermadead
e
c
i
s
i
o
nt
omove,s
e
tup
e
l
a
b
o
r
a
t
esystemst
o
.preparef
o
rt
h
emove,a
r
i
d
expectedtobeo
u
to
f'
c
o
r
i
l
m
i
s
s
i
o
nf
o
raw
h
i
l
ea
f
t
e
rt
h
e
movec
o
m
p
l
e
t
e
d
.
WhyConverttoVersion8?
V
e
r
s
i
o
n8c
o
n
t
a
i
n
sanumbero
ff
e
a
t
u
r
e
st
h
a
twere
. Thesea
r
efe~tures t
h
a
t
beyondthe手copeofVersion6
requiredmajorr
e
‑
w
r
i
t
e
so
ft
h
eSASs
y
s
t
e
m
.Thenew
t
i
v
a
t
i
o
nfm
V
e
r
s
i
o
nB~~atu.res pr~yiqe t~~ majorm,o
mov(ngtoV
e
r
s
i
o
ns
.Whilethispaperdoesn()tgo.i1
t
o
r
d
e
t
a
i
la
b
(
:
l
Utt~ese fea~ures , t
h
ef
o
l
l
o
w
i
n
gi
sal
i
s
fo
ft
h
e
a
u
t
h
o
r
'
sf
a
v
o
r
i
t
enewf
e
a
t
u
r
e
s
Thes
o
f
t
w
a
r
e"
!
̲
e
n
d
o
ru
s
u
a
l
l
ys
u
p
p
l
i
e
dt
o
o
l
st
oa
s
s
i
s
ti
n
~he p
r
o
c
e
s
s
.
.
:
..
F
̲
o
re
X
e
i
m
p
l
e,w~~nVersion 6was
o
i
n
t
r
o
d
u
c
e
dSASI
n
s
t
i
t
u
t
ep
r
o
v
i
d
e
dPROCV5TOV6t
c
o
n
v
e
r
tdataanda
p
p
l
i
c
a
f
i
o
n
s
.I
ntheb
e
s
to
fa
l
lw
o
r
l
d
s
t
h
ec
o
n
v
e
r
s
i
o
nt
o
o
fw
(
)
L
J
l
dmakea
l
lo
ft
h
er
e
q
u
i
r
e
d
chanaest
ot
h
eu
s
e
r
'
sf
i
l
e
sandsourceDroaramssot
h
a
t
h
ea
p
p
l
i
c
a
t
i
o
ncouldruni
nt
h
e
a
f
t
e
ri
h
et
o
o
lhadr
u
n,t
r
19an~p' plicél: tion i~
newr
e
l
e
a
s
e
. However,conve巾
o
f
t
e
n!
I
kemoliingf
u
r
n
i
t
u
r
e‑t
h
eo
l
as
t
u
f
f
j
u
s
td
o
e
s
n
'
t
workr
i
g
h
ti
ni
t
snewhome.
,
Themovet
oanewr
e
l
e
a
s
ewasseenasacomDlete
o
p
e
r
a
t
i
o
n(
a
l
la
p
p
l
i
c
a
t
i
o
n
smustm
i
g
r
a
t
ef
o附 arda
tt
h
e
.
a
met
i
m
e
)t
h
a
!wasi
r
r
e
v
e
r
s
i
b
l
e
.Witht
h
i
sk
i
n
do
fmodel
s
t
ii
snow
o
r
i
d
e
rt
h
a
ts
o
f
t
w
a
r
eu
s
e
r
sgrimaceeveryt
i
m
ea
vendori
n
t
r
o
d
u
c
e
sanewr
e
l
e
a
s
e
.ー
1
. OutputD
e
l
i
v
e
r
ySystem(ODS):Yout"!av~ many
mmeo
p
t
i
o
n
sf
o
rt
h
eo
u
t
p
u
!c
r
e
a
t
e
dbySAS
l
l
o
w
i
n
gyout
o
:
procedures,a
•
Transformprocedureo
u
t
p
u
ti
n
t
oaSASd
a
t
a
s
e
t
SASI
n
s
t
i
t
u
t
eunde
r
̲
standshowp
戸i
n
f
u
lupgradest
o
・ RenderoutputascoloriulHTMLpageswith
•
softwar~ c.~n b
e
. Oneo
ft
h
ed
e
s
i
g
.
n9
9
a
l
s
‑o
̲
fV
e
r
s
i
o
Q8
embeddedh
y
p
e
r
l
i
n
k
s
wast
of
a
c
i
l
i
t
a
t
easeamlesst
r
a
n
s
i
l
i
o
nfromV
e
r
s
i
o
n6
.
̲
r
:
o
c
e
s
s
i
n
g
Operateseaml~ssly_with wordp
~oftware u
s
i
n
gRichTexta
n
d
/
o
rP
o
s
t
s
c
r
i
p
‑
t
f
i
l
e
s(
e
x
p
e
r
i
m
e
n
t
a
l
)
TheI
n
s
t
i
t
u
t
eexpectscustomerst
oe
v
o
l
v
efromV
e
r
s
i
o
n6
t
o8r
a
t
h
e
rt
h
a
ndoamassivec
o
n
v
e
r
s
i
o
n
. Wehave
workedh
a
r
dsoyouw
i
l
ln
o
thavet
ogothrought
h
et
o
t
a
l
andi
r
r
e
v
e
r
s
i
b
l
ek
i
n
9o
fc
o
n
v
e
r
s
i
o
nt
l
i
a
tyouwentt
h
r
o
u
g
h
betweenVersions5and6
2
. LongVariableNames: Allowsf
o
rr
i
c
h
e
rname
s
p
a
c
‑
ef
o
rt
a
b
l
e
s
(
d
a
t
as
e
t
s
)andcolumns(
v
a
r
i
a
b
l
e
s
)
3
. SASE~p!orer: P
r
o
v
i
d
e
sar
i
c
hv
i
s
u
a
lf
r
o
n
tendt
o
t
h
eSASSystem
Toachievet
h
eg
o
a
lo
fseamlesst
r
a
n
s
i
t
i
o
n,Versions6
and8complementonea
n
o
t
h
e
r
. Someo
ft
h
eV
e
r
s
i
o
n8
f
e
a
t
u
r
e
st
h
a
tf
a
c
i
l
i
t
a
t
eacomplementaryr
e
l
a
t
i
o
n
s
h
i
pa
r
e
:
4
. AsvnchronousSAS/CONNECT
③ Proaram
Sutmits:A
l
l
o
w
sy
<
?
ut
odoworki
nt
h
efor~ground
~hile r
emotesubr
'
ni
t
sa
r
eb
e
i
n
gprocessedi
nt
h
e
background
1
. ~~S ~~to rT) ati~al_l'y senses\~e f<?rm~t()f ai
I
g
r
a
̲
r
y,
̲
e
.
g
.
o
n
.
6i
I
b
r
a
r
y
.
9
rayer~i(), n 8)
i
b
r
a
r
y
?,.S
A
:
:
;
i
st
iaV
e
r
s
.
i,
programst
h
a
taccessVersion6l
i
b
r
a
r
i
e
sw
I
I
I(
f
o
rt
h
e
mostp
a
r
t
)r
u
nunchangedi
nVersion8
.
5
. DynamicL
ibnames:Giv~s tran? I2'!!~r:!t accesst
o
~xternal d
atabasesw
i
t
h SAS/ACCESS@dynamic
libnamestatements
6
. CEDA:A
l
l
o
w
saccesst
o SASd
a
t
a
s
e
t
sc
r
e
a
t
e
dby
m
u
l
t
i
p
l
eo
p
e
r
a
t
i
n
gsystemsw
i
t
h
oリth
a
v
i
n
gt
ogo
!
b
r
i
n
gupasei
'
Ve
ron
t
h
r
o
u
g
ha
.t
r
a
n
s
p
o円 processo
t
h
emachinet
h
a
tc
r
e
a
t
e
dt
h
ef
i
l
e
2
. Read"Write,andUpdateaccesst
oV
e
r
s
i
o
n6SAS
d
a
t
af
i
l
e
sa
r
es
u
p
p
c
i
r
t
e
d
.
3
. ~ead accesst
oV
e
r
s
i
o
n6SASc
a
t
a
l
o
g
sandSQL
viewsa
r
es
u
p
p
o
r
t
e
d
.
4
. YoucanmixVersion6and8c
l
i
e
n
t
sands
e
r
v
e
r
s
.
Forex~ r:n ple , ay~r~ Î9I! 8
.~1.Le_!l t canprocessdata
fromaV
e
r
s
i
o
n6SAS/SHAREs
e
r
v
e
r(andv
i
c
e
v
e
r
s
a
l
.
7
. AdvancedDatabaseFeature~: P
r
o
v
i
d
e
si
n
t
e
g
!
i
t
y
c
o
n
s
t
r
a
i
n
t
st
oensuredataconformst
ou
s
e
r
‑
d
e
r
i
n
e
d
‑361
5
. L
ibraryandc
a
t
a
l
o
gc
o
n
c
a
t
e
n
a
t
i
o
n(
anewV
e
r
s
i
o
n8
l
e
a
t
u
r
e
)a
l
l
o
w
syout
omovesomedatalorwardi
n
t
o
?V8l
o
r
m
a
twhDel
e
a
v
i
n
go
t
h
e
rd
a
t
ai
nV
e
r
s
i
o
n6
lorma
.
t
1
. Toe
x
p
l
o
i
tnewV
e
r
s
i
o
n8
l
e
a
t
u
r
e
s
. Forexam l2 l~ , you
r
r
y
a
ywantt
ohaveupdateaccessthroughanSQL
v
l
e
w
.
2
. TheVersion6lormati
si
n
c
o
m
p
a
t
i
b
l
ew
i
t
hyour
?
i
dusag~ i
nV~rsion 8(
s
e
eAppendix10
1t
h
i
s
i
n
t
e
n
d
pap~r I
q
rd
e
t
a
i
l
s
)
. F
o
rexamtle,sU p' pos~ .YI?~~
app!ica~ion e
xpectst
?
l.
b
ea
b
l
e
̲t
o.
L
J
P
d
a
t
e'
FRAME
A
I
I0
1t
h
e
s
el
e
司t
u
r
e
st
a
k
e
nt
o
g
e
t
h
e
rmeanthatmost1
V
e
r
s
i
o
n6号p
p
l
i
c
a
t
i
o
n
scanr
u
nunchangedi
nV
e
r
s
i
o
n8
ti~ p' ossibl~ t
o,
migratepa~ q~ an.applic,
!!ont
o
?
‑
.
n
d~hat 1
. The
V
e
r
s
i
o
n8w
h
i
l
el
e
a
v
i
n
go
t
h
e
rpar
'
tsi
nV
e
r
s
i
o
n
'6
oV
e
r
s
i
o
n8canbep
a
i
n
l
e
s
s
c
o
n
v
e
r
s
i
o
nIromV
e
r
s
i
o
n6t
anddoesn
o
thavet
obec
o
m
p
l
e
t
e
.
e
n
t
r
i
e
si
nac
a
l
a
l
o
g
.V
e
r
s
i
o
n8w
i
l
ro
n
l
ya
l
l
o
w
甲t
oc
a
t
a
l
o
ge
n
t
r
i
e
st
h
a
ta
r
ei
nVersion8
updat
l
o
r
m
a
t
<
.
3
. Tochangeo
rextendyourapplicationsucht
h
a
t
somep
a
‑
r
t
s0
1t
h
ea
p
p
l
i
c
a
t
i
o
i
l
r
u
no
n
l
yi
nVersion8
I
nl
a
t
e
rs
e
c
t
i
o
n
s,two0
1t
h
eabovel
e
a
t
u
r
e
s
(
c
o
n
c
a
t
e
n
a
t
i
o
nandmixedr
e
l
e
a
s
ec
l
i
e
n
ν
s
e
r
v
e
r
)w
i
l
lbe
.
l
d
i
s
c
u
s
s
e
di
nd
e
t
a
i
o
twantt
oupgradeyourd
a
t
al
ie
i
t
h
e
r0
1t
h
e
)
'
(
)
u~ould n
l
o
l
l
o
w
i
n
gweret
r
u
e
.
L
ibraryConcatenation
YouexpectV
e
r
s
i
o
n6and8c
1i
e
n
t
st
oneedaccess
t
ot
h
edataandyoudon
o
twanto
ryoucannothave
m
u
l
t
i
p
l
ec
o
p
i
e
sa
lt
h
ed
a
t
a
.
L
ibrarycqn
;
c
a
t
e
n
a
t
i
o
na
l
l
o
w
syoutor
e
l
e
r
e
n
c
etwoo
r
moreSASl
i
b
r
a
r
i
e
sw
i
t
has
i
n
g
l
el
i
b
r
e.
f Acomplete
c;!e'y~iE!i Çl']_ C
lU
i
t
r
a
r
yconc~tefíation m~y ~e 1
0
u
n
d
̲
C
lnthe
2
. Youa
r
ecomparingVersions6and8andyouneed
t
h
ed
a
t
as
t
o
r
e
di
nalormt
h
a
tb
o
t
hr
e
l
e
a
s
e
'
scang
e
t
t
o
.
CDROMS;ASLanauaaeR
e
l
e
r
e
n
c
e
:D
i
c
t
i
o
n
a
r
v
.F
i
r
s
t
E
d
i
t
i
o
n
.
~ibrary c
o
n
c
a
t
e
n
a
t
i
c
l
n,
a!
I
.
?
l
wsyout
ocoml
2
!nelibraries
t
h
a
ta
r
eprocessedbyd
i
f
f
e
r
e
n
te
n
g
i
n
e
s
.Forexample,
r
̲
ea
r
esomef
i
l
e
sinaVers!
9n6libraryiand
supposet
h
e
somE
)o
t
h
e
rl
i
l
e
s
I
naV
e
r
s
i
o
n8l
i
b
r
a
r
y
.Further,s
u
'
p
p
q
s
e
!~at !
h
ea
p
p
l
i
c
a
t
i
o
nnE
l
̲
edstoprocesst
h
ec
o
l
l
e
c
t
i
o
n
'0
1
I
i
l
e
si
nb
o
t
t
il
i
b
r
a
r
i
e
s
.Thel
o
l
l
a
w
i
n
as
v
n
t
a
xcanbeused
~I? e
s
.
t
a
b
l
L
s
ha~i !l gI El libr_efJ nMY Ll Bn) l
h
a
tcombinest
h
e
V
e
r
s
i
o
n6andV
e
‑
r
s
i
o
n8l
i
b
r
a
r
i
e
s
:
Effectiy~ly L! ~ing.libr?ry c
o
n
c
a
t
e
n
a
t
i
o
nassurnest
h
a
tyou
s
t
a
r
tw
i
t
h
'
aV
e
r
s
i
o
n6f
t
b
r
a
r
y
. Yout
h
e
ndecidewhich
p
i
e
c
e
s0
1t
h
i
sl
i
b
r
a
r
yyouneedt
oc
o
n
v
e
r
tt
oaVersionB
'
o
u
̲
c
̲
o
p
yanySASl
i
l
e
s
l
o
r
m
a
t(
s
e
er
e
a
s
(
)
n
sト3aboy~)~ )
t
ot
h
eV
e
r
s
i
o
n8
1
i
b
r
a
r
yw
i
t
hP_R9Ç_C9P_y'and~you copy
s
e
l
e
c
t
e
dc
a
t
a
l
o
ge
n
t
r
i
e
sw
i
t
hPROCCATALOG
Toillu~trat~ h
9
.
wt~is ~ig.ht workIqryou,c
o
.
n
s
i
d
e
ran
example0
1aV
e
r
s
i
o
n6n
b
r
a
r
y,w
h
i
c
t
ic
o
n
t
a
i
n
s
:
yy
rr
aa
rr
bb
一一 b
1ムーム︑︐︐
‑工・工;
‑ ‑ r h︾
VVl
r
o
Q
υ ・
工
一一司b
↑し↑し
oov
↑し↑し 1ム
hhi
aag
ppv
工・工工
1ム可i 1ム
bbb
巴巴巴
68y
vvm
mmm
aaa
nnn
‑可ム・可ム・可ム
i
ームーム可
bbb
Thep
r
e
c
e
d
i
n
g弓xa'
"
!
1p
ll
Ea!19wsyO!
Lt
.
ol
e
a
v
esqmel
i
l
e
s
usedbyana
p
p
l
i
c
a
t
i
o
ni
nV
e
r
s
i
o
n6lormatwhile
c
o
n
v
e
r
t
!
n
got~er~ t
oa
.y
e
r
s
i
o
n̲
8
.lorma
.
t(
!
'
J
.
o
t
e.
t
h
a
t
o
r
m
a
tt
o
'V
e
r
s
i
o
n8
c
o
n
v
e
r
t
i
n
gaI
j
l
eI
r
o
mV
e
r
s
i
o
n6l
l
o
r
m
a
ti
sass
i
m
p
l
easr
u
n
n
i
n
aaPROCCOPYIroma
V
e
r
s
i
o
n6l
i
b
r
e
lt
oaV
e
r
s
i
o
ngl
i
b
r
ef
.
)
SASCatalogConcatenation
明 st
h
ecombination0
1twoo
r
C
a
t
a
l
o
gc
o
n
c
a
t
e
n
a
t
i
o
na
l
l
o
I
"
!
lore.
c
a
.
t
a
l
o
g
s
;intoasingle10gicaJcatalog:A.complete
!
p
t
!
9D.
0
1~at?log c
o
‑
n
c
a
t
e
!
.
1a
t
i
o
nmai
'
teloundoQ
desq
t
h
eCDROMSASLanauaaeR
e
l
e
r
e
n
c
e
:D
i
c
t
i
o
n
a
r
v
.F
i
r
s
t
E
d
i
也
[
!
.
I
nt
h
eaboveexampleaV
e
r
s
i
o
n6andaVersionBI
iQ
r
a
r
y
"
Y
.
e
r
E
lconcatenatecji
n
t
oas
i
n
g
l
el
i
b
r
a
r
ynamedMYL
lB
.
A
I
I0
1t
h
ec
a
t
a
l
o
a
si
nt
h
ec
o
n
c
a
t
e
n
a
t
i
o
nw
i
t
ht
h
esame
c
a
t
a
l
o
gnamew
I
I
Ibel
o
g
i
c
a
l
l
ycombined.
ibraryandCatalog
AnExample:L
Concatenation
L
ibraryandc
a
t
弓l
o
gG
o
n
c
a
t
e
n
a
t
i
o
np
r
o
v
i
d
e
samethod0
1
combininaV
e
r
s
i
o
n
‑6and8l
i
b
r
a
r
i
e
s
.Youcant
h
e
n
d
e
c
i
d
e
w
f
l
i
c
hp
a
r
t
s0
1t
h
el
i
b
r
a
r
yt
ol
j
p
g
r
a
d
eandwhich
.
t
p
a
r
t
sshouldremaini
naV
e
r
s
i
o
n6lorma
YouwO!
L
I
dwantt
oupgradead
a
t
al
i
l
e,ada!aview,a
;
c
a
t
a
l
o
gl
i
l
e,o
rac
a
t
a
l
o
ge
n
t
r
yl
o
ranyone0
1t
h
e
l
o
l
l
o
w
i
n
gr
e
a
s
o
n
s
:
1T
herea
r
esomee
x
c
e
p
t
i
o
n
swhered
a
t
amustbe
conye~~d t
.
oV~rs!9. n 8lormatbeloret
h
ea
.
p
p
l
i
c
a
t
̲
i
onca.n
r
.
u
.
ni
nV
e
r
s
i
o
n8
. Thesea
r
ed
i
s
c
u
s
s
e
di
nAppendix10
1
t
h
i
sp
a
p
e
r
.
E
!
2I
ti
simp
'o
r
t
a
n
t
.t
onC
lt
e̲
t
h
a
tt
h号enginec
ra
t
i
n
gaSAS
,
m
~ata.log d
e
t
e
ri
l
!
e?i
t
s10~maUthe ã~tu.a,1 l
i
l?
llo-r~at).
F
u
r
t
h
e
‑
r
m
o
r
e,t
h
i
sl
o
r
m
a
ti
sd
i
f
f
e
r
e
n
ti
nVersions6and8
0
1t
h
eSASSystem.
h
el
o
r
m
a
t0
1aSASc
a
t
弓l
o
ge
n
t
r
yi
s
Ont
h
eo
t
h
e
rhand,t
determinedbyt
h
eSASprogramo
ra
p
p
l
i
c
a
t
i
o
n
‑
t
h
a
t
Wardso
rbackwards
c
r
e
a
t
e
d
i
tandmayo
rmayn
o
tbe1
0r
c
o
m
p
a
t
i
b
l
e
.
‑362‑
FORMATS.CATALOG ~ ~é) リ T T O W H N R E O E ‑ ‑ F F E O O ‑ F R R O M M R A A M T T A ( r f f V r ( o o r f m om mV V 8 6 V L L 6 l l B L FORMATS.CATALOG ONE.FORMAT TWO.FORMAT THREE.FORMAT MYPROG.CATALOG B.FRAME( f r o m C.FRAME( f r o m i f r l B j 1B PIC2.GRSEG( f r o mV6L MYPROG.CATALOG A .FRAME B.FRAME C.FRAME PIC1.GRSEG PIC2.GRSEG TABLE1.DATA( f r o mV6L 1B) 1B ) TABLE2.DATA( f r o mV8L TABLE1.DATA TABLE2.DATA RunninaVersion6andVersion8a tthe SameTime I nt h eaboveexamplet h euserc o u l di n i t i a l l yrunt h e i r a p p l i c a t i o ni nVersIon8w i t h o u tchanginga ‑ t h i n g Therearegoingtobesomes i t e st h a twantt or u nt h e i r a p p l i c a t i o n si nVersion6andVersion8 . Ac a u t i o u s customer, f o rexample, wouldexperimentw i t hVersion8 byr u n n i n gt h e i ra p p l i c a t i o n si nbothr e l e a s e s . Another c~stomer ‑ maybec o m f o r t a b l e ̲w i t hmovingsomegroups o f~sers t ot h ene: ‑ vr E ?l e a s e . Forexample~. yo~.mãy w~nt t ohaveyoura p p l i c a t i o n sdeveloper~running VersIon8, b u tyourendusersr u nVersion6 . F i n a l l y, t 1 ferew i l lbe c i:J ~t'? l!l ers i n . ! h eb~siness o fd e l i v e r i n g d a t ai nt h eform o fSASdataf i l e s . Thesecustomersw i l lwantt od e l i v e ra Version6o raVersion8formo ft h esamef i l e . Thedata producer , ho.wever,w a . n t st h e i rV~rsion 8f i l en o tt obe " i e s t r i c t e dt oVersion6f e a t u r e s . Forexample,t h edata producerwouldwantt h e i rVersion8d e l i v e r a b l e st ohave l o n gd e s c r i p t i v ev a r i a b l enames. f t e rt h i n q shaver u ns u c c e s s f u l l yi nVersion8 However,a t h euserwantst or e p l a c eFORMATS.ONE.̲FORMAT, MYPROG.B.FRAME, andTABLE2. DATAw i t hv e r s i o n s n t h a te x p l o i tnewf e a t u r e s . Forexample,PROCFORMATi Version8s u p p o r t saNOTSORTEDo p t i o nt h a ta l l o w st h e usert ol i s tmostl i k e l yv?luesf o raf ( ) r m a tf i r s tan~ therefor~get b e t t e rpeバ ormancew i t hl o n gl i s t so ff o r m a t feuserwouldcreateanoverriding v a l u e s . T1 ONE.FORMATi nt h ec a t a l o gV8LIB.FORMATS oaddI n t e g r i t yC o n s t r a i n t sand Also,supposeyouwantt l o n gv a r i e i b l enamest oTABLE2. l ndoingso, t h euser kn6wsthat(s)hes t i l lneedsaVersion6formo fthese upgradedf i l e s . However, ̲ t h euserd . o e sn o twantt o h a i i et oc r e a t eaVersion8formato ft h eunchanaedd a t a . Ther e s u l t sa r eaVersion8l i b r a r yt h a tl o o k sl i k ei h i s : TheSASSystemo f f e r ssomef e a t u r e st oa s s i s tthose customerswhoneedt or u nVersion6andVersion8a t t h esametime ・ WritingVersion6CompliantCodei nVersion8 TheSASo p t i o nVALIpVARNAME=V6f o rc ̲ esa l lv a r i a b l e namest ohee i g h to rfewerc h a r a c t e r s .T h i so p t i o n pr~vents ac j e v e l o p e r_f ro~ w r i t i n gSAScodet h a twould f a i lt ocompilei nVersion6 ‑ l ' I : !1 = ̲̲̲̲̲̲ ̲ FORMATS.CATALOG ONE.FORMAT Forexample, MYPROG.CATALOG ldata a; long̲var̲name=l; run; B.FRAME compilesandr u n si nVersionB,b u tproducesa~yntax e r r o ri nVersion6 .I fyoupeバ ormt h eé!bo~e DATAs t e p a f t e rs e t t i n gVALIDVARNAME=V6, t h eDATAs t e pw i l lf a i l t ocompileI nVersion8 . TABLE2φDATA Theconcatenatedl i b r e fMYLIBwouldbes e tupas f o l l o w s : F Z m e叫 b (v81ib v山 ); Theo p t i o nmaybes e tw i t ht h eo p t i o n sstatement : │叫 ∞ns O 山 m 悶 凹日 E 刊 6 〈 o r i 川 nt h eSASc o n f 引 i g u r a t i ゆ onf i l e . Forexampl 陥 e,onaUNIX s y s t ぬ em, MYL lBwouldhavet h ef o l l o w i n gc o n t e n t s : ‑363‑
TheVAL工DVARNAME=V6o
p
t
i
o
ns
e
t
t
i
n
gi
su
s
e
f
u
lwhen
1
i
gi
'
"
) 8~riting c
ode
youhaved
e
v
e
l
(
)
p
e
r
sw
o
r
k
i
1
lVersiol
t
h
a
tmustcompilei
nVersions6o
rV
e
r
s
i
o
n8
.
MakingaVersion6Copyo
faVersion8F
i
l
e
Therew
i
l
lbesomecustomerswhowantt
or
u
nV
e
r
s
i
o
n8
.
e
a
tl
,
lr
e
s,b
u
t~ho havet
.
h
e
andf
u
l
l
ye
x
p
l
o
i
tV
e
r
s
i
o
n
̲8t
needt
6c
r
e
a
t
eV
e
r
s
i
o
n6d
a
t
af
i
l
e
st
od
e
l
i
v
e
rt
ot
h
e
i
r
~Iients. .
T
o90t
h
i
s
!
.
.
h
o
.
w
e
v
e
r,r
e
g
y
i
r
e
s~tri p'p' ing ~ut a
l
lo
f
i
̲
l
e
.‑F
o
r
t
h
eVersionBs
p
e
c
i
f
i
cf
e
a
t
u
r
esetfromt
h
e
'
f
example,
a
l
lv
a
r
i
a
b
l
enamesg
r
e
a
t
e
rt
h
a
n.
e
i
g
h
t
C
terswouldhavet
oberenamedt
of
i
tf
h
eV
e
r
s
i
o
n6
chara
,acter.limi.
t ~ ~f'.S customer¥
Vhoi
si
nt
h
e
e
i
g
h
t
‑
c
h
a
r
Qbea
b
l
e
businesso
fd
e
l
i
v
e
r
i
n
gSAS̲datasetsw
i
l
l~ant t
t
oe
a
s
i
l
vd
e
l
i
v
e
raV
e
r
s
i
o
n6o
rV
e
r
s
i
o
n8formo
ft
h
ef
i
l
e
.
ys
t
r
i
p
p
i
n
go
u
tV
e
r
s
i
o
n8s
p
e
c
i
f
i
cf
e
a
t
u
r
e
si
s
Manua小
t
e
d
i
o
u
s
.
i
t
hYAL
lDVARNAME=V6
PROCCOPY,whenusedw
(
s
e
eabove),w
i
l
ldot
h
i
sf
o
ryouへ
⑥ o
rSAS/SHARE⑥ customermaybe
ASAS/CONNECT
.
n
gas
e
r
v
e
ro
n
.
a
n
o
t
h
e
rmachine. A
ty
o
u
rsit~ t
imay
u
s
i
bet
n
a
tonemachineenvironmenthasV
e
r
s
i
o
n8
a
v
a
i
l
a
b
l
eb
e
f
o
r
ea
n
o
t
h
e
r
. Acustomermaywisht
omove
t
h
e
i
rc
l
i
e
n
to
rs
e
r
v
e
rf
o
r
w
a
r
dt
oV
e
r
s
i
o
n8I
N
h
e
nV
e
r
s
i
o
n8
i
sa
v
a
i
l
a
b
l
eont
h
e
i
rmachine. Youdon
o
thavet
ow
a
i
t
u
n
t
i
lV
e
r
s
i
o
n8i
sa
v
a
i
l
a
b
l
eona
l
lo
ft
h
emachinest
h
a
t
!
s
e
r
v
e
ra
p
p
l
i
c
a
t
i
o
n
.
makeupyourc
l
i
e
nt
Therea
r
esomer
e
s
t
r
i
c
t
i
o
n
st
or
n
i
x
i
n
gVersion6and
V~rsion 8c
l
i
e
n
tands
e
r
y
.
er
s
. SeeA
‑
p
p
e
n
d
i
x2f
o
ras
e
t
e
t
a
i
l
i
n
gwhatyot
.
ic
anandcannotdo
o
fsummaryt
a刷esd
i
namixeds
e
t
t
i
n
g
.
Conclusions
V
e
r
s
i
o
n8wasb
u
i
l
tw
i
t
hf
e
a
t
u
r
e
st
h
a
tenableaslow
o
t
a
lm
i
g
r
a
t
i
o
n
. Many
m
i
g
r
a
t
i
o
.
no
rapompl~te andt
戸p
p
l
i
c
a
t
i
g
n
sv
.
:i
lr
e
q
u
i
r
enochang
.
esata
l
lt
or
u
nunder
V
e
:
r
s
i
o
n8,w
h
i
l
eo
t
h
e
r
sI
l
}ayI.~qgiI.e _SQ f!l.~ m
inor
adjustments(
s
u
c
hasu
s
i
n
gPROCCOPYt
o
.moveyour
d
a
t
afromaV
e
r
s
i
o
n6f
o
r
m
a
tt
oaV
e
r
s
i
o
n8f
o
r
m
a
t
l
:
F
o
rexample,
data employee;
LastName ニ 'Smith';
FirstName = 'John'i
EmployeeID = 50;
̲
r
:
̲
o
v
i
d
et
h
ep
r
i
m
a
r
y
Thenewf
e
.
a
t
u
r
e
si
nV
e
r
s
i
o
n8p
m
o
t
i
v
a
t
i
o
nf
o
rmovingf
o
r
w
a
r
d
.'Themovecanb
e
'
t
o
t
a
lo
r
b
u
te
i
t
h
e
rwayt
is
h
o
u
l
dber
e
l
a
t
i
v
e
l
yp
a
i
n
l
e
s
s
.
p
a
r
t
i
a
l,
runi
V
1ム
P
L
O
b
︐
.
‑
﹄
n
↑﹂・'
司
KO
V
ムーム
c
ζム ト ﹂
op
wm
=ρ
n
ye
D勉︑ム
oe
cs ・
'
P
cu
or
r
ue
‑
‑o
e
y
libname v61ib 'path';
options validvarnarne=v6;
f
e
a
t
u
r
e
s(
s
u
c
hasODS). Thatsamecustomermaysee
r
d
.
noadvantaget
omovingt
h
e
i
rs
e
r
v
e
rf
o附 a
Ther
e
s
u
l
t
i
n
gVersion6d_a.!afile,_Y6LLB.~MpLOYEE w
i
l
l
c
o
n
t
a
i
nt
h
ev
a
r
i
a
b
l
e
sLASTNAME,FIRSTNAM,and
EMPLOYEEandw
i
l
lbeL
J
s
a
̲
b
l
ebyanyV
e
r
s
i
o
n6o
r
V
e
r
s
i
o
n8a
p
p
l
i
c
a
t
i
o
no
rSASprogram.
MixingVersion6 andVersion8ClientI
Servers
Upt
(
)nC
lwt
h
i
spaperha~.been c
o
v
e
r
i
n
gt
r
a
d
i
t
i
o
n
a
lSAS
a
p
p
l
i
c
a
t
i
o
n
s巳p
r
e
s
g
n
t
e
gbyQneuserandoneprocess
o
:
n
'onem
a
c
h
i
r
i
e
. TheSASSystem,
however,
'
h
a
s
ç_lie!1t!_s.~ r:vil~ e
x
t
e
n
s
i
g
n
s
̲r~P!el5 e!J~~ i
np
r
o
d
u
c
t
si
I
k
e
⑨.
SAS/SHARE⑤ andSAS/GONNECT
~hen.mo~ing ac
l
!
e
nt
!
s
e
r
v
e
ra
p
p
l
i
c
a
t
i
o
nf
o
r
w
a
r
d,you
havet
h
ec
h
o
i
c
eo
f
:
1
. Movingsomeo
ra
l
lo
ft
h
ec
l
i
e
n
t
sf
o
r
w
a
r
d
2
. Moving j
u
s
tt
h
es
e
r
v
e
rf
o
r
w
a
r
do
r
3
. Movingb
o
t
hc
l
i
e
n
t
(
s
)ands
e
r
v
e
rf
o
r
w
a
r
d
̲
ho
ftheset
h
r
e
eapproachesmakes
Youmayaskwhig
themoslsenSEL Iheanswert
ot
h
a
tq
u
e
s
t
i
o
ni
sg
o
i
n
gt
o
b~ "
i
td
e
p
e
f
l
d
sへ Thep
o
i
n
ti
st
h
a
tt
h
eVersion8system
g
i
v
e
syout
h
ea
b
i
l
i
t
yt
omixandmatghV
e
r
s
i
o
n6and
'
i
le
r
s
i
o
n8c
l
i
e
nt
!
s
e
r
v
e
rs
c
e
n
a
r
i
o
s
. F
o
rexamole.one
cus!om~r I
l
!
.aywisht
om
oyet
h
e
i
rSAS/SH¥
fRE⑤c1ients
h
.
ecl~n!? c
a
n
.t~ke advant~ge o
f
t
oVersi?~ 850t~é!t t
someo
ft
h
enewV
e
r
s
i
o
n8c
l
i
e
n
ts
i
d
er
e
p
o内 w
r
i
t
i
n
g
3t
Ii
si
m
p
o
r
t
a
n
tt
on
o
t
et
h
a
tPROCCOPYw
i
l
lbea
b
l
et
o
c
r
e
a
t
eat
r
u
n
c
a
t
e
dnamef
o
rv
a
r
i
a
b
l
e
st
h
a
tuset
h
enew
.
eatureo
fl
o
n
gnal
l
}e
s
.T
h
i
st
r
u
n
c
a
t
i
o
ni
s
V
e
r
s
i
o
n8f
basedont
h
estemo
ft
h
ev
a
r
i
a
b
l
enameandi
s
thoughn
o
tasd
e
s
c
r
i
p
t
i
v
eas
guaranteedt
obeunique,
f
h
el
o
n
gname.
‑364一
:ConversionGotchas
Appendix1
F
o
r.
t
h
em
o
.
s
.
tP
.
e
!
内
, Version̲6applicationscanrun
unchangedi
n
'V
e
r
s
i
o
n8
. Therea
r
esomef
e
a
t
u
r
e
s,
howeve
,
"
iw
hichrequirea.customert
odos
(
)
m
e
t
h
i
n
gt
o
t
h
e
i
rsourceo
rt
h
e
i
rd
a
t
ai
no
r
d
e
rt
or
u
ni
nV
e
r
s
i
o
nB
.I
f
youd
(
)n
o
!useanyo
fthesefeatur~s , y
o
u
rt
r
a
n
s
i
t
i
o
n
from6t
o8s
h
o
u
l
d
'
b
eseamless. I
fvoudousesomeo
f
t
h
e
n
t
h
i
ss
e
c
t
i
o
nt
e
l
r
swhatyouneedt
o
t
h
e
s
ef
e
a
t
u
r
e
s,
dot
oc
o
n
v
e
r
tfromV
e
r
s
i
o
n6t
oV
e
r
s
i
o
n8
.
?r
s
i
o
n6C é!~alo.gs c
a
n
f
l
o
tbeupdatedby
1
. p' rob!em~ V,
Ver~ion.8. I
f
.youra
p
p
l
i
:
c
a
t
i
o
nupdatesc
a
t
i
!
‑I
o
g
entri~s t~en t
h
'
eapp
J
f
c
a
t
i
o
ncannotr
u
nunchangedi
n
V
e
r
s
i
o
n8
.
S
o
l
u
t
i
o
n
:Copythec
a
t
a
l
o
ge
n
t
r
i
e
st
h
a
tyour
a
p
p
l
i
c
a
t
i
o
nUpdatest
oaV
e
r
s
i
o
n8c
a
t
a
l
o
g・ Use
1t
ocombinet
h
i
sp
a
r
t
i
a
lV
e
r
s
i
o
n
c
a
!
a
l
o
gc
o
n
c
a
t
e
n
a
t
i
o!
8c
a
t
a
f
o
gt
o
.thef
u
l
lV
e
r
s
i
o
n6catalogorcopya
l
lo
f
t
h
er
e
q
u
i
r
e
de
n
t
r
i
e
st
oaV
e
r
s
i
o
n8c
a
t
a
l
o
g
.
2
. Problem:Version8cannotc
r
e
a
t
ed
a
t
as
t
e
oo
rSOL
i
p
r
a
r
y
.
̲
!
fyourapp
'l
i
c
a
t
i
o
n
viewsi
n_a_~ersi <2.n 6l
c
r
e
a
t
e
sSOLorDataStepViewst
h
e
n
i
tmayn
o
tr
u
n
unchangedinVersion8
.
'o
ura
p
p
.
l
i
c
̲
a
t
i
o
.
nt
g.
l
,
ls
el
i
b
r
a
r
y
S
o
l
u
t
i
o
n
:M
.
o
d
i
f
yy
aVersion8libraryinfrontof
concatenationfol
n
s
e
r
t:
t
h
eV
e
r
s
i
o
n6i
I
b
r
a
r
y
.
3
. Problem:Customizationsand
叩 e
r
s
o
n
a
ld
a
t
as
t
o
r
e
d
i
naV
e
r
s
i
o
n6SASUSER.PROFILEa
r
en
o
ta
v
a
i
l
a
b
l
e
i
nV
e
r
s
i
o
n8
.TheSA$U$ER.PROFI!- r;: _c~talog i
s
?u
s
t
.
o
m
i
z
!
e
t
i
o
.
n
st
ot
h
eSASSystem.
!
:
!
̲
s
e
dt
os
t
o
r
e,
!
s
,
f
or
:
̲t
h
en
l
o
s
tp
a
r
t,r
e
l
a
t
et
ot
h
e
Thesec
u
s
t
o
m
i
z
a
t
i
o,
l
o
o
kandf
e
e
lo
ft
h
eSASGU.
ITheVersion8GUIi
s
sod
i
f
f
e
r
e
n
tfromt
h
eV
e
r
s
i
o
n6GUIt
h
a
tt
h
e
r
ea
r
eno
p
r
o
v
i
s
i
o
n
sf
o
rmovingyourSASUSER.PROFILE
orwardfromVersion6t
o8
.
S
o
l
u
t
i
o
n
:Customizet
h
eV
e
r
s
i
o
n8GUIa
f
t
e
r
i
n
s
t
a
l
l
a
t
i
o
n
. Non‑GUId
a
t
as
t
o
r
e
di
naV
e
r
s
i
o
n6
SASUSER.PROFILEmaybemovedt
oaV
e
r
s
i
o
n8
Qé!!é!l ~g~lt~.a PROCCOPY. TheqUTpU
‑
r
̲
:f
rom
PROC‑COPYmaybeusedast
h
eV
e
r
s
i
o
n8
SA~USE~:.PROFILE a
l
t
h
o
u
g
ht
h
eVersion6GUI
s
e
t
t
i
n
g
sw
i
l
lbel
o
s
.
t
4
. Problem:DATAandVIEWSs
t
o
r
e
di
nt
h
eSASUSER
l
i
b
r
a
r
ya
r
en
o
ta
v
a
i
l
a
b
l
et
oi
nV
e
r
s
i
o
n
8
. Thesystem
as宇i
g
n
st
h
eEìAS \J.~~~ i
!
.
b
r
a
r
y.as.<:! .v.e.~sion 8f
i
b
r
a
r
y
.
This‑meanst
h
a
tV6DATAandVIEWl
i
l
e
sa
r
en
o
t
a
v
a
i
l
a
b
l
ethrouqht
h
ed
e
l
a
u
l
tSASUSERl
i
b
r
e
l
.
S
o
l
u
t
i
o
n
: Usef
h
elibnamestatementi
nVersion8t
o
concatenatevourVersion6SASUSERl
i
b
r
a
r
vw
i
t
h
y'o.u,!' Y~æ!9 n ̲
B
I
L
b
r
e
l吃 L
l
o
rexample:L
1BNAM
巴
SASUSER(SASUSEA p
a
t
h
‑
t
o
・
v6・s
a
s
u
s
e
r
‑
l
i
b
r
a
r
y
'
)
;
V6
C
l
i
e
n
t
V8
C
l
i
e
n
t
5
. Problem:MVS,CMS,andVAXVMScustomers
c
a
n
r
l
o
tread6.06datas
e
t
si
nVersion8
.1
Iyour
?
p
p
l
i
c
a
t
i
o
nprocessesSASdataf
i
l
e
si
nt
h
e6.06
l
c
i
r
m
a
tt
h
e
n
i
tw
i
l
ln
o
tr
u
ni
nVersion8
.
~olutioQ.: .U..?~ V
e
r
s
i
o
̲
0̲
6
̲
tor~fÇlrn~at_ yo_u_r_9 ~t? ,_ t
.
̲
s
i
r
n
p
l
eDATAs
t
e
p
: DATAMYL
lB.A;SETMYL
lB.A;
El││refomata606filetobecompatiblew附 Version
tNoV
e
r
s
i
o
n8s
p
e
c
i
f
i
cf
e
a
!
u
r
e
sa
r
ea
l
l
o
w
e
d
ForSASDataViews,com
̲
pa
t
i
b
i
l
i
t
yv
a
r
L
e
s,
t
h
i
st
i
m
e
g
̲
̲
(
)
̲
n
̲t
h
etyp~ Q
I
̲
D
̲
at
̲
?̲View・
D
,ataSt~p ,
c
j
e
p
̲
e
n
d町
SAS/ACCESS@andPROCSOLandt
h
ese
凶n
q0
1t
h
e
RMTyl~V'{ o
p
t
i
oQ
.
.̲
̲
.
Again,
̲
c
o
n
s
i
d
e
r
i
ng
̲SAS/SHARE③
e
l
n
̲
dS̲ASjCONNECT@RLS,
l
o
rDataStepandPROC
SOLSASDataViews,
6
. Problem:MVSandCMScustomersw
i
l
lhaveREAD
L
Ya
̲
c
c
e
s
st
oVersion5datal
i
b
r
a
r
i
e
s
.
.1
Iyour
ON.
e
l
P
p
l
i
c
a
t
i
o[
lr
e
q
u
i
r
e
su
p
d
a
t
i
n
go
rc
r
e
a
t
L
n
gVersion5
d
a
t
at
hent
ica
1
i
n
o
tb
e
.r
u
ni
n
‑
V
e
r
s
i
o
n8
.
S
o
l
u
t
i
o
n
:UsePROCCOPYi
nVersion6o
r8t
o
r
n
i
g
r
a
t
eyourVersion5datat
oe
i
t
h
e
rVersion6o
r
V
e
r
s
i
o
n8lorma
.
t
7
. Problem:MVSandCMScannotbeusedt
ob
u
i
l
dAF
rCLASSe
n
t
r
i
e
s
.
FRAME,RESOURCE,o
S
o
l
!
l
t
i
o
n
:youcanb
u
i
l
d
t
h
e
a
p
p
I
i
c
a
t
i
o
nonanother
p
l
a
甘orm(
I
o
rexa_m~le UNIX̲c
i
r
'
W
i
n
d
o
w
s
)andthen
rmpo同 themt
oMVSo
rCMS
V6
C
l
i
e
n
t
,
t
Jl
e
m
:O~ the.~!X oper~ti.!:l g.syste,lJl, Version8
8
. Erp
~AS ~ann.9t r
e
9
.
9y~r~()_n_ E
iQatalog1!les.
S
o
l
u
t
i
o
n
:RunPROCCPORTi
nVersion6t
oc
r
e
a
t
e
at
r
a
n
s
p
o
r
tl
i
l
e
. Version8PROCCIMPORTcan
~e~d aV
ersion6transpo同 I
i
l
eandc
r
e
a
t
eaVersion
8C
a
t
a
l
o
g
.
V8
C
l
i
e
n
t
9
. Problem:HOSTFMT=dataseto
p
t
i
o
nonVMShas
t
R
M
T
V
I
E
W
=
N
Oh
a
sb
e
e
ns
e
!
RMTVIEWY
E
Sh
a
sb
e
e
ns
e
!
'P円OCSQLv
i
e
w
so
n
l
y
~een.repl~ced b
yt
h
eOUTREP';'d
e
l
t
a
s
e
top~ Q_f!:
S
o
l
u
t
i
o
r
i
:Chanqea
l
loccurrences0
1t
h
eHOSTFMT
=
VAXt
oOUTREP=VAX VMSanda
l
loccurrences0
1
HOSTFMT
=ALPHAo
rROSTFMT
=AXPt
o
OUTREP=ALPHA VMS
ま
三
w
h
i
l
el
o
rSAS/ACCESS⑤ viewswehave
Appendix2
:ReslrictionsonmixedVersion6and
Version8C
l
i
e
n
t
l
S
e
r
v
e
r
Thet
a
b
l
̲
e
si
nt
h
i
sappendixuset
h
el
o
l
l
o
w
i
n
g
c
o
n
v
e
n
t
i
o
n
s
:
V6
C
l
i
e
n
t
R=ReadAccess
V8
C
l
i
e
n
t
w=W
r
i
t
eAccess
U=UpdateAccess
D句pendingont
h
eSAS0司旬Lib
r
a
r
ymembert
h
a
ti
s
t
,
e
i
n
gac<::ess~d , cQ
̲m
p
a
t
i
b
i
l
i
t
ybetween̲
V
.
e
,
!
'
s
L
o
n̲
6
̲
~n~
V
e
r
s
l
o
l
!
s.
Ye
l
r
iE
)S
.
̲E
Q
re~ample , underS!
,
‑S/SHAR̲E⑤
andSAS/CONNECT
⑨ R
emoteL
ibraryServices(RLS),
SASDataF
i
l
e
sa
r
ecompatibleasl
o
l
l
o
w
s
:
F
i
n
a
l
l
y,againIromt
h
es
t
a
n
d
p
o
i
n
t0
1SAS/SHARE⑤ and
SAS/COt
'
JNECT@RLS,
l
o
rSASCatalogsweh
a
v
e
:
RU
qu
ρ
o
JamesHolman SASI n s t i t u t eI n c . SASCamousD r i v e C a r v .NC27513 ( 9 1 9 )677‑8000 jahorm@wn . tsas.com(JamesHolman) V6 C l i e n t ,andSAS/SHARE SAS,SAS/ACCESS,SAS/CONNECT 1SASI n s t i t u t e a r er e q i s t e r e dtrademarkso rtrademarks0 I n ci nt h eUSAando t h e rc o u n t r i e s . @i n d i c a t e sUSA R e g i s t r a t i o n . V8 C l i e n t O t h . e rbr~nd andproductna~~s.are r e g i s ! e r e d trademarkso rtrademarks0 1t h e i rr e s p e c t i v ecompanies 凶 u c e dw i l lb eaV e r s i o n8c a t a l o gw~h V e r s i o n6d a t a tT h ec a t a l o gp .L im i t e dw r i t i n gi sa l l o w e ds ot h a tPROCCOPYc a nc o p yaV e r s i o n6 c a t a l o gt oa n o t h e rV e r s i o n6i I b r a r y n tt onote, ̲however,thattherearetwoother I ti simpo吋a 1 a G e t st oSAS/CONNECT@ ー R~m~te C:: omp!!!~~~!"ices ( ̲ R C S )a.ng.Re l"!1s>t~ ̲ D ? t aTranslerS e r v i c e s '(RDTS). 1SASDataL ibrarym~mbers musttake C o m p a t i b i l i t y0 i n t oaccountt h eversion0 1theSASSystemthel o c a land t h eremoteh o s t sareu s i n g . Forexample, w i t hSAS/CONNECT@RCS: • AVersion6l o c a l h o s tcanresubmitaSASprogram t h a tr e l e r e n c e se i t h e rVersion6o rVersion8data l i l e st oaVersion8remotehostw i t hno c o m p l i c a t i o n s . • AVersion8l o c a lh o s tcanremotesubmitaSAS programt oaVersion6remoteh o s tb u tt h e trogramsmust.notc o n t a i nanyrelerencest o Version8s p e c i l i cl e a t u r e s . A~oth~re_xé!.r12pIe , .!.hJ~ t i m ̲ e̲ w i t hSASCatalogs, again ~sing SAS/CONNECT@RCS , c o m p a t i b i l i t yv a r i e sas l o l l o w s : V8 C a t a l o g R/W/ U土 R/W/ U Authors SteveBeatrous SASI n s t i t u t eI n c . SASCamousD r i v e Cary,NC27513 ( 9 1 9 )67Z‑8000 sassmb@wn . tsas.com(SteveBeatrous) ρhv ρhv 司u
V8eにおける統計プロシジャの紹介
F i t t i n gNonlinearMixedModelswiththeNewNLMIXEDProcedure RussellD .Wolfinger,SASI n s t i t u t eI n c .,Cary,NC ABSTRACT S u c c e s s f u lconvergenceo ft h eo p t i m i z a t i o nproblem S t a t i s t i c a lmodelsi nwhichb o t hf i x e dandrandom r e s u l t si nparametere s t i m a t e sa l o n gw i t ht h e i r e f f e c t se n t e rn o n l i n e a r l ya r ebecomingi n c r e a s i n g l y approximates t a n d a r de r r o r scomputedfromt h e p o p u l a r . Thesemodelshaveawidev a r i e t yo f secondd e r i v a t i v em a t r i xo ft h el i k e l i h o o df u n c t i o n . a p p l i c a t i o n s,twoo ft h emostcommonb e i n g PROCNLMIXEDenablesyout ouset h ee s t i m a t e d n o n l i n e a rgrowthc u r v e sando v e r d i s p e r s e db i n o m i a l modelt oc o n s t r u c tp r e d i c t i o n so fa r b i t r a r yf u n c t i o n s d a t a . AnewSAS/STAT@procedure,NLMIXED,f i t s byu s i n gt h eparametere s t i m a t e sandt h ee m p i r i c a l thesemodelsu s i n gl i k e l i h o o d ‑ b a s e dmethods.T h i s Bayese s t i m a t e so ft h erandome f f e c t s .PROC paperp r e s e n t ssomeo ft h ep r i m a r yf e a t u r e so f NLMIXEDapproximatest h e i rs t a n d a r de r r o r su s i n g PROCNLMIXEDandi l l u s t r a t e si t susew i t htwo t h ef i r s td e r i v a t i v e so ft h ef u n c t i o nt h a tyous p e c i f y examples. ( t h ed e l t amethod)。 INTRODUCTION L 1TERATUREONNONL lNEARMIXEDMODELS TheNLMIXEDproceduref i t sn o n l i n e a rmixed D a v i d i a nandG i l t i n a n( 1 9 9 5 )andVoneshand h a ti s,modelsi nwhichb o t hf i x e dand models,t C h i n c h i l l i( 1 9 9 6 )p r o v i d egoodoverviewsasw e l las randome f f e c t sa r ep e r m i t t e dt ohavean o n l i n e a r g e n e r a lt h e o r e t i c a ldevelopmentsandexampleso f r e l a t i o n s h i pt ot h eresponsev a r i a b l e . Thesemodels n o n l i n e a rmixedmodels. P i n h e i r oandBates( 1 9 9 5 ) cant a k ev a r i o u sforms,b u tt h emostcommonones i sap r i m a r yr e f e r e n c ef o rt h et h e o r yand i n v o l v eac o n d i t i o n a ld i s t r i b u t i o nf o rt h eresponse c o m p u t a t i o n a lt e c h n i q u e so fPROCNLMIXED. They v a r i a b l eg i v e nt h erandome f f e c t s . PROCNLMIXED d e s c r i b eandcompares e v e r a ld i f f e r e n ti n t e g r a t e d enablesyout os p e c i f ysuchad i s t r i b u t i o nbyu s i n g l i k e l i h o o da p p r o x i m a t i o n sandp r o v i d eevidencet h a t e i t h e rakeywordf o ras t a n d a r dform( n o r m a l, a d a p t i v eGaussianq u a d r a t u r ei soneo ft h eb e s t b i n o m i a l,P o i s s o n )o rSASprogrammings t a t e m e n t s methods. D a v i d i a nandG a l l a n t( 1 9 9 3 )a l s ouse t os p e c i f yag e n e r a ld i s t r i b u t i o n Gaussianq u a d r a t u r ef o rn o n l i n e a rmixedmodels, a l t h o u g ht h esmoothnonparametricd e n s i t yt h e y PROCNLMIXEDf i t st h es p e c i f i e dn o n l i n e a rmixed advocatef o rt h erandome f f e c t si sc u r r e n t l yn o t modelb ymaximizingana p p r o x i m a t i o nt ot h e a v a i l a b l ei nPROCNLMIXED. l i k e l i h o o di n t e g r a t e do v e rt h erandome f f e c t s D i f f e r e n ta p p r o x i m a t i o n st ot h ei n t e g r a la r ea v a i l a b l e, T r a d i t i o n a lapproachest of i t t i n gn o n l i n e a rmixed andt h etwop r i n c i p a lonesa r ea d a p t i v eGaussian modelsi n v o l v eT a y l o rs e r i e sexpansions,expanding q u a d r a t u r eandaf i r s t ‑ o r d e rT a y l o rs e r i e s arounde i t h e rz e r oo rt h ee m p i r i c a lb e s tl i n e a r a p p r o x i m a t i o n . Youcanuseav a r i e t yo fa l t e r n a t i v e unbiasedp r e d i c t i o n so ft h erandome f f e c t s . The o p t i m i z a t i o nt e c h n i q u e st oc a r r yo u tt h e formeri st h eb a s i sf o rt h ewell‑knownf i r s t ‑ o r d e r m a x i m i z a t i o n ;t h ed e f a u l ti sad u a lquasi‑Newton methodo fB e a landSheiner(1982,1988)and a l g o r i t h m ii simplementedi n S h e i n e randB e a l( 1 9 8 5 ),andt PROCNLMIXED. Thel a t t e ri st h eb a s i sf o rt h e n H υ ハ hu q o
e s t i m a t i o nmethodo fLindstromandBates( 1 9 9 0 ), i r e c tanalogt ot h eREMLmethodi s f o r m u l a t i o n,nod andi ti sn o ta v a i l a b l ei nPROCNLMIXED. However, a v a i l a b l ei nPROCNLMIXED;o n l ystandard t h ec l o s e l yr e l a t e dL a p l a c i a napproximationi s I k e l i h o o di su s e d . Also,PROCMIXED maximumi a v a i l a b l e ;i ti se q u i v a l e n tt oa d a p t i v eGaussian assumest h ed a t at oben o r m a l l yd i s t r i b u t e d, . tThe quadraturew i t ho n l yonequadraturep o i n whereasPROCNLMIXEDenablesyout oana切ze L a p l日c i a napproximationandi t sr e l a t i o n s h i pt ot h e d a t at h a ta r enormal,b i n o m i a l,o rPoissono rt h a t L indstrom‑BatesmethodarediscussedbyBealand haveanyl i k e l i h o o dprogrammablew i t hSAS 1 9 9 3 ),Vonesh(1992, Sheiner( 1 9 9 2 ),Wolfinger( statements 1996),andWolfingerandL in( 1 9 9 7 ) . PROCNLMIXEDdoesn o timplementt h esame Ap a r a l l e ll i t e r a t u r ee x i s t si nt h eareao fg e n e r a l i z e d e s t i m a t i o ntechniquest h a tarea v a i l a b l ew i t ht h e i I nearmixedmodels,i nwhichrandome f f e c t sappear NL lNMIXandGL lMMIXmacros. Thesemacrosare I nearp r e d i c t o ri n s i d eo fai I nk asap a r to ft h ei indstromand basedont h ee s t i m a t i o nmethodso fL f u n c t i o n .T a y l o r ‑ s e r i e smethodst h a tares i m i l a rt o Bates( 1 9 9 0 ),BreslowandC l a y t o n( 1 9 9 3 ),and thosej u s td e s c r i b e da r ediscussedi na r t i c l e ssuch h e yi t e r a t i v e l y W o l f i n g e randO'Connell( 1 9 9 3 ),andt asH a r v i l l eandMee( 1 9 8 4 ),S t i r a t e l l i,L a i r d,and f i tas e to fg e n e r a l i z e de s t i m a t i n gequations( r e f e rt o Ware( 1 9 8 4 ),Gilmour,Anderson,andRae( 1 9 8 5 ), Chapters1 1and12o fL it t e l le ta . l1996andt o G o l d s t e i n( 1 9 9 1 ),S c h a l l( 1 9 9 1 ),EngelandKeen W o l f i n g e r1 9 9 7 ) .I nc o n t r a s t,PROCNLMIXED ( 1 9 9 2 ),BreslowandC l a y t o n( 1 9 9 3 ),Wolfingerand d i r e c t l ymaximizesanapproximatei n t e g r a t e d O'Connell( 1 9 9 3 ),andM c G i l c h r i s t( 1 9 9 4 ),b u tsuch l i k e l i h o o d . methodshaven o tbeenimplementedi nPROC NLMIXEDbecauset h e ycanproduceb i a s e dr e s u l t s PROCNLMIXEDhasc l o s et i e sw i t ht h eNLP i nc e r t a i nb i n a r yd a t as i t u a t i o n s(Rodriguezand procedurei nSAS/OR ⑧ s o代ware.PROCNLMIXED inandBreslow1996).Instead,a Goldman1995,L usesasubseto ft h eo p t i m i z a t i o ncodeu n d e r l y i n g numericalquadratureapproachi sa v a i l a b l ei nPROC PROCNLPandhasmanyo ft h esameo p t i m i z a t i o n ‑ NLMIXED,asdiscussedi nP i e r c eandSands( 1 9 7 5 ), basedo p t i o n s . Also,t h eprogrammingstatement AndersonandA i t k i n( 1 9 8 5 ),CrouchandSpiegelman f u n c t i o n a l i t yt h a ti susedbyPROCNLMIXEDi st h e 1 9 9 4 ),Longford ( 1 9 9 0 ),HedekerandGibbons( sameast h a tusedbyPROCNLPandt h eMODEL 1 9 9 4 ),L iuandPierce(1994), ( 1 9 9 4 ),McCulloch( 代w are. procedurei nSAS/ETS@so andD i g g l e,L i a n g,andZeger( 1 9 9 4 ) . lNEARGROWTHCURVESWITH NONL GAUSSIANDATA PROCNLMIXEDCOMPAREDWITHOTHERSAS PROCEDURESANDMACROS o n s i d e rt h eoranget r e ed a t a Asourf i r s texample,c Themodelsf i tbyPROCNLMIXEDcanbeviewedas o fDraperandSmith( 1 9 8 1 ) . Thesed a t ac o n s i s to f sevenmeasurementso ft h et r u n kcircumference( i n g e n e r a l i z a t i o n so ft h erandomc o e f f i c i e n tmodelsf i t byt h eMIXEDp r o c e d u r e . Thisg e n e r a l i z a t i o na l l o w s m i l l i m e t e r s )oneacho ff i v eoranget r e e s .Youcan i n p u tthesed a t ai n t oaSASd a t as e tasf o l l o w s : t h erandomc o e f f i c i e n t st oe n t e rt h emodel nPROCMIXEDt h e ye n t e r n o n l i n e a r l y,whereasi data treei input tree day Yi datalines; l i n e a r l y . Becauseo ft h i sg e n e r a ln o n l i n e a r ‑370‑
1 118
1 484
工 664
1 1004
1 1231
工 1372
1 1582
2 118
2 484
2 664
2 1004
2 1231
2 1372
2 1582
3 118
3 484
3 664
3 1004
3 1231
3 1372
3 1582
4 118
4 484
4 664
4 1004
4 1231
4 1372
4 1582
5 118
5 484
5 664
5 1004
5 1231
5 1372
5 1582
run;
Lindstromand8ates(
1
9
9
0
)andP
i
n
h
e
i
r
oand8ates
30
58
87
115
120
142
145
33
69
111
156
172
203
203
30
51
75
108
115
139
140
32
62
112
167
179
209
214
30
49
81
125
142
174
177
(
1
9
9
5
)proposet
h
ef
o
l
l
o
w
i
n
gl
o
g
i
s
t
i
cn
o
n
l
i
n
e
a
rmixed
modelf
o
rthesed
a
t
a
:
y"=
ゲ
b,+
u.,
'‑'‑‑‑‑‑+e
I+exp[一(
d
ゲ
b
J ゲ
2)/b
ι
Here,Y
i
jrepresentsthej
t
hmeasurementont
h
eJ
th
t
r
e
e(
戸 1,
.
.
.
,5
;j
=1,ー,
7
)
;d
i
ji
st
h
ecorrespondingd
a
y
;
b1,b2,b3a
r
et
h
ef
i
x
e
d
‑
e
f
f
e
c
l
sparameters;Uila
r
et
h
e
r
a
n
d
o
m
‑
e
f
f
e
c
tparametersassumedt
obei
i
d
N(O,
d
'
u
),
ande
i
jaret
h
er
e
s
i
d
u
a
le
r
r
o
r
sassumedt
o
d
'
e
)andindependento
ft
h
eUil. T
h
i
s
bei
i
dN(O,
modelhasal
o
g
i
s
t
i
cform,andt
h
er
a
n
d
o
m
‑
e
f
f
e
c
t
n
t
e
rt
h
em
o
d
e
l
l
i
n
e
a
r
l
y
.
parametersUile
ThePROCNLMIXEDstatementst
of
i
tt
h
i
sn
o
n
l
i
n
e
a
r
mixedmodela
r
easf
o
l
l
o
w
s
:
proc nlmixed data=tree;
冨a b1=190 b2=700 b3=350 s
2u=1000
par
s2e=60;
num = bl+ul:
ex = exp(ー (day‑b2)/b3);
den :
. 1 + eXi
s2e);
model y ‑ normal{num/den,
random ul ‑ normal(O,
s2u) subject=tree;
run;
Thef
o
l
l
o
w
i
n
gi
sap
l
o
to
ft
h
ep
r
o
f
i
l
e
so
ft
h
et
r
e
e
s
Eachp
r
o
f
i
l
ehasaf
l
a
t
l
i
s
hSshape,andbetween‑tree
ThePROCNLMIXEDstatementinvokest
h
e
v
a
r
i
a
b
i
l
i
l
yi
n
c
r
e
a
s
e
sw
i
t
hd
a
y
s
.
procedureandi
n
p
u
t
st
h
eTREEdatas
e
!
. The
PARMSstatementi
d
e
n
t
i
f
i
e
st
h
eunknown
Y
250
h
e
r
e
parametersandt
h
e
i
rs
t
a
r
t
i
n
gv
a
l
u
e
s
. Here,t
a
r
et
h
r
e
ef
i
x
e
d
‑
e
f
f
e
c
t
sparameters(
8
1,82,83)and
200
twov
a
r
i
a
n
c
ecomponents(S2U,S2E).
1
5
0
Then
e
x
tt
h
r
e
estatementsa
r
eSASprogramming
statementss
p
e
c
i
f
y
i
n
gt
h
el
o
g
i
s
t
i
cmixedmode
.
lA
1
0
0
newv
a
r
i
a
b
l
eU1i
si
n
c
l
u
d
e
dt
oi
d
e
n
t
i
f
yt
h
erandom
e
f
f
e
c
!
. Thesestatementsareevaluatedf
o
revery
50
。
。
o
b
s
e
r
v
a
t
i
o
ni
nt
h
edatas
e
twhenPROCNLMIXED
computest
h
ei
n
t
e
g
r
a
t
e
dl
o
gl
i
k
e
l
i
h
o
o
df
u
n
c
t
i
o
nand
400
800
1
2
0
0
i
t
sd
e
r
i
v
a
t
i
v
e
s
1600
day
371
TheMODELstatementd e f i n e st h edependent The"Dimensions"t a b l el i s t sv a r i o u scountsr e l a t e d v a r i a b l eandi t sc o n d i t i o n a ld i s t r i b u t i o ng i v e nt h e n c l u d i n gt h enumbero fo b s e r v a t i o n s, t ot h emodel,i randome f f e c t s . Hereanormal(Gaussian) s u b j e c t s,andp a r a m e t e r s . Theseq u a n t i t i e sa r e c o n d i t i o n a ld i s t r i b u t i o ni ss p e c i f i e dw i t hmean u s e f u lf o rcheckingt h a tyouhaves p e c i f i e dyourd a t a NUM/DENandv a r i a n c eS2E s e tandmodelc o r r e c t l y . Alsol i s t e di st h enumbero f q u a d r a t u r ep o i n t st h a tPROCNLMIXEDhass e l e c t e d TheRANDOMstatementd e f i n e st h es i n g l erandom basedont h ee v a l u a t i o no ft h el o gl i k e l i h o o da tt h e e f f e c tt obeU1,ands p e c i f i e st h a ti tf o l l o w sanormal s t aばi n gv a l u e so ft h ep a r a m e t e r s . Here,o n l yone d i s t r i b u t i o nw i t hmean0andv a r i a n c eS2U. The q u a d r a t u r ep o i n ti snecessarybecauset h erandom‑ SUBJECT=argumentd e f i n e sav a r i a b l ei n d i c a t i n g e f f e c tparameterse n t e rt h emodell i n e a r l y . f f e c to b t a i n snewr e a l i z a t i o n s ;i n whent h erandome 且e ters Para t h i scase,t ichangesa c c o r d i n gt ot h ev a l u e so ft h e TREEv a r i a b l e . PROCNLMIXEDassumest h a tt h e b1 b2 b3 i n p u td a t as e ti sc l u s t e r e da c c o r d i n gt ot h el e v e l so f 190 700 350 s2u 1000 s2e NegLogLlke 60 132.491787 t h eTREEv a r i a b l e ;t h a ti s,a l lo b s e r v a t i o n sfromt h e samet r e eoccurs e q u e n t i a l l yi nt h ei n p u td a t as e t The"Parameters"t a b l el i s t st h eparameterst obe e s t i m a t e d,t h e i rs t a r t i n gv a l u e s,andt h en e g a t i v el o g Theo u t p u tfromt h i sa n a l y s i si sasf o l l o w s . l i k e l i h o o de v a l u a t e da ttheses t a r t i n gv a l u e s . The NLM工XED Procedure 工terations Specifications Y Norma1 u1 Normal tree Dua1 Quasi‑ Newton Adaptive Gaussian Quadrature コ FU 3azr ︑ 司︐ Estimation Method 工ter Ca11s NegLogLike WORK.TREE 司自晶司︐ Data Set Dependent Variab1e Distribution for Dep Variab1e Random Effects Distribution for Random Effects Subject Variab1e Optimization Technique Diff MaxGrBd 4 131.686742 0.805045 0.010~59 6 131.6446 0.042082 0.01 783 8 131.614077 0.030583 0.009809 10 131.57252 0.04155 0.0011日6 11 131.571895 0.000627 O.OOO~ 13 131.571889 5.549E・6 0.00009 15 131.57188 1.096E・ 6 6.097E・ 6 Slope ‑0.633 ・0.0182 ・0.02796 ・0.01344 ・0 .00121 ・7 .68E‑6 ・1.29E‑6 NOTE: GCQNV convergence criterion satisfied. The" I t e r a t i o n s "t a b l er e c o r d st h eh i s t o r yo ft h e The S p e c i f i c a t i o n s "t a b l el i s t ssomeb a s i c m i n i m i z a t i o no ft h en e g a t i v el o gl i k e l i h o o d . Foreach i n f o r m a t i o naboutt h en o n l i n e a rmixedmodelt h a t a l u e sa r e i t e r a t i o no ft h equasi‑Newtono p t i m i z a t i o n,v youhaves p e c i f i e d .I n c l u d e da r et h ei n p u td a t as e t, l i s t e df o rt h enumbero ff u n c t i o nc a l l s .t h ev a l u eo f dependentands U b j e c tv a r i a b l e s,randome f f e c t s, t h en e g a t i v el o gl i k e l i h o o d,t h ed i f f e r e n c efromt h e r e l e v a n td i s t r i b u t i o n s,andt y p eo fo p t i m i z a t i o n . p r e v i o u si t e r a t i o n,t h ea b s o l u t evalueo ft h el a r g e s t g r a d i e n t,andt h es l o p eo ft h esearchd i r e c t i o n . The Dimensions 2J ︑3 r司 E J n uコ r コ ︐ コ ム r噌 Observations Used Observations Not Used Total Observations S由 jects Max Obs Per S由 ject Parameters Quadrature points n o t ea tt h ebo t !omo ft h et a b l ei n d i c a t e st h a tt h e a l g o r i t h mhasconvergeds u c c e s s f u l l ya c c o r d i n gt o t h eGCONVconvergencec r i t e r i o n,as t a n d a r d c r i t e r i o ncomputedu s i n gaq u a d r a t i cformi nt h e g r a d i e n tandi n v e r s eH e s s i a n . ‑372‑
t
h
ef
i
r
s
t
‑
o
r
d
e
rmethod(
s
p
e
c
i
f
yMETHOD=FIROi
n
Fitting Information
‑2 Log Like1ihood
AIC (sma11er is better)
BIC (8ma11er i8 better)
Log Like1ihood
AIC (larger i8 better)
BIC (larger i8 better)
t
h
ePROCNLMIXEDs
t
a
t
e
m
e
n
t
)
.
263.1
273.1
271.2
‑131.6
‑136.6
‑135.6
LOGISTIC‑NORMALMODELWITHBINOMIAL
DATA
Oursecondexampleconcernst
h
ed
a
t
afromB
e
i
t
l
e
r
The"
F
i
t
t
i
n
gI
n
f
o
r
m
a
t
i
o
n
"t
a
b
l
el
i
s
t
st
h
ef
i
n
a
l
e
p
r
e
s
e
n
tr
e
s
u
l
t
sfroma
andL
a
n
d
i
s(
1
9
8
5
),whichr
maximizedv
a
l
u
eo
ft
h
el
o
gl
i
k
e
l
i
h
o
o
dasw
e
l
last
h
e
m
u
l
t
i
c
e
n
t
e
rc
l
i
n
i
c
a
lt
r
i
a
li
n
v
e
s
t
i
g
a
t
i
n
gt
h
er
e
s
u
l
t
so
f
i
n
f
o
r
m
a
t
i
o
nc
r
i
t
e
r
i
ao
fAkaikeandSchwarzi
ntwo
twot
o
p
i
c
a
lcreamt
r
e
a
t
m
e
n
t
s(
a
c
t
i
v
edrug,c
o
n
t
r
o
l
)i
n
d
i
f
f
e
r
e
n
tf
o
r
m
s
. Theses
t
a
t
i
s
t
i
c
scanbeusedt
o
c
u
r
i
n
gani
n
f
e
c
t
i
o
n
. Foreacho
fe
i
g
h
tc
l
i
n
i
c
s,t
h
e
compared
i
f
f
e
r
e
n
tn
o
n
l
i
n
e
a
rmixedmodels
numbero
ft
r
i
a
l
sandf
a
v
o
r
a
b
l
ec
u
r
e
sa
r
er
e
c
o
r
d
e
df
o
r
.
tTheSASdataseti
sasf
o
l
l
o
w
s
.
eachtreatmen
Para
且 eter Esti
m
.
ates
data infection;
input c1inic t x n;
datalines;
1 1 11 36
1 0 10 37
2 1 16 20
2 0 22 32
3 1 14 19
3 0 7 19
4 1 2 16
4 0 1 17
5 1 6 17
5 0 0 12
6 1 1 11
6 0 0 10
711 5
70 1 9
81 4 6
80 6 7
run;
Standard
t
Par四 eter RBtimate
Error DF Value Pr > Itl
b1
b2
b3
s2u
82e
且 eter Alpha
para
0.0003
<.0001
0.0002
0.1974
0.0179
4 12.27
4 20.65
4 12.85
4 1.54
4 3.87
192.05 15.6473
727.90 35.2472
348.07 27.0790
999.88 647.44
61.5139 15.8831
Lower
Upper Gradient
66666
‑
‑‑‑‑
papap p a p
﹃
弓
9
︒
値
49142
5 8 ・8 9
la 4 r
.no
・・
︑3 ・
15‑2
守︐司ふ
nupbkdRd ﹃la
Rd 守 ︐ 内4A‑zkv
q600a‑E
‑‑‑‑‑
RdR42J 守'R4
32290
︑
4
内
・
la
・・・・司ム
‑﹃
司
4 守︐ a
‑
E
守' Q d
守︐守︐
laa‑Eoonu 3
﹃
pbnuau 守'kd
﹃
oonu
2J
・
凋lapb 司4
‑‑‑‑‑
RdkdkdkdRd
nununununu
nununununu
﹃
ue
laq62J 勺 & 内4
bbbgg
The ParameterE
s
t
i
m
a
t
e
s
"t
a
b
l
el
i
s
t
st
h
emaximum
l
i
k
e
l
i
h
o
o
de
s
t
i
m
a
t
e
so
ft
h
ef
i
v
eparametersandt
h
e
i
r
approximates
t
a
n
d
a
r
de
r
r
o
r
scomputedu
s
i
n
gt
h
e
Supposenijdenotest
h
enumbero
ft
r
i
a
l
sf
o
rt
h
ei
t
h
f
i
n
a
lHessianm
a
t
r
i
x
. Approximatetv
a
l
u
e
sand
c
l
i
n
i
candt
h
e
f
t
ht
r
e
a
t
m
e
n
t(
i
=1,
.
.
.
,8
;
j
=
0,
1
),andXij
Wald‑typec
o
n
f
i
d
e
n
c
el
i
m
i
t
sa
r
ea
l
s
op
r
o
v
i
d
e
d,w
i
t
h
t
h
ecorrespondingnumbero
ff
a
v
o
r
a
b
l
ec
u
r
e
s
. Then
degreeso
ffreedome
q
u
a
lt
ot
h
enumbero
fs
u
b
j
e
c
t
s
areasonablemodelf
o
rt
h
ep
r
e
c
e
d
i
n
gd
a
t
ai
st
h
e
minust
h
enumbero
frandome
f
f
e
c
t
s
.Yous
h
o
u
l
d
f
o
l
l
o
w
i
n
gl
o
g
i
s
t
i
cmodelw
i
t
hrandome
f
f
e
c
t
s
:
、
/
ぺ pゲ)
i
n
t
e
r
p
r
e
ttheses
t
a
t
i
s
t
i
c
sc
a
u
t
i
o
u
s
l
yf
o
rv
a
r
i
a
n
c
e
Xゲ1
1
1,‑8inomial(
parametersl
i
k
eS2UandS2Ebecauset
h
e
i
r
samplingd
i
s
t
r
i
b
u
t
i
o
n
st
e
n
dt
obeskewed. Thef
i
n
a
l
札 =loglJJ=Po+PItytt
J
-~ (
l̲p,
) 'V " J
columni
nt
h
eo
u
t
p
u
ti
st
h
eg
r
a
d
i
e
n
tv
e
c
t
o
ra
tt
h
e
o
p
t
i
m
i
z
a
t
i
o
ns
o
l
u
t
i
o
n
. Eachelementappearst
obe
Then
o
t
a
t
i
o
n~. i
n
d
i
c
a
t
e
st
h
ef
t
ht
r
e
a
t
m
e
n
t,andt
h
e仏
s
u
f
f
i
c
i
e
n
t
l
ys
m
a
l
lt
oi
n
d
i
c
a
t
eas
t
a
t
i
o
n
a
r
yp
o
i
n
.
t
a
r
eassumedt
obei
i
dN(O,,
du)
Sincet
h
er
a
n
d
o
m
‑
e
f
f
e
c
tparameterse
n
t
e
rt
h
emodel
Theobservedl
o
goddsp
r
o
f
i
l
ef
o
reachc
l
i
n
i
ci
s
l
i
n
e
a
r
l
y,youcano
b
t
a
i
ne
q
u
i
v
a
l
e
n
tr
e
s
u
l
t
sbyu
s
i
n
g
d
i
s
p
l
a
y
e
di
nt
h
ef
o
l
l
o
w
i
n
gf
i
g
u
r
e
. Thel
o
goddsa
r
e
ヴ
t
qu
qu
d i s p l a y e das‑5f o rc l i n i c s5and6a tt h e0t r e a t m e n t binomia . lTheRANDOMstatementd e f i n e sUt obe l e v e l,a l t h o u g ht h ea c t u a l l o goddsa r e ∞ Thelog t h erandome f f e c tw i t hs u b j e c t sd e f i n e dbyt h e oddsi n c r e a s efromt h e0t o1l e v e lo ft h et r e a t m e n t lNICv a r i a b l e . CL h e i na l ib u tonec l i n i c( c l i n i c8 ),sowewouldexpectt e s t i m a t eo fβ 1t obep o s i t i v e ThePREDICTstatementc o n s t r u c t sp r e d i c t i o n sf o r eacho b s e r v a t i o ni nt h ei n p u tdatase . t Fort h i s l o g o d d s 3 example,p r e d i c t i o n so fn jareo u t p u tt oaSASd a t a s e tnamedETA . Thesep r e d i c t i o n sa r el i n e a r f u n c t i o n so ft h ee m p i r i c a lBayese s t i m a t e so ft h e randome f f e c t sUj.TheESTIMATEstatement r e q u e s t sane s t i m a t eo ft h er e c i p r o c a lo fβ 7・ Theo u t p u tf o rt h i smodeli sasf o l l o w s ‑3 The NLMIXED Procedure Specifications RU 。 Data Set WORK. INFECTION x ThePROCNLMIXEDstatementst of i tt h el o g i s t i c ‑ Dependent Variable Distribution for Dep Variable Random Effects Distribution for Random Effects Subject Variable Optimization Technique normalmodelt othesed a t aa r easf o l l o w s : Estimation Method t r e a t m e n t The S p e c i f i c a t i o n s "t a b l ep r o v i d e sb a s i ci n f o r m a t i o n aboutt h en o n l i n e a rmixedmodel Dimensions procedure,andt h ePARMSstatementd e f i n e st h e 内 4 ThePROCNLMIXEDstatementi n v o k e st h e l a Observations Used Observations Not Used Total Observations S由 jects Max Obs Per Subject Parameters Quadrature points run; 可ム苛 ・ ︐ bnuFbau proc nlmixed data=infectioni parms betaO=‑l betal=l s2u=2; eta = betaO + betal*t + u; expeta = exp(eta); p = expeta/(l+expeta); model x ‑ binomial(n, p); s2u) random u ‑ normal(O, subject=clinic; predict eta out=eta; estimate '1/betal l/betal; Binomial u Normal clinic Dual Quasi‑ Newton Adaptive Gaussian Quadrature parametersandt h e i rs t a r t i n gv a l u e s . Reasonable s t a r t i n gv a l u e ssuchasthesecano f t e nbeo b t a i n e d byf i 杭i n gas i m p l e rmodel The Dimensions.t a b l ep r o v i d e scountso fv a r i o u s v a r i a b l e s .Yous h o u l dcheckt h i st a b l et omakesure t h ed a t as e tandmodelhavebeenenteredp r o p e r l y . Then e x tt h r e estatementsc o n s t r u c tt h ev a r i a b l ePt o PROCNLMIXEDs e l e c t sf i v equadraturep o i n t st o h eMODELstatement correspondt ot h ep~ , andt achievet h ed e f a u l taccuracyi nt h el i k e l i h o o d d e f i n e st h ec o n d i t i o n a ld i s t r i b u t i o no fXjt obe c a l c u l a t i o n s . ‑374
The"ParameterEstimates"t a b l ei n d i c a t e smarginal Parameters b e t a O beta1 ‑1 1 8 2 u s i g n i f i c a n c eo ft h etwof i x e d ‑ e f f e c t sparameters. The NegLogLike p o s i t i v evalueo ft h eestimateo fβ 1indicatest h a tt h e 37.5945925 treatments i g n i f i c a n t l yincreasest h echanceo fa The"Parameters"t a b l el i s t st h es 畑仕i n gp o i n to ft h e f a v o r a b l ecure o p t i m i z a t i o n . Additional Estimates Iterations I t e rC a 1 1 s NegLogLike L a b e 1 S l o p e Diff MaxGrad t Standard Estimate Error DF Value Pr > I t l 2356791 1 勺'・ 可・ 1/beta1 2J 可 目 晶 ︐ 司 ERJED 凋 舗 37.3622692 0.232323 2.882077 ‑19.3762 37.1460375 0.216232 0.921926 ‑0.82852 37.0300936 0.115944 0.315897 ‑0.59175 37.0223017 0.007792 0.01906 ‑0.01615 37.0222472 0.000054 0.001743 ‑0.00011 . 5 7 8 ‑ 7 0.000091 ‑1.288‑6 37.0222466 6 37.0222466 5.388‑10 2.0788‑6 ‑1.18‑9 1.3 5 4 2 0.5509 7 2 . 4 6 A1pha Lower Upper 0.05 0.05146 2 . 6 5 6 9 0.0436 d d i t i o n a lEstimates"t a b l ed i s p l a y sr e s u l t s The A N O T E : GCONVconvergence criterion s a t i s f i e d . . tTheestimateof1 / β 7 fromt h eESTIMATEstatemen equals1/0.7385ニ 1.3542andi t sstandarde r r o r 2 equals0.3004/0.7385= 0.5509byt h ed e l t amethod The" I t e r a t i o n s "t a b l ei n d i c a t e ss u c c e s s f u l convergencei nseveni t e r a t i o n s . ( B i l l i n g s l e y1 9 8 6 ) . Notet h i spa円i c u l a rapproximation s t a t i s t i ct h a ti si d e n t i c a lt ot h a tf o rt h e producesat Fitting I n f omation 玄 2Log Like1ihood AIC ( s m a 1 1 e ri 8b e t t e r ) B I C( s m a 1 1 e ri 8b e t t e r ) Log Likelihood AIC ( l a r g e ri 8b e t t e r ) BIC ( l a r g e ri 8b e t t e r ) 1i t s e l f estimateo fβ 74.0 80.0 80.3 ‑37.0 ‑40.0 ‑40.1 ー Notshowni st h eETAdatas e t,whichc o n t a i n st h e o r i g i n a l16observations,p r e d i c t i o n so ft h enij,and associateds t a t i s t i c s The" F i t t i n gI n f o r m a t i o n "t a b l el i s t ssomeu s e f u l s t a t i s t i c sbasedont h emaximizedvalueo ft h el o g l i k e l i h o o d SYNTAX T h i ss e c t i o np r o v i d e sanoverviewo ft h estatements Parameter Estimates t h a ta r ea v a i l a b l ei nPROCNLMIXEDandsomeo f Standard t Parameter Estimate Error DFVa1ue P r> I t l t h e i rkeyo p t i o n s . Mored e t a i l sanda d d i t i o n a lo p t i o n s betaO beta1 8 2 u 縄1.1 9 7 4 0.5561 0.7385 0.3004 1.9 5 9 1 1.1903 Para 皿e t e r A1pha betaO beta1 s 2 u 0.05 0.05 0.05 7‑ 2 . 1 5 7 2 . 4 6 7 1.6 5 0.0683 0.0436 0.1438 Upper Gradient ‑ 2 . 5 1 2 3 0.1175 1.4 4 8 8 4.7736 ‑2.088‑6 Lower 0.02806 ‑0.8554 a r ep r o v i d e di nt h ecompletedocumentation referencedi nt h eCONTACTINFORMATIONs e c t i o n a tt h eendo ft h i spaper PROCNLMIXEDoplions; ‑ 3 . 1 E ‑ 7 T h i ss t a t e m e n ti n v o k e st h ep r o c e d u r e . Al a r g en u m b e r0 1o p t 旧n s 1t h em o s ti m p o r t a n to n e s a r ea v a i l a b l e ;t h el o l l o w i n ga r esome0 ‑ 2 . 4 8 8 ‑ 7 F h U 7 HO
[ De xpressions; ALPHA=s p e c i f i e st h ea[pha[ e v e [usedt ocomputets t a t i s t i c s andi n t e r v a [ s . The[ Dstatementi d e n t i f i e sa d d i t i o n a [q u a n t i t i e st obei n c [ u d e di n t h eOUT=datas e t0 1a [ [PRED[CTstatements COVrequestst h eapproximatecovariancem a t r i xl o rthe parametere s t i m a t e s . ependent‑variable‑d i s t r i b u t i o n ; MODELd 1the CORRrequestst h eapproximatec o r r e [ a t i o nm a t r i x0 parameterestimates TheMODELstatements p e c i f i e st h edependentv a r i a b [ eandi t s c o n d i t i o n a [d i s t r i b u t i o ngivent h erandome f f e c t s .V a l i d v ),B[NARY(p), d i s t r i b u t i o n a [lormsareNORMAL(m, B[NOM[AL(n, p ),PO[SSON(m),andGENERAL([[) . t DATA=s p e c i f i e st h ei n p u tdatase ECOVrequestst h eapproximatecovariancem a t r i xl o ra [ [ q u a n t i t i e ss p e c i f i e di nEST[MATEstatements. PARMS<name̲ l i st [ =numbers]>; ECORRrequestst h eapproximatecovariancem a t r i xl o ra [ [ q u a n t i t i e ss p e c i f i e di nEST[MATEstatements. ThePARMSstatements p e c i f i e sparameternamesandt h e i r s t a r t i n gva[ues FDrequestsf i n i t ed i f f e r e n c ed e r i v a t i v e s ,t PREDICTexpressionOUT=SAS‑data‑se GCONV=s p e c i f i e st h er e [ a t i v eg r a d i e n tconvergencec r i t e r i o n . ThePRED[CTstatementenab[esyout oc o n s t r u c tp r e d i c t i o n sl o r . t MultiplePREDICT everyo b s e r v a t i o ni nt h ei n p u tdatase statementsa r ea [ [ o w e d . HESSrequestst h ed i s p [ a y0 1thef i n a [Hessianm a t r i x [TDETA[LSrequestsamored e t a i [ e di t e r a t i o nh i s t o r y andom‑effects d i s t r i b u t i o nSUBJECT=variable RANDOMr MAX[TER=s p e c i f i e st h emaximumnumber0 1i t e r a t i o n s 句 o p t i o n s ; METHOD=s p e c i f i e st h emethodl o rapproximatingt h ei n t e g r a [ t h e overt h erandome f f e c t s .V a [ i dva[uesareF[RO,GAUSS( d e l a u [ t ),HARDY,and[SAMP TheRANDOMstatements p e c i f i e stherandome f f e c t sandt h e i r d i s t r i b u t i o n . Theo n [ yc u r r e n t l ya v a i l a b [ ed i s t r i b u t i o ni sNORMAL TheSUBJECT=arguments p e c i f i e sav a r i a b l ei n d i c a t i n g 旧 ni sOUT=,g i v i n gaSASdatas e tnamet o s u b j e c t s . Oneo p t c o n t a i ne m p i r i c a lBayesestimates0 1therandome f f e c t s Examp[estatementsa r easl o [ [ o w s 1quadraturepointsl o reach QPO[NTS=s p e c i f i e st h enumber0 randome f f e c t dom u ‑ normal(O, s2u) subject=clinic; ど担 1thesta円i n ggradien . t STARTrequestst h ep r i n t o u t0 由a l([ 0,0 ],[s2bl,cb12,B2b2]) random bl b2 ‑ nor TECH=s p e c i f i e st h eo p t i m i z a t i o nt e c h n i q u e .V a [ i dva[uesare CONGRA,DBLDOG,NMS[MP,NONE,NEWRAP,NRR[DG, QUANEW( t h ed e l a u l t ),andTRUREG. subject=person out=eb; ProgramStatements 庁a yname; ARRAYa t StandardSASprogrammingstatementsenableyout oconst山 c 1nonlinearmode[s. Besidesusua[assignment awidev a r i e t y0 andmathematicall u n c t i o nstatements,youmaya [ s ouseCALL, DO,GOTO,[ F,PUT,andWHENstatements TheARRAYstatementa [ [ o w syout os p e c i f ySASa r r a y s BOUNDSb̲con, [ b̲con]; TheBOUNDSstatementenab[esyout os p e c i f yboundary c o n s t r a i n t sont h eparameters. Examp[estatementsareas l o [ [ o v 唱 OUTPUTTABLENAMES bounds 0 <= al‑a9 X <= 1, ‑1 <= c2‑c5; PROCNLMIXEDusestheVersion7OutputDelivery bounds bl‑blO Y >= 0; use System.Toconvertanytabletoa SASdataset, theO D Sstatementi nthefollowingform: a r i a b l e s ; BYv TheBYstatementinvokesstandardSASBYprocessing ods output table‑na 皿e '=SAS‑data‑set; EST tMATE' I a b e / 'expression; Here, TABLE‑NAMEi soneofthenamesfromthe TheEST[MATEstatementenab[esyout ocomputeana d d i t i o n a [ estimatet h a ti sal u n c t i o n0 1theparameterva[ues. M u l t i p [ e EST[MATEstatementsarea [ [ o w e d . andSAS‑DATA‑SETi sa nameyou tablebelow, . t selectfortheoutputSASdatase ‑376‑
TableName A d d i t i o n a l E s t i m a t e s ConvergenceStatus A ddEst CorrMat CorrMatParmEst A ddEst CovMat CovMatParmE s t Dimensions F i t t i n g Hessian I t e r a t i o n s Parameters ParameterEstimates S p e c i f i c a t i o n s S t a r t i n gHessian S t a r t i n g V a l u e s n o n l i n e a randg e n e r a l i z e dl i n e a rmixedmodelsu s i n g StatementIOption ESTIMATE d e f a u l t ECORR CORR ECOV COV d e f a u l t d e f a u l t HESS d e f a u l t d e f a u l t d e f a u l t d e f a u l t STARTHESS START l i k e l i h o o d ‑ b a s e dmethods. REFERENCES A n d e r s o n,D . A .a n dA i t k i n,M .( 1 9 8 5 ), V a r i a n c eC o m p o n e n t " M o d e l sw i t hB i n a r yR e s p o n s e :I n t e r v i e w e rV a r i a b i l i t y, Joumalo ft h eRoyalS t a t i s t i c a lS o c i e t yB,4 7,2 0 3 ‑ 2 1 0 B e a l,S. L .a n dS h e i n e r,L .B .( 1 9 8 2 ), E s t i m a t i n gP o p u l a t i o n K i n e t i c s, "CRCC r i t .R e v .Biomed.Eng.,8 ,1 9 5 ‑ 2 2 2 . L .a n dS h e i n e r,L . B .( 1 9 8 8 ), H e t e r o s k e d a s t i cN o n l i n e a r B e a l,S R e g r e s s i o n, "T echnometrics,3 0,3 2 7 ‑ 3 3 8 .L .a n dS h e i n e r,L目 。 , e d s .( 1 9 9 2 ),NONMEMUse(s B e a l,S Guide,U n i v e r s i t y0 1C a l i l o r n i a,S a nF r a n c i s c o,NONMEM P r o j e c tG r o u p Tosuppressa l ld i s p l a y e do u t p u t,use . J .a n dL a n d i s,J .R .( 1 9 8 5 ), AM i x e d ‑ e f f e c t sM o d e l B e i t l e r,P "B i o m e t r i c s,4 1,9 9 1 ‑ 1 0 0 0 l o rC a t e g o r i c a lD a t a, o d s exclude a l l ; B i l l i n g s l e y,P .( 1 9 8 6 ),ProbabililyandMeasure,SecondEdition, NewY o r k :J o h nW i l e y& S o n s,I n c anduse t or e d i s p l a yi t B o o t h,J . G .a n dHobe, 円 J . P .( 1 9 9 8 ),S t a n d a r dE r r o r s0 1 P r e d i c t i o ni nG e n e r a l i z e dL in e a rM i x e dM o d e l s, "Joumalo ft h e 3,2 6 2 ‑ 2 7 2 Amen'canS t a t i s t i c a lA s s o c i a t i o n,9 L lMITATIONS B r e s l o w ,N . E .a n dC l a y t o n,D . G .( 1 9 9 3 ),'App r o x i m a t e in e a rM i x e dM o d e l s, "Joumalo ft h e I n l e r e n c ei nG e n e r a l i z e dL 8,9 ‑ 2 5 . AmericanS t a t i s t i c a lA s s o c i a t i o n,8 o d ss e l e c ta l l ; A .C .a n dS p i e g e l m a n,D .( 1 9 9 0 ), T h eE v a l u a t i o n0 1 C r o u c h,E. p p l i c a t i o nt o I n t e g r a l s0 1t h eF o r m ‑f ( / ) e x p (̲ / ')d/:A PROCNLMIXEDi sb e s ts u i t e df o rmodelsw i t ha l s o s i n g l erandome f f e c t,althoughyoucana "Joumalo ft h eAmericanS t a t i s t i c a l L o g i s t i c ‑ n o r m a lM o d e l s, A s s o c i a t i o n,8 5,4 6 4‑ 46 9 s u c c e s s f u l l ycomputei n t e g r a l si ntwoandt h r e e dimensionsaswel . lI na d d i t i o n,youcanusePROC .a n dG a l l a n t,R . A .( 1 9 9 3 ), T h eN o n l i n e a rM i x e d D a v i d i a n,M E f f e c t sM o d e lw i t haS m o o t hRandomE 汗 ' ec t sD e n s i t y, " B i o m e t r i k a,8 0,4 7 5‑ 48 8 NLMIXEDasageneralo p t i m i z a t i o nt o o lbyo m i t t i n g randome f f e c t sa l t o g e t h e r . Problemswhicha r e D a v i d i a n,M .a n dG i l t i n a n,D . M .( 1 9 9 5 ),NonlinearModels f o rRepeatedMeasurementData, NewY o r k :Chapman& H a l l b a d l ys c a l e do rs u f f i c i e n t l yn o i s yw i l ln o tpe斤ormw e l l w i t hPROCNLMIXED. Also,PROCNLMIXED . J .,L ia n g,K . Y .,a n dZ e g e r,S .L .( 1 9 9 4 ), D i g g l e,P A n a l y s i so fL o n g i t u d i n a lData,O x f o r d :C l a r e n d o nP r e s s c u r r e n t l ydoesn o tg e n e r a l l yhandlenestedo r crossedrandome f f e c t s D r a p e r,N . R .a n dS m i t h,H .( 1 9 8 1 ),AppliedRegression s,SecondE d i t i o n,NewY o r k :J o h nW i l e y& S o n s,I n c Ana加 i CONCLUSION E n g e l,B .a n dK e e n,A .( 1 9 9 2 ),' AS i m p l eA p p r o a c hl o rt h e in e a rM i x e dM o d e l s, "L W A ‑ 9 2 ‑ 6, A n a l y s i s0 1G e n e r a l i z e dL A g r i c u l t u r a lM a t h e m a t i c sG r o u p( G L W ‑ D L O ) .W a g e n i n g e n, T h eN e t h e r l a n d s PROCNLMIXED0仔e r saf l e x i b l eandpowe斤u l environmentf o rf i口i n gn o n l i n e a rmixedmodels. I t s . R .,A n d e r s o n,R . D .,a n dRae,A . L .( 1 9 8 5 ),T h e G i l m o u r,A in e a rM i x e dM o d e l, " A n a l y s i s0 1B i n o m i a lD a t ab yG e n e r a l i z e dL B i o m e t r i k a,7 2,5 9 3 ‑ 5 9 9 maincomputingcomponentsa r eaSASenginef o r processingprogrammingstatements,anumerical i n t e g r a t o r,andal i b r a r yo fo p t i m i z a t i o nr o u t i n e s . Theset o o l senableyout of i tmanycommon η ヮ ︐ ヮ ︐ ︒
SheinerL .B .andBealS .L .," E v a l u a t i o no fMethodsf o r E s t i m a t i n gPopulationPharmacokineticParameters. I Michaelis‑MentenModel:RoutineC l i n i c a lPharmacokinetic Data, "JoumalofPharmacokineticsandBiopharmaceutics,8, ( 1 9 8 0 ) 553‑571 G o l d s t e i n,H .( 1 9 9 1 )," N o n l i n e a rM u l t i l e v e lModels,w i t han "B iometrika,78, A p p l i c a t i o nt oD i s c r e t eResponseData, 4 5 ‑ 5 1 . H a r v i l l e,D . A .andMee,R.W.( 1 9 8 4 ), A Mixed‑model " Proceduref o rAnalyzingOrderedC a t e g o r i c a lData, Biometrics,40,393408 Sheiner ,L . B .andBeal,S . L .( 1 9 8 5 ), Pharmacokinetic ParameterEstimatesfromSeveralLeastSquaresProcedures: S u p e r i o r i t yo fExtendedL e a s tSquares, "Joumalo f PharmacokineticsandBiopharmaceutics,13,185‑201 .andGibbons,R. D .(1994),' ARandomE f f e c t s Hedeker,D O r d i n a lRegressionModelf o rM u l t i l e v e lA n a l y s i s, " Biometrics,50,933‑944 S t i r a t e l l i,R .,L a i r d,N.M.,andWare,J . H .( 1 9 8 4 ),"Random E f f e c t sModelsf o rS e r i a lObservationsw i t hB i n a r yResponse, " B i o m e t r i c s,40,9 61‑971. L in,X .andBreslow ,N . E .( 1 9 9 6 ), B i a sC o r r e c t i o ni n in earMixedModelsw i t hM u l t i p l eComponentso f GeneralizedL D i s p e r s i o n, "Joumalo ft h eAmericanS t a t i s t i c a lAssociation, 9 1,1007‑1016. Vonesh,E . F .,( 1 9 9 2 ), N o n l i n e a rModelsf o rt h eAnalysiso f "S t a t i s t i c si nMedicine,1 1,1929‑1954. L o n g i t u d i n a lData, L in dstrom,M . J .andBates,D.M.( 1 9 9 0 ), N o n l i n e a rMixed "B i o m e t r i c s,46, E f f e c t sModelsf o rRepeatedMeasuresData, 673‑687. . F .,(1996), A NoteonL a p l a c e ' sApproximationi n Vonesh,E N o n l i n e a rMixedE f f e c t sModels, "B iometrika,83,447452. L it t e l l,R.C.,M i l l i k e n,G.A.,Stroup,W.W.,andWolfinger,R.D (1996),SASSystemf o rMixedMode/ s , Cary,NC:SASI n s t i t u t e I n c . . F .andC h i n c h i l l i,V.M.( 1 9 9 6 ),L i nearand Vonesh,E NonlinearModelsf o rt h eAnalysisofRepeatedMeasu 舟 m ents, NewYork:MarcelDekker L iu ,O .andP i e r c e,D. A .( 1 9 9 4 ), A NoteonGauss‑Hermite "B iometrika,8 1,624・629 Ouadrature, a p l a c e ' sApproximationf o r WolfingerR . D .( 1 9 9 3 ), L "B iometrika,80,791‑795 N o n l i n e a rMixedModels, Longford,N . T .(1994), L o g i s t i cRegressionw i t hRandom "ComputationalS t a t i s t i c sandDataAnalysis, C o e f f i c i e n t s, 17,1 ・1 5 Wolfinger,R.D.(1997),"Commen : t Experienceswiththe SASMacroNL lNMIX, "S t a t i s t i c si nMedicine, 16,1258‑1259. 1 9 9 4 ), MaximumL ik e l i h o o dVariance McCulloch,C.E.( "Joumaloft h e ComponentsE s t i m a t i o nf o rB i n a r yData, AmericanS t a t i s t i c a lAssociation,89,330‑335 Wolfinger,R.D.,andL in,X .い ( 1 9 ω 9 7 η ),寸 TwoT町 a y l 口 or ‑ s e r 吋 i 氾 e 田s Appr 悶 口x 削I m剖 a t 旧 nM eth口dsf o rN口n l i n e a rMixedMod剖 e l 凶 s 札" ComputationalS t a t i s t i c sandDataAnalysis,25, 465490 M c G i l c h r i s ,t C.E.(1994), Estimationi nGeneralizedMixed "Joumalo ft h eRoyalS t a t i s t i c a lSocietyB,56, Models, 61‑69 1 9 9 3 ), Generalized Wolfinger,R.D.andO'Connell,M.( L in earMixedModels:aPseudo・l i k e l i h o o dApproach, "Joumal o fS t a t i s t i c a lComputationandSimulation,48,233‑243 Ochi,Y .andP r e n t i c e,R .L .(1984),LikelihoodInferencei n "Biometrika,71, aC o r r e l a t e dP r o b i tRegressionModel, 531‑543 A .andSands,B . R .( 1 9 7 5 ), E x t r a ‑ B e r n o u l l iV a r i a t 旧n P i e r c e,D. i nB i n a r yData, "T echnicalReport46,Departmento fS t a t i s t i c s, OregonS t a t eU n i v e r s i t y . C .andBates,D.M.( 1 9 9 5 ),"Approximationst o P i n h e i r o,J t h eL o g ‑ l i k e l i h o o dF u n c t i o ni nt h eNonlinearM i x e d ‑ e f f e c t s Model, "Joumalo fComputationalandGr ョphicalS t a t i s t i c s 4, 1 2 ‑ 3 5 . CONTACTINFORMATION PROCNLMIXEDrequiresVersion7oftheSAS System. Completedocumentationi savailableonthe んv w w .sas.comltechsupldownload/ statli n webathttp:h 守 .( 1 9 9 5 ), AnAssessmento f Rodriguez,G.andGoldman,N E s t i m a t i o nProceduresf o rM u l t i l e v e lModelsw i t hB i n a r y Response, "Joumalo ft h eRoyalS t a t i s t i c a lSocietyA, 158,73‑89 .( 1 9 9 1 ) .E s t i m a t i o ni nGeneralizedL in ear S c h a l l,R Modelsw i t hRandomE f f e c t s, " Biometrika, 78,719‑727 thePostscriptt i [ enlmixed.ps. Youmaysend feedbacktom [email protected]. SAS,SAS/STAT,SAS/ETS,andSAS/ORa r ear e g i s t e r e d trademarkso fSASI n s t i t u t eI n c .i nt h eUSAando t h e rc o u n t r i e s . @ i n d i c a t e sUSAr e g i s t r a t i o n Otherbrandandproductnamesa r er e g i s t e r e dtrademarkso r trademarkso ft h e i rr e s p e c t i v ecompanies ‑378‑
日本 SASユーザー会 (SUGI-~) M u l t i p l eI m p u t a t i o nを行う V e r s i o n8 eの評価版プロシジャについて 小野裕亮 株式会社 SASインスティチュートジャパン テクニカルサポート Introductiont oExpermentalProceduref o rN I u l t i p l eImputationi nVersion8e YusukeOno TechnicalSupportGroup SASI n s t i t u t eJapanL t d . 要旨 概要 今年、米国で開催された SUGIの発表論文(Y u a n . 2 0 0 0)によると、評価版レベルではある e r s i o n 8 . 1の SAS/STATプロダクトに、 3種類の m l l l t i p l ei m p u t a i t o nを行う MIプロシ が 、 V u l t i p l e ‑ i m p u t a t i o ne s t i m a t i o l lを求めるための MIANALYZEプロシジャが新しく追 ジャと、 m 加される。この論文では、それら 2つのプロシジャを紹介する。ここで述べる情報の大部分は、 Y l l a n ( 2 0 0 0 )からのものである。 キーワード : ¥ I u l t i p l eI m p u t a t i o n 1 multipleimputationと は ? t l l l l l t i p l ei m p u t a t i o n( R l l b i n1 9 8 7 )は、不完全データ ( i m c o m p l e t ed a t a )に対する手法の 1つである。 s i n g l ei m p l l t a t i o nとは異なり、不完全データの欠損部分に復数の疑似乱数を補う点が特徴である。主な手 順は下記の通り。 l欠損値部分だけを乱数によって補って、 k個の完全化したデータを作成する。 2 .Lで作成された各データセットから、推定値とその標準誤差(分散共分散行列)を求める。 k個のデー タセットそれぞれから、 H且の推定値とその標準誤差を計算する。 3 .最終的に、 2 .で算出された k組の推定値およびその標準誤差を全部まとめて、点推定や区間推定を行 なう。 このような推定方法は、' mul . t i p l ei m p u t a t i o l le s . t i m a t i o n "などと呼ばれている。 ‑379‑
V e r s i o n 8 . 1の SASjSTATプロダクトでは、 m u l t i p l eimputationを行う評価版プロシジャとして、 MIプ ロシジャおよび MIANALYZEプロシジャが追加される。これらのプロシジャは、先程述べた手順と対応し て以下のように用いる。 1 .MIプロシジャによって、 k個の完全化したデータを作成する。 2 .1.で作成された各データセットから、推定値とその分散共分散を計算する ( k個のデータセットそれぞ れから、 k組の推定値とその分散共分散を計算する)。 3 . 2 .で算出された k組の推定値およびその標準誤差をもとに、 MIANALYZEプロシジ ャによって、最終 的な推定を行なう。 V e r s i o n 8 . 1においては、 MIプロシジャおよび MIANALYZEプロシジャは「評価版 (experiment a l )J とい う位置付けであり、現段階で入手可能な資料は、開発レベルで執筆された Yuan(2000) しかない。 m u l t i p l e imputationの簡単な説明と MIプロシジヤおよび MIANALYZEプロシジャの文法などが同ペーパーに記 載されている。 2 適用場面 MIプロシジャおよび MIANALYZEプロシジャは、欠損値がある不完全データ (imcompleted a t a )から、 モデルパラメータの推定を行うものである。基本的に、データが a)missinga trandom("MAR"と略される) であること、および、 b)欠損構造を規定するパラメータがモデルパラメータと d i s t i n c tであることが必要 とされる。これら 2つの条件が満たされている場合、「欠損が生じるメカニズムは、無視できる ( i g n o r a b l e ) J と言われている。 i g n o r a b l eの仮定が満たされているデータとしては、次のような仔J Iが挙げられる ( S h a f e r, 1 9 9 7 ; p 2 0 ‑ p 2 2 )。 1 .doublesampling p 項目の質問 Y1 , Y2 が決める計画。 ‘ .• ,ちに基づいて、残りの質問項目ち +1 ち +2ぃ・・ ,Yq を聞くかどうかを調査者 2 .未回答部分をフォローアップした場合 ある項目の未回答部分を、未回答者の無作為抽出標本に対して再調査した時。 研究者が意図しなかった回答拒否や途中脱落によって生じた欠損値は、 MARであると証明することは難 しい。ただし、 2番目の例のように、フォローアップ調査によって MAR構造に変えることもできる。 Version6において、 MIプロシジャと MIANALYZEプロシジャと共通点があるのは、一般的な線形混合 モデルの REMLや最尤推定を行う MIXEDプロシジャ (SASjSTATプロダクト)であろう。両方とも、基 g n o r a b l eである場合のみ適用できる手法である。特に、 MCMC法に基づく m u l t i p l e 本的には、欠損構造が i imputationは 、 MIXEDプロシジャで相関構造を無構造 (TYPE=UN) とした時の構造の分析に対応して し 、 る 。 3 MIプロシジャの手法 V e r s i o n 8 . 1の MIプロシジャでは、次の 3つの補完方法がサポートされる。 1.回帰モデルに基づ、く手法 2 .ロジスティックモデ、ルに基づく手法 3 .多変量正規分布を仮定したベイズ流の MCMCに基づく手法 380
3 . 1 monotoneな欠損値構造 m 番目の変数 Y m が欠損となっている時に、すべての l<mにおいておも欠損値になっている場合、欠 .の手法は欠損値構造が単調 (monotone)である時 損構造は monotoneであるとしづ。上記した1.および 2 にだけに適用できる。 3 . 2 回帰モデルに基づく方法 MULTINORMALオプションに METHOD=REGRESSIONを指定すると、回帰モデ.ルに基づ、く乱数に より欠損値を補ってして。この方法では、 Y(m+l) を応答変数、 I番目から m 番目までの変数を説明変数と した次のような回帰モデルを仮定している。 Y (m+l)=so+βlY1+s2Y2+・ ・ +smYm+ε 回帰モテ ルの β0, β1・ ・ ・ ・, smおよび εの分散は、 Y1から Y(m+l) まででがすべて非欠損値であるデータよ り推定される。 m = 1からスター卜していって、欠損部分は順番に乱数によって埋められてし、く。 Y(m+l)の 欠損部分を補う時、れから Y m までの欠損部分は、それ以前のステップによって埋められた値が使われる。 3 . 3 口ジスティックモデルに基づく方法 MULTINORMALオプションに METHOD=PROPENSITYを指定すると、ロジスティック回帰に基 p r o p e n s i t ys c o r emethodと呼ばれている)により欠損値が埋められてし、く。次のような処理を づく方法 ( m =1 ,2 . 3ぃ・・と繰り返すことによって欠損値を埋めてして。 l 変数 Y(m+l)の欠損・非欠損を応答変数とし、 I番目から m 番目までの変数を説明変数としたロジス ティックモデルを推定する o 欠損が生じる確率 pに対して、次式のようなロジスティックモテールを推定 する。 l o g (よ己記L ) =角 +s1Y1+s2九+・・・+smYm 1‑P(m+l) 2 . pの予測値を求めて、その大きさに基づいて幾つかのグループに分ける。 3欠損部分を、同じグループに所属するもので非欠損値のものに無作為に置換える。 3. 4 多変量正規分布を仮定したベイズ流の M C M Cに基づく方法 MULTINORMALオプションに METHOD=MCMCを指定すると、マルコフ連鎖モンテカルロ (Markov C h a i nMonteC a r l o)アルゴリズムにより、疑似乱数を生成して非欠損値を補ってし、く。 MCMC法では、 次のような 2ステップによって、欠損値を補っていく。 l YJJl) を 、 P(Ymisl Y o b s, ( } t )から生成するステップ 平均ー分散共分散のパラメータグと、非欠損データれh の条件付き分布で生成した乱数 y~ti~l) (こよっ て、欠損値を補うステップ t : 2 .( } ( t+l) を 、 P(} ([ Y o b . "Y , よ 1)から生成するステップ sおよび乱数によって非欠損値が埋められたデー 平均分散共分散のパラメータ 8を、非欠損データ九 b タ Yよ?によって生成するステップ 欠損部分を補うステップでは多変量正規分布が使われる。平均および分散共分散パラメータを生成する ステップでは、 V e r s i o n 8 . 1では多変量正規分布に対する Je f f e r yp r i o rが使われている。 ‑381
4 簡単な使用例 4 . 1 データ例 MARの欠損値を含む仮想、の 2変量データから、 MIプロシジャおよび MIANALYZEプロシジャによっ て平均や相関を推定する例を述べる。 下記のようなデータステップによって、変数 xおよび yの 2変数をもっデータセットを、乱数で作成す 直になるようにしている。標本サイズは 100に る。変数 xの値が 0.4より大きなものは、変数 yの値が欠損 f しである。 各変数の母平均は μx二 Oおよび μy二 l 、母分散は σ;‑ 1. lT~ = 3 お (=1+1 .52)である。また、母相 . 8 3 ( =1 .5計)である。 関は約 0 ******糾* s 胡 p le Data ***糾車車材料***; %let n=100; data datal; do i=l to & : n ; x=rannor(12345); y=1+1.5*x+rannor(12345); ユf x>O.4 then y=.; output; end; run; X と Y には正の相関があり、 Xの大きい値を基準にして Y を欠損値にしているので、 Y の値も大きいほ ( =1 ) うが欠損になる傾向がある。このような欠損メカニズームで、は、変数 Y の算術平均は、その母平均 μy を過小に推定してしまう偏りをもっ。 iXが観測される条件のもとでの Y の母平均 Jに研究者の興味がある のならば、通常の算術平均を用いるので構わないが、条件なしの周辺平均 μyに興味がある時には X の情 報も推定の際に含めないといけない。同様のことが、 σy の推定に関しでも言える。 標準化していない母回帰係数(この例だと1.5 )や 、 X で条件付けた時の Y の分散 Va1"(YIX)などに興味 がある時には、欠損を含むレコードは除外して回帰分析を行っても、完全データを用いるよりは効率は落ち るが不偏推定量を得ることができる。しかし、相関係数を非欠損部分だけから推定すると、この例の場合に は過小推定する。 Version6までで、このデータセットを解析する 1手段としては、 MIXEDプロシジャで REML推定を行 なうことが考えられる。 MIXEDプロシジャを用いるには、次のように予めデータを TRANSPOSEプロ シジャなどによって転置する必要がある(次プログラムにおいて、 DDFM=KENWARDROGERオプショ ンは、 Version8.0で新規追加された機能である。 VersionGでは DDFM=に他の値を指定しないとエラーに なる)。 proc transpose data=datal(keep=i x y ) out=forrnユx ; by i ; run; proc r n i x e d data=forrnix r n e t h o dニ r e r n l ; class i n出 ne̲; r n o d e l coll=̲narne̲ /noint solution ddfrn=kenwardroger; repeated n四 eー /type=un subject=i rcorr; run; 一3 8 2
4 . 2 MIプロシジャの実行 次に示す PROC. M Iステートメン卜によって、欠損部分が乱数によって置換えられたデータセット OUTl が作成される。 NJMPU= 2 0という指定によって、 2 0セット作成される。また、乱数系列のシード値と して、 5 5 . 5 5を指定している。 MULTINORMALステートメン卜で METHOD=MCMCを指定する(注 1 ) ことにより、多変量正規分布を仮定したマルコフ連鎖モンテカルロ法が選択される。 キキキ* Multiple Imputation by MCMC *キキキキキキキ*キ; proc mi data=data1 out=out1 nimpu=20 seed=5555; var x y ; multinormal method=mcmc; run; MIプロシジャを実行すると、欠損 f 直が哩められたデータセットが作成される他に、 Rubin(1987)で述べ a r i a n c e,within‑imputev a r i a n c eおよび t o t a lv a r i a n c e )の値など られている 3つの分散 (between‑imputev も出力される。ここでは省略しているが、この他にも、非応答による分散の相対的増加 ( r e l a t i v ei n c r e a s ei n f r a c t i o no fmissinginformation)の推定値なども出力 v a r i a n c eduet onon‑response)、欠損情報量の割合 ( される。これらの指標は、どの程度、欠損値が推定のばらつきに影響しているかを見るためのものである。 Multiple‑Imputation Variance Information 一一一一一一ーーーー一一一一一一一 Variance‑一ーーーーーー一一ーーーーーーー Variable Between Within Total y 0.005827 0.038954 0.045072 この後に、欠損値を含む各変数の平均に関する推定値が出力される。また、標準誤差や信頼区間などの値 T o t a lV a r i a n c e )や自由度に基づいている。次に、変数 yに も計算される。これらの値は、先程の全分散 ( 対する結果を記載する。 Multiple‑Imputation Parameter Estimates Std Error Mean Mean 0.830811 0.212301 95% Confidence Limits 0.408066 1.253556 t for HO: Mean=MuO Pr > I t l 3.913366 0.0002 参考のために、 MIXEDプロシジャの推定結果を次に記載する。 この例においては、 MIプロシジャの結果と近い結果になっている。 ‑ 3 8 3
Standard Error DF t Value 0.7999 0.2045 .1 71 3.91 t [ Pr > [ Alpha Lower Upper 0.0002 0.05 0.3921 1.2077 VARIABLE Estimate y 4 . 3 MIANALYZE用データの作成 平均パラメータ以外のモデルパラメータに興味がある時には、 MIANALYZEプロシジャを用いる。 MI‑ ANALYZEプロシジャを用いる前に、 MIプロシジャで作成されたデータセットから、適当なプロシジャと データステップを用いて、パラメータ推定値およびその分散(パラメータが複数の場合は、分散共分散行列) を含むデータセットを作成する必要がある。 ここでは、相関の推定を行なうために、フィッシャーの z変換した値の推定値および分散を求めるプログ ラム例を取り挙げてみる。 MIANALYZE用のデータセットを作成するのに、次のプログラムでは、次の 2ステップを踏んでいる。 1 .CORRプロシジャによって、相関係数を完全化されたデータから計算する。この時、 BYステートメ ントによって、 20個のデータセット各々から推定値を求めるようにしている。 2 .1.の結果を z変換し、点推定値を含むデータセット PARMと、分散(の推定値)を含むデータセット COVとを作成する。 Create dataset of Estimates and the variances 掌 掌 事 掌 事 掌 事 掌 掌 掌 掌 ; 事事掌事 proc corr data=out1 outp=corr(where=(̲type̲='CORR')); by ̲imputation̲; var x ; with y ; run; data parm(keep=̲Imputation̲ Parameter Estimate) cov (keep=̲Imputation̲ Parameter Tr担 s ); set corr; Parameter='Trans'; Estimate=0.5掌 log((l+x)/(l‑x)); Trans=1/(&:n‑3); output parm; output cov; run; 4. 4 MIANALYZEプロシジャの実行 パラメータ推定値のデータセット、および、その分散(もしくは、分散共分散行列)を含むデータセット を作成した後に、 MIANALYZEプロシジャを実行すると、 multiple‑imputationestimationを行なってく れる。ここでは、続いてのデータステップにて、 MIANALYZEプロシジャが算出した値を逆変換して、相 関係数の推定値や信頼区間を求めている。 3 8 4一
傘 傘 傘 傘 MIANALYZE 傘傘傘傘傘傘傘傘$傘傘傘*******************傘*****************; proc rnianalyze p a r r n s = p a r r n cov=cov ; var Trans; ods output parmest=rnianalyzeout; r u n ; data rnianalyzeout; set rnianalyzeout; array ̲x̲ r n e a nl c l r n e a nu c l r n e a n ; array ̲y̲ rhoest rholcl rhoucl; do over ̲x̲; ̲y̲=(exp(2傘 x̲)‑1)/(exp(2*̲x̲)+1); end; run; proc prユnt data 司 n ianalyzeout; run; **************傘************傘**傘傘傘$傘傘傘**傘*************傘**; このように、 r 1 )M1プロシジャによって欠損値を埋める J r 2 )何らかのプロシジ.ヤで、推定値を計算する J r 3 )M1ANALZEプロシジャによって、 2 )の推定結果から m u l t i p l eimputatione s t i m a t i o n J を行なうとし、 う3フェーズに分けてプログラムを作成することにより、自分自身が興味あるモデルパラメータの推定値を 計算することができる。 5 まとめ この論文では、 V e r s i o n 8 . 1より追加される M1プロシジャおよび M1ANALYZEプロシジャについての簡 単な紹介を行った。これらのプロシジャは、まだ開発段階であり、今後のパージョンでより多くの機能が追 加されることが期待される。 注1 ) 欠損構造が monotoneなので、回帰法 (METHOD=REGRESS10N)を選択することができます。回 帰法による方法は、 MCMC法 (METHOD=MCMC)とほぼ同じ結果をもたらすはずです。 MCMC去 : I の時には事前分布として J e f f e r y変換したものが使われるので、回帰法とは若干違いはありますが、そ れほど大きく違った結果ではないと思われます。しかし、 V e r s i o n 8 . 1の METHODニ REGRESS10N は 、 METHOD二 MCMCと多くの結果で異なったものを算出します。誤差分散推定値 (MSE)の計算 がおかしいためと思われますが、気付いたのが遅く、米国 SASに確認する時間がなかったため、予 こでは METHOD=MCMCを例に出しました。 RU o o qd
6 Reference • Rubin, D . B . ( 1 9 8 7 ), " M u l t i p l eI m p u t a t i o nf o rNonresponsei nS u r v e y s ", NewYork:JohnWileyand Sons. In c J. L . ( 1 9 9 7 )" A n a l y s i so fI n c o m p l e t eM u l t i v a r i a t eData", NewYork:ChapmanandH a l l • S c h a f e r, • Yuan, Y . C . ( 2 0 0 0 )" M u l t i p l eI m p u t a t i o nf o rM i s s i n gData:C o n c e p t sandNewDevelopment ぺSUGI 2 0 0 0P r o c e e d i n g s . ‑386‑
日本 SASユーザー会 (SUG1‑0) 単変量分析に関するバージョン 8 eの拡張点 小玉奈津子 株式会社 SASインスティチュートジャパン テクニカルサポートグループ Un i v a r i a t ea n a l y s i switht h eenhancementsi nV e r s i o n8 e NatsukoKodama T e c h n i c a lSupportGroup SASI n s t i t u t eJapanL t d . 要旨 概要 ノ〈ージョン 8では、単変量の解析を行う場合に有効な統計量や検定が追加lされる。本稿では、 UNIVARIATEプロシジャを中心に単変量の解析に対するパージョン 8の拡張点を紹介する。 キ ー ワ ー ド : UNIVARIATEプロシジャ KDEプロシジヤ 1 はじめに ノ〈ージョン 8では、単変量の解析に対して次のようなプロシジャが追加、拡張される。 • UNIVARIATEプロシジャ ( B a s eSAS ソフトウエア) UNIVARIATEプ口、ンジャでは、計算される統計量の追加として、パーセント点に対する信頼区間 や 、 トリム(刈り込み)平均、ウィンザー化平均、ジニ平均などのロバスト(頑健)な統計量が追加 される。さらに、ヒストグラムの作成および、確率密度曲線をあてはめることもできる。 • KDEプロシジャ (SAS/STAT ソフトウエア) KDEプロシジャでは、単変量、 2変量に対するカーネル密度推定を行うプロシジャである。結果 をデータセットに出力し、 SAS/GRAPHソフトウエアの G3D.GCOUNTORプロシジャを利用し て推定された密度分布の 3次元プロットや、等高線を作成することもできる。 ‑387一
2 単変量に対するグラフ 2 . 1 ヒストグラム 単変量の連続値のデータの分布を知るために、もっとも簡単な方法は、ヒストグラムを作成することであ る。ヒストグラムは階級値を設定し、その値ごとに度数を示したグラフである。データの外れ値や、分布の 傾向を視覚的に確認することが可能である。 SAS/QCの CAPABILITYプロシジャでしか作成できなかったヒストグラムを、 UNIVARlATEプロシ ジャの HISTOGRAMステートメントを利用してパージョン 8から可能になる。 2 .1 .1 パラメトリックな密度推定 HISTOGRAMステートメントのオプション指定によって、パラメトリックな密度曲線および、カーネル 密度推定によるノンパラメトリックな密度曲線を当てはめることができる。 UNIVARIATEプロシジャでは、正規分布、対数正規分布、指数分布、ベータ分布、ワイブル分布を仮定 したパラメトリックな密度推定を実行することが可能になる。デフォルトではデータから計算したパラメー タ推定値を利用し、オプションを利用して、パラメータの値を任意に指定することも可能である。 2 .1 .2 ノンパラメトリックな密度推定 分布を仮定した密度推定は、データの分布を表現しきれない場合がしばしばある。このような場合、デー タの分布を仮定しないカーネル密度推定が有効である。 UNIVAR lATEプロシジャでは、 HISTOGRAMス テートメントに KARNELオプションを指定して、 1変量に対するカーネル密度推定を実行することがで きる。 1 9 8 0年と 1 9 9 0年のアメリカ各州ごとの都市部と市街地の地域ごとの人口データ STATEPOPの変数 NONCITYPOP̲ 8 0のヒストグラムに、正規分布とカーネル密度推定の結果をあてめてみる。(変数 NONCI‑ 、 1 9 8 0年の市街地地域の人口(単位 1 0 0万 人 ) ) TYPOP̲80は PR日C UNIVARIATE DATA=st.tepop ; VAR nonciもypop̲80; HIST口GRAH noncitypop̲60 I N口RKAL KERNEL HIDP日INTS=O to 10 by 1 ; RUN; HISTOGRAMステートメントに NORMALを指定し正規分布の密度曲線、 KERNELオプションを利用してカー ネノレ密度曲線をヒストグラムにあてはめている。 VARステートメントで変数を指定した場合、パラメトリックな密度 推定の場合、データが指定した分布に従っているかの適合度検定が実行される。 MIDPOINTSニオプションで、階級の中央値を指定することが可能である。(例では、 0から 1 0 0 0万人まで 1 0 0万 人刻みで指定) ; ・ 図 1 ヒストグラムに正規分布とカーネル密度推定のあてはめ 388‑
2 . 2 KDEプロシジャ UNIVARIATEプロシジャでは、単変量に対するカーネル密度推定のみ実行可能であるが、 SAS/STAT ソフトウェアの KDEプロシジャでは、 2変量に対するカーネル密度推定を実行することが可能である。 変 数 CITYPOP̲ 9 0と変数 NONCITYPOP̲ 9 0のカーネル密度推定 P R日C K D E DATA=statepop口U T = o u t ; V A Rc i t y p o p ̲ 9 0n o n c i t y p o p ̲ 9 0 ; R U N ; 密度推定の結果を OUT=オプションでデータセットに出力し、 SAS/GRAPHソフトウエアの G3Dプロ シジャや、 GCONTOURプロシジャを利用して推定された密度分布の 3次元プロットや、等高線を作成す ることが可能である。 蛇足ではあるが、 GPLOT• G3D• GCONTOUR• GCHARTプロシジャの結果は、パージョン 8から M i c r o S o f t社が提唱する ActiveXの形式に出力ができる。他にも Java形式や、リッチテキスト形式などに 出力ができる。 ActiveX形式の機能を使い密度推定を行った 3次元グラフを回転させたり、高さごとに色分 c t i v e Xにファイルを出力するには、 GOPTIONDEVICE=ACTIVEXと指定する。(例 けることも可能になる。 A では、出力を HTML形式にしている。) G3Dプロシジャ・ GCONTOURプロシジャの実行 / ・ DEVICE の指定.../ goptions device=a .ctivex; / ・ G3日の出力 * . . 1 ・ PROC G3D DATA=out; PLOT citypop̲90 noncitypop̲90=density; RUN; '..GCONTOURの出力 H げ PROC GCONT日UR DATA=out; PL日T citypop̲90 noncitypop̲90=density; RUN; ・ , ‑ 1 8 8 1 1 5 ‑ ; 0 0 1 015 判 図 53次元グラフと等高線 3 単変量に対する統計量と検定 3 . 1 信頼区間 ノ〈ージョン 8の UNIVARIATEプロシジャでは、 UNIVAR1ATEプロシジャでは、単変量のデータの解 析を行う為のさまざなな統計量、検定が迫力日されている。 CIPCTLNOMALオプションを指定し、正規分 ‑389‑
布を仮定したパーセント点の信頼区間、 CIPCTLDFオプションを指定して分布を仮定しないパーセント点 の信頼区聞が出力できる。 パーセント点に対する正規分布を仮定した 1 0 0 ( 1ーα )の信頼区間、分布を仮定しない信頼区間は以下の ように計算される。 正規分布を仮定した両側の信頼区間 パーセント点が 0<p<0 . 5の場合 2・1‑p, n ) s 下側信頼区間王ーダ(白 / 上側信頼区間 王ーダ ( 1一白 / 2・1‑p, n ) s g ' ( r, p, n ) は OwenandHua(197 i)OdehandOwen(1980)によって求められている非心度 t分布であ り、ダは、〆=訣から計算される。 (T T U t ( p )一1、自由度 n ‑ 1の非心度 t分布のパーセント点) nc は、非心度 J パーセント点が 0 . 5壬p <1の場合 下仰j 信頼区間 宮 +g'(α/2;p,n)s 上倶l 信頼区間 x+g ' ( l一白 / 2 ; p, n ) s 片側の場合は、白 / 2を白として同様に求めている。 分布を仮定しない場合のパーセント点の信頼区間は、次のように求める。サンプルサイズを n とした場 0 0 ( 1一白)%の両側の信頼区間は、 x ( j )を J番目の順位とすると x( I ) , x ( u )と表せる。下倶J I 1と上側 u 合 、 1 は 、 i= [ n p )+1のまわりで対称(対称に近し、)整数である。 ( [ n p )は 、 npの整数部分) 下記の 3つの条件を満たすように!と uを推定する。 • x ( (口+l)p)について対称。 ) p )の値に近づける。 ・できるだけ x((n+l .被覆確率を、 l一白以上にする。 被覆確率は、以下の式から計算される。 p )‑Qo( l‑l:n.p)三l一白 Qo(u‑1;n, s :1の累積 2項確率) (Qoは 、 O<l<u壬n, 0<p 推定された信頼区間の被覆確率が l一白以下と計算される場合や、外れ値などがあるいくつかのデータ の場合信頼区間が対称に計算されない場合がある。このような場合、 TYPE=ASYMMETRICオプション を指定すると、 UNIVARIATEプロシジャでは、 uと lを非対称な値として扱い、最初の条件を考慮、しない で、信頼区間を推定する。 UNIVARIATEプロシジャは、さまざまな出力が一度に出力されるため、パージョン 8からの新規機能で e r i v a r ySystem) を使用して、出力を制御すると便利である。 ある ODS (OutputD ノ号一セント点の信頼区間の出力のみ出力するには、 ODSステートメントに Q u a n t i l e と指定する。 9 0を用いて信頼区間を出力する 変数 STATEPOP̲ /*..005の指定・.., ODS SELECT Qu出 ltiles; PROC UNIVARIATE DATA=stat.pop CIPCTLNORHAL CIPCTLDF; itypop̲90 ; VAR c RUN; ‑390‑‑
結果 ペーセント点 ベーセント点(定義 5 ) 95Y.信頼区間 推定値 (正規分布の仮定) 100. 1 ~大値 Y . 99 951 . 901 . . Q3 751 50Y . 中央値 YQ 1 25. 10Y . 5. Y 28.799 28.799 1 4.166 9.574 4.376 2.423 0.776 0.257 0.191 0.134 0.134 ! y . OX 畳小値 13.5479 10.4744 8.7997 5.8984 2.4244 ‑1.3741 ‑5.0011 ‑7.2283 ‑11 .4713 19.22538 14.98235 12.75510 9.12817 5.32960 1 .85563 ‑1.04563 ‑2.72037 ‑5.79381 ベーセント点{定義 5 ) パーセント点 100. 1 畳大値 99 Y . 95X 1 90. 751 . Q3 1 中央値 50. 25. 1Q 1 101 . 5. 1 ! y . ーーーーーーー順序統計量の順位一‑‑‑‑‑‑‑ 信頼下限の信頼上限の l 順位 被覆確率 順位 951.信頼区間 {分布の仮定なし} 14.166 8.826 4.773 3.160 1.040 0.296 0.152 0.134 0.134 28.799 28.799 16.515 8.826 3.298 1 .200 0.659 0.296 0.191 49 45 4 1 32 19 5 1 5 1 50 45 33 20 1 1 7 3 38.65 91.38 95.82 96.61 95.11 96.61 95.82 91.38 38.65 0. 1 畳小値 3 . 2 尺度の口バスト推定 3 . 2 . 1 ウィンザー化平均トリム平均 平均や標準偏差はその外れ値に対して抵抗性がないことが知られている。外れ値に対して算術平均と比 較して抵抗性のあるウィンザー化平均とトリム平均が UNIVARIATEプロシジャで計算可能になる。また、 それぞれの平均に対する標準誤差・信頼区間・ t近似検定も実行する。 ウィンザー化平均、トリム平均を UNIVARIATEプロシジャで出力するには、 WINSORIZED=, TRIMMED= オプションにトリムしたい割合もしくは、度数を指定する。 両側 k個と指定した場合のウィンザー化平均は、次のように計算される。 . / n‑k‑l n¥ ¥ ). x ( i )+ ( k+ l ) x (η ‑ k )1 王叫二斗 ( k+ l ) x ( k+ 1 )+ I ~ ¥ i = k + 2 / ( nはオブザベーション数、 x ( i )は、オブザベーションが昇順に並んでいる場合の i 番目の値) k + 1 )番目の値に置き換え、最大値から‑k番目まで ウィンザー化平均は、最小値から k番固までの値を ( k + 1 )番目の値に置き換え、平均を求めたものとなる。 の値を ( また、ウィンザー化平均の標準誤差 STDERR(xwk)は、次のように計算される。 T Iー 1 5k 叩 X", 必=ー一一一一一一一一一ー一τ‑‑‑‑ … T I‑ 2 k‑ 1v f n ( n‑ り S~k 二 (k + l ) ( x (出 ) 一 王 叫 )2+ 乞 ( X ( i )‑Xwk ) 2+ ( k+ l ) ( x ( n ̲ k ) i = k + 2 また、ウィンザー化平均を使った t統計量は、次のように計算される。 1 . . . , . 一 川 (王叫ー μ 0 ) STDERR(xuk) 3 9 1一 玉川 ) 2
k個トリムすると指定した場合のトリム平均は、次のように計算される。 n‑k 可=一二‑;:;‑;:‑ ) , n‑2 k ムd x ( i ) i=k+1 ( nはオブザベーション数、 x ( i )はオブザベーションが昇1 ) 慣に並んでいる場合の i 番目の値) トリム平均は、最小値から k番目までの値と、最大値から必番目までの値をデータから取り除いた後に 平均を求めたものとなる。 また、 王t k )は、次のように計算される。 トリム平均の標準誤差 (5TDERR( 5TDERR(芝山)= ~J竺 ゾ(n‑2k)(n‑2k‑l) (5 町 k は、前述のウィンザー化平均の平均平方和 (5 ふ)の平方根の値) また、 トリム平均を使った t統計量は、次のように計算される。 t . ,=-~(-王山一 μ0) 同 5TDERR(王凶) ウィンザー化平均とトリム平均は、データが左右対称な分布をしている場合、平均の不偏推定値となる。 しかし、データが正規分布に従っている場合でも、ウィンザー化平均とトリム平均は、正規分布に従わない ことが知られている。 3.3 その他の口バストな尺度 母集団の分布を推定するために、標本標準偏差は、母標準偏差の推定値として利用される。しかし、標本 標準偏差はデータの外れ値に対して抵抗性がない。データに外れ値が存在する場合、標本標準偏差を母標 準偏差 σの推定値&として推定した母集団の分布は、外れ値に大きな影響を受ける。 σのロバストな推定値を使用した場合、外れ値の影響をあまり受けずに母集団の分布の形を推定すること ができる。 UNIVARIATEプロシジャでは、 ROBUSTSCALEオプションロバストな統計量の四分位範囲、 G i n iの 平均差、 MAD、品、 Qnから計算した、 σの推定値を出力する。 .四分位範囲 四分位範囲からの σの推定は、もっとも単純なロバストな推定量である。四分位範囲はデータの 25%点 (QJ)から 75%点 ( Q 3 )の範囲を求めたものである。データが正規分布に従っている場合、四分位範囲 Q3‑Q1)/1 .3 4 8 9 8となる。 (Q3‑Q1は、四分位範囲) から計算される推定値は、。 =( • G i n iの平均差 G i n iの平均差からも σのロバストな推定量が計算される。データが正規分布に従っている場合、 G i n i の平均差の平均差かた推定される σ の値は、丘=G , f i i / 2となる。 G i n iの平均差は、以下のように求められる。 G ニ 」 ー ) , !Xi‑Xj! C )勾 J • MAD MAD ( t h eMedianA b s o l u t ed e v i a t i o nfromt h eMedianl は、とてもロバストな統計量である。 lvfAD= m e d i ( ! X i‑medj(xj)) 1 ‑392一
正規分布を仮定した場合、企 =1. 4826MADと計算された値になる。しかし、l¥1ADから推定された値 は、正規分布や左右対称の分布に対する効率的な σの推定値ではない。 • S n Q n S nと Q n統計量もまた、ロバストな統計量である。 (Rousseeuwand Croux 1 9 9 3 ) S n= 1.1926medj(medj戸 [ X j‑X j [ ) j ; tj )の中央値、 (medjは 、 [ X j‑X j [の n個の中央値 (med j=12...n) S n統計量を使用した σの推定値は、丘二 S n C nとなる。 (Cn は、サンプルサイズ η の値によって変化する係数。) また、 Q nは次のように計算される。 Qn= 2.22叫 Xj‑Xj[;i<j)伏) k = ( n h ), h=I21+l ([ % 1は、 3の整数部分) Q n統計量を使用した σの推定値は、合 =Q nd "となる。 ( dn は 、 Cn と同様に、サンプルサイズ nの値によって決定される係数) Cn と Q nI 立、次のようなイ直をとる。 0.743 1 . 8 5 1 0.954 1 . 3 5 1 0.993 C. 一 《 、 1.198 ( ( ( ( n n = = 3 2 ) ) n=4 n=5 (n=6) (n=7 d.= 1 0 そ nれ8 9 以 ) 1 .1 3 10 5 ( n( n/(n‑ 0 . 9 ) ( 外の奇数) (それ以外の偶数) 1 .0 0.339 0.994 0.515 0.844 0.611 0.857 0.669 0.872 n/(n+1 .4 ) n/(n+3 . 8 ) (n=2) (n=3 (n=4 (n=5 (n=6) (n=7 (n=8) ( そ n =れ9 以 ) ( 外の奇数) (それ以外の偶数) UNIVARIATEプロシジャで、トリム平均・ウィンザー化平均・尺度のロバスト推定の結果のみ出力するには、 O D Sステートメン卜にそれぞれ、 トリム平均→TrimmedMeans、ウィンザー化平均→ WinsorizedMeans、 ロバストな尺度推定→ RobustSca!e と指定する。 9 0を使ったロバストな統計量の出力 変数 STATEPOP̲ /...005の指定.../ 日D SSELECT robustoscale; 日D SSELECT WinsorizedKeans; O D S SELECT TrimmedKeans; PROC UNIVARIATE DATA=statepop TRIHHED=6.25 WINS口RIZED=O.l R口BUSTSCALE ; VAR citypop̲90 ; R U N ; UNIVARIATEプロシジャは、 トリム・ウィンザ一化する度数もしくは、割合を指定することができる。 実行例では、それぞれの度数・割合を次のように指定している。 ‑ トリム平均でトリムする数を 6 ( t .rimmed=6) ‑ウィンザー化平均でウィンザー化する割合を 0.1(winsorized=O.l) トリム平均とウィンザー化平均の値は、算術平均の値より小さくなっている。これは、歪度の値からデー タが右に裾をひく分布あることからだとと思われる。また、ロバスト統計量から推定した母標準偏差は、標 本標準偏差より小さくなっている。 ‑393‑
結果 トリム平均 トリムした トリムした 割合 度数 11 .76 トリム平均 6 2.702231 標準誤差 0.535235 951.信頼区間 1 .618705 3.785756 自由度 38 トリム平均 トリムした 割合 t 統計量 HO:μ0=0.00 Pr> I t I .76 11 5.048686 <.0001 ウィンザー化平均 ウィンザー化 ウィンザー化 した割合 11 .76 ウィンザー化 した度数 951.信頼区間 0.536889 2.052713 4.226463 平均標準誤差 6 3.139588 自由度 38 ウィンザー化平均 ウィンザー化 した割合 11 .76 t 統計量 HO:μ0=0.00 Pr> I t I 5.847741 <.0001 尺度のロバスト推定 指標 四分位範囲 Gini の平均差 HAD Sn Qn 値 3.600000 4.614921 1.675000 2.626105 2.230788 σの推定値 2.668683 4.089867 2.483355 2.673281 2.171186 4 終わりに UNIVARIATEプロシジャでは、この他にも母平均が既知の場合の t検定を rnuO=オプションに母平均の 値を指定し実行できるようになる。また、現パージョンで正規性の検定を実行した場合、オブザベーション数 が2 0 0 0以下の場合は、 S h a p i r o ‑Wilk検定が行われ、 2 0 0 0以上の場合は、 K o l r n o g o r o v ‑ S r n i r n o v検定が実行 0 0 0以下の場合、正規性の検定として S h a p i rか Wilk検定、 される。パージョン 8では、オブザベーションが 2 K o l r n o g o r o v ‑ S r n i r n o v検定、 A n d e r s o n ‑ D a r l i n g検定、 C r a r n e r ‑ v o nM i s e s検定の 4つの検定が実行される。 0 0 0以上の場合、 S h a p i rか Wilk検定を除いた 3つの検定が実行される。 S h a p i r o ‑Wilk オブザベーションが 2 検定では、統計量を求めるための係数 ( R o y s t o n1 9 9 2 )が変更され、少標本での近似が改善される。 また、 平均・標準備差・分散に対しての信頼区間が CIBASICオプションを指定して出力可能になる。 SASjINSIGHTの「分布分析 J でも一変量に対する解析として、ロバスト尺度の推定の出力や、正規性 n d e r s o n ‑ D a r l i n g検定、 C r a r n e r ‑ v o nM i s e s検定が追加される。 の検定に A 本論文 l 土 、 SASシステム R e l e a s e8 . 1(TS1MODBCS2942)の開発版を使用して作成している。開発段 階の為、弊社から販売される予定の製品版とは、内容が異なる場合がある。 5 Reference • Nathan A . C . ( 2 0 0 0 )" H i s t o g r a r n sG i v i n gYouF i t s ?NewSASS o f t w a r ef o rAnalyzingD i s t r i b u t i o n s " SUGr2 0 0 0P r o c e e d i n g s . ‑394
。 日 本 SASユーザー会世話人会 代表世話人 副代表世話人/ 東京大学 大橋靖雄 キリンビール株式会社 本川 I裕 : 株式会社東京三菱銀行 青沼君明 成媛大学 岩崎学 コンパックコンビュータ株式会社 坂原将生 神戸商科大学 周防節雄 クインタイルズ=アジア・インク 西次男 持田製薬株式会社 舟喜光一 株式会社竹中工務庖 八木章 株式会社 S ASインスティチュートジャパン デイヴィッド C フエンダー 年次総会チェアマン 世話人 。 日 本 SASユーザー会事務局 株 式 会 社 SASインスティチュートジャパン内 干1 0 4 ‑ 0 0 5 4東 京 都 中 央 区 勝 ど き ト 1 3一1イヌイビル・カチドキ 8F T E L : 0 3 ‑ 3 5 3 3 ‑ 6 9 3 6 F A X : 0 3 ‑ 3 5 3 3 ‑ 1 6 1 3 第 1 9回 日 本 SASユーザー会および研究発表会論文集 2 0 0 0年 8月 3 1日 発行 I 発行 初版第 1昂j ASユーザー会 日本 S 株式会社 S ASインスティチユートジャパン