>100 Views
April 21, 25
スライド概要
JMPによる多特性の最適化 芳賀敏郎
SASによる正確 (exact) な検定 浜田知久馬
経時データの多重比較法 岸本淳司
SASシステムとWWWによる実践的半導体不良解析システムの構築 家常行広
SAS/IntrNetによる毒性試験データ解析システム 今溝裕
Freqプロシジャの出力をHTML Tableに変換する SASマクロの試作 小沢義人
マクロ言語によるSAS疑似プロシジャの作成 --ユーザーマクロの統一のために-- 前川眞一
SAS/CONNECT,SAS/SHAREの違いと設定 斉藤宏
SAS/ACCESSソフトウエアによる ORACLE データ の更新 佐藤正基
SASシステム西暦2000年対応について 佐藤元昭
耐糖能障害・糖尿病改善に及ぼす要因の解析 -- GLMによる三元配置分散分析-- 青野裕士
linear logistic regression model に お け る smoothing 効果の検討 縣俊彦
各種の実験デザインにおける PROC GLM,PROC MIXED の利用 角元慶二
GENMODプロシジャを用いたクロスオーバーデータの解析 梶川美紀
薬物濃度を用いた同等性試験の例数設計 高橋行雄
成人病関連因子と喫煙の多変量解析による検討 豊島裕子
芳賀による数量化I類のアイテム選択を自動実行するマクロの作成 三島徳雄
Bartholomew検定と多重対比検定 三輪哲久
SAS/IMLを利用した単一事例実験データの生成,及びモンテカルロ法によるランダマイゼーション検 定の検定力推定 山田剛史
SAS MIXEDモデルを用いた成長曲線分析とその 応用 李聖煕
GCP支援システム 『SUCCESS』 柏木東
SAS/AFソフトウェアを用いた前臨床解析システム の紹介 川崎美保
IBRD JAPAN 業務支援システム『TwinBRD』 川原美知
SAS結果を利用した報告書作成支援システム 志賀功
SASによる同等性検証と傾向性仮説検定 篠津和夫
簡易帳票作成システム SAS to Excel 症例一覧 表モデル 藤本浩
SAS 上の統計解析アプリケーションの開発 ‐ EXSASの開発を例にとって‐ 山本典子
SASによる前臨床パッケージの紹介 清水聖子
SAS/IMLソフトウェアによるポジショニングマップ の解釈 朝野煕彦
テレビで見たいスポーツ番組の移り変わり ~88. 92. 96~ --日本人とスポーツ調査から -- 飯塚壽子
データベース・マーケティングの実践的分析視点 緒方維文
MDSによる日韓の生活行動分析 金佑聲
受療推薦度への影響要因の解析 田久浩志
POSデータの解析と需要予測 陳曉瑩
概念ハイアラーキの自動抽出 中林三平
SASを使った経営戦略支援システム構築の試論 ― 不確実性に対応する意思決定過程 ― 朝倉俊明
JMP ver 3.1 ソフトウェアによる銀行業情報システム投資横断面分析 鵜飼康東
商品先物取引における米国産大豆の時系列分析と回帰分析 大久保謙一
投資スタイル・インデックスの分析 小野潔
データウェアハウスのための金融ニーズ密度推計 モデル 恒松直幸
法人融資と企業評価モデル -- 法人融資におけ る信用リスク管理と債権ポートフォリオ最適化 -- 宮村幸夫
リリース 6.12 のデータテーブル,データフォーム の拡張点 石井由美子
PLSプロシジャ (評価版) の紹介 小野裕亮
リ リ ー ス 6.12/6.09E の 新 機 能 の 紹 介 --- SAS/MDDB Serverソフトウェア及びリモートライブ ラリサービスのDBCS変換機能--- 迫田英之
SASマクロ言語の新機能について 鈴木一彦
SAS/IntrNet の紹介 松井陽子
SAS/Warehouse Administrator Usage and Enhancements (翻訳) Terry Lewis
経営情報戦略における『データマイニング』の役割 -- データから情報というダイアモンドを掘り出すために -- 奥山真一郎
電子メールサービスの有効利用 高木雅弘
SAS言語を中心として,解析業務担当者・プログラマなのコミュニティを活性化したいです
第1 6回日本SASユーザー会総会および 研究発表会論文集 1 9 9 7年 9月 11日(木)~ 1 2日(金) sl 氾可'gJ
SASは、株式会社 SASインスティチュートジャパンの登録商標です。 SASS y s t巴m、SASS y s t巴m を構成するプロダクト群は、 SASI n s t i t u t巴 I n c .の登録商標です。 その他、本論文に記載されている会社名、製品名は、一般にそれぞれ各社の商標または登録商標です。 本論文の一部または全部を無断転載することは、著作権法上の例外を除き、禁止されています。 本論文の内容を実際に運用した結果の影響については、責任を負いかねます。
目 次 (チュートリアル JMPによる多特性の最適化…………………………………………・……...・ ・ . . . . . ・ ・ . . . . . ・ ・ . . . . 3 H H H 芳賀敏郎(東京理科大学) SASによる正確な検定・・・…・・………・・・・…...・ ・ . . . . . . ・ ・ . . . ・ ・‑一…………………・…・………… 17 H H H 浜田知久馬(東京大学) 経時データの多重比較法・・…………………………・・………・…・・………………・……………… 3 5 岸本淳司( SASインスティチュ ト ジャパン) (システム SASシステムと 家常 wwwによる実践的半導体不良解析システムの構築…....・ ・.....・ ・‑………47 H H 行広(目立北海セミコンダクタ株式会社) SA S I 1ntrNetによる毒性試験データ解析システム....・ ・ . . . . . ・ ・ . . . . . ・ ・ . . . . … ・ … . . . ・ ・ . . … . . . ・ ・ . 6 1 H H H H H 今溝裕(旭化成土業株式会社) Freqプロシジャの出力を HTMLTableに変換する SASマクロの試作………………………… 67 小沢義人(日本化薬株式会社) 吉 田 章3 夫 マクロ言語による SAS 疑似フロシジャの作成…………・…...・ ・ . . . . . ・ ・ . . . . . ・ ・ ・・ . . . . . ・ ・ . . . . 7 3 H H H H H H ユーザーマクロの統一のために一 前川真一(大学入試センター) SA S l CONNECT 、 SAS l SHAREの遣いと設定・・…………………………………………………… . 8 5 斉 藤 宏( SASインスティチュ トジャパン) SAS l ACCESSソフトウエアによる ORACLEデ ー タ 更 新 . . . . . . . . . . . . . . . . . . . . . . . . . . 一. . . . . . . . . . . . . . . . . 9 9 佐藤正基( SASインスティチュート ジャパン) 西暦2 0 ∞ 年 対 応 に つ い て ・ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....••••••.••.••.•.•..•..•..•.•• ....••••..•.•• ..••.• . . 1 1 1 佐 藤 元 昭( SASインスティチュ ト ジャパン) l l
(統計応用 耐糖能障害・糖尿病改善に及ぼす要因の解析・・・・・・・・…........................................・・・・・・… 117 ‑GLMによる三元配置分散分析 青野裕士(大分医科大学) 小津秀樹 斉藤功 池辺淑子 深掘勝(昭和電工株式会社) i I nearl o g i s t i cr e g r e s s i o nmodelにおける smoothing 効果の検討"...・ ・ . . . . . ・ ・ . . . . . ・ ・ . . …. . 1 2 9 H H H 照俊彦(東京慈恵会医科大学) 浅尾啓子 豊島裕子 清水英佑 新村真人 大塚藤男(筑波大学) 高木虞文(統計数理研究所) 稲葉裕(JI 聞天堂大学) 玉腰暁子(名古屋大学) 川村孝 大野良之 柳 修 平( J1 1崎医療福祉大学) 各種の実験デザインにおける PROCGLM、PROCMIXED の利用………...・ ・ . . … . . . . ・ ・ . . … ・ 引3 7 H H 角元慶二(大塚製薬株式会社) GENMODプロシジャを用いたクロスオーバーデータの解析………………………………… 143 梶川美紀(スミスクライン・ピチャム製薬株式会社) 宮岡悦良(東京理科大学) 薬物濃度を用いた同等性試験の例数設計・...............................・・・・・・…...…..・…・・・…… . . . . 1 1 崎 高橋行雄(日本ロシュ株式会社) 成人病関連因子と喫煙の多変量解析による検討・・・・・…・・...................・…・・…・……・・・・・……引5 3 豊島裕子(日本たばこ産業株式会社) ~系俊彦(東京慈恵会医科大学) 清水英佑 芳賀による数量化 1類のアイテム選択を自動実行するマクロの作成…………....・ ・‑一……引5 7 H 三島徳雄(産業医科大学) Bartholomew 検定と多重対比検定・・………・…・・・…・・・・・………………………………………・ 167 三輪哲久(農業環境技術研究所) I V
SASIIMLを利用した単一事例実験データの生成、 及びモンテカル口法によるランダマイゼーション検定の検定力推定……・…・…….....・ ・ . . . . 1 7 5 H 山田剛史(東京大学大学院) SASMIXEDモデルを用いた成長曲線分析とその応用…………………・・・・…...・ ・ . . . . . ・ ・ . . . . 1 8 3 H H 李聖照(岡山大学) 大竹正徳 古庄敏行(杏林大学) (医薬品開発 GCP 支援システム iSUCCESSj ‑ . . . . . . . . . . ・ ・ ・ … ・ ・ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ・ ・ ・ … ・ ・. . . . . . . . . . . 1 9 1 柏木東(明治製菓株式会社) 笹 川 l裕次 秋山浩喜 SA S/ AF' ノフトウェアを用いた前臨床解析システムの紹介……...・ ・ . . … ' " ・ ・..…………… 197 H H 川崎美保(大塚製薬株式会社) 佐々木和典 小原直樹 角元慶二 旧RDJAPAN 業務管理システム TwinBRD ・ ・. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 川 原 美 知( I B R DJAPAN株式会社) SAS 結果を利用した報告書作成支援システム……………………………………………………2 13 志賀 功(株式会社富士通大分ソフトウェアラホ.ラトリ) SASによる同等性検証と傾向性仮説検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1 η 7 篠i 津 章 和夫(住商情報システム株式会社) 簡易帳票作成システム SAStoE x c e l症 1 J l J‑覧表モデル"…・……・…… ・ ・‑…....・ ・‑…… 225 H H H 藤本浩(株式会社電通国際情報サービス) 七沢勉(アジアパシフィツクシステム総研) SAS 上での統計解析アフリケーションの開発…・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・227 ‑[EXSAS]の開発を例にとって一一 山本典子(有限会社アム) 浜田知久馬(東京大学) SASによる前臨床パッケージの紹介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 3 幻 ' 7 j 清 青 耳 オ 水 ! ド く 聖子(侶 SASインステイチユ一卜 シ.ヤパン) V
(調査マーケティング SASIIMLソフトウェアによるホ。ジショニングマッフの解釈・・・・・・・・・・・・・・・・・・・…・・・・・・・・・・・・・・・・・・・・247 朝野照彦(専修大学) 鈴木醤久(日程リサチ) テレビで見たいスポーツ番組の移り変わり ~88, 92, 96~ …・・………… H ・ H ・-…・……...・ H ・ .257 ‑j日本人とスポーツ」調査から 飯 塚 蕎 子( N H K放送文化研究所) データベース・マーケティングの実践的分析視点....・ ・ . . . . . ・ ・ . . … ・ … ・・ . . . . . ・ ・・・ . . . …. 2 6 3 H H H H H H H 緒方維文(株式会社工フ‑工ムアイ) MDSによる日韓の生活行動分析……………...・ ・..……………………………………………2 8 1 H 金佑董(専修大学大学院) 受療推薦度への影響要因の解析・・・・・…・・..........・・・・…・・・・・…・・・・・・…・・・・・・……・・・……・・・・・‑…… ' 2 8 5 田久浩志(東邦大学) 小野龍太 島村 正 史 典 吉岡恵美子 太田 jレ シヤ 定本清美 鈴木荘太郎 POSデータの解析と需要予測・..……………………...・ ・ ‑ … ・ … ・ ・ ・ … ・ ・ ・ … . . . … . 一 . . … … . 一 … . い . … . 一 . . … … . 一 … . 一 . … . 一 . . … … . 一 … . 一 . … . 日 . . … … . 一 … . い. 2 9 1 H 陳暁堂(東京大学) 上村賢治 概 念 ハ イ ア ラ ー キ の 自 動 抽 出 ・ . … … . 一 … . 一 . … … . 一 … . 一 . … … . 一 … . 一 . … … . 一 … . 一 . … … . 一 … . 一 . … … . 一 … . 一 . … … . 一 … . い . … υ … … . . い . … … . い … . 一 . … … . い … . 一 . … … . 一 … . 一 . … υ … . . 一 . … υ … … . . い . … … . い … . … . … … . 一 … . 一 . … … . 一 … . 一 . … … . 一 … . 一 . … … . 一 … . 一 . … … . 一 … . 一 . … … . 一 … . 口 . … … . 日 … . 口 . … … . い … . 日 . … … . 口 … . 日 . … … . 一 … . υ … … . い … . 一 . … … . 一 … . い . 宮 2旬 9 9 中林 三平(株式会社金融工ンジ二アリンクグ.クグ.ル プ) SASを使った経営戦略支援システム構築の試論・・・・・…・・・・・・・・・…...........・…・・・…......… . . . . . . . 3 0 7 不確実性に対応する意思決定過程一 朝 倉 俊 明( SASインスティチュ トジャパン) (経済金融 JMPVer.3.1ソフトウェアによる銀行業情報システム投資横断面分析……………....・ ・ ‑ …3 2 1 H 鵜飼康東(関西大学) 商品先物取引における米国産大豆の時系列分析と回帰分析・・…・・・・・・・・・・・・…...........・・・・…・・ . . 3 3 3 チャ ズ株式会社) 大久保謙(フジフュ 鈴木二郎 V I
設資スタイル・インテεックスの分析…ー…….....・ ・…・・…・……・・……………………・・・…・… . 3 4 3 H 小野潔(株式会社ニッセイ基礎研究所) データウェアハウスのための金融ニーズ密度推計モテ=ル……………………一……..…...・ ・ . 3 5 1 J 恒 松 直 幸( NTTデ タ 通 信 株 式 会 社 ) H 浦垣勉 虞岡康雄 内藤孝一 法 人 融 資 と 企 業 評 価 モ デ ル ・ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ・ … ・ ・ ・ ・ ・. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 6 3 一法人融資における信用リスク管理と債権ポートフォリオ最適化一 宮村幸夫(株式会社金融エンジニアリンググjレフ) (SASシステム新機能 リリース6 . 1 2におけるデータテーフルおよびデータフォームの拡張点………………...・ ・ . . 3 7 5 H 石 井 由 美 子( SASインスティチュ ト ジャパン) PLSプロシジャ(評価版)の紹介・・…・・・・…・・・…・・……………………'"・ ・‑…………・…………385 H 小 野 裕 亮( SASインスティチュ ト ジャパン) リリース6 . 1 2 1 6 . 0 9 Eの新機能の紹介… . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 鈎 9 9 一SA S l MDDBS e 刊e 釘r ソフトウエア及びリモ一トライフラリサ一ビスの DBCS変換機能一 迫 田 英 之 (SASインスティチュート ジャパン) SASマクロ言語の新機能について…………‑… ・・ . . . . . ・ ・ . . . . . ・ ・・・ . . . . . ・ ・ . . . . . ・ ・・・ ‑ …4 1 1 鈴 木 一 彦( SASインスティチュート シ.ャパン) H H H H H H H H H H SA S / ln t r N e tの 紹 介 ・ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ・ ・419 松 井 陽 子( SASインスティチユ←ト ジャパン) SA SlW arehouseAdministratorUsageandE n h a n c e m e n t s . . . . . . . .… ・ ・ ・ … ・ ・ ・ ・ ・ ・ … ・ ・ ・ ・ ・ … …. . 4 3 9 T e r r y Lewis(SASI n s t i t u t eI n c . ) 翻 訳 松 井 陽 子( SASインスティチュ トジャパン) V I I
(ビジネスインテリジエンス 経営情報戦略における「データマイニング」の役割・・・…・ ・・‑……………・…………………… 4 6 1 データから情報というダイアモンドを掘り出すために H 奥 山 真 郎( S A Sインスティチュ H トジャパン) 電子メールサービスの有効利用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 力 7 7 高木雅弘(侶 S A Sインステイチユ 卜 シジ.ヤパン) V I I I
‑ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ∞埋め回目﹄‑︒寸劇皆同綿 μ!?亡刈や 山市
日本 S A Sユーザー会 (SUG I‑J) JMPによる多特性の最適化 芳賀敏郎 東京理科大学工学部 M u l t i p l eR e s p o n s eO p t i r n i z a t i o nu s i n gJMP T o s h i r oHaga S c i e n c eUn i v e r s i t yo fTokyo 要旨 JMPパージョン 3 . 0で実験の計画と結果の解析機能が追加され,さらに,パージョン 3 . 2では大幅に機能が拡張・強化された.その中から,多特性の最適化条件を求める機能 を紹介する. 従来の実験計画法は, 1特性の最適化が中心で、あって,複数の特性値が目標を満足する ための方法は確立されていなかった. J MPはこの問題に強力な道具を提供してくれる. また, SASjQCの ADXでもここに紹介する機能とほぼ同じ機能を持った新しいパー ジョンが開発中で,近く提供される予定である 1 キーワード: JMPSASjQC,ADX う 0 はじめに 実験計画法では,伝統的に最適化する特性が一つで、ある場合が普通で、ある.すなわち,特性値 ある品質の最大化」とか, I コストの最小化」というように, の最適化というときは,たとえば, I 一つの特性の最大化・最小イヒをはかる場合が多かった.しかし,現実の問題として, 1特性の最 大化,最小イヒとしづ考え方だけでは不十分である場合が多い.そのような場合, 1特性の最適化 を目指すのではなく,複数の特性を同時に満足したいとしづ要求がでてくる.ここで,多特性の 最適化とは,複数個の特性値がそれぞれの目標を同時に満足する因子の水準組合わせを求めるこ とを意味している.多特性の最適化では,伝統的に行われている 1特性の最適化とは性質の異な る問題が起こってくる.従って, 1特性の最適化の単純な拡張というわけにはし、かない. I S . S . P r a b h u,R .N . R o d r i g u e z&R .D . T o b i a s, "TheNewADXI n t e r f a c et oD e s i g nandA n a l y s i so f Ex 戸 r i m e n t s ", P r o c e e d i n g so fSUGr2 2、p p . 1 2 5 8 ト1 2 7 0( 1 9 9 7 ) ‑3一
このようなデータの解析では,結果のグラフ表示が極めて有効である.グラフは,交互作用の 有無,最適水準組合せの探索,特性聞のトレードオフ関係の発見などに利用される. . 1に示す.これは,通常の 3因子実験で, 3水準 2特性 ( Y l まず,解説に用いるデータを表示 0 は望大特性,Y2は望目特性)の実験結果である. 表示 0 . 1 :例題 Al C] C2 C3 A2 C] C2 C3 A3 C ] C2 C3 5 3 4 2 1 6 2 0 1 5 2 4 1 3 1 7 1 6 Y l 望大特性 B] 3 0以上 B3 Y 2 望目特性 Bl 5 B2 8 1 3 1 5 1 9 1 5 1 8 1 8 23 B3 1 1 1 5土 l 6 2 4 3 0 つ B2 1 3 2 5 2 3 3 5 1 8 3 つ 2 1 5 1 1 3 6 3 1 1 9 2 0 2 5 2 7 8 1 1 7 1 1 4 1 7 20 2 9 1 1 つ つ 1 6 1 3 1 6 1 8 1 7 1 6 2 2 2 2 (注) 1997年の第 22回 SUGI(SanDiego,C a l i f o r n i a )では, JMPによる最適化について次の 報告が発表された. D . J . O b e r m i l l e r, "MultipleR白 ponseOptimizationu s i n gJMP",P r o c e e d i n g so fSUGr2 2,p p . 8 4 1 ‑ 8 4 7 ( 1 9 9 7 ) u r f a c eO p t i m i z a i o nu s i n g SMP S of t w a r e ",Proc 田 d i n g so fSUGr 2 2, M.T.Alexander,"Response S p p . 1 2 26 ‑1 2 3 3( 1 9 9 7 ) 1 1特性の最適化 1 .1 3種類の特性 最適化を考えるとき,まず,最適の基準を明らかにして置かなければならない. 計量値で与えられる品質特性 uは大きく次の 3つに分けられる. a ) 望小特性: 小さいほど良い(例:ノイズ,ひずみ,不純物含量) b ) 望大特性: 大きいほど良い(例:強度,収率,化学製品の純度) c ) 望目特性2 目標値 Y Tに近いほど良い(例:寸法,金属の硬さ) 因子(複数)が量的で,その値を Xl, X2, ・..とするとき ,X, l X 2, ...と特性値 uの聞に Y=f(Xl, X2, ・ ・) + ε ( 1 . 1 ) の関数関係があるものとする.ここに ,E : は誤差である. 2 伝統的な実験計画法では,望小特性,望大特性が中心であった.望目特性を取り上げ,それに対する 考え方や方法を提案したのは回口玄一氏である. ‑4
望小,望大特性は ,f(xj,X2ぃ・・)を最小または最大とする Xjo,X20,...を求めることであり, 望日特性は f(X)= YT となる Xjo, J : 2 0, ...を求めることである. また,現実的には,ある程度の許容範囲が認められ, 一 ) ) c b i a)︑ 望小特性: 上限値 Y uより小さければ良い 望大特性: 下限値比より大きければ良い 望目特性: Y L,Y uの範囲内ならば良い となる. この関係を 2因子の場合について表示1.1に示す. 、 縦軸 X2) 表示1.1 : υ の等高線(横軸 Xj, a, b) 望/ 1 " 望大特性 c) 望目特性 2 く 時間 r J J ; 万 三 ) ; f f f ¥ 人 X 之、斗) j ' JJff U J メ ぺJ f x l 温度 望小,望大特性の場合は, 最 適 点 ( +) と許容範囲(実線)が一意に定まる. それに対して,望日特性の場合は, ある楕円上の点はすべて目標値と一致する. また.許容範 囲は帯状のリングとなる. これから, 望目特性については, 1特性だけからは最適条件が決めら れないことがわかる.最適条件を決めるためには別の条件を加味する必要がある.たとえば,Xj は反応温度で一定に制御することは難しいが ,X2 は反応、時間で正確に制御できるとすると,表示 1.1右のグラフで,。印の点は温度の設定が少々狂っても許容範囲から外れ難いのに対し, ×印 の点は温度の設定がずれると許容範囲から外れてしまうので, 0印の点の方が優れていると考え られる. このような考え方を発展させたのが田口メソッドパラメータ設計であると理解するこ とができる. また,次章で説明するように特性が複数あると,総合的な最適条件が一意に決められる. 1 .2 2因子の応答曲面 式(1.1)の関数 fは , 一般には 2次式で近似される.そのとき,関数 f(x) は υ=句 +bjxj+bll:r~ +b2:r2+b22X~ +bω ; jぬ +e 5‑ ( 1 .2 )
で表される.このとき ,yの等高線は表示1.1のように同心楕円となることが多い.このような関 数で表される uの変化を応答曲面(Res ponseS u r f a c e )と呼ぶことがある. 極値(最小値,または,最大値)を与える Xlo, X20は,式(1. 2 )を Xl, X2 で偏微分して 0と置 いて得られる連立方程式を解いて求められる. 表示1.1のように等高線が楕円となるのは, bll と b 22 の符号が等しい場合である.符号が異な a d d l ep o i n t )の る場合は,表示 1 .2左のグラフのように極値は最大値でも最小値でもない(鞍点 s で,一散に固有技術的に解釈できない.実験の前提や過程に問題なし、かを十分に再検討する必要 がある. : 異常な等高線(矢印は傾斜方向を表す) 表示1.2 積の項が大きい 2次項の符号が異なる X 2 X 1 X 1 また, 2乗項の符号が同じでも,積の項が 2乗の項に比べて大きいときは,注意が必要である. 2b12八/bl 2右のような等高 lb22 が土 1に近いとき,楕円が薄くなり,土 1を越えるときは,表示1. 線となり,左の図と同様,極値は最大値でも最小値でもなくなる. 1 .3 多因子の応答曲面 2因子の場合は,表示1.1の等高掠を見れば,最適条件の位置は一目瞭然である.しかし, 3因 子以上になると,工夫が必要である. 2因子を組み合わせて平均値の 2元表を作り,それに等高線を当てはめると,表示1.3が得られる. このグラフから, 3次元での最適条件がどこにあるかを知ることは困難である. 脳の中の病巣の位置を目で見る道具に CTスキャンがある.頭の断面を数センチまたは数ミリ 置きに写真にとり,立体的に腫擦などの位置や大きさを知ることができる.同様の考え方を適用 すれば, 3次元以上の空間での等高線を目で見ることができる. すなわち, 2つの因子の平面で、の等高鰻を,他の因子の値を間欠的に変化させて描く.これを, 動画として見ることにより,多次元の反応曲面を知ることができる.表示1.4は , X, I X2 平面で ‑6
! !J / . 起 l ド対二 の Yl の等高線を ,x3=l, 2, 3ごとに作成して並べたものである 3 表示1.4 : 3因子の等高線(Ex田1 ) C = ‑ l 1 .4 交互作用 積の項 XIX2 の係数 b 2が Oでないとき, 2つの因子聞に交互作用があるという. 1 交互作用のあるとき,等高線は表示1.5の左のようになる. :交互作用のある場合のグラフ 表示1.5 <1 1 <2 1 等高線を,縦軸または横軸に平行な点線で切断した断面図(横軸が Xl または X2 で縦軸が νの 3 表示1.3と1.4はデータの平均値を Excelのグラフ機能(等高線)を利用してグラフ化したものである. ‑7‑
グラフ)が中央と右に示されている. 断面の曲線は,切断する位置によって異なる. ( b12=0(交互作用がなし、)のときは,断面は同 じ形で,上下に移動すると完全に一致する.) また,極値の位置も切断する位置によって変化する. 2つの因子聞に交互作用があるかどうか,すなわち,モデルに積の項を含める必要があるか,ま た,積の項が技術的に妥当かどうかは,多特性の最適化を考える場合に極めて重要である. そして,交互作用の有無およびどのような交互作用かは,表示1.5に示すように, 2種類のグ ラフ(等高線,および,他の因子との組合せた効果の曲線群)によって知ることができる. 1 . 5 JMPによる解析 表示 0 . 1のデータを JMPで角斡庁するには, Fit Modelを選択し, , Xl , X2 X3 を反転にしたの ち , Effect Macrosから ResponseSurfaceを選択する. 3つの因子の 1次項, 2次項と積の項 が Effects inModelに自動的に生成される. l と仰を反転して, >Y >をクリックする. 次に, Y 右下の RunModelの上の箱は解析の手法を指定するためのもので, Modelに含まれる変数のタ イプと Yの変数のタイプと個数の組合せによって自動的に標準的な手法が選ばれる.上の変数の 組合せに対しては, Manova(多変量分散分析)が表示される.このメニューをクリックすると,他 の候補として Screeningが黒くなっている.ここでは, Screeningを選択してから, RunModeユ をクリックする.以下, Y lについての結果を説明する. Parameter Estimatesをクリックすると.表示1.6の出力が得られる. 表示1.6 :J~:1P の数値解 (1) S c r e e n i n gF i t Y1 Term I n t e r c e p t X1 x2 X3 X1 X1 x 2 合X1 x2・x2 X3 ・ X1 ・x2 X3 X3X3 合 合 P a r a円l e t e rE s t i m a t e s E s t i m a t e S t dE π'or 32.259259 1 . 0 5 5 5 5 5 6 0 . 3 3 3 3 3 3 3 3. 4 444444 ・5 . 6 1 1 1 1 1 5 . 2 5 ‑ 4 . 7 7 7 7 7 8 ・3 . 5 ・1 . 416667 ・5 . 1 1 1 1 1 1 1 . 5 7 0 8 2 2 0.727149 0 . 7 2 7 1 4 9 0 . 7 2 7 1 4 9 1 . 2 5 9 4 5 9 0 . 8 9 0 5 7 2 1 . 2 5 9 4 5 9 0 . 8 9 0 5 7 2 0 . 8 9 0 5 7 2 1 . 2 5 9 4 5 9 tR a t i o P r o b > l t l 2 0 . 5 4 1. 45 0. 46 4 . 7 4 ・ 4. 46 5 . 9 0 ・ 3 . 7 9 ・3 . 9 3 ‑ 1 . 5 9 ‑ 4. 0 6 < . 0 0 0 1 0 . 1 6 4 8 0 . 6 5 2 5 0 . 0 0 0 2 0 . 0 0 0 3 < . 0 0 0 1 0 . 0 0 1 5 0 . 0 0 1 1 0 . 1 3 0 1 0 . 0 0 0 8 データから推定された式は Solutionから, f i=32.26+1 .0 6 x l+0 .333x2+也生圭一竺巴i日2 2 日 生i 1 .42x2:r 3 ︒ ︒ +主笠旦主主一生生旦呈
である. Prob>ltl の値が 0 . 0 1以下の項にはアンダーラインが引し、てある. Respnse Surfaceをクリックすると表示1.7の出力が得られる.極値の位置は Solutionから, 表示1.7 :JMPの数値解 ( 2 ) ResponseS u r f a c e x2 ・5 . 6 1 1 1 1 1 5 . 2 5 ? ‑ 4. 7 7 7 7 7 8 つ つ Coef X1 X1 x2 X3 Y1 1 . 0 5 5 5 5 5 6 0.3333333 4444444 3. X3 ‑ 3 . 5 ・1 . 41 6667 ‑ 5 . 1 1 1 1 1 1 S o l u t i o n C r i t i c a lV a l u e V a r i a b l e ‑ 0 . 0 3 2 5 7 4 X1 ・ 0 . 0 3 5 3 4 9 x2 0 . 3 5 3 0 0 8 5 X3 S o l u t i o ni sa Maximum P r e d i c t e dV a l u ea tS o l u t i o n 3 2 . 8 4 4 1 3 5 , Xlo二 一 0 . 0 3 3 X20 二 一 0 . 0 3 6,句。=0 . 3 5 3である. 2乗項の符号はすべて負で、あって,この点 は極大点であることが,出力に Solution is a Maximumと表現されている.この点における Yl の値は, Solutionの最後に表示され, 3 2 . 8 4である. 画面左下の v ボタンから InteractionPlotsを選択すると表示1.8が得られる 4 表示1.8 : InteractionProfiles(多因子連関図) I n t e r a c t i o nP r o f i l e s R e s p o n s e : Y1 。 ‑ 0 . ‑ 1 F 0 5 1 1 0 5 x 35 ( 1 , う ダ き そ Xl F 〉 ら 4 一品 1 5 35 「 0 . 5 グ ヤ む き 35 グミ;i ロ X2 ‑1 〉 。 0 . 5 。 グ ミ 歩賞;o ; 0う , ‑ F X3 1 〉 x w 5 F . F 「 Xl X2 X3 このグラフは表示1.6の中・右に相当するグラフを,すべての因子の組合せについて 2次元に並 4 オプション選択画面の名前は I nteractionPlotsで,出力の名前は InteractionProfiles と異 なっているので,注意 ‑9
べたものである.これを多因子連関図と呼ぶことにする 5 このグラフから,交互作用の傾向や 大きさを一度に見ることができる. 多国子連関図は大変便利なグラフであるが, 。複数の曲線が他の因子のどの水準に結びついているのかがはっきしない, o 1特性のグラフが 2次元であるから,これを 2特性に拡張すると 3次元のグラフになっ てしまい,多特性に拡張することが不可能である, という 2つの欠点を持っている. JMPは GUI機能をフルに活用して,これらの欠点を解決する手段を提供している. Screeningの基本出力として,表示1.9の一番上のグラフ (PredictionP r o f i l e ) が表示さ れる 表示1.9 :P r e d i c t i o nP r o f i l e 35 ~32.25926 〉 5 35 ~27.14815 〉 5 35 ~27.50384 〉 5 T " " " ‑0.65 ' ¥ ' ¥ ‑1 「 2 Xl X2 。 X3 表示1.9は,左右に並んだ 3つのグラフが組になって意味を持つ.左は, A:171 を,中央は B : X2 を,右は C :X3 を横軸にとって,縦軸に Yl が取られている.上のグラフは,X,! .1:2,X3 を中 央に固定したときの, , Xl,X2 X3 と uの関係を示している.固定した z の位置に鉛直線が引か れている.マウスを使って鉛直線を左右に移動でらきる .X2鉛直線を右に移動すると,中段のグラ フが得られる. Xlとuの曲線の形が変化することから, XlとX2 の聞に交互作用のあることがわ 5 散布図や層別ヒストグラムを並べ,多変量の関連を見るための作られたグラフ,多変量連関図と考え 方が類似しているの,仮にこのように名前を付けた. ‑10一
かる.さらに u を大きくする水準を求めて, Xj を左に移動すると下段のグラフが得られる.グラ x3 の値が,右に u の値が表示されている. フの下に X j,X2, この後 ,x3 を大きい方 ( 2次曲線の頂点)に移動することにより ,yを大きくなる. このように,横軸の値を自由に変化させて,最も好ましい条件を探索的に求めることができる. このグラフは,複数個の特性についてのグラフを縦に並べると,ある因子が複数個の特性に与 える影響,たとえばトレードオフの関係などを,総合的に見ることができるとしづ発展性を持っ ている. 反応、曲面の等高線を求めるために,まず, Response Surfaceの ContourPlot Specification をクリックする. X1 と X2の前の箱が×となっており, X3が空白である.このまま Goをクリッ クすると,表示1.10に示すような, . ' ] ; 3= ‑ 1 .5に固定したときの X j,x2 平面の uの等高線が現 れる 表示1.10: 勾=一1.5での等高線 C o n t o u rP l o tS p e c i f i c a t i o n C h e c kt w of a c t o r s,e d i tg r i d l s 回 l ev a l u e s V a r i a b l e F r o m T o By X X X1 ‑ 1 . 5 1 . 5 1 . 5 1 . 5 x 2 ・1 . 5 X3 Y 1 0 ‑ 1 . 5 40 0 . 5 0 . 5 0 . 5 5 C o n t o u rP l o t s X3= ・1 . 5 : . 5 ' ~ ー1. 1.5 ‑1.0 ‑0.5 り .5 ユ.0 1.5 左上のマークをクリックすると .X3 を1.5 から+1.5 まで 0.5刻みに変えたときの等高練が次 々に表示される.これから ,yj を最大にする XjとX2 の水準組合せが X3 によって変化する様子 を見ることができる. ×を移動することにより,任意の 2因子の等高錬を見ることができる. ‑11ー
2 多特性の最適化 2 . 1 複数の条件を満たす領域 まず特性の数が 2の場合の等高線の様子を示す. 特性毎に,許される範囲を指定したとき,表示1.1の等高線と許容範囲を描いたグラフを重ね, 許容範囲の重なっている部分を求めることができる.表示 2 . 1に,望小・望大特性と望目特性の 3 通りの組合わせについて示す. . 1 :許容範囲の重ね合わせ 表示 2 望小*望小 望小*望目 望目*望目 一般に複数の特性値があるとき,ある特性値を良くすると他の特性値が悪くなるとし、う場合が 多い.たとえば.品質を上げるとコストが高くなる. 許容範囲の重なりがないときは,いずれかの特性を妥協する,すなわち,許容範囲を広げる必 要がある. JMPにはこのような探索を自由にできる機能が含まれる. 表示 2 . 2に JMPで , 2つの等高線を重ね,許容範囲を変更する画面を示す. JMPではこのグラ フを ContourProfilerと呼んでいる. 出力の上に,許容範囲を指定する場所があり,自由に設定,変更することができる.ここでは, Y lは 2 7以上,Y 2は 1 4rv 1 6とした.範囲外の部分はハッチが入る.白く残った部分がすべての 条件を満たす. Y lニ 3 0,Y 2=1 5に線が記入されている. 因子数が 3以上の場合は, 2つの因子を指定して等高線を描き,他の因子の値をカーソルの移 9 . 5に設定されている. 動で自由に設定することができる.このグラフでは勾=1 E4 唱 ηJU
表示 2 . 2 :ContourProfiler H o r i z V e r t F a c t o r X X1 X x2 X3 Response Y1 30 Y2 15 Contour 32.82161日 19.502894 ContourP r o f i l e r C u r r e n tX 。 。 G r i dDe n s i t y UpdateMode 0.3962264 C u r r e n tY 27 14 LoL im i tH iL im i t ? 16 ι z Xl y2 1 空 i .l Xl 2.2 多特性連関図 1特性に対する多因子の影響は表示1.9の PredictionProfilerで表わしすことができた.ヤ れを縦に並べると"表示1.9と同様に,因子の水準を自由に変更して多特性の変化の様子を一度 に見ることができると期待される.このグラフは,各因子の効果が各因子に与える影響を総合的 に見ることができるので,多特性連関図と呼ぶことにする. JMPの出力を表示 2 . 3に示す.ただし,表示 2 . 3には次の節で説明する好ましさに関する情報も 含まれる. 2 . 3 好ましさ D e s i r a b i l i t y 前節では,各特性について,許容値を決めてすべての特性について許容値の範囲内でなければ ならないと仮定して,許容条件を決めた. しかし,現実は,許容値よりちょっとでも外れては駄目であるとか,許容値の範囲内ならどこ でも十分満足であるというわけではない. 特性値の値 uと好ましさ ( D e s i r a b i l i t y )(満足度)dの関係を想定する.たとえば,この範囲 外では全く不満足である ( d=0 )領域と,この範囲内であれば完全に満足である ( d=1 )領域を 4lA nJ
表示 2ふ多特性連関図 S c r e e n i n gF i t Y1 Y2 P r e d i c t i o nP r o f i l e 35 〉 30.33748 23 ~、‘ 15.22671 5 0.654925 。 3 君 5 会 悶 寸 ‑0.52 ~で Xl 0.49 ~で X2 0.02 ~口 X3 Desirability 定める.両者の中聞は,ある程度満足である ( 0<d<1 ) とする. uと dの関数としては,色々考えられるが,最も簡単なものは表示 2.4に示す折れ線で、ある. . 5 : 2特性の総合的好ましさ 表示 2 表示 2 .4:折れ線の好ましさ関数 望小特性 望目特性 望大特性 d~~~ l八 [/ 望小特性と望大特性については,d=O と d=lの聞を直観で結ぶだけでなく,途中で 1箇 所 折り曲げることができるものとする. 表示 2 . 3のグラフの右に好ましさ関数を追加して,各特性の好ましさを考慮して ,xの値を前T 錯誤的に修正して,総合的に満足度が高い水準組合せを探索することができる.好ましさ関数は, 折れ諌の 3点を移動させて自由に変更することができる. 2つの特性のそれぞれの好ましさが d1,のであるとき,総合的好ましさ D はvdla2で表わ 1aA A‑
されるものとする .Y ! 'Y 2平面で総合的好ましさ D の等高線を描くと表示 2 . 5のようになる. Y l の好ましさが d1=0であるとき ,Y 2がどんなに良くても, D は 0である.この定義によ ると,ある特性が不満足であるとき,他の特性の良さで補うことはできない. 特性の数 qが 3以上のとき.上の式を拡張し,次の式で定義する. ( I Idk ) < D= j q ( 2 . 1 ) l ) 表示 2 . 3の下には,横軸に因子の水準,縦軸に総合好ましさをとったグ ラフが付加されている. 総合好ましさが最大になる位置に水準を移動させることにより,最適な水準組合せが求められる. そのときの,各特性の満足度を見て,特性聞のバランスが良くないときは,好ましさ関数の折 れ線を修正すればよい. 3 応用 3 . 1 モデルの簡略化 得られたモデ、ル式から,統計的に有意でない項 (2乗項や交互作用項)を除いて応答曲面を当 てはめたい. Screeningでは ,Y毎に異なるモデ ルを当てはめることはできない.このような場 凶 l l e r (1 9 9 7 ) ) . 合には,次のような手順で目的を遣することができる (Ober o 一つずつの特性について, stepwise6で,モデ、ルに含めるパラメータを決め,推定値を データ表に記録する. o 全特性の推定値を υとして, Screeningで、モデルを当てはめる. この方法で, stepwiseで設定したモデルについて,多特性の最適化条件を求めることができ る.ただし,分散分析表や,パラメータの p値などは意味がなくなるので,使つてはならない. 3 . 2 最適計画 2次の応答曲面を求めるためには, 3水準の実験が必要である.前節で用いた例は, 3因子の 4=8 3=2 7個の観測値を解析の対象とした. 4因子のときは, 3 1で,すべての組合せ 実験で 3 について実験することは,極めて困難である. 3水準系の直交表 L 2 7 ( 313) に 4因子を割付け,すべての 2因子交互作用を推定することはでき ない. 2因子交互作用のために 2つの列がとられるため,主効果に 4列,交互作用に 1 2列,合計 1 6列が必要となる.これは,直交表の列の数 1 3を越えてしまう. 6 JMPでは,モデルの当てはめの方法として, s t e p w i s eを用いると,対話的に変数を取捨選択してそ テツレを当てはめることができる.この機能は SASjSTATにはない機能でーあって,通常の重回帰分析の変 数選択に Jl¥1Pを使うメリットとなる. t 司L Fhd
それに対して,式(1.2 )の応答曲面モデ、ルでは, 2因子交互作用の自由度は 1であるため,推 定したいパラメータの数は,定数項1,主効果 2*4=8,2因子交互作用 4C2=6,合計 1 5であ る.これに数個を加え, 20前後の大きさの実験で,モデルを当てはめたい. このような場合には,水準組合せの直交にこだわらず,与えられた実験回数で,モデルをもっ とも精度の良く推定できるとしづ意味で,最適な実験を計画する方法がある.このような実験の 計画は, SAS/QCの PROCOPTロで作成できることは,以前に紹介した7 JMPにもこの機能 の主要部分 ( D最適計画)が含まれており,今回紹介する多特性の最適化と組合せると,多くの 分野の実験計画に極めて有力な武器となるであろう. 3 . 3 SN比 望小特性で,平均値だけでなく標準偏差も小さくしたいとき, S N比が用いられる.この場合の SN比は SN比 =101og10~二 y;/n 包二 1 で定義される.対数の中身は次のように変形できる. 2 ン; / n=(LY;‑n f ' l+n f ' l ) / n i=I i=I S+nfl n n ‑ 1̲2 ,~2 ‑ ‑ S~ + ' t J n これから, S N比は平均 Uと標準偏差 sを総合した特性値と見ることができる.このような場 合に,平均値と標準偏差を 2つの特性値として,ここに説明した方法で最適条件を求めることが できるであろう.この方法を用いると,多因子連関図から,各要因が平均と標準偏差にどのよう に影響しているかを別々に知ることができ,固有技術の蓄積に役に立つであろう. また ,yの平均値,標準偏差の代わりに, l n yの平均値と標準偏差を用いた方がモデルの適合 が良くなる場合が多いと思われる. 7 芳賀敏郎, fSAS/QCによる実験の計画 非直交計画の紹介 J,SUGI‑J論文集 ( 1 9 9 2 ) pb
日本 S A Sユーザー会 (SUG I‑J) SASによる正確な検定 0 浜田知久馬 東京大学医学部薬剤疫学教室 Exactt e s t s u s i n gSAS C h i k u m aH a m a d a U n i v e r s i t yo fT o k y o u n k y o ‑ k u,T o k y o,1 1 3 H o n g o7 ‑ 3 ‑ 1, B 要旨 リリース 6 .1 0における N P A R 1 W A Yプロシジャ, リリース 6 .1 2における F R E Qプロシジャの拡張によっ て,様々な検定の正確な並べ替え p値を計算することが可能になり,しかも解析結果をデータセッ A Sユーザーの数も増加し,必ずしも統計学につ トにおとすことができるようになった.最近では S いて十分な知識を持っていないユーザーが利用することも多くなってきた.そこでテュートリアル として,様々な正確検定の S A Sでの実行例と解析結果の読み方を示す. hhi ワ キ N P A R 1 W A YF R E QM U L T T E S T 正確な検定並べ替え検定 t 勺 'EA
1.はじめに 浜君と石君は薬学部の 3年生で,学生実習で慌が一緒になった.浜君は朝型で,時間に正確であ ることで有名な学生であった.これに対し石君は夜型で、時間にはノレーズ、なことで知られていた.こ んな 2人が実習で同じ班になったのも何かの因果であるが, 2人は共同しである人間の細胞のクロ ーニング実験を行った. 8つのペトリ皿を用意して,そのうち 4つには通常の栄養を与え,残りの 4つには通常の栄養に加え,ビタミン Eを添加した後で, 1 0個の細胞を移植した.これらの細胞に ついてはあらかじめ放射活性物質でラベルしてあった.この実験の目的は,ピタミン Eに細胞増殖 を促進するような効果があるかを調べることにあった. やっと実験処理が終わった頃にはかなり遅い時間になっていた.後は翌日の朝,放射活性を調べ て細胞の数を調べるだけであった.この結果を明日の 5時までにレポートにまとめ大先生に提出し なければ, 2人は単位をもらえず留年してしまう.浜君は自宅生で郊外に住んでいたため,終電に 間に合うように,実験の後片付けを下宿生である石君にまかせ,実験ノートを預けたまま,一足先 に帰った. さて翌日,浜君は実習室にいつもどおり,朝早く到着し,早速実習を開始した.どうやら実験は 成功したらしく,いくつかのペトリ皿では細胞数がかなり増えていた. 8つのペトリ皿で細胞数を ) 頃に並べると, カウントし大きい1 1 2 11 1 81 1 0 95 90 34 22 1 2 となった. 石君は定刻になってもこなかなったが,いつものことであるので,浜君は驚きもしなかった.浜 君はレポートを作成しはじめた.そこで彼は重要な過ちに気付いた.前日彼は,実験ノートを石君 に預けてしまった.そのノートに,どのペトリ皿がビタミン E処理群であるかが記されていたので ある.さらに彼は石君の携帯電話が置いてあるのを発見した.どうやら石君は咋晩遅く電話がかか ってきて,そのまま忘れてしまったらしい.石君と連絡をとる手段はないのである.しかし午後ま でには来るだろうと思い,気を取り直して,書けるところからレポートを書き始めた. 午後 2時,石君はまだ来なかった.浜君は既に結果の項を除いてレポートを書き上げていた.さ すがに浜君もあせりはじめていた.今更ながら石君にノートを預けた自分の愚かさに後悔しつつも, 彼は気を落ち着かせるため,可能な結果のパターンについて,考えてみた. 8枚ペトリ皿があって, どの 4枚かはわからないが,このうち 4枚は,ビタミン E処理群である.その 4枚がカウント数の 2,1 1 8,1 1 0,9 5 )であれば,ビタミン Eには細胞増殖効果があると考えてもよいだ 高い方から 4つ(12 ろう.それ以外の場合はどうだろうか?浜君はビタミン E処理群の可能な組み合わせについて表 1のように書き出した. 0通りとなった.これは8個から 4個を抜き出す組み合わせの数, 8C4= 可能な組み合わせは合計 7 (8X7X6X5)/(4X3X2X1 ) = 7 0に他ならない 4つのペトリ皿で、細胞数の和は最小 1 5 8から最大 4 4 4まで計 7 0通りがあり得る.ここで浜君は考えてみた.ビタミン Eに細胞増殖作用がなければ,ピ タミン E処置群も非処置群も分布が等しいので,これらの組み合わせは全て等しい確率(1 / 7 0 )で生 2 2,1 1 8,1 1 0,9 5で、あったとすると,細胞 じるはずである.仮にピタミン E群のペトリ皿の細胞数が 1 4 4となり,このパターン以上にビタミン E群に細胞数が多いパターンは存在しない.こ 数の和は 4 /7 0という小さな確率でしか生じないはずであ のような事象はビタミン Eに増殖効果がなければ, 1 り,ピタミン Eに増殖効果がないとは考え難い.したがってビタミン Eには細胞増殖効果があると 考えてよさそうである. 時5 5分,締め切り 5 分前に石君が,特に悪びれるわけでもなく,のこのこやってきて,レポ 午後 4 ‑18‑
ートを提出したかどうかを尋ねた.浜君は怒りを抑えつつ,石君から研究ノートを奪い取り,ビタ ミン E群のペトリ皿の番号を確認した.細胞数が 1 2 1, 1 1 8,1 1 0,9 0のペトリ皿であった.しかし浜君 にはもはや統計解析をする時間はなかった.浜君はとっさに考えた.これ以上にビタミン E群で細 胞数が多くなるパターンは,このパターン自身と 1 2 1,1 1 8,1 1 0,9 5のみである.そこで浜君は, I 確率 /70 で、有意 J と走り書きして, レポートを提出した.その瞬間,事務の終了を告げるべルがなった. 2 表 1 ビタミン E群の 4枚のペトリ皿の可能な組み合わせ N o .仮のへ.トリ皿番号 細胞数 口 手 234 1 8 1 1 0 9 5 4 4 4 1 2 1 1 3 6 2 3 4 5 1 2 1 1 1 8 1 1 0 9 0 4 3 9 2 1 235 3 7 2 3 4 6 3 1 236 1 2 1 1 1 8 1 1 0 3 4 3 8 3 3 8 2 3 4 7 1 2 1 1 1 8 1 1 0 2 2 3 7 1 4 1 237 3 9 2 3 4 8 1 2 1 1 1 8 1 1 0 1 2 3 6 1 5 1 238 4 0 2 3 5 6 1 8 9 5 9 0 4 2 4 6 1 245 1 2 1 1 4 1 2 3 5 7 1 2 1 1 1 8 9 5 3 4 3 6 8 7 1 246 4 2 2 3 5 8 5 2 2 3 5 6 1 2 1 1 1 8 9 8 1 247 4 3 2 3 6 7 1 8 9 5 1 2 3 4 6 1 2 1 1 9 1 248 4 4 2 3 6 8 0 3 4 3 6 3 1 2 1 1 1 8 9 1 0 1 256 4 5 2 3 7 8 0 2 2 3 5 1 257 1 2 1 1 1 8 9 1 1 4 6 2 4 5 6 1 8 9 0 1 2 3 4 1 1 2 12 5 8 1 2 1 1 4 7 2 4 5 7 1 2 1 1 1 8 3 4 2 2 2 9 5 1 3 12 6 7 4 8 2 4 5 8 4 1 2 2 8 5 1 2 1 1 1 8 3 1 4 1 268 4 9 2 4 6 7 1 8 2 2 1 2 2 7 3 1 2 1 1 1 5 1 278 5 0 2 4 6 8 5 9 0 4 1 6 1 2 1 1 1 0 9 1 6 1 345 5 1 2 4 7 8 1 0 9 5 3 4 3 6 0 1 7 1 346 1 2 1 1 5 2 2 5 6 7 1 8 13 4 7 1 2 1 1 1 0 9 5 2 2 3 4 8 5 3 2 5 6 8 1 0 9 5 1 2 3 3 8 1 9 13 4 8 1 2 1 1 5 4 2 5 7 8 1 2 1 1 1 0 9 0 3 4 3 5 5 2 0 13 5 6 5 5 2 6 7 8 1 0 9 0 2 2 3 4 3 357 1 2 1 1 2 1 5 6 3 4 5 6 0 1 2 3 3 3 1 2 1 1 1 0 9 2 2 1 358 5 7 3 4 5 7 4 2 2 2 8 7 1 2 1 1 1 0 3 2 3 1 367 5 8 3 4 5 8 1 2 1 1 1 0 3 4 1 2 2 7 7 2 4 13 6 8 5 9 3 4 6 7 1 0 2 2 1 2 2 6 5 2 5 13 7 8 1 2 1 1 6 0 3 4 6 8 0 3 4 3 4 0 1 2 1 9 5 9 2 6 1 456 6 1 3 4 7 8 2 7 14 5 7 1 2 1 9 5 9 0 2 2 3 2 8 6 2 3 5 6 7 0 1 2 3 1 8 2 8 14 5 8 1 2 1 9 5 9 6 3 3 5 6 8 2 9 14 6 7 1 2 1 9 5 3 4 2 2 2 7 2 6 4 3 5 7 8 3 0 14 6 8 4 1 2 2 6 2 1 2 1 9 5 3 6 5 3 6 7 8 2 1 2 2 5 0 478 1 2 1 9 5 2 3 1 6 6 4 5 6 7 4 2 2 2 6 7 1 2 1 9 0 3 3 2 1 567 6 7 4 5 6 8 3 3 15 6 8 1 2 1 9 4 1 2 2 5 7 0 3 6 8 4 5 7 8 3 4 15 7 8 1 2 1 9 2 1 2 2 4 5 0 2 6 9 4 6 7 8 細胞数 口 手 1 1 8 1 1 0 9 5 9 0 4 1 3 1 1 8 1 1 0 9 5 3 4 3 5 7 1 1 8 1 1 0 9 5 2 2 3 4 5 1 1 8 1 1 0 9 5 1 2 3 3 5 1 1 8 1 1 0 9 0 3 4 3 5 2 1 1 8 1 1 0 9 0 2 2 3 4 0 1 1 8 1 1 0 9 0 1 2 3 3 0 1 1 8 1 1 0 3 4 2 2 2 8 4 1 1 8 1 1 0 3 4 1 2 2 7 4 1 1 8 1 1 0 2 2 1 2 2 6 2 1 1 8 9 0 3 4 3 3 7 5 9 1 1 8 9 5 9 0 2 2 3 2 5 1 1 8 9 0 1 2 3 1 5 5 9 1 1 8 9 4 2 2 2 6 9 5 3 1 1 8 9 4 1 2 2 5 9 5 3 1 1 8 9 5 2 2 1 2 2 4 7 1 1 8 9 0 3 4 2 2 2 6 4 1 1 8 9 4 1 2 2 5 4 0 3 1 1 8 9 0 2 2 1 2 2 4 2 1 1 8 3 4 2 2 1 2 1 8 6 1 1 0 9 5 9 0 3 4 3 2 9 1 1 0 9 0 2 2 3 1 7 5 9 1 1 0 9 0 1 2 3 0 7 5 9 1 1 0 9 5 3 4 2 2 2 6 1 1 1 0 9 4 1 2 2 5 1 5 3 1 1 0 9 2 1 2 2 3 9 5 2 1 1 0 9 0 3 4 2 2 2 5 6 1 1 0 9 0 3 4 1 2 2 4 6 1 1 0 9 0 2 2 1 2 2 3 4 1 1 0 3 2 1 2 1 7 8 4 2 9 5 9 0 3 4 2 2 2 4 1 4 1 2 2 3 1 9 5 9 0 3 9 5 9 0 2 2 1 2 2 1 9 2 1 2 1 6 3 9 5 3 4 2 3 5 16 7 8 9 0 N o .仮のへ.トリ皿番号 1 2 1 3 4 2 2 1 2 1 8 9 7 0 5 6 7 8 3 4 2 2 1 2 1 5 8 2 . 並べ替え検定 (permutation test)とは? 検定の p値は,帰無仮説が正しいときに,偶然によって得られたデータ以上の差が生じる確率を 意味する.並べ替え検定では以下の手I } 買で p値を計算する. 1.検定統計量を選択する. 比較する群聞の違いを表わす何らかの統計量を選択する.先ほどのペトリ皿の例では,ピタ Tよ QU
ミン E処理群の細胞数の和 ( S U M )に注目したが,平均値でも, 2群の平均値の差でも,順位和 でも,検定統計量は構成できる. 2. 得られたデータについて検定統計量 ( S U M o b s)を計算する. SUMobs =121+118+110+90=439 3 . 帰無仮説の下で起こりうる全てのパターンを数えあげ,検定統計量の分布を調べる. ビタミン Eに細胞の増殖効果がなければ, 2種類の群の分布は等しくないので, 8枚のペト リ皿をまとめて 1つの群を構成することができる.この 8枚から 4枚をランダムに抜き出し たときの分布は,浜君が考えたように 8C4=70通り存在する.この 70通りのパターンについ て細胞数の和の分布 (SUMperm)を求めると次のようになる. nu‑‑ 'EA‑‑ t+ll*11ll+ 一 一 I I l l 1 1 1 I 4 1 1 1 1 1一 ふ Y 一 吋I 一 ν nY A ‑ ‑ O 一 一一 +1l*Illl+ 日 仏 111 w'inrhnrh'IFhunrhn64Eaaz'i'iqJ'inrhnrh'i S t e mLeaf 4 44 4 24 9 4 03 6 3 83 3 60 1 3 8 1 3 4 001356812567 3 25 8 9 0 3 5 7 8 3 07 5 7 8 284 5 7 5 2 61 2 2 4 5 7 9 2 3 4 7 2 41 2 5 6 7 0 1 4 6 7 9 2 21 4 9 2 09 1 86 9 1 63 8 1 48 + ‑ ‑ ‑ ‑ + ‑ ‑ ‑ ‑ + ‑ ‑ ‑ ‑ ‑ + MultiplyStem.Leafb y1 0 * * + 1 図 1 並べ替え分布の幹葉表示と箱ひげ図 4. 得られたデータ以上に極端なパターンの頻度を数え上げる. この頻度が全パターンに占める割合が並べ替え検定の p値である.ビタミン E実験における 観察された細胞数の和 SUMobs=439を越えるパターンの割合は, 2/70=0.0286で,並べ替え検 定の p値は 0.0286 (片側)となる. 並べ替え検定はこのような手順で計算する.正規性などの現実性の乏しい仮定を必要とせず,帰 無仮説の下で比較する 2群の分布が等しいという仮定のみを必要とする.この仮定は無作為化割付 けを行っている状況では,自動的に成立する.このように並べ替え検定の最大の利点は,分布形に 依存しないで、有意水準を正確に制御で、きることである.またもう 1つの特徴は検定統計量自体は任 意に選択することができ,このため応用範囲が広く,拡張性に優れている.ただし,対立仮説の下 での検出力は検定統計量の選び方によって異なってくるので,検出力が高くなるように,適切な検 定統計量を選択する必要がある. この論文の表題は iSASによる正確 (exact)な検定」としたが, iSASによる並べ替え (per皿 utation)検定」とした方が用語的にはより適切であると思われる.後者の表題をつけなかったのは, 並べ替え検定という用語は狭義には,計量値についての並べ替え検定を連想させるのに対し,本稿 並べ替え検定」は,検定を構成す では並べ替え検定のもっと幅広い応用を意図したためである. i I 名 randornizationあるいは rerandornization t るときの原理・手順に基づいたネーミングである.月j estと呼ばれることもあり,これらも検定の構成原理に基づいたネーミングといえる.これに対し て「正確」とは,並べ替え検定の性質を表わすものである.母集団の分布形に依存せずに正確に有 意水準を保つことができるのが並べ替え検定の特徴であり,この意味で、 distribution freeという ‑20一
用語が用いられることもある.また並べ替え検定はノンパラメトリック検定の一種である.ノンパ ラメトリック検定というと,データを順位に変換して計算する方法のようなイメージがあるが,本 来の意味は,特定の分布を仮定しない統計手法という意味であるので,並べ替え検定はノンパラメ トリック手法の一種である.ただしワイノレコクソン検定に代表される多くのノンパラメトリック検 定では,図 1のような厳密な並べ替え分布を用いずに,正規分布やカイ 2乗分布で近似することが 多く,厳密には並べ替え検定とは呼べない.並べ替え検定の中で最もポピュラーな手法は Fisher e tで、あり,正確な検定という呼び方は,その名残であるともいえる.分割表におけるカイ xact t巴s 2乗検定は,セノレの期待度数が 5以下のものが存在すると,カイ 2乗近似の精度が悪く,信頼性に 乏しいことがよく知られている.これに対して正確な方法ということで Fisherは「正確検定」とネ ーミングしたのではなし、かと推測される? ‑検定統計量 Boxplot 内 フ ω 3 bFbヮ︐ヮ︐ QUヲtヲtFbFb 3nJb?ayA 付 "Hτ41A 戸 一一一 一一一 +ll*・ ll+ 一 一‑ ‑ 一 一 一+一 +ll*ll+ 内 StemLeaf 26 0 25 0 2 4 00 2 3 000 2 2 00000 2 1 00000 2 0 0000000 1 9 0000000 1 8 00000000 1 7 0000000 1 6 0000000 1 5 00000 1 4 00000 1 3 000 1 20 0 1 10 1 00 図 2 順位和の並べ替え分布の幹葉表示と箱ひげ図 検定統計量の選び方によって,様々な並べ替え検定を構成できる.例えば t検定の場合は片方の 群の和, 2群の平均値の差, t統計量のどれを選んでも,同ーの並べ替え検定の p値を与える. 2 群を一緒にして順位をつけて片方の群の順位和を計算すれば,ワイルコクソン検定の並べ替え検定 版を構成できる.図 2に順位和の並べ替え分布を示した. 順位和は 1 0から 2 6までの範囲で分布する.この例のようにタイ(同順位)がなければ,各群の N の大きさが決まれば,順位和の並べ替え分布は, 個々のデータの値に依存せず決定することがで きる.統計数値表(山内二郎編(19 7 2 ))では, Nの組み合わせごとにワイノレコクソン検定の正確な 有意点を与えているが,これはタイがないことを前提として正確な並べ替え分布によって求めたも のであり,タイが存在する場合は不正確になる.タイのパターンに依存して並べ替え分布は異なり, 左右対称でもなくなる.図 1の生データの並べ替え分布と比較して,図 2ではきれいな山型の分布 になっている.正規分布からのズレを調べるために skewness(歪み)と kurtosis (尖り)を計算する と,それぞれ O(左右対称なため), ‑0.41093になる.このことからもわかるように順位和の分布は, Nが小さくても,正規分布でかなりよく近似できる.このため, S A SのN P A R 1 W A Yプロシジャなどで も , リリース 6.09まで理論分布による近似の結果のみを出力してきた. ‑可能な組み合わせの数 2群比較で Nが等しい場合は, 可能な組み合わせの数は 2 N C Nとなる. 表 2に示したように, 1i n ︐
この組み合わせの数は Nが増えると爆発的に増加する. 表 2 可能な組み合わせの数 N N パターン数 2 1 0 2 6 2 0 3 20 30 4 70 40 5 252 5 0 6 924 1 0 0 7 3432 8 12870 9 48620 パターン数 184756 137846528820 1 .1826458X1 017 1 .0750721X1 023 1 .0089134X1 029 9.0548515X1 058 素直に全ての可能なパターンについて検定統計量を計算する場合と比べて, S A Sではネットワー M e t h aa n dP a t e l ( 1 9 8 3 ) )を採用しているため,計算時聞がかなり節約できる. 1 クアルゴリズム ( 群あたり 1 0以下である場合には,最新の高速コンピュータを用いれば,瞬時に計算できる. しかし ながら N がある程度大きくなると,やはり現実的な時間内での計算は不可能になる. したがって S A Sで正確な検定を行う場合,次のような警告が出されることがある. WARNING: Computing exact p‑values for this problem may require much time and m e m o r y . Press t h e system interrupt key t o terminate exact computations. M U L T T E S Tプロシジャを利用して, r e s a m p li n g法 ( W e s t f a l la n dY o u n g ( 1 9 9 2 ) )によって,様々な検定の正確な p値を精度高く近似することができる(浜田・吉田(19 9 2 ) ) . このようなケースでも, ‑並べ替え検定が必要な場合 検定統計量の分布が t分布,正規分布,カイ 2乗分布などの理論分布で精度よく近似できる場合 には,並べ替え検定を行う必要はない.ビタミン Eの実験のようにサンプノレサイズが小さく並べ替 えのパターンが少ない場合,後で紹介する尿蛋白データのように度数0のセルが多い場合,あるい は外れ値が存在するような場合に近似が悪くなる.ょくできたもので並べ替えの組み合わせ数が多 く,並べ替え検定が困難な状況では,理論分布による近似がよくなる. したがって S A Sで現実的な 時間内に正確検定が実行できないときでも心配する必要はない.このようなときは,理論分布が並 べ替え分布を精度よく近似している.以下では並べ替え検定が必要なケースとして,次の 3つの例 をとりあげる. 1) サンプルサイズが小さい場合 ピタミン Eデータ (3節) 2) スパースなデータ 尿蛋白データ ケース・コントロ}ル研究データ (4節) 3) 結果が微妙な場合 (5節) 3 . 正確な並べ替え検定と順位和検定の S A Sにおける実行 本節以降,様々な正確検定の S A Sでの実行法を示すが, 3節では基本的な例として並べ替え検定 (t検定)とワイ/レコクソン検定の正確な p値の計算例を示す. N P A R 1 W A Yプ口、ンジャではリリース 6 .1 0から, F R E Qプ口、ンジャではリリース 6 .1 2から正確な検定が実行可能になった.両プロシジャと ‑22一
も様々な統計手法が利用可能で,特定の検定結果を示すには出力が元長であり,この点が大きな欠 点となっていたが, 2つのプロシジャは共にリリース 6 .1 2から,主な解析結果を SASデータセット 化することが可能になった.そこで、必要最小限の出力と,結果を SASデータセットにおとして, PRI NTプロシジャで出力する形式で示すことにする. ・並ぺ替え検定 FREQプロシジャではピアソンの相関係数の正確な p値を計算することができる . X変数が 0,1の 2値変数であるとき,ピアソンの相関係数が0かを検定することは, X変数が0の群と lの群で, Y 変数について t検定を行うことに一致する.この点を利用すれば t検定の正確な並べ替え p値が計 算できる.ビタミン Eデータに並べ替え検定を適用するプログラム例を示す. d a t av e ; d og r o u p二 o to 1 ; d oi = l to4 ; i n p u t y@ @ ; o u t p u t ; e n d ; e n d ; c a r d s ; 9 0 3 4 2 21 2 1 2 11 1 81 1 09 5 p r o cf r e qd a t a = v e ; t a b l e sy * g r o u p / a l1 ; e x a c tp c o r r ; o u t p u to u t = r e s u l tp c o r r ; p r o cp r J n t ; EXACTステートメントで,正確な検定の種類を指定する.ここで、は pcorrを指定することによって, ピアソンの相関係数の正確な p f 直を計算させている.また OUTPUTステートメントで,検定の結果を データセット RESULTにおとしている.結果は次のようになる. •F R 印プロシジャの出力 P e a r s o nC o r r e l a t i o nC o e f f i c i e n t C o r r e l a t i o n= 0 . 8 1 7 A S E=0 . 1 3 3 A s y m p t o t i cP ‑ V a l u e s ( Ri g h t ‑ si d e d ) =O .0 0 1 E x a c tP ‑ V a l u e s ( Ri g h t ‑ si d e d ) =O .0 2 9 ( T w o ‑ s i d e d ) ( T w o ‑ s i d e d ) • PRINTプロシジャの出力 O B S P C O R R EP C O R R P LP C O R R 0 . 8 1 6 7 7 0 . 1 3 3 3 8 9 5 %C o n f i d e n c eB o u n d s 0 . 5 5 5 1 . 0 0 0 =0 . 0 0 1 =0 . 0 5 7 P RP C O R R P 2P C O R R X P LP C O R X P RP C O R X P 2P C O R . 0 0 0 0 3 1 1 4 1 . 0 0 0 0 6 2 2 8 1 0 . 0 2 8 5 7 1 0 . 0 5 7 1 4 3 FREQプロシジャでは t 分布で近似した結果が, A s y r n p t o t i c P‑Values,正確な並べ替え検定の p値 がExact P‑Valuesとして出力される.片側検定 (Right‑sided)と両側検定 (Two‑sided)の結果が共に 出力されている. 出力データセットでは t分布で近似した p値が PR̲PCORR(右側) P 2 PCORR(両側)として出力され ている.これに対し正確な並べ替え p値は, XPR PCOR(右側 )=0.028571 XP2 PCOR 0.057143 ( 両 二 側)として出力される.これはそれぞれ 2/70と.4/70に他ならない. 並べ替え検定の p値は, t分 布で近似した場合と比べて,それほど強し、有意性を示していない. FREQプロシジャでは検定統計量 が帰無仮説の下での期待値を上回る場合は右側検定の,下回る場合は,左側検定の p値を計算する. n〆 qd
両側検定の p値は│検定統計量一期待値│を越えるパターンの割合として計算される. ‑ウイルコクソン検定 proc npar1way data= vewiIcoxon;var y;class group; exact wiI coxon; output out=out w iI c o x o n ; proc print;run; EXACTステートメントで,正確な p値を計算する検定の種類を指定する.ここで怯wilcoxonを指 定することによって,ウイノレコクソン検定の正確な p{直を計算させている.また OUTPUTステートメ ントで,検定の結果をデータセット RESULTにおとしている.結果は次のようになる. • NPAR1WAYプロシジャの出力 。 Expected Sum of Scores N 4 4 GROUP Under HO 18.0 18.0 11 .0 25.0 Mean Score 2 .75000000 6.25000000 Std Dev Under HO 3.46410162 3.46410162 W iIcoxon 2‑Sample Test S = 11 .0000 Exact P‑Values (One‑si d e d ) Prob <= S =O .0286 (Two‑sided) Prob >= I s ‑Meanl 二 0.0571 Normal Approximation ( w i t h Continuity Correction of . 5 ) z = ‑1.87639 Prob> I z l = 0.0606 T‑Test Approx. Significance = 0.1027 Kruskal‑WalIi s Test (Chi‑Square Approximation) DF = 1 CHISQ = 4.0833 • PRINTプロシジャの出力 ZWIL OBS VAR WIL Y Prob > CHISQ = 0.0433 P2 WIL PT2 WIL XPL WIL XPR WIL XP2 WIL 1 1 ‑1.876390.060602 0.10271 0.028571 KW 0.0571434.08333 DF KW P KW 1 0.043308 NPAR1WAYプロシジャでは,順位和が小さくなる方の群に基づいて検定を行う.ビタミン E非投与 群の順位和は 11になる.順位和の並べ替え分布で 11以下になるのは 2通りしかないので(図 2参 照) ,片側検定の p値は 2/70=0.0286になる.両側検定では,順位和 (11)とその期待値(18)の差の 絶対値に基づいて検定を行う.絶対値が I 1ト 18 I =7以上になるパターンは, 70通りのパターン中 4 通りなので,両側 p 値は 4/70=0.0571になる.正確な並べ替え p値は,出力データセット RESULTに おいて XPL WIL(片側 )=0.028571 XP2 WIL=0.057143 (両側)として出力される. 4. 様々な並べ替え検定 .kXl分害J I 表の Fisherの正確検定 表 3 尿蛋白データ 3 4 4 5 。。。 。。 0 5 4 0 1 0 10 0 4 2 1 1 2 10 第 1群 。 第 2群 15 。 第 3群 35 第 4群 85 群 → ‑ 十 用量 3 ++ +++ ++++ 言 十 10 10 表 3はある薬剤の 13週投与後のラットの尿蛋白のデータである.尿蛋白の場合,測定は試験紙を 24一
用い,半定量的に一, : t , + , +勺+++, ++++1こ判定される. したがって,独立変数も従属変数も 順序のあるカテゴリカノレデータになる.結果は 4X 6の分割表で表現され,カイ 2乗検定の自由度 は1 5( 3X5 )になるが, 0セルが多く,カイ 2乗近似が悪い可能性が高い.そこで kXl分割表に対す るFisherの正確検定を適用してみる. プログラムは次のようになる. data uprotein; 5, 3 5, 8 5 ; d o dose=O,1 d o y 1t o6 ; input w @ 申 ; d o i 1t ow;output;end; end;end; c a r d s ; 3 34 0 00 045 100 o5 4 0 10 042 1 12 二 二 proc freq data=uprotein;tables dose*y/all ; exact f i s h e r ; output out=result fisher; proc pnnt;run; EXACTステートメントで, Fisherの正確検定を行うことを指定する.また OUTPUTステートメント のオプションで fisherを指定することにより,検定の結果をデータセット RESULTにおとしている. このプログラムを実行すると,次の警告が示される. WARNING: 100%of the cells have expected c O l l n t sl e s s . than 5 . Chi‑Squaremay not b e a valid t e st 結果は次のようになる. ゎ r n u • FREQプロシジャの出力 STATISTICS FOR TABLE OF DOSE B YY Value Statistic C h i‑Square L ikelihood Ratio Chi‑Sqllare Mantel‑Haenszel Chi‑Square Fisher's Exact Test ( 2 ‑ T a i l ) P h i Coefficient Contingency Coefficient 1 5 1 5 1 2 0 .7 6 7 21 .308 6.640 Prob o .144 0.127 0.010 0.289 0.721 0.585 C r a m e r 'sV 0.416 • PRINTプロシジャの出力 OsS P EXACT2 0.28878 2 X 2の分割表以外では, Fisherの正確検定は本質的に両側検定になるので,片側検定の結果 は出力されない.カイ 2乗検定の p値と比べて, Fisherの正確検定の結果は 2倍以上も大きく,結 果が大きく異なっている.このようにスパースな分割表に対しては, WARNINGで示されているよう に,カイ 2乗検定の結果は信頼性に乏しい. 民U ワ ム
‑クラスカノレ・ワリス検定 尿蛋白のように反応変数が順序のあるカテゴリカルデータであるときには,カイ 2乗検定あるい はkXl分割表の Fisherの正確検定は適切な解析法とはいえない.この検定で、は+と++のカテゴリー を入れ替えたとしても結果は変わらず,尿蛋白のカテゴリー聞の順序性に関する情報を有効に利用 していない.そこで、NPAR1WAYプロシジャを用いて,データを順位に変換して 5群聞の違いを調べる クラスカノレ・ワリス検定を適用してみる.プログラムは次のようになる. proc npar1way data=uprotein wilcoxon;var y;class dose; output out=result wilcoxon; exact wilcoxon; proc print data=result;run; • NPAR1WAYプ口、ンジャの出力 N P A R 1W A Y P R 0 C E D U R E Wilcoxon Scores (Rank Sums) for Variable Y Classified by Variable DOSE Sum of Expected Std Dev DOSE Scores N Under HO Under HO 148.500000 1 0 2 0 5 .0 30.0848160 216.500000 1 5 10 2 0 5 .0 30.0848160 35 1 0 203.000000 2 0 5 .0 30.0848160 85 252.000000 30.0848160 1 0 2 0 5 .0 。 Mean Score 14.8500000 21 .6500000 20.3000000 25.2000000 Average Scores Were Used for Ties Kruskal‑Wallis Test S = 4.5886 Exact P‑Value Prob )= S 0.2064 Chi‑Square Approximation DF = 3 • PRINTプロシジャの出力 OBS VAR KW Y4.58860 Prob) S = 0.2045 DF KW P KW XP KW 3 0.20452 0.20640 NPARIWAYプロ、ンジャの結果はリリース 6 .1 2から, SASデータセットにおとすことが可能になった. 検定統計量を自由度 3のカイ 2乗近似した場合, P=0.2045となるのに対し,正確な検定では O .2064 と結果はほとんど変わらず, 5 % 水準では4 群聞で有意な差があるとはいえない. ‑ヨンキー検定 クラスカル・ワリス検定の結果は有意にはならなかったが,データをみると,用量相関的に尿蛋 白が増加しているような傾向がみてとれる.このデータは列と行変数が両方順序カテゴリカノレデー タであるので,ヨンキー検定を用いて用量相関性について検討してみる. SASではこれまで直接ヨンキー検定を行うことはできず,ヨンキー検定が Kendallの相関係数 が0であるかを検定するのと等価であることを利用して, CORRプロシジャによって解析するしかな かったが(浜田 (1996)) , リリース 6 .1 2から FREQプロシジャでヨンキー検定を行い,かっ正確な p 値も計算することが可能になった.プログラムは次のようになる. ηJb ρhu
p r o c freq data=uprot巴 in;tab1es d o s e * y / a 1 1 ; exact J t ; output out=resu1t j t ; p r o c print;run; JTがヨンキー検定を行うためのキーワードである. • FREQプロシジャの出力 Jonckheer巴ーT巴rpstraTest .9 4 2 Standardiz巴d= 1 Statistic = 375.500 Exact P‑Va1u巴S Asymptotic P‑Va1ues ) = 0.026 ( R i g h t ‑ s i d e d ) = 0.026 ( R i g h t ‑ s i d巴d ) ( T w o ‑ s i d巴d = 0.052 • PRINTプロシジャの出力 O B S ̲JT̲ ̲JTSTD̲ PL̲JT .94220 375.5 1 PR̲JT 巴d ) ( T w o ‑ s i d P2̲JT = 0.052 XPL̲JT 0.026056 0.052112 XPR̲JT XP2̲JT 0.026188 0.052376 ヨンキー検定では, 1 ‑ 2,1 ‑ 3,1 ‑ 4,2 ‑ 3,2‑4, 3‑4群で、マンホイットニー検定を行い, 6種類の検定統計 量を足しあわせる.このようにして計算されたのが Statisticで,この例では 375.500になる Statist し、てその標準誤差で、害IJったものが, Standardized=1.942と出力され i cから帰無仮説の下での期待値をヲ l ている.この値は帰無仮説が正しければ,近似的に正規分布にしたがう.漸近正規近似の結果が Asympt otic P‑Va1u巴sとして,正確な検定の結果が ExactP‑Va1uesとして出力される. 2種類の検定の結果が ほぼ近く,正規近似の精度がよいことがわかる.結果は片側検定では 5%水準で、有意となるが,両側検定 RJT(正規近似右 ではぎりぎり有意とならず,微妙なところである.これらの p値はデータセットに P 側) P2̲JT(正規近似両側) XPR̲JT(正確検定右側) XP2̲JT(正確検定両側)としづ変数名で出力される. C A )検定 ‑コクラン・アミテージ ( データをみると対照群については一 十の範囲で分布でしており, ++以上のカテゴリーのものは 存在しない.そこで十までと++以上でカテゴリーを 2値に切り直して, ++以上の割合が用量相関的 に上昇するか C A検定によって調べることにする.正確な C A検定については,これまでも MULTTE 1 9 9 2 ) ), リリース 6 .1 2から FREQプロシジャ STプロ、ン、ジャを利用すれば可能であったが(浜田・吉田 ( で可能になった.プログラム例は次のようになる. TABLESステートメントの SCORE=オプションで, tab1eを指定することにより,変数 doseの値が各群にスコアとして割り当てられる. trendが CA検 定 を行うためのキーワードになる. datauprpt巴 l n ; s巴tuproteln; i fyg e4 t h e n y34 1;巴 l s巴 y 3 4 = 0 ; p r o cf r巴 qd a t aニuprotein;tab1es y34*dos巴/ a l l scor 巴= tab1e ; exact t r e n d ; output out=out t r e n d ; proc pnnt;run; 二 u t 弓 ︐ ︒
• FREQプロシジャの出力 Cochran‑A rmitage Trend Test 2.587 Statistic Exact P‑Values Asy皿ptotic P‑Values (Left‑sided) ニ 0.005 (Left‑sided) = 9.96E‑03 二 一 (Two‑sided) = 0.010 (Two‑sided) 三 0.011 • PRINTプロシジャの出力 OBS TREND DF TREND PL TREND PR TREND P2 TREND XPL TRND XPR TRND XP2 TRND l‑2.58740 1 .0048352 .0096703 .0099573 0.010669 Y34は0,1の 2値データであり, FREQプロ、ンジャでは Y変数の値が小さい方をとる確率と X変数の 関連を調べる.この例では 0をとる確率は,用量が増加するにつれ低下するので自動的に左(下) 側検定を用いる.両側検定の p値は AsymptoticとExactでほぼ等しくなっているが,左側検定の p値 については,並べ替え検定では正規近似のほぼ 2倍になっており,正規近似の精度がよくない.この理 5, 35, 8 5と,等間隔になっていないため,第 4群の検定統計量に対する寄与が大 由は各群のスコアが 0,1 きく,検定統計量の分布が左右対称にならないためである. 5 . 正確なオッズ比の 95%の信頼区間 次のデータは日刺激薬と端息死亡の関連を調べるために行われた,ケースコントローノレ研究のも 1989)). 日市息死亡を起こしたケース 117人にたいして 468人のコントローノレを選ん のである (Crane( で,。刺激薬を服薬している人の割合を比較している. H 街息死亡 H 街息死亡+ 薬剤一薬剤十 計 279 189 468 a b 57 60 117 c d この結果に基づいて日刺激薬の哨息死亡に対するオッズ比を求めると, )=279X60/(57X189)=1 .55 オッズ比 =aXd/(bXc となる.鴨息死亡の頻度は希であるので,オッズ比は相対リスク比をよく近似し,。刺激薬は哨息 死亡のリスクを1.55倍に増大させることがわかる. 対数オッズ比の標準誤差は次のようになり, SE{logOR) =~十 l/b+ 1 /c+1 /dニ . j1 /279+1 /189+1/57+1 /60=0.20757 対数スケーノレでのオッズ比の両側 95%信頼区間は,次のように計算される. logOR: t1 .96X SE{ logOR} =0.44076: t1 .96XO .20757=0.033919~0. 84760 ここで, 1 .96は正規分布の両側 5%点である.これを指数の肩に乗せたものが,実数のスケーノレで のオッズ比の 95%の信頼区間になる. exp( logOR士1.96X SE{ logOR) }=exp( 0 .44076: tO .20757)ニ 1 .035~2. 334 オッズ比の信頼下限が 1を上回るので0である可能性は否定され,これが 5%水準の検定で有意にな ることに対応する.この信頼区間は,いわば対数オッズ比の分布を正規分布で近似したものである しかし下限はかなり 1に近く,この近似の精度に少レ心配が残る.そこで近似をしない正確な 95 %の信頼区間を計算してみる. SASではリリース 6 .1 2から,オッズ比の正確な 95%の信頼区間を計算 することが可能になった. ‑28 十
data c c ; do beta=O t o1 ; do y oto 1 ; input w @@;output;end;end; cards; 279 57 189 60 二 proc freq data=cc;tab1es y*beta/a11;weight w ; exact o r ; output out ニr esu1tre1risk; proc pnnt;run; • FREQプロシジャの出力 Type of Study E s t i r n a t e s of the Re1ative Risk (Row1/Row2) 95% Confidence Bounds 95% Confidence Bounds Va1ue (Asymptotic) (Exact) Case‑Contro1 Cohort (Co11 Risk) Cohort (Co12 Risk) 1 .554 1 .224 1 .035 1 .002 O .788 0.640 2.334 1 .495 0.970 1 .013 2.383 • PRINTプロシジャの出力 OBS RROR LRROR URROR X LRRORX URROR RRCl LRRCl URRCl RRC2 LRRC2 URRC2 1 1 . 5 5 3 8 81 . 0 3 4 5 12 . 3 3 4 0 11 . 0 1 2 7 72 . 3 8 3 2 91 . 2 2 3 6 81 . 0 0 1 5 61 . 4 9 5 0 60 . 7 8 7 50 . 6 3 9 5 5 0.96968 正確なオッズ比の信頼区間は1.013~2. 383であるので,正規分布した場合と比べて少し広がって いるが,ぎりぎり下限が 1を越えているので,有意であることには変わりない.出力される変数は ̲RROR̲(オッズ比) LR R O R(正規近似の下限) UR R O R(正規近似の上限) X LRROR(正確な下限) X URROR(正確な上 限)を意味する. 正確な信頼区聞は, Fisherの正確検定と密接な関連を持っている. この例では,サンプルサイズが大きく,並べ替え検定の可能なパターン数が多すぎるので, 2X2 の分割表でセル度数が, 1,9,4,6となった場合を例にとる. 十 群1 群2 計 f11 f12 f1. 4 5 f21 f22 f2・ 9 6 1 5 f・1 f .2 n 10 10 20 20人のうち 5人は 群 1 群2 言 十 で , 15人は十になっている.このような組み合わせの総数は n1/(fj.1・f2.1)=201/(51・ 151)=15504 通りであり,帰無仮説の下ではこの全ての組み合わせが等しい確率で生じることになる.この 20人 を 2群に 10人づっ無作為に分けた場合, 1,9,4,6と配分される組み合わせの数は /( f121・f22! ( f .1 1/(f111・f211 ) }X {f・ 21 )} =(101/(11・91)} X {101/(41 ・61)}=2100 通りとなる. このデータでは 1,9,4,6と配分されたが, 5人の と15人の十を 10人づっ 2群に分けるとき,可 能なパターンは次の 6通りである.もちろん組み合わせの数の合計は, 201/(51・151)= 15504とな る.それぞ、れの組み合わせの数を合計数 15504で害IJったものが,そのパターンが帰無仮説の下で生じる 確率になる. 円MU 9b
NO 可能なパターン 組み合わせの数 確率 累積確率 o10 5 5 252 0 . 0 1 6 0.016 2 1 9 4 6 2100 O .1 3 5 O .1 5 2 3 2 8 3 7 5400 0 . 3 4 8 0.500 4 3 7 2 8 5400 0 . 3 4 8 O .8 4 8 5 4 6 1 9 2100 0 . 1 3 5 0.984 6 5 5 o10 2 5 2 0 . 0 1 6 1 .000 計 15504 得られたパターン以上に偏っているパターンは, No1と2であるので, Fisherの正確検定(下 側)の p値は 2つのパターンの生じる確率を是しあわせで O .152になる.ここでは群 2の方に+が少 ない場合を検出する場合を下側としている.このように分割表の両周辺和を固定して,得られたパ ターン以上に極端なデータが生じる確率は,超幾何分布によって求めることができ, SASではこの ために PROBHYPR関数が用意されている. さて Fisherの正確検定で、は,このように帰無仮説(オッズ比=1)の下でパターンの生じる確率を 評価した.対立仮説(オッズ比手 1 ) の下では,この確率をどのように評価すればよいのだろう か?対立仮説の下では, 2群間で と+が生じる確率が異なることになる.このとき 15504通りの 組み合わせの生じる確率ははそれぞれのパターンに応じて異なることになる.それぞれの群で , +の生じる確率を P lとQ l ' p zとQ zと定義すると, 1~6 のパターンが生じる確率は次のようになる. 1i o10 55 円 LqJ 1 946 2 8 37 4 3 728 5 4 6 19 6 5 5010 I OCO P l0Q l1 0X I O C 5P Z5q z5 1 9 × 10C4P24q26 C I OI P 1q 1 ニ 10CIPI0ql10 X IOC4PZ5qZ5 X r IOCZPI0ql10 X I O C 3 pZ5qZ5 X r2 2 Z3q z7 CZP 1q l8 X !l)C3 P ! l ) I O C OP lO q l10 X 1 0 C 5 PZ5qz5 3 7X 1 o CZ P ZZq z8 I OC3 P 1q 1 6 1 0 C4P l4q1 X 1 0 C1 P Z1q z9 二 10C3PI0q1lO X 1 0 C Z pZ5qz5 X r3 1 0 C 4P l0q l10 X I O C l PZ5qZ5 X r4 IOC5PI0ql10 X 1 0 C O pz5qz5 X r5 1 0 C 5 P 1 5 q 1 5 X 1 0 C O pzOqzlO ここで r=(qz/ p z )/ (ql/ P l )であり,これはオッズ比に他ならない. 6通りの可能なパタ ンが生じる確率は,オッズ比に依存して異なることになる.オッズ比が大きくなるにつれ,第 2群 に+が偏ったパターンが生じ易くなる. さて,このようにオッズ比の値を変化させて,得られたデータ以上に極端なパターンが生じる確 率を計算することが可能である.この確率はオッズ比 =1のときには p値に他ならない.この確率が 高ければ,そのオッズ比は尤もらしいし,小さければ尤もらしくないことになる.先の例ではp=O. 1 5 2であるので,オッズ比が lである可能性は,それほど低くないため,捨てられないことになる. 尤もらしくない基準を確率が 0.025以下とすると,両側 5%水準で検定を行うことに対応する.実は S ASのFREQプロシジャでは,この確率がちょうど 0.025になるようなオッズ比を,オッズ比の 95%の正 確な信頼限界として出力する. 。刺激薬の例で,正確な信頼区間として FREQプ口、ンジャで出力された1.013~2. 383は,このよう な原理で計算されたものである. さて超幾何分布の累積確率を計算するための PROBHYPR関数で, FrSHERの正確検定(下側検定)を 実行する場合,次のような指定を行う必要がある. pエ probhypr(n,f .1, f1 , f1) ; ・ 例 p= probhypr( 2 0, 1 0 , 5, 1 ) ; 結果 p = O .1 5 2 qd n u
P R O B H Y P R関数で,パラメータを 4つしか指定しないと,オッズ比が 1の場合の確率を計算するが, 実は 5番目のパラメータとしてオッズ比が指定でき,非心超幾何分布の確率を求めることができる. pニprobhypr(n, f・1 , f1・, f11, O R ); 。刺激薬の例に戻って,オッズ比が 1 , 1 .013,2 .383の場合について得られたデータ以上に僅端な パターンが得られる確率を計算してみる.プログラム例は次のようになる. data p r o b ; , 1 .013,2 .3 8 3 ; d oo r二1 1 7, 60,o r ); pu=probhypr( 5 8 5,249,1 8 9,l /o r ); p l=probhypr( 5 8 5,249,468,1 pl);output; p=min(pu, e n d : proc pnnt;run; HU p a 口 ﹁ し ー p uで上保J I,p lで、下側確率を計算している.実行結果は次のようになる. O B S O R P 1 1.000 0.98708 0.02163 0.021632 2 1 . 0 1 3 0.98486 0.02506 0.025063 3 2.383 0.02503 0.98491 0.025034 オッズ比を1.013と指定すれば下側確率 P Lがほぼ0.025になり, 2.383と指定すれば上側確率がほ ぼ0.025になることがわかる. O R 二lの場合は Fisherの正確検定の p値に相当する. F igure 3 )に示した.確率が 0.025以上にな オッズ比の値を変化させて確率を求めた場合を図 3( るオッズ比の範囲が 95%の信頼区間になる. ‑正確なマンツェル・へンツ工ル検定 ( M H ) 複数の 2X2の分害 表の結果を併合して解析する方法として,マンツェル・へンツェノレ検定が知 [ J られている.このように層がある場合の E確な p値については, S A Sで、は M U L T T E S Tプロシジャで計 算することができる.実は先ほど示した日刺激薬のデータをステロイド剤の吸入の有無で層別する と次のようになる.ステロイド剤と日刺激薬を併用した場合に相 E作用的な傾向がみられ,例題と してあまり適切ではないが,正確な M H 検定を適用してみる. . 9 6 ) (オッズ比二 0 。一 。+ 日指息死亡ー 213 1 5 1 日指息死亡+ 50 34 (オッズ比二 6 . 4 5 ) ステロイド+ s‑ 。+ 目指息死亡ー 6 6 3 8 ステロイドー 日指息死亡+ 7 2 6 言 十 364 84 1 0 4 3 3 プログラムは次のようになる. M U L T T E S Tプロシジャでは層別する変数を S T R A T A 文で指定する.ま E S T 文でP E R M U T A T I O N 二オプションを指定することにより,セル度数がこの値を越えるまでは,正 たT U T Pニ R E S U L Tを指定することにより,並べ替え p値がデー 確な検定を計算することが可能になる. O タセット R E S U L Tに出力される. ーよ qJ
c . o 守吋 .0 }い N.0 コ 的.0 Y 出. 0 C 3 2 コ C コ コ C C c η 且 吋 ︒ロロ∞七回国 OU 心ーか由︒ 的︒旬島出 小3 ← ら4 0 ︒ 出 c η o z d l H ∞七七︒ Ln 寸4
data c c 2 ; do steroid=O to 1 ; do y oto 1 ; ; do beta oto 1 input w @@;do i 1 to w;output;end; end;end;end; cards; 213 1 5 1 50 34 66 38 7 26 二 二 ご proc multtest data=cc2 outp=result;class beta; test ca(y/permutation=300);strata steroid; proc pnnt;run; 力 出 司 の る一ヤ な一ジ に︑ン 。 入ノ一ロ よ一ブ の一訂 次一冗 ま一日 果一舵 結一・ Variable Y Class Stratu 皿 Statistic Count N Percent Count N Percent Contrast 。 50.00 263.00 19.01 7.00 7 3 .00 9.59 Raw̲p Trend • PRINTプロシジャの出力 O B S V A R TEST CA Y 2 CA Y Y 3 CA LABEL T r e n d T r e n d T r e n d 34.00 185.00 18.38 26.00 64.00 40.63 0.0465 。 S T R A T A CONT 3 4 2 6 6 0 E X P 3 4 . 6 8 7 5 1 5 . 4 1 6 1 5 0 .1 0 3 6 S E 4.07214 2 . 5 0 6 3 1 4.78162 RAWP O .0 ' 1 6 5 0 5 正確な p値は 0.0465になる.ちなみに正規近似を行った場合の p値は 0.0385である.データセッ トRESULTでは,層ごとの結果が出力された後で,層を併合した結果が 3番目の観測値として出力さ れている.変数 CONTーはケース群(哨息死亡)における 8刺激薬を服用していた人の観測数で,変 数 EXP は帰無仮説の下での期待値である SE ーは超幾何分布に基づいて計算した(観測数一期待 数)の標準誤差である.結局 M H検定の検定統計量は次のように構成される. L : (観 測 数 期 待 数 )/SQRTL :{ 標準誤差 2} +(26‑15.4161)} /SQRT{4.072142+2.506312} = {(34‑34.6875) = {60‑50.1036}/4.78162=2.070 通常はこの値を,正規分布と比較して p値を計算するが, MULTTESTプロシジャではこの統計量の 並べ替え分布を計算することができる. 6 . その他の正確な検定の SASでの実行とまとめ 通常ノンパラメトリック検定というと,データを順位に置き換えて検定するようなイメージがあ るが,順位以外のスコアを用いるノンパラメトリック手法も存在する.代表的な手法は Savage検定 とVan der Waerden検定で、ある.これらの検定の並べ替え検定版も NPAR1WAYプロシジャで可能で、あ る. け qA q
さて本稿では,ワイルコクソン検定,カイ 2乗検定などの対応のない検定の実行法を示してきた が,これらの検定の対応のある版についても正確な検定が可能である.符号付き順位和検定につい ては UNIVARIATEプロシジャで, 1群 20までは正確な検定を行うことができる(市川他 (1993)) .ま た 2値データに関する対応のある検定である McNemar検定についても, リリース 6 .1 2の拡張によっ て FREQプロシジャで正確な検定を行うことが可能になった.正確な McNe皿ar検定の UNIVARIATEある いは MULTTESTプ口、ンジャでの実行方法については,浜田 (1994)を参照されたい.また 2変数聞の関 連の強さを表わすピアソンあるいはスペアマンの相関係数,カテゴリデータの一致度を表わす κ係 数が 0であるかどうかを正確に検定することも可能である. 本稿では、 t検定,ワイルコクソン検定, ス検定,ヨンキー検定, mXnの分割表の Fisher正確検定,クラスカル・ワリ Cochran‑Armitage検定, Mantel‑Haenszel検定の正確な並べ替え p値の S ASでの計算法を示した.また 2 X 2のFisherの正確検定を拡張してオッズ比の正確な信頼区間の計 算原理と,実行法を示した.これらの並べ替え検定は、コンピュータ・ハードウエアの発展によっ て今後益々ポピュラーになることが予想される.本稿がそのような並べ替え検定の実務家への浸透 の一助になれば幸いである. 最後に FREQプロシジャの EXACTステートメントのオプションのリストを示す. FISHER 皿 Xnの分割表の正確な検定 JT ヨンキー検定の正確な検定 臥 PPA ι係数の正確な検定 LRCHI 尤度比検定の正確な検定 MCNEM McNe 皿a r検定の正確な検定 MEASURES Pearson Spearmanの相関係数の正確な検定,オッズ比の正確な信頼区間 M f l C H I Mantel‑Haenszel検定の正確な検定 PCHI Pearsonカイ 2乗の正確な検定 PCORR Pearsonの相関係数の正確な検定 OR オッズ比の正確な信頼区間 SCORR Spearmanの相関係数の正確な検定 TREND Cochran‑Armitageの正確検定 WT臥 P 重み付き ι係数の正確な検定 参考文献 山内二郎編(1972) 統計数値表. 日本規格協会 C .R .Metha anJ cN .R .Patel ( 1 9 8 3 ) A Network Algorithm for Performing Fisher's Exact Test i n rXc Contingency Tables. JASA,78,427‑434 P.H.Westfall and S . S .Young(1992).Resampling‑Based Multiple Testing.John Wiley &Sons 浜田知久馬・吉田道弘 (1992) MULTTESTプロシジャの紹介. SUGI]lO論文集, 357‑370 浜田知久馬 (1996) SASによる用量相関性の解析. SUGI ]14論文集, 331‑346 J.Crane et a l .( 1 9 8 9 ) Prescribed Fenoterol and Death from Asthma i n New Zealand,1981‑83; Case‑Control Study.Lancet, Apr.29 市川 l 伸一他 (1993). SASによるデータ解析入門.東大出版会 浜田知久馬 (1994) SASによる条件付きロジスティック回帰. SUGI ]12論文集, 527‑540 吉村功・大橋靖雄(1992).毒性試験データの統計解析.地人書館 SAS Institute Inc(1997) SAS/STAT Software:Changes and Enhancements for Release 6.12 P.Good(1993).Permutation Tests. Springer‑Ver1ag A μ守 η3
日本 S A Sユーザー会 (SUG I‑J) 経時データの多重比較法 岸本淳司 (SAS/ 慶慮義塾大学/東京大学) M u l t i p l eComparisonsonL o n g i t u d i n a lData J u n j iKishimoto SASI n s t i t u t eJapan/KeioU n i v .SFC/U n i v .o fTokyo e ‑ m a i la d d r e s s : j p n j a k @ j p n . s a s . c o m 要旨 反応を経時的に測定して得られたデータについて t 検定の反復あるいは D u n n e t tの多重比較を行うこと ASの具体的プログラ には問題があるとされる.なぜそれが悪いのか,ではどうしたらよいのかについて S ムと共に解説する. キーワード M u l t i p l eC o m p a r i s o n s, R e p e a t e dM e a s u r e s, Q u a d r a t u r e 1 はじめに 1群の各個体を時間を追って測定したデータ 表 11群の経時的測定データ . . t 時点 t o t 2 . l t k 個体l Y l日 Y l l Y 1 2 .. Y l k 個体2 Y 2 1 Y 2 2 2 0 Y . . . Y2k 個体n Y n l 日 Y n 2 .. Y n l Y n k 平均 μ 。μl μ2 ... μk について,各時点の平均を比較したいことがある.たとえば時点 0と各時点との比較 H0 . ., .Hop :μ0=μk 1:μoニ μ1, H02:μ0=μ2, ( 1 ) について,対応のある t検定を反復して論文を提出すると「検定の多重'性を考慮、せよ」というコ u n n e t tの検定を実施しでもよいものであろうか. メントがつくことがある.しかし,通常の D 35‑
また, 2 群の個体を経時的に測定したデータ 表 22群の経時的測定データ . . . 時点 t 1 t 2 tk . . . Y1k 個体1 Yll Y12 個体問 Yml Ym2 平均 μ 1 1 μ12 個体n Yn1 Yτ 、 z 平均 μ 2 1 μ22 群1 個体m+1 . . . . . . Ymk μ1k . . Ym+1k Ym+11 Ym+12 . 群2 . . . Yk . . . 抗 について,各時点毎に対応のなし、 t検定 ,H 02:μ12=μ22, . . . , Hok:μ1k=μ2k ( 2 ) H0 1 :μ11=μ21 を反復して実施すると,ここにも検定の多重性の問題が現れる. 臨床試験の統計解析に関するガ イドライン"では「各時点ごとに 2群問での対応のない検定を繰りかえしがちであるが,それでは 第 1種の過誤の確率が増大する.このようなデータの場合には時点毎の比較ではなく, トレンドや プロフィルを比較するための特別な手法が必要である . J と述べている.事前にトレンド、モデルが 想定できる場合には,群問の差を統計モデ、ルのパラメタで表現することは解析法として本質的で はあるが,事前にはモデ、ルを想定できないこともあるだろう. 本稿では,時点聞の相聞を考慮しつつ群平均の多重比較を行う方法について考察する. 2 反復測定時点聞の多重比較 2 . 1 独立誤差の場合 表1 , 式 1で示したような反復測定での時点聞の平均を比較することを考えよう.次のデータを 例題とする. data repeated; input id 也; do time=O to 3 ; input y @; output; e n d ; cards; 301 2.07 1.58 1.84 2.06 305 1 . 8 6 2.09 1 . 7 6 2.43 306 2.842.13 1 . 6 2 1.62 307 3.30 2.03 2.88 2.60 308 1.73 1 . 6 71 . 1 51 . 2 1 309 3.40 2.16 3.20 2.24 310 2.79 1 . 8 22.38 1 . 2 9 311 2.73 3.38 1 . 9 3 2.61 nJ ρb
通常の一元配置モデルでの Dunnettの多重比較を PROCGLMで実行する. proc glmdata=repeated; class time; model y = time; lsmeans time / adjust=dunnett pdiff=control('Oつ ; r u n ; 出力1.1一元配置の Dunnett比較 General LinearModels Procedur自 Least Squares Means Adjustment formultiple comparisons: Dunnett T I阻 Y 阻A N LS 。 Pr > I T I HO: LSMEAN=CONTRDL 2.59000000 2.10750000 2.09500000 2.00750000 1 2 3 0.2868 0.2683 0.1624 反復測定データを一元配置の方法で?解析することは,時点聞の相聞をゼ、ロと仮定することと同じで ある. PROCMIXEDによる反復測定解析で TYPE=VCの指定を行うと同様の解析が再現できる. proc mixeddata = repeated; class time; model y = time / ddfm=residua 工; repeatedtime / type=VC subject=idrco ロ; lsmeans time / adjust=dunnett pdiff=control('Oつ ; r u n ; 出力 1 . 2独立誤差の相関構造 R Correlation Matrix for Subject 1 Row COL1 1 2 3 4 1.00000000 CDL2 CDL3 CDL4 1.00000000 1.00000000 1.00000000 出力 1 . 3独立誤差を仮定した Dunnett比較 Differences o f Least Squares Mea 旦S Effect T I M E ̲ T I阻 T I M E T I M E T I M E 1 2 3 。 。 。 Difference StdError DF t Pr>ltl Adjustment Adj P 0.48250000 0.30616143 28 ‑1.58 0.1263 Du 且旦 e tt 0.49500000 0.30616143 28 ‑1.62 0.1171 Du 且旦 e tt ー0 .58250000 0.30616143 28 ‑1.90 0.0674 Dunnett ー ー ‑37 0.2868 0.2683 0.1624
出力1.2中,ブランクの相関係数はゼロであることを表している.すべての時点、対聞の相関係数 をゼロとした反復測定の多重比較は,通常の一元配置多重比較と全く同じ結果をもたらすことが わかる. 2 . 2 球面誤差の場合 誤差分散が等しく時点聞の共分散もすべて等しいとき,その共分散行列は複合対称であるとい う.このとき,通常の F検定は妥当である.さらに一般的には, HuyhnandFeldt(1970)が示した 球面性を満たしているときも F検定は妥当である.誤差が球面であるとき, ukey法や Dunnett 法のような通常の多重比較法も妥当である. PROCGLMでこのような多重比較を実行するには,個体差をモデ、ルに入れたプログラムを指 定する. proc glmdata=repeated; class idtime; model y = idtime; lsmeans time / adjust=dunnett pdiff=control('O'); r u n ; 出力 2.1個人差をモデルに入れた Dunnett比較 General Linear Models Procedure Least Squares Means Adjustment for multiple comparisons: Dunnett TIME Y LSMEAN 。 1 2 3 Pr > I T I HO: LSMEAN=CONTROL 2.59000000 2.10750000 2.09500000 2.00750000 0.1189 0.1073 0.0502 PROCMIXEDを使って,球面形の誤差構造を指定しでも同じ結果が得られる. proc mixeddata=repeated; class time; model y = time; repeated time / type=HF subject=id rcorr; lsmeans time / adjust=dunnett pdiff=control('O'); run; ‑38
出力 2.2球面性を仮定した相関構造 R Correlation Matrix for Subject 1 Row COL1 COL2 COL3 COL4 1 2 3 4 1.00000000 0.44604378 0.49269359 0.51790125 0.44604378 1.00000000 0.34194834 0.39242273 0.49269359 0.34194834 1.00000000 0.45236522 0.51790125 0.39242273 0.45236522 1.00000000 出力 2.3球面性を仮定した Dunnett比較 Differences of Least Squares Means Effect TIME ̲TlME Difference TIME TlME TlME 1 2 3 。 。 。 StdError DF t Pr>ltl Adjustment Adj P 一0.48250000 0.23037494 21 ‑2.09 0.0485 Dunnett‑Hsu 0.1189 ー0 .49500000 0.23037494 21 ‑2.15 0.0435 Dunnett‑Hsu 0.1073 一0.58250000 0.23037494 21 ‑2.53 0.0195 Dunnett‑Hsu 0.0502 個人差をモデ、ルに入れた検定と誤差に球面性の仮定をおいた検定とは全く閉じ結果をもたらす.す なわち,誤差に球面性が仮定できるなら個人差をモデ、ルに入れた多重比較は妥当である.一元配 置型 Dunnett検定で TIME=Oと TIME=3の比較の p値が 0.1624であったのに対し,球面誤差の 場合は 0.0502になっており,差をより鋭敏に検出できることがわかる.反復測定型のデータに一 元配置型の多重比較を施すのが不適切なのは, (相聞がほとんどゼロの場合を除き)検出力で損を するからである. 2.3 非球面誤差の場合 球面型の誤差構造が不適切な場合には,適当な誤差構造を仮定して最尤推定するか,あるいは 標本からそのまま推定された相関構造を元に検定を構成することになる.ところが,特定の相関 構造以外の積分計算は今日のコンビュータをもってしでも難しい.そこで,し、くつかの近似法が とられる. 1.各相関係数の平均を計算し,共通の相関係数とする. 2 . Hsu(1992)の因子分析的方法を用いて近似的な積分を行う. 3 . 標本相関係数を再現するような多変量七分布を乱数で再現しその最大値に対する調整 p値を 求める. Release6.10以降の PROCGLMでは, LSMEANSステートメント中 ADJUST=DUNNETT オプシヨンを指定すると,必要な時は自動的に Hsuの近似が行なわれる.たとえば, AR(l)の誤 差構造を想定して Hsu型の近似計算を行うためには次のようにする. 39
proc mixed data =repeated; c1ass time; mode1 y = time; repeated time / type=AR(l) subject=id rcorr; lsmeans time / adjust=dunnett pdiff=contro1('0'); r u n ; 図3 . 1AR(1)を仮定した誤差構造 R Corre1ation Matrix for Subject 1 Ro~ 1 2 3 4 COL1 COL2 COL3 COL4 1.00000000 0.27679862 0.07661748 0.02120761 0.27679862 1.00000000 0.27679862 0.07661748 0.07661748 0.27679862 1.00000000 0.27679862 0.02120761 0.07661748 0.27679862 1.00000000 図3 . 2AR(1)を仮定しHsu型の近似を行った Dunnett比較 Differences of Least Squares Means Effect TIME̲TI紅E Difference TIME TIME TI紅E 1 2 3 。 。 。 StdError DF t Pr>ltl Adjustment Adj P ー0.48250000 0.26019292 21 ‑1.85 0.0778 Dunnett‑Hsu 0.1783 一0.49500000 0.29400632 21 ‑1.68 0.1071 Dunnett‑Hsu 0.2385 一0.58250000 0.30269911 21 ‑1.92 0.0680 以~ett-Hsu 0.1575 特定の相関構造を仮定しないで,シミュレーションにより調整 p値を求めるには,次のように する. proc mixed data =repeated; c1ass time; mode1 y = time; repeated time / type=UN subject=id rcorr; ls 血e anstime / adjust=SIMULATE pdiff=contro1('0'); ru 且; 図4 . 1無構成の誤差構造 R Corre1ation Matrix for Subject 1 Ro~ 1 2 3 4 COL1 COL2 COL3 COL4 1.00000000 0.31304700 0.84507324 0.31850774 0.31304700 1.00000000 0.09341769 0.56166162 0.84507324 0.09341769 1.00000000 0.44463342 0.31850774 0.55166162 0.44463342 1.00000000 40 ←
図4 . 2無構成誤差構造,シミュレーションによる Dunnett比較 Differences o f Least Squares Means Effect TIME ̲TlME Difference TI肥 TIME TIME 1 2 3 。 。 。 Std Error DF 0.48250000 0.24828519 0.49500000 0.13038405 ー0 .58250000 0.24890295 ー ー t Pr>ltl Adjustment 7 ‑1.94 0.0931 Simulate 7 ‑3.80 0.0067 Simulate 7 ‑2.34 0.0518 Simulate Adj P 0.2058 0.0162 0.1173 通常の臨床試験や前臨床試験でのデータでは,ランダムな誤差が後の誤差に与える影響よりも 個体差の影響の方がずっと強し、と思われる.また,少ない標本から推定された相関係数を真の値 として検定を構成するのは不安定である.ゆえに, T YPE=AR(1)とか TYPEニ UNのような相関 構造が適切な例は少なく,球面性(あるいは複合対称)を仮定した解析が良いことが多いだろうと いうのが著者の見解である. 3 いわゆる輪切りの検定 3 . 1 定式化と方法 表 2と式 2に表したように, 2つの処置群について k時点測定した試験について考える.岸本 ( 1 9 9 7 )が示したように,時点聞の相関構造に複合対称を仮定すれば,時点毎に行う対応のない t検 { 1 直を得ることができる.その概略は次の通りである. 定について多重性を調整した p 観測値 Y i hrについて,各セルの平均をパラメタとしたモデ、ルを想定する. Y ihr=μ仇 +cihr i= 1, 2, h= 1, …, k, r= 1, …, 1 7仇 , ( 3 ) 同一群の観測値 Y ihrは等分散で、時点聞で、等相関と仮定し,さらに等サンプルサイズとする.パラ . ー , μlk, 仰い・・, μ2k) 聞の分散共分散は, k=3のとき次のように表される. メタ μ =(μll, 1ρρ000 ρlρ000 Iρ ρ 1 0 0 0 V訂 (μ)=σ ワ 2 ( 4 ) 000 1ρρ 000ρ1ρ 000ρρ1 仮説のコントラスト行列を次のように設定する。 I1 0 0 ‑1 0 0 ‑1 L = I0 1 0 ¥0 0 1 0 0¥ ( 5 ) 0 I 0 ‑1 I コントラスト問の分散共分散は次のようになる。 {1ρρl ( 6 ) Var(Lμ)=2σ2I ρ 1 ρ │ ¥ ρ ρ 1/ ‑41
よく知られているように,このような等相聞の多変量 t分布の積分計算は実行可能で、あり,これ により各コントラストの最大値について確率評価することができる. SASでは, PROBMC関数 で Dunnett型の指定をすることにより求められる. 表 35%臨界値の表 ν 。 4 . 7 8 3 . 3 8 3 . 3 6 3 . 2 3 3 . 0 6 2 . 3 1 3 8 2 . 7 2 2 . 7 0 2 . 6 2 2 . 5 1 2 . 3 1 . 6 7 2 1 2 . 1 8 2 . 5 4 2 . 5 3 2 46 2 . 3 6 2 . 5 0 2. 1 6 2. . 2 9 2 . 1 2 46 2. 45 2. 42 2 . 3 8 2 k=2 0 . 3 p 0 . 5 0 . 7 0 . 9 1 。 。 2.24 2.23 2.21 2.18 2.11 1.96 k=3 6 45 3 . 1 9 3 . 1 6 3 . 1 0 2 . 9 9 2 . 8 0 2. 1 2 . 7 3 2 . 1 8 2 . 7 5 2 . 6 8 2 . 6 1 2. 46 2 1 8 2 . 6 2 2 . 6 0 2 . 5 0 2 . 3 6 2 . 1 0 . 5 6 2 24 . 3 1 2 . 0 6 . 5 4 2 . 5 1 2. 44 2 2 . 5 6 2 。 。 2.39 2.38 2.35 2.30 2.19 1.96 k=4 8 . 0 9 3 . 6 9 2 . 3 1 3 . 1 3 3 . 0 2 2 . 9 1 2 1 6 . 1 2 44 2 2 . 7 8 2 . 7 6 2 . 7 1 2 . 6 2 2. 24 . 0 6 2 . 6 8 2 . 6 6 2 . 6 1 2 . 5 3 2 . 3 7 2 32 2 . 6 3 2 . 6 1 2 49 2 . 3 4 2 . 0 4 . 5 7 2. 00 2. 49 2. 47 2. 44 2 . 3 8 2 . 2 4 1 .9 6 t u d e n t i z e dMaximumModulusに 、 ρ=1のときは多重性を考慮、しない場合に対 ρ=0のときは S 応する。相聞の大きさによる臨界値の変化は小さく,相聞が相当大きくないと相聞を考慮、しない 場合に比べて有利にならないことがわかる。実際の解析ではデータから推定した相関で pを置き 換えるが,その際の推定誤差は問題にならない.また,多少の不等相聞があっても影響ないこと が示唆される. 3 . 2 輪切り検定の例題 多重性を考慮した輪切り検定の SASによる実施例を紹介する.データは遅効性の薬剤に関する もので,投薬後 5 時間 ~8 時間のあたりで実薬群と溶媒群とに効果の差があることが期待されたが, いつ効果があるかは事前には明らかになっていなかった.測定した 4時点のうちいずれかで有意な 差があれば効果ありと判定したいが,相聞のある 4時点で測定していることの多重性を考慮しなけ ればならない. AUT ηL
dataB ; d$也 2 input group$ i dotime=5 to 8 ; i 且p utY 也; o u t p u t ; e n d ; c a r d s ; Vehicle 0 0 1 3.253.553.44 1.78 Vehicle 003 2.59 2.804.18 2.63 Vehicle 004 3.093.29 2.05 1 . 2 8 Vehicle 007 2.662.86 2.27 1 . 8 2 Vehicle 008 2.842.43 2.36 2.30 Vehicle 009 2 . 0 1 2.86 1 . 8 42.50 Vehicle 010 3.223.362.80 2.26 Vehicle 0 1 1 3.163.853.42 1.93 D + P ( H ) 301 2.07 1.58 1.84 2.06 D+P ( H ) 305 1.862.09 1 . 7 6 2.43 D + P ( H ) 306 2.842.13 1 . 6 2 1.62 D+P ( H ) 307 3.30 2.03 2.88 2.60 D+P ( H ) 308 1 . 7 31 . 6 71 . 1 51 . 2 1 D + P ( H ) 309 3.402.163.20 2.24 D + P ( H ) 310 2.79 1 . 8 22.38 1 . 2 9 D + P ( H ) 311 2.733.38 1 . 9 3 2.61 procmixeddata=B; class grouptime i d ; model y = group(time) /ddfm =re sidual; repeatedtime /type=cs subject=idR C O R R ; lsmeansgroup(time) / corr slice=time; ru 且; 図5 . 1各セル聞の最小ニ乗平均と相関係数 Least Squares Meむ l S Level GROUP(TI阻 ) D+P(H) 5 GROUP(TlME) Vehicle 5 GROUP(TI阻 ) D+P(H) 6 GROUP(TlME) Vehicle 6 GROUP(TlME) D+P(H) 7 GROUP(TlME) Vehicle 7 GROUP(TI阻 ) D+P(H) 8 GROUP(TI阻 ) Vehicle 8 阻 AN LS 2.59000000 2.85250000 2.10750000 3.12500000 2.09500000 2.79500000 2.00750000 2.06250000 Std Error 0.20761292 0.20761292 0.20761292 0.20761292 0.20761292 0.20761292 0.20761292 0.20761292 DDF 56 56 56 56 56 56 56 56 T I T Pr > I 12.48 0.0001 13.74 0.0001 10.15 0.0001 15.05 0.0001 10.09 0.0001 13.46 0.0001 9.67 0.0001 9.93 0.0001 CORR1 CORR2 CORR3 CORR4 CORR5 CORR6 CORR7 CORR8 1 .00 ‑0.00 0.30 0.00 0.30 0.00 0.30 0.00 .00 ‑0.00 0.30 0.00 0.30 ‑0.00 0.30 0.00 1 0.30 ‑0.00 1 .00 0.00 0.30 0.00 0.30 0.00 0.00 0.30 0.00 1 .00 0.00 0.30 0.00 0.30 .00 0.00 0.30 0.00 0.30 0.00 0.30 0.00 1 .00 0.00 0.30 0.00 0.30 0.00 0.30 0.00 1 .00 0.00 0.30 ‑0.00 0.30 0.00 0.30 0.00 1 0.00 0.30 0.00 0.30 0.00 0.30 0.00 1 .00 ‑43
図5
.
2各時点での多重性を詞整しない検定
T
e
s
t
so
fE
f
f
e
c
tS
l
i
c
e
s
N
D
F D
E
f
f
e
c七
D
F
F P
r >F
S
lユc巴
G
R
O
U
P
(
T
I
M
E
) T
I
M
E5
6
0
.
8
0 0
.
3
7
5
1
1 5
G
R
O
U
P
(
T
I
M
E
) T
I
M
E6
1 5
6 1
2
.
0
1 0
.
0
0
1
0
G
R
O
U
P(
T
I
M
E
) T
I
M
E7
1 5
6
5
.
6
8 0
.
0
2
0
5
G
R
O
U
P
(
T
I
M
E
) TIME8
6
0
.
0
4 0
.
8
5
2
1
1 5
TIME=6のとき F=12.01,Pニ 0
.
0
0
1
0で最も効果が大きい.得られた相関と F値 (
t値に変換)を基
に,多重性を調整した p値を求める.
d
a
t
am
u
l
t
̲
t
;
k= 4
;
t=s
q
r
t
(
1
2
.
0
1
)
;
r
h
o=0
.
3
0
;
6
;
n
u= 5
阻 .
b
d
a
{
4
}
;
a
r
r
a
y1
d
oi=l t
ok
;
l
皿 l
b
d
a
{i} =s
q
r
t
(
r
h
o
)
;
e
n
d
;
.n
u,k,o
fl
a
m
b
d
a
l
‑
1
a
m
b
d
a
4
)
;
p=1‑p
r
o
b
m
c
(
"
D
U
N
N
E
T
I
2
",t,,
p
u
tp
=6
.
4
;
r
u
n
;
P=0.0040
.
0
0
1
0で、あったのに対し,多重性を調整した p値は 0
.
0
0
4
0になった.
TIME=6での生の p値が 0
今の例では相闘が 0
.
3
0と小さかったことにより, B
o
n
f
e
r
r
o
n
i調整と同じ結果となった. F
ri
s
o
nand
P
o
c
o
c
k
(
1
9
9
2
)が 1
0の臨床試験を調べた報告によれば, v
i
s
i
t聞の相聞は 0
.
6
‑
0
.
8程度であることが
o
n
f
e
r
r
o
n
i調整よりは精度よく検定できる.
多かった,そのような試験であれば B
4 おわりに
経時データの多重比較法は,従来そのための方法がわからないという理由で十分に行われてこ
なかったように思われる.原理は意外と簡単であり, SASでの実行も容易であることが示された.
参考文献
[
1
]F
ri
s
o
n,
L
.,andPocock,
S
.
J
.
(
1
9
9
2
)RepeatedMeasuresI
nC
l
i
n
i
c
a
lTri
a
l
s
:A
n
a
l
y
s
i
sUsingMean
SummaryS
t
a
t
i
s
t
i
c
sAndI
tsI
m
p
l
i
c
a
t
i
o
n
sF
o
rDesign,
S
t
a
t
i
s
t
i
c
sI
nM
e
d
i
c
i
n
e
,1
1,
1
6
8
5
‑
1
7
0
4
.
H.andF
e
l
d
t,
L
.
S
.
(
1
9
7
0
)C
o
n
d
i
t
i
o
n
sUnderWhichMeanSquareR
a
t
i
o
sI
nRepeated
[
2
] Huynh,
MeasuresD
e
s
i
g
n
sHaveExactF
‑
d
i
s
t
r
i
b
u
t
i
o
n
s
: JASA1
1,
1
5
8
2
・1
5
8
9
.
,
J
.
C
.
(
1
9
9
2
),TheF
a
c
t
o
rA
n
a
l
y
t
i
cApproacht
oSimultaneousI
n
f
e
r
e
n
c
ei
nt
h
eGeneral
[
3
] Hsu
L
i
n
e
a
rModel,
J
o
u
r
n
a
l0
1C
o
m
p
u
i
a
i
i
n
a
lS
i
a
t
i
s
t
i
c
sandG
r
a
p
h
i
c
s
,1,151‑168.
[
4
] 岸本淳司 (
1
9
9
7
)経時データにおける時点毎の比較の多重性調整法, 日本統計学会第 6
5回大会
講演報告集.
4
4
S U G I ‑ J ' 9 7論文集 システム •
日本 SASユーザー会 (SUGI‑J) S A Sシステムと州Wによる実践的半導体不良解析システムの構築 家常行広 千車工場ウエハ製造部 目立北海セミコンダクタ(株) Developmento fe f f e c t i v ed a t aa n a l y s i ss y s t e mf o rs e m i c o n d u c t o rm a n u f a c t u r i n g u s i n gSASs y s t e ma n dWWW Y u k i h i r ol e t s u n e WaferManufacturingD e p t .,H i t a c h iHokkaiSemiconductor,L t d .ChitoseWorks 要旨 wwwサーバの CGIを経由して、 SASシステムの利用法を工夫し、データベースの情報等をブラウザか ら階層的に掘り下げて解析できるシステムを開発した。その概要と開発テクニックを紹介する。 キーワード: WorldWideWeb( WWW)、CommonGatewayInterface(CGI)、SAS システム 1 . はじめに 各企業における、イントラネットへの取り組みが定着化してきた。 Web 環境においては、「すべてのユ ーザーが、見たい情報を、見たいときに参照する事ができ、且つ全員が同じ情報を見ることがで、きる。」 としづシステム環境が非常に高く評価され、期待されている現われであると思われる。 この Web環境で、 SASシステムを利用できれば、より大きな効果が期待できる。特に弊社にとっては、 統計処理を多用する半導体不良解析機能に、その技術を利用できれば、技術のレベルアッフ。が期待 できる。しかしながら、 SASシステムの統計機能を利用した半導体不良解析システムを、 Web 環境で 構築するには、幾つかの課題を克服する必要がある。一つは、 Web環境で SASシステムを利用する ためのシステム方式に関する課題であり、一つは、半導体不良解析機能の要求仕様から発生する課 題である。以下にその課題を紹介する。 AU1 i ワ
(1 )Web環境のシステム方式に関する課題 a ) ブラウザーの入力情報を Web サーバを介し、 SASシステムにいかに引き渡すか。また、 SAS システムの機能をいかに起動するか。 b ) ブラウザーと Webサーパの接続セッションは l回の要求毎に切れてしまう。 (2)要求仕様から発生する課題 a ) 半導体不良解析システムには、多種多様な解析機能が要求される。すなわち、多種多様な入 力画面があり、多種多様な統計処理機能が存在する。これらを効率良く入出力制御、起動制 御する必要がある。 b ) 半導体の不良原因は年々複雑化しており、 lつの出力結果を階層的に掘り下げて解明できな ければ、効率的な解析ができない。すなわち、前固までのセッションの処理過程、処理結果を 記憶しておく必要がある。 以上の課題を総合的に検討すると、まだまだ我々の Web環境活用技術では障壁が高かったので、あ るが、ニーズ、の大きさに答えるため、敢えて開発に踏み切った。尚、上記の課題を整理すると、システ ム構築の課題は次のようになる。 (3)システム構築の課題 a ) 多種多様な機能に対し、ブラウザ、ー・ Webサーバの Web環境と SASシステムとの入出力制 御、起動制御を効率良く行う。 b ) ユーザ相互間の競合と、階層化解析機能のために、継続的なセッションの整合性を確保する。 c ) 階層化解析機能のプログラミング手法を確立する。 上記課題の解決方法を中心に、以下内容を説明する。 2 .入出力制御および起動制御 Web 環境において、半導体解析システムの様な、多種多様な機能のシステム構築を行うには、 Web 環境としち特殊な環境でのシステム構築であることを充分に考慮し、制御方式を検討する必要がある。 例えば、 Web 環境で一つの解析機能を作成する場合を考えると、まず、その解析機能には、条件を 入力するページと、出力結果が表示されるページが存在することになる。制御プログラムは、それぞれ のページに対して存在し、入力処理・実行処理・出力処理を行う必要がある。この制御プログ、ラムを各 解析機能毎に、条件入力ページ毎、結果出力ページ毎にそれぞれ個別に作成すると、かなりの本数 になり、又、同じ処理が含まれていれば、大変なプログラミングのロスである。少なくともこのような初歩 的なロスは避け、制御プログラムの共通化を考えたいところである。 48
今回の開発では、どのページに対しても起動される制御プログラムを 1本にし、共通化した。この共通
スクリプトで作成されており、 Webブラウザー
化制御プログラム(以下メインプログラムと呼ぶ)は Parl
からの入力情報をWebサーバの CGr手順を介して受け取る処理が共通化されている。また、各解析
機能毎の入力処理、実行処理、結果の出力処理は、ライブラリー化を行い、ライブラリー聞の共通処
理もサブルーチン化し、さらにプログ ラミング、ロスの改善も:行った また、メインフ。ログ ラムで、はパラメータ
O
P
渡しにより、解析機能別のライブ、ラリーを起動する工夫も行っている。
尚、各ライブラリーの体系管理は、混乱しないように、ドキュメントにより厳密に管理する工夫が必要で
ある。
以下に今回開発した制御プログ、ラミング、の具体例を紹介する
O
2
. 1 入力制御
P
e
r
l プログラムライブラリー名とサブノレ
ブラウザから送られてくるデータには、起動する解析機能名 (
ーチン名)と、解析機能に渡す解析条件のデータが送られてくる。メインプログラムは、 CGIから受け取
ったデータを、連想配列に取り込む。次に、指定された P
e
r
l プログラムライブラリーを読み込み、指定
されたサブルーチンを起動する(図 1参照)。プログラミング例をリスト 1に示す。
P
e
r
lスクリプト
メインプログラム
P
e
r
l フ。ログラム
ライブラリー
句
︐
︒
︐ ιqJVA RJV
t
、
、
=
図 1入力制御
r
e
q
u
i
r
e 8
I
N
/
c
g
i
.p
l
"1
1d
i
e
;
品c
g'
id
e
c
o
d
e
;
e 8
I
N
/
$
c
g
i
'
t
a
g
s
(
'
P
A
G
E
'
}
.
p
l
"1
1d
i
e
;
r
e
q
uIr
s
u
b
s $
c
g
i
'
t
a
g
s
(
'
M
O
D
E
'
)
;
品s
u
b
s
ホ
リスト 1
1
'
"
"
2行目:
c
g
i
.p
lは
、 CGr から送られてきたフォームデータ (name二 value&[name=value]... )
を
、 tags{J
連想、配列に取り込む。 name は配列の要素名になり、 value はその配列要素の値になる。実際に
tags{J連想配列に取り込む処理は、 $
B
I
N
/
c
g
i
.p
l Perlプログ、ラムライブラリの中の decodeサ
ブルーチンが行っている。
‑49
3~5行目:
tags(P
A
G
E
'
}I こ入っている値の Perl フ。ログ、ラムライブPラ~を読み込み、 tags (M
O
D
E
'
}I
こ入っている
値のサブルーチンを実行する。
2.2起動制御
メインプログ、ラムから起動されたサブルーチンは、 SAS解析機能の起動プログラム (SASプログラムス
テートメント)をダイナミックに生成・起動し、解析処理を実行させる。続けて出力結果の出力制御サブ
ノレーチンを起動する。
起動フ。ロク守ラムの編集に際しては、セッション管理を可能にするために、ユーザIDをマクロ変数に定
義し、メインフ。ロク守ラムの連想、配列から受け取った解析条件を、一旦 SASステートメントの形式でパラメ
n
c
l
u
d
eされるように編集
ータモジュールに出力し、 SAS解析機能モジュールと環境モジューノレと共に i
される。 SAS解析機能モジューノレは、実際の解析処理を行う SASプログラムであり、環境モジューノレ
別の SASデータライブ、ラリ名と出力ファイル名を定義している(図 2参照)。サブルーチン
はユーザID
のプログラミング例をリスト 2に示す。
起動プログラム
P
e
r
lプログラム
ライブラリ
「
サブ日ン 1
1
1
1
i
b下
,
‑
:
.
.
̲
.
)
b
ヤ プ環境
口
¥
「 7一
戸
匂.,̲
/ F
./
し
: ,.)出力
ファイ/レ
図 2起動制御
1 s
u
be
x
e
cs
a
s
2 {
3
4
5
6
7
8
9
10
1
1
1
2
1
3
、
=
o
p
e
n
(
P
R
M, "
>$prm");
p
r
i
n
tP
R
M"
¥
帖I
e
tp
r
o
d
u
c
t
=
$
c
g
i
'
t
a
g
s
(
'
p
r
o
d
u
c
t
'
}
;¥円"
p
r
i
n
tP
R
M"
l
i
%
I
e
tp
r
o
c
=
$
c
g
i・
t
a
g
s'
(p
r
o
c
'};¥円"
pri
n
tP
R
M"
l
i
首I
e
ti
t
em
=$
c
g
i・
t
a
g
s'
{i
t
e
m
'};
l
i
n
"
;
c
l
o
s
e
(
P
R
M
)
;
Fhu
ハU
1
4
I
o
c
a
I(
$
p
r
m, $
s
y
s
i
n, $
I
o
g, $
p
r
o
g
)
;
$
p
r
m="
$
G
R
F
/
$
E
N
V
{
'R
E
M
O
T
E
̲
A
D
D
R
'
}
.
p
r
m
"
;
S
Y
S
I
N
/
$
E
N
V
(
'R
E
M
O
T
E
̲
A
D
D
R
'}
.
s
a
s
"
;
$
s
y
s
i
n
$1
o
g="
$
L
O
G
/
$
E
N
V'
{R
E
M
O
T
E
̲
A
D
D
R
'}
.1
o
g
"
;
$
p
r
o
g="
$
P
R
O
G
/
q
c
h
i
s
.s
a
s
"
;
1
1ID別データ
に一̲̲̲.)
1
5
1
6
1
7
1
8
1
9
2
0
o
p
e
n(
S
Y
S1
N
,う $
s
y
si
n
"
);
¥%
I
e
tu
s
e
r
i
d
=
$
E
N
V
{
'R
E
M
O
T
EA
D
D
R
'J
;¥n
"
.
p
r
i
n
tS
Y
S
I
N"
p
r
i
n
tS
Y
S
I
N "¥%i
n
c1
u
d
e'
$
S
A
S
E
N
V
'¥
;n
"
.
p
r
i
n
tS
Y
S
I
N"
¥%
i
n
c
l
u
d
e '$pr~ ¥
;n .
¥%
i
n
c
l
u
d
e'
$
p
r
o
g
'¥
;n
"
;
p
r
i
n
tS
Y
S
I
N"
c
l
o
s
e
(
S
Y
S
I
N
)
;
2
1
systemC$SAS‑
n
o
a
u
t
o
e
x
e
c‑
s
y
s
i
n$
s
y
s
i
n‑
I
o
g$
I
o
g>I
d
e
v
/
n
u
l
lづ
,
&
r
e
s
u
l
t
;
2
2
2
3
24 J
2
5
リスト 2
4
"
"
'
6行目:
パラメータモジューノレ ($prm)、起動フ。ログラム ($sysin)、SASのログファイル($l
o
g
)のファイル名を、
E
M
O
T
E
̲
A
D
D
Rにはユーザ ID(IPアドレス)が設定されている。
ユーザ IDを付加して定義する。 R
7行目:
SAS解析機能モジューノレを tags(
'
P
A
G
E
'
)で指定されたファイノレ名に定義する。
9
"
"
'
1
3行目:
パラメータモジューノレに解析条件を %
l
e
tステートメントで出力する。
15""'20行目:
起動プロク守ラムをダイナミックに編集し、次の内容を生成する。
ユーザ IDをマクロ変数に定義する S
ASプログラムステートメント
AS解析機能モジ、ュールを i
n
c
l
u
d
eする SAS
パラメータモジ、ューノレ、環境モジ、ューノレ、 S
プログPラムステートメント
22行目:
SASをバッチモード で、起動する。
23行目:
出力結果の出力制御を行うサブルーチンを起動する。
2
.3 出力制御
出力制御サブノレーチンは、 SAS解析機能モジュールが出力した出力ファイルを読み込み、ブラウザ
へ HTML出力する。出力ファイノレにはテキストデータ形式のファイノレと G
I
F形式の画像ファイノレがある。
)
頂に読み込み、必要な HTMLタグを付加しブラウザに出力する。
テキストデータ形式のファイノレは、 1
G
I
F画像ファイルは G
I
F形式のファイルとしてリンクタグyを定義し HTML出力する。また、次のアクショ
ンとなるリンクには、共通制御プログラムであるメインプログラムを指定し、メインプログラムから起動され
るサブルーチンを P
AGE変数と MODE変数に定義設定した HTMしを出力する。
リスト 3にプログラム例を示す。
ζリ
sub result
2
print "Content‑type: text/html¥n¥n
3
pri
nt く RESULT̲l;
くHTML><HEAD><T1TLE>SUGト J '97 不良解析システムプログラム例く ITITLE
></HEAD>
4
5
6
くBODY><H3><B>出力結果く/砂<
/
H
3
>
7
8
RESULT 1
.gif";
$gi
f= "
$
1MG/$ENV[
'REMOTE̲ADDR'J
9
¥"$gif¥
"
>
¥n".
pri
nt "<1
MG SRC=
10
.dat";
$data = "$DATAI$ENV[
'REMOTE̲ADDR'J
1
1
open (DATA,$data);
12
申DATA =く DATA
>
;
13
close (DATA);
14
pri
nt くTABLE BORDER>
¥n
15
foreach 0
申D
ATA) {
16
17
18
chop;
p
li
t(
/1
,$̲ )
;
($product, $proc, $width) = s
¥n
print くTR>
19
20
t "<TD>$productくI
T
D
>
¥円;
p
r
i円
p
r
i円
t"
く TD>$proc
くI
T
D
>
¥円"
2
1
print "<TD>$widthくI
T
D
>
¥円"
22
p
r
i円
t"
<
/
T
R
>
¥円"
23
24
25
26
27
pri
円t "
</TABLE
>
¥n".
pri
円t "<FORM METHODニ
¥"post¥" action=
¥"qc‑sample.cgi¥
"
>
¥ n".
pri
円t "<INPUT TYPE=
¥"HIDDEN¥"NAME=
¥"PAGE
¥"VALUEニ
¥"qchis¥
"
>
¥n".
¥"HIDDEN¥"NAME=
¥"MODE
¥"VALUE=¥"init¥
"
>
¥n";
pri
nt "<1
NPUT TYPE=
28
print "<INPUT TYPE=:;:"SUBMIW" VALUE=:('初期画面¥">¥n";
29
pri
円t "
</FORM>
¥n".
print く RESULT̲2;
30
3
1
32
くIBODY></HTML>
33
}
RESULT 2
辺国
3行目:
ブラウザに M
IMEを送信。(以降の出力は HTML形式であることを宣言する。)
4
"
'
"
'
7行目:
通常の HTMLを出力する。 (
R
E
S
U
L
T
̲
lのラベノレまでを出力する。)
8
"
'
"
'
9行目:
GIFファイルを変数$gifに定義し、画像へのリンクを出力する。
尚
、R
E
M
O
T
E
̲
A
D
D
Rでユーザ I
D(
IPアド、レス)をファイノレ名に付加している。
1
0
"
'
"
'
2
4
行目:
表示する出力ファイノレのデータを読み込み、表出力する
2
5
"
'
"
'
2
9行目:
次のアクションを定義する。次のアクションは、共通制御プログラム (qc‑sample.cgi)が起動される
ように定義し、その中から起動するサブルーチンを P
A
G
E変数、 M
O
D
E変数に定義してタグ出力す
phu
nノ臼
る
3 . 競合回避とセッション整合性 ユーザ相 E間の競合回避と、階層的にデータ解析を行うため、本、ンステムでは擬似的にセッション維 持を行っている。セッ、ンョンを維持するためには、サーバー側で前固までの処理過程を保持する事と、 前固までの処理結果を保持する事が必要になる。処理過程を保持する事は、パラメータモジュールを 保持することであり、処理結果を保持することは、出力される SASデータセットを保持することで、ある。 具体的には各々のファイノレ名にユーザ ID を付加している。プログラミング例をリスト 2 の 4~6 行目に 示す。また深い階層化解析にも対応するためには、ユーザ IDの他に、階層 N o.の付加も必要になる O 尚、ユーザ IDを取得する方法には次の 3通りが考えられる c ・ページにアクセスする直前に、ユーザ ID・パスワードを入力してもらう方法 .IPアド レスをユーザー IDとする方法 .C o o k i e を利用してユーザ IDを取得する方法 また、上記のセッションを管理するファイルを消去するまで、は、擬似的にセッションを維持することが可 能であるが、削除するタイミングに工夫が必要である。本システムでは、 1日 1回深夜に削除する方式 を採用している。 4 .階層化解析機能 図3に示すように、出力したグラフをクリックする事で詳細データを出力したりするような、階層的な解 析機能を行うためには、 HTMLのクリッカフ、ル・マップを用いる。クリッカフ、/レ・マップを用いるには、グ ラフ内の各要素とグラフ出力のもととなるデータを関連付けしなければならない。以下に具体的な処理 方法を説明する。 クリックで、対象となるデータの詳細を表示 LOT Wafer AOOI l A002 Date Time Data 7 / 1 日: 2 0 0 . 8 2 4 20 7 / 1 1 7 : 4 4 0 . 8 2 6 A003 3 7 / 1 2 0 : 3 9 0 . 8 2 7 A004 I 2 7 / 2 0 2 : 1 7 0 . 8 3 3 図 3WWWによる階層的データ解析 4 . 1 X!Y座標の割り出し グラフを GIFフォーマットで、出力し、クリッカブ、/レ・マップの画像として使うためには、グラフの各要素 座標のどの位置に存在するかを、あらかじめ調べておく必要がある。さらに、 SASでの が 、 XNωixel) グラフ作成処理の描画単位(セル)との関係も把握しなくてはならない。これらの関係を把握しておけ ‑5 3一
ば、グラフ要素とデータの関連付けを行う事ができる。以下に、例をあげて説明する。 SAS がグラフを描画する単位はセルで、セノレの大きさは、画像サイズを GOPTIONSステートメント VPOS・HPOSオプションの設定値で宮l った値である。また、セノレの大きさと、 GIF画像出力したとき p i x el)の関係は、実際にグラフを出力して調べる。図4に示すように、 GOPTIONSステート の分解能 ( メントで、 HPOS=60、HSIZE=12cm、VPOS=120 、VSIZE=10cmを指定した場合、実際のグラフ 4 8 p i x e lx 縦 3 7 4 p i x e lの画像サイズで出力された。この関係をもとに、 1 p i x e l当たりのセル数 は横 4 を求めれば、プログラム中でセノレ座標のデータから XN座標の割り出しが可能になる。 ︐ ノ ) レ セ︑ m ム 噌E a 1 nし o u ‑K 8吐 d 月 D・ alli‑‑3Ill‑‑ 守 与 nU 一一一一 ︒氾 ︒ 円S 1A n u ‑‑ρu よ 4E OE PAQUλ ノ HH パ セ︑ m 一﹄ ‑nU ‑9 一 一一一 一一 l ﹂ B t・ SZ IL‑‑oロ ‑wm 一 一 一 一 一 448pixel X方向:1 p i x e lニ0 . 1 3 4セル Y方向:1 p i x e l = 0 . 3 2 1 セノレ 図 4 出力グラフと XN座標の関係 20セルと定義しているので、上下の余白を 1 0セノレとした場合、グラフ描画領域は、縦に また、縦に 1 100セルになる。この 100セルの範囲で、たとえばグラフ縦軸の最大値を 100%とした場合、度数 1% に対するセル数の関係は、 1%=1セルになり、データに対するセノレの関係が割出せる。 4 .2 グラフ要素とデータの関連付け 棒グラフ、折れ線グラフ、円グラフなどのグラフ作成に、本システムでは ANNOTATEデータセットを 使った GSLIDE プロシジャを用いている。 SASシステムで用意されているプロシジャを使わずに、 ANNOTATEデータセットでグラフ作成している理由は、正確な X /Y座標を割出すためである。 ここで、グラフ作成用の ANNOTATEデータセットを生成する際に、処理過程で必ず、 Iつのグラフ要 素(棒グラフの棒・折れ線グラフの点と線・円グラフの弧など)が 1オブ、ザベーションに相当するデータ Dと画像の X/Y座標を付加すること セットが存在するはずである このデータセットに、グラフ要素の I O DとX! Y座標を付加したデータセ で、各グラフ要素に対するデータの関連付けができる。グラフ要素 I ットは、そのままクリッカブ、/レ・マップ出力用のデータとなるので、出力ファイルとしてテキストファイルに 出力する。これらのデータセットの説明を、ヒストグラム出力を例に説明する。 ヒストグラムでの 1グラフ要素が 1オブザベーションに相当するデータセットとは、度数分布表を指し ている。この度数分布表の各階級に IDを設け、さらに各階級の度数にセル数割り出しの係数(図 4 では係数二 1 )を掛けて、 SASでのグラフ描画用にセル数を算出する。またクリッカブノレ・マップ用に、 5 4
XIY座標の係数(図 4では係数 =0.321)をセル数に掛けて算出する。このデータセットの情報を、テ キストファイノレに出力する。また任意の棒をクリックしたときに、その棒を構成するデータの生データを 表示する機能を設けるならば、グラフ作成の生データに、グラフ要素 IDを付加しておく。 図5に入出力画面を示し、リスト 4に SAS解析機能モジュールのプログラム例を示す。 図 5 ( a ) ヒストグラム 入力画面 図 5(b)ヒストグラム出力結果画面 5 5一
目Iet VZERO=10; 2 1 *X軸の Y方向セル値 * 1 goptions hsize=12 cm vsize=10 cm hpos = 60 vpos = 120 border; 、 3 goptions gaccess=gsasfiI e gsfmode=replace device=imggif cback= white; 4 fi1 ename gsasfi1 e IMG"; 1 *ユーザ IDがついた GIFファイル名 * 1 5 6 7 data res.mst; set mst.master; 1 *ユーザに指定された条件のデータを抽出 i fh i円 = symget( 'product') and 8 proc = symget( 'proc') and 9 10 * 1 i tem = symget( 'i tem') then output; run; 1 1 12 13 *抽出したデータの MAX,MIN,N を求める proc mea円s data=res.mst; 1 14 15 * 1 var data; output out=mstmea円 m i円=mi円 max=max n=円, ru円 ; 16 1 7 18 19 20 2 1 22 23 24 25 data 円 uII set mstmean; stg = 1 + ( Iog10( 円) I 1 ogl0( 2 )) ; 1 *スタージェスの公式で、階級数を求める * 1 1 *階級の幅を求める * 1 ca11 symput( 'H1 SMAX , ・ compress(max)); 1 *データの愚大値をマクロ変数に代入 * 1 ca11 symput( 'H1 SM1 N ',compress( mi n)); 1 *データの愚小値をマクロ変数に代入率/ ca川 symput( 'H1 SSTG',compress(stg)); I ネ階級数をマクロ変数に代入 * 1 ca川 symput( 'H1 SSTP',compress(stp)); I ネ階級幅をマクロ変数に代入 * 1 caII symput('HISWK',compress(stp+mi円 ) ) ;1 *愚初の階級の愚大値をマクロ変数に代入 * 1 stp = (max‑min)/stg; ru円 ; 26 27 ; proc sort data=res.mst; by data; ru円 28 29 *各階級にデータを分類する * 1 data r e s .adrs; set res.mst e円d=eof; by data; 1 30 retai 円 r id 1 ; retai円 wk 品HISWK; 3 1 i f data 32 >wk then do; wk = wk + symget('HISSTP'); 33 d+ 1 ; ri 34 output; 35 end; 36 eIse output; i f eof the円 ca11 symput( 'NCNT ',compress( 一 円 一 ) ); 37 38 ru円, 39 40 e s .adrs; by rid; ru円 ; proc sort data二 r 4 1 42 43 *各階級の度数を出力する proc means data=res.adrs; var data; by rid; 1 output out=adrsm1 n=円 ; 44 ru円 ; 45 46 47 data adrsm2; set res.adrs; by rid; 1 *各階級の範囲 (wk変数)を出力 keep rid wk; i f first.rid the円 output; 48 49 ru円 50 5 1 *度数分布表を作成 * 1 data adrsm2; merge adrsm1 adrsm2; by rid; 1 52 keep rid n wk; 53 caII symput('RIDCNT',compress(rid)); 54 ru円 5 5 56 * 1 * 1 ﹁ rυ nb
5 7 5 8 5 9 6 0 6 1 6 2 6 3 6 4 6 5 6 6 6 7 6 8 6 9 7 0 7 1 72 7 3 % m a c r oa n n o ;1 *クリッカブル・マップ用データと州 NOTATE データセットの作成 * 1 d a t ar e s . m a p ;1 *度数分布表から、 GIF画像の X / Y座標を算出 * 1 s e ta d r s m 2e n d = e o f ; l e n g t hr a n g e sr a n g e e8 ; 5 0 1(symget' (RI D C NT ')+ 1 ) ) ;1 *棒のセル幅を算出 * 1 b h a x =( h a x =5 +( b h a x *円); 1 *棒の水平方向終了セル位置を決定 * 1 v a x = 畠V Z E R O +( (円 (I s y m g e t ( ' N C N T '))判 0 0 ) ) ;1 *様の垂直方向終了セル位置を決定 * 1 gi f s x = p u t( ( h a x ‑ b h a x + O .3 )1 0 .134,3 .0 ) ;1 *棒の水平方向開始座標を決定 * 1 gi f e x = p u t( ( h a x ‑ O .3 )1 0 .134,3 .0 ); 1 *棒の水平方向終了座標を決定 * 1 gi f y= p u t( 3 4 2ー ( v a x + 5 ‑ & V Z E R O )1 0 . 3 2 2,3 . 0 ) ;1 *棒の垂直方向終了座標を決定 * 1 r u円 ; d a t a 円u lI 1 *クリッカブル・マップ用に X I Y座標をテキストファイルに出力 * 1 s e tr e s .m a p; fi I ep r m( & MA P A D R ); p u t ri dgi f s x gi f e x gi f y; r u円 ; nv a 川 // 書 * み 込 き の J L 盛 vl 同国 軸 vI 軸 // 川 VA * 軸 s wy e 一 一 AM7. +ー s ︐ ︒︐ 会 4 E E m Bh' v=Ju s ρ u n CJwn roye ﹄ ・1 Sln U・ 4 +L+LVY+ー sl' Fbnu ec' 円 一 一 s h=‑ ー のιquAM7FhuRU 守' n u Qunv' 'nononooononooonono 守 r+L d g s 円一 a 円y 2u ︐ A U ucJWF+E a ‑ρ‑ xl + l . Fhuau 守' n o 守︐守︐守︐守︐守︐ 凋崎 8 9 9 0 9 1 9 2 9 3 9 4 9 5 9 6 9 7 9 8 9 9 1 0 0 1 0 1 1 0 2 1 0 3 1 0 4 1 0 5 1 0 6 1 0 7 1 0 8 1 0 9 • f u n c ti o n = 'm o v e '; x = 5; y= 品V Z E R O ; o u t p u t ; f u n c ti o n = 'd ra w '; x = 5 5 ;y= 品V Z E R O ; c o l o r = 'b l a c k '; o u t p u t ;1 *X軸の長さは 50セル * 1 f u n c t i o nゴ m o v e '; x = 5; y= 品V Z E R O o u t p u t ; function~draw' ; x = 5; y = 1 0 0 + & V Z E R O ; c o l o r = 'b l a c k '; o u t p u t ;1 *Y軸の長さは 100セル * 1 d o i= 1 0 + & V Z E R Ot o1 0 0 + & V Z E R Ob y1 0 ; 1 *1 0 %ごとに目盛りを書き込み * 1 o u t p u t ; f u n c t i o円二 m o v e ' ; x = 5 ; y = i ; t i o円=' dr a w ' ; x = 4 ; y =i; o u t p u t; f u円c t i o円 = 1 a b el '; x = 3 ; y =i ;t e x t = c o m p r e s s( i‑ & V Z E R O ); f u円c c o l o r' b l a c k '; s i z e = 4 ; o u t p u t ; S Iz e = .; e n d ; a b el '; x = 3 ; y = l0 0 + & V Z E R O + 4 ;t e x t = '% ' ; si z e = 5 ;o u t p u t; f u n c t i o円=' I f u n c t i o円=' l a b e l '; x = 5 5; y =畠V Z E R O ‑ 4 ;t e x t u m '; si z e = 3 ;o u t p u t ; si z e = . e n d ; t i o円=' m o v e ' ; x = h a x; y 二 品V Z E R O ; o u t p u t ; f u円c f u n c t i o n = 'd r a w ' ; x = h a x; y = & V Z E R O ‑ 1 ;c o l o r = 'b l a c k ';o u t p u t ;1 *X軸の目盛線を書込み * 1 f u円c t i o円=' Ia b el '; x = h a x; y= 品V Z E R O ‑ 3 ;c o1 0r = 'b1 a c k '; t e x t = c o m p r e s s ( p u t ( w k,4 .3 ) ) ;s i z e = 3 ; o u t p u t ;1 *X軸の目盛値を書込み * 1 f u n c ti o n = 'm o v e ' ; x = h a x ‑ b h a x + O .3 ;y = & V Z E R O ; o u t p u t ;1 *俸の開始座標セルに移動 * 1 f u n c t i o n = 'b a r ' ; x = h a x ‑ 0 . 3 ; y司 a x ; c o l o rニ' b l u e '; o u t p u t ;1 *様を書く * 1 f u n c ti o n = '1 a b el '; x 二h a xー ( b h a x / 2 ) ; y = v a x + 4 ; c o l o r = 'b l a c k ' ; 1 *俸の愚上部に相対度数を書く * 1 t e x t = c o m p r e s s( p u t( v a x ‑ & V Z E R O,3 .1 ) ); si z e = 5 ; o u t p u t ; : r u円 二 二, % m e円d ; % a円 円 。 p r o cg s li d ea 円n o t a t e = a d r s n ;r u円, リスト4 57
4 .3 クリッカフル・マップ データから算出した訂Y座標をもとに、クリッカブ、/レ・マップを作成することで、ブラワザにグラフ要素 の情報を伝える事が可能である。クリッカブノレ・マップは、以下の HTMLタグで作成する。 くI M GS R C = "U R L "U S E MAP="#?":y7・"1;"問 R D E R = O ) くM A PN A M E = " ? ":y7"1;") くA R E AS H A P E = r e c tC O O R D S = x l l 、y1 f 、x l え y 12H R E F = "UR L f ' ) くA R E AS H A P E = r e c tC O O R D S = x 2 1 、y 2 t 、x 22 ,y 22H R E F = "U R L 2 ' ) (グラフ要素分繰り返し) くA R E AS H A P E = r e c tC O O R D S = x n l 、y n t 、xn . え y n2H R E F = "U R Lr I ' ) く/ M A P ) AREAタグの COORDS属性の値を、リスト4の6 9 ' " ' ‑ ' 7 3行目で出力したデータをもとに作成し、 HREF属性 の値を、メインプログ、ラム名と PAGE変数・ MODE変数を指定し、さらに棒の I D変数も付加して起動させ れば、その棒に関するデータ処理が可能になる。 それぞ?れのタグ、の詳細仕様については、 HTMLの参考書などを参照願いたい。 5 .考察 今回、 Web環境において SASシステムを利用する機能システムを開発したが、開発を通して以下の 内容の考察を得たので紹介する。 1 ) . 今回の開発では、 Web環境としてはシンプノレな技術である P e r lスクリプトと、 CGIを利用し て開発を行った。その分、現有のほとんどすべての Web ブラワザ一端末でも使用できる機 能になっている。しかしながら、今後の SASシステムの高度な利用を目指すのであれば、 Javaや ActiveXなどの高度なテクニックの利用方法の確立が必要と考える。 SASインステ ィチュートジャパンの先導をお願いしたいところである。 2 ) . 本文でも紹介した通り、階層化解析機能の開発に際しては、 HTMLクリッカブノレ・マップの 利用が有効であったが、出力グラフの各グラフ要素と訂Y 座標の整合性を確保するため、 ANNOTATEデータセットを使った GSLIDEプロシジャを使ったコーデ、イング、にせさ るを得 なかった。グ、ラフ出力に対する Web環境との連動性が SASシステムでプロシジャ化されると、 大変便利である。今後の SASインスティチュートジャパンの検討に期待するところである。 ﹁ ﹁U QU
参考文献 ( 1 9 9 6 ), iSASシステムと WVI 明 T; を結ぶ C GI.SASインターフェースの作り方 J , SUGI.J'96 江DSC o n f e r e n c e' 9 6論文集, 日本 SASユーザー会 査野真一郎, ( 19 9 7 ), iSASシステムで構築するイントラウェアハウス Chapter1 ~4J , 月刊イントラネット 1997/5~ 1 9 9 7 / 8, ソフトパンク株式会社 iSAS/GRAPHソフトウェア:リファレンスガイド、 V e r s i o n 6, F i r s tE d i t i o n J, 株式会社 SASインスティチュートジャパン 19 9 6 ), iHTMLハンド、ブ''/ク J,株式会社ナツメ社 磯野康孝蔵守伸一, ( L a r r yW a l l&RandalL . S c h w a r t z ( 近藤嘉雪訳), ( 19 9 3 ), i P e r lプログ、ラミング J, 久保元治, ソフトノミンク株式会社 本論文で紹介したソフトウェアプログラムは著作権フリーです。ただし、プログラムの使用による、いかなる損 害に対しても、弊社はいっさいの責任を負いません。 円同d phd
日本 S A Sユーザー会 (SUG I‑J) SAS/lntrNetによる毒性試験データ解析システム 今溝裕 旭化成工業(株)安全性研究所 TheT o x i c o l o g i c a lDataA n a l y s i sSystemu s i n gSAS/lntrNet HIROSHIlMAMIZO L a b .f o rT o x i c o l o g i c a lR e s e a r c h ASAHICHEMICALINDUSTRYC O ., LTD. 要旨 S A S / l n t r N e tを利用してインターネット Webブラウザから検索でき、既存の毒性試験データベ ースに S AS/ACCESSでアクセスし SAS/BASE, SAS/STAT, SAS/GRAPHでデータ解析するシ ASの利用は導入した市販システムのバリデーション用に開始したもので、、 ステムを開発した。元々 S A S / l n t r N e tの利用によって、各研究者の端末で直接 SASを利用 電算部門で実行していたが、 S し総括表・個別表・各種グラフが得られる、毒性試験データ解析システムを自社開発できた。 hhl ワ キ S A S / l n t r N e t、毒性試験、データ解析システム 1 .S A S l l n t r N e tとは A p p l i c a t i o nD i s p a t c h e rとして、 SAS社のホームページで S A S 6 . 1 2用の評価版を提供してい AS導入マシンで、稼動する A p p l i c a t i o nS e r v e rと Webサ ー バ ー に 導 入 す る るもので、 S A p p l i c a t i o nB r o k e rからなり、 SASシステムのデータ分析・処理の結果を、 Webブラウザを介して ユーザに公開することができる。 2 . システム構成 1 ) 各研究者の端末:インターネット接続パソコン Webブ ラウザ:N e t s c a p eN a v i g a t o r等 2 ) データ解析サーバー : W i n d o w sN T ( S A S 6 . 1 2が動作する任意のシステム) Webサーバー:M i c r o s o f tI n t e r n e tI n f o r m a t i o nS e r v e r ( 任意のソフト) SAS、ンステム :SAS/BASE, SAS/ACCESS, SAS/STAT, SAS/GRAPH, S A S / l n t r N e t 作成した S ASプログラム:体重・餌・水では 2 0本(平均 6 0行、 S A S / l n t r N e t用追加は 1 本) 作成した Webページ:体重・餌・水で 1 本(約 5 0行) nb よ ー
3 ) 毒性試験データベース(データ収集システムを含む) CTC社 TOXstaffシステムによる、 DEC社のミニコン上の ORACLEデータベース (SASで アクセス可能なら任意) 3 . 処理の流れ 1 ) 解析指示用の Webページ(新規作成) 解析のパラメータと対応した SASプログラムを入力変数に設定し SAS/IntrNetのブローカー プログラムを呼び出す。 2 ) SAS/IntrNetのブローカープログラム (BROKER .EXE) 稼働中の SAS/IntrNet のアプリケーションサーバーを制御して、入力変数に対応して、解析 のパラメータを SASのマクロ変数に設定し、 1 )で指定した SASプログラムを呼び出す。 3 ) 1 )で指定した SASプログラム(例 2:新規作成) 必要なライブ、ラリや外部ファイルとマクロ変数を設定し、既存のデータ解析 SASプログ、ラムを呼 び出す。(データ解析のプログ、ラム呼ひ、出しの前後に Webの先頭と末尾部分の出力も実行し た。) 4 ) 既存のデータ解析 SASプログラム(一部追加変更) 元々、各解析用のメインプログラムで SASの WINDOWSマクロを利用して、解析のパラメータ をマクロ変数に設定して実施していたが、この WINDOWSマクロをスキップして設定済みのパ ラメータによってデータ解析を実施した。結果をテキストファイルに出力し、追加の SASプログ、 ラム(例 1 )によって、罫線などを追加して Web出力した。 1 *ansedit2.sas キ/ % l e ts = ' d a t a̲ n u l l ̲ ; r e t a i nl a s tl e n ; i n f i l e' a n s . l i s 'p a d ; 日l e ̲ w e b o u t ; i n p u t@lmsg$ c h a r 1 5 0 . ; i f n= 1t h e n l a st ̲ ]e n =1 ; scanMsg=scan(msg, l ) ; i f( s c a n M s g = 'G r o u p :' ) o r( in d e x ( m s g, 'S i g n i f i c a n t l yd i f f e r e n tf r o m ' ) = l ) o r( in d e x ( m s g, ' D : D u n n ' ) =l ) o r( in d e x ( m s g, ' N : N o n e ' ) =l ) o r( in d e x ( m s g, ' F : F i s h e r ' ) =1 )t h e n p u t& s ; 1 *上側罫線の出カキ/ l e n = l e n g t h ( m s g ) ; i f (l e nl ) a n d ( m s g三 ' ) t h e n l e n = O ; i f( le n ) O ) o r( la st ̲ ]e n ) O ) t h e n p u tmsg$ v a r y i n g. le n ; i f( s c a n M s g = 'Dose' ) o r ( s c a n M s g = 'AnimaI ' )o r ( s c a n M s g = 'Cage' ) t h e n p u t& s ; /キ下側罫線の出カキ/ l a st ̲ ]e n = l e n ; 二 V且 HU n ︐ . フ。ログラム例 1 procprintによる出力 (ans. l i s )に罫線の追加などを行い Webに出力する。 ηL nb
/ *t o x B w .s a s* / o p t i o n n o x w a i t ; /*一部のライブラリやマクロ変数の定義行を省略した*/ l i b n a m ed t" d :干t o x干s & s r s " ; t o x s a s ' f i l e n a m es a s' d :干n % g l o b a ln gn o wp a g e b yt a b l ei t e mi t e m c d ; % l e ta n s e d i t = a n s e d i t ;% l e tp r i n t e r =干 干t o x l干t o x l b p 2 ; % l e tm n u = O ;% l e t̲ i m g0 ; d a t am s .t o x ̲ c n t ; /キプログラム利用カウンタ*/ s e tm s .t o xc n t ; c n t +1 ; i f c n t > 9 9 9 9 9t h e n ̲ c n t = l ; u t ( ̲ c n t,z 5 . ) ) ; c a l ls y m p u t ( '̲ c n t ',p r u n ; % l e tg ̲ o u t = c :干I n e t P u b干w w w r o o t V t e m p V t o x & ̲ c n t . . g i f ; / * グラフの W e b出力ファイノレキ/ f i l e n a m eg ̲ o u t" & g ̲ o u t " ; d a t a̲ n u l l ̲ ; f i l e̲ w e b o u t ; p u t' C o n t e n t ‑ t y p e :t e x t / h t ml ' ; / *W e bの先頭部分出力 * / p u t ; p u t' くH T ML>く H E A D > '; くT I T L E > T O X s t a f fo u t p u tく/ T I T LE>く/ H E A D > ' p u t' ' くB O D YB G C O L O R = " I I F F F F F F " >くH 5 >くp r e > ' r u n ; /*既存のデータ解析プログラムの呼び出し*/ % i n cs a s ( b w ) ; d a t a̲ n u l l ̲ ; f i l e̲ w巴b o u t ; / キ W く/ p r e >く/ H 5 > '; e bの末尾部分出力*/ P U T' i f" & s y s m s g "側三"" t h e n P U T" & s y s m s g " ; 巴l s ei f& ̲ i m g = Ot h e n p u t '印刷が終了しました。, e l s ei f( & o u t = 0 ) o r ( & o u t = 5 )t h e n /ネグラフイメージのリンク表示*/ p u t' くi m gs r c = " / t e m p / t o x & ̲ c nt .• g i f " ' ' ' > ' ; P U T' く/ B O D Y >く/ H T ML>,; r u n ; 二 川 プログラム例 2 解析指示用の Webページで指定され実行される新規プログラム(体重・餌・水用) 4 . システム開発・導入の要点 1 ) SAS/IntrNetの導入 M i c r o s o f t の Web サ ー バ ー で は 、 ブ ロ ー カ ー プ ロ グ ラ ム ( b r o k e r. e x e, broker. c f g )を [ c :¥InetPub ¥s c r i p t s ]デ、イレクトリにコピーする。 SAS システムを導入したデータ解析サーバ ーとは別の機械の Webサーバーの利用が可能である。 2 ) 解析指示用の Webページ SAS/lntrNetのサンプノレから容易に作成できる。 Webサーバーに追加する。 3 ) データ解析用 SASプログ、ラム ηペU Pb
デ、パックの為、同一プログラムが SASのプログラムエテ守イターからも実行で、きるように作成した。 毒性試験データベースからのデータの読み込みは毎回行う事が望ましいが、当システムでは 体重データで 1分程度かかるため、 DataLoad の指定時のみデータ解析サーバーへ転送保 存し、解析結果のヘッダ、に Load日時を表示するようにした。 4 ) 解析結果の Web出力 SAS提供の Web出力フォーマットマクロを利用せず。 SASプログラムの Dataステップの put ステートメントで Webページを出力した。 5 ) グラフの Web出力 SAS/GRAPH(goptions d e v i c e = g if)で、テンポラリの GIFファイノレ(プログラムの利用カウンタ により毎回違うファイノレ名)を Webサーバーに出力し、 4 )にイメージとしてリンクして追加表示し た 。 6 ) 印刷出力 Webブラウザに表示された表や図の印刷は、表の改ページの制御や高品位の図の印刷に問 題があり、当システムでは出力に印削機を指定した時は、 Web表示はせずに解析サーバーか ら直接指定のネットワークプリンターへの出力とした。 (WindowsNTの p r i n tコマンド によって 結果のテキストファイルの前後にプリンターの制御命令を追加して出力した。) 5 . 解析指示用 Webページと解析結果 ファイル〈θ 編集(E̲) 表 示 74 ω 移動〈♀〉 ~~ u : z、 中i上 1ア ドレス I h t 叩//七o x l/tox/ l i : 1Iリンク白ヘスト W eb 1 お気に入り ω ヘル7'(回〉 白 合 ③ 白 , 畠 更新 目今日のリンク ホーム 検索お気に入印刷 り 白W ebギャラト白製品ニュース 唱 づ 嵐 田 園E │ 邑 ID 冶 t a 仔rI/.I' . I A ; : 4 ̲ ' =イントネットエクス 7"0ーラ 昼 7才 ン ト 白M i c r o s o f t TOXstaffWebへょうこそ 「処理: DataLoadJは 、 TOXsta 仔ホストの Deta をPCサ ‑ J'¥ーへ 仔が稼働中のみ可能で、各項目で 1 転送保存します。オ、ストの TOXsta 分程度必要です。 IDataLoadされてません」と表示された時と、表示 L o a d :日付」よリ後にホストデータを変更した時に実施 タイトルの I して下さい。 • i 本重・餌・ 7l : ;.1IEJ主主皇室 ・臨床樽否・臓器重量・時康持菅〈尺 .日常件持菅 z i ' . w5 目 i l ' j J ? ) 《生殖試験》 叶 ‑ 一 必 ‑昼重二盟・症立畳霊 ・萱王坦圏・守本実内臓骨主主 図 1 解析指示用 Webページ(解析メニュー) 6 4一
白 Microso代
0
勺U J
内 ハ
07'QUハ
4
つJVRlu
4t
TtA吋 可fnU4tRIU
UQυ41句﹄句﹄ハ〆﹄ハ/﹄ハ/﹄
R
J
Vハ
﹀円u﹀
﹀﹀﹀﹀﹀﹀)
nuハununuハunuハU ハU
2
1
42
49
56
Load:03JUI~
I194(]
+
一
+
一
+
一
+
一
+
一
+
一
+
一
+
一
+
一
J内
J
1141 句﹄ハ︿ハ︿ハ︿勺U内
J
パ﹃ハU A 吋 RJu‑‑Tt づ
28
35
ー里里旦
~1('JTGPãiU.,r.m"ltr:IImIm!イントネットエクス 7 D ーラ
77イ
ル(
E
) 編集〈己 表 示ω 移 動(
C
)
̲
) お気に入り ω ヘ
ル
ア
(
l
:
:
!
)
一ーー
一一
一
一
アドレス Ihttp://tox1/tox/toxbw.htm
tリンク白ヘス卜 Web
目今日のリンヲ 白 Webギャラリー白製品二ュ」ス
1
1︿
1︿
1︿
1
︿1
︿1
︿1
︿1
︿︿
6354$2262
$70730609
259158146
fハ
U
可
ιRJVQUQUハ
/
﹄
ハ
ノι内
J
RdQυノ
414﹄句﹄句﹄ハ/﹄ハ︿ハ〆﹄
ハ
﹀
﹀﹀)﹀))))
ハU ハU ハU ハU ハU ハunν 円ν 円ν
﹄︽︿ハ/﹄ハ/﹄内J 内
J内
J
句1 4 I 4
24
図 3 解析結果(体重総括表)
+
一
ー
守
一
+
一
+
一
+
一
+
一
+
一
+
一
+
一
1
1︿
1︿
1︿
1
︿1
︿1
︿1
︿1
︿︿
085903163
Q
υ ︒︒ハ4 Q υ A吋 門URUQυ ハ
4
ハ
/
﹄
可J41RJvnU
内U 4
内 U4lTt
R
J
V4
17
←
259158136
7
6
5
4nunuハ
ハ
J
567811223
)
))﹀﹀))))
nuハU ハU ハU ハU ハU ハU ハU ハU
+
一
+
一
+
一
ー
±
+
一
+
一
+
一
+
一
+
一
1
1︿
1︿
1︿
1
︿1
︿1
︿1
︿1
︿︿
425954324
00 可J 4 ﹄ 可J4IQυ 円Uハ47'
ハ
4RdQV41RJV 可J 4﹄つJ
V
R
l
u
4
U内
J
‑‑句1 4﹄ハ︿つ﹄つ﹄勺u内
っ
4100A吋 円UOO 円U
QURJvqu
J ハ/﹄ハ〆﹄
QV内
U Q U ι 円υRd
ιハ
ハ
ハ
つJVRdQUノ
つ﹄つι ιハ
UQURJVQU
守l 守l 守←ノ
ハ
U ︽
bnb ︽
b︽
b︽
b ハU ハU ハ︒︑︐︐︑︐︐︑ノ︑ノ
QUQU loυ ハ
4 Q U tハ
JQURdQU 司tRIU
1
111111116666
︿︿︿︿︿︿︿︿︿︿︿︿︿
7291486164038
10
14
4 1 4﹄ l ハ/﹄ハ︿ハ︿つJVつJVつJVA吋 A吋 A 寸A吋
259句1571守350479
0
3
Control
Group
1122
士
+
一
+
一
+
一
+
一
+
一
+
一
+
一
+
一+
一
+
一
+
一
+
一
﹀﹀﹀﹀﹀﹀﹀﹀﹀
Days
‑
・
圃
.
‑
圃
・
圃
。
U/kg/day)
Dose<
ぷ
畠
こ
言両手ー一一一三
1
一一
i
主
園
フ
ォ
ン
ト
1
:
:
1
‑
1
席J
I
り
長
庁
一一
・
一
一
一
一
一
一
一 by intravenous repeated administration for 1 month anl
Mean(
N
) 士SD
Toxicity study 0
A
LE BODY WE1
GHT (
g
)
M.
Tabl
e
EL‑4Fo‑‑4‑‑z
三
:
w
.
s
a
s&sr
s
=
1叩
白 Micro子oft
[
2
lWebギャラリ六日製品ニュース
!
;
;
示
以
下 匂':!
E
i戻る
や @
白
③
白
' 畠 ぷ フ
巴
'
尋 I r.~
;せに
中止 合
更新
ホーム
検索お気に入印刷
ォ
ン
ト
メール
・酋圃
り
一
λ一
一
一
つ‑
p
‑
尚
一
一
山
一
日i
一
一
一
/tox1/
s
c
r
i
i
jリ守男月ヘヌI‑w宇b G
司?日 O')ン
ク
t
:r
対照群
間 関 隠1
直工2三三imiI豆半-IM~ インヲーネ司王芳元二ぅ
編 集<
.
E
) 表 示ω 移 動 。 お気に入り包ジ ヘル7¥
己
〉
@
合 ③ 白v
中i
上
ホーム
検索お気に入
TOXstaff体 重 ・ 餌 ・ 水
処 理 :DataLoadfま体重・餌・水で 1回 づ っ 試 験 で 計 3回ですロ
Sex:樗 回 目 阻
出力:慢璽印刷
事務室印刷
このボタンで処理が始まりますロ→(盟主
u
図2 解析指示用 Webページ(体重・餌・水)
ょf
三二二二一
l
自 TO)(.:;taffoutput‑ .
r
i1ICr‑osoft ~1' ."/?-~'/ ~ I
"
/
'7
.7
<
U
‑
:
:
:
:
ファイル@ 編集長P
:
1
1
φ
表 示ω
移 動 @ お気に入りψ
三←電量出合@:
す戻る
初
中止
更 庁 内
へ)~7'ω
EJ‑
j
畠 ぷ 巴 ,
検 索 お 司 こ 入 問1
1
7ù~
函
.
I
t
量
f‑)
,
[
1
.
唱
畠温
編集
!
l
アドレス Iht切 / 九 州 I
scnp恒 Ibro
?̲PROGRA
昨 sample
丸 山 Bw.sas
&s円 =1940回忌。 ut=0&t=0&sex=1品
。 pt 1& =1 こ t
j
H')/? @;:̲;天下両子三巴今日々何回両日ャ完了直通品ヨ‑7. @ 属 品 百 一 一 ー で プ 士 一 一
一一
I 600
回 目 湘
二
同
寸
500
(
m
ごzo
一
星
﹀8244E
4c幻
300
200
100
0
20
10
…一一
01
J
..........ー-ー~
30
一
40
一一一一一一一一‑..ー
50
「一一一一一‑fTi~---__ A
図4 解析結果(体重平均グラフ)
6
. まとめ
開発作業:既存のデータ解析 S
ASプログラムから、 S
A
S
/
l
n
t
r
N
e
tを利用してデータ解析 Web
サーバーを構築するには、解析指示用の W
ebページ毎に約 6
0行の SASプログラムと既存
プログ、ラムの 30行程度の変更追加で、可能で、あった。
2
) 処理能力:データ解析サーバーで、 S
A
S
/
l
n
t
r
N
e
tのみを実行し、 1台の端末の Webブラウザで
データ解析するのと、 S
A
S
/
l
n
t
r
N
e
tを停止して SASの通常の Windows環境からデータ解析
するのは、ほとんど実行時間に差はない。ただし S
A
S
/
l
n
t
r
N
e
tで、同時実行で、きるのは 1ユー
ザーであり、複数の端末から同時にリクエストされると、それだ、け遅くなってしまうので、時間が
かかるようなら、使用時間を予約するなどの運用が有効であろう。
3
) 効果 :
Webブラウザを介して研究者が SASを実行して解析結果を得られる効果は大きく、
SASの利用が一挙に拡大し、社内の開発部門で、解析方法や帳票形式を改良で、きるメリットも
期1
寺できる。
4
) 今後の課題
A) データ解析プログ、ラムを充実させ、開発・検証文書を整えて検証済システムとして、申請用
試験報告書作成に利用する。
B
) EXCELなどの入力用シートからの入力データの解析。(薬効データへの応用)
C
)ホストシステムのデータ構造の変更にも柔軟に対応する為、必要充分な毒性試験データ解
析用の標準的データベースの構築を目指す。
66
日本 S A Sユーサ一会 (SUG I‑J) Freq プロシシゃヤの出力を HTMLTable に変換する SAS マクロの試作 0小 沢 義 人 吉 田 彰 夫 日本化薬株式会社医薬事業本部医薬データセンター SAS macro converts PROC FREQ output to HTML table Yoshihito Ozawa and Ak工o Yosh工 da Medical Data Center Pharmaceuticals Group N工ppon Kayaku CO..LTD. TOKYO JAPAN 要旨 近年、イントネットおよび企業内でのイントうわ卜の利用は手軽になり HTML 文書作成も容易になっている、また一方で、新薬の承認審査資料の電子化標 準仕様の中に "HTMしを用いて文書を記述するぺことが検討されており、文 章の中に用いる表を SAS から直接 HTML ファイルとして出力できることは有用 であると考える。我々は SAS の デ サ を 効 率 よ く HTML Table にするため の試みとして Freq 7 ロ ~~.. t の出力を HTML ファイルに変換するサロを試作し 0 たので報告する。 シ シ ゃ ヤ 、 HTML 、インターネット、 イントラネット Freq 7 ロ 0 キーワード: 1.はじめに 我々は SUGI‑] '94 で SAS データセットと Excel の 入 出 力 サ ロ を 作 成 し 1)、 SUGI‑J '95 で Excel を使った SAS システムの応用例を示した 2)。今回、我々は汎用 的な規格である HyperText Markup Language (HTML )~による文章作成を支援す るような SAS "7打を試作してみた。これは SAS 社のホームへ。 }γ に存在する Web tool formatter3)4)と目的を閉じとするが、現在の Web tool formatter ではデータ セットの出力および Tabulate の出力は HTML の Table ~'J 守を用いた出力がなされ ているが、汎用の出力は HTML の Pre 付ゃを用いており、表組みには対応してい シγ Tの出力を、 Tabulate の出力同様 HTML の Table ない。今回我々は Freq 7 ロ 0 タグを用いた HTML File に出力するマクロを試作してみたので報告する。 67一
2 .マクロの使用例および出力 以下に S U G I̲ J '9 5 に示したデータ 2) を本村口で出力したときのサン7レ)7ログラム 0 0 と HTML 出力を表示した。 0 以下、全出力を lつの HTML ファイルに出力するサン7 )げ。ログ 7 ムである。 0 l件特キキキキキキ*キキキキキキキキ*キキキキキ材料紳材料**本料キキキキ******キキ example 複数の Freq 表を 1つの HTML ファイルにする 柿本件キキキキキキ材料キキキキキキキキ材料キキキキ材料材料本材料キキ材料キキキ/ OPTION FMTSEARCH=(ZZ) 1i bname zz ¥SUGIJ̲97¥SUGI¥pgm proc copy in=zz out=work run /キ変換マクロ html frq の利用 キ/ 本最終改善度 十 %ltml̲frq (̲sugi95 , kkey fgir htm mod ,最終改善度, cmh miss̲del=y , title2 add c %html̲frq (̲sugi95 , kkey fgir miss̲de1二 y =ITT =i f fgir=6 then fgir = . ;) chisq htm mod , anchor=#top , title2= add̲c = format fgir fgir̲f. ; ) キ背景因子 %html̲frq (̲sugi95 , kkey sex htm mod ,背景因子, chi sq , miss̲del=y , swapニy , =性別) , chisq , anchor二 #top ,title2 %html̲frq (̲sugi95 , kkeyages htm mod , miss̲del=y , swap=y , =年齢) , chisq , anchor=再top ,title2 %html̲frq (̲sugi95 , kkey sick htm mod , miss̲del=y , swap=y , anchorニ#top ,title2 以下繰り返し / キ f il e htm から out へ出力本/ f ilename out 'test1.htm' data null̲; i n f il e htm ; fi1 e out ;i nput put ̲i nfi1 eー; run fi1 ename out f ilename htm; ニ擢病期間) ︒ ︒ρb
o
.HTML 出力
以下の表示は前ページのプログラムの実行結果の HTML77仰をイントネットエクスアロ ‑
7
で表示したものである。
l
1
l
i
.
固
最終改善度
岡支末否曙窃夜菩同等度要菩薩憂要事斥玄庸tn't
F奔す「一了一「寸子一J27一一「寸子一門下i1一直了
す一一「ヲア一回4
1τ一円illLx2ι=14.550
同研'‑[4一[7一 1 1
|許一「一一「ττ一「寸r一「寸了一日下「τ-~~i7~ぷ tZL:二 test
南斎藤芳「す" .
防石デロ「同「丙引にb
一一
;
o
b醐1
問
問研,‑[互O [
石了ほo
l
t
on
幻 nu,句 Adj x2= ~ 4.~~8
I
言一一同「同「 R
E
‑
i
f
z
;
b
t
e
s
t
= u山
1*
*
*
背景因子
性別
問石ア伊ぢ百~n't l ー
~ ~~.
I
雰「τγ‑1
ヲ了一斥吉一│民;b
二
0
3
7
7
iNSiz
I安~i4す一四百-Iþm_tinui 句 Adj. X2= .OC明
I許[82一「石[i62ïr;~btest
ー
= 1 山 uu 同~'.
也♀且
年宣言
伊存万「伊ち百~[言「
「て石「守一「τ 一回T
信吉士吉す「寸了一「寸志一陀T
140‑石「寸志一「す‑[37
前士吉「寸正一円τ‑
[33
商 工 百1
1
ナー「寸‑
0
‑
1
2
7
丙 守E
了「守一一「ヲ一一打了
= 7.510
176~一「三一一「ヲ一I4 ILX2.
!吉一一[ã2一「τ- [i62Ir;~Ote民
二日
2
7
6
2N.Si.
主担且
憶病期間
防石デ伊弓百~n't
医可芳「寸アー「寸τ
一同T
[<3芹「寸7一「寸志一汚"3
R守王宮「三‑0‑[1子‑[39一
草「ヲ‑8‑[30""一斥8
1
l
p
匡T
I
許 一 1~2 ~[i62 II~;~O回目
目
= 0.225
二
0.9734N
.Sig
坐且且
現病歴
庁界万「伊克;r‑南F
医可否「す一一「ヲ一「下
尺2i!fi
寸志ー「寸了一回7
同芳「す一一「一τ
一行τ
F 育 「 す ー 庁 了 一 町I
I
P
目
~一一 1
8
2 ~[i62I1~;~Otest
= 1698
= 0.6375 N.Sig
69‑
Oマクロの実行毎に、ファイル名を別々に設定すれば、複数7
7イl
レにすることも容易に行え
る
。
f
ilename htm1 'test1.htm'
f
ilename htm2 'test2.htm'
f
ilename htm3 'test3.htm'
目html̲frq (̲sugi95 , kkey sex
,背景因子, chi
sq ,
htm1
miss̲del=y , swapニy ,
=性別)
,chisq ,
anchor=test2.htm ,title2
%html̲frq (̲sugi95 , kkeyages
htm2
miss̲del=y , swap=y ,
=年齢)
,
chisq ,
anchor=test3.htm ,title2
目html̲frq ( sugi95 , kkey sick
htm3
miss̲del=y , swap=y ,
anchor=test1.htm ,title2
=羅病期間)
uFTP による 7
7イルアクセスを用いればインク]ネットまたはイン卜 7
*
1卜上のサーバーに直接書き込
む事ができる。
f
ilename out ftp 'test.htm'
host
ニ'****'
user='????'
0また SAS R
6
.12 から Windows のプラウサ。を直接呼び出し、
pass=XXXXXX
HTML ファイルを表示させるこ
とが以下のコマンドで容易に行なえ、 HTML ファイルの作成および表示はとても簡単になっ
てきている。
l
同
∞
oc剖
a │でテストする場合 d
伽m '
仙
w
br側
ow臼
se 守 i
汀l
配
e:
/
υ
/
恒
test1.htm"
伽m '
仙
wbr側
o
w臼
se "ht句
tp
:
ゴ
/
/
片
*
*
紳
*
.
*
*
*
.
*
*
紳
*
.
*
*
紳
*
/
九t閃
es引
t1
.htm"
Net 上でテストする場合 d
I~ i
'ド
レ
ス
I
h
t
tp
:
/
l
向 山 間 山 / 回1
.
h
t
m
Z令
進む
l
ア
ド
レ
ス I
h
t
t
P
/
l
背
景
性
因
別子
τ
争
E
。
中止
仕イントネットエク刃包→
移重岡} あ、気に入り
l
国
更新
合
ホ
ー
ム
F
③
貴
索 お
白
気
りに
,
入
E
日
e
用1
1 7
ぷ/
f
方
|75~
t
e
s
t
3
.h
t圃
種病期間
同百7
ア「売耳'
‑
T
三T
南下「円了一「寸τ
ーョr
医E耳一「寸7一円正一日「
雨宮「三百ー「百一日目「
下
I~ , ~ i
ヲ‑8‑/30一
I~t
山
182一~íi62 Bjb
t
m
│30‑39 i
寸了一li6一日了
140‑49 li6一「三了一日日T
「
│50‑59 i
百一「百一
寸7一JiO一四「
│50‑69 i
I
r
f │70‑75 I三一一i3一円了
I
.
t
~ï' 卜'レス Ihtto:// 山 問 問 問 / 岡 山t
m
=0
.
2
2
5
=0
.
9
7
3
4N
.S
i
.
t
e
s
t1
.h
t箇
~r万一一同一
a
検③索お白気に,入印届
~29 r
同1
百
一
7
ア
一
「
「1
売
Z
事
一
'
T
日
三
了
F
=1.倒lOO N
.S
i
.
…………‑Microso ω へ,レ7.ω
進む
6
3
3
ー
↑
ミム
年齢
ニ
b
.
医t l82一~íi62 A2t
e
s
t
~test3htm /
7
イ
ァI
I
‑
<
F
) 橿集〈正) 表示M
更
国
新
向 山 田 山 畑 山
日百ヲァ庁売事?百「
!穿[32一「ヲ 一日下 ・
b
.
=
O
.
9
7
1
4
N
.
S
i
.
R
l
v
Z
'
M
o
r
r
2
。
n
0
.
0
0
1
[
安 150
一i49一日子 tinuityAdj̲X2= 0.0∞
t
e
s
t
2
.h
t圃
中
。止
ば2b
182一~íi62 A2t
e
s
t
ワt
n
u
3 .出力 HTML i yイ ル 変換マクロ html̲frq を利用して作成された HTMLファイルを以下に示す く! = == This HTML i s written by sas systemmacro html̲frq ===> < ! === < ! ニニ= F il e name = HTML F R Q .s a s 97/09/11 ===> programed by oraa ===> くh tml> くan ame = "ITT"></a> くt abletableid=from sas border > <tr><td></td><th> くt able border > くc aption a lign=top> 最終改善度 <BR> I T T </caption> くtr><td></td><th>判 定 不 能 く /th><th>著明改善 </th><th>中等度改善 </th><th>軽度改善 </th><th>不変 </th><th>悪化 </th><th>計く/th></tr> くt r><td>l?子 ィ7 . く/td><th>l く/ th><th>19</th><th>27 </th><th>19 </th><th>15 </th><th>l </th><th>81 </th></tr> くt r><td>7.うセポく /td><th>4 く/ th><th>7</th><th>13 </th><th>27 </th><th>24 </th><th>5 </th><th>76 </th></tr> くt r><td>言 十 </td><th>. く/ th><th>26 </th><th>40 </th><th>46 </th><th>39 </th><th>6 く/ th><th>157 </th></tr> > く! ニニ= s tastic value ニニニ〉 く/ table く/ th> <th v a lign=bottom a lign=left> <pre> X2 ニ 14.550 * * * Prob ニ 0 . 0 0 0 1 W iI c o x o n rank‑sumtest </pre> </th> </table> </html> tム 唱 η1
4 . S A S入 力 画 面 マクロ引数定義 見macro html̲frq ,1 *解析データセット tmpdst tmpvar tmpfil e title stat tmp ニt mp miss d e l =n title2 =var tmpdstO ニt mp̲dst tableid ニf rom sas swap =N * 1 1 *解析変数 2変数のみ * 1 1 *出力ファイルハンドル mod をつければ追加 * 1 1 *表 title くa > くl a > もO K * 1 1 *解析方法 cmh または chisq 結果格納データセット名兼用 * 1 1 *作業用データセット 1 (オリジナルから欠測除去のためのデータセット )* 1 *欠測を除去するか否か n...欠測を含む missprint * 1 1 * var.. 変数 11変数 2 の形 I abeI....変数ラベル 11変数ラベル2 の形 任意指定 * 1 1 *tableid * 1 1 1 *表の転置 * 1 *表の下にアンカーをつける * 1 anchor = add c =i f fgir=6 then fgir=. 1 *条件の追加 この場合 fgir の 6 (判定不能) 1 を欠測としている * 5 .おわりに 本 論 文 中 で は FREQ の 出 力 を HTML の TABLE に 変 換 す る 吋 ロ の 試 作 を 行 っ た が 、 実 際 に は 本 論 文 中 で も 報 告 外 の Index 吋ロ;を作成利用している。このように、 必 要 に 応 じ 直 接 TABLE タ グ や そ の 他 の HTML 要素を書き加えたり、 SAS Web tool formatter な ど を 利 用 し た り す る こ と に よ り 表 現 力 の 高 い 出 力 を 得 る こ と が で き る 。 今 回 の FREQ の 表 組 み は 基 本 的 な く table> タ グ で あ る く caption> 、 <tr> 、 <td>お よ び <th> の 4 つ の タ グ に 若 干 の オ プ シ ョ ン と く pre> タ グ で 構 成 し て い る、さらにオプションを加えたり、別なタグを加えることは可能ではあるが、今回 の報告で、は基本要素の吋ロ化の試作にとどめた。また、これらのタグは参考資料 5).6) などを参照した。本報告ではマクロ作製の概略および使用法を示すにとどめた。詳細 ムについては当日示す予定であるο なマクロプログ 7 6 .参考資料 1 ) ' 94 年 日 本 SAS ユサ. 会 ( S U GI ‑ J ) Wi ndowsT. 版 SAS システムの動的デ ‑ ' J 交換 (DDE)によ crosoft ExceI と の デ サ 交 換 功 口 の 作 成 る Mi 2 ) '95 年 日 本 SAS ユーサ.一会 ( S U Gト J ) 研究会解析 ( K e yOpen)における SAS と Excel の利用例 3 ) URL http://www.sas.com/rnd/web/intro.html 4 ) URL http・Ilwww.sas.com/rnd/web/sitemap.html 日 URL http://www. i CS.UCi .edu/publi etfIhtmI 1 6 ) URL http://www.iijnet.or.jp/FXIS/XSoft/sgml/h32block.htm#TabI es q ワ t ︐
日本 S A Sユーザー会 (SUG I‑J) マクロ言語による SAS疑似プロシジャの作成 ユーザーマクロの統一のために 前川員一 大学入試センタ一・研究開発部 WritingSASQuasiProceduresusingSASMacroLanguage: TowardtheUn i f i c a t i o nofUs e r ‑WrittenMacros Shin‑ichiMayekawa TheNationalCenterf o rUniversityEntranceExarninations 要旨 SASの一般ユーザーがある簡単なルールに従って書いた q p r o c n位 m という名称のマクロを ただし、 proclqprocn祖 e [param=value [ p a ram=value]] [ o p t i o n[ o p t i o n ]] [:q s七 回 [ : qstmt . . . ]] ; qprocnameは疑似プロシジャとして呼び出されるマクロ名 par紅 n=v a ]u eは疑似プロシジャへのパラメータ名とその値 o p t i o nは疑似プロシジャへのオプション名(o n j o f fの指定) q s t m tは qstmtnameqbodyとし、う形をした疑似プロシジャに付随するステートメントにあたるもので 疑似ステートメントと呼ばれコロンで他の部分と区切られる、 という形で、呼べ出せるような,疑似プロシジャドライパ‑p r o c lをステートメントスタイルのマクロとして開 発した. キーワード SASマクロ言語 1 はじめに 多くの人が統計パッケージを使用して仕事をするようになった現在,自分に最も合ったパッケージを持つこ とは大切である.筆者はほとんどの統計計算をパソコン上の SASで行っているが, SASでは d a t as t e pや p r o ci m l等が利用できるため不自由はしていない.例えば,研究用の新しいプログラムが必要な場合には, d a t a r o ci m lを用いて書き,完成したものをマクロの s t e pで入出力やデータの加工を行ない,数値計算の部分は p 形に直して使用する,という方略を用いている.この方法を使うとデータの入出力や配列の宣言などに煩わさ れずにすむため確実に開拓室度は早くなるが,結果として様々な形のマクロが出来てしまい暫く経っとその使 い方が分からなくなってしまうという欠点が生じる. 他方, SASはユーザーが PL/Iや C言語を使って自分で書いたプログラムをプロシジャとして登録し既 存のプロシジャと同様に使用できる機能をもつが,この場合 SASの裏町の部分(SASjTOOLKITのマニュ アルに記してあるようなこと)を知らなければならないため開発に多大な労力を要する.しかし,出来上がっ た物は既存の SASのプロシジャと同等であるため既に SASの文法を知っている者がそれを使うことは容易で ある.そこで本稿ではユーザーが開発したマクロをあたかも SASのプロシジャとして統一的に使用するため の方法を提案する. ワI つU
2 SASのマクロ SASのマクロとは名前のついた文字列であり普通は %n恒 n e ( コンマで区切ったパラメタの並び) と 争 S t y l eMacroI n v o c a t i o n )で呼び出される(参照される)が, いう形(ネームスタイルのマクロ呼び出し Nam その中身は SASのマクロ言語を用いて定義されたものである.そして SASのプログラムがコンパイルされ る時,それは定義された文字列に置き換えられ,コンパイラは置き換えられた文字列を処理することになる. マクロ言語とは文字処理を行なうプリプロセッサ一(マクロプロセッサーと呼ばれる)のための言語であり, C言語やメインフレームの JCLのマクロ機能を限りなく拡張したものと考えると分かりやすい. マクロ言 語には,マクロを定義する %macrc ト%mend文,マクロ変数を定義する % Iet文,パラメタに応じてマクロプ i f ‑%t h e n ‑%eIseや %do%whiII ' 戸%end文,マクロ変数の値を操作する %substrや ログラムの制御を行なう % %quote等のマクロ関数などが含まれるが,その詳細はマニュアル SASGuidet oMacroP r o c e s s i n gもしくは 1 9 9 7 )の付録を参照されたい. 前)1( 例えば, SASで I o g画面や output画面に文字列を出力するためには必ず datas t e pを使わなければならな いが,慣れない者ににとってはかなり面倒である.そこで, Z皿acroprintit( text=,text2=,text3=,log =O ) ; data̲null̲; %if ‑&log%then file print%str(;); put "Procl PRINTIT output"; %if %nrbquote(&text) ‑= %thenput &text%str(;); %if %nrbquote(&text2) ‑= %thenput &text2%str(;); =%thenput &text3%str(;); %if %nrbquote(&text3) ー run; 7 . m endprintit; という形で p r i n t i tという名前のマクロを定義し,それを % p r i n t i t (t 回 t ニ " F i r s tText", t 位 t 2="SecondText", I o g 二 1) ; という形で呼び出すと, SASのコンパイラは + L M + L M u p u o ・' ' u 司 d TA rt ゐ TA Tム ・ 町 P Ize ReT ‑1tn 1cso 可 ム orc ur‑‑e npゐ 官4qu ap&ロ&ロ&r d atttE tuuuu の様に展開された SASのプログラムを受取ることになり, I o g画面に 3行テキストが表示される. このようにマクロとはひとまとまりの SASのプログラムを部分的にパラメタで再定義しながら使う時に非 常に便利なものであるが,マクロの名前の前に%が付くこと及びパラメタを括弧で括りコンマで区切るとい う形が通常の SASのプログラムと異なるため,長いプログラムを書くときには連続性に欠けまた通常の空白 による区切りと混同してしまうことが在る.しかしこれが procl printit text="First Text" text2="Secon d Text" log; 且 ; ru とあたかも SASのプロシジャの様に使えるようになれば混乱は生じないであろう.このようにユーザーが書いた t y l e マクロを SASのプロシジャの様に使うことを疑似プロシジャスタイルのマクロ呼び出し (Quasi‑Procedur争 S MacroI n v o c a t i o n ) と呼ぶことにする. 3 疑似プロシジャスタイルのマクロ呼び出し 疑似プロシジャスタイルのマクロ呼び出しの一般形は次の様な形である. procl qprocname [param=value [param=value . . . ]] [option [option . . . ]] [ :qstmt [ :qstmt . . . ]] ヴ t A ι τ ただし,
qprocn阻 eは疑似プロシジャとして呼び出されるマクロ名 P紅 白n二v a !ueは疑似プロシジヤへのパラメタ名とその値 o p t i o nは疑似プロシジヤへのオプシヨン名(o n / o f fの指定) qstmtは qstmtnameqstmtbodyとし、う形をした疑似プロシジャに付随するステートメントにあた るもので疑似ステートメントと呼ばれコロンで他の部分と区切られる. であり,[]に固まれた部分は省いても良い.なお,疑似プロシジヤへのパラメタの順序は不同であるが,疑似 ステートメントはコロンで区切られて一番最後に来なければならない.また,疑似プロシジャスタイルのマク ロ呼び出しには通常のステートメントを付随させることが出来ないが,ぞれを補うものが疑似ステートメント である.本稿ではこのような形で呼び出されるユーザが作成したマクロのことを疑似プロシジャと呼ぶ.例え ば上記の p r i n t i tの呼び出しの例では p r i n t i tが qprocnameに , t e x t 二" F i r s tText"や text2="SecondT e x t " が par回 1ニva !ueに , l o gが o p t i o nに対応している.(この例には疑似ステートメントは付随していない.) ‑S t y l e 上記のマクロ呼び出しの形は,実は, proclという名前のマクロをステートメントスタイル (Statement n v o c a t i o n )で呼び出していることに他ならないが,この proclは疑似プロシジャのドライパーの役目 MacroI をするマクロである.疑似プロシジヤドライパー proclの中身は以下に示すが,そこでは, procl以降セミ コロンまでの文字列を解析し,呼び出すべき疑似プロシジヤ qprocnameへのパラメタを分離整形してマクロ qpro四 回l eをネームスタイルで呼出す.この際,疑似ステートメントの qbodyの部分は qstmtname=qbody の形に変形する.また, optionはそれが与えられたときには option=lという形で qprocnameに渡されるも のであり,疑似プロシジヤ qprocnameの中のある機能を作動させたいときに用いる.すなわち,上記の疑似 プロシジヤスタイルのマクロ呼ぴ出しの一般形は . Y qprocn 岨 e ( [param=value [ ,par am=value . . . ]] [,option=l [,option=l . . . ]] [,qstmtna皿.e=qbody [ ,qstmtn四 e=qbody . . . ]]) ; という形に展開される. なお,ユーザーが自分で書いたマクロを疑似プロシジャとして呼び出せるためには,マクロドライパー procl が登録されていることと,ステートメントスタイルのマクロ呼び出しを可能にする IMPLMACという SASの システムオプシヨンを指定しておく必要がある. 4 疑似プロシジャの作り方 疑似プロシジャドライパーによって呼ひ・出される疑似プロシジャ(マクロ)そのものは, Y~cro qprocname( [param=defaultvalue,. . . ] [option=defaultvalue,. . . ] [qstmtna 皿. e=defaultvalue, . . . ] ) ; ただし, d e f a u l t v a !ueはそれぞれのパラメタのデフォールトの値,という形でキーワードパラメタのみを使っ て書かれることになる.疑似プロシジヤドライパーは SASの文法は勿論,どのようなマクロが呼び出されて いるのかを全く知らない.従ってどの様なオプシヨンやパラメタでもそのままの形で疑似プロシジャに引渡す ことになるが,呼び出されるマクロで定義されていないパラメタが指定されているとエラーとなる. 疑似ステートメントに関する部分は,それぞれの疑似プロシジャマクロで処理をすることになる.例えば, modelyl‑y5=xlx2/n o i n tf u z z y というような疑似ステートメントは, model=yl‑y5ニ xlx2/n o i n tf u z z y という形で model というパラメタとして疑似プロシジャに引き渡されるが,ぞれをその疑似プロシジャの中 で,例えば, % l e tdepvar 二y l ‑ y 5 ; %leti n d e p v a r 二xlx 2 ; % l e tn o i n t = l ; %letf u z z y 二1 という形に分解する必要が生じる.上記の例の場合には, r n o d e lというパラメタ(マクロ変数)に含まれる , 二の右側の文字列で/までを indepvarに , /より右のすべ 文字列のうち,ニの左側の文字列を depvarに 一75一
ての単語を o p t i o nとしていけばよい.この辺は少し工夫が必要であるが,疑似ステートメントの文法に従い, %sc 岨 , %index ,%substr等のマクロ関数を利用して解析していくことになる.また,デバッグのためにはこれ らのマクロ変数 (depb 紅 , i n d e p v a r等)を疑似プロシジャのパラメタとして持たせることも一考である. 5 疑似プロシジャ作成のガイドライン さて,疑似プロシジャを使う最大の目的はいろいろなユーザーが作成したマクロを統一的に使うためであっ た.したがって,その作成にはある程度の規則が必要である.ここでは例えば 1 . .入出力のための SASデータセットは d a ta==や out=で指定する.なお, data==のデフォールトは J a s t とすること. 2 . 疑似プロシジャ名及ひ・その他のパラメタ,オプシヨンや疑似ステートメントの名前とその機能は類似の SASプロシジャのそれに倣う.そして全てをキーワードパラメタとする.また,必ずデフォールトの値 を %macroステートメントのなかで指定しておくこと.オプションのデフォールトは常に 0である. 3 . SASのネイティプなプロシジャに倣い, v a rや i d,by ,model等はできり限り疑似ステートメントとし ての指定を可能とする.また,その際,疑似プロシジャにおいてその本来の動作の実現を出来る限り保 B lEすること. 4 . 疑似プロシジャのプリント出力を抑制したいときには n o p r i n tというオプシヨンを使う.デフォールト は o(プリントする)とする. 5 . 疑似プロシジャが作業用の SASデータセットを作成するときにはその名前を dduummyy ,dduummy1, dduummy2等とし使用しているファイル名を明記する.また,疑似プロシジャの呼ひ・出しを含むプログ ラムの中でこれらの名前を使わない. 6 . 出来る限りエラーのチェックをし, ERROR1( 甲rocname):messageまたは WARNINGl( f f i >rocname): messageという形のエラーメッセージを SASログに出力すること.これは,マクロからのエラーメッ セージはその中で使われている datas t e pやプロシジヤからのメッセージとして出力されることになり マクロの中身を知らない者にとっては非常に解り辛いからである.最小限,指定された SASデータセッ トが存在するか否かのチェッククは必要である. 7 .o p t i o nのーっとして h e l pを持ち, p r o c 1qprocnameh e l p ;である程度の使い方が解るようにすること. 等を挙げておく.これらを守れば SASのプロシジャがそうであるようにマニュアルをいちいち参照しなくて も多くのマクロが楽に使えるようになる筈である. 6 疑似プロシジャの例 疑似プロシジャの種類としては,その機能から, ・L既存のプロシジャを単に幾つかまとめて一つにしたもの ・2.既存のプロシジャの機能を拡張するためのもの ・ 3 .全く新しい機能を有するもの 等の分類ができる.また,その作成方法からは, • a 主に d atas t e pと既存のプロシジャのみを使っているもの ・ b .主に p r o ci m lを用いて書かれているもの 76‑
• c . 主にマクロ言語を使って書かれたもの 1 9 9 7 )が示した,多変量解析を統一的に取り扱う疑似プロシジャ GMVLMは 等に分類できる.例えば,前川 ( 1 ‑ aの例であるが,その単純化された文法は procl GMVLM [data= method= maxiter = noptions=J 皿o del dependentvariables = independentvariables : xvar observed [latent [continuous [class [ ; という形のものであった.すなわち, model 疑似ステートメントにより指定された dependentvariables を independentvariablesで説明するたに, xv 紅疑似ステートメントの指定により, xvarobservedcontinuousの場合は procreg a c t o r xvarl a t e n tcontinuousの場合は procf x v a rl a t e n tc l a s sの場合は procf a s t c l u s を行う.また,潜在変数の数は, マクロ変数 independentvariablesに含まれる変数リストに指定された変数 の数として定義されるが,以下のプログラム中ではこの数は %numvarというマクロを呼び出すことで与えら れるものとしている.これに対応した疑似プロシジャはおよそ以下のようにして記述することができる. gmvlm( data=̲last̲,method=ML,国xiter=100,noptions=,xvar=cont, 皿odel= ); ' l .let depvar=' l .sc臼 ( 佃odel, l, ' l .str(=)); ' l .let indepva r = ' l .scan(&model, 2, ' l .str(=)); ' l . numvar(data=&:data,varlist=&:indepvar,outmacro=nxvar ) ; ' l .let xvar=' l . upcase(&:xvar); ' l .if ' l .index(&:xvar,' l .str(LATENT)) 三 o' l .then ' l .do; ' l .if ' l .index(&:xvar,' l .str(CLASS)) ‑= 0 ' l . then ' l .do; proc fastclus data=&:datamaxclusters=&nxvarmaxiter=&:maxiter ' l .if ' l .quote(&:noptions)ー =' l .then & : noptions; ; var &:depvar; run; ' l . end; ' l .else ' l .do; proc factor data=&:data nfactor=&:nxvar method=&m ethod maxiter=&:maxiter ' l .if ' l .quote(&:noptions)‑= ' l .then & : n options; ; var &:depvar; run; ' l .end; ' l .end; ' l .else ' l .do; proc reg data=&:data; model &m odel ' l .if ' l .quote(&:noptions)‑= ' l . then / & : noptions; run; ' l .end; Y . m end gmvlm; Y~cro Y~cro numvar( data=,varlist=,outmacro=numvar ) ; Z 事 f indthe # of variables specified invarlist; Z 事 a ssu 血. e sthat dataset &data exists; ' l .global &:outmacro; ' l .if ' l .quote(&:varlist) = ' l .then ' l . do; ' l .let &:outmacro=O; ' l .goto exit; ' l . end; ' l .else ' l . do; datadduummyl; =&:varlist); set &:data(keep ru 且 ; proc contents data=dduummyl out=dduummyl noprint; 且; ru data ̲null̲; if 0 then set dduummyl nobs=n point=̲n̲; 10.))) ) ; call symput( "&outmacro" ,trim(left(put(n, stop; ‑77
ru 且; % e n d ; %exit: r . m endnumvar; 7 おわりに 咋今の統計学の方法は優れた計算機プログラムなしではその利用が不可能であるようなものが多い.また多 くのユーザに利用されそのフィードパックを受けることがその方法の新たな理論的発展へと繋がると言えるで あろう.その意味で新しい統計的方法を多くに人に容易に使えるようにすることは大いに意義のあることであ る.その点,本稿で述べた SASの疑似プロシジャは,その開発の容易さやユーザーの数の多さを考えるなら ば器直の方法であると言っても過言ではないであろう.(FORTRAN,BASIC,PLjI ,C等で書かれているスタ ンドアローンのプログラムを疑似プロシジャの形になおすことはそれほど手聞がかかることではない.)また, 各疑似プロシジャはマニュアルを付けてたとえば SASユーザー会等で管理をすればよい. 他方,疑似プロシジャの利用には欠点も存在する.第 lの欠点は,マクロを展開する際に多少時聞がかかる ことである.筆者の経験では, Windows版ではかなり速い機械でないと疑似マクロドライパーが一生懸命マ クロを展開しているのが見えてしまうという感じである.(実効速度には関係はないはずである.)次に,疑似 ステートメントの解析を含んだ形でマクロを書くことが少々やっかいな点が上げられるが,これは,いくつか a rや model等)を作ってしまえば,それらを流用していけばよい.また,疑似プロシ の典型例(例えば, v ジヤマクロがその実行中に予期せぬエラーに道遇し止まってしまった場合,マクロプロセッサーのエラーメッ セージを解読せねばならないという事態が生じる.これは,その疑似プロシジャの作者以外にはほとんど不可 能なことであり,そのようなことがないように,パラメタのチェックを行う形でマクロを書かなくてはならな い.(どのような形でも,人に使ってもらうマクロを書くときにはこの点はかなり重要である.) References 前川真一 ( 1 9 9 7 )SASによる多変量データ解析東大出版会 SASI n s t i t u t eI nc .( 1 9 9 0 ) SASGuidet oMacroP r o c e s s i n g,V e r s i o n6 ,S econdEdi t i o n . Cary ,NC: SAS I n s t i t u t eI n c . n st i t u t eI n c .( 1 9 9 1 )SASjTOOLKITS o f t w a r e : UsageandR e f e r e n c e ,Version6,F i r s tEdi t i o n .Car ぁ SASI NC:SASI n s t i t u t eI n c . n s ti t u t eI nc .( 1 9 9 0 )SASjIMLS o f t w a r e :UsageandR e f e r e n c e ,V e r s i o n6 ,F i r s tEdi t i o n .Cary ,NC:SAS SASI I n s t i t u t eI n c . n st i t u eI n c . ( 1 9 9 5 )SASjIMLS o f t w a r e : Ch 血 伊 叩dE nhan 四 m entsthoughR e l e a s e6 . 1 1,CaτyNC: SASI nc . SASI n s t i t u t eI 78‑
実行例 1 以下のプログラムを Windows版の 6 . 1 2で実行した場合の l o g画面の例を示す. datancc1701; 4 ; output; xl=ll; yl=12; x2=13; y2=14; output; xl=ll; yl=12; x2=13; y2=1 ru 且; procl printittext="Dataset Original is created." ; run; proc print; 且; ru procl printit text="Real analysis starts here." text2= Be patient." l o g ; 且; ru proc regdata=ncc1701 outest=voy; 血o del y =x ; run; 疑似プロシジャの直後に付加された runステートメントは実際には不要であるが、プログラムの見沫えをよく するために付けてある。 実行結果のうち,最初の疑似プロシジャの出力は output画面に出力されているため省略している. NOTE1 で始まる部分がマクロドライパー proc1からの出力である. 6 0 4 datancc 17 0 1 ; 605 x=l 1 ;y=12;o u t p u t ; 6 0 6 x二 2 1 ;Y二 2 2 ;o u t p u t ; 607 r u n ; NOTE:Thedatas e tW OR . K.NCC1701has2observationsand2v a r i a b l e s . NOTE:TheDATAs t a t e m e n tused0 . 0 5s e c o n d s . 608 609 p r o c1p r i n t i tt e x t二 "Datぉ e tNCC1701i sc r e a t e dプ ; NOTE1:A n a l y z i n 写Proc1p r i n t i t . NOTE1:Macrop r i n t i tw il Ibec a l l e da s : 巾 t i t (t 回 t ゴ' Dat蹴 tNCC1701i sc r e a t e d . ") %p NOTE:2l i n e swerew r i t t e nt of i J ePRINT. NOTE:TheDATAstatementu s e d0 . 0 5s e c o n d s . NOTE1:Endo fProc1p r i n t i t . 610 r u n ; 611 p r o cp r i n t ; 6 1 2 r u n ; NOTE:ThePROCEDUREPRINTu s e d0 . 1 6s e c o n d s . 6 1 3p r o c 1p r i n t i t text="Reala n a l y s i ss t a r t sh e r e . "t 回 t 2="Bep a t i e n t . "J o g ; 1p r i n t i t . NOTE1:AnalyzingProc NOTE1:Macrop r i n t i tw il Ibec a l l e da s : 二 " Reala n a l y s i ss t a r t sh e r e . ", text2="Bep a t i e n t . ", l o g 二 1) % p r i n t i t (t e x t Proc1PRINTIToutput R e a la n a l y s i ss t a r t sh e r e . Bep a t i e n t . NOTE:TheDATAs t a t e m e n tused0 . 0s e c o n d s . NOTE1:Endo fProc1p r i n t i t . 6 1 4 r u n ; 6 1 5 c 1701o u t e s t = d s 9 ; 6 1 6p r o cr e gd a ta=nc 617 modely二 x ; 618 r u n ; NOTE:2o b s e r v a t i o n sr 田,d. NOTE:2o b s e r v a t i o n su s e di nc o m p u t a t i o n s . 6 1 9 ‑79‑
実行例 2 以下に,先に述べた gmvlmという疑似プロシジャを mprintシステムオプションを付けずに実行した場合 o g画面を示す. と付けて実行した場合の I 3112 p r oc 1gmvlmdata=nc c 17 0 1n o p t i o n s ニd r i氏: 3113 modely1‑y2= x 1 ‑x 2 : 3114 x v a rl a t e n tc 1a s s ; NOTE1:AnalyzingProc1gmvlm. NOTE1:Macrogmvlmw i I IbecaI led出 : %伊vlm(d山 三 ncc1701, noptions=耐 久 model=y1‑y2= x 1 ‑ x 2 ,xvar=latentC I 踊) NOTE:Thedatas e tWORK.DDUUMMY1h田 20b 田 r v a t i o n sand2v a r i a b l e s . NOTE:TheDATAs t a t e m e n tused0 . 0 5配 c o n d s . K.DDUUMMY1h 剖 2o b s e r v a t i o n sand35v a r i a b l e s . NOTE:Thedata田 tWOR NOTE:ThePROCEDURECONTENTSused0 . 1 1田 c o n d s . o n d s . NOTE:TheDATAs t a t e m e n tu s e d0 . 0 5配 c o n d s . NOTE:ThePROCEDUREFASTCLUSu s e d0 . 1 6田 c NOTE1:Endo fPro c 1gmvlm. 3115 r u n ; 3116 3117 o p t i o n sm p r i n t ; 3118 p r oc 1gmvlmdata=nc c 17 0 1n o p t i o n s = d r i氏: 3119 modely1‑y2= x 1 ‑x 2 : 3120 x v a rl a t e n tc 1 a s s ; MPR 町 T(PROC1): OPTIONSNOTES; NOTE1:AnalyzingProc 1gmvlm. I Ibec aI led田 : NOTE1:Macrogmvlmwi %伊vlm(data土 問 1701, n o p t i o n sd r i f t, model=y1 ‑ y 2ニ x 1 ‑ x 2 ,xvar=latentc 1 a s s) AR): DATADD日 JMMY1; MPRINT(Nl瓜1Y MPRINT(NUMVAR): SETNCC1701(KEEP=X1‑X 2 ) ; MPR 町 T(NUMVAR): RUN; 町 四a t i o n sand2v a r i a bJ.田. NOTE:Thedatas e tWORK.DDUUMMY1h国 20b NOTE:TheDATAs t a t e m e n tu s e d0 . 0 5配 c o n d s . MPRINT(NUMVAR): PROCCONTENTSDATA=DDUUMMY1OUT=DDUUMMY1NOPRINT; MPRINT(NUMVAR): RUN; NOTE:Thedatas e tWORK.DDUUMMY1h田 2o b s e r v a t i o n sand35v a r i a b l e s . o n d s . NOTE:ThePROCEDURECONTENTSused0 . 0 5田 c MPRINT(NlJMVAR): DATA.NULL.; MPRINT(NlJMVAR): IF0T田 N SETDD日 JMMY1NOBS=NPOINT=.N.; MPRINT(NlJMVAR): CALLSYMPUT(" n x v a r ", T回 M(LE 円 (PUT(N , 1 0 . ) ) )) ; MPRINT(NUMVAR): STOP; MPRINT(NUMVAR): RUN; o n d s . NOTE:TheDATAs t a t e m e n tused0 . 0 5田 c MPRINT(GMVLM): ; MPRINT(GMVLM): PROCFASTCLUSDATA=NCC1701MAXCLUSTERS=2MAXl TER=100DRI 円; MPRINT(GMVLM): VARY1‑Y2; MPRINT(GMVLM): RUN; NOTE:ThePROCEDUREFASTCLUSused0 . 1 1s e c o n d s . MPR 町 T(PROC1): ; 1gmvlm. NOTE1:Endo fProc MPRINT(PROC1): OPTIONSNOTES; 3121 r u n ; 3122 二 OO ハU
安定{以マクロドライパ‑PROCl
Y~cro
proc1( procna
皿 e,n
otes=l,nonotes=O,debug1=0 ) / STMT PARMBUFF;
Z率 proc1: QUASI PROCEDURE MACRO DRlVER FOR SAS VERSION 5.18 & 6.11,12
Written by SHin‑ichi Mayekawa;
Z率 880709,
14,
15,
16,
20,
21,
22,
23,
1014,
15,
1105,
881227;
Z率 general version
890404,
19,
22,
23,
1024,
26,
27,
28,
1112,
13,
1
5
;
Z newversion w/o ma旦y macro variables. 891115,25,28,29;
率
%* new version w/o on/off option list 坦 d spd list. 891130;
%* new version with qu日 i state田 nts. 891130,
1201;
Z率 forversion 6.03,891202,
03;
Z
ホThisdoes not work on 6.03,6.04,6.07,6.08;
Z率 version 6.11: 961215
%*
The syntax of quasi‑procedure‑style invocation of macro qprocna
皿.
e is:
proc1 qprocname [param=value [param=value .
.
.]]
[option [option .
.
.]]
[ :qst
皿I
t [ : qst
皿I
t.
.
. ]] ;
Y
.
井
Use notes=O or nonotes=l to suppress the notes.
Use debug1=1 to suppress the final macro call.
%*include "&皿 cros¥ left.皿 cll ;
%*include "&皿cros¥trim.mac";
担
mparams svv svd x x
mploc;
%local i j k pbuff mpar
%local mploc dqloc dqloc1 sqloc sqloc1;
Z率 sas system option notes;
.
Yif &nonotes = 1 %then %let notes = 0;
%if ¬es %then
%str(options notes;);
%else
%str(options nonotes;);
.
Ylet delim=%str(:); %* for quasi statement;
%* procna
皿e
; %* positiona
皿 p
arameter;
Yindex(&procname,
&delim) > 0 %then
%if .
皿 e,
l,
&deli皿);
%let procname=%scan(&procna
%if &nonotes ‑= 1 %then %do;
%put %str( )
;
%put NOTE1: Analyzing proc1 &procname..;
%end;
1
率 担
alyze the parameter/option/quasi‑statement list in syspbuff;
%let pbuff=%quote(&syspbuff);
%if &debug1 %then %do;
buff;
%put (proc1 debug) pbuff=&p
%end;
> 0 %then %do;
%if %index(%nrbquote(&pbuff),%str(%
.
repinq( &pbuff,%str(,
) %str(
‑
)
, %str(%") );
%let pbuff=Y
%if &debug1 %then .
Ydo;
%put (proc1 debug) pbuff=&pbuff;
%end;
%end;
つ
)
Z率 re皿ove procna
皿.
e para
皿e
ter;
buff,
&procname)+%length(&procna
皿 ));
%let loc=%eval(%index(&p
%if &loc <= .
Ylength(&pbuff) %then
8
1
%let pbuff=Y~bquoteC%substrC&pbuff.&loc)); %else %let pbuff=; %let pbuff=%nrbquoteC%trimC&pbuff)); 且d s tore the 皿 i nqbuff; Zホ isolate quasi statement list frompbuff a %let loc=%indexC&pbuff.&delim); %if &loc = 0 I&loc =χlengthC&pbuff) %then%do; %let qbuff=; %if &loc ‑= 0 %then %let pbuff=; %end; %else %do; %let qbuff=%quoteC%nrbquoteC%substrC&pbuff.&loc+1))); %if &loc = 1 %then %let pbuff=; χelse %let pbuff=χquoteC%substrC&pbuff.1.&loc‑1)); %end; %let qbuff=%quoteC%nrbquoteC%leftC&qbuff))); %if &debug1 = 1 %then %do; %* here pbuff has parameter/option list and qbuff has quasi statement list; %put Cproc1 debug) pbuff=&pbuff; %put Cproc1 debug) qbuff=&qbuff; %end; Zホ quasi statement list add = to the right of the first oper 坦 d Cstatementname) of each quasi statement a 且d s tore all the quasi statements in qstmts using a comma as the delimitter. %let qstmts=; %if &qbuff = %then %goto params; %* no qu 日 is tatements fou 且d ; %let i=1; %let qst 此 = χquoteC%nrbquoteC%sc回 C&qbuff.&i.&delim))); %do %whileC &qstmt ‑= ) ; 弘*putホホ qstmt=&qstmt; χif %indexCY~bquoteC%trimC&qstmt)).%strC ) ) = 0 %then %do; 皿. e n t . ; %put; %put; %put ERROR1Cproc1): Too few words inquasi state %goto exit; %end; %let loc=%indexC&qstmt.%strC )); %let qstmts= 皿C %substrC&qstmt.1.&loc‑1))=%substrC&qstmt.&loc+1); &qstmts.%tri %*put柿 qstmts=&qstmts; Zホ next iteration; %let i=%evalC&i+1); %let qstmt=Y~bquoteC%leftC%sc 日 C&qbuff.&i.&delim))); , I うend;χホ of quasi‑statement list; %let qstmts=Y~bquoteC&qstmts); %*putホホ qstmts=&qstmts; Zホ takethe first co皿 naout; %let qstmts=%quoteC%nrbquoteC%substrC&qstmts.2))); %*putホホ qstmts=&qstmts; 皿n a ̲; Zホ hereqstmts contains the qss as parameters delimttedby co %params: %* parameter/option list add =1 to each option specifyed. remove notes/nonotes options 祖 d s tack everything inmparams using co 皿 aa s delimitter.; Zホ add=1 to the on/off options; %let mparams=; %let mploc=O; %if &pbuff = %then%goto combine; , Ilet i =1; %let mparam=Y~bquoteC%sc 日 C&pbuff.&i.%strC ))); param向= ) ; %do %whileC&m , Ii f %indexCχnrbquoteC &mpar祖). %str(I,")) > 0 %then m = I ,repinqC&mpar 岨. % strC %strC ) . %strC% χlet mpara つ. 82‑ つ);
%let loc=%index(品盟lparam,=);
%if &
:
l
o
c > 0 %then %goto break1;
Z
ホ a
且 o
ptionfound;
%if &:mp紅白n notes %then %do;
%let mparam=;
%end;
%else %if &
;
皿.
p
a
r四 =nonotes %then %do;
%let 皿l
p
a
ram=;
%end;
%else
%let mparam=%nrbquote(%tri皿(&;mpar四 ))=1;
%break1:
%let mparam=%quote(&:mpara
皿); %* quote again;
%*put mparam=&:mparam;
%* accumulate evarything but notes/nonotes in mparams;
%if &:mparam ‑= %then
%let mparams = &;mparams , ~~bquote(%trim(&;mpar岨) );
Zホ next iteration;
%let i=%eval(&:i+1);
&
:
i,
%str( )));
%let mparam=%nrbquote(%scan(&:pbuff,
%end; %* of p紅 白eter/option list;
utホホ mparams=&:mparams;
%*p
Zホ take the first comma out;
%if &;mparams ‑= %then
%let mparams=%nrbquote(%substr(%quote(&:mparams),
2));
1ホ here 皿lparams is ready.;
%combine:
Z
ホ c
ombine parameters/options
阻 dq
uasi‑state皿ents together;
;
m
params ‑= &
: &:qstmts ‑= %then
%if &
&:qstmts;
%let 皿params=&:mparams,
:
皿l
params = &
: &:qstmts ‑= %then
%else %if &
%let mparams=&:qst
皿t
s;
%*p
ut mparams=&
;
m
params;
山
田
E
P&
島包
山
E
J
一
一
町
︒時
d
e
‑g
n
u
t‑d
gDo
44
44c
wh
・'
+
l
u
u‑d
ur
島也
bp
︑
er
d
44P&E
・
1"he
h"h
町
︑
畑
eb
he
%* here everything is ready.;
%if &:nonotes ‑= 1 %then %do;
%put NOTE1: Macro &:procname will be called as:;
%if %length(%quote(&;mpar担 s)) <= 80 %then %do;
%put %str( )%nrstr(%%)&:procname%str(%( )&;mparams%str( %));
%end;
%else %if %length(%quote(&;mpar
担 s
)) <= 160 %then %do;
1,
80);
%put %str( )%nrstr(%%)&:procname%str(%( )%substr(%quote(&;mparams),
%put %str(
)%substr(%quote(&:mparams),
81)%str( %));
%end;
%else %if %length(%quote(&;mparams)) <= 240 %then %do;
1,
80);
%put %str( )%nrstr(%%)&:procname%str(%( )%substr(%quote(&mparams),
%put %str(
)%substr(%quote(&回lparams),
81,
80);
%put %str(
)%substr(%quote(&mparams),
161,
)%str( %));
%end;
%end;
J
;)
e
ME
︑
Z
p
A回
rp
or
d o︑
e
・
whr+LM
co
nau
eEq
也 em
︑
44r
且 "h
wh・
+
L
M
︐
‑er.
gbee
utE
bua
eCE
dec
k‑o
‑lwh"he
wh
町ん
f ホ句凶
n
口
qu
%exit:
%if &nonotes ‑= 1 %then %do;
%put NOTE1: End of proc1 &PROCNAME..;
%put %str( )
;
%end; %* returnto the original setting; options notes; i ' . m end proc1; i ' . m acro repinq( list,from,to,quote ) ; %* Fu 且c tionto to replace FROMbetween QUOTEs with TO. Written by Shin‑ichi Mayekawa 11 970710, usage: [ from,to,quoteJ ) 自 民 col %let replaced= i'~epinq( list , %local i j xlist tail; %if %nrbquote("e) = %then %let quote=%str(%'); %if %nrbquote(&from) = %then %let from=%str( ) ; %if %nrbquote(&to) = %then %let to=%str( ) ; %let xlist=&list; %if %index( i'~bquote( &xl ist) , &from) = 0 %then %goto exit; %let start=O; %let i=l; %do %while( &i <= %length(&xlist) ) ; &i, l)); %let chari=%nrbquote(%substr(&xlist, %let len=%length(&Xlist); %if &chari = "e %then %do; %*put top i=&i,start=&start; %if &start = 1 %then %do; %let start=O; %end; %else %do; %let start=l; %end; %end; %else %do; %if &start = 1 & &chari = &from%then %do; %let xlist1= i'~bquote(%substr(&xlist , 1 , &i-1))&to; %if &i < %le暗 th(&xlist) %then %do; %let xlist1=&xlist1%nrbquote(%substr(&xlist, &i+1)); %end; %let xlist=&xlist1; %end; %end; %let i=χeval(&i+1); %end; %exit: %*fu 且c tionvalue; &xlist i ' . m end repinq; ‑84
日本 S A Sユーザー会 (SUG I‑J) S A S / C O N N E C T、S A S / S H A R Eの遣いと設定 斉藤宏 株式会社 SASインスティチュートジャパン セールス&マーケテイング部 営業支援グループ D i f f e r e n c ebetweenSAS/CONNECTandSAS/SHARE H i r o s h iS a i t o S a l e sS u p p o r tGroupS a l e sandMarketingDepartment SASI n s t i t u t eJapanL t d . 要旨 SASICONNECT と SAS/SHAREの機能上の違いをはっきりさせることが、それぞれ のプロダクトの導入や利用方法による機能の使い分けを行なうために必須である。 本論文では、 SASICONNECT と SAS/SHARE の機能上の違いを明らかにした後、 SAS/SHAREの設定方法を、サーバーが UNIX、クライアントが Windowsという環境 を例に取り上げ説明する。 キーワード: SAS/CONNECT SAS/SHARE UNIX TCP/IP , .はじめに S A S / S 出胞の機能が拡張されネットワークを利用してのデータのアクセスが可能 となった。これに伴って、ネットワークを利用してデータをアクセスする S A S / C O N阻 C T との機能の切り分けがわかりにくくなってきた。 本論文では、 S A S / C O N阻 C Tと S A S / S 出胞の機能上の違いを示し、その特徴に合った利用 方法を示す。さらに、 U N I XOSを例に取り上げ、システムの設定の方法を 解説する。 2 . SAS/CONNECTと SAS/SHAREの機能上の遣い 最初に、それぞれの機能の特徴をまとめると、 S A S / S 出胞の主な機能は、ファイル の排他制御の機能である。これに対して、 S A S / C O N N E C Tの主な機能は、サーバー上にあ る、大容量のデータを効率よく処理するための仕組み(リモート実行、データのダウン ロード、アップロード)を提供している。 O phu 口
S A S / S H A 阻機能をネットワーク上のマシンから利用するリモートライブラリサー R L S )と S A S / C O N N E C Tのリモートライブラリサービス ( R L S )が 追 加 さ れ て か ら ビス ( S A S / C O N N E口と違いがわかりにくくなっている。 ネットワーク上でそれぞれの機能を 利用した時の制限を簡単にまとめると次のようになる。 。 S A S / C O N N E C T 複数ユーザーからの X 更新処理 ( S A S / S 出R Eと組み合せで S A S / S H A R E 。 可能) 大容量データの検索 及び分析処理 ( R L Sでは実用にならない) S A S / S H A E R *阻 Tの利用 X サーノ fープロセスの ユーザーの接続時に起動 X 。 事前にサーバーとして 形態 起動 サーバー上でのデー サーバーにログインした サーバーを立ち上げた タのアクセス権限 ユーザーの権限 ユーザーの権限 ネットワークに データ量が多くても処理形 データ量が多いと負荷が 対する負荷 態を変えることで低減可能 大きくなる 表 1S A S / C O N N E C Tと S A S / S 出胞の違い 簡単にまとめると、サーバーのデータを検索や分析で利用するような場合には、 SAS/CO~但CT を利用する。 SAS のデータセットを利用してのトランザクション処理や、 S A S / S 出E R *阻 T等を利用するのでなければ、 S A S / S 出胞は、必要ない。 3 . SAS/CONNECTの設定 S A S C O N N E C Tでサーバーに接続するまでの手順を下記に示す。クライアントマシン i n d o w s 9 5、W i n d o w s N T、サーパーマシンに U N I Xのサーバーを想定して説明を行なう。 にW 3 . 1 クライアントマシンの環境設定 e l n e t を利用 特になし。ネットワーク的に接続できることを確認するためには、 t N I Xのサーバーにログインできることを確認する。 して U 3 . 2サーパーマシンの環境設定 特になし 3 . 3 接続手順 o o p o
サーパーマシンへの接続、切断 サーバーとの接続に必要な情報 Pアドレスまたはホスト名 ‑サーバーの I .利用する通信プロトコル ‑サーバーの os 御社の環境では、通信プロトコルは、 T C P / I P、サーバーの O Sは、山 I Xとなり Pアドレスまたはホスト名にな ますので、実際に必要な情報は、サーバーの I る 。 接続時に指定する項目 ‑サーバーのホスト名 サーバーのホスト名が、 8文字以内の場合、そのままで利用できます。それ以 Pアドレスをそのまま利用 外、または、ホスト名の設定がされていないため I A Sで利用するための 8文字以内の別名をつける必要がある。 する場合には、 S 別名の例 e ts e r v e r = s e r v e r .j p n . s a s . c o m 月l % I e ts e r v e r = 1 0 . 0 . 0 . 1 ; ‑通信プロトコル ( T C P ) ・スクリプトファイル名 ( t c p u n i x .s c r ) このファイルは、 S A Sをインストールしたフォルダの下の c o n n e ct Ys a s li n kと いうフォルダにある。 s a s r o o t干c o n n e c t Y s a s l i n k Y t c p u n i x . s c r である。 指定方法は、 ! 接続の方法 メニュー画面からの接続 S A Sのプルダウンメニュー[ローカル]今[リモート接続]を選択する。 現れた、リモート接続の画面の スクリプトファイル名に ! s a s r o o t干c o n n e c t Y s a s l i n k Y t c p u n i x . s c r リモート名に サーバーのホスト名(または、 8文字以下の別名) Dに 通信アクセス方式 I T C P を入力して、了解のボタンをクリックする。 I I Hに現れる。そこに サーノ fーのユーザ ‑ID とパスワードの入力を要求する画面がJ Dとパスワードを入力する。 ユーザー I プログラムエディタからの接続 以下のプログラムをプログラムエディタ上に入力して、サブミットする。 ワt o o
fiI ename rIi nk !sasroot¥ connect¥s a s li n k ¥tcpuni x .scr ' ; options comamid=tcp remote=サーバーのホスト名(または、 8文字以下の別名); sIgnon; サブミットすると、サーバーのユーザ ‑ID とパスワードの入力を要求する画面が )II~ に現れる。そこにユーザー ID とパスワードを入力する。 便利な使い方 fiI ename rIi nk !sasroot¥ connect¥s a s li n k ¥tcpuni x .scr ' ; options comamid=tcp remote=サ パーのホスト名(または、 8文字以下の別名); A S起動時に設定が読み込ま の 2行を autoexec.sasのファイルに保存しておくと S れるので接続時には、設定をする必要がなくなる。 切断の方法 メニュー画面からの切断 S A Sのプルダウンメニュー[ローカル]今[リモート切断]を選択する。 Kをクリックして切断を行なう。 現れた、リモート切断の画面で、 O 注)切断時には、通常は、スクリプトファイル名、リモート名、通信アクセス方式 I Dの入力をする必要はない。接続時の設定がそのまま残る。 プログラムエディタからの切断 signoff; をサブミットする。 スクリフ。トファイル スクリプトファイルは、サーバーとの接続、切断時のサーバーとのやりとりを記述 したファイルである。サーバーとの接続、切断がうまくできないときにこのファイ ルを修正することで、対応できる。 スクリフ。トファイル{列 / * trace on; * / スクリプトファイルの実行結果をトレースするフラグ / *echo on; * / サーバーから j 帯ってきたメッセージをトレースするフラグ トラブルが起きたらこの 2つのコメントを外して実行する。 /*一一一一一一一一一一ー一一一一一一一一一 / * 一 一 一一一一一一一‑*/ Copyright ( C ) 1990 by SAS Institute I n c .,Cary NC 一一*/ 88
/ ホ 一一行 / * ‑ ‑name: tcpunlx.scr ‑ ‑ * / SAS/CONNECT SIGNON/SIGNOFF script for connecting 一一*/ to any UNIX host via the TCP access method ‑一*/ ‑ * / / ホ / ホ purpose: / ホ / ホ ー*/ / * 一 一 notes: 1 . This script may need modifications that account 一一*/ / * ‑ ‑ for the l o c a l flavour of your UNIX environment . 一一*/ / * 一 一 The logon procedure should mimic the events that / * 一 一 you go through when "telnet"‑ing to the same ‑ ‑ * / ‑ ‑ * / / * 一 一 UN1X host . 1f you are connecti ng t o a spawner ‑ ‑ */ / * 一 一 running i n your UNIX environment this script 一一*/ /*ー‑ should need 1ittle or no modifications. 宅 / ホ ホ/ ー*/ /ホー 2 . You must have specified OPTIONS COMAMID=TCP 一一*/ / ホ 一 一 i n the l o c a l SAS session before using the signon ‑ーホ/ /ホ‑‑ command. ホ/ /ホー ーホ/ /*ー‑ assumes: 1 . The command t o execute SAS i n your remote (UNIX) 一一*/ /*ー environment i s "sas". I f this i s incorrect 一一*/ /*ー for your site,change the contents of the 1i n e ‑ ‑ * / / ホ 一 一 that contains: 一一*/ /ホ‑ type 'sas . . . 一ーホ/ ー*/ /ホー /ホー‑ support: ーーホ/ SAS Institute staff ー*/ / ホ 一 一 * / /ホ一一一一一一一一一一一一一一一一一一一一一一 / ホ ーー一一一一一一一一一一一一一一一一一一一一一一*/ / ホ 一 一 i f you are connecting to DEC/Ultrix and the remote ‑ーホ/ / * ‑ ‑machine does not run the DECnet connection/gateway ‑ーホ/ / * ‑ ‑software, 1ogins via SAS/CONNECT wi1 1 appear t o hang. 一一*/ 宅 / * 一 一 This i s due to Ultrix's "/etc/telnetd" server treating a / * 一 一 DONT ECHO request for both input and output streams. 8 9 ホ/ 一一*/
/ * ‑ 一 一行 / 本 一 一 This debug statement causes t h eSASTCP access method ‑一本/ / 本 一 一 n o tt or e p l yt ot h e ECHO r e q u e s t,keeping t h e DEC telnetd ホ / / 本 一 一 server h a p p y . ‑吋 / * ‑ ‑ 一吋 / ホ Uncomment t h e debug statement, i ft h el o g o n appears t o hang ホ/ l キーー一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一吋 / ホ debug '00001000';ホ/ /*一一 一一一一一一一一一一一一一一一‑*/ f you are connecting to INTEL‑ABI,you need to uncomment 一一*/ / * 一 一 I o llowing debug statement. This debug statement w i11 ‑ ‑ * / / * 一 一 the f / * ‑ ‑allow SAS/CONNECT to set the terminal type toTTY during ‑ ‑ * / / ホ the TELNET negotiations that take place during SIGNON. 一一本/ /*一一一一一一一一一一一一一一一一一一一一一一一‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑*/ / *debug '00004000'; ホ/ l o g "NOTE: Script f il e 'tcpunix.scr' entered."; i f not tcp then goto notcp; i f signoff then goto signoff; /*一一一一一一一ー一一一一一一一 TCPSIGNON ‑一一一一一ー一一一一一一一一一一一一一一一一一一 本/ TCPでの接続 サ ‑1¥ーから loginまたは Usernameの wai tf 0r'1 ogi n: ' メッセージを待つ ー, U sername:' 'Scripted signon not allowed' noscript 1 2 0 seconds: noinit; / * 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 UNIXLOGON‑‑一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一ー一一一一本/ / * 一 一 for some reason, i t needs a LF to turn the 1i n e around 一一本/ /ホー‑ after the login name has been typed. ( A CR w i1 1 not d o ) 一一本/ n川d n u
/*ーー一一一一一一一一一一ー一一一一一一ー一一一一一一一一*/ i n p u t 'Userid?'; ユーザー I Dの入力画面を表示して入力された type L F ; ユーザー I Dをサーバーに渡す waitfor 'Password', 30 seconds nolog; パスワードの入力画面を表示して i n p u t nodisplay 'Password?' 入力されたパスワードをサーバーに type L F ; 渡す unx̲log: ログイン成功時のプロンプトの確認 waitfor 'Hello>' ' $ ' unxspawn /*‑Unix spawner prompt‑*/ 一*/ /*一‑ a common prompt character ,' > ' /*‑‑ another common prompt character ー*/ ,' % ' /*‑‑another common prompt character ー*/ ,' 1 ' /*‑‑ another common prompt character ‑‑*/ , 'Login incorrect' 'Enter terminal t y p e ' ,' TERM' 30 seconds nouser unx term unx term ti meout l o g, NOTE: Logged onto UNIX... Starti n g remote SAS n o w . '; /* noterminal suppressses prompts from remote SAS session. */ /* no$syntaxcheck prevents remote side from going into syntax */ /* checking mode when a syntax error i s encountered. */ サーバー側の SASの起動 type 'sas ‑dmr ‑comamid tcp ‑device g r li n k ‑noterminal ‑no ¥$syntaxcheck' LF; waitfor 'SESSION ESTABLISHED', 90 seconds nosas; l o g, NOTE: SAS/CONNECTconver s ati on est abI i s h e d .• ; stop; unxspawn: /* The Unix spawner w iIIonly execute a single Unix command */ /* after the c li e n t logs o n . I n the TYPE statement below, */ 円同d
/* you may specify a SAS command 1i n e ; you may also specify */ /* a Unix s h e l1 script t h a ti s s u e st h e SAS command 1i n ei n */ /* addition t o any other commands t o be executed prior t o */ /* SAS invokation. The f o ll o w i n gi s an example startup */ / *f il e : * / /吋 一一一 一一一一 一一一一一一一一一一一一一一一一一一一一一‑‑‑*/ /吋 sas̲startup */ /吋一一一一一一一一一 一一 一一一一一一一一一一一一一一*/ * / /吋 !/bin/ksh / * . /.profile * / /*sas ‑dmr ‑noterminal ‑nosyntaxcheck ‑device g r li n k */ /吋一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一 * / / * * / /* I f you choose t o use a "startup" f il e,change t h eTYPE */ /* statement below t o something 1i k et h ef o ll o w i n g : */ /* type '/usr/local/whatever/sas̲startup' L F ; */ type 'sas ‑dmr ‑comamid tcp ‑device g r li n k‑noterminal ' ; type '‑nosyntaxcheck' L F ; 0 seconds waitfor 'SESSION ESTABLISHED', 9 nosas; stop; /*一一一一一一一一ー一一一一一一一 TCPSIGNOFF 一 一 一 一 一 一 一 一 一 ー 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一一一一*/ TCPでの切断 サーバーの SASの終了 signoff: /* I f you have establi s h e d your connection t o Unix via a */ r comment t h ef o ll o w i n g */ /* Unix spawner you should delete o 宅 /* WAITFOR and TYPE statements. They are n o t necesary f o r */ /* signing off of a Unix spawner and w i1I r e s u l ti n slower */ /* performance of SIGNOFF. */ waitfor ' $ ' SAS終了の確認 /*ー‑ another common prompt character ‑‑*/ ,' % ' /*‑‑another common prompt character ‑ー*/ q /*ー‑ another common prompt character ‑ー*/ ︐ i ︐ ‑, ,, ,30 seconds ‑92
type サーパーマシンとの切断 'Iogout' LF; l o g 'NOTE: SAS/CONNECT conversati o n terminated.'; stop; / * 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 SUBROUTINES 一 一 一 一 ー一一一一一ー 一一一一一一一 * / unx term: /*一一 一一一一一一 一一一一一ー一一一一 一‑‑‑*/ / * ‑ ‑some unixen want the terminal‑type. 一一*/ e lI them we are the most basic of terminals. / * 一 一 so t 一一*/ /*一一一一一一一一一一一 一一一 ー一一一一 一一一一 一‑‑‑*/ type 'tty' LF; goto unx̲log; / * 一一一一一一一 一‑‑ ERROR ROUTINES ‑一一一一一一ー一一一一一ー一一一一一 一一一一一ー一一一一一*/ timeout: l o g 'ERROR: Ti meout wai ti ng for remote sessi on response.'; abort; nouser : d .'; l o g 'ERROR: Unrecogni zed useri d 0rpasswor abort; notcp: l o g 'ERROR: Incorrect communications access method.'; l o g 'NOTE: You must set "OPTIONS COMAMID=TCP;" before using this'; l o g, scri pt fiI e .'; abort; nOlnlt: nHd 内 ぺu
l o g' E R R O R : Did n o t understand r e m o t e session b a n n e r . ' ; nolog: . ' ; l o g' E R R O R : Did n o tr e c e i v e userid o r password prompt a b o r t ; n o s a s : l o g' E R R O R : Did n o tg e t SAS software startupm e s s a g e s . '; a b o r t ; noscrlpt: /*This i st h er e s u l to ft r y i n gt o signonwith a s c r i p tf il e */ /* t o a Unix spawner t h a t has been i n v o k e dwith t h e ‑noscript */ /* o p t i o n . You need t o clear any s c r i p tf il er e f e r e n c ea n d */ /* t h e n re‑execute S I G N O N . * / l o g' E R R O R : Scripted signons are n o ta ll o w e d . ' ; l o g' N O T E : Clear any s c r i p tf i l er e f e r e n c e and r e t r ySIGNON.'; a b o rt ; 3 . 4 良くあるトラブル例 ・パスワードのないユーザーで接続しようとすると接続エラーになる。 以下のスクリプトファイルのパスワードをチェックしている部分を削除する。 waitfor 'Password',30 seconds :nolog; i n p u t nodisplay 'Password?' type L F ; ・山I Xのプロンプトが変更されているため接続エラーになる。 以下のスクリプトファイルのサーバーのプロンプトをチェックしている部分に 利用しているプロンプトに含まれている文字を追加する。 たとえば、叩'を追加する場合には、 slgnonの waitfor ' H e l1 0 > ' ,' $ ' 宅 、 , :unxspawn /*‑Unix spawner prompt‑*/ /*‑‑a common prompt character ‑‑*/ /*‑‑another common prompt character ‑‑*/ , ' 昨 / * ‑ ‑another common prompt character ‑‑*/ 電 l ' /*‑‑another common prompt character ‑‑*/ ! ' ← ここに追加する。 'Login i n c o r r e c t ' :nouser ‑94‑
,'Enter terminal type' :unx̲term ,'TERM' :unx t er m 30 seconds : timeout 及び、 signoffの S A S終了の確認 waitfor ' $ ' / * ‑ ‑another common prompt character ‑ ‑ * / ,'向' / * 一 一 another common prompt character ‑ ‑ * / ︑ . ︐ i ︐ , > ' / * 一 一 another common prompt character ‑ ‑ * / ← ここに追加する。 ,30 seconds を変更する。特に signoffの修正を忘れやすいので、注意が必要。 4 . SAS/SHAREの設定 SASCONNECT でサーバーに接続するまでの手順を下記に示す。クライアントマシン に Windows95、WindowsNT、サーパーマシンに UNIXのサーバーを想定して説明を行なう。 4.1 サーパーマシン上の設定 /etc/servicesファイルへのサーバ一名とポート番号の登録 例 注意 sasserv 5001/tcp ポート番号(上の例では 5001)は 、 5001以降の番号で、すでに登録されている 番号をさけて登録する。 5000以前の番号は、使用するためには特権ユーザーの 権限が必要となる。一般ユーザーが、これらの番号を利用しようとするとエラー A S / S H A R Eは、通信を行う。 となる。ここで指定したポート番号を利用して S したがって、クライアントの設定でも、同じサーバー名とポート番号の組み合わ せが必要になる。 4 . 2 サーバー起動プログラム S A S / S 出R Eサーバー起動プログラム proc server serverid=sasserv; HU n H ︐ . r 例 serverid=には、 4.1で設定したサーバー名を指定する。 利用するライブラリが前もってわかっている場合には、起動プログラムの前にライブラ リ指定をすることが可能。 例 I i bname sampIi bソt m p ' ; 円HU にd
n H rHu p r o cs e r v e rs e r v e r i d = s a s s e r v ; 4 . 3 起動方法 (1) S A S / S H A R Eサーバー起動プログラムを S A Sのプログラム編集画面から サブミットする。 注意 この方法の場合、 S A Sがサーバーとして起動されると無限ループ状態 に入る。入力などの受け付けをしなくなるが、 トラブルではない。 (2) S A S / S 出肥サーバー起動プログラムをテキストファイルとして保存して、 パッチ形式で S A Sを起動する。 例 S A S / S H A R Eサーバー起動プログラムを s e r v e r . s a sとして保存した場合 s a ss e r v e r . s a s& 4 . 4 サーバー停止プログラム S A S / S 出肥サーバー停止プログラム 例 p r o co p e r a t es e r v e r i d = s a s s e r v ; s t o ps er v er ; 円H rHu s e r v e r i d =には、 4 .1で設定したサーバー名を指定する。 停止方法 (1) S A S / S H A R Eサーバー停止フ。ログラムを S A Sのプログラム編集画面から サブミットする。 (2) S A S / S 出肥サーバー停止プログラムをテキストファイルとして保存して、 A Sを起動する。 パッチ形式で S 例 S A S / S H A R Eサーバー停止フ。ログラムを s t o p . s a sとして保存した場合 s a ss t o p . s a s 4 . 5 サーパーマシン上での S A S / S 出胞の利用方法 通常の 1 i b n a m eステートメントに、 s e r v e r =のパラメータの値として S A S / S 出肥サーバ ー名を設定する。 例 クライアントからライブラリのディレクトリを直接指定して S A S / S H A R E サーバーを利用する方法 I i b n a m eI i b r e fI i b d ir 's e r v e r = s a s s e r v ; Ii b r e f ライブラリ参照名(任意の名称) I i b d i r S A S ; S H A R Eサ ‑1¥ーで利用する U N I X上のディレクトリ名 9 6
( f u l l pathで指定) 例 SAS/S出阻サーバーの起勤時に指定したライブラリを指定して SAS/SHARE サーノ fーを利用する方法 Iibname Iibref s libref=serverli b server=sasserv; ライフラリ参照名(任意の名称) Ii bref s libref= パラメ タに SAS/SHAREサーバーの起動時に Iibnameステートメント で指定したライブラリを指定。 4 . 6 PC上の SASからサーパーマシンのデータを利用する方法 4 . 6 . 1環境設定 servicesファイルへのサーバー名とポート番号の登録 Windows95 c :¥windows¥servlces WindowsNT c :¥ windows ¥system32¥drivers¥etc¥servlces 例 sasserv 注意 5001/tcp ポート番号(上の例では 5 0 0 1 )は 、 5 0 0 1以降の番号で、すでに登録されている 0 0 0以前の番号は、使用するためには特権ユーザーの 番号をさけて登録する。 5 権限が必要となる。一般ユーザーが、これらの番号を利用しようとするとエラー となる。ここで指定したポート番号を利用して SAS/S出胞は、通信を行う。 したがって、クライアントの設定でも、同じサーバー名とポート番号の組み合わ せが必要になる。 4 . 6 . 2利用方法 通常の 1 ibnameステートメントに、 server=のパラメータの値として SAS/S 出阻サーバ ー名を設定する。 例 クライアントからライブラリのディレクトリを直接指定して SAS/S出 阻 サーバーを利用する方法 Iibname Iibref Ii b d ir ' server=sasserv; Ii bref ライブラリ参照名(任意の名称) Iibdir SAS/SHAREサーバーで利用する UNIX上のディレクトリ名 ( f u l l pathで指定) 血 Eサーバーの起勤時に指定したライブラリを指定して SAS/S 出阻 例 SAS/SH サーノ fーを利用する方法 Iibname Iibref s libref=serverli b server=sasserv; Iibref ライブラリ参照名(任意の名称) s libref= パラメータに SAS/SHAREサーバーの起動時に Iibnameステートメント ‑97‑
で指定したライブラリを指定する。 5 . まとめ いままで、 S A S / C O N 阻C Tや S A S / S 出胞のまとまった資料がなかった。そのため、設 定方法や利用方法がうまく伝えられていなかった。 本論文が、 S A S / C O N N E C Tや S A S / S H A R Eを導入したユーザーの設定の一助となれば幸いである。 6 . 参考文献 S A S / C O N N E C TS o f t w a r eU s a g ea n dR e f e r e n c eV e r s i o n6S e c o n dE d i t i o n S A S / S H A R ES o f t w a r eU s a g ea n dR e f e r e n c eV e r s i o n6F i r s tE d i t i o n S A S / S H A R ET e c h n i c a lR e p o r tf o rU N I XE n v i r o n m e n t sR e l e a s e6 . 1 1 S A S / S H A R ET e c h n i c a lR e p o r tf o rt h eM i c r o s o f tW i n d o w sE n v i r o n m e n tR e l e s e6 . 1 1 U N I Xネットワークプログラミング W .R i c h h a r dS t e v e n s 篠田陽一訳トッパン 同d n o n
日本 S A Sユーザー会 (SUG I‑J) S A S / A C C E S Sソフトウエアによる侃A乱 Eテヒータ更新 佐藤正基 STSインスティチユートジャパン 力スタマサオキー卜部テクニカル制←トグループ ∞ U p d a t i n g侃 A乱 Ed a t aw i t hS A S / A E S SI n t e r f a c e M as a k iS a t o ω s t a r e r&.弔問 r tD i v i s i o nT e c h n i c a lS u p p o r tG r o u p S T SI n s t i t u t eJ a p a nL t d . 要旨 S 必/ A C C E S Sソフトウエアによるさまざまな形でのデータベースの更新方法を、 S 必データビ、ューσ : 概 要 、 デ ー タ 更 釈 糖 散 型( α州 I T . R 山.B Aα)をまじえて明ら料こする。データベースと S A Sシステムと のコミュニケーションについて侃A C L Eデータベース l こ注目する。 キーワード: S A S / A I α巴S、V I E W 、却し、 O R A C 回、∞配、 C 倒M I T 、R 山.B A I α 1 . はじめに S A S / A I α巴Sソフトウエアは、 D 助1S(データベース管理システム)の異なるファイル形式めテープノレヘの 透踊句なアクセスを実現するプロダクトである。 S A S / A I α E S Sソフトウエアで壮、 D B M Sにおける共通言語 である勾L ( S t r u c t u r e dQ u e η 同 時u a g e )を介して、デ二一タアクセス、データ更新を行うことができる。 B M S特宥の言語やネットワークの分散環境データ変換に必要なプログラムや作業を意識す ここでは、 D C C E S Sビューディスクリプタ ( A C C E S Sビュー)を使用することでローカルホストのディス る必罫土なしも A A S クスペースの大量肖費をもたらすことなく、常に最新データを参照できる。持命では、働慣れた S 言語プログラミングを生かしながら D B 略データの更新方法に着目する。また、その際に欝哉しておきた し1データ更菊依清蔵政盟( α州 I T ' R O L 国 ,A C K )についても述べる。 門川︐v 門川︐v
2 .S T S / T I 慌 S Sソフトウエア侃A a.王インターフェース概要及ひ到乍 S A S / A C C E S Sソフトワエア O R A C 日では、 A C C E S Sプロシジャ、 D B 印I A Dプロシジャ、 S Q Lプロシジャの 3 つのプロシジ、ヤがサポー卜されており、いずれの場合でも、 O R A C L EC a l lI n t e r f a c e( O C I )を呼ひ油す仕 様になっている。 S A Sシステムから侃A C 日 ぬLステートメントを車酌に発行することにより透酎句なデ ータアクセス・デLータ更新を実現するものである。 K;cES Sプロシジャ AαESSプロシジャを使って AαESSディスクリプタを作戒する場合、このプロシジャは、離切こ侃A C L E ぬLS E 国 Tステートメントを侃A C 日データディクショナリテープノ凶こ発行する。その後、 AαESSプロ 邸 側B Eステートメントを発行し、侃A C L Eテープル傍Ijに関する情報を財号するのである。 シジャが D C 日テーブルとその列に関する A αE5Sディスクリプタの情報は、 A α巴Sビューディスクリ そして、侃A AαESSピュ→にコピーされるが、そのとき凶システムから D B M Sを呼句切す必易立如、 プタ ( 限 O A Dプロシジャ D B 印曲プロ、ンジャを使って侃A C 日にデータをローいする場合、このプロ、ンジャ出掛句侃A C L EぬLス テートメントを発行し、侃A C L Eテーブルを僧或したあとに S A Sデータを侃A C L Eテープノレl こ転送・挿入 する。 gLプロシジャ ぬLプロシジャ・パススルー「機能て怯、 ω別配n 側 T OコンポーネントとぬLステートメントは、サブ C L Eサ」パに直譲渡される。このとき S A Sシステムの侃A C L Eインタフェースビューエン ミット直後侃A ジンのパススルー機能料吏用される。 DATA ステップ、または PROC ステップを、 AC狂~ビューとともに使う場合 SAS システムの侃ACLE イ ンターフェースビューエンジンは、侃A C L Eに対し霞酌に SQLステートメントを呼.Vi:!:lし、発行しますユ A Sシステムから D B M Sデータを更新したり、タスクを芳子する場合はそのユーザの諸梅艮を注 なお、 S 意する必要がある。 3 . 鎚データビュー S A Sシステムでは、 S A Sファイルと昭訴しる固有¢彬式でデータを倒字し、 S A Sファイ川こ該当するも のとして S A Sテ二ータセット、 S A Sデータビュー、 S A Sカタログがあげられる。 S A Sファイノν刈乃アクセス 一1 0 0 ‑
l 士すべてエンジンを介して行才つれる。 3‑1. エンジンの基本覗政E S A Sシステムではエンジンと呼ばれる機構を通じてファイルに対する入出力を行う。エンジンとは、 S A S システムにおいてファイノレl こ対する入出力を行う内部ルーチン¢集合である。エンジンは、ファイルの オ」プン、入出力操f 乍Lファイノレl こ関する情報の収集などを行うものである。 単一の D A T Aステップ《またはプロシジャで複数のエンジンを使用することができる。例えば、特定のエ ンジンを用いてデータを読み込み、他のエンジンを用いてデータを出力することが司龍である。 S A Sシステムではアクセスするファイル形式同志じて複数のエンジン剖野合けることができる。この ような複数のエンジンを介したファイノレアクセス方式のことをマルチエンジンアーキテクチャ白血)と 朝する。 3‑2. S T Sデータビュ一切手1 開 S A Sデータビューには、ビューエンジン情報等のディスクリプタ部のみ含まれており、データ部は物理 的に異なる場折に前生する。 品 Sデータビュ‑<J)利点 ‑目的に1 合わせた複数のデータ定義 既存のビューファイルや、テーブルを組み合わせて目的に合わせた新たにビューファイルを定義する ことができる。これにより)3'蛤テーブルを憎安することなく、必要なデータだけをビューファイルを介 してアプリケーションから手Jj用可能となる。 ‑データ梯断湖止 共通のデータに対し複数のビューファイルを定義することにより、重複して同一データを保存 することを最(邸即こ抑制できる。その結果、限られたディスクスペースを浪費することがなくなる。 ‑最新データの参照 ビューファイルはデータセットのディスクリプタ部から構成されているため、実行されるまで データそのものを参照しなし L したがって、データ参照要剥 2出される度に、最新のデータを抽出する しくみとなっている。 ‑異なるファイル形式;"^'の対芯 ビューファイルはエンジンの使用により、他のファイル形式ぬデータ妨童画協ま照を実現する。 ‑101一
‑ソースの来公開 ビューファイノレの新司こおしては、そのソースを参照することはできなしもこれにより、ユーサマ土ビ こよるビューファイル体諜を危倶する必罫土加、 ューファイルを新子するだけ、管理者はユーサ1 3‑3. 3宅醤賓の泊Sデータビュー ⑦んはE岱ビュ一 部 / A I α s s sソフトウエアを用し、て僧或し、他社の D 目隠ファイル形式l こ却芯し、透踊句なデータアク セスを実現する。 A α : s s sビューは、データの参照・更新(肥曲川町Dをサポートするものである。 S 必/ Aasssソフトウエア侃A C L Eのエンジンは S A S I峨 Aファイルである。 Aαsssビューl こ含まれるディスクリプタ情報i 丈 日Sシステム側で必要なデータ定義そして参照す るD 蹴テーブルのデータ定義から構成される。このディスクリプタ情報は α 町町巴プロシジャ、 D A T A S 回3プロシジャまたは A asssウインドウにて参照することができる。 ②sa..ビュー S Q Lプロシジャを用し、て生放する。 S Q L ビューエンジンは臼S 23QLファイルである。 S Q L ビュー は複動万七ータソース(エンジンjを組み合・わせて僧会することができる。例えばL凶データセット とAαsssビューのテ二一タを結合して 1つのビューを作完走することが可能である。 S Q Lビューはデータの参照のみ(肥山側L りサポートしているため、 S Q Lビューを用いてデータを更新 することはてをなしもしかし、 S Q Lプロシジャで、 A α邸ビューを新子ずることにより、データを更新 可能となる。 S 札ビューのソースは、 D E S C R I B Eステートメントを使用して確認できる。 ③ 臥JAステップビュー D A T Aステップを用いて作成する。 D A T Aステップビューのエンジンは S A S D S Vファイルである。 D A T Aステップビューはデータの参照のみ(肥A D倒 L りサポートしており、また、 D A T Aステップビューの み僧或したビューのソースを再ひ参照することができなし L ソースを後に参照するためにはそれを別 ファイ川こ保存オる必要がある。 4 . 院脆におけるデータ更新の確定 ( α澗 I J .R O I . l 且0 < ) D 鵬では、データ・トランザクションの梢卸を行うことができる。具体的に、 ω1 M I Tおよび R O L 日 ,A C K ステートメントにより、 D 鵬テープ〉いのデータの更新を帝国卸することが可能である。 ‑102 ←
叫 叩Tステートメントは、現行トランザクションを終了して、トランザクションで菊子された変更を 確定し、それまか〈ッファ上(メモリ)で行ってし叱テL タ変更をディスク上のファイル(テープ、川にそ 脚 I T ( 確渇されるまで氷対句と出みなされなしも の変更を反映させる。データベースに対する変更は α また、 α M v I T Tステートメントを実行すると、他のユーザえーが衰吏を参照できるようになる。 R 山.BA口(ステートメントは、何らかの原因で克盟主治宝異常終了した場合、現行トランザクションに対す る処理を取り消し、変更テータの一部もしくぽすべてを無効にする。 倒 MIT.R 凹.B A I α ステートメントを諸子すると、トランザクションのすべてのロックが解放される。 ロックはDs¥iSによって帝l 胸される。例えば、 O 貼C 日には、テーブルの定義をロックする即Lロック、 そしてテープ〉レ中のデータに対しロックを州る肌ロックがある。テヒータ更姉弟こは、事前準備とし てロックの機E が働き、 トランザクションが終了し、変更がすべて確定することで、ロックが角離され る。データを参照するだけの場合は、ロック等の憐出動作しなしも 5 . 鈷S 川盟主Sソフトウエア叩純正インターフェースによる院総データ更新 ( α馴 l わ 部 / T J α E S Sソフトウエア明A ClEでは、侃A C I . EデLータを更新する方法を 2つに分けることができる。 AαESSディスクリプ夕、つまりは AαESSビ、ューを使用する方法と、使用しなし、方法である。 AαESSビ ューを使用する場合、データ更新民基材句こパッチモ‑]"で行われるため、侃A ClEデータ更新は、その 処理が正常終了した時点で反映される。 5‑1. ~SS ビューを使用するデータ更新 A C C E S Sピ、ューを用し、てテ三一タを更新する場合、これまで習尋した S A S言語プログラミン丹識を動て 限に5 回 rすことができる。データ更新の方法として、 D A T Aステップ(版氾I fYステートメント、 U P D A T Eス Q Lプロシジャ、 A 伊 凹Dプロシジャ)、そして配Lと百四I T テートメント)、プロシジャ(陀Pプロシジャ、 S プロシジャなど、さまざまである。これよりし、くつカ:の方法を紹介する。 ①D A T Aステップi こよる開院Eデータ更新 D A T Aステップ・IvrnI 円ステートメントにより O R A C 山データ更新を行うことができる。Ivrn l fYステ ートメントでは、テえータセット ( A I α巴Sビュー)を複製することなくテ二一タを更新することが可能である。 削 I fYステートメントにおいて舵E S Sビューをマスターテータセットとした場合、使用てをなし、オプ ションがあるので註惹が必要である。また、 O R A C I . Eテープノ凶こ対するユ}ザの更帯糟毘こも注意が必要 である。 D A T Aステップの場合、処理カ正常終了した時点:で、侃A C l ES Q L α淵 I Tステートメントが発行さ九 1 0 3
データの更新が侃A C 日テープ〉凶こ反映される。 以 下 の 例 で は 附1 F Yステートメントの自動変数:10 配ーの値を用いて、マスターデータセット ( s 出 u s e r .仰 一 也t a )とトランザクションデータセット ( A I α E S Sビュー o r a ̲ v ・ 佃l p s )のレコードを上撤し、 マスターデータセットにレコードが相生しなければそれを追加、相主すすUまレコードを更新する。その ̲ 1 艇の値を出力するものである。 他の場合は、メッセージとともに自費疫激; c l a t a回 s u s e r .eIIlp也t a ; r o c x : I i f y田 s u s e r . ω p 一也t ao r a ̲ v ・ 佃l p s ; b ye I I l p n a m e ; s e l e c t liorcJ; w h e n( % s y s r cldse 町)) d o ; o u t p u ts 出 u ser.ωp 一也t a ; 舟榊マスターにレコードがない… i 勘日料咋/ % p u t& S y s r c l d s e n r n r ) ) = ; e n d ; % s y s r cl s o k ) ) w h e n( d o ; r e p l a c es a s u s e r .抑 制a ;1 * 榊マスターl こレコードがある…更新榊/ ̲eπor̲ = O ; e n d ; o t h e r w i s e d o : p u t' E R R O R:̲ 1 αむ一 ='‑iore‑; eπor 一 = 0 ; e n d ; e n d ; r u n ; ② g礼プロシジャによる侃んは王子ータ更新 C 日データを参照・更新することができる。データ ぬLプロシジャでは、 AαESSビューを介して侃A 町ステートメントを新子する。データの更新を行う場合は 1 N S E 町 、 D E 凹 E 、 の参照を行う場合は田L 四D A T Eのし吋nir のステートメントを使用する。 Q Lビュー(ぬLプロシジャに格納されたぬLパススルークエリーを含 ぬLプロシジャにて作誠された S が は 肥 却 倒L Yであり、元データを更菊子するために使用することはできなしもまた、侃A C 日トリガー C 日トリガーはー を使用すると、データ更新に影響を与えるかもはL品、ので、注意が必要である。侃A ストアド・プロシジャであり、先車関象のテープ; V jこ対し更新のぬL ( 1 N S E 町 、 D E 日f E、四D 瓜 J E )が発行 されると自封切こ煮汁る仕識になってしも。 S Q Lプロシジャの場合、プロシジャか主常に終了したH 主主で、 O 貼C L ES Q L α州 I Tステートメントが ‑104‑
発行さオk データの更新が侃A C L Eテープ〉レに反映される。 p r o cs q l ; u p d a t eo r a ̲ v .明 S s e t釦 l p n a m e = ' S I X X ' w h e r e釦 l p n o = '8 0 5 2 '; 1 *ACC巴Sビューを用いて U四I A T E* 1 qUlt ; ③問プロシジャによる側旺データ更新 同 Pプロシジャでは、 S A Sデータセットと同様の操作て叩A C L Eデータの A α邸ビューをデータを参 照‑更新することができる。 データを更新する場合、編集モートでf 晶、た画面におして伍意のレコードに移動、レコードをロック する。データを変更し、別レコードに移り、再びロックをカサたとしてもデータ更新は確定しなしも 同 Pプロシジャの場合、 「保存」コマンドを知子したとき、または「自動倒字」が新子されたときに 侃A C 日S Q LC ωl M I Tステートメントが発行さ九データの更新が侃AC 日テープ川こ反映される。 5‑2. T . J α: E S Sビューを債用しないデータ更新 ①阻仰プロシジャによる叩AQEデータ更新 D B 凶叩プロシジャは、侃A C L Eテーブルの僧或および、レコード挿入を行うプロシジャである。また、 離句に S Q Lステートメントを発行することもできる。このプロシジャは新刊朝こ侃A C L E S Q Lステートメ ントを生成することにより、侃A C 日テーブルの僧或・レコード挿入を行うものである。 D B 山山プロ、ンジャでは、 α 州 I T =nオプションによりデータ変更。沼健 ( ω I M I T )を吊[]1卸することがで きる。指定されたレコード数(心の I 陥E 町 梢 刊 オL ると侃A C L ES Q L α1 v I M I Tステートメントが発行さ九 データ更新は反映される。このオプションを用いることで一定ι頻度で侃A C L Eデータを更新することが できる。デフォルト債では、 l 、側オブP サXーション単位で C 側 I Tが発行されるが、 「 ω r r n i t = OJとす ると、すべてのレコードのトランザクション(町田町)が千刊オL てから侃A C 日 SQLα1 v I M I Tステートメン トが発行される。 p r ∞ dbloadd b r n s 司 r a c l ed a t a = 田 s u s e r . e 叩 也t a ; /榊ロードするデータセットを指定榊/ t 油l e=飢l p s ̲ d u p ; 刈 神 侃A C L Eテープ、ル名を指定 林和/ 同t h = " @ r a n e l l a "; r = s c o t t ; u s e w = t l g e r ; o r a p c α而 J it =l O ; l 阻止 U山 1; 105‑
② g孔パススjレ‑‑4鋪告による侃AQEデータの更新 S Q Lパススルー機能では、EXECIJfEステートメントを用いてデータ更新を梢卸することができる。 回即応ステートメントを使用すると一樹怜クエリーや、データ更新以外の S 札ステートメントを動 的に発行することができる。 N S 町ステートメント諸子後に ω1 M I Tもしくは R 山B A αステートメントを霞酌に侃ACLE 次のように I ハ発行する。 p r ∞s q l ; c o n n e c tt oo r a c l e( p a t l 戸@tan e l l a "u s e r = 's c o t t 'o r a p w = ' t i g e r ' ) ; e x e c u t e ( i n s e r ti n t o印1ps 0 5 0 ',官E ',t o也 t e' (9 7 ‑ 0 & ‑1 5 ') )b yo r a c l e ; v a l u e s(8 覧p u t& s q l x r c ; 畑暗色s q l x r cの値をもとに α 刷I Tまたは判暗/ めu t& sq l x m s g ; 畑味 R 山B A 口〈を手当子させることも可能糊/ e x e c u t e ( c α r r n i t )b yo r a c l e ; d i s c o n n e c tf r o mo r a c l e ; qUlt ; 6 .剖S / A C C E S Sソフトウエア α 蹴インターフェースによるデータ更新の確定α (畑 I T .Ral且∞ S A S / T I α巴St o∞配では S Q Lパススルー機能のみサポートされてしも。 S Q Lプロシジャを用いるこの 機能では S Q Lビューを僧者することができるが、データの参照のみ(肥油開L Y )可能となる。しかし、∞配 インターフェースを経由して直接 D 鵬データの更新掛附する場合は、∞配によりサポートされてい Cクエリーを使用することができる。 る特殊∞i13 6-1. キ朝来 α蹴クエリ~既要 一樹切こ、 D 郎ではデータベース l こよって梢卸されるオブ、ジェクトや、テープ〉附青報を含むシステ こ対しクエリーを発行し、情報を府与すること ムテープ、ルカ鴇供されている。通常はこれらのテープ〉レl ができる。 しかしこれらシステムテーカレは、 D鵬によって様式や、形態が勲注るた比類似するクエリーを発行 ι しただけで出 要な情報を腕尋できなし、ことがある。実緊、スプレッドシ」ト等の∞配データソースに はシステムテープ〉レは柄宝しなし、 D B M Sシステムテープ〉叶司蓑の情報を提供するため、∞配 A P Iにはし、くつかの特殊な関数が準備され てしも。この情報を腕尋するに同亘常の S E L E C T文によるクエリーを発行し、そ¢結果はデータソースに 関係なく閉じ様式古屋される。 一1 0 6一
S
A
S
/
Aa
F
3
St
o∞配において特殊クエリーを発行する場合以下の託強を行う。
p
r
∞s
q
l
;
n
=
"o
r
色町lj)S" u
i
d
=
's
c
o
t
t
'p
w
d
=
'
t
i
g
e
r
'
)
;
c
o
n
n
e
c
tt
oo
d
b
c(
d
s
r
α
nc
o
n
n
e
c
t
i
o
nt
oo
d
b
c
s
e
l
e
c
t本 f
(∞配::
S
Q
l
.
A
P
I"問r
a
m
e
t
e
r1
"
,"問r
a
m
e
t
e
r
2
"
" "問r
a
m
e
t
e
r
4
"
); /判。1<特殊∞B
Cクエリー判。1</
先p
u
t&
s
q
l
x
r
c
;
めu
t&
s
q
l:
x
m
s
g
;
c
;
d
i
s
c
o
n
n
e
c
tf
r
α
n吋 b
qUlt
;
∞配..
‑通常のクエリーと特殊クエリーを闘リ
湖.AP
I
=呼ひ油す A
P
Iの名称
H
問r
a
m
e
t
e
rn
" =必要なパラメータ
6-2. 剖S/A~:おソフトウエア α即インターフェースによるデータ更新の確定 (α州1T'Ra.上臥出〉
S
A
S
/
f
.
J
αF 3 S ソ フ ト ウ エ ア ∞ 配 に お け る デ ー タ 更 新 制 御 で は 、 ∞ 配 API 関 数 で あ る
S
Q
L
S
e
t
C
o
n
n
e
c
tO
p
t
i
o
n(
、
)S
Q
L
T
r
田 S出 t
()を扱う。これらの関数を使用することによりユーザl
こよるデ
ータ更新、およびそのタイミングを制御することができる。ここでは、データ更新の自動確定を
Mα加 I
T
J、ユーザl
こよる確定の制卸を f
N
O
A
U
ぼ 加 阻T
Jと射る。デフォルト設定は、 A
UfO::淵T
となっているが、 N
O
A
U
f
C
版 刷I
Tの場合は、 トランズアクションを帝f~卸するためにプログラム中にデータ
更新¢擁定を明利句に指定する。
なお、∞配ドヲイパのパージョン等によりこれらの関蜘サポートされてしか、ことがあるので注意
が必要である。
⑦デフォルト設定町α淵 I
Tの変更
デフオノレト設定である A
Uf配制I
Tを無効・有効にする方法は 2つある。
a
)N
O
A
U
f
C
X
X
M
v
l
I
Tオフ ションの指定
ρ
S
Q
Lノfススノト機能 α
州町T
O∞配コンポーネント中守旨定することにより、 D
孤接締荊こトラン
ザクションは N
O
A
U
f
c
x
:
x
:
M
M
I
Tに変更することができる。
c
o
n
n
e
c
tt
oo
d
b
c
(
N
O
A
目配ω
1
M
I
Td
s
n
ピ"
o
r
a明 s
"
);畑キ N
O
A
Uf似削I
Tオプション併旨定榊/
b
)∞B
CA
P
I関数 S
Q
L
S
e
t
C
o
n
n
e
c
t
(
)
P
t
i
o
n()の使用
1
0
7一
S Q Lパススノv ‑ 一機能の回国Jf Eステートメント中にこれを詰企することにより、 m 狐接続中にデータ 更新市胸を切り替えることができる。 A U T 配ω I M I Tを有効・無効にする e x e c u t e ( 1 ∞配:: S Q L S e t C o n n e c t Q : l t i o n" A U ほX M M I T ","聞グ[ "即γ ) b y∞配; ② 問 削T α淵 I Tモードにおけるデータ蕗脚胸 N O A 目立Th1MI Tにてデータ更新帝│脚を行う場合、そのタイミングを明利切こ指定する必要がある。次の 町田ステートメント中で∞配 A P I関数詞L T r a n s a c t()を呼ひ出して行う。 ように E e x 即 t e ( < ∞配:: S Q L T r a n s a c t,"α 削 T "[" R I 山 B師 ") b y∞配; 以下の例はこれらのステートメントの簡単な使用法¢紹介である。はじめに D 鵬からのリターンコ ード(&s q 1 x r c )がゼロ(正常終了)の場合は α 削 T 、ゼ、ロ以外(異常終了)の場合は R 山̲B A I α するしくみの マクロ TRANS~口を生食する。そして NOAUTCXTh阻T オプションにて OIMS [こ接続レコードの O E l E f Eを 針子し、それをマクロ T R A N S A I 口で検証する。そして最後にデータ更新宿胸をデ、フォノレトの A U T αT h l M I T に戻七 制A C R OT R A N S A I 口; /榊正常終了。暴合は仰阻T新 子 榊 / % i f( & S q 1x r c = u )% t h e n 制0 ; S Q L T r a n s a c t勺 淵I T ")b y∞配; e x e c u t e (∞配:: 免p u t"データ更新が αMMITされました"; % e n d ; 明1 8 1 s e 制0 ; 州咋異常終了の場合は R 山̲B A I α新 子 榊 / e x e c u t e (∞配:: S Q L T r a n s a c t"@出血口ぐ, )b y∞配; % p u t"データ更新が R山_B~α されました勺 % e n d ; 焔 i l l ' I D; p r ∞ sq1; / 料 咋N O A U T C X T h I M I Tにて接続料咋/ c o n n e c tt o吋 b c (N O A U T 配 制M I Td s n = " o r a ̲ e m p s "u id = ' s c o t t 'p w d = ' t i g e r ' ); /榊データ削除榊/ ∞ e x e c u t e ( d e 1 e t ef r o m凹Jpsw h e r ee m p n a m e = " N E I L " )b y I O C ; 《柑 TR:制S~口マクロによるトランザクションの制卸料咋/ ‑108‑
九 I T R A N S A I 口; / *A u r O C 制 I Tに設定*/ ∞ ∞ 配 ; e x e c u t e (I B C :: S Q L S e t C o n n e c t O p t i o n" A u r C X T h 1 M I T ","倒") by qUlt ; 7 .部 / A ( 涯s sソフトウエアにおける院総オブジェクトのサポート 7‑1. 匝脆におけるデータベース・ストアド・プロシジャ B¥f)のオブ、ジェクトであり、特定のタスクを行うための寸軒丸覇莞した SQL ストアド・プロシジャは、 D ステートメント¢集合である。これJ 丈 m 略クライアント・アプリケーション (SQL* 町 S笥や、トリガ ー、または5 3 I J のストアド・プロシジャから新子ずることができる。侃AC 日では、 PLβQL言語とし、う SQL を抜接した言語でストアド・プロシジャのプログラミングを行う。 SAS/AαESSソフトウエアでは、 SQLパススルー機能 E 紅 凹Eステートメントを用いて、ストアド・プ 鵬で実行させることが可能である。 ロシジャを D また、 S 札 S ELECfステートメントを使用することにより、ストアド・プロシジャの新子から生成さ A S側で腕尋することができる。 れるデータ等を S 7‑2. 匝脆におけるデータベース・トリ力二一 鵬テープ〉レに対しデータ更新 ( I N S E 町 、 D E L E T E、U P D A T E トリガーは、ストアドフρロシジャであり、 D ステートメントの発句料育つれたときに自封切こ新子される。 トリガー実行のタイミングは、札ステ ートメントの新背後や、該当する行のデータを更新する前後に設定できる。実緊の用途として、弓壬 トランザクションの防止、梯佐なセキュリティー機能の実現表に対するアクセス情報の収集キ縮十記 録があげられる。 B¥f)に対しデータ更新の泊Lステートメントを発行することによりトリガLーは自動 部システムから D 指?される。 鵬側ですべて梢卸されるものである。 なお、データベース・トリガーは部システムではなく、 D 7‑3. ストアドプロシジャとトリガー俳臣室点 ストアド・プロシジャとトリガーの違いはその芳子方法にある。ストアド・プロシジャはユーザもし くは、アプリケーションにより諸子される。一方トリガーは、 I N S E 町 、 D E L E T E 、四D A T Eステートメント が発行されると自聯句に新子される。 ‑109
なお、 S A Sシステムで、ストアド・プロシジャに妨むするものは、 D A T Aステップ守こおけるストアド・ A Sシステムではサポートされていないが、ユーすはこ プログ、ラムで、ある。データベース・トリガーは S れに類以するものをプログラムで僧安することができる。 8 . 材コりに A Sシステムでは、 S A S言語プログラミングを用いて、 D 鵬データに フロントエンドツールとしての S かりでなく、データ更鰍濯も行うことができる。 S 路データセットと同ひ設覚で、 D B M S アクセスする l データを扱うことができる。さまざまなデータ解開鎗E を提供する S A Sシステムにとって、今日のデー 北須条件である。 タベースの分散環境に姉むすること l S A S / A C C E S Sソフトウエアは、その重要な役割を果たすフρロダクトであり、今後さらに S A Sシステムの 基幹機告として位置づけられていくであろう。 9 . 参考文献 •J o 加 C .B ol i昭, S A SD a t aV i e w s:AV i r t u a lV i e wo fD a t a m 叶 ∞e e d i n g so ft h e2 2S A SU s e rG r o u pI n t e r n a t i o n a l白n f e r e n c e ( S U G I 2 2・1 9 9 7 ) •F o r r e s tB o o z e r ,C o n f i g u r i n ga n dU s i n g∞ 配 withS A S / A ( 工E S SS o f t w a r e 叶 ∞e e d i昭 so ft h e2 1S A SU s e rG r o u pI n t e r r 凶 i o n a lC o n f e r e n c e ( S U G I 2 1・1 咲泌) g •S A SI n s t it u t eI n c . C L E/U s a g ea n dR e f e r e n c eV e r s i o n6 ,S e c o n dE d i t i o n S A S / A C C E S SI n t e r f a c et o侃 A 1よ 1よ nU
日本 S A Sユーザー会 (SUG I‑J) 西暦 2 0 0 0年対応について 佐藤元田 株式会社 SAS インスティチュートジャパン カスタマーサポート部テクニカルサポート F o r 2000 Year M o t o a k iS a t o CustomerS u p p o r tD e p a r t m e n tT e c h n i c a lS u p p o r t SASI n s t i t u t eJapanL t d . 要旨 現在コンピュータハードおよびソフトウェアの西暦 2000 年対応についてメーカは もとより、 各分野において大きな問題として取り沙汰されている。 本論文は、 SASシステムにおける西暦 2000年の対応について説明している。 キーワード: 西暦 2000年対応について 1.はじめに コンビュータシステムの多くは、西暦の年について日付けデータを 2桁の数値デー タで表現されるよう設計されている場合が多い。 これは、コンピュータの設計当時 データを保存するメモリー等のハードウェアコストが非常に高価なものであったこと と、コンビュータが発明された欧米では日常西暦を下 2桁で表現される場合が多く、 コンヒ。ュータシステムの設計でもこの思想、が取り入れられたと考えられている。 ま た、コンビュータシステムではこの西暦の年の開始年を 0 0 から開始するよう設計し ているため、この 2桁で表現する年の範囲としては 1 9 0 0年から 1 9 9 9年の 1 0 0年とな ってしまう。 現状では、コンビュータシステムの普及により事務、解析、物流管理処理等さまざ まな分野や業務で電算処理化されているが、その多くは西暦を含めた日付けをキーと 1よ 1 1
してデータ制御が行われている場合が多い。このため、コンピュータシステムで西暦 2000 年が判断できない場合、現在行っているコンビュータ処理ができなくなり、平 常業務に重大な支障が発生してしまう。 西暦 2000年対応を行っていないコンヒ。ュー タシステムでは、 2000 年を向かえるとき小さなシステムから大きなシステムまで、 これがコンピュータシステム西暦 2000年 ワールドワイドの規模で同時に発生する。 問題ということになる。 2 .SASシステムによる西暦 2000年対応 SAS システムでは、西暦 2000年対応について YEARCurOFF という SAS オプション で回避できる。このオプションは 4桁の西暦の開始年を設定する。これにより設定し た西暦から 100年間 SASシステムを使用することができる。 例えば、 SAS システムを西暦 2050年まで使用する場合どのような設定を行うか以下 に示してみる。 YEARC目 OFFオフションに西暦 2050年を含めた 100年分を引し、た西暦 1 9 5 1年を設定する。 YEARCUTOFF = 1951 この設定だ、けで、パッチ等の処理は一切なく、西暦 2000年問題は回避される。 このオプションは SASシステムパージョン 6が起動する全てのプラットフォームで設 定可能で、ある。 また、和暦を表現する NENGO フォーマットについても、この YEARCurOFFオプションを設定することで平成 1 2年以降問題なく稼動できる。 3 .設定方法 YEARCurOFFオプションの設定は、以下の 3 通りの方法があるが、システムを起動 する上で非常に重要なオプションになるため、通常設定する場合は CONFIG ファイル で設定することを推奨する。 ‑ディスプレーマネージャから設定 • CONFIGファイルで、設定 • AurOEXEC機能を使って設定 また、現在自分が起動している SASシステムが西暦 2000対応になっているかどうか 確認する場合は、 OPTIONS プロシジ、ヤで確認することができる。このプロシジャは現 在稼動している SASシステムのシステムオプションを SASログ中に出力するプロシジ ャである。 内ノ臼 1i 1 ょ
PROC OPTIONS; RUN; このプロシジャの実行後、 S A Sログ中 Y E A R C U T O F Fオプションに 1 9 0 1以上の値が設定 されていれば西暦 2 000年に対応していることになる。 YEARCUTOFFオプションへの設 定年については、西暦 1 9 5 0年前後が妥当であると考えられる。 4. 西暦 2000年の対応リリース一覧 以下に S A S システムが西暦 2000年に対応しているリリースレベルについて各プラ ットフォームごとに示す。 1)メインフレームプラットフォーム • MVS版 S A Sシステムリリース 6 .0 7以降 • MSP版 S A Sシステムリリース 6 . 0 7以降 • V O S 3版 S A Sシステムリリース 6 . 0 7以降 • CMS版 S A Sシステムリリース 6 . 0 7以降 2) ミニコンピュータプラットフォーム • O p e n V M SAXP版 S A Sシステムリリース 6 . 0 9以降 • O p e n V M S VAX版 S A Sシステムリリース 6 . 0 7以降 3) U NIXプラットフォーム • S u n O Sおよび Solaris版 S A Sシステムリリース 6 . 0 7以降 • AIX版 S A Sシステムリリース 6 . 0 7以降 • HP版 S A Sシステムリリース 6 . 0 7以降 • Digital‑UNIX版 S A Sシステムリリース 6 . 1 0以降 • ABI+版 S A Sシステムリリース 6 .1 0以降 山I Xプラットフォームは、西暦 2 0 0 0年に対応しているオベレーテイングシステ ムのパージョンに制限があるため、 S A Sシステムのリリースレベルと異なる場合 がある。 4) PCプラットフォーム • Windo 宵s 版S A Sシステムリリース 6 . 0 8以降 • WindowsNT版 S A Sシステムリリース 6 . 0 9以降 • OS/2版 S A Sシステムリリース 6 .0 8以降 • MAC版 S A Sシステムリリース 6 . 1 0以降 1 1 3一
5. おわりに 本論文の冒頭で述べたように、西暦 2000 年の問題については、非常に重要な問題 である。現在、稼動しているアプリケーションレベルでこの問題に対してどのような 影響があるか早急に調査および稼動確認を行う必要がある。特に、帳票関係の出力リ ストや S A S / A Fアプリケーションでの西暦の入出力フィールドを下 2桁で表現し、そ れを文字型データとして西暦年下 2桁を出力するような処理を行っている場合は注意 が必要である。 これらの対応策としては、今後年を西暦で表現する場合 4 桁で表現 するようアプリケーションを変更することを推奨する。 その他アプリケーション上注意すべき点を以下にまとめてみる。 ・西暦年の帳票出力 .西暦の年下 2桁を PUT関数等で処理している • S A S / A Fカタログ中で西暦年下 2桁を文字型データで出力している ・西暦 2000 年に対応していないアプリケーションやシステムから西暦データを S A Sシステムへ取り込んでいる 114‑
S U G I ‑ J ' 9 7論文集 • 統計応用
日本 S A Sユーザー会 (SUG I‑J) 耐糖能障害・糖尿病改善に及ぼす要因の解析一 G L Mに よ る 三 元 配 置 分 散 分 析 青野裕士小津秀樹斉藤功池辺淑子 太分医科太学 深掘勝 昭和電工健康管理センター 公衆・衛生医学 The analysis of the factors for the improvement of non‑insuli n dependent Diabates MelIitus and Impaired glucose tolerance using SAS/STAT GLM. Hiroshi Aono Hideki Ozawa Isao Saito Toshiko Ikebe Department of Public Health and Hygiene, Oita Medical Univrsity Masaru FukahorL ShowaDenko Cop. Health promoting center 要旨 健 康 管 理 対 象 者 の 約 20 0 0人 の 内 、 糖 尿 病 者 ・ 耐 糖 能 障 害 者 の 8 8人に ついて保健指導の効果を検討した。すなわち、糖尿病合併症の知識、生活習慣、 肥満度の三要因で三元配置分散分析した。合併症の知識を得ることが主効果 として血糖値の低下、糖尿病・耐糖能障害の改善につながっていた。保健管 理チームの保健指導で糖尿病の合併症の知識を得ることにより、生活習慣が 改善して、血糖値の改善がみられることが数量的に示された。 キーワード: 耐糖能・糖尿病の合併症の知識生活習慣改善 健 康 管 理 チ ー ム SAS/STAT GLM 1,はじめに 糖尿病の患者数は増加しており、最近の日本人 600万人が発症しているとされる。食生活の欧 米化、運動不足、過食による肥満など生活習慣病であり、糖尿病・耐糖能障害の改善には生活様式 の変容が重要である1)。糖尿病は血糖の制御が大事で制御不良の場合、糖化蛋白により様々な合併 症を引き起こすとともに、心筋梗塞・脳血管疾患のリスクともなる。血糖値制御の基本は食事・運 動療法であり、今までの生活習慣を根本から改めるというはっきりとした動機づけが必要である。 糖尿病・耐糖能障害者の血糖値制御に関連する因子を選ぴ、それらを組み合わせて保健指導の効果 を検討した c 2, 対 象 と 方 法 1987年より健診をしている化学品製造業男子従業者 2193人 の 内 、 最 近 5年間の健康診断 成績で糖尿病・耐糖能障害者として保健指導の対象となった者は 8 8人 で あ っ た ( 表 1) 。 これらの者と年齢士 2 歳で合わせた糖尿病のない健常男子を対照群 ( 9 3人)とした。対照者は 4月に 健康診断を受けた者である。これら対象者に食生活・運動・飲酒・喫煙に関する生活習慣(12 項目)、 糖尿病の合併症の知識 ( 3 7項目)および知識の情報源 ( 8項目)の把握を行った(表 2,2 ) 。これらの 項 目 に つ き 、 信 頼 性 と 妥 当 性 を 検 討 し た ( 表 3、 4、図 1) 。 ヴ Ie ‑ l
表1 糖原病・耐糖能障害者の内訳 空腹時血糖値 人数 平均年齢 糖原病改善群 く 1 4 0 m g / d l 30 4 7士 6 .5 糖原病非改善群 孟1 4 0 24 4 8: : t7 . 1 耐糖能障害群 ~ 1 1 0品く 1 4 0 34 4 7: : t5 . 1 また糖尿病・耐糖能障害者の栄養摂取を栄養指導システム「ひろみちゃんの栄養診断 J (福井医大 付属病院栄養指導室・三谷コ i t。ュート株制作〕を用い聞き取り、最新の摂取カロリー充足率を得た。また、 身体活動量は内藤の方法で求めた 3 )。 3,結果 (1)生活習慣項目の中で 4群間で有意差のあったのは「決まった時間に食事を摂る」、「腹八分に食 べている」、「甘いものをひかえる」、「なるべく歩く」、「煙草を減らすかやめた」であった。それぞれの 項目につき実践を l 点、非実践を O 点とした合計点は 4群間で有意差があり、糖尿病改善群で高かっ た(表 5、図 2) 。 ( 2 )糖尿病の合併症の知識では、糖尿病の 3大合併症の内、糖尿病改善群の眼障害、神経障害の知 識が有意に高かった。腎障害の知識は低く全体で 4 0 %未満であった(表 6、 7) 。 ( 3 )耐糖能障害群の B M I平 均 値 (m)は 、2 5 .0と 4群の中で最も高く糖尿病改善群 (m 2 3、0 ) および、 対 照 群 (m = 2 2、0 ) との間で有意差があった。 ( 4 )血糖値改善に及ぼす要因として生活習慣、合併症の知識、 B M Iを 3元配置分散分析で解析する と、合併症の知識が主効果として血糖値の改善に影響した(表 8) 。 二 表8 血糖値改善に及ぼす要因分析 要因 F{ 直 危険率 合併症の知識 (A) 6 . 4 9 o .0 1 7 生活習慣 (B) 2 .5 3 0 . 0 4 8 肥 満 度 (BM1 ) ( c) 1 .6 6 O .2 1 1 A x B 9 .0 7 0 . 0 0 6 A x B x C 0 . 2 1 0 . 6 4 7 R2= 0 . 5 8 8 ( 5 )知識の情報源は保健管理チームによることが多く、糖尿病改善群で最も高かった(図 3) 。 (6)摂取カロリー充足率は糖尿病群、耐糖能障害群のそれぞれで有意な差はなくバランスの偏りも なカ、った。 ‑118
4,考察 糖尿病改善群は糖尿病非改善群より保健指導後の生活習慣改善の割合が高く、保健指導による生 活習慣の改善が血糖値の改善に関与していると考えられた。また「なるべく歩く」は糖尿病改善群で 多いが、「スホ。 ‑ ' iをする」は糖尿病非改善群で多く、歩く運動が血糖値の改善につながると考えられた。 「網膜症」と「糖尿病で失明することがある」の知識は全体で 90%以上であったが、腎障害は低く、知 識の普及が望まれた。糖尿病改善群の 70%が「壊死」の知識を持ち、視覚に訴えることが血糖値の改 I .I も高いことより、知識のみでは改善 善に効果的であると思われた。耐糖能障害群は知識が低く、 B の効果が期待できないと思われた。保健管理チームの保健指導による知識が生活習慣改善を促し、 糖尿病の改善にいたると考えられた(図 4)。肥満は以前からインスリン非依存型糖尿病の危険因 子とされ、危険度は肥満の持続と程度の両方に関係している。糖尿病に対する感受性は座りがちな 生活習慣、食事因子、ストレス、都市化、文化的変容など多数の環境因子によって発現するように 思われる。可能な予防方法は肥満を解消し、是正すべき食事に改善し、運動量を増やすことである。 栄養指導は簡単、明解、かっ実際的であり、各個人の教養、学歴などの点で実情に即したものでな ければならない。多くの場合、減量のために減食をするわけであるが、糖質のみを不均等に制限す べきではな L、c 糖質の過剰摂取を避けるだけでなく、カロリーに富む脂肪、アルコール制限をすべ きである。動脈硬化は、糖尿病における廃疾や死亡の大きな原因である。そこで、糖尿病の食事指 導を見直し、動脈硬化性疾患を減少させるべく、健康人の動脈硬化性疾患を減少させる目的で W H Oなどから勧告されている指導に基つ き慎重な食事指導がなされてきた。一般的には食品中の脂質 含有量は総カロリーの約 2 5 %とし、飽和脂肪酸を含んだ油脂のかわりに多価不飽和脂肪酸を多く 含む植物油を用いるようにする。蛋白質は総カロリー摂取量の 15‑20%とし、残りは繊維の多 い炭水化物で、摂るようにする。また糖尿病生活への適合は常に新しい知識を得て安心し、繰り返し 説明を受けることによってなされる。糖尿病者がよりうまく適合できるかは家族、職場の同僚、雇 用者などのひとびとの理解と援助によるところが大きい。個人的問題に対する特殊な注意も必要で あり、職業、社会的、感情的な関係、食事に対する適合、タバコをやめるよう強く勧めていくこと、 適度のアルコール摂取にしていくこと、規則的な身体的活動についての注意も必要である。耐糖能 障害者、糖尿病者として管理対象となった者は糖尿病管理計画に参加すべきである。対象者の役割 は食事療法や薬物療法はもちろん、病気をもっと理解し、動機づけを行い、進んで責任を引き受け るまでに拡大されるべきである。糖尿病の長期にわたる合併症は個人および社会にとって重荷とな っている。この重荷は治療法の改良と患者の自己管理により糖尿病状態の制御をよりよくすること で軽減できる。健診による定期的検査を行い、網膜症や腎荏をより早く発見すべきである。また糖 尿病患者に見られる冠動脈や末梢血管障害の危険を低下させるためには糖尿病の制御状態の改善と ともに、よく知られた危険因子(喫煙、高血圧、高脂血症〉を周知させる活発な保健管理チームの 活動が必要である c 糖尿病やその合併荏の効果的な予防により社会的負担となる費用が軽減しうる c e 5,結論 1) 血糖値のコントロールは生活習慣の改善が必要であり、それを促す要因として糖尿病・耐糖 能障害についての知識、特に糖尿病の合併荏の知識が大切である。 2) 生活習慣の実践において「保健指導後実践した」人や、情報源として健康管理センターを利 用している人には血糖値の改善した人が多く、健康管理チームによる日常の保健指導と情報 提供が、血糖値の改善に重要であろう。 3) 腎障害の合併症の知識の浸透、耐糖能障害者の血糖値改善の動機づけは不十分でありこれら の者に対するより強力で効果的なプログラムの開発が必要である。 引用文献 1 ) 渡辺満利子、山岡和枝。大都市男子勤労者の境界型耐糖能異常と食物摂取状況、生活習慣との 関連。 日本公衛誌 1993;40:969‑9790 2 ) 高村宏、宮川高一。 ナーシング・アプローチ、糖尿病の患者指導。ナースアイ 19 9 7; 1 増刊号。 東京:桐書房。 3) 内藤善彦 c わが国における男性勤労者の身体活動量と循環器健診成績の関連。 日本公衛誌 1994;41:706‑7180 一1 1 9 ‑
到 * 正証書尿病の合併症について ①下の図にある病気のうち、髄尿病の合併症として起こるとあなたが考えるものをOで 阻んで下さい. 所属 ・ IH l 脳血怜 2 . 脳使;t); ※日常生活に関する次の項目について当てはまる番号に Oをつけて下さい。 3. 脳 ,' l l J n l 1.検診で耐 M能障害を指鏑される以前から実殴している. 2 . 保健指導後、実賎している. 3 . 気を付けてはいるが、実践は困難である. 4 . 気を付けていない. ((((((((((( qLnJhqLqLnJhqLqLnJhqLqLqL っdqdqdqdqdqdqdqdqdqdqd 11111111111 HNC ①早食いをしない. ②朝食を必ず食べている. ③決まった時聞に食事をしている. ④腹八分目に食べている. ⑤野菜を1ftるよう心がけている. ⑥外食をひかえている. ⑦味付けを薄くしている. ③甘いものをひかえている. ⑨なるべく歩くようにしている. ⑩スポーツをしている. ⑪お酒を飲みすぎないようにしている. (注意..全く飲めない人は 51 こ0 ) ⑫煙車を減らすか、止めた. (注意:喫煙経験のない人は 5 1 こ0 ) (1 2 3 4 起立性低l 血L[ 5 幽栖眼漏 6 心筋梗塞 7. 狭 心 椛 8. 尚 I s 1J I : 9 肺結紘 1 0 . 肺炎 I I 脂lII i 肝 4 ) 4) 4) 4) 4) 4) 4) 4) 4) 4) 腎不全,腎孟炎.腎阻JJ1j インポテンス 4 ・5 ) 4 1 2 .H ! J . ? : i 1 3 使秘 1 4 下痢 ぴれ,神経痛 .5) 頃痘 ※耐糖能障害と糖尿病に関する次の質問に答えて下さい. 1 5 . 吐き気 1 6 . 手のしびれ 1 1 手の神経痛 1 8 . 腎不全 1 9 . lIt孟炎 2 0 . 腎眼'" 21.インポテンツ 2 2 筋萎縮 2 3 . おでき 2 4 足のしびれ 2 5 . 起の神経術 2 6 . 壊痘 2 1 . 網股症 I.耐証書能障包のもつリスクについて知っているものに Oをしてください. 制尿病 (はい・いいえ) 2 8 . 白内障 2 9 . 失l リ l 心筋使;t);(はい. l、 L、え) 狭心症 (はい・いいえ) 脳血栓 (はい・いいえ) N ②結尿病で失明することがあるのを知っていますか. (はい・いいえ) ③日本での成人の失明原因の第一位は鱈尿病性網膜症であることを知っていますか. (はい・いいえ) ,浪をあなたはどこで知りましたか.当てはまるもにOを付けて下さい. ⑤以上の何1 1 . かかりつけ l 去 (はい・いいえ) 2 保 健 管 理 セ ン タ ー ( は い .l ' l、え) 3 本や雑誌 (はい・いいえ) 4 テレビ 5 珂l 人 (はい・いいえ) 6 家脹 (はい・いいえ) 7 病院 (はい・いいえ) 8 その他 ( (はい.l ' l、え) ) @証言尿病を l 直置すると、およそ 5年で神経障害. 10年で網膜症. 15年で腎不全にな ることを知っていますか. (はい・いいえ) ⑤ 血 M値をコントロールすることで、これらの合併症を紡ぐことができることを知って いますか. (はい・いいえ) ‑正 名前 跡直叫w 10番 号
表3 信頼性と妥当性の検討 Cronbach Alpha係 数 と 林 の 数 量 化 E類 に よ る 解 析 3‑ 1 Cronbach A Ip h a係数算出のプロゲ弘 PROC CORR COV ALPHA OUTP COMPL;VAR /糖尿病 DM CARDINF /心筋梗塞 ANGPEC /狭心症 CERETHOl /脳血栓 CERETH02 /脳血栓 CEREINF /脳梗塞 CEREBL /脳出血 OHP /起立性低血圧 二 DENTVEO I S C H E ANGPEC2 HYT TBC PNU FATLI CHO CONST DIARRE VOM EXNUMB EXNERV NEPIN NEPTIS NEPABS I M P O MUSDEG C O l l E PEDNUMB PEDNURV GANG RETITIS CATA BLINDl BLIND2 DMRETIS YEAR15 COMPCON /歯槽膿漏 /心筋梗塞 /狭心症 /高血圧 /肺結核 /肺炎 /脂肪肝 /胆石 /便秘 /下痢 /P [ @吐 /手のしびれ /手の神経痛 /腎不全 /腎孟炎 /腎膿蕩 /インポテンツ /筋萎縮 /おでき /足のしびれ /足の神経痛 /壊痘 /網膜症 /白内障 /失明 /糖尿病で失明 /失明原因の網膜症 /障害の進展度合い /血糖値の調整と進展阻止 R U N ; TITLE 'OUTPUT DATASET FROM PROC CORR FOR C O M P L '; R U N ; ‑121
3 ‑ 2 林の数量化 E類のプロゲうム OPTIONS LS=85 PS=65 NODATE; G O P T IONS DEV1 CE=・ DATA PREF2; KEEP S R ; ; LENGTH R $ 3 S= N DO P = ' B A ', ' B B ', ,B C ' BA/ 早食いをしない BB/ 朝食を必ず食べている B C / 決まった時間に食事をしている B D / 腹八分目に食べている BE/ 野菜を摂るように心がけている BF/ 外食をひかえている B G / 味付けを薄くしている BH/ 甘いものをひかえている BI/ なるべく歩くようにしている B J / スポーツをしている BK/ お酒を欽み過ぎないようにしている B L / たばこを減らすか、止めた ' B D ', ' B E ', ' B F ', ' B G ', ,B H ' ,BJ ', J ', ,B ,B K ' ,B L '・ 1 NPUT R $1.曲; R=P 1 1 R ; OUTPUT; E N D ; CARDS; 010000000101 111110011111 010011001101 100110100001 010111110111 011011101011 110010000011 111111000011 111110000001 ...... ....・・//// PROC CORRESP DATA PREF2SHORT OUTC=COORD; TABLE S, R R U N ; DATA COORD;SET COORD; WHERE TYPE̲= 'O B S ' OR TYPE̲= 'V A R '; X =D I M l ; Y DIM2; 2 '; YSYS = ' 2 ';XSYS ニ ' NAME TEXT 'Y = 'DIMENSION 2 '; LABEL Xニ 'DIMENSION l KEEP X Y TEXT XSYS YSYS TYPE; R U N ; PROC GPLOT DATA=COORD; SYMBOL1 V=NONE; A X I S 1 ORDERニ1.5TO 1 .5 ; PLOT Y 本X = 1 / ANNOTATE=COORD HREF=O VREF=O HAXIS=AXISl VAXISニA X I S l ; BY ̲TYPE̲; 二 二 R U N ; 二 PROC GPLOT DATA=COORD; 一1 22‑
表4 精度管理における信頼性の検討( C ronbach Alpha係 数 ) 健康診断における耐糖能障害、糖尿病およびそれらの合併症に関する知識と入手した情報源 に関するアンケー卜の内容の信頼性。 2団 連 続 回 答 者 ( 1 997年 5月 20日 61名 、 27日 60名〕は 56名 4‑1 日 常 生 活 に 関 す る 項 目 に つ い て 標 準 化 し た 全 Alpha係 数 . o657335 Correlation with Total アンケート項目 . o480964 . o348368 早食いをしない 朝食を必ず食べている 決まった時間に食事をしている 0 . 4 0 0 3 8 2 0 . 3 8 2 1 4 5 0 . 3 4 1 7 7 7 . o439390 0 . 4 0 2 4 5 9 0 . 4 1 6 2 4 4 . o105439 ‑ .0 3 3 4 5 0 o .295589 . o038320 腹八分目に食べている 野菜を摂るように心がけている 外食を控えている 味付けを薄くしている 甘いものをひかえている なるべく歩くようにしている スポーツをしている お酒を飲み過ぎないようにしている 煙草を減らすか、止めた Alpha係 数 0 . 6 0 4 8 6 5 0 . 6 2 8 5 1 2 0 . 6 1 9 3 6 8 O .6 2 2 5 9 3 0 . 6 2 9 6 5 8 0 . 6 1 2 3 9 9 0 . 6 1 8 9 9 9 0 . 6 1 6 5 4 6 O .6 6 9 0 2 2 0 . 6 9 0 6 1 8 0 . 6 3 7 6 1 8 0 . 6 7 9 5 9 6 4‑2 耐 糖 脳 障 害 の リ ス ク 、 糖 原 病 の 合 併 症 、 続 発 症 に 関 す る 知 識 の 把 握 の 取 得 標 準 化 し た 全 Alpha係 数 : O .9 9 9 9 8 4 (かかりつけ医を除いた時〉 CorreI ati on with Total アンケート項目 O .9 9 9 9 5 2 0 . 9 9 9 9 5 2 0 . 9 9 9 9 5 9 O .9 9 9 9 6 4 O .9 9 9 9 5 7 O .9 9 9 9 5 9 0 . 9 9 9 8 0 1 保健管理セント 本や雑誌 テレビ 知人 家族 病院 講義あるいは講話 1 2 3 Alpha係 数 0 . 9 9 9 9 8 0 0 . 9 9 9 9 8 0 0 . 9 9 9 9 8 0 O .9 9 9 9 8 0 O .9 9 9 9 8 0 0 . 9 9 9 9 8 0 0 . 9 9 9 9 8 9
4‑3 耐 糖 脳 障 害 の リ ス ク 、 糖 原 病 の 合 併 症 、 続 発 症 に 関 す る 知 識 の 把 握 状 況 数9587772176410506347036761920105667792 XU ハHUt‑444A 円 ノ 臼 円HU44AFhut‑4Fhd ハHvn同 υ 可t・ 円 叫υ ハHvnhut‑4nHU44A ハHVFhd 円 xunhU 円 ノ 臼 円XU44AnHU 円ベυ ハ hunhU 円ノ臼 ρhU44Aρhu λR 可t・ 円 ノ 臼 44A 円 XU 円ベυ114 ハHUn同 υ 司t'44AFhut‑4Fhdnhun同 d 円 〆 ﹄ ハH V 円ノ臼 ρhu‑‑& 可t'nhU ハH 作 日μ ハ HV 円 ノ 臼 ハHV 円 d n同 V ハHvn同 υ11444A 可t'Fhdt14 可t・ 44AFHU ハHvn同 υ44A ' 司t ' 司t ' ハHvnHUFHU 円ノ臼 nhU 円ノLM 司t'44AnHV ハ HV ハ XU 可t'nhU 円ベυ n 同 υ 可t・ 円 ベυρhU 円 d 円ベυ 円 XU 円 XU ハHV ハHV 司t XU44A ハH V 円ノ臼 ρhU44A 可t'n同 hut‑444A 円 li 噌 liAHUAHUAHU 噌 li ハ li 円 ソ ム 噌li 噌 liAHUAHUAHU ハ HU 噌 li ハ HUAHUAHU 噌 li 噌 li 噌 li 噌 liAHUAHUAHUAHU 噌 li 噌 liAHU 噌 li 噌 H U 円 ソ ム 噌1 4 噌 li 円ソム B n H 円 ソ ム ハHU 噌 nvnxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxunxu a AnnununununununununununununununununununununununununununununununununununununU a ・ ‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ 手のしびれ 手の神経痛 腎不全 腎孟炎 腎膿蕩 インポテンツ 筋萎縮 一 nunu‑nununu 口 t Q U F D 9 u n h u 口o q u Q u q u q u q u q u n v n U R d n h u R U R U 可i 司i q U 1 1 q U 9 U A生 A生 1 1 n U 司i q u 口δ F h u q U 1 1 n U A生 円 L L ' 円ノ臼 n同 υ ハHvnHU ハHV44A 円ノLM 円ノLM44A 円 ノ 臼 司t't1444An同 dt14 円 υ ハH V 司t υ ハ O 円 XU 円ベυ 円 XU 円ベυnhUFhd 円ノLMFhut‑4 円ノ臼 11444A 円ノLMn同 Xu‑‑4Fhdn同 hun叫υ υ ハHU‑‑& 円叫υ n 同 υ ハH U 円 XUρhU 円ベυ n 同 V 可t・ 円 ノLM ハHvn同 υ ハHVFHU 円ノ臼 44An同 d n同 d 司t'44AnhunhuρhU 円ベυ n 同 υ 円ノ臼 XUFhdFHUFhdn同 υ114Fhd ハH TlFhU44A 円 q u q u n h u q u n v n h u R U R u q u R U 7 R U F h d q u A A Q υ Q υ q u n h U 7 ' R U F H U A A R U R u n v q υ 7 ' t 1 1 1ム ハU q U 9 u Q υ Q υ R u ‑ ‑ u υ ハ Hυ 円ベunhunhU ハ HυτlinhU 円ベUnuυnuυ 円/臼 τ14τ14 円叫U 円叫UaA宝 円 ud 円叫UρhuaA宮 口 ノ 臼 円 /Unuυ 円/臼 LH 円ベunhUτliAHUAHU 円ベunhun/臼 可 t・ 円 ノ 臼 円 ベUaAヨ n V 円ベυ 円ベυ 円ベυ44A44A44A 円叫υ 内4U11& 円ノ臼 1 1 4 ハHvt14114nHU HU44A 円ベυFhU44A44A44A 円ノLM 円ベυ44AFhut‑ム ハ HV 円 ノ 臼 円 ベυ 円〆﹄ 44AFhU44A 円叫υ 円ノLM ハH ハ おでき 足のしびれ 足の神経痛 壊痘 網膜症 白内障 失明 続発症 糖原病で失明 失明原因の網膜症 障害の進展度合い 血糖値の調整と進展阻止 L キ VI nu O~ 吐 wnunununununununununununununununununununununununununununununU 0 n 4L a VE ロM o 糖原病の合併症 脳血栓 脳梗塞 脳出血 起立性低血圧 歯槽膿漏 心筋梗塞 狭心症 高血圧 肺結核 肺炎 指肪肝 胆石 便秘 下痢 ‑ 1 2 4 ••.•••••••••••••••• アンケート項目 耐 糖原病 糖障 心筋梗塞 能書 狭心症 脳血栓 0 . 8 1 5 9 2 0 標 準 化 し た 全 Alpha係 数
表 5 各群における生活習慣の実践状況 実践状況(%) (うち保鍵指導後の実践状況(%)) 生活習↑買に関する項目 非改善 耐糖能 改善群 対照群 群 障害群 45.5 53.3 16.7 45.5 早食いをしない 5 0 . 0 ) ( 2 4 . 0 ) ( 6 0 . 0 ) ( 0 . 0 ) ( 100.0 73.3 75.0 8 2 . 1 朝食を必ずとる 2 7 . 3 ) ( ( 3 6. 4 ) ( 4 ) 1 1 . 1) ( 1 0. 4 0 . 0 3 6 . 4 50.0 51.8 決 す る まった時聞に食事を ( 2 5 . 0 ) ( 3 3 . 3 ) ( 2 0 . 0 ) ( 2 4 . 1 ) 50.0 72.7 60.0 58.3 * 腹八分目に食べている 5 5 . 6 ) ( 1 4 . 3 ) ( ( 8 7 . 5 ) ( 2 8 . 6 )1 81.8 78.6 41.7 69.6 野菜を摂る ( 6 6 . 6 ) ( 4 5 . 5 ) ( 2 0 . 0 ) ( 3 3 . 3 ) 72.7 60.0 58.3 53.6 外食をひかえる 3 3 . 3 ) ( 3 6 . 7 ) ( 5 0 . 0 ) ( 0 . 0 ) ( 16.7 44.6 72.7 53.3 味付けを薄くしている 5 0 . 0 ) ( ( 6 2 . 5 ) ( 0 . 0 ) ( 5 2 . 0 ) 8 6 . 7 5 4 . 6 5 6 . 4 8 1 . 8 * (88.9) (69.2) (0.0) (45.2) 甘い物をひかえる 4 ※ 81.8 78.6 41.7 46. なるべく歩く * 1(100.0) (72.7) (40.0) (34.6) 27.3 78.6 50.0 44.6 スポーツをする 0 . 3 ) ※ ( 6 6 . 7 ) ( 5 4 . 5 ) ( 1 6 . 7 ) ( 81.8 53.3 41.7 41.7 酒をひかえる 5 0 . 0 ) ( 4 3 . 5 ) ( 6 6 . 7 ) ( 2 0 . 0 ) ( 27.3 20.0 66.7 50.0 煙草を減らすか止めた ※ ( 0 . 0 ) ( 2 6 . 3 ) 3 3 . 3 ) ( 2 5 . 0 ) ( 注)※: r 実践群 J r 非実践群」で改善状況に有意差の貝られた項目 ( p < O . 0 5 ) *: r 生来実践群 J r 保健指導後実践群 J r 非実践群 Jで改善状況に有意差の p < O . 0 5 ) 見られた項目 ( 表 6 糖尿病 3大合併症を知っている人の割合(%) 眼合併症 末梢神経障害女 腎障害 改善群 非改善群 耐糟能 障害群 対照群 100.0 72.7 25.0 100.0 40.6 46.7 72.7 33.3 36. 4 83.9 40.0 4 1 . 1 」 一 表 7 糖尿病後の予後について知っている人の割合(%) 改善群 非改善群 耐棺能 対照群 障害群 91.7 98.2 糖尿病で失明することがあるのを知ってますか。 100.0 100.0 日本での成人の失明原因の第一位は糟原病性網 膜症であることを知っていますか。 53.3 54.6 33.3 28.6 53.3 54.6 8 . 3 25.0 93.3 100.0 66.7 69.6 糖尿病を放置するとおよそ 5年で神経障害、 10年 で網膜症、 15年で腎不全になることを知ってい ますか。 血糖値をコントロールすることで、これらの合 併症を防ぐことができることを知っていますか。 1 2 5一
図 1 精度管理における妥当性の検討 ‑林の数量化三類による解析一 r 4 DIMENSION2 .BLO 3 2 .BH1 ‑ BG1 B01 BA1 .B11 ロ1/1 三」ヱー… ・ 1 ・ 0 . 2 LVe .JI 0. 4 BHO 0 . 5 BC1 ・ ・ B F O̲ D ・ ・ BCO BBO IMENSION1 BD0. 0 . 2 F1 BJ1 BE1 お ロ ‑ o l f 1円 . .空;:♂ ‑ ・ ω ・ 2団連続回答者 ( 1 9 9 7年 5月20日6 1名 .RFn̲ B~O a: ô 己.lJ~ … BKO 0 . 8 27日60名)は 56名 図 2 各群における生活習慣の得点分布 。 20 40 60 80 改善 非改善 耐糖能 障害群 対照群 0 ‑ 4点 圏 5 ‑ 6点 図 7 ‑ 8点 .9‑12 点 1 2 6一 100% 1
図 3 知識の情報源と血糖値改善状況 。 20 40 60 80 100% センター 本・雑誌 テレビ 知人 家族 図 改 善 群 固 非 改 善 群 図 耐 糖 能 障 害 群 E対照群 図 4 保健指導による生活習慣改善と 血糖改善のモデル 知識↑ │身体活動量│ユ争│血 保健指導 * I BMI r ‑ = ‑ 争 │ 糖 J栄 養 │ ふ 1 ; ‑病気の知識 ・生活指導 生活習慣 I t 改善 1 2 7 I 善
日本 S A Sユーザー会 (SUG I‑J) linear logistic regression m o d e l L こ:F3 ,ナ ξう smoothing交 力 主 畏 の オ 貧 言 寸 0昭 俊 彦 . 、 浅 尾 啓 子 ¥ 豊 島 裕 子 ¥ 清 水 英 佑 . 、 新 村 異 人 2・、大塚藤男 3・、高木贋文 4、 ・ 稲 葉 裕 5・、玉腰暁子 r、 川 村 孝 6・、大野良之 6・、柳修平 7・ 膚科 ;慈恵医大環境保健¥慈恵医大皮 : 2筑 波 大 皮 膚 科 〈 統 計 数 理 研 究 所 〈 順 天 堂 大 衛 生 " 名 大 予 防 医 学 6 ソ1崎 医 療 福 祉 大 戸 Ane x a m i n a t i o no fs m o o t h i n ge f f e c t si nl i n e a rl o g i s t i cr e g r e s s i o nmode . I A g a t aT ' AsaoK ',ToshimaH',S h i m i z uH ',N i i m u r aM",O t s u k aF ",T a k a g iH ' .,I n a b ay ",TamakoshiAぺ ヲ KawamuraT "、 Onoγ" Ryu S "; , J i k e iUniv ・ " , TsukubaU n i v ", S t a t i s t i cM a t h e m a t i c a lI n s t i t u t e ' ・ ? J u n t e n d oU n i v ", NagoyaU n i v ", KawasakiUnivo fM e d i c a la n dWeI f a r e " 要旨 疾患A の患者の社会生活困難群は可能群に比べ、各種年齢は高く、疫学特性に関しては 不良のものが多く、臨床症状は重篤であった。 多 重 ロ ジ ス テ ィ ッ ク モ デ ル で は 、 性 、 年 齢 、 カ 7ェ・オ・レ斑、皮膚神経線維腫:全身、知能 低下が日常生活を規定する重要要因と示唆された。 年 齢 の 刻 み (1 , 5, 1 0, 2 0歳)別に 2 Logl i k e l i h o o dフ AIC(地a i k eI n f o r m a t i o nC r i t e 巾 n ), SC (Schw 副 zC r i t e r i o n )を 判 断 指 標 と し て 、 モ デ ル へ の 適 合 性 を 検 討 す る と 、 合 が 最 も AIC, SC ← 2 Logl i k eI ihoodが小さく、次いで、 1 0歳刻み、 2 0歳 刻 み の 場 5歳刻み、 1歳刻 ! 買であり s m o o t h i n g効 果 は 見 ら れ な か っ た 。 他 の 変 数 と の 関 連 を 検 討 す る 必 要 が あ る c み のI キーワード s m o o t h i n ge f f e c t ヲIin e a rl o g i s t i cr e g r e s s i o nmodel s t e p w i s e, AIC, SC, ‑ 2 L o gl i k e l i h o o d ラ 1. 目 的 : 生物は特定の時聞が経過すると故障し(病気になり)いずれは死に至る。特定の手術を 行った患者の予後や、治療法の効果を調べる場合、患者を長期にわたり追跡し、その後の 変化(死亡、重症化)について分析する必要性が生じる場合がある。寿命モデルと呼ばれ、 時間経過による個体の生死の状況などと各種要因との閣連を解析をする方法は生命表解析 として知られている。寿命モデノレとしてはその生存時間関数として指数分布、ワイプル分 布、ガンマ分布などを仮定する場合が多い。しかし、そのような分布の制約を設けずに各 種要因の寿命に対する影響を検討するための有用なモデルとして多重ロジスティックモデ ルと C 0 X の 比 例 ハ ザ ー ド モ デ ル が あ る 。 ここでは、時間軸を考慮、しなくてよい多重ロジスティックモデルを考える。多重ロジス ティックモデ、ノレ医学や疫学研究において、特定の疾患、状態に対する変数のリスクを解析 するために導入されたモデノレである。 事 象 の 発 生 す る 確 率 を p、 発 生 し な い 確 率 を l ‑ pとすると、その比はオッズ o d d s とよば 1 2 9ー
れ、その対数をとったものは対数オッズ l o g o d d sと 呼 ば れ る 。 あ る 疾 患 ( 病 態 ) の 発 生 と 変数 x とに関係がある場合、想定できるモデルは種々あるが、疾患(病態)の発生率 pの 対 数 オ ッ ズ と 変 数 xに線形関係があれば、 l o g( p / ( l‑ p ) ) =sx +α の 関 係 が 成 立 す る 。 こ の H は回帰係数であり、ゆ=exp (自)はオッズ比で、その 9 5 %信 頼 区 間 は ゆ . e x p (士1.96・SE (戸)) で 与 え ら れ 、 多 変 量 解 析 に つ い て も 同 様 で あ る 日 3) ま た 、 医 療 関 係 デ ー タ は 独 立 変 数 の 部 分 ( 臨 床 症 状 、 疫 学 特 性 な ど ) は 2 ‑ 5段 階 に 区 分 さ れ る こ と が 多 い 。 一 方 疫 学 特 性 の 1つ で あ る 年 齢 は 、 発 症 ・ 初 診 ・ 調 査 時 年 齢 な ど と 独 立 変 数 と し て 利 用 さ れ る こ と が 多 い が 、 そ の 幅 は 0 ‑ 9 0歳 程 度 と か な り 幅 広 い も の と な る 。 そ こ で 今 回 は 年 齢 を 他 の 臨 床 症 状 ・ 疫 学 特 性 と 同 様 5 段 階 (2 0 歳 刻 み ) デ し て 検 討 し た 。 更 に 8 2段 階 (1歳)刻み、 タと 1 7段 階 (5歳刻み)、 9段 階 (1 0歳 刻 み ) についても検討し、その s m o o t h i n g効 果 を 考 察 し た の で 報 告 す る 。 I I . 方法: 多 重 ロ ジ ス テ ィ ッ ク モ デ ル は S A Sにおいては、百四 LOGISTIC p r o c e d u r eで 利 用 可 能 で あ r o c e d u r eは最尤法により、 る 。 TheLOGISTIC p し 、 2値 あ る い は 順 序 尺 度 の デ タを独立変数に 2値 ( 例 え ば 、 死 亡 = 1、 生 存 =2) しかとらない従属変数について、 l i n e a r l o g i s t i c r e g r e s s i o n modelを 適 合 さ せ た 方 法 で あ る c A DL (日常生活動作)は Q O Lの 構 成 要 素 は 4項目(日常生活動作、社会との関連度、 精 神 的 快 適 感 、 霊 的 ・ 美 的 満 足 感 ) の 1つ で あ る と さ れ て い る 。 今 回 は こ の A DL (日常 生活動作)について、疫学特性(患者特性)、臨床症状との関連を検討した。その際、年 齢は他の疫学特性・臨床症状と同様、 1歳 、 5歳 、 5段 階 (2 0 歳 刻 み ) デ タとして検討した。更に 1 0歳 刻 み に つ い て も 検 討 し 、 そ の 効 果 を 考 察 し た の で 報 告 す る 。 資 料 は 全 国 疫 学 調 査 で の 疾 患 A の 把 握 患 者 (1 6 0 0名 ) の 疫 学 特 性 、 臨 床 症 状 で あ る 。 そのうち、日常生活(社会生活が可能、困難とし、その他・不明はのぞく)を取り上げ、 その結果と、疫学特性(性、年齢、家族歴など)、臨床症状との関連を検討したこさらに は、関連の深い項目に関しては日常生活との関連について、多変量解析(多重ロジスティ ックモデル、ステップワイズ法)を用い、どの要因が日常生活を規定しているかを検討し た。その際、年齢はし 5, 1 0, 2 0歳 刻 み の 4 と う り と し て 検 討 し た 4つ の モ デ ル の 適 合 性 は 、 ‑2 Logl i k e l i h o o d,AIC(Ak a i k eI n f o r m a t i o nC r i t e r i o n ) ' ,> SC(SchwartzC r i t e r i o n )により 判断した。 i s h e rの 直 接 確 率 法 を 、 連 続 量 の 2群 の 比 較 統 計 的 検 定 は 、 頻 度 の 検 定 に は χ 2 検定、 F には t検 定 を 用 い 刷 、 プ ロ グ ラ ム パ ッ ケ ー ジ は SAS6. l1を 用 い た 5)。 i l l . 結果: 1. 疫 学 特 性 、 臨 床 症 状 と A DL (日常生活動作)の関連 5 . 3 日常生活と各種年齢については、調査時年齢は、社会生活可能群の平均±標準備差は 2 歳 : : ! : :1 8 . 0歳 ( n = 1 2 3 4 )で 、 社 会 生 活 困 難 群 で は 4 0 . 7歳 : : ! : : 21 .0歳 ( n = 1 1 7 )で あ っ た っ 同 様 に 発 症 1 3 0一
年齢は 7 . 5: : t1 2 . 1 (8 2 3 )と 1 4 . 3: : t1 6 . 6 (8 0 )、 初 診 年 齢 は 2 0 . 4: : t1 8 . 3( 11 6 1 )と 3 3 . 9: + : 22. 4 ( 11 1 )、 0 . 0: : t1 8 . 5 (9 9 8 )と 3 2 . 0: : t2 2 . 1 (9 8 )と い ず れ も 、 社 会 生 活 困 難 群 で 、 高 い 年 齢 を 診断年齢は 2 示した。(pく 0 0 1 ) 虹彩小結節確認年齢はi 列数が少ないこともあり、 2群 の 差 は み ら れ な かった。 社会生活困難群は、性別では男が多く、結婚歴では既婚・離別が多く、子供ありの割合 . 0 5 )。 ま た 、 初 診 医 療 機 関 は 貴 施 設 が 少 な く 、 初 診 時 主 訴 は 中 枢 神 経 系 症 状 が が高い(pく 0 pく0 . 0 0 1 )。 多かった ( 社会生活困難群は診断根拠では、多発性神経線維腫が多く、診断は確実が多かった . 0 5 )。 治 療 費 公 費 負 担 で は あ り が 多 く 、 受 療 状 況 で は 、 入 院 、 転 院 、 死 亡 な ど が 多 く 、 ( p く0 . 0 1 )。 経過は悪化、死亡が多かった(pく 0 皮 膚 症 状 に つ い て は 社 会 生 活 困 難 群 は 、 カ 7ェイ・レ斑はなしと 1 1個 以 上 が 多 く 、 皮 膚 の 神経線維腫(全身、顔面とも)は多数一無数が多く、皮膚の神経線維腫が整容上問題かで p く0 . 0 5 )。 ま た 、 調 漫 性 神 経 線 維 腫 、 調 漫 性 神 経 線 維 腫 に よ る 腫 は中等度、大きいが多い ( . 0 5 )。 蕩 内 出 血 、 悪 性 神 経 鞘 腫 、 悪 性 神 経 鞘 腫 の 治 療 は い ず れ も あ り が 多 か っ た ( p く0 中枢神経症状については社会生活困難群は、産量挙および脳または脊髄腫湯はありが、知 能 低 下 で は 中 等 度 高 度 が 、 脳 波 お よ び CTま た は MRI検 査 で は 異 常 あ り が 、 脳 ま た は 脊 髄 . 0 0 1 )。 腫 湯 の 治 療 結 果 で は 部 分 的 治 癒 、 悪 化 、 死 亡 が 多 か っ た ( p く0 整形外科的症状については社会生活困難群は、長管骨変形、脊柱変形、脊髄腫場、神経 . 0 5 )。 症 状 と も あ り が 多 く 、 神 経 症 状 の 内 容 で は 時 抗 ・ 直 腸 障 害 が 多 か っ た ( p く0 日常生活(社会生活可能 困難)の違いにより差のなかった項目は、家族歴、小川クリング ハ ウ γ ン斑、カ 7ェ・オ・レ斑・小川川ンゲハウ γ ン 斑 が 整 容 上 問 題 か 、 調 漫 性 神 経 線 維 種 に よ る 機 能 障 害、捕漫性神経線維種の治療、脳または脊髄腫蕩の治療、脳または脊髄腫蕩の治療内容、 下 腿 偽 関 節 合 併 、 脊 柱 変 形 の TYPE、 脊 柱 変 形 :50 度 以 上 の 側 管 ・ 後 轡 、 虹 彩 小 結 節 で あ った。 2. 多 重 ロ ジ ス テ ィ ッ ク モ デ ル で の 結 果 と s m o o t h i n g効 果 に つ い て 多重ロジスティックモデルによる検討結果を表 1~4 に示す。年齢の刻み( 1, 5 , 1 0, 2 0歳 ) を 変 え て も 、 ス テ ッ プ ワ イ ズ 法 で 取 り 込 ま れ る 変 数 は 性 、 カ 7ェ・オ・レ斑、年齢、 皮 膚 神 経 線 維 腫 : 全 身 、 知 能 低 下 の 5つ で あ っ た 。 以 下 に 詳 細 を 示 す 。 1 )年 齢 を 1歳 刻 み と し た 場 合 ( 表 1) 日常生活(社会生活)関連因子の検討結果では、性(1.男、 2女) (オッズ比 : 0 . 2 1 9 79 5 ラ % C 1 :0 . 0 7 4 1‑ 0 . 6 5 0 9 ) と抑ェ・オ・レ斑 (オッズ比 : 0 . 5 3 4 0,9 5% C 1 :0 . 3 1 9 0‑ 0 . 8 9 4 1 )は .0123 ‑ 1 .0758)、 皮 膚 神 経 リスクを下げる作用をし、年齢(オッズ比:1.0436 9 5% C 1 :1 ラ 2. 4756,9 5% C 1 :1 . 1263 ‑ 5. 44 1 3 )、 知 能 低 下 ( オ ッ ズ 比 : 5 . 3 7 6 8 . 線維腫:全身(オッズ比 : 9 5 % C 1 :3 . 0 2 8 9‑ 9 . 5 4 4 7 ) は リ ス ク を あ げ る 方 向 に 働 い て い る c また、 AIC(Aka i k e I n f o n n a t i o nC r i t e r i o n ) = 1 4 0 . 0, SC(S c h w a r t zC r i t e r i o n ) = 1 6 4 . 3, ‑ 2 Logl i k e i Ihood=128.0であった。 2 )年 齢 を 5歳 刻 み と し た 場 合 ( 表 2) 日常生活(社会生活)関連因子の検討結果では、性(1.男、 2 .女) (オッズ比 : 0 . 2 2 1 1 ‑131一 95
% C 1 :0 . 0 7 4 7‑ 0 . 6 5 4 3) と カ 7:r.'オ・レ斑(オッズ比 : 0 . 5 3 8 3 9 5% C 1 :0 . 3 2 1 6‑0 . 9 0 1 0) は リ ス ク を 下 げ る 作 用 を し 、 年 齢 ( オ ッ ズ 比 1 .0 4 4 3 9 5% C 1 :1 .0130 ‑ 1 .0764 )、皮膚 神経線維腫:全身(オッズ比 : 2. 4915 ,9 5% C 1 :1 . 1382 ‑ 5. 4537 ) 、 知 能 低 下 ( オ ッ ズ 比 : 5 . 4 4 0 6 , 9 5% C 1 :3 . 0 5 1 1 ‑ 9 . 7 0 1 6 )はリスクをあげる方向に働いている。また、 AlC ( Aka i k eI n f o r m a t i o nC r i t e r i o n ) = I 3 9 . 8, S C ( S c h w a r t zC r i t e r i o n ) = 1 6 4 . 1, ‑ 2 Logl i k e l i h o o d = 1 2 7 . 8で あった。 表 1. 多 重 ロ ジ ス テ ィ ッ ク モ デ ル に よ る 日 常 生 活 関 連 因 子 の 検 討 結 果 l 表 2 . 多重ロジスティックモデルによる日常生活関連因子の検討結果 2 AIC=139.8 SC=I64.1 ‑ 2LOGL=127.8 3 )年 齢 を 1 0歳 刻 み と し た 場 合 ( 表 3) 日常生活(社会生活)関連因子の検討結果では、性(1.男、 2 .女) (オッズ比 : 0 . 2 1 4 0 ヲ 95 % C 1 :0 . 0 7 1 9‑ 0 . 6 3 6 3) と カ 7ェ・オ・レ斑 (オッズ比 : 0. 5458.9 5% C 1 :0. 3260 ‑ 0 . 9 1 3 8) はリスクを下げる作用をし、年齢(オッズ比:1.0 4 6 1 、9 5% C 1 :1 .0150 ‑ 1 .0 7 8 1 )、皮膚 神経線維腫:全身(オッズ比 : 2. 4017 ,9 5% C 1 :1 .0 9 0 5‑5 . 2 8 9 3 )、知能低下(オッズ比 : 5. 4887 ,9 5 % C 1 :3 . 0 6 1 8 ‑ 9 . 8 3 9 3 )はリスクをあげる方向に働いている。また、 ( A k a i k eI n f o r m a t i o nC r i t e r i o n ) = 1 3 8 . 6, S C ( S c h w a r t zC r i t e r i o n ) = 1 6 3 . 2, ‑ 2 Log1 i k e 1 i h o o d = 1 2 6 . 9で AlC 4Eム n4 qU あった。
4 )年 齢 を 2 0歳 刻 み と し た 場 合 ( 表 4) 日常生活(社会生活)関連因子の検討結果では、性(1.男、 2 .女) (オッズ比 0 . 2 2 2 6 ,9 5 . 6 6 4 3) と カ 7ェ・オ・レ斑 (オッズ比 : 0 . 5 5 8 9 ,9 5% C 1 :0. 33 3 1 ~ 0 . 9 3 7 7) % C 1 :0 . 0 7 4 6~ 0 .0178 ~ 1 .0799)、 皮 膚 はリスクを下げる作用をし、年齢(オッズ比:1.0 4 8 4 ,9 5 % C 1 :1 46 5 2, 9 5% C 1 :1 . 1286 ~ 5. 3846 ) 、 知 能 低 下 ( オ ッ ズ 比 神 経 線 維 腫 : 全 身 ( オ ッ ズ 比 2. . 0 4 3 0~ 9 . 8 3 2 8)はリスクをあげる方向に働いている。また、 AIC ( A l 叩ke : 5 . 4 7 0 1 9 5% C 1 :3 ラ , 5 . SC(SchwartzC r i t e r i o n ) = 1 61 .8, ~ 2 Logl i k巴l i h o o d = 1 2 5 . 5であった。 l n f o r m a t i o nC r i t e r i o n ) = 1 3 7 . 多重ロジスティックモデルによる日常生活関連因子の検討結果 3 表 3 AIC=138.9 SC=163.2 ‑ 2LOGL=126.9 表4 . 多重ロジスティックモデルによる日常生活関連因子の検討結果 4 AIC=137.5 SC=161 .8 ‑ 2LOGL = 1 2 5 . 5 この結果を見て行くと、 AIC(Aka i k 巴 I n f o r m a t i o nC r i t e r i o n ), SC(S c h w a r t zC r i t e r i o n ) =, ~ 2 Log 巴l i h o o dの い ず れ を 見 て も 、 年 齢 の 刻 み (1, 5, 1 0, 2 0歳 ) が 大 き く な る に つ れ て 、 l i k わずかずつではあるが値が減少してくることがわかる。 唱 ハ ペu n︿U 'A
N. 考 察 : 1. 疫 学 特 性 、 臨 床 症 状 と A DL (日常生活)の関連 疾 患 Aに 関 す る 研 究 は 今 ま で 、 数 多 く 行 わ れ て き て い る の が 、 ADL.QOLに 関 す 2 7 ) る研究はほとんどみられていない。調査時・発症・初診年齢とも社会生活困難群に高くな っ て い る が 、 発 症 年 齢 の 差 (7歳 ) に 比 べ 、 調 査 時 年 齢 、 初 診 年 齢 の 差 (1 5歳、 14歳) が 大 き く な っ て お り 、 思 春 期 以 降 は 症 状 が 目 立 つ よ う に な る 28),29)が、発症に気づいても、 治療を始めるのが遅いと社会生活困難群になって行く可能性が高いことを示唆している。 社会生活困難群に初診医療機闘が他施設が多いのは、他機聞からの紹介で、専門施設に 困難群の患者が集積して行くためであろう。 社会生活困難群では、診断の確実が多く、多くの臨床症状も重症傾向を示していたが、 重症故、日常生活にも支障が出てくるのであろう。 2. 多 重 ロ ジ ス テ ィ ッ ク モ デ ル で の 結 果 と s m o o t h i n g効 果 に つ い て 多くの臨床症状に、 2群 で 差 が み ら れ た に も か か わ ら ず 、 多 重 ロ ジ ス テ ィ ッ ク モ デ ル の 解 析 結 果 で は 、 重 要 な 要 因 は 5 つ で あ っ た 。 性 別 で は 男 、 カ 7ェ・オ・レ斑は少なく、年齢は高 く、皮膚神経線維腫:全身は重症で、知能低下は重篤な患者が生活困難群に入る可能性が 高いことを示唆している。カ 7 ェイ・レ斑は、『なし』と~ 1 1個 以 上 』 が 困 難 群 に 多 い と い う他の症状とは異なったパターンを示すために有意な因子として取り込まれた可能性が高 い。また、力 7ェ・オ・レ斑は幼児・学童期には多くみられるが、青年期には症状が喪失する事 が多いために、年齢という要素を考慮すると他の臨床症状とは異なった傾向を示すのであ ろう。 m o o t h i n g効果については、 AIC(Aka i k eI n f o r m a t i o nC r i t e r i o n )、 SC (S c h w a r t zC r i t e r i o n ), また、 s 2 Log l i k e l i h o o dの い ず れ を 見 て も 、 年 齢 の 刻 み ( し 5, 1 0, 2 0歳 ) が 大 き く な る Akaike I n f o m l a t i o nC r i t e r i o n )は に つ れ て 、 わ ず か ず つ で は あ る が 値 が 減 少 し て く る 。 AIC( えられたデ 与 タ に よ る そ の モ デ ル の 最 大 尤 度 を L、 モ デ ル の 中 で 自 由 に 変 化 で き る パ ラ メ タ数を M とすると、 AIC=之 logL+2M の 形 で 表 さ れ る 。 こ の AIC が 低 い ほ ど よ い モ デ ル と 評 価 さ れ る 。 一 般 に は 最 大 尤 度 が 大 き い ほ ど よ い モ デ ノ レ と 評 価 さ れ る が AIC は パ ラ メ タ の 数の項を含むためパラメタの数が少ないモデルがより良いという評、価基準を加えたものの で あ る 。 今 回 は 4つ の モ デ ル と も 5変 数 が モ デ ル に 含 ま れ 、 定 数 項 も 考 慮 す る と 、 当 然 で あるが 2 Log l i k e l i h o o d = A I C+1 2 となっている。また、 SC (S c h w a r t zC r i t 巴r i o n )も N を対象 標本数とすると、 SC (S c h w a r t zC r i t e r i o n ) = ・ 2LOG L+M九 OG N で 表 さ れ る つ よ っ て 、 今 回 は 対 象 標 本 数 は ど の モ デ ル で も 同 ー な の で 、 SC=AIC+24.3の 関 係 が 成 り 立 っ て く る 。 ゆ え に 、 AIC(Aka i k eI n f o r m a t i o nC r i t e r i o n ), SC (S c h w a r t zC r i t 巴r i o n ), ‑ 2 Log l i k e l i h o o dの ど の 評 価 基 準 を 使っても同ーの傾向が見られるのである。年齢を小刻みにした場合よりも大きな刻みにし た 方 が AIC等が小さくなり、 s m o o t h i n g効 果 は 見 ら れ て い な い 。 他 の 変 数 が 2‑ 5段 階 の 刻みであるので、年齢のみ細かい刻みにしても十分な効果が反映されないことも考えられ るが、詳細については更に検討して行く必要があろう。 凋 唱 ' ム 司 τ ιU
v. 結 論 : 1. 社 会 生 活 困 難 群 は 可 能 群 に 比 べ 、 各 種 年 齢 は 高 く 、 疫 学 情 報 に 関 し て は 不 良 の も の が 多く、臨床症状は重篤であった。 2. 多 重 ロ ジ ス テ ィ ッ ク モ デ ル で は 、 性 、 年 齢 、 力 7工・オ・レ斑、皮膚神経線維腫:全身、知 能低下が日常生活を規定する重要要因と示唆された。 3. 年 齢 の s m o o t h i n g効 果 は 見 ら れ な か っ た む 文献 1 )高 木 慶 文 HALBAU‑4マ ニ ュ ア ル 皿 多 変 量 解 析 編 、 現 代 数 学 社 、 京 都 、 1994, 1 0 2 ‑ 1 1 3 . 9 9 71 5 2 ‑ 1 6 0 2 )牒 俊 彦 基 本 医 学 統 計 学 、 中 外 医 学 社 、 東 京 、 1 ラ 9 9 4, 22・ 36, 1 4 8・ 1 4 9 . 3 )豚 俊 彦 や さ し い 保 健 統 計 学 、 南 江 堂 、 東 京 、 1 4 )坂 本 慶 行 他 . 情 報 量 統 計 学 、 共 立 出 服 、 東 京 、 1983, 4 2 ‑ 6 4 USA1 9 9 6,1 0 7 1 ‑ 1 1 2 6 . 5)SAS/STATU s e r ' sGuideV e r s i o n6 .SASI n s t i t u t e,NC, 6 )高 木 慶 文 他.レックリングハウゼン病と結節性硬化症の全国受診患者数推定について。 5・ 1 9, 1 9 8 7 . 厚 生 省 神 経 皮 膚 症 候 群 調 査 研 究 班 昭 和 6 1年度研究業績、 1 7 )高 木 慶 文 他.レックリング、ハウゼン病と結節性硬化症二次調査の重複率と全国患者数。 厚 生 省 神 経 皮 膚 症 候 群 調 査 研 究 班 昭 和 6 2年度研究業績、 1 1・ 1 5, 1 9 8 8 . B訂 akY MetzkerA J u v e n i l e xanthogranuloma,n e u r o f i b r o m a t o s i s,andj u v e n i l ec h r o n i c 8 ) Z v u l u n o v A, ヲ myelogenousl e u k e m i a .Worlds t a t i s t i c a la n a l y s i s . A r c h i v 百 o fDermatology1 9 9 5 ; 1 3 1・9 0 4 ‑ 8 9 ) S h i r ホ awaT,e ta L Comparisono fi n s e r t i o nr a t eo fLl r e 廿o posoni n t oi n t r o n30o ft h en e u r o f i b r o m a t o s i s t y p e1genei ns e v e nAsianandP a c i f i c p o p u l a t i o n s .J a p a n e s eJ o u r n a lo fHumanG e n e t i c s1 9 9 6 ; 4 1: 2 0 9 ‑ 1 4 1 0 )将 俊彦 他 レツクリングハウゼン病と結節性硬化症の疫学研究の現状ご写生省神経 ・ 1 4, 1 9 9 4 皮 膚 症 候 群 調 査 研 究 班 平 成 5年度研究報告書、 8 1 1 )将 俊彦 他 . 神 経 皮 膚 症 候 群 全 国 疫 学 調 査 ・ 第 1次 調 中間報告 c 厚生省神経 皮 膚 症 候 群 調 査 研 究 班 平 成 6年度研究報告書、 5 ‑ 9. 19 9 5 . 1 2 )将 俊彦 他神経皮膚症候群の家系内発症に関する研究。 厚生省神経皮膚症候群調 ‑ 1 0, 1 9 9 6 . 査 研 究 班 平 成 6年度研究報告書、 5 e i b e r gA N e u r o f i b r o m a t o s i st y p e1i nNorway.A c 1i n i c a lp r e v a l e n c es t u d yb a s e donas m a l l 1 3 ) B j l r n s t a dA,H p r o j e c . tT i d s s k r i 白f o rDenNorskeL a e g e f o r e n i n g1 9 9 6 ; 1 1 6 : 3 1 0 8・1 0 . LC h a r a c t e r i z a t i o no fs i xm u t a t i o n si n exon 37 o fn e u r o f i b r o m a t o s i st y p e 1gene 14)Upadhyaya Mラ 巴 ta Ame r i c a nJ o u r n a lo fM e d i c a lGen巴t i c s .19966 7 : 4 2 1 ‑ 3 . 司 1 5 )将 俊 彦 , 他 . 非 回 答 集 団 を 考 慮 し た N F 1の 有 病 率 推 計 . 厚 生 省 特 定 疾 患 合組織疾患調査研究班 神経皮膚症候群分科会 皮膚・結 平 成 8年 度 研 究 報 告 書 、 1 9 9 7 ; 8・ 1 2 1 6 ) M a s i p MJ,e ta l .L a r y n g e a Ii n v o l v e m e n ti np e d i a t r i cn e u r o f i b r o m a t o s i s : ac a s er e p o r tand r e v i e wo ft h巴 l i t e r a t u r e .P e d i a t r i cR a d i o l o g y1 9 9 6 ; 2 6 : 4 8 8 ‑ 9 2 . 1 7 ) Yang P,e ta LA s s o c i a t i o no fc h i l d h o o d rhabdomyosarcoma w i t h n巴u r o f i b r o m a t o s i st y p巴 1and b i r t h 12:467‑74 d e f e c t s .G e n e t i cEpidemiology1995: 吋﹄ム RU nd
1 8 ) T c h a n g a i ‑ W a l l aK e ta l . V o nR e c k l i n g h a u s e nn e u r o f i b r o m a t o s i si n Lome,T o g o . Medecine T r o p i c a l e 5 : 1 8 5 ‑ 6 . 1 9 9 55 ta l .C o g n i t i v ef u n c t i o na n da c a d e m i cp e r f o n n a n c ei nc h i l d r e nw i t hn e u r o f i b r o m a t o s i st y p e1 1 9 ) N o r t h凡 e h i l dN e u r o l o g y1 9 9 5 ; 3 7 : 4 2 7 ‑ 3 6 . D e v e l o p m e n t a lM e d i c i n e& C ta l .N e u r o f i b r o m a t o s i st y p e1(N F I )i nI s r a e l if a m i l i e s :l i n k a g ea n a 1 y s i sa sad i a g n o s t i ct o o l 2 0 ) E l y a k i mS,e Ame r i c a nJoumalo fM e d i c a lG e n e t i c s1 9 9 4 ; 5 3 : 3 2 5 ‑ 3 4. yBZ,L a o rA,Danon YL .N e u r o f i b r o m a t o s i st y p e 1i nI s r a e 1 :s u r v e yo fyounga d u l t s . Joumal o f 21)G紅 t :8 5 3 ‑ 7 . M e d i c a 1G e n e t i c s1 9 9 4 ; 31 R e ta l . T y p e 1n e u r o f i b r o m a t o s i si nT u n i s i a :6 6c a s e s .A n n a l e sd eD e r m a t o l o g i ee td e 2 2 )G o u i d e r, : 18 5 ‑ 9 . V e n e r e o l o g i e1 9 9 4 ; 1 21 h e s s e l l s 九札 F i t c h e t t M. N e u r o f i b r o m a t o s i sa n dc h i l d h o o dl e u k a e m ia / l ymphoma: a 2 3 ) S t i l l e r CA, C a s e dUKCCSGs t u d y .B r i t i s hJ o u m a lo fC a n c e r1 9 9 4 ; 7 0 : 9 6 9 ‑ 7 2 . p o p u l a t iOlトb t a l . The c l i n i c o・i m m u n o l o g i c a l s u r v e i l l a n c eo fn e u r o f i b r o m a t o s i s . Minerva Medica 2 4 ) G e r o s a P, e 1 9 9 4 : 8 5 : 2 2 1 ‑ 9 ta . lF a m i l i a l pheochromocytoma a s s o c i a t e dw i t h von R e c k l i n g h a u s e n ' sd i s eぉ e .I nt e m a l 2 5 ) Ogawa T e ラ M e d i c i n e1 9 9 4 ; 3 3 :1 10‑ 4 ,e ta l .N e u r o f i b r o m a t o s i st y p e1a n dc h i 1 d h o o dc a n c er .C a n c e r1 9 9 3 ; 7 2 : 2 7 4 6 ‑ 5 4 . 2 6 )M a t s u i1 ,e ta . lN e u r o f i b r o m a t o s i st y p eo n ea n dWests y n d r o m e :ar e l a t i v e l yb e n i g na s s o c i a t i o n .E p i l e p s i a 27)Mo町 J 1 9 9 3; 3 4 : 7 2 3 ‑ 6 . e c k l i n g h a u z e n病 、 日 本 臨 床 : 5 0 :増刊・ 1 6 8・1 7 5, 1 9 9 2 . 2 8 )新 村 異 人 .R 1 9 0 : 2 1 0・2 1 1, 1 9 9 6 . 2 9 )新 村 異 人 神 経 皮 膚 症 候 群 、 か ら だ の 科 学 : 唱Eよ nhu ο η
日本 SASユーザー会 (SUGI‑J) 各種の実験デザインにおける PROCGLM,PROCMIXEDの利用 角元慶二 徳島研究所・情報資料室 大塚製薬株式会社 Ana p p l i c a t i o nf o rE x p e r i m e n t a lDesignsw i t hPROCGLMandPROCMIXED K e u iKakumoto I n f o r m a t i o n& DataP r o c e s s .o f f i c eTokushimaR e s .I n s t . OtsukaPharmaceuticalC o . . L t d . 要旨 咋年より、各種の分割実験および経時測定データの解析の手段として、これまで、使ってきた GLMフ。ロシジャに代わって、 MIXEDプロシジャの利用を検討してきた。そこで今回は、それ のマニュアル等を参考にしながら整理し、検定を行う ぞ、れのプロシジャの違いについて、 SAS こSAS フ。ログ、ラムを作成し比較した。さらに、用いたデザイ 上で、とやこが異なっているかを、実際 i フ プ ロシジヤを{使吏つてみたので ンに対して無作為割り付けを行う場合の方法として、 PLAN ρ したい。 フ。ロシジャ、 MIXED フ。ロシジャ、 PLAN プロシジャ キーワード: GLM 1.はじめに これまで、使っている GLM プロシジャは、ランダム(変量)効果を含む検定もできるが、モデル としては固定(母数)効果のモデ、ルで、あり、実際に私たちが取り扱っているデータのモデルを考 えた場合には、固定効果のモデルだけで、はなく、ランダム効果も含めたモデルで検定すべき場 ユーザー会等でも既に報告されているように、 合も少なくはない。しかしながら、これまで、の SAS MIXEDフ。ロシジャを使うことによって、固定効果だけではなくランダム効果も含んだ混合モデ ルを扱えるようになり、幅広い検定が行えるようになった。 特に、複数の誤差構造が扱え、誤差の非等分散性やいろいろな相関についてのモデ、ル解 析や、リリース・アッフ,01 こ伴なって自由度の調整も可能となったことから、これまで以上に正確な フ。ログラムを 検定ができるようになった。そこで今回、いくつかのデ、ザインに対して実際に SAS 用いて、 GLM フ。ロシジャと MIXED プロシジャの違いを整理したので紹介したい。 プロ また、用いたいくつかのデ、ザインに対して無作為劃り{寸けを行う場合の方法に、 PLAN シジャを使ってみたので、同様に紹介したい。 1 3 7
2 .混合モデルを用いると MIXEDプロシジャによる混合モデ、ノレは、次のように表される。 y X s + Zv 十 E この式は、 GLMフ。ロシジャで、用いた式に既知の計画行列 Zと未知のランタ守ム効果ベクトノレ v とが追加されており、固定効果日とランダム効果 vの両方が含まれていることから、混合モデル と呼ばれている。混合モデ、ノレで、は、 vとE とは平均が Oで、次のように仮定すると、 吋]~[~ ] ! yの分散共分散行列Vは次のように表される O ただし、 vと E とは無相関とする。 V ‑ ZGZ' + R 従って、計画行列 Zを設定し、 G と Rの相関構造を指定することによって、分散共分散行 列 Vに関するモデ、ノレ化を行うことがで、きる これまで、の GLMプロシジャで、は、日についての推 O 定を行うだ、けで、よかったが、混合モデ、ルで、は、 v,G,Rについても推定しなければならない。 MIXEDフ。ロシジャで、は、 vと E とは正規分布していると仮定して、次の 2つの尤度に基づいた 推定方法を用いている。 i k e l i h o o d ) ‑最尤法 (ML:MaximumL ・制約付最尤法 ( R E M L : R e s t r i c t e dMaximumL i k e l i h o o d ) なお、指定しない場合は、制約付最尤法により推定される。 特に、今回紹介するデザインの中で、これまでイ吏ってきた GLMフ。ロシジャと MIXEDプロシ ジャの使用を考えた場合に、次の点に注意する必要がある。 GLMプロシジャは、複数の誤差 が存在する線形推定量に対しては、高次の誤差しか使わないために、 • Contrasts Least Square 恥1eans i nearCombinations Estimates o fL の結果に影響を与えるとしづ問題があった。しかしながら、 MIXEDプロシジャにおいては、複 数の誤差が存在する線形推定量に対しても適切な誤差を合成し、さらに誤差の自由度の調整 ステートメントで、指定することで、適切に行うことができ についても、次のオフ。ションを MODEL る 。 DDFM SA TrERTHオフ ション o ( 旦enominator. Qegreeo f. E reedomw i t hM o d e l) このオフ。ションは、合成した誤差分散の自由度の調整に、 S a t t e r t h w a i t の近似式を使用する ものであり、上記にも示したように、このオプションを使用することによって、 CONTRAST,LS MEANS,ESTIMATE ステートメントにおける固定効果に対する検定を適切に行うためのも のである。 QU qべ υ
3 .使用したデザイン a .C o m p l e t e l yRandomizedDesign(CRD) CRDw i t h o u ts u b s a m p l i n g CRDw i t hs u b s a m p l i n g b .RandomizedCompleteB l o c kDesigns(RCBD) w i t h o u ts u b s a m p l i n g RCBDw i t hf i x e db l o c ke f f e c t s, RCBDw i t hf i x e db l o c ke f f e c t s, w i t hs u b s a m p l i n g RCBDw i t hrandomb l o c ke f f e c t s c .L a t i nS q u a r eD e s i g n s ( L S D ) S t a n d a r dL a t i nS q u a r e G r a e c oL a t i nS q u a r e d .S p l i t ‑ P l o tD e s i g n s ( S P D ) S t a n d a r dSPDw i t hw h o l e ‑ p l o tf a c t o ri naRCBD, r e p l i c a t i o nf i x e d S t a n d a r dSPDw i t hw h o l e ‑ p l o tf a c t o ri naRCBD, r e p l i c a t i o nrandom SPDw i t hw h o l e ‑ p l o tf a c t o ri naCRD SPDw i t hw h o l e ‑ p l o tf a c t o ri naGRBD e .S p l i t ‑ B l o c k ( S t r i p ‑ P l o t )D e s i g n s ( S B D ) S t a n d a r dSBD, r e p l i c a t i o n sf i x e d r e p l i c a t i o n srandom S t a n d a r dSBD, f .S p l i t ‑ S p l i t ‑ P l o tD e s i g n s g .R e p e a t e dM e a s u r e sD e s i g n s 4 .使用例 ここでは 3 .のデザインの中から、いくつかのものについて、実際にGLMフ。ロシジャに対して MIXEDブ。ロシジャを用いて検定する場合、どのようになるのかを対応づけて紹介する。ただし、 出力結果の見方については、これまでの SASユーザー会等で既に報告されている点は除い て、重要なオフ。ションについてコメントしたい。また、紹介するデザインに対して無作為割り付け を行う場合の方法については、 PLANフ。ロシジャを使ってみたので、同様に紹介する。なお、詳 細については当日紹介し、ここでは、一つの例について示しておく。 ( 1 )RandomizedCompleteB l o c kDesigns(RCBD) :RCBDw i t hf i x e db l o c ke f f e c t s, w i t h o u ts u b s a m p l i n g このデザインでは、固定効果だけを用いているので、両方のフ。ロシジャともに、 CLASSステ ートメントおよびMODEL ステートメントの記述は同じとなる。 [GLM] 恥1PLE ; PROC GL恥1DATA=SA CLASS TREATBLOCK ; 円叫d 1よ qU
MODELY = TREATBLOCK : RUN [M1XED] PROC M1XED DATA=SAMPLE ; CLASSTREATBLOCK : MODELY = TREATBLOCK ; RUN : RCBDw i t hr a n d o mb l o c ke f f e c t s このデザインでは、 BLOCKをランダム因子として用いており、両方のフ。ロシジャともに、 RA を指定する。ただし、 GLMプロシジャの中で、 RAND NDOMステートメントとして、 BLOCK OM ステートメントを用いた場合は、各因子における分散の期待値の構造を表示するだけな ので、ランダム因子である BLOCKの分散の推定値を求めたい場合には、手計算で求めな ければならないとしづ不便さがある。なお、 MODEL ステートメントの記述については、両方の プロシジャにおいて異なる点に注意する。また、 LSMEANSステートメントにより求めたTRE AT内の標準誤差についても、両方のプロシジャの聞で、異なる点に注意する (M1XEDプロシ ジャで、は、ランダム因子である BLOCK の分散も誤差に含めて標準誤差を計算する)。 [GLM] PROC GLM DATA=SAMPLE ; CLASSTREATBLOCK : MODELY = TREATBLOCK LSMEANSTREAT/ STDERRPD1FF ; RANDOM BLOCK RUN 下記の M1XEDプロシジャにおいては、 RANDOMステートメントを用いることによって、 2 . の中のモデルにあてはめた場合、 ZとGとが設定され、 ZはBLOCKに対する計画行列を表し、 GはBLOCKの分散成分を含む対角行列となる。なお、この場合の Rは σ21である。 [M1XED] PROC M1XED DATA=SAMPLE CLASSTREATBLOCK ; MODELY = TREAT LSMEANSTREAT / STDERRPD1FF ; RANDOM BLOCK ; RUN 1 4 0一
次に、 PLANプロシ、ジャについてであるが、階層型実験および要因実験の配置を構成し、 I りイ寸けを行うためのフ。口、ンジャで、ある o PLAN フ。ロシジャで、は、まず最初の因子に対 無作為害J する水準を指標づけして計画を生成する。次に、 1番目の要因の各水準に対して、 2番目の 要因の水準の選択が行われる。一般的に、与えられた要因に対して、その前の要因の水準 でできるすべての組み合わせに対して、その因子の水準が選択される。 なお、水準の選択には次の 3つの方法がある。 a .無作為抽出:各水準が無作為な順序で、選ばれる この場合の選択方法は、孔生NUNI関数で発生させた一様擬似乱数に基づいている b .順序選択 :水準の選択が実行されるたびに標準的順序が返される c .循環選択 :以前の選択を循環的に並べ替えて計算された選択が行われる また、 PLAN フ。ロシジャは、次のステートメントを指定する。 PROC PLANオフ。ション FACTORS 要求リスト/オプ、ンョン・ TREATMENTS 要求リスト/オプション; OUTPUT OUT=SASデータセット [DATAニ SASデータセット] [要因値セッティング J; 例えば、 4つの BLOCKについて、それぞ、れ 5つの処理を行う場合の完全無作為化実験を 考える。 SEED=数値には、要因水準を無作為に選択するために擬似乱数生成の初期値を 5 ‑ ‑ ‑ ‑ ‑ 7桁のいずれかの桁数の奇数で指定する。次に、 FACTORSステートメントで、計画の要 因を指定し計画を生成する。更に、 TREATMENTS ステートメントでは、作成する計画の処 理を指定する。また、 ORDERED オフ。ションを指定すると、整数 1,2,...,nの! J 頂i こ、要因 の水準や処理が選ばれる。なお、デ、フォノレトは RANDOMで、あり、無作為に選ぶことができ る 。 [PLANJ PROC PLAN SEED=12345 ; FACTORS BLOCK=4 CELLニ 5 TREATMENTSTREAT=5 ORDERED OUTPUT OUT=SAMPLE ; RUN ;QUIT ; 恥1PLE ;BYBLOCKCELL ;RUN PROC SORTDATA=SA PROC PRINT DAT A=SAMPLE ; RUN ; 上記プロシジャを実行した場合は、大きさが 5である各 BLOCK の中で、それぞれ 5つの処理 を無作為に行うための計画が作成される。 ‑ 1 4 1
5 .まとめ MIXEDプロシジャが提供されたことで、これまで以上に正確で、、厳密な解析結果を期待 することができるのは喜ばしいことである。しかしながら一方で、使い方によっては誤用の可能 性もあるとし、うことを考えておかなければならない。 例えば、 RANDOM ステートメントを用いて因子を指定する場合に、因子の指定の仕方に よって検定結果が左右され、また、経時データ解析を行う場合に、誤差の共分散構造を正し く指定する必要も生じてくる。とし、うように、ある程度の統計的な考え方・知識もこれまで、以上 に要求されるのも事実であり、今後ますます実験者と統計家の相互の協力の重要性を感じて おり、その道具としての SASのよりし、っそうの使いやすさを期待したい。 参考文献 • SASS y s t e mf o rMixedM o d e l s . L o t t e l l, R . C . :SASI n s t i t u t eI n c ., 1 9 9 6 Changesa n dE n h a n c e m e n t s, R e l e a s e6 . 1 1, : SASI n s t i tu t e, I n c ., 1 9 9 5 • SAS/STATS o f t w a r e, 'SAS/STATU s e r ' sG u i d e, V e r s i o n6, F o u r t hE d i t i o n, Volume2:SASI n s t i t u t e, I n c ., 1 9 8 9 .SAS/STATユーザーズガイド, R e l e a s e6 . 0 3E d i t i o n :SASI n s t i t u t e, I n c ., 1 9 9 2 • An o n ‑ l i n e a rm i x e d ‑ e f f e c t sm o d e lt op r e d i c tc u m u l a t i v eb o l ev o l u m eo fs t a n d i n gt r e e s, G r e g o i r eTG: J o u r n a lo fA p p l i e dS t a t i s t i c s, 2 3 ( 2, 3 ), 2 5 7 ‑各種の分割実験および経時測定データの解析,高橋行雄 :SASユーザー会論文集, 1996,263 ‑パージョン 6PLANプロシジャによる実験計画の無作為化,岸本淳司 :SASユーザー会論文集, 1989,123 ‑142‑
日本 SASユーザー会 (SUGI‑J) GENMODプロシジャを用いたクロスオーバーデータの角平井斤 0梶川美紀脅 宮岡悦良 H 脅スミスクライン・ビーチャム製薬(株)市販後調査部 村東京理科大学理学部数学科 A n a l y s i so fC r o s s ‑ O v e rD a t aU s i n gGenmodP r o c e d u r e M i k iK a j i k a w a * EtsuoMiyaoka** 脅 SmithK l i n eBeecham, P o s t ‑M a k e t i n gS u r v e i l l a n c e **ScienceU n i v e r s i t yo fTokyo 要旨 2値のクロスオーバ データの解析方法の lつを紹介する. T r a n s i t i o nmodelにもとづいた推定 を , SASシステムの GENMODプロシジャと IMLプロシジャを用いて行う.本論文では,これらの 特撮と使用方法を紹介する. キーワード: PROCGENMOD,Transitionmodel,クロスオーバー, 2値データ 1 . はじめに 臨床研究において、群比較の解析方法の lつとしてしばしばクロスオーバー解析が使われる。ク ロスオーバー試験とは、例えば薬剤 A と薬剤 Bの 2群比較の場合では、同一個体が薬剤 A薬剤 B も しくは薬剤 B薬剤 A の順に投与し、それぞれの群の観測値から薬効評価を考える試験方法である。 この試験の特徴の lつとして、同一個体が 2つの薬剤を投与することから、同じ個体からの観測値 には個人内の相関が考慮されなけばならない。また薬剤の投与された時期、順序の影響等に興味の あることもある。 クロスオーバーの解析方法には、観測値(応答変数)が連続型と離散型のいずれも考えられる。連 続型に対しては、 SASの ANOVAプロシジャや GLMプロシジャを用いて解析される。今回は応答 変数が 2値変数に対して、 GENMODプロシジャと IMLプロシジャを用いて解析する方法を紹介す る 。 qU 4 A ' ' i
2
. T
r
a
n
s
i
t
i
o
n model
n個体のうち個体 k(
k=1
,
…,
n
)の
、 2つの時期 jにおける応答変数を九 (
k=1
,
…,
n;j=1
,
2
)とし、
Yk =瓦
( pζ2)と表わす。 Ykは相関のある {
O,
l}をとる 2値変数とする。また九に対応するらを p次
元の説明変数ベクトルとする。
この Ykに対して以下のようなクロスオーバ一実験を考える。
n
1
固体を t
;
,n
z個体からなる 2つの
groupi(
i=
1
,
2
)に分ける。そこで group1は、時期 1に薬剤 A、時期 2に薬剤 Bの順に投与する。 group2
は反対の順序で投与する。各時期の聞には適当な washout期間をとるものとする。同じ個体からの
観測値には相関があると考えられるが、各個体聞の観測値は独立であると仮定する。これらの Ykの
構造を、今回は T
r
a
n
s
i
t
i
o
nmodelで考える。観測値九に対して以下のような確率を仮定する。
P(九 =1
;ら )=πk
(ζk
)=g
o(
!
.
ks
),
(時期1)
P(ζ2=1
,
;
11=1;ゐ)=P
k
l(
ム)=g
l(
!
.
ks),
P(瓦2 =1
瓦1=0;ム)=Pk2(
!
.
k
)=g
2(
ζk
s
),
(
時期 2
)
k=1,
・
・
・,
n
.
ここで
g
s
(
Oく g
sく 1,
s=
0
,
1
,
2
.) は l
i
n
kf
u
n
c
t
i
o
n である。このようなモデルにもとづく対数尤
度関数は
10gL(!
J
.
;主)=ヱ {Ykl1ogπk(ム)+(1‑Ykl)log(1一円(ら))}
エ
+
エ
+
[
Y
k
l{
Y
k2l
o
gP
k
l(
ム)+(1‑Yk2)
l
o
g
(
lーん 1
(
ム))}
]
ogP
(1‑Y
k
l)
{
Y
k21
k
2(
ム)+(1‑Yk2)log(1‑Pk2(ゐ))}
.
である。これから求まる尤度方程式は GENMODプロシジャで扱う推定方程式と一致することから、
推定が可能である。ただし、標準誤差 SEについては、 (
ζ
l
'Y
.
:2
)は独立ではないので下記のフイツ
シャー情報行列 A を用いて算出される。
A
=
j丸
,
ここで
L I
g
O
(
Z
k
s
T
r
)
]
2 L
一
一
Z
.
Z
.
g
o
(
z
k
s
)
{
l
‑g
O
(
Z
k
s
T
J
}
• =‑‑‑‑^
~
一土よ
+go(
Z
J
3
)
[
g
l(
Z
k
s
T
r
)
f
一
二
一
一一一
Z
.
Z
.
g
l(
z
k
s
)
{
1
‑g
l(
Z
k
s
T
r
)
}~よ
{
1‑g
O
(
Z
k
s
)}
[
g
2
(
Z
k
s
T
r
)
]
2
^一
一
一 Z
.
Z
.
g
2
(
Z
k
s
)
{
1
‑g
2
(
Z
k
s
T
r
)
}
+
よ よ
《
ただし抑)=会協
理論的叫小
ι山
一一
N
(
Q
,
d
‑1)州 立 つ こ と が 示 さ れ る 。
そこで、 GENMOD プロシジャと IMLプロシジャを用いて解析するプログラムと、実際のデータ を使って推定したものを紹介する。 3 . 2群 の ク ロ ス オ ー バ ー デ ー タ の 解 析 表 lは一般的なデータの部分的な入力形式を例示したものである。 今回扱うデータは、医薬品開発の過程でヒトを対象とした、薬剤の効果の有無を計測している。 解析対象症例は 108人で、薬剤 TREAT以外の説明変数のうち時期に依存しない年齢 Z1を考慮に入 れて検討した。 今回のプログラムの、基本的な使用方法を示す。時期 2の薬剤 TREAT2は、クロスオーバ試験 であるので必然的に時期 lで投与されなかった薬剤 TREAT2 ( = 1・TREAT1)である。よってマク ロ引数には含めなかった。また、データセットの前処理段階で被験者 NOを DROPした。引数の &VAR1・&VAR4は前処理のデータセットの 1列目から 4列目に対応している。またここで扱える 変数名はそれぞれ Y1、Y2、TREAT、Zlとした。この他の説明変数を追加することも可能である。 ただし、 IMLプロシジャを用いた標準誤差の計算式も変えなければならないので注意する。 v e r 6 . 1 0 で推定した結果の一部は出力 1に出力した。 表 1 2値 の ク ロ ス オ ー バ の 臨 床 検 査 デ ー タ 時期 1 時期 2 被験者 説明変数 薬剤 応答 薬剤 応答 NO* Z l 1 4 2 5 T R E A T 1 Y 1 TREAT2 Y 2 2 。 *の行は、 。 。 P r o g r a m 1で扱う変数名 出力 1 I nT r a n s i t i o nM o d e lA n a l y s i sO fP a r a m e t e rE s t i m a t e s 百訂 E s t i m a t e s Z P ‑ v a l u e 0 . 3 2 8 8 2 4 I N T E R C E P T ‑ 0 . 7 7 5 8 5 9 2 ‑ 0 . 4 2 3 8 1 9 0 . 6 7 1 6 9 8 百E A T 0 . 4 9 3 0 1 2 7 0 . 2 8 4 9 1 8 2 1 .7 3 0 3 6 5 6 0 . 0 8 3 5 6 5 Y 2 1 Y 1 = 1 0 . 9 1 8 2 3 7 6 0 . 4 0 2 7 3 8 2 . 2 7 9 9 8 7 4 0 . 0 2 2 6 0 8 4 Y 2 1 Y 1 = 0 ‑ 0 . 6 0 0 9 0 8 0 . 5 0 8 2 0 9 7 1 .1 8 2 4 0 2 0 . 2 3 7 0 4 6 4 0 . 0 0 3 7 0 1 6 0 . 0 1 3 2 1 9 8 。 0 . 2 8 0 0 0 2 1 0 . 7 7 9 4 7 5 9 Z s c a l e 145‑
4 . まとめ 今回は行っていないが、交互作用や順序効果等もモデルに組み入れることができる。従来の 2値デ ータのクロスオーバ一解析でよく行われる McNemar検定で、は、層別解析をしないで薬剤以外の説 明変数の影響は考慮されない。そこで GENMODプロシジャを用いた解析方法は有益であると考え . 1 2より使用可能)を用いたクロスオーバーも考えられる。今後検討 られる。その他にも GEE(Ver6 していく予定である. 5 . 参考文献 A g r e s t i,A1a n .( 19 9 0 ) . C a t e g o r i ca 1D a t aAna l y s i s . J o h nW i l e ya n ds o n s . 19 8 9 ) .Ana 1 y s i so fR巴p e a t e dC a t e g o r i ca 1M e a s u r e m e n t sw i t hc o n d i t i o na 1l i k e l i h o o d Conaway,M.R.( Me白 o d s . JA5 , A8 4 . 5 3 ‑ 6 2 . J o n e s,Ba n dKenward , M.G.( 19 8 9 ) . D巴s i g na n dAna l y s i so fC r o s s ‑ o v e rT r i a 1 s . Chapmana n dHa 1 l . L i a n g,K .a n dZ e g e r, 5 .L . ( 19 8 6 ) . L o n g i t u d i n a ld a t aa n a 1 y s i su s i n gg e n e ra 1 i z e dl i n e a rm o d e l s . Biom 巴住i c a7 3, 1 3 ‑ 2 2 . P .a n dN e l d e r , J .A. ( 19 8 3 ) . G e n e ra 1i z e dL i n e a rM o d e l s . Chapmana n dH a l l . McCullagh, Mcdona 1d,B.W. ( 19 9 3 ) . E s t i m a t i n gL o g i s t i cR e g r e s s i o nP a r a m e t e r sf o rB i v a r i a t e .B i n a r yD a t a . J . R . 5 t a t i st .5 o c . B . 3 9 1 ‑ 3 9 7 . . L,L i a n ga n dL i a n g,K . ( 19 8 6 ) . L o n g i t u d i na 1D a t aA n a 1 y s i sf o rD i s c r e t ea n dC o n t i n u o u s Z e g e r,5 O u t c o m e s . B i o m e t r i c s42,1 2 1・1 3 0 . 146‑
* P r o g r a m1 t c r o s s * / ・ % m a c r ot c r o s s( d a t a,m,V A R 1,V A R 2,V A R 3,V A R 4,l i此, d i s t ); * ー ー ーーーーーーーーーーーーーー* ・ * グマクロ *一一一一一 前処理 /本データセットは /*応答変数(時期 1 ) 一一一一一一一 一一; * / ; /*応答変数(時期 2 ) : Y 1 : Y 2 /*処理変数(時期 1 ) : T R E A T /*処理変数以外の説明変数 : Z l * / ; * / ; * / ; * / ; マクロ引数についてー 一一一一一一; /*(各時期に非依存性のもの) バ'バ'バ'バ'バ'バ'バ'バ' *一一一一一 d a t a=データセット名 * / ; m (推定する P a r a m e t e rの数) * / ; =5 V 血 1 =1 Y l J 自の変数 ( Y 1,Y 2,百E A T,Z lのいずれかけ/; V A R 2 =2列 自 の 変 数 ( Y 1,Y 2,叩E A T,Z lのいずれかけ/; V A R 3 =3列 自 の 変 数 ( Y 1,Y 2,叩E A T,Z lのいず、れかけ/; V A R 4 =4列 自 の 変 数 ( Y , lY 2,叩E A T,Z lのいずれか)*/; 1 i n k=1 i n kf u n c ti o n * / ; * / ・ d i s t =応答変数にあてはめる分布 S A S . D A T S E T→ 既 に 変 換 , p r o ci m l ; a t a ; u s e品d ; r e a da l li n t o冊 W 町A R 1 =阿 wし1 ]; 品V 皿2 =阿 W [,2 J; 品V A R 3 =阿 W [,3 J; 品V A R 4 = 阿 W [,4 J; n y 1 = n r o w ( y 1 ); / * 観測数 y 2 ; / * 時期 lと時期 2の応答を連結 y = y1// t r e a t = t r e a t / / 1 ‑ t r e a t ; / * 処理変数 y 1,1 ) / / y 1 ; 〆 時期 lで応答「あり」の時期 2の応答 y 1 1 = r e p e a t ( 0,n y 1 0 = r e p e a t ( 0,n y 1,1 ) / / 1 ‑ y 1 ; / * 時期 lで応答「なし」の時期 2の応答 z l; / * 時期 lと時期 2の説明変数を連結 z = z1// m a t d a t a = y l lt r e a t l l y l l l l y 1 0 1 l z ; * I M L→ S A S . D A T S 町へ変換 , s d n 祖 巴= ! yt r e a ty 1 1y 1 0 zf ; c r e a t eq qf r o mm a t d a t a [ c o l n a m e = s d n a m er o w n 祖 e = s d n 四 e ] 四 e = s d n 祖 e J A P P E N Df r o mm a t d a t a [ c o l n a m e = s d n a m e r o w n d a t aq q ; s e tq q ; d = l ; d r o ps d n a m e ; r u n ; * G E N M O Dで 解 析 * p r o cg e n m o dd a t a= q q 品d i s t m o d e ly / d =t r e a ty 1 1y 1 0z / d i s t = 品l i n k 1 i n k = ー 1 4 7一 * / ; * / ; * / ; * / ; * / ; * / ;
s c a l e = l ; m a k ep a r m e s to u t = p 1n o p r i n t ,r u n ; p r o ci m l ; u s ep 1 ; 本 / r e a da l lv a rl e s t i m a t e ! i n t oe s t; r u n ; グ $の計算 u s eq q ; 推定値の計算 * / ; p 1の d a t a . s e t→ I M L * / ; * r e a da l l i n t om a t ; n y 1 = n r o w ( m a t [,l J ) / 2 ; f i s h e r = r e p e a t ( O,&m,&m); 1 *観測人数 d okl =l t on y 1 ; 1 * k 1 :時期 iの個体 k k 2 = k 1 + ( n y1/ 2 ) ; 1 * k2:時期 2の個体 k z k 1 = 1 1 ! / / m a t [ k 1,2 J / / 1 0,0 ! / / m a t [ k 1, 5 J ; * / ; * / ; * / ; z k 2 =1 1 ! / / m a t [ k 2,2 J / / m a t [ k 2,3 J / / m a t [ k 2, 4 J / / m a t [ k 2, 5 J ; 1 *各時期の説明変数ベクトル*/; t O = ‑ e s t [ 1,l J ‑ m a t [ k 1,2 J * e s t [ 2,l J ‑ m a t [ k 1, 5 J * e s t [ 5,l J ; t 1 = ‑ e s t [ 1,l J ‑ m a t [ k 1, 2 J * e s t [ 2,l J ‑ e s t [ 3,l J ‑ m a t [ k 1, 5 J * e s t [ 5,l J ; t 2 = ‑ e s t [ 1,1 J ‑ m a t [ k 1,2 J * e s t [ 2,1 J ‑ e s t [ 4,1 J ‑ m a t [ k 1, 5 J * e s t[ 5,l J ; パ申パ 仲ハ ホョ 1 *各時期の exponentialの肩 * / ; g O= l / ( l + e x p ( ‑ t O ) ) ; g l = 1 / ( 1 + e x p ( ‑ t 1 ) ); g 2 = 1 / ( 1 + e x p ( ‑ t 2 ) ); i k 1 =( ( g O 柑3)*exp(‑2*tO)/(1‑g O) ) * z k 1 * z k 1; i k 2 =( ( g l柑 3 )* g O*exp(‑2*t1)/(1‑gl))*zk2*zk2; i k 3 =( ( g 2 柑3 ) *( 1 ‑ g O ) 句xp(‑2*t2)/(1‑g2))*zk2*zk2; i k = i k 1 + i k 2 + i k 3 ; f i s h e r = i k + f i s h e r : e n d ; r A = I n v ( f i s h e r / n y 1 ); /本近似正規分布の分散 s e = r e p e a t ( O, & m ,l ); /*浬を求める z = r e p e a t( 0, & m ,1 ); 1 *Z :統計量を求める d ok 1 = 1t o& n ; s e [ k 1,l J = ( s q r t ( A [ k 1, k 1 J ) ) / s q r t ( n y 1 ); z [ k 1,l J = e s t [ k 1,l J / s e [ k 1 J ; e n d ; e s t i m a t e = e s t [,l J ; s e = s e / / 1 0 !; z = z / / I . !; p v a l u e = 2 * ( 1 ‑ p r o b n o r m ( a b s ( z ) ) ) ; 1 * P値の計算(両側検定) * / ; t e s t =巴s t i m a t e l l s e l l Z l l p v a l u 巴; 1 *検定結果出力 * / ; c n 祖 巴 =l " E s ti m a t e "," S E "," Z ぺ"P‑value"!; r n 祖 e = I " I N 百R C E P T ", "T 阻A T "," Y 2 1Y 1 = 1 "," Y 2 1Y 1 = 0 "," z "," s c a l e " l; p r i n t,勺 nT r a n s i t i o nM o d e lA na l y s i sO fP a r a m e t e rE s t i m a t e s ",t e s t [ c o l n a m e = c n a m er o w n 祖 e = r n祖 e J; r u n, % m e n dt c r o s s ; 1 4 8一
日本 SASユーザー会 (SUGI‑J) 薬物濃度を用いた同等性試験の例数設計 高橋行雄 日本口シユ(株)・医薬開発・統計解析 SampleSizeEstimationf o rEquivalenceC l i n i c a lTr i a lusingBlood Concentration YukioTakahashi MedicalB i o s t a t i s t i c s, PDNB, NipponRoche 要旨 臨床試験の様々な局面において血中の薬物濃度測定が行われているが、生物学的同等性 (BE) 試験以外は、試験計画書に試験例数の設定根拠を示すことはほとんど、なかった。 ICHガイドラ インの影響により、臨床試験の主要評価項目に対する設定根拠のみならず、その中で薬物濃度 測定を行う症例数においても、その設定根拠が求められつつある。その場合に、差を検出する よりも同等であることを示す場合が比較的多く、 BE試験で国際的に採用されている信頼区間方 式による例数設定を適用することができる。 BE試験における信頼区間方式を解説し、その様々 な応用の場面について示すとともに、簡単な事例についてモンテカルロ・シミュレーションの 結果を例示した。 キーワード: 例数設計、薬物濃度、 BE試験、シミュレーション はじめに 試験計画書に試験例数の設定根拠を示すことが、 ICH ガイドライン J) などにより求められ ており、臨床試験の主要評価項目に対する設定根拠のみならず、その中で血中の薬物濃度測定 を行う症例数においても、その設定根拠が求められつつある。以前より、生物学的同等性 (BE) 試験においては、症例数の算定が、その試験の成功の可否に直結するために、検出力ベース方 式により慎重に行ってきた。日本における BE試験においても同等性の判定基準が、すでに国 際基準となっている信頼区間方式に変わろうとしている。信頼区間方式は、 BE試験のみならず、 他の臨床試験の中で血中の薬物濃度測定を行う場合の症例数の算定基準を求める場合などに幅 広い応用ができると思われる。 健康成人男子を主に対象とする安全性と忍容性試験(し、わゆる第 1相試験)において、絶食 時投与と食後投与により薬物濃度に違いがないかの検討がクロスオーバー法などで良く行われ ているが、その症例数は慣習的に決められている。このような場でも、 BE試験に準じた信頼区 149‑
間方式による結果の表示方法は解釈を適切に行う上で有益である。また、人種差の程度を血中 の薬物濃度データで表示する場合、あるいは、積極的に同等性を検証する為に必要症例数を算 出する場合にも、信頼区間方式は役に立つ。他にも用量比例性の問題、血中の薬物濃度測定を 伴う高齢者を対象とした臨床試験などにも、信頼区間方式は広範に用いる事が出来よう。 B E試 験 に お け る 信 頼 区 間 方 式 BE試験における信頼区間方式での症例設定は、他の様々な薬物濃度測定を含む臨床試験の症 例数を考える上で参考になるので、その考え方と事例を示す。 BE試験では PKパラメー夕、主 に AUCおよび Cmaxの標準製剤と試験薬の平均値(幾何平均)の差の 90% 信頼区聞が、標準 薬の平均(幾何平均)を 100% としたときに、 80% から 125% の範囲に入っているときに、生 物学的に同等と判断することになっている 2) 。 現在、日本でもこのガイドラインの改訂が行われようとしているが、これまでの基準で用い られている、 「検出力+有意差検定+信頼区間」を組合せた方式に比べ、信頼区間方式は、す っきりとした合理的な判定方式となっている。下図に両方式のによる同等性の判定例の相違に ついて示す。 例5 。 。 。 。 。 。 伊U6 × 809 も 100% 1259 も 例 1 信頼区間方式 × 例2 例3 従来方式判定 × × f 列4 × × 従来は、標準製剤の PKパラメータの推定値、個人内の分散の推定値を用いて、試験薬 R が標 準薬 Tの推定値の:t20% 離れたときの検出力が 80%となる症例数としていたので、その症例数 は、理論的な計算により求めることが出来る 3)。信頼区間方式の場合の例数設定に、検出力方 式を準用した場合の問題点を示す。 検出力方式では、標準薬 R と試験薬 T の(平均値の差/ E )の有意差検定の結果により検出力を計算しているが、信頼区間方式では、試験薬 Tの 差の S 平均値士差の 90% 信頼幅が、標準薬 R の平均値(幾何平均)の 80% から 1 259 もの範囲に入って いることを基準にしている。そのため、例 4の様に差の 90% 信頼幅が大きく、検出力方式では 有意差が出ないために同等と判定がされ場合でも、信頼区間方式では(試験薬平均値±差の 90% 信頼幅)が基準範囲からはみ出てしまい同等ではないと判定がされる場合がある。また例 3の 様に上限が 120%を越え、判定が逆となる場合も有り、検出力方式を準用することは問題である。 信頼区聞が 809 るから 125%に含まれる確率を高めるように、目標例数を設定す このため、 90% るのが適切と考えられる。 ' Eム RU n u
絶食下投与と食後投与 経口投与の薬物では通常、絶食下での投与した後の血中薬物濃度を測定している。 ところが、 実際の臨床の場では、食後の服薬となる場合も有り、健康男子を対象にした安全性と忍容性を 検討する第 1相臨床試験の中で行われることが多い。そのために BE試験の場合とは比較にな らないくらい少数の被験者の 2x2のクロスオーバー試験が行われ、 PKパラメータに対して、 検定の結果によって結論がだされがちである。この場合にも BE試験の信頼区間方 対応のある t 式により、各種の PKパラメータが、標準とみなす絶食下投与の平均値に対するパーセント表 示が、対応のある t検定よりも適切な医学的な判断を下すのには適している。 これについても 当日、事例を示す。 用量比例性の検討 ここでの用量比例とは、 おもに AUCと Cmaxについて、その大きさが投与量に比例して増 大するかの検討なのである。単純な直線回帰の当てはめる場合、あるいは、 AUCを投与量で割 って、各投与量間で有意差がないことで比例性を主張する場合もあるが、どちらも判定の基準 が不明瞭である。 安全性と忍容性試験では、一般的に用量は逐次的に増量され、血中の薬物濃 度も同時に計測される。試験デザインとしては、 1被験者 1用量の場合、 1被験者に複数だが人 によって異なる用量のセットを投与する場合もある。 用量比例性の検討の場合にも信頼区間方式は役に立つ。しかしながら、基準となる投与量は 定めることが出来ないので、用量当りの AUCなどであれば、用量群をプールした総平均(幾何 平均)を用いて、同等性の基準として、総平均の 80% から 125% の範囲に、各用量の 90% 信頼区 間が入っていれば、用量比例性(原点を通る回帰直線が当てはまる)が、成り立っていると見 f 故す。 BE試験での基準である (80% 、125%) を使うのは、基準値を総平均としているので、甘 い基準であるかのように思われるかもしれないが、用量比例性の検討の場合に、平均値の信頼 区間には、個人間と個人内のバラツキを合成したバラツキを用いるので、個人内のバラツキの みの BE試験に比べて、甘いとは言えないであろう。いずれにしても、 このような判定基準を も用いる場合は、事前に基準を設定して置くことは、当然の事である。交互パネル (1被験者に 複数用量の場合、 1被験者に複数だが人によって異なる用量のセットの場合)による例を示す。 AUC/Doseの 90% 信頼区間 1 5 L e v e l S E2 .5 医 l S E5 民 l SE1 0 医 l SE1 5 O O S E2 0 ∞ 邸 E 30 O O S E4 0 邸 E日 L~淵E州 2 2 . 3 3 0 . 8 2 B . 7 3 0 . 4 2 B . 7 3 0 . 8 3 1 . 2 2 7 . 3 2 0 3 0 3 5 4 0 ト一一一 1, ‑ ‑ ‑ ‑ → お ト一一一一│一一←ー│ 1 <一一』ーウ 只 l ‑u
人種差の検討 ICHにおいても人種差についての議論が続いており、 1997年の ICH4でも合意 C s t e p 4 )に 達していないが、日々の開発業務の中では、薬物濃度に人種差が有リや無しやかを常に意識し た試験計画が求められるようになってきた。その際に、何らかの統計的な基準が必要となる。 この際にも、先行する試験の平均値の 80% から 125%の範囲に、後から行う人種、例えば日本 人での平均値の 95% 信頼区聞が入いるような確率が 90%となるような症例数、などのように例 数設定を行うことは妥当と考える。 例えば、先行する海外での臨床試験で、 PKパラメータの CVが 15%のときには、シミュレー ションの結果から約 10例となる。 一ハHUハHUハHUハHunHU 一ハHUハHUハHunHVハHU TL一nununununu yL‑titititi‑i AA一 11+Ill111Illl ‑nU 凋 ιτFbηdqu o‑qL 凋 ιτFbqL MU‑A‑1‑ ‑ ‑ ‑ ‑ A ‑ 1‑+IlIlli‑‑‑‑ ‑nHuρhυFhd t 円a 'IA h υ A U τ 勺tanu V A ‑ n凸 F +11111111111 A ノ臼凋仏 よ nu‑Fbnonununu ‑ ‑ ‑ nu‑ ‑ー M山 一 PA 一 AA 一 u‑nHun M ︑ 円川 一 日un凸 zl'I1 d a t a DOl; / *P l S l l A . s a s* / MEAN=lOO; SD=15; N I T R = l O O O ; N l = 6 ; N 2 = 1 4 ; SEED=O; l 白 u y l μ n H ︑ 戸 ぃ u 一 一T1 ・ γ 1 . ρ ︐パu +L QU MM VA‑‑ U γAAHは 内A D‑nbe oNm n 1ivu nHu'hυハHu nunu ・ ?LHu avio っ‑ 一 ‑一 n d '+L n H U SLt ︐ qFU nunu aD‑ ρuγー・?し mau vo ) l 可 ‑ ‑ nu ︐ vA し U nU ︐ YEU n H FU hu 引 U ρ u ρ u o o l 円 MN ︐υ ︐ . n H臼 ︐ l‑‑ YEU 引 ρu ‑ 一 nu U ‑ ‑ し ︼ ‑nu 一ρu LH nM nhu・︐.︐?し ︐ . nR 1ir‑‑ ndV‑2‑0 /l ︑ nunr︑︑JJ︑︑.︐J︑lJ nu‑‑i1iFiD 臼 つ H U η 〆臼 n Hn 'nbP31i t 2 7 L T L﹀ e//**1A s a T i Tよ 引U hu/l︑ D‑‑+ 内 乱 ‑n** く nu‑‑nunU1i .︐=+L1At‑‑u nu'l'l'lnt aTiTU 引U ・ l ︑ ηυ1nu‑‑一‑一‑ ハ UD‑ nd .︐一MMM川 1iyLTU︑lJ Fhd/l︑/l︑/l︑ハHu n u V * * 日口 ︐パu n A U +L ρし n u γ 1 . D ‑ ?Lytu ︐ . n nr=u ‑TAM山 n L M O = l o g l O ( M E A N ) ; L S D O = L M O ‑ l o g l O ( l O * * L M O ‑ S D ) ; d oN S A M P = N lt oN 2b y2 ; d o K = 1t o NITR; d o i= 1t oN S A M P; L O G Y=L M O +LSDO*rannor(SEED); output; 巴n d; end; end; p r o ct a b u l a t e d a t a = D 0 3 noseps; c l a s s N S A M PJ U D G E; t a b l e N S A M P, ( J U D G E = ' ,a l l ) * f = 6 . /r t s = I O; k e y l a b e l n = ' r u n, 文献 1 ) ICH(1 9 9 5 ) :治験の総括報告書の構成と内容に閲するガイドライン 2 ) FDA(1992) :GuidanceonS t a t i s t i c a lP r o c e d u r e sf o rB i o e q u i v a l e n c eS t u d i e sUsingaStandard Two‑Tr eatmentC r o s s o v e rD e s i g n . 3 ) 高橋行雄、大橋靖雄、芳賀敏郎 ( 1 9 9 0 ) :SASによる実験データの解析、東大出版会 ‑152一
日本 S A Sユーザー会 (SUG I‑J) 成人病関連因子と喫煙の多変量解析による検討 0豊 島 裕 子 女 蟻 俊 彦 柑 清 水 英 佑 州 合日本たばこ産業東京健康管理センター 付東京慈恵会医科大学理境保健医学教室 M u l t i v a r i a t es t a t i s t i c a la n a l y s i sonr e l a t i o n s h i p sbetweensmokingandr i s kf a c t o r so f c a r d i o v a s c u l a r andcerebrovasculard i s e a s e . ト l i r o k oToshima 本 T o s h i h i k oAgata 本本 HidesukeShimizu** *TokyoH e a l t hCarec e n t e r .JapantobaccoI n c **DepaγtmentofEnvironmentalandP u b l i cH e a l t h. J i k e i U n i v e r s i t yschoolofMedicine 要 旨 総コレステロールと血圧は、喫煙群で、有意に低かった 血圧に最も関係が深いのは年齢 O で、肥満度、主喫たばこニコチン容量のl j 慎で、あった。総コレステロールと最も関係、が深いのは、 肥満度、続いて年齢で、あった。 キーワード: 喫煙,血圧,総コレステロール 1.はじめに 鰭康管理の現場では、健康診断により、各種成人病の早期発見に努めるだけでなく、成 人病の危険因子の保有の有無より、これら疾患の発症予防に努めている。 現在、日本の 3 大死因は悪性新生物、心疾患、脳血管障害である。この中で心疾患、特 に虚血性心疾患の危険因子として、年齢、家族歴、喫煙、高血圧、低 HDLコレステロール血 症、糖尿病が挙げられるぐまた、脳血管障害の危険因子としては、高血圧、心疾患、糖代謝 異常、高尿酸血症、多血症、飲酒、喫煙、肥満等が挙げられている。 そこで、、私たちは、両疾患の危険因子と言われてしも喫煙と、その他の成人病関連因子の 関係を検討した。 2 .方法・対象 1 5 3
2 . 1対象 対象は、健常男子の健康診断受診者 158人。非分煙環境に勤務する者 125人、うち喫煙 者 92人(平均年齢:4 4 . 7 : : ! : : 5 . 1歳)、非喫煙者 33人 ( 4 4 . 1: : ! : : 6.4歳)。分煙環境に勤務する非 喫煙者 33人 ( 4 4 . 5 : : ! : : 5 . 6歳)である。 2 . 2方法 健康診断受診時に、喫煙歴に関して、喫煙本数・喫煙開始年齢・喫煙年数・主喫たばこの 銘柄について問診した。また、検査項目として、肥満度、血圧・総コレステロール・中性脂肪・ γ‑GTP'GPT・尿酸・空腹時血糖を測定した。 得られた結果に関して、 S t a t i s t i c a lA n a l y s i sSystem(以下 SAS)で、統計処理を行った。 2 . 2 . 1 非分煙の同一職場で働く、非喫煙群と喫煙群の各検査結果について、 t検定で比較 した。さらに、非喫煙群において、分煙環境勤務群と非分煙環境勤務群の各検査結果に ついて、 t検定で比較した。 2 . 2 . 2 喫煙者に関して、単回帰分析、および喫煙と血圧・総コレステロールの関係を検討す るために、血圧・総コレステローノレそれぞれを目的変数に、これらと関係のある事がすでに 知られている肥満度・年齢と、喫煙の各因子である喫煙本数・喫煙開始年齢・喫煙年数・ 主喫たばこのニコチン用量を説明変数として、 stepwise法による重回帰分析を行った。危 険 率 5% 以下 ( p < O . 0 5 )を有意差ありとした。 3 .結果 3 . 1喫煙群と非喫煙群の比較 非分煙環境である同ーの職場に勤務する、喫煙群と非喫煙群の比較で、血圧 ( P < O . O O l )と 、 総コレステロール( P < O . 0 5 )が、喫煙群において有意に低かった。その他の検査項目に関して は、両群間で有意な差を認めなかった(表 1 )。 総コレステロール 1 2 9 . 2 : : ! : : 1 6 . 8 1 1 9 . 3 : : ! : : 1 3 . 2 2 0 7 . 2 : : ! : : 3 3 . 0 1 91 .7 : : ! : : 2 9 . 5 P < O . O O l P < O . 0 5 3 . 2非分煙環境下の非喫煙群と、分煙環境下の非唄煙群の比較 各検査項目とも、分煙環境下非喫煙群と分煙環境下非喫煙群の聞に有意な差を認めな ‑154一
かった。 3 . 3喫煙群における単回帰分析 喫埋群において、喫煙の各因子と各検査項目の聞に有意な相関を認めたものを表 2に示 す 。 表 2 喫埋群における喫煙因子と検査結果の関係 目的変数 │ 説明変数 │ 回帰式 中性脂肪 │喫煙開始年齢 I Y = 8 .616X‑21 .116 尿酸 │ 喫煙期間 IY=‑O.051X+6.861 空腹時血糖 l 喫埋期間 I Y=O.714X+76.945 喫埋開始年齢が若いほど、中性脂肪の値が低く、喫煙期間が長いほど、血糖値が高く、尿 酸値が低い事が分かった。 3 . 4重回帰分析による、喫煙と血圧・総コレステロールの関連の検討 表 3に、有意であった重回帰式を示すO 表 3 有意な重回帰式 重回帰式 目的変数 Y=0.9530年齢 +0.2429肥満度 ‑0.5618コチン用量一 O .1426喫 血圧 煙本数+80.0902 Y=1 .0194年齢 +0.7146肥満度 +140.5436 総コレスァ 決定係数 0.1876 0.1361 ローーノレ 4 .考察 4 . 1血圧について 喫埋群では、非喫煙群に比して、有意に血圧が低かった また、血圧を目的変数とする重 O 回帰式において、主喫たばこニコチン用量、喫埋本数の偏回帰係数が負で、あった。従って、 喫煙者は、非喫煙者に比して血圧が低く、主喫たばこのニコチン用量が多く、 1 日の喫煙本 数が多いほどその傾向が強いことが分かった。 これまでも、同様の報告が散見されるが、その機序については明らかにされていない。私 たちは、これまで喫煙の急性効果について報告してきたが、喫煙終了後 3分から 5分をピー クに血圧が上昇することが分かっている。従って、急性効果とは逆に喫煙の慢性効果として、 非喫煙時の血圧を低下させることが疑われた。あるいは、治療対象には至らないが、血圧の υ υ に に l‑ 句
やや高目の人は、禁煙あるいは節煙、 l 日の喫煙本数を減らすよう配慮しているとも考えられ た 。 4 . 2総コレステロールについて 喫煙群では、非喫煙群に比して有意に総コレステロールが低下していたが、重回帰分析の 結果では、総コレステロールに対して喫煙の因子は深い影響は及ぼしていなし、ことが分かった。 喫煙群で、低値であった事に関しては、さらに検討を加えたい。 4 . 3分煙環境と非分煙環境について 今回の検討では、非喫煙者において、すべての検査結果に関して、分煙環境と非分煙環 境での差は認められなかった。環境煙中の成分はきわめて微量であるため、非喫煙者に大き な影響は与えなしものと思われた。 4 . 4その他の検査項目に関して 喫煙開始年齢が低いほど、中性脂肪が低値となるのは、飲酒習慣の開始が遅れることに よるのかもしれない。同様に、喫煙期間が長いほど、尿酸値が低いのも、喫煙によって飲酒が 押さえられているのかもしれない。また、喫煙期間が長いほど、血糖値が高くなるのは、喫煙 期間は年齢と明らかな相関を有するので、加齢による影響とも考えられた。これらの結果につ いては、さらに検討を加えたい。 5 .文献 1 )贋川章子、他:コレステロール負荷ウサギの交感神経ならびに面I J腎機能におよぽすたばこ煙 吸入の影響.動脈硬化, 1 9 ;769‑774,1991 . 2 )兼本成斌,他:喫煙習慣と血圧ー健診センター受診者を対象としてー.日本医師会雑誌, 1 1 2 ; 1 6 4 1 ‑ 1 6 4 7,1 9 9 4 . 3 ; 1 5 ‑ 1 9,1 9 9 6 . 3 )豊島裕子,他:喫煙の指尖容積脈波に及ぼす影響.自律神経, 3 b ハ 1 ょ RU
日本 S A Sユーザー会 (SUG I‑J) 芳賀による数量化 1類のアイテム選択を自動実行するマクロの作成 三島徳雄 産業医科大学産業生態科学研究所 精神保健学教室 A Macro Program That Makes Automatic Item Selections sased on Haga's Theoryi nQ u a n t i f i c a t i o nTheoryTypeI N o r i oMISHIMA Depaはmento fM e n t a lH e a l t h,I n s t i t u t eo fI n d u s t r i a lE c o l o g i c a lSciences U n i v e r s i t yo fO c c u p a t i o n a landE n v i r o n m e n t a lH e a l t h(UOEH) 要旨 我が国で広く使用されている林の数量化理論にはアイテム選択に関する系統的な方法が含 まれていないため、実際に解析する場合、アイテムの選択方法に関しては解析者に依存していた。こ の問題について、芳賀は数量化理論第 1類と第 2類におけるアイテム選択とカテゴリー併合に関して 理論的な考察を行っている。特に、第 1類に関しては SASを用いた具体的な分析手順を紹介してい る。そこで、芳賀のプログラムを参考に、一般的なデータセットから出発して自動的にアイテム選択用 デ、ータセットを作成し、数量化理論第 1類でアイテム選択を行うマクロを開発した。また、その副産物と して、カテゴリー変数とともに数値変数も扱えるようにした。以上のマクロプログラムについて紹介する。 キーワード: 数量化理論第 1類、アイテム選択、 SAS/STATソフトウェア、 PROCREG 1 . はじめに 林の数量化理論第 1類(以下、数量化 1類)1)は我が国では幅広く活用されている。この方法は本質 的にはダミー変数を用いた重回帰分析であり、その視点から見ると欧米の論文においても類似の分析 を用いた報告が認められる。但し、重回帰分析と異なり、数量化 1類ではアイテム(変数)選択の為の 系統的な方法が提供されていなし、。アイテム選択やカテゴリー併合を行う場合は、分析結果に基づい て使用する変数やカテゴ、リ一分類を変更し試行錯誤的に分析を繰り返す等の工夫が必要で、あった。 数量化 1類と 2類に共通するこの問題に関して、芳賀勺ま理論的な考察を加え、自動的にアイテム選 択を行う方法を提案している。特に、数量化 1類に関しては具体的に SASプログラムを示して説明を加 えている。アイテム選択に関しては、手間は多少煩雑なものの、 PROC REGのMODEL ステートメントに おいて GROUPNAMESを使用することでスマートに実現している。但し、この方法を用いるには対象の データセットを加工する必要があり、分析の度に毎回行うのは面倒である。しかし、マクロを用いてこれ らの作業を自動化すれば、一般のプロシジャを用いるのと同じようにして分析することができる。実際に ム 1a ヴ t FhU
これを可能とするマクロプログラムを開発したところ非常に有用で、あったので、ここに紹介する。 2 .マクロプログラムの説明 2 .1 . 開発方針 このマクロでは、芳賀の示したプロセスを自動的に実行する際に、できる限り普通の SASデータセッ トをそのまま使用できるように工夫した。また、このプログ、ラムで、は説明変数としてカテゴ、リ一変数と同時 に数値変数も使用できるが、これも芳賀のプログラムに準じて実現した。但し、数値変数が使用されて いても、カテゴ、リ一変数はオリジナルの数量化理論に準じて規準化している。数値変数の回帰係数は 操作しないが、この処理により規準化前とは切片の値が変わる。 R I ぽ REG のSTEPWISE法により分析するが、 INCLUDEにより全変数を最初に強制的 基本的には、 P に取り込めば、単なる数量化 1類と閉じことになる。また、カテゴリー併合を行うための情報を得るには PROC GLMのLSMEANSを使用する必要があるが、マクロ呼び出しの引数の指定で、これも行うことがで きるようになっている。なお、基本的には鈴木 3)の数量化 1類マクロに準じて作成したが、サンフ。ル数量 の要約統計量の計算には自由度をそのまま用いている。 その他の特徴としては、以下の点がある。 ( 1 )説明変数リストの順番通りにカテゴリーウェイトが出力さ れる。 ( 2 )カテゴリー変数か数値変数かは、自動的に判定する。 ( 3 )説明変数やカテゴ、リ一変数が一つも 選択されなかった時は自動的に終了する。 2.2.使用上の注意京 ( 1)データセットについて 外的基準、説明変数ともに SASの数値変数でなければならない。文字変数はサポートしていない。 また、説明変数のうちカテゴリー変数と見なす変数は、最小値が MINCAT で、指定した数値から始まり MAXCAT以下の最大値まで、連続する整数値のみしか含まなし、変数である。この判定はP R I ぽ FREQ で欠損値を除いてリストを出力し、最初と最後のカテゴ、リー数値とオブ、ザベーション番号から判定して いる。従って実際には数値変数で、あるにもかかわらずPROCFREQによる結果がたまたまこの条件に一 致すると、誤って判定する。その場合は、最大値にごく僅かな数を加えるか、変数変換をするかなどし て、この条件に一致しないようにする必要がある。なお、分析に使用する変数の中に欠損値をもっオブ ザベーションを除いた上で、この判定が行われることに注意する必要がある。 分析しようとするカテゴリー変数がこの条件に一致しない場合に、カテゴリーに割り振った数値を簡 単に変更で、きるマクロフ。ログ、ラムを補助フ。ログ、ラムとしてつけている。その使い方は以下の通りである。 , , , もcatchng(var= old= new= n ewvar=) var:カテゴリー変数名、 old:旧カテゴリー数値のリスト、 new:新カテゴリー数値のリスト newvar:保存する変数名、指定しなければv a rと同じ変数に戻す 1 5 8一
例.も catchng(var=abc,old=l234,new=O 122 ) ABCとし、う変数について l → O、2→1.3→ 2, 4→ 2と変更 LABCfこ保存する。カテゴリー数値は空白 で区切る。なお、このマクロはDATA ステップ。の途中に挿入して使用する。 ( 2 )カテゴリ一変数名について マクロ内で、はカテゴ、リ一変数名の最後にカテゴリーを表す数値を 1桁加えて新たな変数を作成して いる。従って、カテゴリー変数名は7文字以内でなければならない。カテゴリー変数名の最後の文字が 数字ではない方が安全である。これまでの使用ではこのような条件下でも特に問題は出ていないが、 マクロ内で生成される変数名の数値が大きくなり、誤動作の原因になる可能性がわずかではあるが残 る。また、次に説明するように変数名の重複の恐れも大きくなる。 マクロ中でカテゴリー変数から個々のカテゴリーを示す変数が作成される手順を説明する。新たに 作成される変数名が既にある変数名と重複しないように注意して変数名をつける必要がある。 例.元の変数名: ABC、カテゴリー数値の範囲: 012 . 3 (M 町 CAT がOの場合) ABCが Oか 否 か ? → ABCOが 1か Oか ? ABCが lか 否 か ? → ABC1が lか Oか ? ABCが 2か 否 か ? → ABC2が lか 0か ? ABCが 3か 否 か ? → ABC3が lか 0か ? に保存される。但し、実際に PROCREGfこ渡されるのはABC1から ABC3である。 ( 3 )マクロ引数での説明変数の指定について 説明変数の指定は SASの一般的なリスト指定に従うが、ー(マイナスを二つ使用した省略形)の指定 はできない。但し、 A1・A5のような指定は可能である。 ( 4 )使用するカテゴリー値について カテゴリー変数は、 MINCATの値(テ、フォールトは 0)から始まり、連続する整数値のみしか含まず、 最大値は MAXCATの値(デ、フォーノレトは 6 )を越えないとしづ条件を満たす必要がある。最小カテゴ、リ ー値は全カテゴリー変数で必ず同一にする。最大カテゴリー値は同一で、なくてもよいが、 MAXCATに は1 0以上の数値は使用できない。プログラムでは2桁の数値は考慮していなし、。なお、 2値のカテゴリ 一変数は数値変数とみなされても、本質的には同じ結果が得られる。ただし、この場合はP R I ぽ REGに よる計算後カテゴリースコアが規準化されない。逆に、これを利用して使い分ける方法が考えられる。 例.MINCAT=lと指定した上で、 規準化したし、 2値変数は → 1 , 2を割り当てる 規準化したくなし、 2値 変 数 は → 0, 1を割り当てる ( 5 )その他 INTERCEP NAME,LABEL,CATEGORY,BETA,CATENAME,CATENUM等の変数が途中で 作成され、出力データセットで、使用されるので、これらの変数名は外的基準や説明変数の中では使用 1 5 9
できない。 2.3.使用方法 もstepsul(data=, ta工get=,outside=,va工 = , item=,weight=,copy=, detai1s=detai1s,sle=0.2,sls=0.2,inc1ude=,mode1op=, outop=,copy2=,predict=,residua1=,195=,u95=,outest=, out=,tit1e=2,maxdec=4,pdiff=off,se1ect=,mincat=O, maxcat=6,wo工 kds=de1ete) 引数の説明(=の右側はデ、フォールトの値) data= 分析対象データセット名の指定(必須) target=又は outside= 外的基準、目的変数となる変数の指定(必須) 両方指定するとt a r g e tが優先される。 var= 又は item= 独立変数、説明変数となる変数の指定(必須) 両方指定するとv a r が優先される。 weight= Weight ステートメントで使用される変数の指定 ※注意 目的変数、説明変数、ウェイト変数(あれば)がし、ずれも欠損値ではないオブ、ザベーショ ンが分析の対象となる。 copy= 出力デ、ータセットヘコピーする変数 details=details PROCREGのDET AlLS オプ、ンョン sle=0.2 PROCREGのSLENTRY オプション sls=0.2 PROCREGのSLSTAY オフ。ション inc1ude= PROCREGのINCLUDEオプション mode1op= PROCREGのMODELに与えるその他のオプション outop= PROCREGのOUTPUTに与えるその他のオプション 以下の情報以外の回帰診断情報を出力する場合に使用する。この引数使用時には= を使うので %STR()の中に入れて使用する。 copy2= o u t o pで、指定した出力変数を出力データセットにコピーするとき、変数名を指定 predict=predict,residua1=residua1,195=lower95p, u95=uppe工95p この 4つのオプションはすべて, PROCREGのOUTPUT ステートメントのオプションで、そ れぞれ予測値、残差、 95% 信頼区間の上下限の変数名を指定する。 o u tが指定されて いない場合は無視される。 outest= 回帰係数、カテゴ、リーウェイトの推定値のデータ出力に使用するデータセット名 out= 数量化された説明変数、予測値、残差のデータ出力に使用されるデータセット名 1 6 0一
title=2 タイトルの書き出し行数 maxdec=4 出力時の小数点以下桁数 pdiff=off OFF以外であればP R I ぽ GLM を実行してp d i f f によりカテゴ リー水準差を検定する。 但し、対象データに欠損値がある場合、選択された変数のみを指定して分析した場合と 対象オブザベーションが異なり、そのため最終結果も異なる可能性がある。 select= s e l e c t = a l lとすると全変数を無条件に使用して分析する minca七=0 全カテゴ、リ一変数に共通する最小カテゴ リー値を指定する。 maxca七=6 使用可能な最大のカテゴリー値(但し 1 0未満)を指定する。 wo工 kds=delete DELETE以外で作業データセットを消去せずに残す。 2 . 4 使用例 ( 株 )SASインスティチュートジャパンより提供された数量化 1類用のデータを用いた分析プログラム 例を下に示す。 1 *料 こ の 前 I こS TEPSU1の マ ク ロ プ ロ グ ラ ム を 実 行 し て お く 粋* 1 %include ‑!sasroot¥japanese ¥sample ¥s u 1 d a t a .s a s data w 1 ; set su1data; 1 *Bだけカテゴリー値が 2から始まるので、変更 * 1 %catchng( v a r = b,0I d=2 3 4 5, new 二 12 3 4 ) I abeIA = '1年齢 F = '6 タバコ B = '2最大血圧, C = '3最小血圧 G = '7酒 D='4 コレステ, E = '5 心電図' H='8体格 r u n 1 *オリジナルの分析と同じ結果が得られる * 1 %stepsu1( d a t a = w 1,targetニyear,var=a b c d e 干 gh, s eI ect=aI1 ,mi ncat=1 ) 1 *変数選択の結果 A C D E F が残る * 1 %stepsu1( d a t a = w 1,target=year, var=a b c d e 干 gh, sI e = O .25, sI s = O .25,mi ncat=1) 3 . 最後に 機能を欲張り、力まかせに作ったマクロプログラムであるために処理速度はあまり速くはない。しか し、これまで、のところは正常に動作している。興味のある方は是非使用してみて頂きたい。 参考文献 1 )駒津 勉( 1 9 8 2 ):数量化理論とデータ処理.朝倉書居. 2 )芳賀敏郎 ( 1 9 9 0 ) : 数量化 1類と2類におけるアイテムの選択とカテゴリーの併合.人間行動の計量学 多変量データ解析の理論と応用(柳井、岩坪、石塚編)、 155~171 頁、東京大学出版会. 3 )鈴木督久: SAS 数量化 1 類 , 2類マクロ. Ni食y ‑ s e r v eSASフォーラムライブラリ. Tよ pb τょ
プログラム・リスト u95 二 u pper95p,1 * 95%信頼上限の変数名 キ/ outest I キ回帰係数推定値データ出カキ/ ご I キカテゴリーデータ出カ キ/ out 2, I キタイトルの書き出し行数 本/ title maxdec 4, I 本出力時の小数点以下桁数 本/ pdiff = off, I キ GLMでpdifflこより水準差検定本/ select I キ se1 ect=a11 で全変数使用 キ/ mincat =0 , I 本最小カテゴリーの数値 本/ 6, I 本最大カテゴリーの数値(く 1 0 )本/ maxcat workds = delete 1 * 作業データセットの処理 本/ = /トー一一一一一一一一一変数カテゴリ一範囲変更ルーチン(補助用)キ/ / 本 他のデータステップの中で使用! キ/ %macro catchng(var , ご0 1d , ご new=,newvar=); 出i f 品newvar =弘str0也then 百1 et newvar==&var; %1 et count=l; se1 ect (&var); 出l e t w1= 百scan(&old, &count); 弘l e t w2= 弘scan( &new, 品c ount); 百do 百w hile(&w1 ne 百strO); 出str( when( 品w 1)) 品newvar : : 出i f &w2 ne 百str0 百then 品w2; 百else = = = = 前処理本/ 0百then 百let target=品outside; 出i f &target =弘 str 百i f &var 二百 str0百then 百l e t var=品item; maxdec コ弘str0弘then 弘let fw 二 %str0; %if & %else 百do; 私l et f= %eval( 品maxdec + 3 ); %Iet fw= 品f .. & m axdec; 出l et maxdec =百 str(maxdec ご&m axdec ) 弘end; 百1 et count=%eva1(&count + 1 ); %1 et w 1=%scan品 (old,&count); 出l e t w2 二 百 scan(&new ,&count); HON 弘e nd otherwise end: 出mend catchng; 出i f 百upcase品 (detaiI s ) ne DETAILS 百then %Iet detaiI sニ , メインルーチンキ/ 加国 cro stepsu1( data=, I 本分析対象データセット キ/ target , ご outsi de=, I 本外的基準、目的変数 本/ var = i t em = , 1 * 独立変数、説明変数 本/ wei ght = I キ Weight変数の指定 率/ copy = I 本データセットのコピー変数 本/ detai1 s ニ detai1 s, 1 *REGの DETAILSオプション キ/ sle = 0.2, sls = 0.2, i nc1 ude = mode1 op = 1 *REGのSLENTRY 1 *REGのSLSTAY 1 *REGの INCLUDE * 1 * 1 * 1 I キ REGの MODELのオプション キ/ outop ニ 1 *REGの OUTPUTのオプション copy2 = I 本 outopでの追加変数のコピー predict ニ predict, 1 *予測値の変数名 residual= residual, l *残差の変数名 195 = lower95p,l *95弘信頼下限の変数名 * 1 キ/ 0 百then 百let wgtstmtニ百 str( weight 品weight; ); 出i f 品weight ne 弘str 弘else %Iet wgtstmt=; 処理対象最小カテゴ')一本/ 引 e t fstcat = %eva1( & mi ncat + 1 ); 作業データセット作成 ( 1 )欠損値の除去キ/ data wrksu1 length 品var 品target 品weight 8 ; set 品data; i f nmiss(of 品target 品var 品weight)=O; keep &var 品target 品weight 品copy; r u n ; * 1 キ/ キ/ 変数情報の取り出しキ/ proc contents d a t a = = wrksu1ー (keep こ 品v ar) noprint out=̲wrkcnt̲(keep=name varnum label); r u n ;
proc sort data= wrkcntー
by varnum; run;
%end;
data ̲nu[[
̲
; set ̲wrkcnt endご [ast;
i
f [abe[=' ,then [abe[=name;
%end;
run;
ca[
[ symput(
'm
v
'1
1[eft(̲n
ー
)
, compress(name));
1[eft(̲n̲),[abe[
);
ca[
[ symput(
'm[
'1
R
E
Gによる処理*
1
i
f [ast then ca[[symput('v
n
o
',
compress(̲n̲));
run;
proc reg data=̲wrksu1 outest=̲wrkestー;品wgtstmt
mode[&target =
出i
f 弘upcase(&se[ect)=ALL 也then 弘[et inc[ude=&vno;
%do i
=
1 %to 品vno;
出i
f&
&
r
時 ine 0 弘then 刷。;
変数の判定 *
1
百[et w1=
品&m
v品i
;
proc freq data=̲wrksu1̲ noprint; &wgtstmt
目i
f品
品m品I = 品fstcat %then 品w1&fstcat;
百do i
=
1 %to 品vno;
%e[se %do;
{
也do j=品fstcat 弘to 品&m品 1
; 品w1品j 唱end; }
tab[es &&mv&i lout=̲www
品i
;
弘end;
%end;
run;
弘end;
弘e[
se 品&mv品1
;
弘do i
=
1 %to &vno;
ー
目
︒ω
ー
見put NOTE: Now checking &&mv品i
.
..
.
.
弘end;
品iend=[ast;
data nu[[
̲
; set ̲www
1 se[ection=stepwise s[e=品s[e s[s=品s[s 品detai[s 品mode[op
;
%if &inc[ude ne 弘str0 弛then %str( inc[ude 二品 inc[ude )
i
f (̲n̲ = 1
) and (品&mv&i ne &mincat) then do;
"
時 i", '0・
);
ca[
[ symput(
groupnames=
ニ1 弘to 品v
no; 品&mv品i
" 首end;
%do i
stop;
11
end;
%
if &out ne 弘str0 弘then
i
f [ast then do;
品mv&i く= &m
axcat and (n + &mincat ̲ &&mv&i) = 1 then
i
f&
ぺ compress(品&mv品i));
ca[
[ symput(
"m品i
"
r
泌i
", '0');
e[se ca[[ symput(
95二
品 [95 u95=
品u95
%str( output outコ̲wrkout p=
品predict r=
品residua[ [
品
。utop ; )
;
quit;
end;
run;
data ̲nu[[
̲
; set ̲wrkestー
;
弘end;
回帰係数処理ルーチン *
1
1
*選択された変数のチェック *
1
%do i
=
1 弘to 品vno;
1
* ーー一一一一一一一一一作業データセット作成 (
2
)分析変数の作成 *
1
data wrksu1
%[et w1=&
品mv品i
;
弘i
f &&m品 i=O出then 也do;
intercepニ1;
品i
",
'
.');
i
f &w1 = . then ca[
[ symput("m
set wrksu1
%end;
%do i
=
1 %to &vno;
目e[se %do;
弘[
et w1=&&mv&i
%if &&m
品ine 0 弘then 弘do
協do j
ご&mincat 弘to &&m品 i
; &w1&j=(&w1=&j); %end;
[abe[ 弘do j=&mincat 弘to 品&m&i; &w1&j="品&m[&i" %end;
",
'
.');
i
f &w1&fstcat = . then ca[[ symput("時 i
%end;
%end;
run;
%Iet count=O; %do i = l %to &vno; 百i f& &m&ine . %then 首let countご 首 eva1( &count + 1 ) ; %end; %if &count = 0 首then %do; 見p ut; 目put WARNING: There are no variables i n the model %goto out; 百e nd; 目︒品l %Iet count=O; data 剛 WO; length na問 catename $8 ; set %do i = l %to &vno; %if & 品m&i>= &fstcat and &&m & i< コ品maxcat 首then 首do; %str( 剛w&i( i nニi n & i )) %Iet count=%eval(&count + 1 ) ; 首e nd; %end; %do i = l %to &vno; &m& i >= &fstcat and & &m&i<= &maxcat 首then %do; %if & i fi n & i then do; name="& &mv&i"; catename 二c ompress(namelI&&mv&i); =&i; catenum end; 首e nd; %end; keep name catename count catenum; r u n ; 百i f &count = 0 %then %do; %put; %put WARNING: There are no categorical variables i n the model %goto out; %end; proc sort dataご ̲ w w w O ; by catename; run; ̲RMSE ー & target) proc transpose dataコ̲wrkestー (drop= out= trsest (rename=( name =catename l a b e lー ご l a b e l coll=beta)); r u n ; proc sort data=̲trsest̲; by catename; run; data ̲ w w w O ; merge ̲wwwO̲trsest̲(where=(beta ne .)); by catename; i f catena問 ne "INTERCEP"; i f catenum ne. run; proc sort data=̲wwwO; by name catename; run; /本回帰係数の平均の算出本/ data ̲www ・ ー set ̲wwwO; by name; retain value nn; i f first.name then do; ご0 ; nn=count; value end; else do; ニv a1ue + (beta 本 count); value nn=nn + count; end; i f last.name then do; i f nn ne 0 then value = value / nn; e1se va1ue = ., ca11symput( 川av"1 1 1eft(catenum),va1 u e ); 1 symputCnnn", n n ); ca1 end; rename count=freG; keep name catename count; r u n ; data ̲www; a b e l $40; length na問 $8 catenum add 8 l %do i = l 首to &vno; 百i f& &m & i ne . %then %do; v&i"; catenum =&i; label="ωml&i"; na問ニ"&&m 百i f& &m&i > 二 &fstcat and ω m&i<= &maxcat %then 百str(add =一( & &m av&i) ;) ; %else 首str( addニ .;); output; %end; 首e nd;
N T E R C E P ';catenum =‑l; I nameゴ 1 abe1 = '1 ntercept add = 0 百d oi = l %to& v n o ; 同i f& & m 品 i>=品 fstcatand &&m & i <ニ品maxcat%then 也d o ; +( &&mav&i ) % e n d ; % e n d ; o u t p u t ; r u n ; w w w ;b yn a m e ; proc sort dataご ̲ a m e ; data ̲www̲; merge ̲www̲ ̲www; by n i f catenan 官ゴ , t hen catename=name; r u n ; ;b y catename; r u n ; proc s o r t data=wwwー ‑Hom data ̲trsest̲; 1 * カテゴリーウェイ卜の計算 * 1 l e n g t h na 問 catename $8 l a b e l $40 category freq beta 8 ; merge̲trsest̲(where=(beta ne . ) ) ー 附Wー bycatename; l e n g t h cn $8 ; r e t ai ncn ' , i fa d d = .o r name ご, 1 N T E R C E P ' then category=.; else d o ; i f cn ne name then d o ; cn=name; category=&mincat; e n d ; else category+l; e n d ; d d ) ; beta = sum(beta,a i f freqニ. then freq =品 n n n ; drop add c n ; l a b e lご ' l a b e ln a m e = ' , catename=' r u n ; proc sort data=̲trsest̲; by catenumcategory; r u n ; 回帰係数の印刷 * 1 title&title "Category Scores and Regression Coefficients"; a b e l notsorted; i dl a b e l ; proc print data=̲trsest一 by l v a r category freq b e t a ;r u n ; proc chart data ご trsestー ; ニm ean sumvar=beta hbar category Idiscrete nozeros type group=I abe1; format beta 品fw ; r u n アイテム・レンジを印刷 * 1 title&title "Item Ranges of Categorical Scores"; proc summary data=̲trsest̲(where=(category ne . ) )n w a y ; class l a b e l ;v a rb e t a ; ー (drop=̲type̲̲freq ー ) range = r ange output out = ̲range r u n proc chart data=̲range 一' hbar l a b e l Idiscrete nozeros descending type=mean sumvar=range; format range &fw r u n ; 出力データセット作成 * 1 也i f&outest ne也s t r0 首then首d o ; u n ; data 品outest; set trsest̲; drop catenum; r 也e n d ; t r0 首then也d o ; %if &out ne也s ー ;b y catenum catename; r u n ; proc sort data=̲trsest ー score ( d r o p = name ー ); proc transpose data=̲trsest outニ by name notsorted; i d catename; i d l a b e l l a b e l ;v a rb e t a ; r u n ; data s c o r e ̲ ; 一type̲= 'S C O R E '; set score rename name=̲name̲; r u n ; 品o u t ; proc score data=̲wrkout̲ score=̲score̲ out= i d 品target &weight &predict 品r e s i d u a l &195 &u95 ©2; r u n ; data & o u t ; l e n g t h intercep v n o ; %do i = l 首to& %i f &&m&ine .也then & 品mv&i; 首e n d ;
目i f& &m&ine . and &&時 ine 0 弘then &&mv&i; 8・ 弛i f "©" ne ""目then %str( merge &out ̲wrksu1̲(keepご ©); ) ; 首e nd; Ipdiff 1 *tdiff * 1 ; 弘else 弘str( set & out; ) ; I abeI i ntercep='切片' 目do i = l 弘to &vno・ 首i f& &m & i ne .目then 弘str(& 品 mv&i="&&ml&i" ); 弘end quit; %end; title&title; 1 * 一一一一ー一一一一一一一一一一一一一一一一一一一一一一最終処理* 1 r u n ; 目i f 弘upcase(&workds) = DELETE 弛then title&title "Estimates' Averages of Independent and Dependent Variable 首do proc datasets Iibrary = work n o li s t; delete wrkcnt 1 *contents 出力 * 1 s 、 、 トー σ σ proc means data=&out & m axdec; &wgtstmt = l %to &vno; var 弘do i 目i f& &m&ine . %then &&mv&i; 弘e nd; &target &predict &residual; r u n ; 首e nd; 百else 弘d o ; title&title "The Average of the Dependent Variable"; proc means data=̲wrksu1 &m axdec; &wgtstmt var ⌖ r u n ; 首e nd; 1 * 一一一一一一一一一一一一一一 Proc GLMのLSMEANS(pdiff, tdiff)による処理* 1 首i f 弛upcase品 (pdiff) ne OFF 首then 首do; title&title "Testing Level Differences of Categories by GLM"; proc glm data=̲wrksu1̲; &wgtstmt = l 弘to &vno; class 弛do i &時 ine . and &&時 ine 0 弘then &&mv&i; %if & 首e nd; model &target = 目do i 二 1 弘t o&vno; 目i f& &m&ine .目then &&mv&i; 首e nd; Iss2; Ismeans 首do i = l 弘to &vno; w : 一剛 1 *変数型の子工ツヴ * 1 ̲wrkest̲ 1 *回帰係数データ * 1 ̲trsest̲ 1 *回帰係数データ * 1 弘i f &out ne 弘str0 弘then 首do; *REG出力データ * 1 wrkout 1 ̲score 1 *SCORE計算用 * 1 %end; *欠損値を除いた作業データ ̲wrksu1ー 1 Imemtype = data * 1 run qUlt 弘end %out: 弘put N OTE: Stepwise Suryoka 1 Rui by N.Mishima, Ver 0 .7, 1996 %put; 知n end stepsu1;
日本 S A Sユーザー会 (SUG I‑J) Bartholomew検定と多重対比検定 三輪哲久 農業環境技術研究所 調査計画研究室 Bartholomew'sTestsandM u l t i p l eC o n t r a s tTests 丁目s uhisaMiwa L a b o r a t o r yo fS t a t i s t i c s N a t i o n a lI n s t i t u t eo fAgro‑EnvironmentalSciences 要旨 用量反応関係のような [ J 目序制約のある対立仮説に対し,多重対比検定の観点 から Bartho[omew検定を検討する.対比に関する同時信頼区間や対比較への応 用,さらに SASによる p値の計算法について紹介する. キーワード: DATAステップ MULTTEST,二重修正 W i [ [ i a m s法 , PAVA,用量反応関係 1 . はじめに 用量反応関係のような順序制約のある対立仮説に対する先駆的な検定法として Bartholomew 検定がある.この検定法は, 1因子完全無作為化法実験 ( 1 元配置実験)における尤度比検定 として導出された. しかし,その検定統計量は無限個の対比のなかの最大対比統計量という性 質を持っている. 本報告では,この観点から Bartholomew検定を見直す.この検定法は, 2 因子以上の実験や 乱塊法実験にも適用することが可能である.対比に関する同時信頼区間の構成や対比較への応 用について紹介する.さらに, DATAステップで有意確率を計算するプログラムを与える. 2 .1 I 慎序制約付き対立仮説と多重対比検定 2 . 1 モデルと [ J 国序制約付き対立仮説 k個の互いに独立な処理平均値を Y l ' Y Z '…' Y kとする. y, ~N( μ"σ2 / w, ) ( 2 . 1 ) ( i= 1 ,2, … ヲ k) 一1 6 7
また,未知の分散 σ 2の推定値をゲ,その自由度を v とする. Wiは既知の定数である. δ2σ2χ2(V)/V ( 2 . 2 ) 未知パラメータ μi( i= 1 ,2, … ヲk )に対して,次の帰無仮説 H。と対立仮説 HIを考える. Ho:μ1‑μ2= . . . =μA ( 2 . 3 ) :μ 2g‑‑‑52μk H1: μ 1王 ( 2. 4 ) ただし H Iにおいて,少なくとも lつは厳密な意味の不等号である. 2 . 2 多重対比検定 Ckl は , 対比"を要素とする有限集合 Cを考える .cの要素 C = (C1,C2,…, L~=JW.凡= 0, CI: S ;C2壬・・壬 Ck ( 2 . 5 ) を満たす.このとき,統計量 Z W z C t Y t ( 2 . 6 ) 一 一 一 一 一 一 一 一 ‑ c‑zd F 7 6 I … 凋 X を検定統計量とする検定を多重対比検定 ( m u l t i p l ec o n t r a s tt e s t s ) と呼ぶ ( R o b e r t s o nら 9 8 8 ) . , 1 また,この方法は最大対比法と呼ばれることもある. たとえば k=4の場合 ,maxt法(栗木ら 1 9 8 9 )では,有限集合 Cは ( ‑ 3,1 1,1 ), ー 3 ) ), ー ,1 ,‑ ー ,1 ー ,1 , ,1 ,1 (1 (1 の 3つの対比からなる.浜田(1 9 9 6 )は,し、くつかの検定法の特徴を比較するとともに,実験 者によって事前に選択された複数の対比に対して M ULTTESTプロシージャによって多重性を調 整した p値を計算する方法を与えている. i l l i a m s法 2 . 3二重修正 W W i l l i a m sヲ1 9 7 1 )や修正 W i l l i a m s法 ( M a r c u s, W i l l i a m s法 ( 1 9 7 6 ) も,有限個の対比の中の最大値を検定統計量とす 2 . 6 )式のようには標準化されて る. しかし,各対比は ( 表1.修正 W i l l i a m s法における 対比と要素の 2乗和 対比 2 :C / I 也 )/ ,0 0,1 一 (1 I1 3 / 4 /2 /2,1 )/セラ ,0,1 一 (1 ゾ2 )/ ‑ 1 /2,0 ( ‑ 1 /2, ヲ1 I3/4 2 / 3 /3 /2ヲ ラ 1 /3 )ゾ ,1 ヲ 1 /3 一 (1 ゾ2 2 / 3 )/ ‑ 1 /3 爪ー1/3, ヲ1 一 (l /2 1 / / 2ヲ / 2 )/セ I1 2,1 ー 1 /2、 一 (1 ラ i l l i a m s法で比較さ いない.たとえば k=4の場合,修正 W れる対比と,その要素の 2乗和は表 lのとおりである. i l l i a m s法では, ー ) のパ W i l l i a m s法や修正 W ,0 ,1 (1 、 … ,0 ターンの対比に最も重点が置かれている.この傾向は処 I I I 理 数 k が大きくなるに従って強くなる.このため修正 W i l l i a m s法は,対比のパターンとして maxt法のパターンをすべて含んでいるにもかかわらず, ステップ状の変化を示す対立仮説に対して検出力が低い. i l l i a m s法をさらに修正した二重修正 W ここで,修正 W i l l i a m s法を考える.まず,制約条件 ) 2 を最小にする μ S ;) ‑μj Iを仏 ( μ i壬μ 2壬 … 壬 仙 の 下 で LWj(Y, ) II: I2壬…壬九)とする ι . は Yi か ら 出 発 し て , 順 序 が 逆 転 し て い る 処 理 平 均 値 を 順 次 併 合 し て い く PAVA ( P o o l ‑ A d j a c e n t ‑ R o b e r t s o nら V i o l a t o r sA l g o r i t h m ) によって得ることができる ( 9 8 8 )・以下では,便宜上).1., ラ 1 phU 1よ o o を最尤推定値と呼ぶことにする.
(
P
‑k ‑ P
‑
,
)/
‑
f
iが検定統計量として用し、られる.これは
修正 Wili
I
ams法では
(
ι
‑
A
l
)
/
J
E
=
!
?
お{‑Y,
l
(i
)+Y(
j
,k
)
}/
‑
f
i
(
2
.
7
)
Y(pd)=ZLWJYI/W(p,
q
), W(pd)=Zf=pW1
(
2
.
8
)
と表わすことができる.これに対し, (
2
.
6
) 式のように標準化した後での最大値
w=̲max
l~l<J 三k
プY,
l
(i
)+Y(
j
,k
)
(
2
.
9
)
I 1
1
σ1‑‑‑+一一一一一‑
W(I,
i
) W(
j
,k
)
を用いる方法を二重修正 Williams法と呼ぶことにする.これは max t法の対比パターンをすべ
て含んでおり, maxt法と次に述べる 8artholomew検定との中間的な性質を持つ.
二重修正 Williams法を SASで実行するには, MULTTESTプロシージャで表 lの 6つの対比
を指定すればよい.逆にいえば, MULTTEST プロシージャで対比を指定した場合,実行される
のは,修正 Williams法ではなく,二重修正 Williams法である.
3
.Bartholomew検定とその応用
3
.
1 多重対比法としての Ba吋holomew検定
2
一'Aσ
T
m
山
μ
'
xJ
a
B
't
y=2
一
v
c=ιt
w山=
D
下ハ
(
2
.
5
) 式の条件を満たす対比全体からなる無限集合を B とする.この無限集合からの最大値
(
3
.
1
)
を考える.最大値を与える係数,および最大値は次式で与えられる (Hogg,1965)・
C,
ocμ;‑Y
(
3
.
2
)
2 ~2 , "
.
2
IB=χk
Iσ
(
3
.
3
)
z;=ZWJ(ム
‑y)2, Y=LW,
y
;/
L
W
;
(
3.
4
)
ここで仏は順序制約 μ,
=
:
;1
1
2=
:
;.
. 三μ
k の下での最尤推定値であり,前項で述べた PAVA手1
)
買
によって求められる
.
z
;は, 8artholomew(1959) が尤度比検定から導出した統計量である.
分散 σ2が未知の場合,従来の 8artholomew検定では検定統計量として
F
‑‑ χ J
】
(
3
.
5
)
L
W
;
(
Y
;‑‑
P
;
)
2+v合2
が用いられる場合が多い.しかし,本報告では他の多重対比検定と同じ形式の (
3
.
1
)式 の ら を
用いる.これによって,無限個の対比に対する同時信頼区間の構成が可能となる.
3
.
2 パーセント点
W,が一定の場合について,統計量 t
H の上側 α 点を
t
,v;α) と書く.
H (k
P
r{t
k,
v;α)}=α
B >ら (
(
3
.
6
)
広津 (1976) は I因 子 完 全 無 作 為 化 法 配 置 (1元配置)の場合に,
B=y
.
;1
(
"
1
.
.
;+vδ2)=t~ /
(
t
;+v
)
(
3
.
7
)
1
6
9
のパーセント点を,処理数 k=3,
4,5と繰返し数 r= 2,3,4,5の組合わせに対して与えている.
y
a
n
‑
E
i
n
o
t
‑
G
a
b
r
i
e
l
‑Welshの方法 (
H
o
c
h
b
e
r
gら
, 1
9
8
7
) によって調整した規
また,上側確率を R
準 値 を ら (p,
k
,
v;α) と書く.
(
3
.
8
)
kv
;
α )=tB(p,
v
;αp
)
t
'
B(p,
ラ
α'P= 1ー(1一α)plk
(p=2,
3
ぃ
・
・
, k‑2)
α
'p‑α
(p= k
‑
1,
k)
3
.
3Bartholomew検定の応用
3
.
3
.
1 任意の対比の同時信頼区間
(
3
.
1)式, (
3
.
6
) 式より,任意の μ=(μb九…, μk
/に対して
P
r
{
L
W
j
Cj
(
y
j一μ
;
)三t
B
(
k,
v;α)δ~LW, Cj2 ,
VcE B}=ト α
が成り立つ.したがって,
C E B に対する信頼率 1
‑α
(
3
.
9
)
の片側同時信頼区間は
z
叫
M1
(
3
.
1
0
)
干
で与えられる.
3
.
1
0
) 式の信頼区聞がゼロを含まなければ,すなわち,
また任意の対比に対して, (
︑︑
︐ノ
1
1
(
今︑ J
LWjCjYjlδ~LWjC} >tB(k,
v
;
α
)
•
j
μj
であれば,帰無仮説 Ho:LWj
C
=0 は棄却される.次節において ,p値を計算する SASマク
ロプログラムを示す.
Bartholomew検定では無限個の対比を考えているので,データを見た後で示唆される対比に
対しでも,信頼区間の構成や有意性検定を適用することができる.
3
.
3
.
2対照処理との比較
c
o
n
t
r
o
l
) であり,対照処理と試験処理(i=2
,工…, k) との
たとえば,第 l処理が対照処理 (
1
0
s
e
dt
e
s
t
i
n
gp
r
o
c
e
d
u
r
eにより検定する場合には, Bartholomew検定を順に実行すればよ
比較を C
(J):μ1μ2ニ … =μf
い.まず第 lステップで i=kとおく.一般に第 iステップで,帰無仮説 H。
に対し Bartho1omew検定を実行する.この検定が有意でなければ, Ho
(
'
) を受容して検定手順を
o
(
j
) を棄却し i←iー l として次のステップに進む.
終了する.有意ならば, H
3
.
3
.
3任意のぺアの対比較
y
a
r
トE
i
n
o
t
‑
G
a
b
r
i
e
l札 f
e
l
s
hの方法を利用
任意の 2つの処理 iとj(iくj) を比較する場合には, R
o
(
f
,
j):μμ川 = … = 叫 に 対 し ,j‑i+1 個の y
j,
y h …,乃を用い, (
3
.
8
) 式の
する.帰無仮説 H
け
,k
,
v;α) を規準にして検定する.この検定が有意であれば, μ
tく叫と判定する.た
ら(
j‑i+1
) の比較から始め,順次,内側へ進む. 2つの処理が有意差無
だし,検定は両側(処理!と k
しと判定された場合には,その 2つの処理の間にある処理は,いずれも有意差無しと判定する.
この方法は, GLMプロシージャの MEANSステートメントの REGWQオプションに対応して,
REGWBともよぶべきものである.
ム
唱E
ワt
n
u
4.SASによる有意確率の計算と応用例
4.1 Ba同holomew検定のための SAS プログラム
以下に, PAVA 手順および, Bartholom巴W 検定の p 値を計算するためのマクロプログラムを
示す.具体的な計算法に関しては Robertson ら (1988) を参照されたい.
Program1
.PAV A手順の実行
%Macro pava(pavain二 pavai
n, pavaout=pavaout);
%* pavain: data set from Proc Means;
百* pavaout: output data set from this macro;
Proc Transpose Data=&pavain Out=tr̲mean Prefix=x; Var mean;
Proc Transpose Data=&pavain Out=tr̲w Prefix=w; Var ̲Freq̲;
;
Proc Means Dataニ&pavain Noprint; Output Out二 count̲k Nニk
Data 品pavaout;
Merge tr̲mean tr̲w count̲k;
Array x{100}; Array w{100};
Array jd{100}; Do i
=
l To k+1; id{j} 二 j
‑
l
; End;
j =k
;
Do UntjI(
n
gニ j
)
; ng = j
; jニ l
'
ニ2 T
o ng;
Do i
d[
i+
1
};
j=j+l; i1=id{i}; i
2ニ i
I
f(
x[i
1
} x[
i2}) Then Do;
}*w[
i1
} + x[
i2
}*w[
i2
}
)/(
w[
i1
} + w[
i2
});
x[
i2
}= (
x[
i1
}+w[i2}; j = j一1;
w[i2} = w[i1
End:
id[j+1
}ニ i
d[
i+
1
};
End: End・
Do i
ニ1 To n
g;
}
;
Do j=id[i}+l To id[i+1
m
l mean 二 x[
i
d[i+l}};
Keep ml̲mean; Output;
End; End;
Data 品pavaout;
Merge &pavain 品pavaout;
Run:
百Mend pava;
>
Program2
.Bartholom巴W 検定の p値の計算
出Macro p̲brth(brthin
二b
rthi
n, brthout=brthout);
首* brthin: k, Df, f̲brth contained;
%* brthout: output data set from this macro;
;
Data &brthout; Set 品brthin; Drop n 1
Array plk[100} ̲Temporary̲ (
0, 1, 0);
Do n二 2 To k
; plk[n+2} = 0
;
Do I=n To 1 By ‑1;
} = (plk[I}+(n‑1
)*plk[I+1
}
) /n
;
plk[I+1
End; End;
p̲brth = 1‑plk[2};
Do 1=2 To k
;
p̲brth = p̲brth ̲ plk[I+1}*ProbF(f̲brth/(1ー
1
)
,
End:
Run:
百Mend p̲brth;
I
ー1, Df);
Program3
.Bartholom巴w 検定
%Macro brthlmw(pavaout二 pavaout, glmout二 g1
mout, brthout=brthout);
百* pavaout: data set from %Macro pava;
百* glmout: data set from Proc GLM;
%* brthout: output data set from this macro;
品pavaout Noprint;
Proc Means Data=
Var mean ml̲mean; Weight ̲Freq̲・
1
7
1
Output O u tニnum̲vVar=mean̲v ml̲v N = k ; Data d e n ̲ s s ; Set & g l m o u t ;K e e pS SD f ; I fー (T ype 一=' E R R O R ' ) Then O u t p u t ; Data b r t h i n ; Merge num̲v d e n ̲ s s ;K e e p kD f f̲brth p ̲ f ; f̲brth =ml̲v*(k一1 )/ S S * D f ; , 干 k ‑ 1, D f ) ; p 一千= 1̲ ProbF(mean v/SS*D R u n ; %p̲brth(brthin=brthin, brthoutニb r t h o u t ); %Mend b r t h l m w ; 4 . 2計算例 例として畑苗代における葉いもち防除薬剤試験を考える.水稲品種 2水 準 × 薬 剤 濃 度 6水 準を 3ブロックの乱塊法で実施した.病班面積率について 3ブロックの平均値を表 2に示す. Iからんにかけて濃度が高くなっている.特性値の葉いもち病 処理んは薬剤無散布であり ,A 班面積率は,濃度が高くなるにつれて値が小さくなることが期待される.しかし,薬剤濃度と 特性値との聞の関数関係を事前に想定することは困難である.そこで, Bartholomew 検定を利 用して処理平均値の比較を行なう. 表2 . 処理平均値 (病班面積率%, 3ブ、ロック平均値) 薬剤濃度 A AI A2 AJ A4 A5 平均 7 9 . 0 4 5 . 3 3 9 . 3 3 5 . 3 3 6 . 3 3 6 . 3 4 5 . 3 品種 V1 9 . 2 . 7 71 .0 4 2 . 3 4 3 . 7 3 0 . 3 3 6 . 0 4 V2 71 7 . 2 5 . 3 5 8 . 2 4 0 . 8 3 9 . 5 3 3 . 3 3 6 . 2 4 平均 7 。 8 0 当 ミ ~ 60 時 際 4 0 阻 認 20 t 事 注)下線は, 5%の多重 Bartholomew 検定 (REGWB) で有 意差がないことを示す. Program4 .Bartholomew検定を実行するブ。ログラム Options LS=64 N o D a t e ; e" e x a m p l e . p r n " ; Data e x a m p l e ;I n干il D or = 1T o3 ;D ov = 1T o2 ;D o a=OT o5 ; I n p u t y申 @ Output; E n d ;E n d ;E n d ; x p e r i m e n t " ; Title "ANOVA 0干干 ungicidee P r o c GLM Data二 exampleOutStat=glmout; Class ra v : M o d e l y = rava * v/ S S 1 ; Means a/ R E G W Q ; Proc Print Data=glmout; Proc Means Data=example N w a yN o P r i n t ; V a ry ; Class a ; Output Out=pavain M e a n = m e a n ; a v a i n ; Proc Sort Data二p B y Descending a ; %pava( p a v ai n=pavai n, pavaout=pavaout); A V A " ; Title "Result 0干 P Proc Print Data=pavaout; 私b rthlmw(pavaout ニp avaout, glmout=glmout, brthoutニbrthout); Title "p values of F test and Bartholomew's test": Proc Print Data=brthout; Run; 1 7 2 。 AOAl A2A3A4A5 図1.処理平均値
Output1 . 分散分析 4 ANOVA 0干干しJngicide experiment NAME 4lqζqd 凋ιマ に1 u YYYYY SOURCE TYPE ERROR ERROR SS1 SS1 SS1 SS1 R A V A*V DF η4nLRJV4lRJu q4 OBS SS F PROB .61 3671 262.39 7953.56 136.11 1104.56 0.78611 9.53141 0.81557 1.32368 O .46800 O .00006 0.37626 O .29075 Output2 .PAVAの実行結果 5 Result 0干 PAVA 1 2つ JV456 R J V 凋ιマqdqζ4lnu TYPE FREQ 内 A hunnunnunnunnunnu OBS MEAN ML MEAN 3 6 .1667 3 3 .3333 3 9 .5000 4 0 .8333 5 8 .1667 75.3333 3 4 .7500 3 4 .7500 3 9 .5000 4 0 .8333 5 8 .1667 75.3333 Output3 .F検定と Bartholomew検定の p 値 P values 0干 F test and Bartholomew'5 test OBS K DF F BRTH PF P BRTH 6 22 47.5128 000060241 .0000031192 6 Output4 .REGWQによる対比較 ANOVA 0干干しJngicide experiment 3 General Linear Models Procedure Ryan‑Einot‑Gabriel‑Welsch Multiple Range Test 干or variable・ Y Alpha= 0.05 d干= 22 MSE= 166.8914 Number 0干 Means 2 3 4 .1146222.103212 Critical Range 19.269428 21 5 6 Number 0干 Means Critical Range 22.129475 23.234524 i干 干 erent. Means with the same letter are not signi干icantly d REGWQ Grouping Mean N A nununununununu DDnDnDnDnDnDnD AHAunAun 。 7 5 .333 6 58.167 6 4 0 .833 6 2 3 9 .500 6 3 36.167 6 5 3 3 .333 6 4 この例では, 対立仮説は H1 :怖さ μI さ・・・芝山であるから, Program4 で SORTプロシージャ ‑173一
を実行している. Output2で,変数 ml̲mean(
こ PAVAの結果が示されている.
5
0
‑
と高度に有意である (
O
u
t
p
u
t
1,Outpu
t
3
)
. しか
分散分析による F検定で,すでに p = 6 X 1
し Bartholomew検定では,さらに小さな p = 3 X 1
0
‑6を与える.処理聞の対比較を G
L
Mプロシ
.
3
.
3項に述べ
ージャの REGWQオプションで実行した結果を Output4に示す.これに対して, 3
た方法で対比較を実行するとん,
AJ,
んは互いに有意差ありという結果になる(表 2
).
表 2および図 lから,んからんまでは直線的に病班面積率が減少し,その後は効果が飽和
3,1
,‑1,‑1,‑1,‑1) を検
するとしづ応答が示唆される.そこで,データから示唆された対比 (
) は高度に有意である.
定するプログラムを Program5に示す.結果 (Output5
Program5
. 対比の検定 (
p値の計算)
D
a
t
ac
t
̲
i
n
;K
e
e
p kD
ff
̲
b
r
t
h
;
M
e
r
g
et
r
̲
m
e
a
nt
r
̲
w c
o
u
n
tk d
e
n
̲
s
s
;
A
r
r
a
y x{
6
1
;A
r
r
a
yw
{
6
1;
A
r
r
a
yc
{
6
1一
(1,
一 1,‑
1,
一 1,1
,3
)
;
n
u
m
ニ0
;d
e
n
=
O
;
ニ1T
o6
;
D
oi
n
u
m= n
u
m+ w{
i
I
*
c{
i
I
*
x{
iI
;
d
e
n=d
e
n+ w{
iI
*
c{
iI
*
c{
i
};
E
n
d
;
u
m
*
n
u
m
!
d
e
n
!
S
S
*
d
f
;
f
̲
b
r
t
hニ n
百p
̲
b
r
t
h
(
b
r
t
h
i
n
=
c
t
̲
i
n, b
r
t
h
o
u
t
=
c
t
̲
o
u
t
)
;
(1,
一1
,
ー1
,
一1
,1
,3
)
"
;
T
i
t
l
e"
T
e
s
to
fc
o
n
t
r
a
s
t一
t
̲
o
u
t
;
P
r
o
cP
r
i
n
tD
a
t
a二 c
R
u
n
:
Output5
. 対比の検定における p 値
T
e
s
to
fc
o
n
t
r
a
s
tー
(1
,
ー1
,
一1
,
一1
,1,3
)
O
B
S
K
D
F
F BRTH
P BRTH
6
2
2
4
6
.
3
4
0
1
.
0
0
0
0
0
3
7
5
1
2
7
参考文献
Bartho1omew,
D.J
.(
1
9
5
9
)
.A t
e
s
tofhomogeneityf
o
ro
r
d
e
r
e
da
l
t
e
r
n
a
t
i
v
e
s,
B
i
o
m
e
t
r
i
k
a
,46,3
6
‑
4
8
.
浜田知久馬 (
1
9
9
6
)
.SASによる用量相関性の解析, SUGI‑J'96論文集, 3
3
1
‑
3
4
6
.
広津千尋 (
1
9
7
6
)
. 分散分析,教育出版,東京.
Hochberg,
Y.andTamhane,
A.C
.(
19
8
7
)
:M
u
l
t
i
p
l
ec
o
m
p
a
r
i
s
o
np
r
o
c
e
d
u
r
e
s
,
JohnWiley& S
o
n
s
.
,R
.V.(
1
9
6
5
)
.Onmodelsandh
y
p
o
t
h
e
s
e
sw
i
t
hr
e
s
t
r
i
c
t
e
da
l
t
e
r
n
a
t
i
v
e
s,
J
.A
mer.S
t
a
t
i
s
t
.A
s
s
o
c
.,
60,
Hogg
1
1
5
3
‑
1
1
6
2
.
栗木哲,広津千尋, Hater,A.1
.(
1
9
8
9
)
. 累積カイ二乗の最大成分に基づく多重比較一有意確率計
算と用量水準比較への応用一,応用統計学, 18,129‑141
.
Marcus,
R
.(
1
9
7
6
)
.Thepowersofsomet
e
s
t
so
fe
q
u
a
l
i
t
yofnormalmeansa
g
a
i
n
s
tano
r
d
e
r
e
da
l
t
e
r
n
a
t
i
v
e,
B
i
o
m
e
t
r
i
k
a
.
6
3
.1
7
7
‑
1
8
3
.
R
o
b
e
r
t
s
o
n,
T
.,Wright,F
.T
.andDykstra,R
.L
.(
19
8
8
)
:O
rderr
e
s
t
r
i
c
t
e
ds
t
a
t
i
s
t
i
c
a
li
n
f
e
r
e
n
c
e,
JohnWiley
&S
o
n
s
.
19
7
1
)
.A t
e
s
tf
o
rd
i
f
f
e
r
e
n
c
e
sbetweent
r
e
a
t
m
e
n
tmeanswhens
e
v
e
r
a
ld
o
s
el
e
v
e
l
sa
r
e
W
i
l
l
i
a
m
s,D.A.(
comparedw
i
t
haz
e
r
od
o
s
ec
o
n
t
r
o
l,
B
i
o
m
e
t
r
i
c
s
,
27,
1
0
3
‑
1
1
7
.
‑174
日本 S A Sユーザー会 (SUG I‑J) SAS/IMLを利用した単一事例実験データの生成,及びモンテカルロ法による ランダマイゼーション検定の検定力推定 山田剛史 東京大学大学院教育学研究科 総合教育科学専攻教育心理学コース博士課程 G e n e r a t i o no fS i n g l e ‑ C a s eDatab ySAS/IML andPowerE s t i m a t i o nf o rR a n d o m i z a t i o nTe s tb yMonteC a r l oMethod T s u y o s h iYamada Departmento fE d u c a t i o n a lPsychology, GraduateS c h o o lo fE d u c a t i o n,U n i v e r s i t yo fTo k y o . 要旨 SAS/IMLには時系列データ発生関数 ARMASIMが用意されている.本論文では,この関数を用 いて単一事例実験データを生成する方法を説明し,さらにそのデータにランダマイゼーション検 定を適用したときの検定力をモンテ・カルロ法を用いたコンピュータシミュレーション実験によ り推定する. ,SAS/IMLソフトウェア, ARMASIM,単一事例実験計画,ランダマイゼーション検定, キーワート: 検定力,モンテ・カノレロ法. 1 . はじめに 単 事例実験計画とは,行動療法,行動分析,臨床実践研究,特殊教育研究などといった幅広 い領域で利用されている実験計画のことである.この方法はその名の通り,単一の被験体につい て,時系列に沿って繰り返しデータ測定を行うことを基本としている.この研究法で得られたデ ータの分析は専ら,データをグラフ化して目で見て評価する視覚的判断に頼っているのだが,こ の視覚的判断は分析方法として様々な問題を抱えている.特に問題となるのは,その手続きの客 観性と,効果があったときに正しくその効果を検出し得るのかということである. こうしたことから,視覚的判断を補佐する,あるいは,視覚的判断に代わるものとして,単一 事例実験データへの統計的検定手法の適用が考えられてきた.しかし,そうした検定手法につい ても,処理の効果を正しく検出できるのかという,分析道具としての鋭敏さの問題は十分には解 明されていない.そこで,単一事例実験データへの統計的検定の適用について,処理効果が存在 ‑175
するときに正しくその効果を検出できる程度,すなわち,その方法の持つ検定力について,モン テ・カルロ法を用いたコンピュータシミュレーション実験によって推定することを本研究の目的 とする. 2 .A8デザインとランダマイゼーション検定 2 .1 .ABデザイン 単一事例実験計画の基本は,時間軸に沿ったデータの繰り返し測定である.この研究法におけ る最も基本的なデザインの一つに ABデザインがある.これは,初めに何も処理を施さないベー スライン期の測定があり(これが A 期),これはグループ比較研究で言えば統制群に相当する.そ して,処理期での測定が続き(これが B期),これがグループ比較研究の実験群に相当する. 2つの 期(フェーズとも呼ばれる)におけるデータを比較することによって処理の効果を確認する. AB デザインのような単一事例実験データにティ検定やエフ検定といった方法を適用するのは 適切とは言えない.単一事例実験データは,基本的に一つの被験体について繰り返し測定を行な った時系列データである.時系列に沿って測定された結果には,相互に相関関係を示す傾向があ る.つまり,時間軸に沿って集められたデータでは,ある時点での被験体のデータから閉じ系列 の次の時点におけるその被験体の状態をある程度予測できてしまう.こうしたデータは系列依存 性のあるデータと言われる.この系列依存性が,単一事例実験データの特徴であり,データの分 析を困難にする原因となっている.すなわち,単一事例実験データにティ検定・エフ検定を適用 するのがふさわしくないのは,データ相互間の独立性という仮定が満たされないためである. そこで,パラメトリックな統計的検定の代わりに,ノンパラメトリック検定を単一事例実験デ ータに適用することが考えられた.様々なノンパラメトリック手法が単一事例実験データの評価 g i n g t o n, 1 9 9 2 )が,特に多くの研究者から推奨されてきたのがランダマイゼー に提案されている但 d s k& M a r a s c 凶 0, 1 9 9 2 ;E d g i n g t o n,1967,1992,1 9 9 5 ;L e v i n,M a r a s c u i l o& H u b e r t , ション検定である(Bu 1 9 7 8 )・ 2 . 2 . ランダマイゼーション検定 ランダマイゼーション検定はノンパラメトリック検定の一種であるが,その特徴としては,無 作為抽出 (random sampling)を必要としない統計的検定であること,無作為配置 (random assignment)によって群を確率的な意味で等質化することなどがある. ランダマイゼーション検定の手続きは以下の通り. 1 . 片側検定か両側検定かを選ぶ(帰無仮説は条件の違いによる処理効果の差がないというこ ‑176
と) 2 . 有意水準 α を決める 3 . 実験条件をランダムに振り分ける 4 . 検定統計量を決める 5 . 実験を行い,データを収集する 6 . 実験で得られたデータについて検定統計量の実現値を算出する 7 . 考えられる全てのランダム振り分けの組み合わせについて検定統計量を算出して,検定統計 量の分布を得る 8 . 実験から得られた検定統計量の実現値以上の,検定統計量が得られるランダム振り分けの組 み合わせが何通りあるか調べ, p値を算出する 9 . P壬 αなら帰無仮説を棄却し ,p>αなら棄却しない 2 . 3 .ABデザインへのランダマイゼーション検定の適用 E d g i n g t o n ( 1 9 7 5 )は , ABデザインに適用できるように,ベースライン期から処理期に移る,処理 の導入のポイントをランダムに決める方法を提案した.この方法は更に拡張され, AB デザイン 以外の様々なデザインへ適用できるよう多くの方法が開発されている. 例えば, 25個の観測値を持つ ABデザインのデータがあったとする.ベースライン期,処理期 にそれぞれ最低 3個の観測値を持つという制約をつけると,処理の導入は 4番目から 23番目のい ずれかからということになる.つまり,処理の介入ポイントについて 20通りの組み合わせが考え られる. 5番目の観測値だったとしよう.実験から得られた 実際の実験における.処理の介入ポイントが 1 データから,処理期のデータ ( 1 5番目から 25番目の観測値)とベースライン期のデータ ( 1番目から 14番目の観測値)の平均値差を算出し,これを検定統計量の実現値とする.可能な組み合わせ 2 0 通りについても同様に検定統計量を算出し,検定統計量の実現値が 20の検定統計量の中でどれだ け極端な値かを調べる.もし 20通りの中で一番値が大きければ,その p値は 1/20ということに なるわけである.この p値をあらかじめ定めておいた有意水準と比較し, p値の方が小さい値な ら帰無仮説を棄却し,そうでなければ棄却しない. 3 . モンテ・力ルロ法による検定力推定について 3 . 1 . モンテ・力ルロ法による検定力推定 多くのパラメトリック検定に対しては,検定力分析の環境は整っている. { 9 j J えぱ,検定力を求 めるための表や図が様々な本に載っている (eιCohen, 1 9 8 8 ;L i p s e y, 1 9 9 0 )し,検定力を算出するため のソフトウェアも数多く用意されている ( G o l d s t e i n, 1 9 8 9 )・しかし,ランダマイゼーション検定は, 可aA ワt ワt
検定力を求めるために,通常のパラメトリック検定で用いられている検定力算出の方法が利用で きない.そこで,モンテ・カルロ法例o n t eC a c l oMethod)と呼ばれる方法を用いた検定力の推定 が提案されている. r r o n& Onghena, 1 9 9 6 ;F e r r o n& Ware, 1 9 9 5 )に倣い, 2 5個の観測値を持つ 本論文では,先行研究(Fe AB デザインのデータにランダマイゼーション検定を適用したときの検定力をモンテ・カルロ法 によって推定する,その方法を紹介する.モンテ・カノレロ法とは,コンピュータで乱数を発生さ せて実験的にデータを作り出して分析する方法のことである.モンテ・カルロ法を用いたコンピ ュータ・シミュレーションは,次節のような手続きで行われる. 3 . 2 . シミュレーション実験の手順 1 . 実験に用いるシングルケースデザインを選択する. 2 . 生成させる単一事例実験データの自己相聞の値,データポイントの数及び効果量を定める. 3 . 帰無仮説 H。の棄却数 (COUN司の初期値を 0に設定する. 4 . 時系列データを発生させる. 5 . 時系列データに効果量を加えて,単一事例実験データを生成する. 6 . 単一事例実験データにランダマイゼーション検定を適用する. 7 . 検定の結果, p値が 0 . 0 5以下なら, COUNTの値を更新する(COUNT=COUNT+1 )・ 8 . 上記の 4~7 の手順を 10, 000 回繰り返す. 9 . 1 0 , 000 回の中で H。が棄却された比率 (COUNT/ 1 0 0 0 0 )を検定力の推定値とする.同時に推定 値の標準誤差も計算しておく. なお,有意水準は, α=0.05とし,ベースライン期と処理期のデータの平均値差を検定統計量(片 側検定)として用いることにする. 検定力の推定値の安定性は,標準誤差を算出して,その値により評価できる.反復回数を 10, 000 回にすることにより,推定値の標準誤差の最大値を 0 . 0 0 5 に押さえることができる.この値は, 000回に決定する. 本研究の目的に照らし合わせて十分に小さいと考えられるので,反復回数を 10, 3 . 3 . 時系列データの発生について SAS/IML による時系列データの発生 時系列データの発生には, SAS/IMLv e r . 6 . 0 4 の時系列データ発生関数 ARMASIM を用いた. ARMASIMは p次の自己回帰モデノレと q次の移動平均モデルを組み合わせたモデルである, 自己 a u t o r e g r e s s i v emovinga v e r a g em o d e l ),略して ARMA(p, q)を利用した時系列デ 回帰移動平均モデル ( ータ発生関数である.この ARMASIMでは,自己相関パラメタ併と移動平均パラメタ θを与える ‑178一
ことにより,長さ n個の時系列データを発生させることができる.このプログラムは W o o d f i e l d ( 1 9 8 8 )によるシミュレーションアルゴリズムを用いて書かれている. 初 期 値 九 九 …, Y 門 , 4目 ' : LBA→ (t=p+q,p+q+1,..., n‑1) ) ( : L ~ =‑ O i~-i +Gt+ が生成された後に,残りの値がモデ、ルから再帰的に生成される.モデ l ルにおける誤差項 εは,正規乱数発生関数 R N 吋NORによって発生させている.この正規乱数発 生関数は,一様乱数発生関数 RANUNIに対して B叫ox 正規分布に従う乱数を発生させるものである. 1次自己回帰モデルと自己相関の値の選択 本研究では先行研究(Fe r r o n&Onghena, 1 9 9 6 ;F e r r o n&Ware, 1 9 9 5 ;Greenwood&M a t y a s, 1 9 9 0)に合 わせて,発生させる時系列データのモデルとして, 1 次自己回帰モデルを選択し,自己回帰パラ ム0 . 0, 0 . 3, 0 . 6の 4つの値を用いることにする. 一般に, 1次自己回帰モデル AR(l) メタとして, ‑ 0 は次式で与えられる. Yt=O Y t ‑ 1+ε 2 ( t= 1 , 2,…) ( 2 ) Yt・時系列における t番目のデータ φ自己回帰パラメタ .AR(l)では,ラグ 1の自己相関係数に等しい 久:誤差項.Ji.いに独立に標準正規分布に従う ARMASIM による 1次自己回帰モデルの表現 時系列データ発生関数 ARMASIMを用いて 1次自己回帰モデ、ルに基づく時系列データを発生さ 1 )式において,移動平均パラメタを用いないので, θ ' i = O とおいて第 3 項を消去し, せるには, ( p=l, q=Oとおけばよい.すると ( 1 )式は, ‑ o~-I +久 ~ = となる.ここで, ( 3 ) o , Y の前にマイナスの符号がついていることに注意しなければならない. ‑i ( 1 )式を用いて ( 2 )式を表現する際はこのように,自己回帰ノ 4ラメタの符号の逆転が起こる.つまり, ARMASIM では自己相聞の値を式に代入する際,符号を変えて代入する必要があるのである. 3.4.単一事例実験データの生成 1 7 9
先の手続きで発生させた時系列データに効果量を加えることによって,単一事例実験データを M e ‑ n ‑ ι υ ‑ ZE ‑ ‑ e ‑ 一 山一 μ r s 同 一 r‑t a ‑ e ‑ n ‑ ‑ 一 一e ‑ μw 一 ︒ 向 生成させる.ここでの効果量 δは次のように定める. 分子は処理期とベースライン期のデータの平均値差.分母の σ εは , ( 2 )式の誤差項 εの標準偏差で ある.効果量の値は,先行研究に従い 0 . 0,0 . 2,0 , 5 .0 . 8,1 . 1 ,1 .4の 6つを利用する. 3 . 5 . 検定力の推定結果 上記の手続きにしたがって, 2 5個の観測値を持つ ABデザインについて,ランダマイゼーショ ン検定の検定力の推定を行なった結果を表 1に示す.表 1では, 4つの自己相聞の値, 6種類の効 4の場合について効果量の推定値を提示している.ベースライン期, 果量のもとでの,つまり, 2 処理期それぞれ最低 3つ以上の観測値を持つという制約をつけているため,処理の介入ポイント は 4番目から 2 3番目のいずれかの観測値ということになる. いずれの自己相聞の値のもとでも,効果量が 0 . 0のときの推定値は 0 . 0 5に非常に近い.これよ り,第 1種の誤りの統制は良くなされていることが分かる(効果量が 0のときの表の値は,処理 の効果がないときに効果有りとしてしまう誤りの確率,すなわち,第 1種の誤りの確率を表して いる) .n =25とサンプルサイズがノj、さいためか,総じて検定力は小さく,全ての場合で 0 . 5を超 える検定力が得られたものはなかった. 表1 :ABデザインの検定力の推定値 e f f e c ts i z e ゆ=‑ 0 . 3 ゆ=0 . 0 ゆ=0 . 3 。=0 . 6 0 . 0 0 . 2 0 . 5 0 . 8 1 . 1 1 .4 . 0 5 0 . 0 8 2 . 13 1 . 2 1 8 . 3 0 0 . 3 8 4 . 0 4 7 . 0 7 5 . 1 2 5 . 1 8 8 . 2 7 0 . 3 5 3 . 0 5 0 . 0 7 5 . 1 1 2 . 1 6 2 . 2 3 5 . 3 0 6 . 0 4 7 . 0 6 4 . 1 0 2 . 1 3 8 . 1 8 0 . 2 3 9 4 . 参考文献 1 . Busk,P .L . , &M a r a s c u i l o,L .A . ( 1 9 9 勾 .S t a t i s t i c a la n a l y s i si ns i n g l e ‑ c a s er e s e a r c h :I s s u e s, p r o c e d u r e s,andrecommendations, wi出 a p p l i c a t i o n st om u l t i p l eb e h a v i o r s .I nT .R .Kr a t o ‑ c h w i l l& J .R .L e v i n( E d s . ),S i n g ! e ‑ c a s er e s e a r c hd e . 噌na n da n a ! J s i s :Newd i r e c t i o n s ) らr p r y c h o / ' ψ a n d e d u c a t i o 刀( p p . 1 5 9 ‑ 1 8 5 ) .H i l l s d a l e,NJ :Erlbaum. 2 . Cohen,J .(1988) .S t a . 前 βc a !p o w e ra n a ! J s i sf l rt h eb e h a v i o r a !s c i e n c e s ( 2 n de d . ) .H i l l s d a l e,NJ : E r l b a u m . 1 8 0一
3 . E d g i n g t o n,E .5 . ( 1 9 6 7 ) .5 t a t i s t i c a li n f e r e n c e fromn=1 e x p e r i m e n t s .J o u r n a lザ P s y c h o l o g y , 65 , 1 9 5 ‑ 1 9 9 . E .S .( 1 9 7 5 ) .Ra n d o m i z a t i o nt e s t sf o ro n e ‑ s u b j e c to p e r a n te x p e r i m e n t s .J o u r n a lo f 4 . E d g i n g t o n, , 9 0 , 5 7‑ 6 8 . P s y c h % g y 5 . Edgington, E .S . ( 1 9 9 勾 .Nonparam位 i ct e s t sf o rs i n g l e ‑ c a s ee x p e r i m e n t s . I nT .R .Kr a t o c ‑ .L e v i n( E d s . ),5, 勾l e ‑ c a s er e s e a πhd e s . 伊 a n da n a f y s i s :Newd i ; 町 t i o n sf o rpグc h o l o g ya n d h w i l i&].R e d u c a t i o n( p p . 1 3 3 ‑ 1 5 7 ) .H i l l s d a l e, N J :E r l b a u m . E .S .(1 9 9 5) .& i n d o m i 伊t i o nT e s t s (3 r de d . ) .NewY o r k :M a r c e lD e k k e r . 6 . E d g i n g t o n, 7 . F e r r o n, ] . , & 0時 hena,P . ( 1 9 9 6 ) .Thepowero fr a n d o m i z a t i o nt e s t sf o rs i n g l e ‑ c a s ep h a s e d e s i g n s .J o u r n a lo fE" φe n ' m e n t a lE d u c a t i o n , ω, 2 3 1 ‑ 2 3 9 . 8 . F e r r o n, , . ] & Ware,W.B . ( 1 9 9 5 ) .Ana l y z i n gs i n g l e ‑ c a s ed a t a :Thepowero fr a n d o m i z a t i o n t e s t s .J o u r n a lo f E x p e r i m e n t a lE d u c a t i o n , 6 3 , 1 6 7 ‑ 1 7 8 . 9 . G o l d s t e i n, R . ( 1 9 8 9 ) .Powerands a m p l es i z ev i aMSjPC‑DOScompute江 A m e r i c a n5 t a t i s t ‑ i d a n , 4 3 , 2 5 3 ‑ 2 6 0 . 1 0 . Greenwood ,K M.,& Matyas,T .A .( 1 9 9 0 ) .P r o b l e m sw i白 血 ea p p l i c a t i o nofi n t e η u p t e d b j e c td a t a .B e h a 仰r a lA s s e s s m e n t , 1 2 , 3 5 5 ‑ 3 7 0 . t i m es e r i e sa n a l y s i sf o rb r i e fs i n g l e引 l 11 .L e v i n, ] .R . , M a r a s c u i l o,L .A . , & Hubert,L .] . ( 1 9 7町 .N ‑nonparametricrandomization .Kr a t o c h w i l l ( E d . ),Sirψう ゆj e c tr e sは c h :S t r a t 怨 ,i e sf o re v a l u a t i n gc h a n g e ( pp . 1 6 9 ‑ t e s t s .I nT .R 1 9 6) .NewY o r k :AcademicP r e s s . 1 2 .L i p s e y ,M.W . ( 1 9 9 0 ) .D e . 屯ns e n s i t i v i r y :S t a t i s t i c a lp o w e rf o re x p e r i m e n t a lm e a r c h .NewburyP a r k , CA:S a g e・ 1 3 . Onghena , P . ( 1 9 9 4 ) .Th ep o w e ro fr a n d o m i 伊t i o nt e s t s プo rs i n g ιc a s ed e . 噌n s .Unpublishedd o c t o r a l Kat h o l i e k eU n i v e r s i t e i tLeuven, B e l g i u m . d i s s e r t a t i o n, ι 1 4 . SASI n s t i t u t eI n c . ( 1 9 9 0 ) .SAS jIMLS砂 ' a r e :Us 停 , a n dR e f e r e n c e ,V e r s i o n F i r s tE d i t i o n .C a r y , NC:SASI n s t i t u t e . .E .,& FurlonιM.] . ( 1 9 8 1 ) .Ra n d o m i z a t i o nt e s t si ns i n g l e ‑ s u b j e c td e s i g n s : 1 5 . Wampold,B I l l u s住 a t i v ee x a m p l e s .J o u r n a lo f B e h a v i o r a lA s s e s s m e 叫 4 , 4 6 3 ‑ 4 7 5 . 1 6 .W o o d f i e l d , T .] . ( 1 9 8 8 ) .S i m u l a t i n gs t a t i o n a r yGa u s s i a nARMAt i m es e r i e s .C o ゆu t e rs d e n c ea n d s t a t i s t 加 ,: P 仰 e d i 目停 o f 2 0 t hク押印' u mo nt h ei n t e φc e , 6 1 2 ‑ 6 1 7 . 1 8 1 ‑
日本 S A Sユーザー会 (SUG I‑J) SASMIXEDモデルを用いた成長曲線分析とその応用 0李 聖県牟 古庄敏行・・ ・岡山大学環境理工学部 大竹正徳牟 牟・杏林大学保健・疫学部 A Growth CurveAnalysis and i t sApplication usingSAS MIXEDmodel SungHeeLee牟 ToshiyukiFurushou牟 MasanoriOtake牟 • FacultyofEnvironmentalScienceandTechnology、 OkayamaUniversity 牟 SchoolofHealth KyorinUniversity 要旨 MIXED モデ、ノレでは誤差項 E の共分散行列に対して様々なモデル化を行い、成長曲線分析に関する 複雑なモデ、/レの解析を可能にする。今回の発表では、 SAS MIXED モデ、ノレを用いた具体的な例として成 長曲線分析について議論する。 キーワード: MIXEDモデル(SASMIXEDプロシージャ)、成長曲線分析、非線型モデル 1.はじめに 経時データとは実験の対象になっている各個体について経時的に、または異なる条件のもとで繰り返 し測定することによって得られるデータのことである。成長に関する測定の場合には成長データ (Growth D a t a )と呼ばれる。経時データの解析においては、個体の成長の変化を経時的に記述し、および、観察さ れているグループ、または処理条件毎の成長ノ fターンを総合的に比較することに関心がある。これらのデ ータに対する統計的方法の 1っとして、通常の分散分析モデ、/レを適用する方法がある。この場合、個体は 単なる繰り返しとし、うより 1つのランダム因子と考え、時間を母数因子とする混合モデ、/レが用いられる。上記 の経時データに対する解析は SAS/STAT ソフトウェアの GLJvlプロシージャで処理できる。また、混合モ デ、ノレに対する解析は SAS/STATソフトウェアの MIXEDフ。ロシージャを用いて処理できる。 2章では、事例解析に用いた研究資料を紹介する。 3章では、混合モデ、ノレと成長曲線モデ、ノレに対して 議論する。 4 章では、 SAS MIXEDモデ、/レを用いた解析結果を示す。 5 章では、結果を解釈し、今後の 研究課題を議論する。 4 QU OO ・ 噌
2 .研究資料 1 9 6 5年 4月に古庄は広島市の 3 9小学校、 3 0中学校と 30高等学校の公立及び私立の 1 0 0, 000人の 学童の身長・体重・胸囲のデータを収集した。当時、発育成長に与える放射線量との関係を調べる目的で、 放射線影響研究所の全身である ABCCと共同研究が成立した。このうち、新線量( D S 8 6 )が利用可能な学 童は放射線影響研究所の Fl集団と照合した結果 1 5, 4 6 2 (男 : 7, 703 ;女 : 7, 7 5 9 )の例について DS86線 量 が得られた。この内線量が 0.01Gy未満の非被爆者の 7, 9 3 1学童が対照群として利用できる。集められた 資料は 6歳から 1 7歳までの発育成長(身長・体重・胸囲)の平均と標準偏差の経時データであるが 1 9 6 5年 4月に全資料が収集された横断的調査データであることを注意する。 ABCC・放射線影響研究所の F lデータに基づいた大規模な研究結果、即ち(1)子供の死亡調査、 ( 2 )子 供の細胞遺伝的調査、 ( 3 )子供の蛋白構造に対する遺伝的影響の調査と ( 4 )子供の成長と発育について、今 日まで、はっきりした放射線の影響は統計的に認められていない (Otakee ta l .,1 9 9 0 )。また、事前の解析方法は 各年齢別の横断的調査研究であった(李, 1 9 9 7 )。 く 表 D データの構成(男女の総標本数) 海避と 6歳 7歳 8歳 9歳 10歳 11歳 12歳 13歳 14歳 15歳 1 6歳 1 7歳 計 636 674 658 669 7 0 1 730 457 535 6 8 1 709 7 4 2 739 7 9 3 1 2 3 4 5 6 計 3 3 5 330 329 326 3 3 3 3 7 1 1 7 3 250 253 4 4 2 5 1 2 488 1 1 9 1 2 6 1 1 6 1 2 0 1 4 5 1 5 1 1 3 7 1 6 4 2 3 1 219 264 247 1 1 5 3 1 1 9 1 1 1 9 0 1 1 9 6 1 2 8 1 1 3 4 1 868 1 0 5 4 1 3 2 2 1 5 1 9 1 6 7 9 1 6 6 8 2039 1 5 20 24 2 5 3 2 2 6 4 0 3 4 5 4 5 1 5 1 6 5 437 1 9 1 2 2 5 1 7 2 0 1 9 1 4 2 3 27 2 7 26 26 4142 2 9 29 3 8 3 9 5 0 44 4 7 4 8 7 6 7 1 84 1 0 3 658 255 1 5 4 6 2 0 1,2:. 0 1三Doseく. 1,3:.1 壬Doseく. 5,4:.5~Dose く 1 , 5: 1~Dose く 2 , 6 :2壬Dose) (1:Doseく. 3. 混合モデルと成長曲線モデル 3 . 1 混合モデル 、 n個のデータポイント、 Y l ' …, Y n があり、 p個 の 説 明 変 数 n個 X1 …, X1 …, X2p' p' X2 1, 1, ー'Xn1, . ., .xnpを用いて説明したいとしよう。それなら、標準的な線形モデ、ルは次の通りに書くことがで、き る 。 ‑184
むsj+εi
Y
j
=
i=1
,
.
.
.
,n
j
=
1
ここで、 β
l
'…, βpは未知の固定効果母数であり、引い・,
.en は独立で平均と分散が各々 Oとσ2を持
つ正規分布に従うと仮定する。上記のモデ、/レ式はベクトルと行列を用いて次のように書き直せる。
Y(n
叫)ニ
X(XP)β(p刈 )+ε{川 )
T
l
上記のモデルを SASでは通常 GLM(GeneralL
inearModel)として扱う。
しかし、このそデ、ノレは誤差項 εの分布に対する強し、仮定の制約を置く。 εの分散共分散行列に対して
より一般な構造を考えることによって一般線形モデ、ノレを拡張することができる。混合モデ、/レで、は εが従う分
布は正規性を仮定するが、、その要素は独立である必要はない。この混合モデ、ルは次のように書くことが
できる。
Yl
n
x
1
) =ι
XI
n
x
p
l
T
I
Px
X1
!)
(
n
x
1
(n
x
p
)
J
‑
'
(p
+刊
Z(n
x
lU(
>
<
ll+
ε
n
xr)
(
r
刈)
L(n刈)
V<‑
I
ここで、 yは観測データベクトル、 X は既知の処理計画行列、 sは未知の固定効果ベクトノレ、 Zは既
知のブ ラック計画行列、 uは未知のランダム効果ベクトル、 εは観測されない確率誤差ベクトノレである。こ
P
の混合モデルに対して次のような仮定を置く。
=、 V
a
r
l
'
=
E[β]=[~l
~]
ul 1
0
1 var[~]=[~
lul 1
0 R
1
く表 2
> 共分散構造 (SASU
s
e
r
'sGuide:S
t
a
t
i
s
t
i
c
s参照)
S
t
r
u
c
t
u
r
e
to
fParameters
Form
日
エ =σ21(
I=
j
)
S
i
m
p
l
e
=σ12+σ21(
1
寸
)
CompoundS
y
m
m
e
t
r
γ
1o
r2
~ij
U
n
s
t
r
u
c
t
u
r
e
d
n
(
n
+1
)/2
Lu = L
i
i
Banded
(2n‑q+l
)q/2
L
i
i= L
i
i1
(!
I‑j
く
! q)
A
u
t
o
r
e
g
r
e
s
s
i
v
e(
1
)
1o
r2
Z日
二 σ2ρ I
I
̲
i
T
o
e
p
l
i
t
z
n
エ百= Lli‑ilq
BandedT
o
e
p
i
l
t
z
q
ろ = LU‑il'Il
U
̲
l‑j!<q)
S
p
h
e
r
i
c
a
l
S
P Power
A
E
x
p
o
n
e
n
t
i
a
l
T
Gaussian
1o
r2
1‑(
3
d
d3i
L
i
i =σ2[
i
i/2ρ)‑(
i/2ρhl(du
毛ρ)
1o
r2
Lu =σ2ρdu
1or2
日 =σ2[exp(‑du/ρ)]
1o
r2
L
i
j =σ2[e
x
p
(‑d
i
i/ρ2)]
1o
r2
LU =σ2(
1 ρd
ρ
c
i
u三 2)
i
i)1(
1o
r2
L
i
i =σ2(
1̲ρlog(d
)1(ρlog(
生
)
三 2)
i
i)
A L
inear
L
L
i
n
e
a
rLog
1
一般線形モデ、ノレは混合モデ ノレにおいて、 Z=
o
(即ち、 Zuがモデルからなくなることを意味する)で
R=02[と考えた特殊な場合である。 yの分散は V=ZGZ'+Rになり、このモデルでは行列 G とRに対し
‑185‑
て様々な構造を仮定することができる。 SAS
のMIXED
モデルでは固定効果とランダム効果に対する様々な共
>にこれらの構造をまとめてみた。
分散構造を考えることができる。く表 2
3
. 2 共分散分析モデルと非線型曲線モデル
今回は身長・体重・胸囲の各年齢に対応する重み付き多変量共分散分析を試みる。多変量共分散分析は
E(W'
Y
)=XB
and
エ
V(Wγ
)= @!N
によって定義される。 B は (NX p
)の未知パラメータ行列で、ある。 Y は (
NX p
)行列で、平均身長・平均体重・平
I
s
'
j }
,、但し、 n
l
j
'は U群の対象者数であり、
均胸囲に対する従属変量である。各変量に対して W = W'j = n
t =6
.
7
.
.
.
.
.
1
7
(
g
),j= 1
ム3
(p)である。
Sl~ は U 群の分散を表す。ここで、
通常、成長曲線の解析のために非線型曲線モデルが用いられる。特にゴンパーツ曲線とロジスティック曲
線がよく活用されている。これらのモデル式は次のようである。
ー土H7
ロジスティック曲線: y=
1+向ev
ゴンパーツ曲線: y=b
o
e̲b,
e
‑,
<
b
4
. 結果
広島の学童の成長パターンを対照群、低線量群及び高線量群別に確認し、 Fj 世代の被爆影響を調べた
(
く
図 1>参照 )
06歳からげ歳までの身長・体重・胸囲の平均多変量データを重み付き多変量共分散分析、混
合モデルによる分析及び重み付き成長曲線分析(ゴンパーツとロジスティック曲線;く図 2
>参照)を試みたが、
放射線による発育・成長遅滞の影響は統計的に認、められなかった。また、多重比較法を試み、身長・体重・胸
囲の成長パターンの平均的に有意な年齢群聞の差があるかどうかを検討した結果も報告する(く図 3>参照)。
170
ビ
;
つ
ぐ
160
ノV
150
8
〆
〆
140
色
主 130
120
110
J
〆戸二 Z:::;zr)
6
日
10
12
14
Agei
nYears
く図1>性別と線量による平均身長のパターン
186‑
16
18
170 213.77592 1+1 .78254EXP( ‑ 0 .1 1337x) 160 150 官 ♀ 140 急 164.31462 1+1.86941EXP(‑0.22392x) 主 130 120 110 6 自 10 12 14 16 18 Agei nY e a r s く図 2 > ロジスティックモデ、ルによる当てはめ 170 160 150 E ♀ 140 ‑ 0 ‑ M ale ‑x‑ Female . . c ol 主 130 120 110 6 自 10 12 14 16 18 Agei nY e a r s 〈 図 3 >年齢聞の多重比較 5 . 今後の課題と考察 終戦直後の数年間の栄養不足や正常な家庭生活の崩壊等の他の要因が影響している可能性を評価する ことは困難である。これらの環境要因と身長・体重との多変量測定値を比較した結果、このような随伴変数聞に は有意な影響は見とめられなかったが、放射線被曝に関連した発育遅滞は明らかで、あったと報告している(大 1 8 7
竹 , 1 9 9 4 )。成長曲線に基づいた場合、栄養状態、社会経済状態のほうが線量もしくは被曝時年齢よりもパック グランドの推定値により大きく影響すると言えるであろう。従って、利用された Fj 世代に関する環境因子データ は得られてないので、栄養状態及び社会経済状態などの随伴変数は放射線被曝に関係なく、調査対象者全 員に均等に影響を及ぼしたと仮定した。また、遺伝的因子(即ち、親の特徴)は無作為に選ばれた被爆者集団 に等しく影響したと仮定することは妥当であろう。 参考文献 [ l J 李聖照,古庄敏行,大竹正徳( 1 9 9 7 ),被爆2世の発育成長:再解析,第 65回日本統計学会 論文集,大阪. [ 2 J 大竹正徳 ( 1 9 9 4 ),広島医学 47,p p . 6 5 7 ‑ 6 5 9 . 1 9 7 8 ),RERFTR7 ‑ 7 8 . [ 3 J 古庄敏行,大竹正徳( [ 4 J 古庄敏行,大竹正徳( 1 9 7 9 ),RERFTR1 4 ‑ 7 9 . [ 5 J 古庄敏行,大竹正徳 ( 1 9 8 5 ),RERFTR9 ‑ 8 5 . c h u l l,W.j .andNeel,j . V . ( 1 9 9 0 ),R a d i a t i o nResearch,1 2 2,p p . 1 ‑ 11 . [ 6 JOtake,M.,S [ 7 JRoy,S . N .( 19 5 7 ),SomeAspectso fM u l t i v a r i a t eA n a l y s i s,NewYork:JohnW i l e y& S o n sI n c . [ 8 JSASI n s t i t u t eI n c .,SASU s e r ' sGuide:S t a t i s t i c s,NOI 叶1C a r o l i n a . ‑188
S U G I ‑ J ' 9 7論文集 •••••••••••••••••••••••••••••••••••••••••••••••••••••••• 医薬品開発
日本 SASユーザー会 (SUGI‑J) GCP支援システム rSUCCESSJ 0 * 白木東笹川裕次秋山浩喜 明治製菓株式会社 臨床統計部 E D Pチーム SUCCESS;TheSupportSystemf o rManagemento fC l i n i c a lT r i a l s A.Kashiwagi, Y.Sasagawa, H.Akiyama C l i n i c a lB i o s t a t i s t i c sDept. M e i j iSeikaKaisha, L td . 要旨 臨床試験におけるモニターの支援, Q C,進度管理を目的として、治験契約,治験薬,モニ タリング等のいわゆる「治験のプロセス」を統合的に管理する GCP支援システム"を、入 i c r o s o f t 力系に Windows版の SAS/AFソフトウェア及び SAS/FSPソフトウェア、出力系に M E x c e l (DD E機能)を用いることにより、既に SASシステムを用いて管理されている治験成 績データとのリンクを考慮して開発した。 SUCCESS...… Q . u p p o r t i n gf o rU s e r s 'Q o n t r o lo fQ l i n i c a lt r i a l s withE x c e landSAS キーワード:治験のプロセスの管理、 Windows版 SASシステム、 M i c r o s o f tE x c e l 1.はじめに 当社における治験成績データは、 1977年 、 COBOL, FORTRANを言語として自 社開発した IBM製ホストコンビュータシステムによって、一元管理されるようになった。更 に 1990年 、 SASの画面入力機能と ADPS注}の採用により、 SASデータセットでの一 元管理へと移行し、今日に至っている。 一方、医療機関との治験契約,治験薬の授受,モニタリング等のいわゆる「治験のプロセス」 の管理については、各担当部署において個別に行われてきており、それらをコンビュータ上で 一元管理することについては、必要性は充分認識していたものの、実現は先送りになっていた。 ICH‑GCP等に起因する当局の規制強化の流れの中で、管理すべき記録・資料は膨大な 量になってきており、従来のように各担当部署で個別に対応していたのでは、治験の精度を高 い水準に保つことが困難な状況となりつつある。したがって、先に述べた「治験のプロセス」 管理をコンビュータによって統合化し、日常的な管理支援を実現することが急務となってきた。 こうした時代の要求に対応していくため、 1996年 1月 1 9 1 GCP支援システム"開発に着
手し、この度運用を開始したので報告する。尚、運用に際しシステムの定着および成功を祈念 し 、 SUCCESS" と命名した。 A c t i v eDataP r o c e s s i n gSystem) 注) AD PS C …カシオ計算機(掬の UNIXワークステーション。 当社においては、治験成績データによる症例一覧表作成専用のマシンとして 利用している。 2 . システムの概要 2 . 1 開発の経緯 1996年 1月、管理(事務局) ・モニター・ Q C・統計の各部門の代表による開発プロ ジェクトが発足し、導入効果が高い 3つのシステム(治験契約・治験薬・モニタリング)を 開発することとなった。 1997年 4月運用を開始し 現在二次開発の検討中である。 2 . 2 ハード・ソフト構成 現在は、 1台のパソコン CMS‑Windows対応機)にて運用しており、基本的なソフトウェ ア構成は表 1に示す通りである。モニターによる直接入力や管理者用資料等の迅速な提供を 実現するため、当初から複数端末化を想定して開発を進めてきており、二次開発以降に C / S Cクライアントーサーバ・システム)化を図っていく予定である。 尚、開発言語として SASを選択した理由については、システムの特徴の項で詳述する。 表1. SUCCESS基本ソフトウェア構成 OS データベースソフト 帳票出力用ソフト Windows95 BaseSASソフトウェア SAS/AFソフトウェア SAS/FSPソフトウェア C R e1 .6 . 1 2 ) MS‑Excel C V e r . 5 . 0以上) ADPS 1 9 2
2 . 3 主な機能 GCP支援システム SUCCESS" ←プロジェクトレベル モニターレベル→ ( 1 ) プロジェクト登録機能 開 進 ( 2 ) 治験契約管理機能 j 台 発 度 ( 3 ) モニタリング管理機能 験 の # 国 £ 雪 ( 4 ) 治験薬管理機能 の 経 理 ( 5 ) 情報提供管理機能 費 1 : . * 奇 主 適格性調査管理機能女 用 1 : . ( 6 ) 共通マスターテーブル管理機能 女:一部機能追加予定 食:次期開発予定 図1.機能概念図 ( 1 )プロジェクト登録機能 治験を行う「プロジ、エクト」を登録する。プロジェクトとは、治験薬あるいは効能単 位に相当し、 1つのプロジェクトに対して複数のプロトコールを設定することができる。 プロジェクト登録を実施することにより、本システムにおける各種操作が可能となる。 ( 2 )治験契約管理機能 治験の登録(プロトコール登録)から医療機関との契約までのデータを管理し、その 過程でデータの漏れ,矛盾をチェックすることにより、 Q C業務を支援する。また、モ ニター及び管理者に有用な情報をタイムリーに提供する。 以下に詳細機能を列挙する。 ①プロトコール登録機能 ②治験届登録機能 ③治験届ロジックチェック機能 ④「治験届別紙」自動発行機能 ⑤付保(治験薬生物賠償責任保険)登録機能 ⑥「治験薬生物賠償責任保険 施設追加報告書」自動発行機能 ⑦医療機関担当モニター登録機能 ⑧依頼書・ IRB情報・通知書・契約書登録機能 ⑨依頼書・ IRB情報・通知書・契約書ロジックチェック機能 ⑮契約関係各種一覧表出力機能 ( 3 )モニタリング管理機能 日々のモニタリング記録を登録する。その際、その時点までに完了しているモニタリ η4U 1i Qd
ングの内容から、次に行うべきモニタリング事項を指示する。また、管理者に対し、各 医療機関におけるモニタリングの進捗状況をタイムリーに提供する。 更に、モニタリングの情報に試験種・ 1寺期・業務内容等の属性を付加することにより、 「適格性調査」等の業務内容別資料や社内監査対応用資料、治験の進捗管理用の資料と いった二次資料の作成の効率化を図る。 以下に詳細機能を列挙する。 ①モニタリング記録登録機能 ②モニタリング記録用紙(前固までの状況を明示)発行機能 ③治験薬出庫依頼書発行機能 ④社内監査用資料自動作成機能 性)治験薬管理機能 治験薬の医療機関への提供及び回収のデータを記録し、治験薬保管庫のデータ,契約 関係のデータ及び治験成績データ等との整合性をリアルタイムでチェックすることに より、 QC業務の支援を行う。 以下に詳細機能を列挙する。 ①入庫治験薬登録機能 DB ) 登録機能 ②治験薬割付 ( ③治験薬出庫登録機能 ④治験薬一時回収登録機能 ⑤治験薬回収登録機能 ⑥治験薬関係各種一覧表出力機能 ( 5 )情報提供管理機能 治験依頼者の業務として定められている「治験調整医師および、治験担当医師への情報 の提供」の記録を自動作成し、省力化と経緯の明確化を図る。 ( 6 )共通マスターテーブル管理機能 システム内で共通に使用する各種マスターテーブルを管理する。 3. システムの特徴 3. 1 SA Sによるデータ管理 システム開発の重要な目的のひとつとして、治験成績データと本システムのデータとをリ ンクさせて、各種チェックおよび帳票作成を迅速かつ正確に行うことがある。そのためには、 治験成績データとのリンケージが容易なソフトウェアであることが望ましい。下記の①②か ら SASはその要件を満たし、またそれに加えて③④のメリットがある。したがって、今回 の開発にあたっては SASを採用することとした。 ①当社における治験成績データは、メインフレームの SASで管理されている。 ② SASは異なるプラットフォーム問でのデータの互換性が高い。 ③W indows版 SAS 比 Fソフトウェアの FR 品佃エントリーは、数年前に比べ格段に充実 1 9 4 ‑
してきており、 M S‑Access等の簡易 D Bソフトと比較しでもユーザインタフェースに関 しては全く遜色ない。 ④当社においては、 SAS/AFソフトウェア, SAS/FSPソフトウエアの SCLについての知 識がかなり蓄積されており、システム開発の省力化・簡便化が期待できる。 3 . 2 ユーザ支援機能 システム構築に際し、データが一定のルールを満たさないと次のアクションが起こせない ようにする(チェック&ゴー ( C & G ) ) 機能と、利用者がデータを入力する度に次に起こすべ き行動について指示出しをする(アクション・ナビゲート ( A 'N ))機能を、積極的に盛り込む こととした。 例えば、あるプロジェクトで治験届を提出するとき、そのプロジェクトにおいてそれ以前 に締結された付保(治験薬生物賠償責任保険)データを検索し、新たに締結を要する医療機 関を明示する ( A 'N ) 。利用者は、明示された医療機関に対し付保の締結を行い、システムに 締結日の日付を入力する。この手続きの結果、契約が可能となり ( C & G ) 、対象医療機関が 明示される ( A 'N ) 。以降、治験契約管理だけでなく治験薬管理・モニタリング管理にまでま たがって、これらの機能を随所に盛り込んでいる。 3 . 3 帳票出力機能 SASの基本機能であるデータハンドリングやフロシジャだけでは、医療機関との契約関 連の社内手続き用書類,治験薬の納品書・受領書といったいわゆる正式書類を作成するには、 見映えといった観点からは不十分である。そのため、本システムにおいては、それら帳票の 印刷について、 SASIDDE機能を利用しての MS‑Excelによる印刷方式を採用した。 また、治験届別紙,社内監査用資料等のデータのレコード数に依存するタイプの一覧表(可 変長出力)の印刷については、上述の印刷方法では対応が困難(プログラムが複雑になる) であるため、既に当社において治験成績データの症例一覧表作成マシンとして実績のある A DPSを使用することとした。データのオフライン転送による印刷方式である。 尚、ロジックチェックや管理台帳等のいわゆるチェックリストについては、 SASのプロ シジャを利用している。 4. まとめ 4. 1 システムの評価 本システム構築及び導入の結果、当社における「治験のプロセス」管理はドラスティック に変わってきている。特に、現在進行中のプロジ、エクトについては、本システムのデータと 治験成績データとの照合を行った結果、各々のデータの論理的な漏れや矛盾を、従来よりも 迅速かつ高精度に把握することが可能になってきている。 また、もともと当社の SOPに基づいて構築されたシステムであったが、システムの定着 により作業の効率化,精度の向上が推進された結果、日常作業の進め方が見直され、逆に、 ‑195‑
システム運用に関係する各 SOPをより厳密な方向に改定する必要性もでできている。これ ら SOPの改定が実施されれば、それに合わせてシステムも更に精度の高いものへと変更す る必要がでてくると予想される。 このように、システムによる波及効果は随所に現れてきており、統合的な管理を推進し治 験の精度を高い水準に保つという、当初の目的は充分に達成されていると言って良い。 4. 2 今後の課題 今後、システムの充実という観点から、医療機関の適確性調査に関する管理システムや症 例の進捗状況に関する管理システムを、最優先で開発していく必要がある。 以下に、追加開発を考えているシステムの具体的な内容を示す。 ・適格性調査・ ・ ・..医療機関の固有情報をプロジ、エクトをまたがって一元管理すること H H により、治験開始時の調査に割く労力の軽減,情報精度の向上を図 る. ‑治験の進度管理…各医療機関におけるエントリー症例についての進捗管理(同意取得 日・方法,投与開始日等)のシステムを追加し、開発済みの治験契 約,治験薬,モニタリング管理システムと合わせて、更に詳細な進 度管理情報を提供する. また、治験のプロセス管理を更に徹底させていくためには、管理者用資料の充実やその提 供の迅速化,モニターの使い勝手の向上等を考慮し、 Windows‑NT導入による C/S化を実 現していかねばならない。更に、現状では ADPSを用いてオフラインで実施している一部 の印刷機能についても、今後はオンラインで行えるようにしていく必要がある。 これらの開発が完了した後、最近話題になっているモパイルによるモニタリング記録の送 信や中央からの最新情報(副作用情報,メール)の受信の検討を予定している。 5. おわりに 今回の開発に際しては、 SASテクニカルサポートの方々に、数多くの助言をいただきまし た。特に清水氏には、いくつかの困難に遭遇したとき直接ご指導いただ、くなど、たいへんお世 話になっております。充実したサポート体制に改めて感謝致しますとともに、皆様のご厚意に 敬意を表します。 ‑196一
日本 S A Sユーザー会 (SUG I‑J) SAS/AFソフトウェアを用いた前臨床解析システムの紹介 O川 崎 美 保 、 佐 々 木 和 典 、 小 原 直 樹 、 角 元 慶 二 徳島研究所情報資料室 大塚製薬株式会社 S t a t i s t i c a la n a l y s i ssystemf o rp r e ‑ c l i n i c a ls t u d yu s i n gSAS/AFs o f t w a r e MihoK a w a s a k i .I くa z u n o r iS a s a k i .N a o k iOharaandK e u iKakumoto r o c e s s .o f f i c e .TokushimaR e s .I n s t . I n f o r m a t i o n& DataP OtsukaP h a r m a c e u t i c a lC o .L t d . 要旨 医薬品開発過程において、データ解析は必要不可欠であり、前臨床試験も例外ではな い。しかしその反面、解析ツールで、ある SAS システムを使し、こなせる研究員は稀である。そ こで、 SAS システムに馴染みの薄いユーザーで、あっても、容易に目的の検定を行うことので きるアプリケーション(前臨床解析システム)の開発を行ったので、ここに紹介する。このアプ リケーションの特徴は、インタフェース設計に SAS/AFソフトウェアを用いてマウスによるオベ レーションを可能にしたこと、データ入力に MS‑Excelを用いていることである。 キーワード: i c r o s o f tE x c e l、OLEオートメーション 前臨床試験、 SAS/AFソフトウェア、 M 1.はじめに 弊社では、研究員自らが SASを使って正しく統計・解析ができるとし、うことを目的に、前臨 床解析システムの開発に取り組んできた。 今回紹介するシステムは Windows版 SASシステムを利用しているが、それ以前は CMS 版の SASシステムを用いており、 CMSエディターにデータを入力し、検定を指定して SAS をパッチモード、で、動かす方法を採用していた。 しかしこの方法は、以下のような難点が存在し、研究員(特に初めて SASを扱う人)にとっ て、少々使い勝手の悪しもので、あった。 1 ) データを手入力して CMSファイルを作成する必要がある。 2 ) 検定を実行する際にコマンド入力しなければならない。 3 ) ファイル管理が煩雑で、ある。 そこで、これらの点を改善すべく、 SAS/AF ソフトウェアを用いたインタフェースの設計とデ、 ータ入力における E x c e lの利用を課題に前臨床解析システムの開発を行った。 ‑197‑
2 .プロク守ラムの管理 すべてのプログラムの管理は一括して NTサーバー上で、おこなっている。 フ。ログラムの追加及び、変更が生じた場合、 SAS システムを立ち上げたときに、 NTサーバー から自動的に最新の情報が配信される仕組みになっている。 3 . 検定実行の流れ 3 . 1 データ入力 SASシステムを起動すると、メインメニューが表示される(因子 1 ) 。 h e e tが開く。その場でデ データ入力ボタンをクリックすると、 Excelが起動され、白紙の S ータを打ち込むことも、既存の Excelファイルを読み込むことも可能となっている。 約束事として、 Excel の 1行目には変数名を入力する。この変数名はそのまま SAS デ ータセットでも用いられる。 2行目以下に数値を入力するが、汎用性及び統一性を保つ為、データは縦方向に入 ) 。時系列のデータは、同一個体に対し時間を追って横方向に入力する方 力する(図 3・2 が自然であるが、ここではあえて縦方向に統一した。この為、通常の横方向から、縦方向 への並びかえを行うマクロも用意されている。 データ入力後、ファイルを閉じると同時に SASのデータセットが作成されるようになって いる。 3 . 2 検定の選択及び実行 データの入力が終わると、メインメニュー(因子 1 )に戻る。 続いて、目的の検定手法を選択する。 各種検定は、 2群聞の比較' 回帰と相関' 分散分析法'品、う具合にグループ分けさ れ、さらにグループ内で パラメトリック'と ノンパラメトリック'とに分類されている。例えば、 一元配置分散分析後 Dunnett検定を行う場合は、 分散分析法'→ パラメトリック'→ 一 )。 元配置 Dunnett'とマウスで選択していく(因子3 目的の検定画面にたどり着いた後、指示に従ってグループ変数やデータ変数等、実際 行う検定手法に応じて変数選択を行う(図 3・4 )。 変数選択後、実行ボタンをクリックすると、検定結果が出力される。 3 . 3結果の出力 検定結果は、通常の OUTPUTウインドウに出力させるのではなく、各ブ ロシジャの出力 をテキストファイノレ化し、そのファイルを SAS/AF ソフトウェアの外部ファイルビューワを用 いて画面上に表示させている(図 35 )。 この方法を用いたのは、プロ、ンジャ出力の改ページコードを削除する為である。検定の 反復によっては、結果が数十ページに及ぶものもあり、できるだけ出力をコンパクトにする ことが望まれるからである。 また、テキストファイル化した検定結果の印刷及び保存は、 OLEオートメーション機能を 利用し、 Excel上で、行っている。エンドユーザーからは SASで一連の処理を行っているか のようにみえる。 9 ・ 1 9 8 ‑
4 . ヘルプ 研究員自らが統計処理を行う場合、まず問題になるのは適切な検定方法を用いているか どうかである。この点については、プロトコール及びレポート両面で統計処理法の確認を行 い、そのような過ちを回避するよう心がけている。 次に問題になるのは、出力結果の見方である。出力結果には、分散分析表はじめ様々な 数値が表示されるため、どの数値を参考にしたら良いのか解らない(とくに馴染みの薄い検 定手法の場合)研究員も少なくない。その対処法として、以前は各種検定手法の入力方法 や出力結果の見方を記載した手引書を作成していたが、今回はオンラインヘルプ形式を採 )の 索引'ボタンまたはツールパーの ?'ボタンをクリックする 用した。メインメニュー(図 31 と、ヘルプ画面が表示される仕組みになっている。 ・ 5 . 今後の課題 今回紹介した解析アプリケーションが起動して、約 1 年になる。現在のところ、概ね研究員 x c e lを用いたことにより、以前の CMSエディタでの の評価は良いようである。データ入力に E 入力に比べ、格段に入力し易くなったのが大きな理由となっている。第 2 点には、 G U I ( G u i d e U s e rI n t e r f a c e )とマウスによるオペレーションにより、操作性が向上した点が挙げられる。この ことから考えると、当初の目的はほぼ達成できたとみて良し立思われる。 A S / I N S I G H Tソフトウェアを導入してい 今後の課題は、グラフ作成ソフトとの連携である。 S るものの、データの概観をヴィジュアノレモード、で、把握するツールとして利用しているのが現状 で、研究員に広く受け入れられているとは言い難い。検定結果を反映した、しカもプレゼン テーションに利用可能なグラフを作成で、きる環境づくりを目指し、取り組んでいきたいと思う。 <参考文献> ‑佐々木和典他 S U G I ‑ ' 9 2論文集 p 1 5 5・1 6 0 .SAS/AFソフトウェア FRAMEエントリ使用法および、リファレンス V e r s i o n 6,F i r s tE d i t i o n ‑199
E一 司 ・ 一 ~ ヨニ担j長i ぷ x l. 磨. P r o g r 官 n i n gby 欄側室橋f グ ル ー プ 群 合 検 定 │回 品 目 関 I5t~H法 I PTJ!! 2 門 用 ム lA lA │ 思ヵ│品析 l d i i │ 解析 祈 笠~ c + 竺j 同 図3 ・1 メインメニュー 図3 ‑ 2 データの入力例 ? g r o u p D a t a 1 1 5 3 1 5 3 D a t a 2 3 5 . 2 3 6. 4 2 2 1 5 7 1 5 8 3 4 . 9 3 5 . 8 3 1 4 6 ̲ ̲L 主主1 ‑200‑ ↓ 3 6 . 7
ヨュ担j到 ヱj 司 田監園E 目 日 型笠Jc + 巴j pe 図3 ‑ 3 検定手法の選択 メインメニュー→ 分散分析法'→ パラメトリック'を選択した状態 国語』圃圃圃圃圃圃圃圃圃圃圃圃圃園田園ー . . : : . l こ 担j盆J. 1 . J l : : : I x 下物努雪期主Z~ * ヰ42 担割1< 日A T A l D A T A 2 阻M 岨M 存友三?ヲîf:~~J ISt豆E デい叫益予へだ Ic 二二 d 主主J 図3 ‑ 4 変数の選択 図 33より、 一元配置分散分析一D u n n e t t 'を選択すると、変数選択画面 が表示される。 ・ ‑201
'0 ̲Iolx 吋一川一叶一﹄ 。 e 同 r a lL i同 , , 1 1 0 由1 5P r出 : e d u r e C J a s sL e v e JI n f o r m a t i o n C J a s s L e v e l s V a l u e s 団ClP 4 1234 。 子b N国 b e r 且何日 』冊目 』 同n d e n tV a r ia b l eD A T A 1 i o n si nda 目提て~ 2 8 IL i時 , , 1 1 0 由I sPr<xコ e d u r e S ou r c e [ f ' S四 o f $ q u a r e s 1 1 0由 3 4 0 57 1 4 2 笥 7 1 1 3 52 3 叙 : 9 5 2 4 E r r o r 2 4 田 7 1 4 2 笥 7 1 6 2 8 . 5 7 1 4 2 笥7 2 7 1 田 14 2白 7 1 4 3 C or r e c t e dT o t a ! ニ j 0α: 9 9 cv R ∞t l < lE 国I T A lW ea 門 53 4 5 2 2 4 8 自白川 I 一一一一一一一一一一一一一一ー一一ー一一 図3 ‑ 5 P r)F 47 3 35 6 6 8 f 氾,, R ‑ $ q u a r e 。 3 7 1 7 2 8 l I e ,n $ q u a r e FV a l国 J 一一一信五長雨" 検定実行結果の表示 ‑202
日本 S A Sユーザー会 (SUG I‑J) 1B R D J A P A N業務管理システム T w i n B R D 0川 原 美 知 I B R D JAPAN 株式会社 学術調査企画部 TwinBRD 一 I B R D JAPAN Business Support Systems一 M.Kawahara Scientific Research and Planning~IBRD JAPAN CORPORATION 4‑3‑29, Kojimach, Chiyodaku, Tokyo 要旨 T w i n B R Dは、業務全般に関連する様々な情報を一元的に管理し、それらを有効的に活 用・共有することにより、開発業務のみならず C R O業務全般を総合的に支援するためのシス テムである。本システムは、 S A Sデータセットのみで構成されるデータベースを中心とした S A S / A Fソフトウエアによるメニュー選択方式のシステムであり、パーソナノレコンビュー タのサーバ及びクライアントからなるネットワーク上で稼動している。弊社の業務全般の実務 に不可欠なものとなっているこのシステムについて、その概要を紹介する。 キーワード: S A S / A F、 S C L 1.はじめに 我々は、 19 9 6年秋から、各プロジェクトに係る見積額の適切性をはかること、間接部 門の関与率の把握及び原価計算等を行うことを目的とし、 ITimeReportingシステム」の概 念を導入した。また、プロジェクトごとの契約関連情報の管理やプロジェクト概要の把握を 目的として、 「プロジェクト別クライアント情報」管理の概念を導入した。 この両者のデータをより効率良く使用するために機械化を検討し、 IIBRD J A P A N 業務支援システム TwinBRDJ として S A Sシステムにより開発し、 19 9 7年 1月よ り使用を開始した。 また、同年 3月から開発業務の効率化を目指し、各プロジェクトの進行状況の把握及び品 質管理を目的とした「フ。ロジェクト別治験情報管理システム」を、また、開発業務の必須情 報である治験実施施設情報を管理するための「医療機関情報管理システム」を開発した。 「 ブρロジェクト別治験情報管理システム」は現在、品質管理業務の必須システムとなってい る。また、 「医療機関情報管理システム」は単なる医療機関のデータベースではなく、 C R O として必要な弊社独自の情報を盛り込んだもので、現在データの蓄積中である。 ‑203
さらに、同年 6月から、社員の職務経歴を管理する「社員経歴情報管理システム」を開 発した。このシステムによって、プロジェクト担当者の経歴をクライアントに求められた 場合の迅速対応が可能となり、プロジェクトチーム編成時の適任者の選定等にも役立って し、る。 現在は、弊社 SOPに基づく教育研修の実施状況を管理するシステムを開発中である。 これは、教育研修の記録としてのデータベース機能だけでなく、その他 SOPで必要とし ている書類の自動出力等を行うことができる機能をもたせてあり、教育担当者の効率向上 を考慮したシステムとなる予定である。 当初 ITwinBRDJ は、基本的なデータを蓄積するためのデータベースとしてス タートしたが、現在は社内外の様々な情報の有効的な利用を目的とし、実務担当者の意見 を取り入れつつ、弊社 SOP及 び GCP等に対応したシステムへの移行を目指し、数回の ノ〈ージョンアップを重ねている段階である。 しかしながら現在、本システムはすでに弊社業務に不可欠なシステムとなっており、今 後、各業務に必要とされる情報の共有化を目指し、さらに有効利用できるシステムへ改良 する予定である。 2 . r Tw in B RDJの概要 TwinBRDは 、 SASデータセットのみを構成要素としてリレーショナノレデータ ベースの基本概念に準じて設計したデータベースと、 SAS/AFソフトウェアで開発し た複数の機能を統合したシステムである。操作方法としては、すべての機能においてメ ニュー選択方式を採用しており、 SASの知識のない者でも容易に使用できるようになっ ている。 システムは、パーソナノレコンビュータ(以下、 1PCJ と略す)のサーバ及びクライア ントからなるネットワーク上で稼動し、機能的には大きく 2つの系統に分類される。 ひとつは、 CROとしての業務の効率化を目指し、プロジェクト受託時に付随して発生 するプロジェクトの契約状況及びプロジェクト内容等の様々な情報を蓄積、収集、管理し 利用しやすい形で提供するもの、また原価計算や見積り額の適切性をはかるために業務時 TimeR e p o r t i n g、ンステム」、 間を蓄積・分析する I 「教育研修記録管理システム」及び 「社員経歴情報管理システム」等の「全般業務支援システム」の系統である。これらの 「全般業務支援システム」は、クライアントへの迅速な対応や CROとしての特殊な業務 管理などを効率的に行う目的で活用されている。 もうひとつは、開発業務の効率化を目指し、プロジェクトの実務に関する様々な情報を 蓄積、収集、管理し、利用しやすい形で提供、共有化する「開発業務支援システム」の系 統である。 この系統の中には、品質管理業務のための「フ。ロジェクト別治験情報管理システム」、治 2 0 4
験実施施設の選定及び治験責任医師の選定等に役立つ「医療機関情報管理システム」など がある。これらは、開発業務を的確により効率よく行うために活用されている。 2 ‑ 1 . 稼動環境 稼動環境は下図の通りである。 H / W :H PN e t S e r v e r 5/133 L H N O S:N e t W a r e4 .1 1J H / W : IBM,H P O S :M i c o r s o f tW i n d o w sN T4 . 0 ( S e r vjc e P a c k3 ) Server 1 0 B A S E ‑ T 2 ‑ 2 . ソフトウエア構成 開発当初は S A Sシステム 6.11を使用していたが、 6.12のリリースに合わせてい くつかの変更を行ない、現在はすべて 6 .12で稼動している。また、各種様式で印刷を 行うため、 M i c r o s o f t Exce15.0を使用している。 2 ‑ 3 . 主な機能 全て、メニュー形式であり、データ入力時の数値及び文字入力以外は、ほとんどがポッ プアップ式の一覧表からの選択での簡単な操作で入力できる。 ‑205‑
一全般業務支援システムー A . TimeReporting ( 図 1) ( 1 )各業務に係る時間の入力 社員各人の、日ごとの業務時間の記録の入力機能。 メインメニューから、 TimeR eportingを選択し、部署、個人名を選択メニューからそれ ぞれ選択した後、当該日の実施した業務内容及び時間について、あらかじめコード化さ れたプロジェクトコード、業務コードをポップアップ式のコード一覧メニューから入力 し、ついでその業務時間を入力できる。このプロジェクトコードは契約担当部門が、業 務コード、はTimeR eporting 管理部門がそれぞ、れマスタ管理を担当している。 入力されたデータは、 ( 2 )の集計の元データとなる。 ( 2 )TimeReporting 集計 ( 1 )で入力されたプロジェクトごとのデータについて、それぞれの目的に応じてあらかじ め作成された集計用プログラムにより集計を行う。 集計データの使用目的としては、プロジェクトごとの原価計算、間接経費の算出と実業 務実施時聞からの実費算出による見積額の適切化等があげられるが、いわゆる「人事管 理」を目的とはしていない。このデータは、 トップマネージメントレベルの経営に関す る意思決定のためのソースデータとしても活用されている。 B . クライアント別プロジェクト情報管理(図 2) ( 1 ) クライアント別プロジェクト情報の入力 クライアントごとの契約関連情報及びプロジェクト概要等の情報についての入力を行う。 契約関連情報については、各種契約・見積(秘密保持契約書、業務委受託契約書等を含 む)の推移、契約日及び見積額等の情報を管理でき、この他に、プロジェクト情報とし てプロジェクトの概要、 Phase、臨床領域及び薬剤名、クライアント住所、部門、担当 者名等の情報が管理できる。これにより、各プロジェクトに関する契約等の状況把握が 迅速かつ簡便になった。 さらに、その他の様々な情報をこのシステムにおいて網羅し、他のデータ管理システム との共有情報をリンクして使用することにより、今後の業務及びクライアントへの迅速 かっ適確な対応等に活かすことを目的としている。 上記の全ての情報については、契約担当部門がマスタの一括管理を行い、社員全員がこ の情報にアクセスできるようになっている。 c . 社員経歴情報管理(図 3) ( 1 )社員職務経歴の入力 社員の履歴及び当社入社前後の職務経歴データの入力が可能である。 本情報のうち入社前経歴データについては、個々が規定の様式に書き込んだデータを、 ‑206
人事部門が一括管理、入力する。また、入社後の経歴データは、他の情報管理システム から自動的に入力されるようになる予定である。 ( 2 )社員職務経歴の検索 プロジェクトチーム編成時のメンバー適任者を探索する場合等に活用される検索機能 (掛け合わせ検索も可能)を持つため、迅速かっ適切なメンバーの選定が可能で、ある。 またクライアントから担当者についての職務経歴に関する問い合わせがあった場合、必 要とする書類の自動出力機能により迅速な対応が可能である。 また、各人の職務経歴についてのデータを管理することで、プ口、ジェクト関連情報、 治験実施施設の情報及び治験責任医師の情報等を経験者から得る事ができ、開発業務の みならず、コンサルティング業務の際にもそのノウハウを活用することができる。 D . 教育研修情報管理(図 4) 当社の S O Pで規定された教育・研修の記録の保存のためのシステムとして開発中。記 録保管機能のみならず、 S O Pで規定されている様々な規定についてのチェック機能等 を併せ持っており、規定外となる可能性がある社員については、定期的なチェック時に 警告を発する書類の自動出力が可能である。 一開発業務支援システムー E.プロジェクト別治験情報(図 5) プロジェクト別治験情報は、現在進行中の治験プロジェクトについての状況を把握で きるような情報提供を行っており、品質管理業務を終了したものについて、品質管理部 門において入力される c その内容は、いわゆる IGC P管理システム」のような治験実施前・中等の進捗状況 等の様々な必須管理情報が網羅されている。 ロジカノレチェックにより違反データについては警告色(赤色)で表示される等、品質 管理業務には、必須のシステムである。 F.医療機関情報(図 6) 医療機関情報は、書籍にある医療機関の情報のみならず、開発業務を行う上で必須で、 あると思われる様々な情報を加えて蓄積することにより、治験実施医療機関の選定、治 験責任医師の選定及びモニタリング時の参考とし、業務の適切性及び効率の向上を目的 とするシステムである。 これら様々な関連情報を本システムに蓄積することにより、今後の業務に活かすこと を目的としている。 ‑ 2 0 7
3 . なぜ S A Sを採用したのか? C R Oとしてコンサルティング業務及び臨床試験等の業務を受託・実施する際には、製 薬企業が取り扱うのと同等な情報のほかに、クライアントとの契約・協議などの情報や、 クライアントへの迅速対応及びスペシャリストとしての情報提供を行うために扱う様々な データを保持しなければならず、これらの膨大な情報を維持・管理し、効率よく業務に生 かす必要がある。 これらのデータを使い、効率よく業務を行うためには、全ての情報を利用しやすく取扱 うことができるコンビューターシステムが必要であった。 SASシステムは、医薬品開発における統計解析の分野では事実上の世界標準になって おり、統計解析ツーノレとしては非常に優れたものである。しかし、最近ではむしろ医薬品 関連以外の分野で、単なる統計解析ツーノレとしてではなく、データウェアハウスの構築を はじめとする、いわゆる情報系システムの開発ツールとしても使用されることが多くなっ てきている。また、 S A Sシステムのプロダクトにもそういった目的のものが増えてきて いる。例えば E 1Sの導入により各種データを様々な角度から分析することが可能となり、 将来そのニーズ、が高まった際に意思決定のツールのひとつとして利用が可能となる。また、 将来的に起こりうるそパイルで、の社内データへのアクセスについても、 S A Sシステムで あれば十分可能である。さらに、最も重要な選択理由となったのは、 S A Sシステムは初 心者でも容易にプログラミングを行うことが可能であるため、システム開発者でなくとも 各自で自由にデータを調整し、自分のほしい情報を希望どおりの形で得ることができると いう点である。このため、 S A Sシステムでシステム開発を行う場合は、必要な機能を 1 0 0 %システムに作り込む必要がなく、システムの開発期間が短くてすみ、短期間で実用 に供することが可能で、ある。 これらの事項を総合的に勘案し、実務的なアプリケーションシステムを構築するには、 SASシステムが適切であると判断した。 4 . 今後の課題 業務支援システム ITwinBRDJ は、プロジェクトごとの動向管理や、実務上の品 質管理などに役立つているだけでなく、 C R Oとしての各種管理実務に役立っている。 しかし、このシステムはまだ開発後間もないため、さらに実務上必要と思われる実務担 当者等の意見を取り入れた改定が必要で、あると思われ、この改定により、各種業務効率の 向上及び社内での情報共有化を目指している。 具体的には、 ITwinBRDJ に追加する機能として、社内所有の文献及び書籍情報 のデータベース(検索機能も付随)を作成することも考慮、中である。 また、社員数が増加した場合には、このシステムを使用した掲示板なども検討したいと考 えている。 ‑208一
メインメニューから、すべてのシステムを開始する c , . , . も晶 T i 町e Reporting ( 図1 )T i m eR e p o r ti n g 一一 m置 置E 園 兼務実施日 円宇宙寸す 1 : 本日の業務実施時間 社員コード ∞ ・ 社員名 「 寸 14哲一 IJI[原 美 知 0 「吉一一局ーヌ~j(-;示一一一三fi: : tI 一」一̲j̲ ̲ ̲ ! ̲ j̲ ̲ 1 j̲̲lj一生J ̲ ̲ 2 j ̲ ̲ E j ̲ ̲ L j 一 立J ̲ ̲ ̲ 1 jI ! 彊. . . . ! . ! . . l . J . 」 之 」立J . . . 1 . ! . . l. J . 旦J . J . 立J .J.斗」旦L l l J . . A . . J. . 1 . ! J̲ ̲ n j...1立」三土L_g~_j_l~ i斗 Æ ...1旦J~~斗一」一」 ー」ー」ー」一」ー」ー」ー」 翻臨揖麗 2 . . l相 周 囲 羽 田 園 属 │ヨ何百ア年庁月割│ 終了 当月 ‑209‑ 新規追加
( 図2 ) クライアント別プロジェクト情報管理 l 田園開園田町蛋語圏蝉多 国 百 四 EE 回 聞 園 田 盟 問 富 田 園 ・E ・E ・ ‑ 園 田 園 田 園E ・E ・E ・E ・‑・圃圃圃圃圃圃・E ・E ・‑・圃圃圃・E ・E クライアント名 ' g f i ' 署 名 ! 日間‑ R O S T R U MG L O B A I s ¥ i 中 W o r l d w i d eM e d i c a l ・‑・圃自 0201 I 4 組」糊桝納税一一一 「一一一「官有前一 ブロジェクト名 I ) 1用五Ij の ~3F~It験~コンサ品テーソヨ Y ,秘密保符契約 窓口担当者 君子 切品川 宮 泊 一 段 ー ‑ r町一w 年 一 QU 月‑子 日 ‑ o 1 = 初巨コン主クト 締結日 「一一一一「布守市芳一 i渋 島 淳 一 l l ‑ i 8 「一一一昨方すー 備考 I = て1 !登縁日 「一一一 次ページ 仁=.l} I~ ( 図3 ) 社員経歴情報情報管理 1 ・ 割 開 園 駒 田 司 ・ 宮. . . . . ・;0.. 堕望........ 調 庫 副 ・2 国軍誼 恥 社 員3 也ド氏名 「 寸rげ有?す一!川県夫元 R R 贋吉曙名 i学情詞笠企葱昔日 「 │が1 ¥ ラ 之 子 生年月日 4 識名 ) ' ) グ ナ 年齢川士年月日 「 一 一 一 一 一 「 苛B Ti 一 一 一 一 一 三 塁J 主 主J~会J ~~I 一 一 一J 一一一一」 出社員ユ』ド E ' ‑ . , f : 「寸了円花吉‑ 1I 峰岸明美 所艶慨 i字 削 査 か 岡 部 職名 ウリ力サ I い科シY'T~ 生年月日 JA 正j 主 主j 且 且J . 時入壮年月日丘且 「一一一「τ 甘「一一一 酉 一一一」一一一̲j 1 菰名 雷 「 一 一 「 一 一 一 J ! I 所跡曙名 生年月日 年齢入壮年月日 「一一一庁官「一一一 手足J~五j ヱ主j 且丘j 一一一一」一一一一」 ……←一一一 一 一 一 一 一 一 一 一 一 一 一 一 三j 終了 2 1 0一
(
図4
) 教育研修情報管理
医
.
│許可Il:ml郁子
研修の種類し:.}3_ßIL__~ :
t
:
Q
2
̲
H
!
t
̲
̲
1
研修番号細田園田
実施呂
休憩
美掴哲司
実施時閉会計i8:百「
認自/内容
1
1
¥
許
I
・
‑
盟
国E量 m
.置臨調ロ可「 I
I
I
取量銭D
'
t
縄海祖国圃・園周園田園鳳扇爾闘爾園田踊
寵蹟調E 園田E ・
1
高野
・
・"m
開催者
司
E盟国E
踊 置E
理笥置 ‑語部震極陸田苗盟問圃E E 鹿島1
1
1
盛義選彊園田‑盟国・・田園田碩田園置園田
期間
実翻寺問
小
宮
十
休勲
1 主主j
閉El/内容
:
:
:
;
園.
.
.
置
国
1
I
.量E
遺言量調E言霊亙副国語重量iII盟国岡崎圃圃1 ̲
置 庁:00 量刑温稽謡髭i
鹿盟盟霊童 富 民 置 ・ur
場所
諸事
開催者
量逮古書調註薗望峰翻1
.
園 田 ‑直 属 国E鑓
量盟関自画霊量官当置 E
示
.
t
.
"
"
"
'
9
I
ー
ー
ー
一
ー
‑
‑
ー
ー
ー
ー
ー
ー
晶白耕輔
休憩
小計
田園田 f
十一一
手 重 孟j
冨
題目/内容
場所
1 重孟j
印刷
終了
(
図5
) プロジェク卜別治験情報
一一一一
園面画‑詔
nD
ノ
hv/
﹁
﹂
fノ
札の
札
N前
nリ
TI
DnE
MHU荒
J1f
nk
一
p
o‑
n
u
‑B
名一昨
3
ト
hノ‑
ジ一川
プ
一9
一
ェ
口一列
一」
(臨床式駁 kコいて J
ig
そ
D担当者名
用設名
料名
届出日
届出限了日
職名
自主翰定骨 I];~
開
始
症
丹
!
i
:
;
世
回収J;[ f!,j~守
「一一一「一一一「一一一
「一一一「一一一「一一一「一一一
依頼申出・実施計画書説明会・依頼説明 l
賢母医師名
依頼→確認→受諾→契約→終了
違謹話ヰ露呈
症例報管害入手・調査・確認
担当医師
;台験薬交じ早収
車
l一室鍾孟盟J
園
備考
是認年月日
「一一一‑ E
l
亡二三終了̲
.
̲
‑
̲
J3
ム
唱E
ム
唱E
円︐白
(図的医療機関情報 i ‑ ‑ 盟国園田謹亜嗣邑‑ーー・回目白. 踊踊繊細面圃圃圃圃圃圃圃圃圃圃圃・・圃圃圃圃園田園圃圃圃圃圃圃圃圃圃圃圃圃 施設コード 施設名 11蓑 ~T 主 r; :rr ~~jと ;;;;1:完 !13閃 14 電話醤号 γ │03‑3823‑2101 1113 FA> 、話号 し て 五 訂 ニJ ー」 住所 │東京都文京三本駒込3‑18‑22 院長氏名 ~療科 代表者氏名 代表者肱名 5 骨」主主体 段.)2年月日 治験結令所支芳主主 120‑12‑01 3 董録日 192‑11 ‑ 18 IC一面支:;jd 終了 2 1 2
日本 S A Sユーザー会 (SUG I‑J) S A S結果を利用した報告書作成支援システム 志賀功 株式会社富士通大分ソフトウェアラボラトリ ビジネス推進部 R e p o r t i n g System f o r SAS Output I s a oShiga BusinessPromotionDept. F u j i t s uOitaSoftwareLaboratoriesL t d . 要旨 S A Sシ ス テ ム で 解 析 し た 結 果 出 力 か ら 帳 票 や グ ラ フ を 自 動 生 成 し 、 高 品 質 の 報 告 書作成を支援するシステムである。 S A Sシ ス テ ム で の 解 析 実 行 か ら 解 析 結 果 の 取 り 出 し 、 帳 票 や グ ラ フ の 生 成 と い う 一連の作業を自動化することで、報告書作成業務の大幅な効率化を図ることができ、 S‑Excelや グ ラ フ 描 画 の 専 用 ソ フ 報告書の信頼性も確保することができる。また、 M ト( P r o f e s s i o n a l R E P ORT) を 組 み 込 む こ と に よ り 、 品 質 の 高 い 報 告 書 の 作 成 を 可 能 としている。 キーワード: 1. 報告書、帳票、グラフ、 P r o f e s s i o n a lR EPORT、 COMPAS はじめに 我々はこれまで、新薬開発のための臨床試験業務における症例データの管理や統計解析を支 援するシステム ( COMPAS) を開発し提供してきた。臨床試験支援システムにおける統計解析 の業務は、我々の COMPASに限らず SASシステムが利用されていることが多い。 臨床試験業務では解析結果を報告書としてまとめるという作業が発生するが、現状の臨床試 験支援システムには SASシステムでの解析結果を報告書としてまとめるという機能が十分で あるとは言い難い。利用者が報告書を作成する場合、解析結果をワープロなどに転記している という場面が多く見受けられる。これでは作業効率も悪化するし、しかも転記ミスが発生する 可能性も高い。これでは、システムを導入して症例データのデータ管理を充実させても、解析 結果報告書の品質という面では効果が十分とは言えない。 そこで、我々はこれらの問題を解決するために SASシステムによる解析結果を自動的に帳 票やグラフに出力するというシステムの開発に至った。 円ノ 1ム qU
2. システム処理概要 本システムの処理の流れは、図 1に示すとおりである。 予〈 ① 附 ‑ Hヲ ト 項目・カテゴリ辞書 )[②解析指示の指定 │ から情報を獲得 [……索 。 薬剤 性別 男性 A弗lB斉1 1 女性 43 4 2 不明 29 3 3 ‑39歳 7 0 5 91 0 40‑59歳 1 4 1 9 60‑79歳 1 4 1 7 80‑歳 1 0 年齢 3 6 2 7 7 2 ) 9 も 4J① 2 ) 4 J シ ① 検定 [ ) n p=0.04 [ ) ! IIp=0.08 f? 図 1 システムの処理の流れ S A Sデータセットから情報を獲得 ① CONTENTSプロシジャにより項目情報を参照し、項目辞書として保存する。 ‑ FORMATプロシジャによりカテゴリ情報を参照し、カテゴリ辞書として保存する。 解析指示の指定 ② 一 項目一覧から解析する項目を選択する。 一 帳票およびグラフのパターンや解析手法などのオプションを選択する。 ③ S A S実行 一 指定された情報からプロシジャを生成し、 S A Sを起動する。 ④ S A S結果の検索 出力された S A Sの解析結果から必要な情報を取り出し、集計・解析結果として保 存する。 ~214 一
⑤ グラフ・帳票作成 r o f e s s i o n al REPORTを利用してグラフを作成し保存する。 集計・解析結果から、 P 項目辞書、カテゴリ辞書、集計・解析結果から、 MS‑Excel を利用して帳票を作成 する。 MS‑Excelの帳票の中にグラフを埋め込む。 システムの特長 3. 本システムの主な特長は以下のとおりである。 単純かっ容易な操作で高品質な帳票出力 (1) SASデータセットの選択、解析項目の選択、解析オプションの指示など、単純な G U Iとマウス操作により容易に指示が可能である。 容易な操作で、計量データの解析と計数データ(分割表)の解析を行うことができ、 報告書として体裁の整った帳票として出力することができる。 帳票レイアウトの作成不要 (2) SASデータセットを解析してカテゴリ情報を取得し、自動的に表のセル数、セル幅 を決定し帳票を組み立てていくので、あらかじめ帳票のレイアウトを作成しておく必要 はない。また、解析結果の情報とデータの出力位置を定義するなどの作業も不要なので、 作業効率が飛躍的に向上する。 手軽な動作環境 (3) W i n d o w s 9 5および WindowsNTW o r k s t a t i o n 4 . 0のパソコンスタンドアロンで、動作するシ ステムで、簡単に安価に導入することができるため、大きな効果が期待できる。 (4) 高度なグラフとの連携 解析結果からグラフを描画するというソフトウェア ( P r o f e s s i o n al REPORT) と連携 することで、 SASシステムでの解析結果をグラフ表現することができる。また、体裁 品質の厳しい業務の報告書として十分満足できるグラフを作成することが可能である。 計量データの解析では箱ひげ図を、計数データの解析では構成比グラフを出力して帳票 の中に埋め込む。 また、 ProfessionalREPORTの業務に適用したグラフの出力例として図 2に紹介する。 ProfessionalREPORTでは、この他にも様々な特殊なグラフを体裁よく描画することが できる。 215‑
赤血埠散 mm X1 0 0 0 0 / . .: 1 600r 5 5 ‑ i f ‑ . 3凹ト / 200 200 300 ー 、 、 ー 4 0 │症例針山田 400 : ; 0 0 3 5 600 観察期 投与 J I 1 1 治模期 生命表 1.000 0 . 1 1 0 0 0.100 . 2 0 1 1 ( J 0 . 1 1 0 0 0 250 500 750 1000 観 鼎 期 間1 1250 1500 1750 図2 P r o f巴s s i o n a l R E P O R Tのグラフ出力例 4. 今後の課題 本システムは作業効率の向上を第一の目的としているため、帳票レイアウトの作成などの利 用者の作業を不要としている。このため、帳票の形式や解析手法などのオプションの選択は、 ある程度ノミターン化されたものになっており、利用者は自由度が制限されていると感じる部分 もあると考えられる。この問題を解決するために、帳票パターン集やグラフパターン集など様々 なオプションを盛り込んでいくことを考えている。 <登録商標> Windowsは、米国 M i c r o s o f tC o r p o r a t i o nの米国およびその他の固における登録商標です。 MS‑Excelは、米国Mic r o s o f tC o r p o r a t i o nの米国およびその他の国における登録商標です。 ‑216一
日本 SASユーザー会 (SUGI‑J) SASによる同等性検証と傾向性仮説検定 篠津和夫 住商情報システム株式会社 1 ' ¥ ッケージ・インテグレーション営業部 SAS prog悶 msofthe equivalence and trendf o rC l i n i c a lT r i a l s Kazuo Shinozu PACKAGE INTEGRATION BUSINESS DEPT . .SUMISHO COMPUTER SYSTEMS CORP. 要旨 臨床統計で必要とされる統計手法の内、主として SASで用意されていない手法について、例数 設計も含めて、 SAS上で広く利用されることを目的として作成し、 fSASによる臨床統計システム」 として販売することとした。 n a xt 、maxx‑、 Cochran‑Armi t a g eを対象とした。 今回バージョンで、は、同等性検証、 r キーワード C l i r u c a lt r i a l s、e q u i v a l e n c et e s t、SAS/STATソフトワェア 1.はじめに 臨床統計分野においては、様々な手法が知られているが、その中には SASに標準で用意さ れていない手法もある。それら手法については、臨床統計担当者個人により、プログラムされて いるのが現状である。そこで、それら SASで用意されていない臨床統計手法について、プログ、 ラムを開発し、合わせて臨床統計専門家に評価していただき、広く提供できることを目的とした。 紙面の都合により、同等性検証、傾向性仮説検定について詳細には記述できないが、それら については、弊社が販売する fSASによる臨床統計システム」に添付してしも解説書(監修: 東京大学工学部広津千尋教授)に詳しく記述されているので、そちらを参照していただきたい。 なお、同等性検証、傾向性仮説検定いずれについても、実際の応用にあたり例数設計及び 検出力評価が重要であるので、これらについてもサポートすることとした。 本システムのオプション例、及びマクロプログラム例を表 1、2に示す。 ‑217‑
2
.同等性検証
同等性検証としては、ハンディキャップ方式より、小標本での特性が良いこと、またハンデ、イ
キャップムを可変とした場合にも容易に対応できることから、信頼区間方式を採用する。
すなわち、有効率差 PI‑POに対する右片側信頼係数 1‑α の信頼区間[九,∞]を構成し、
I
1Lα が ‑
1
1を越えることを示す。
このとき、
pr{PI‑P
O
;
:
:
:I
1Lα } =1 α
コ pr{PI+企‑Po;:::I
1Lα+企 > o
}=1 α
の関係により、治験薬が対照薬に対し、 ‑
1
1を越えて劣っていないことが、信頼係数 1 αで
保証されたことになる。
i
j
kで表し、各群の例数を
また、層を併合した信頼区間を考えるとき、データを一般的に Y
ni
=Yilk+Yi2k =Yi‑k)で表すと、 Y併は第 k層における第 j薬の有効 (
j二 1
)、無効(J=2
)
k(
例数であり、 ni
kは第 k層、第 I薬の試験例数となる。このような場合、まず検討しなければいけ
ないのは層の一様性である。一般に層別は有効率(予後)に影響を与える要因に関してなされ
るので一様性とは2薬剤の相対差に関することであり、有効率そのものに関して影響のあること
はむしろ前提とされる。ここで相対差のとり方を有効率差 P
l
k‑P
2
kとし、層の一様性とは
P
l
k‑P2k 三 δ, k二 1
,
.
一
,
)
(
(
1
)
を意味する。(ロジット差もあるが、ここでは採用しない。)
1
)式を仮定して、共通の差 δの区間推定方式を与える。 δに関する尤度は PIk
ここでは (
を擾乱母数として
KI{~\
[
.
.
1
1n". I
'
" 1n I
Y
"
;[
::~k [
(
P
l
k‑8
y
川(l‑Plk+δy
ト
川1
L= 日~ I
k[
p
i
2
"(1‑PIk
k~î I
¥
Y
l
k
)
{~\
今
,
''''
,u
I
\Y~lk ノ|
と表される。解くべき方程式は
刊
の =J1I子
工‑Y21k+n2kvk
(
2
)
;
‑ v
l‑v
k(
k)
V
P
l
k一δ
k=
(
3
)
T
(δ
)=)
(
α
(
4
)
として
で与えられる。ただし、 P
1
kは
竺笠土=ム正弘旦主 + y2
1
k‑n2k(
P
l
k一δ
) O
.k L
.
.
.
.
K
φl
k
ニ
P
l
k(
1
‑Plk) , (
ん ‑d)(l‑Plk+δ
)
218‑
二
(
5
)
を解いた δの関数として与えられる。なお、ふ .2はこの設定では次式で与えられる。 円 ) f k k ( l ‑ v r 九 ) 寸 ) b { n :P l k ( l k ︑ ︐ レ 会 歪度を調整した信頼下限は次式から求められる。 市) -~r{T2(δ)-l}=Kα ( 7 ) ただし、 T (δ ) (2)式 二 J1日 二 ( 6 )式 ' ) r=J,~~ t [ ( I ‑ d , ){ ( 1~~:, n2 kP1k( 1 ‑P l k ) k‑nk ¥( 1一九)+l72kP l k( 1 ‑P1 k ) 11 d, ‑ = 九 =(3)式 であり、 ~k は (5)式を解いた δ の関数として与えられるので (7) 式は δ のみの関数となる。 本システムで対応している同等性検証の出力例を、表 3 ‑ ‑ ‑ ‑ ‑ 6 (こ示す。 3 .傾向性仮説検定 傾向性仮説検定については、特性値が改善度分類のような順序分類データとして与えら れる場合で、の順序に沿った系統的な差を考えるもの、及び、用量設定試験のように比較した い処理に自然な順序があり、その順序に沿った系統的な変動を検出する場合の、全体として 単調増加傾向の有無を検証するトレンド検定と応答の立ち上がりゃ、大きな段差の現れる水 準を検出するための多重比較法が考えられる。 手法としては、 T検定、 Williams、modi五日 dWilliams他もあるが、今回は maxt、maxど、 Cochmn‑Ann i t a g eを取り上げる。 表 7、8 fこ出力例を示す。 ‑ 2 1 9
表 1 オプションリスト 入力 SAS デ)タセット 群変数 BY グループ変数リスト 計数値変数 度数集計出力データセット 片側/両側検定 検定値出力データセット 有意水準 出力ディレクトリ 信頼区間 出力タイプ 表2 マクロプログラム例 C o c h r a n ‑Arm i t a g e検定 (2値応答・ 3群以上) 実行例 9 もCA 0 N ORK.CA, DOSE, TUMOR, SEX, WORK.CA̲FREQ, WORK.CA̲STAT, STAT.FLG, PVAL, OUTTYPE.FLG, CSVDIR, SUMFILE, ST A T F I L E ) 変数の説明 WORK.CA ‑入力データセット名 DOSE .群変数(分類整数) TUMOR .計数値変数(分析変数) SEX ••• BYグ〉レープ変数リスト WORK .CAFREQ ...度数集計出力データセット名 WOR K .CA̲STAT...検定値出力デ、ータセット名 STAT.FLG ・・・片側・両側検定フラグ PVAL ...有意水準 OUTTYPE.FLG ・・・出力データタイプ CSVDIR ‑ ・ ・ CSVファイル出力デ、イレクトリ SUMFILE ‑サマリーデータ CSVファイノレ名 STATFILE .統計処理結果 CSVファイノレ名 ‑ 2 2 0
表3 出力例(同等性:基本式) 同等性検証一信頼区間法 GIR 分析変数 : DTCT 有効 例数 有効率 2 1 3 6 0 . 5 8 3 2 1 0 2 3 . 43 5 0 計 3 1 5 9 0 . 5 2 5 2 0 2 7 0 . 7 4 1 2 3 4 4 3 0 . 7 9 1 計 5 4 7 0 0 . 7 7 1 DRUG 2 区間推定方式/基本式 Kα 信頼区間 1 .6 4 4 9 ‑ 0 . 1 0 8 1 5壬 企 壬 表 4 出力例(同等性 0 . 1 5 2 8 6 Skewnessc o r r e c t i o n ) 同等性検証一信頼区間法 GIR 分析変数 : DTCT 有効 例数 有効率 2 1 3 6 0 . 5 8 3 1 0 2 3 0 . 43 5 3 1 5 9 0 . 5 2 5 2 0 2 7 0 . 7 4 1 2 3 4 4 3 0 . 7 9 1 計 5 4 7 0 0 . 7 7 1 DRUG 2 2 区間推定方式/Skewnessc O I r e c t i o n Kα 1 .6 4 4 9 信頼区間 0 . 1 0 8 3 2三 企 三 2 2 1一 0 . 1 5 3 9 6
表5 出力例(同等性:一様性尤度比検定) 同等性検証一信頼区間法 分析変数 :GIR DTCT DRUG 有効 例数 有効率 2 1 36 0 . 5 8 3 2 10 23 0. 43 5 計 3 1 59 0 . 5 2 5 1 20 27 0 . 7 4 1 2 34 43 0 . 7 9 1 計 54 70 0 . 7 7 1 1 2 一様性尤度比検定 CHISQ= 1 .3 899 DF= 1 P r o b>CHISQ= 0 . 2 3 8 4 表 6 出力例(同等性:例数設計) 同等性検証例数設計 0 . 1 0 1 .6 4 4 9 0 . 8 4 1 6 0 . 5 0 ‑222‑ 田 川 0 . 2 0 薬 0 . 0 5 誠一対 Kα 改薬 験 治 f ) . n u ' β K α ρ 例数 0 . 5 0 1 .0 0 0 0 0 0 0 3 1 0
表 7 出力例 (maxt ) max‑t法 分析変数 : V A L DOSE 例数 総和 平均 分散 標準偏差 平方和 1 . 5 5 5 . 3 8 し076 0 . 0 0 5 3 3 0 0 . 0 7 3 0 0 7 5 . 8 1 0 2 2 . 1 0 5 5 . 9 3 1 .1 8 6 0 . 0 1 5 9 8 0 0.126412 7 . 0 9 6 9 3 . 25 4 6 . 2 0 1 .550 0 . 0 0 3 4 6 7 0.058878 9.6204 4 . 50 5 7 . 5 2 1 .504 0 . 0 5 3 4 8 0 0.231257 1 .5240 1 5 . 200 5 9 . 2 8 1 .856 0 . 0 2 1 1 3 0 0.145362 1 7 . 3 0 8 2 全体 24 3 4 . 3 1 1 .430 0 . 1 0 0 4 6 5 0.316962 51 .3597 不偏分散: 自由度: 0 . 0 2 0 7 4 1 切断点 検定統計量 1;2‑5 6 . 1 7 0 0 7 1 7 1 1‑2;3‑5 8 . 5 8 4 0 4 0 7 1 1‑3;4‑5 7 . 1 9 9 2 8 6 1 6 1‑4;5 44102214 7. 1 9 p値(片側) * 0 . 0 0 0 0 1 *:最大切断点。 x ‑ 位一定 m一検 例一乗 的一一作 士‑カ 表一最 ー 一 大 応答変数:Tumor 反応有り 例数 反応率 5 7 7 0 . 0 6 4 9 2 7 7 6 0 . 0 9 2 1 全体 1 2 1 5 3 0 . 0 7 8 4 Dose 切断点 検定統計量 1 ; 2 ‑ 6 0 . 3 9 0 6 1 ‑ 2 ; 3 ‑ 6 0 . 0 0 1 1 1 ‑ 3 ; 4 . ‑ 6 1 . 0 8 3 2 1 ‑ 4 ; 5 ‑ 6 1 0 . 6 5 1 4 1 ‑ 5 ; 6 3 . 6 7 4 6 ‑223 p { 直(両側) 0 . 0 0 2 6
4 .おわりに 今回のバージョンでは、 SAS で用意されていないものを中心に、臨床統計手法を選択して 提供することとしたが、まだ全部を網羅しているわけではない。今後、これ以外の SASで用意 されていない手法についても順次提供することとしたい。 の内容、価格等の詳細について なお、本論文で取り上げた iSASによる臨床統計システムJ は、弊社担当(篠津: 03‑5611‑3134)迄問い合わせていただきたい。 最後に、今回の作業にあたり、統計手法について評価していただいた東京大学工学部計 数工学科広津千尋教授、また、 SASについて貴重なご意見を頂戴した成膜大学経済学部 新村秀一教授、及び実際の臨床統計業務について貴重なご意見を頂戴した大鵬薬品工業 株式会社臨床学術部D M 室柏木渉課長につきましては、ここに改めてお礼を申し上げます。 <参考文献> ・iSASによる臨床統計システム」解説書 住商情報システム株式会社 ・ 「 第 10会計算機統計学会シンポジウム発表論文JP128 (篠津、山田、長屋;住商情報システム株式会社) ‑224‑ 1 9 9 7
日本 S A Sユーザー会 (SUG I‑J) 簡易帳票作成システム SASt oExcel 症例一覧表モデル" 藤本浩本七沢勉 H 株式会社電通国際情報サービス 81コンサルティング部 S 判アジアパシフィックシステム総研 SEAD Easy‑to‑use"r e p o r t i n gsystem,WindowsSASSystemt oMS‑Excelr e p o r t i n gformmodel ト~iroshi F u j i m o t o事 事 TsutomuNanasawa 梓 I n f o r m a t i o nS e r v i c e sI n t e r n a t i o n a l‑Dentsu,I t d . S IC o n s u l t i n gDepartment 岬 A s i aP a c i f i cSystemResearchc o ., l t dSEADDepartment 要旨 昨年発表した SASt oE x c e lは SASの結果を簡単に E x c e lへ渡すツールであり、主に クロス集計表を対象としていた。今回は症例一覧表を労せず作成できるツールの開発を 目指し、実用化版が出来たので、報告する。 キーワード Windows版 SASシステム、 MS‑Exce197、DDE通信 1 . はじめに 現在では一般化しつつある SASから E x c e lへのデータ送信であるが、毎回オーダーメイドの プログPラミング?で実現するには手聞がかかりすぎるC そこで昨年は SAS で、簡単なパラメータを 指定すれば Excelへ自動で罫線付きのクロス表を作成するツーノレを開発した。 今回は臨床開発業務で最も苦労されると思われる、症例一覧表(や、その他の帳票類)の作 成を簡単に実現できるツーノレの企画・開発を行った。 2 . 設計思想 今回の症例一覧表モデ〉レは、前回のクロス集計表作成モデノレとは逆転の発想をしている。 前回は大量のクロス集計表、しカも場合によってはカテゴ、リ内容が違う等で全ての帳票のレ イアウトが異なる場合を想定していたので、 SAS のフ。ログ、ラム形式を取ったパラメータを指定・ 実行すれば Excel上に自動で、成形された帳票を作成する方式を取った。 しかし今回は、一覧表等のレイアウトに関する要求がシビアな物を対象としており、その指定 をパラメータ形式で対応するには限界がある c そこでこのモデルでは、 Excel上に完成形のレイアウトを作成しておき、データを埋め込みた いセノレに SASの変数名を記述するだけで目的に達するような設計を施している c ‑225一
3. 仕様 今回の症例一覧表モデルの仕様(要点)は以下の通りである。 .レイアウト作成は 1症例分だけでよい →全症例分作成する手聞は必要ない ・セル内の形式(フォント種類・サイズ,印字位置,セル内で、の折り返し,ユーザーフォーマ ット他)は Excelで指定した通りにデータが埋め込まれる →データが埋まった後に修正・成形作業をしなくてよい ・同じ表に対して複数回実行した場合、実行回数分だけシートを自動で作成する → 帳 票 作 成 の 履 歴 が 1つの E x c e lファイルに自動で管理できる ・デ、ータセットにない変数が指定された場合、エラーセル部分を赤色にし、実行も即座に 中断する →エラー時の修正対応が即座に出来る ‑症例毎に行数が可変になる帳票(併用薬個数分レコードを起こす等)を簡単に作成する →対応に最も苦労する部分こそツールでカバーし、業務効率を引き上げる ・フォーマット化指定されている変数は自動で変数変換する →わざわざ新たなデータセットを作成する必要はない •E x c e l9 7で可能になった「セノレ結合 J されたセルにもデータ送出可能とする →新たなフ。ログラミング、テクニックを利用して実現 4 .最 後 に DDE通信等の技術に関しては、昨年発表の論文と何ら変わりがないので割愛させて頂く。 今回目指したのも本当に必要とされるツールの開発で、あり、今まで、 CRO 業務で、培ってきた 経験やノウハウを如何に具現化させることが出来るカも、テーマの一つで、あった。 お世話になった関係各位にこの場で、感謝の意を申し上げる c ‑k.お願い 何分帳票系ツールの話なので、「百聞は一見に如かず」と言うことで是非デ、モンストレーショ ンをご覧頂き、不足部分や将来的な仕様についても御意見を頂ければ幸いです。 ‑226‑
日本 S A Sユーザー会 (SUG 1‑J) SAS上での統計解析アプリケーションの開発 一 一 [EXSASJの 開 発 を 例 に と っ て 一 一 0山本典子率 浜田知久馬山 本有限会社アームシステム企画部 岬東京大学医学部薬剤疫学教室 D e v e l o p i n gA p p l i c a t i o nf o rS t a t i s t i c a lA n a l y s i sU s i n gt h eSASSystem N o r i k oYamamoto SystemP l a n n i n gD i v i s i o n .ArmC o r p o r a t i o n ChikumaHamada U n i v e r s i t yo fTokyo 要旨 前臨床試験統計解析システム [EXSAS]をSAS/AF、ノフトウ工アを使用し開発した。当システム は、一元配置型・経時型などの典型的なタイプに分類した EXCEL上のデータを SAS{ニ読み込み、前 臨床試験で必要な解析をメニュー上で、選択することにより、必要最小限の統計解析の結果を DDEや OLE機能を利用して EXCELIこ返すものである。 GUIを利用したシステムである [EXSAS]の開発の 経緯と概要を紹介するとともに、実際の利用者からのニーズやシステム化の問題点、ま士、その対応 策の事例を紹介する。 キーワード:前臨床試験、 SAS/AF、ノフトウェア、 M i c r o s o f tE x c e l、DDE、OLE、決定樹、パリデ ション ‑227
1 .開発の経緯 前臨床試験に携わる研究者は通常、統計学やコンピュータの専門家ではなく、実験後のデータ解析を できるだけ手間をかけずに行し、たしせ考えている、実際、研究者がデータ処理に費やす時間は膨大であ り、また、どのような検定・解析を実施すれば良し、かの調査にもかなりの時聞が費やされている。し、くつか の製薬企業で、社内的に検定手法の選択に関するマニュアルの作成が試みられているが、検定手法の 内容を理解し適切な手法を選択するには、統計学についてのかなりの知識を必要とするので、統計解析 を主たる業務としていない研究者にとっては大変面倒なことで、あるの また、初めて SASシステム(以下、 SAS)を使用して解析をおこなうユーザにとって、 MIXED プロシジ プロ、ンジャーに代表される最新の理論に基づ、いた高度なプロシジャーのプログ ラ ミ ャー、 MULITEST F ングをマスターしたり、出力の読み方を理解することはかなり骨のおれることであり、 SASの高度な機能と 膨大な出力は初心者にとって SASを近寄り英齢、ものにしている。したがって、様々な分野ごとに、初心者 が使い易いシステムを SAS上で構築することが求められている。そこで、 SASを使用したことのない人に も前臨床試験の統計解析が簡単にできるようなシステムの構築を目標とし [EXSAS]の開発を一試みた。 2 . [EXSAS]の概要 [EXSAS]は、標準的な表計算ソフトウェアである i M i c r o s o f tE x c el J(以下、 EXCEL)と、世界的に定 評のある統計パッケージ iSASJを自動的に連動するシステムで、データの入力と解析結果の出力に EX を使用している υ 多くの研究者が実験データをEXCEL を使用して整理していること、あるいは他の CEL ファイルへの変換が容易にで、きることなと、、から、入力には EXCEL を採用した。 ソフトウェアからの EXCEL また、出力に EXCEL を使用することによって、見栄えの良い出力への加工が容易になったO 以下に [E XSAS]の一連の流れを示すυ (1)生データ EXCELブック ( 2 ) (3) ‑228‑
前頁の一連の処理は、すべて [EXSAS]のメニュー上のアイコンをマウスで、選択するた、けで行うことが できる。 EXCELに入力されたデータは、自動的に読み込まれ、 SASでの解析が実行される。解析結果 や統計量は、必要最小限の情報だけが選択され、罫線やヘッダーが体裁良く配置され、入力データと同 tEXCEL ブ、ツク上の異なる、ンートに出力される これらの一連の流れをもっ [EXSAS]は 、 DDE や OLE C 機能を利用し構築されている。 3 .[EXSAS]開発のコンセプト [EXSAS]の開発のコンセプトとして以下の 5点をあげているc 1 .GUI(ク、ラフィ力ルユーザインターフェイス)の利用 2 ハイ・パフォーマンス 3 検定手法の追加・修正などメンテナンスが容易なシステム設計 4 .前臨床によく用いられる統計手法の網羅 5 .データタイプごとに適用可能な手法をメニューで提示 3.1. GUI(グラフィカルユーザ、インターフェイス)の利用 ユーザのオペレーションミスを最小限におさえるためには、 GUIの利用は有効であるO また、 GUIを利 用することによってオペレーション(アイコン選択など)の履歴を保存できるといったメリットがある。 3.2. ハイ・パフォーマンス GUIを利用したシステムを構築する場合、パフォーマンスの低下が危倶される 実際、利用者にとって O は、パフォーマンスが著しく悪ければ実用的でなくなるので、プログラミングの際には、 SASプロシジ、ャー や SAS関数の有効な利用とともに、パフォーマンスの向上を優先した。具体的には、解析処理を一括処 理する、できるだ、け PROCステッフ。の回数を減らす、以前に処理されている統計量を利用する、 BYステ ートメントを有効に活用するなどの工夫をおこなっているの 3.3. 検定手法の追加・修正などのメンテナンスが容易なシステム設計 無数にある検定手法を網羅するシステムは、理想であるが、現実的には不可能に近い。また、近年で は次々に新しい統計手法が提案されており、 SASでもリリースアッフ。の度に様々な拡張がなされている。 そこで、使用頻度の高い検定手法から順次システムに組みこむ成長型システム、および最新の検定手法 の追加・修正などのメンテナンスが容易にできるシステム設計を目標とした v 次頁に示すように「データの読み込みプログラム Jr 解析・出力プログラム Jr 罫線作成・作表プロクずラム」 と3段階に処理を完全に分離し、解析に使用する中間ファイル(ワークデータセット)は、共通のフォーマ ットに統ーした c 3段階に処理を完全に独立させることにより、読み込むデータをEXCEL以外のテキスト ‑229‑
データやO民生CLEデータなどに変更する場合には「データ読み込みプログダラム」を、 SASのリリースアッ プなどによる解析内容の変更の場合には「解析・出力プログラム」を、同じ検定手法で、表のフォーマットを 変えたい場合には「罫線作成・作表プログ、ラム」を、新規作成あるいは修正するだけですむようになるc また、原則的にすべての処理プログラムにおいて項目数、群数、 H 寺点数など、の制限をつけずに解析で、 きるようにプログラムを一本化した(可変対応プロク、ラム)、、このため、例えば、 3群以上の多群データであ っても、 2群の場合と同様の流れで解析を進めることが可能である。また、フ。ロク守ラム本数が減少するため、 フ。ログラム修正、バリデーションテストなと、の効率化が計れ、信頼性の高いシステムの構築が期待できるc データ読み込みプログラム 共通フォーマットの中間ファイル (ワーク S A Sデータセット) │すべてのプログラムは、 項目数、群数、時点数など 可変対応→ プログラム本数の減少 (プログラム修正やバリデー ションテストの効率化) 雇1 匝ヨ 匝ヨ 唱盤韓謡器盟議議蓋謹霊 自主主主事 .̲特温塾塾坦坦型車五 ‑230一
3.4. 前 臨 床 試 験 で よ く 用 い ら れ る 統 計 手 法 を 網 羅
薬理試験で、よく使われる手法として、多重比較、経時型分散分析、 ED50・
LD50推
毒性あるいは、薬剤J
定などが挙げられ、 [EXSAS]では、これらの統計手法をすべてカバーしているひ多重比較については、
DunI
le
t
t、T
l
l
k
e
y、Wi
I
li
a
m
s のパラメトリック型とノンパラメトリック型の多重比較が用意されている これらの
u
多重比較は、 PROBMC関数を使用し、仔J
I数がアンバランスな場合でも適切な計算を行う。 D
u
n
n
e
t
t、
T
l
l
k
e
yの多重比較については、 pi
f
宣が出力され、この点は、他の統計パッケージにはない特徴とし、える。
f
寺型データの解析法としては、多群、多 H
寺点の多重性の問題をさけるため、 CompoundSYUl
I
l
l
e
t
r
y(C
経l
S
)を仮定した経時型分散分析を標準的な統計手法として取り入れている。この分野の統計手法は、生
物統計学の研究者の聞でも、最もホットな話題であり、様々な手法が提案され続けているコ今後、 CS以
外の相関構造による解析、 GEEによる解析なども取り入れてし、く予定である。
[EXSAS]では、用量反応パターンを判断する手法である最大対比法が利用でき、多重性調整 p値、
モデ、ル適合度、用量反応モデルによる予測パターンのグラフなどを出力する。最大対比法が使われるよ
9
9
0 年代と比較的最近であり、現在のところ、他の統計ノミッケージでは利用可能なもの
うになったのは、 1
はなく、最大対比法が利用できるしウ点は [EXSAS]のユニークな特徴といえる【
この他、今後、 [EXSAS]に追加する手法としては、カフ。ランマイヤー曲線、ログランク検定、一般化ワ
イルコクソン検定など、の生存時間解析や同等性試験・例数設定などを予定している。
。 [EXSAS]メニュー構成。
D
l
l
n
n
e
t
t、Tukey
、LSD型多重比較
解析データの表有<11"正
群間比較
ム遁調要約統計量、等分散性の検定
データ要約・等分散性寸"戸
単測定型
用量反応関係
f
j
;
;
;
i用量反応関係、 W山即時の多重比較、
唖叩と
.
:.:;i~:!:JI ED50、最大対比法 (MCM)
解析データの表示
経時型分散分析
経時測定型
1
,.;~解析データの表示
‑ I
直殴交分綿解型断分散断分析;~ ~'ιι
凶
~.iq~
司 デ宇一タ要動約.等分州散樹+性生 │
i
同
要
蜘
約
統
附
計
措
量
、 等噺分散蜘性の吋検定引│
I討 群 間 比 較
ι
l
時附点別隅解析
二吋:,~,~哨判端哨判号i品!
群別解解;析
噛ふ
哨
心 相
三│
同周量即芯関係、 W
i
l
l
i
a
m
8の多重比較
(対応のある t検 定 〉 制 端 グラフ作成(サンプ峨)川 ED回、最大対比法 (MC刈
i
f
1
J
一
不
味噺
タ析の
一解上
デの以
糊群群
川
ノ
型
一ア
カ
分類データ
順序データ
分類データ
1
)
頂序デ‑;9..
クラスカルーワリス検
ノンパラ型多重比較仁ぷ
用量反応関係
,<~'J~IT:
2
3
1一
a
吋
iコクラン.アーミテージ検定
W出i
阻 18の多重比較、 L D回
3 . 5 データタイプごとに適用可能な手法をメニューで提示 統計の専門家でない研究者にとって、横並びの検定手法の中から適切な統計手法を選択するのは容 9 8 7 )にある決定樹の道筋をたどって検定 易なことではない。そこで、医薬データ統計解析の書籍(吉村, 1 手法を導いていくように、メニュー上のアイコンを選択することにより検定手法にたどりつけるようなカスケ ード、型メニュー構成を採用した 決定樹とEXSASのメニュー上のアイコンなどとの関係を一元配置型の O デ、ータを例にとって次頁の図 1に示す。決定樹をたどるように、メニュー上のアイコンを選択すると次のメ 二ューが展開するC メニュー上には、分岐(アイコンの選択)の際の選択の容易さを考慮し、アイコンの配 置を行った。 また、ユーザーがデータを吟味した結果、計算方法をパラメトリックかノンパラメトリックかの選択がで、きる EXSAS] ことに加え、自動的に計算方法を選択するツリー型アルゴ、リズムを付加した 現ノくージョンの [ O では、 1種類のツリー型アルゴリズムしか組み込まれていないが、現在、さらにしてつかのツリー型アノレゴリ ズムの追加開発が進んでいる。 時代の変化に伴い標準的なツリー型アルゴYズムも変化するが、今後も 代表的なツリー型アノレゴ、リズ、ムの追加、ユーザの提案によるツリー型アノレゴ、リズムのカスタマイズ対応等も 進めてし、く予定である。 また、 [ EXSAS]は、決定樹を考慮、したメニュー構成に加え、バリデーションやGLP への対応を可能と するために、メニュー画面上で、ど、のような操作をおこなったとしても、最終的には読み込まれたデータ自 0 身は変わらない完全一方向性のシステムとなっている(入力データと解析結果の対応を保証するため ) 例えば、 [ EXSAS]を操作中に、 SAS/INSIGHT との自動接続で、データの一部や外れ値を削除する などのデータの吟味は可能であるが、読み込まれたデータは一切その影響をうけない。また、ユーザ入 力の待機中でもワーク SAS データセット(中間ファイノレ)を変更するなどの処理が一切で、きなし、ように設定 した。 ‑232‑
図 I 決定樹と [EXSAS] のアイコンとの関係 データの型の選択 索 探) タど 一な デ討 的検 入ソルの 示穿ア値 ミ日間=ユれ =可=ジ外 =Qu‑ =凹=ピ( 5N‑ =G= i i G霊 童 〉 可t f 変換) 《主主空豆診 一 一 延豆診 d霊 ご 〉 検 品川射 定ゥ 一昨日一 D =メ 一 戸 予 己 万 一 円 り 直線回帰 れ 流 理 処 の の { 疋 ま 力 出 ((:=ご:J) lEX~~ 凶州 剖]μ S メニ斗ユ一士上の肘アイねコン功ある引しい、吋;は立 可、と~〆チェックボタンなど ﹃u nL ︒ ︒
4 .ユーザのニーズと問題点 [EXSAS]ユーザからのニーズや質問で最も多しものは、バリデーションや GLP への対応についてで ある。特に毒性試験ではこれらの問題を避けることはできない。 4 .1 . バリデーションの問題 [EXSAS]に対する様々なバリデーションテストで出力されるファイルや紙などの量は、膨大なもので ある。また、直接紙やファイノレに残らないテストなどもあり、現在はそれらに関する整理・文書化を進めて し 、 る ハ 以下に、実際のバリデーションテストの例をしてつか挙げてみる。 (工)解析結果のテスト EXSAS]でEXCELに出力される解析結果と、 SASプロシ 基本的なノくリデーションテストとして、 [ ジャーを使用し最も単純なプログ、ラムで、の SAS アウトプットとの一致を確認している。また、統計の教科 書などのデータ例を使用してのテスト、多項目に渡る実際の毒性試験データを用いてのテストなどを 行っている。このような基本的なノ叩デーションテストは、最低 2種類の方法で行っている。また、検定 の種類によっては、ダFブツレフ。ログ ラミング を行っている。 P P ②可変対応プログラム(項目数、群数など可変対応のプログ、ラム)のテスト SASには、様々な検定手法に関するプロシジャーや関数が用意されているので、他の言語を用いる よりも比較的容易に、そして正確に解析プログ、ラムを作成することができるが、反面、おもいがけないシ ステム的なエラーを見逃し易くなる。例えば、ある項目ですべての値が欠損の群が発生した場合に、 FREQ フ。ロシジャーは、その群の頻度を出力しない。また、 PROBMC関数では、計算結果が出力さ EXSAS]ではシステムエラーとして現 れない。これらは、もちろん、 SAS自体のエラーで、はないが、 [ れてしまう。このような問題をすべてチェックし、回避するには、かなりの労力を要するが、このようなエ ラーを回避すべく、バリデーションテストに力をいれている。 ③GUI関連のテスト [EXSAS]のメニュー画面とSASプログ、ラムとの連携の部分についてもテストを行っている。具体的な 例では、メニュー画面上のオペレーション情報(多くの場合は、マクロ変数)が正しく解析プログ ラムへ P 引き渡されているか?解析プログ ラムでの結果の情報を正しく反映したメッセージ画面が表示される F か?そのタイミングは妥当か?など、 GUIを利用した、ンステム特有のバリデーションテストを行って いる。 ‑234
4.2. GLP対 応 の 問 題 GLPへの対応を考えると前述のノザデーションの文書化に加え、システム的に様々な機能が要求され EXSAS]は、データ管理や実験計画などのサポートの機能はなく、データ読み込み・解析・出力だ る 。 [ けを行うシステムであるので、基本的には、解析に使用したデータと解析結果の対応が保証されれば良 EXSAS]は、完全一方向性のシステムであり、また、中間ファイルの変 いと考えている。前述のように、 [ シートにロッ 更ができなし、ように設定されているので、データの読み取りと解析結果出力の際に EXCEL クをかけるプロク、、ラムを追加することによって、入力データと出力結果の対応を保証することができる。この EXSAS]に標準装備はされていないカスタマイズ対応であるが、今後、 GLPモードとし 機能は、現在、 [ EXSAS]に標準的に組み込めるよう検討を行っている。 て 、 [ 4 .終わりに [EXSAS]の今後の課題として、必要な解析手法の充実、 EXCEL以外のデータベースとの連携、メ ニュー画面の改良、バリデーションテストの文書化など、対応すべき課題は数多い。今後も、ユーザ、ニーズ、 に応えられるように、こうし、った改良やノくージョンアップを進めていきたしせ考えている。 (参考文献) 山崎直樹、浜田知久馬、和田武夫(199η:生物統計解析システム (BSA S) の構築、武田研究所 報第5 3巻 、 7 2・81 吉村功 (198η:毒性・薬理データの統言十解析、(株)サイエンテイスト社 2 3 5一
E X S A Sのメニュー画面と出力例│
庫轟
初予I~(Q)
ー
E図
T
ω
引〉門f!J!J へ
ん
ヨ~♀昌国屋は且匝己j 劃量出国i
E亘函
l
主 主 二 事I
事E
l
i
‑三
三:
I
用
品
係 lJ
解析旦ft~ I
副司与
7
b
‑
;
日以主) tn
,
/
(
♀3 ウ
ィ
ン
ト
勺
担P 吋臼・匂)
一一一一==:3J訂正包囲 i民出国掴皇単位J
̲
,
ロI
'
x
M 岬 鍾 岬 ーJ
声 叫 延 長'"'r;'::l .tI叫一一一百五百加。「扇雨明岬
凶
忌
a
l
̲ll単単組A丘陵凶星誕当主i
町一関越鋪欝謹盟国向調盟国⁝
空警豊聾覇聾轟
0ィ,̲;と}{三河トリッ?
t"Il~宰~i"JJ') ッヲ
月
…
~..,
.
/
.
:
τ
1
O~ツリー型7・レコリズム'~_';".o:
.:~士ι ふ。
一ト一一
、
h
戸
,
三 も じ十
斗
4ゼ三ぷぷ:究与て古♀i
ふ
1
〆
πιψ
刊
t
,
,
"
f
直│
l
回目句同
函
l
i
1
戻る
‑
a
r
^
'ぅ
.
,;
Jか r
)
)
I
¥
・押 WI
i
J~怖からないと :!'I 孟 r1)型加古山を選択してくだ昌い
、
t
綾童主量'ゴを退t
択
Rしてくださ L
い2
e
百可否
J
nL
p
o
qd
:
r
/
'
Jト
干
一
一
向
.
"
iJ1;i
p唖
0.0078 I
22
13
← ト
日本 S A Sユーザー会 (SUG I‑J) SASによる前臨床パッケージの紹介 清水聖子 A Sインスティチュートジャパン 株式会社 S コンサノレティング部統計サービスグループ I n t r o d u c t i o nt ot h ea p p l i c a t i o nf o rP r e ‑ C l i n i c a ls t u d yu s i n gSASSystem S e i k oS h i m i z u S t a t i s t i c a lS e r v i c eG r o u p C o n s u l t i n gD e p a r t m e n t SASI n s t i t u t eJ a p a nL t d . 要旨 .1 2完全対応)Jがリリースされ S A SI n s t i t u t e] a p a nから「前臨床ノ fッケージ(リリース 6 た 。 本論文ではデータの読込みから結果の出力まで、本パッケージの特徴と機能を紹介する。 キーワード:非臨床、前臨床、 S A Sシステムリリース 6 . 1 2、S A Sデスクトップ 1 . はじめに S A SI n s t i t u t e] a p a nより、「前臨床パッケージ」がリリースされた。このアプリケーション は 、 ‑S A Sシステムを使いたいがフ。ログラミングがよく分からない。 一解析結果として表示される統計量が多く、どこを見ればよいのかわからない。 よって、 S A Sシステムの機能を使いこなせない。 というユーザの現実的な問題を取り除くべく開発された。このアプリケーションにより、解析 データの加工J i データのピジュアライゼーション J i 検定 に必要な「ファイルの読み込み J i 手法の実行 J i 結果のレポート」をマウス操作のみで実行することが可能になる。 以下、本アプリケーションの各機能について詳しく紹介する。 ‑237‑
2 . 前臨床パッケージの特徴 本アプリケーションの主な特徴として、次の 5点が挙げられる。 ドラッグ・アンド・ドロップ機能による操作環境 一誰にでも直感的に各種検定手法を実行できる環境 一柔軟な機能拡張・カスタマイズ可能な環境 ̲ SASの機能習得の一助となる環境 ̲V a l i d a t i o nを考慮、した解析環境 これらの実行環境を提供するために、アプリケーションのインターフェイスとして、 SAS シ .1 2の f S A Sデスクトップ環境 J ( 3章参照)を採用した。これにより、解析 ステムリリース 6 がプログラミングなしで実行できることはもとより、解析結果を出力するのにどのような SAS プロシジャを利用したかをブラックボックスにすることなく、ユーザ自身で確認することがで きる。(図 1)に SASデスクトップ上の前臨床パッケージのインターフェイスと SASエクスプ ローラを示す。 l 詞 データァ クセス 及むよ管王里 l 調 プレゼンテーション 昌 司 3 アプリケーション 開発 瞳l アクセサリ ト量 DATi > J 三E 思ゴ $..CJSYSLIB̲Z 図 STS フ ァ イ ル ス ベ ー ス 白山こJ¥ ' jORK 組 住l B 己JLIBRARY データ蝿軍事斤 甲 乙JMAPS 僅 ヨ 由一己JSTSHELP 自 己JS陪 USER プログラマー ツール 邑 ヨ お気に入り 午 臨鼠 p=.DS z p=.DS 一括処理ネイティ)'モー卜f 寸 舌型ネイティフ e モード 1 2 1 ・ ぬ E聖曹E量明書E E IWJI:i恒I京 パ γ ケ ー ジ p..DS コ ン ヒ eニモート' 佐 盟 里 司書E里 子e 唾 環土寛吉量定 封 I I 分析用デー台 E テ・→の加工 S T・4 の 読 み 込 み 図 1 :SASデスクトップ上の前臨床パッケージ 3 . SASデスクトップ機能 「前臨床ノミッケージ」のインターフェイスには、 f S A Sデスクトップ環境」を採用している。 f S A Sデスクトップ」は、「フォルダ」と f S A Sエクスプローラ」を使用した SASシステムの 新しいユーザインタフェースである。本アプリケーションは、 f S A Sデスクトップ環境」へのア ドオンアプリケーションとして提供される。 S A Sデスクトップ」の簡単な紹介をする。 次に f 238
フォノレダ SAS デスクトッフ。環境の基本要素の一つで、コンテナ(入れ物)の役目を果たす。デフォル トで提供されているフォルダ、に加え ユーザが独自に新しいフォルダを追加することが可能で、 ある。 フォルダ、には、ファイル、アプリケーション、コマンドなどの役割を割り当てることができ、 役割を割り当てたフォルダをドラッグ・アンド・ドロップすることにより、ユーザ独自の SAS 実行環境を作成することができる。 ‑SASエクスプローラ SAS エクスプローラは、現在の SAS セッションの SAS ファイルの階層と、 SAS システムか ら定義された外部ファイルを表示するファイル管理ツールである。 次にフォルダ、の簡単な使用例を紹介する f i 1 J:以下の二つのフォルダをデスクトップ上に登録する。 フォルダ 1 : S ASデータセット ( s a s u s e r .c l a s s ) を項目として割り当てたフォノレダ (フォノレダタイプ 「ファイノレJ ) フォノレダ 2 : 以下の S ASコマンドを項目として割り当てたフォノレダ(ただし、以下の 割り当ての他にもマクロ変数の定義などが必要)。 p r o c means d a t a = & t b l ; r u n ; (フオノレダ、タイプ 「コマンドJ ) 操作 : フォルダ 1 (ファイノレ)をフオノレダ、 2 (コマンド)上にドラッグ・アンド・ ドロップすることにより、データセット s asuser .c lassの各変数の平均値、 最大値、最小値等が OUTPUTウインドウに表示されることとなる。 O ー ー ぽ 描 ‑ 翻 緬 副 ・ ‑ ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー.xl 一般!表示 If ‑ " : ; ;~1' & 山 引 説 明 p r o cm e a n sd a t a = & t b l ; 到 i 」旦」 ~~ I r u n ; 二 正J 目 斗 ロゴマフF r .サフミット 図 2 :S ASステートメントの登録(フォルダ 2 ) 本アプリケーションでは、この i S A S デスクトップ機能」をユーザインタフェースとして採 用しているため、各フォルダのプロパティをオープンすることにより実際に実行された各種検 定手法の S ASステートメントを簡単に確認できる。また、予め入力されている SASステートメ ントに対してオプションを追加するなどの機能拡張が簡単に行える。 239
4 . 前臨床パッケージの構成 本アプリケーションは以下の機能から構成される。 ファイノレの読み込み・管理 データの加工 ビジュアルデータ探索 一各種検定手法の実行 一結果のレポーティング 次に各機能の詳細について紹介する。 4 . 1 ファイルの読み込み・管理 ファイルの読み込みでは、本アプリケーション独自のウィザードと S A Sシステム 6 . 1 2の新 機能であるインポートウィザードを提供している。独自のウィザードでは数種類のデータレイ アウトにも対応し、読み込み後自動的に S A Sシステムで利用できる形式に変換を行なう。 ( 図 3) に 、 Excel ファイルとして保存されているデータを独自のウィザードを用いて読み 込む例を示す。 ・ 自 画 圃 . . . . 置 ・ E園 田 品7 E ̲ ̲ ̲ ̲ ̲ ̲ ̲ ̲ . . . 1l x I ロ 園町亀市 │読み込むファイル名を選択して下 5い 。 I R訂EI.P明中耳分三一タむ… ̲ J ̲ : ゴ e 2ノ m ‑ o ''Jd1Jd1 ﹁ b o α︑ I117J1 JqthMwthMW f ' ' ' ' ' A ‑le‑‑ ︾e ト ヒ T'‑T' F 卜卜 s ︐ ︐A ヲ ︐ 八 ︑ ︐ n v ptr 主主」 読込み開始行 斗仁].2d ー ム 斗 ぷ 斗J また、読み込み可能なファイル形式は次の通りである。 Exce1ファイノレ C * . x l s ) ‑ Lotusファイノレ C * . w k 1, *.wk3, * . w k 4 ) ーテキストファイノレ ‑カンマ区切り ・タブ区切り ‑ブランク C * .t x t ) 読み込んだファイルは専用の i S A Sエクスプローラ」で「フォルダJ i テーブル」という階 ‑240一
層形式で、すっきり管理することができる。また、メタデータ管理機能により読み込んだデータ のデータセット名、データ形式、サンフ。ル数、作成日等が一括管理できると同時に、それぞれ の項目の更新やデータセットの削除が簡単に行える。 4 .2 データの加工 データの加工では、 S A Sプロシジャで実行可能な形に S A Sデータセットを変換する。 また、 数種類のデータ変換機能を提供する。対応している加工機能は次の通りである。 データ作成 データ修正 データ変換 転置、連結、ソート データサブセット、データ訂正、新規データ入力 対数変換、平方根変換、逆数変換、 Box‑Cox変換、標準化 「データ作成」の機能については、変換前のデータセット名および変換後のデータセット名 を指定した後に、図解されている変換形式を選択することで簡単に実行できる。 )に 、 4 .1章で読み込んだデータを S A Sシステムで解析できるよう行列変換をする例 ( 図 4 をしめす。 I I 壇 』 ・ ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー . ' . i ; ; 'U : : IIXI 圃圃圃圃̲...............国『届日IiZiII I [[ ) . s I 1 ' ‑' = ‑ ' l l一 一主詮謀説づ?ィル名 h H J i 旦I AI , . JB 叩 主f l 集前三宝?イル名と … … 即 日 l ̲ ! i ! l 一 一 ‑ ‑ ‑ ‑ ̲ . UB~N.!:!.B_一一 変換前のフ 7 イル 竺l 「形式1で変換する P 形 式 2t で変換する ~rT l l J 1 笠 」 I 図 4:行列の変換(置換)実行画面 4 .3 ビジュアルデータ探索 S A S システムの強力なビジュアライゼーション機能 (SAS/INSIGHT) を使用し、これまで大 変だ、った外れ値の検出、分布の形状、各要因の関連などを直感的に把握することができる。各 E D A ) の枠組みの中で 種検定の前にかかすことのできない、予備的解析を探索的データ解析 ( 実行可能である。 4 .4 各種検定手法の実行 前臨床にて必要な各種検定手法を提供している。実行したい検定のフォノレダ上に使用するデ ータセットのフォノレダをドラッグ・アンド・ドロップすることにより結果が表示できる。結果 の出力形式も目的に応じて選択可能で、次の 2つの形式を提供している。 2 4 1
ネイティブモード 各手法ごとにアイコンが用意されている。結果は OUTPUT ウインドウに SASネイティブな形 式で表示される。 ーコンビニモード 各手法ごとにアイコンが用意されている。結果は目的の手法の要点を押さえたレポート形式 で表示される。(図 5 )に 、 4.2章で変換したデータに対して Tukeyの多重比較を実行した例を 示す。 回 目 闘 [1 事 事 事 一 ndqu nd ai 12.243i 12.343 16.343! 事事事 5 .943 11.543: 11.643 一 司 ﹄ 一 司 ﹄ 5 .600 5 .700 9.700: ー0 .700. 4 .900 5.000. 9.000: ‑ 5 .600I 4.900; 0.100; 4.100; 5 .700 ‑5.000 AM寸⁝ A崎⁝刈崎 氏U ハV づ d tzz 草 草 華 第第第対第 ‑1.043 0.943 3.057 ‑7.343 ‑1.743 1.643 2 .357 ‑12.243 .5 43 ‑ 11 ‑ 6 .5 4 3 2 .5 4 3 12.343 ‑11.643 EU ー 才一草草草草主章一草草 v 日 刊 ‑ ヨ 也 事 旬 事 匂 賓 包 晋 也 事 匂 ヨ 包 m事 也 事 匂 叩 調 旬 ヨ ロ ヨ 匂 習 白 書 包 m 一 合 一 第 第 第 第 対 第 第 第一対 4 1 2 4 3 照 2A43 照 1 4 3 照 1 ・ ‑‑J 一 ‑ 十 一 ‑ ‑ ‑ ↑ ヨ匂事包事包事包事匂調旬ヨヨ匂⁝ヨ包一事包事匂ヨ包事包調匂事匂 週一‑‑‑一 J川4‑ei‑‑ H E ‑ ‑ ‑ ‑ 附一一一回⁝昭一昭一昭m 1 1一 22244 1 1 2一 刊=一対日川一対日付第第⁝第一第第一第第第第第 羊 守 羊 守 羊 守 羊 守 羊 守 羊 宇 一 羊 土 砂 + 守 掌 ‑7 +‑Y掌‑Y掌‑Y掌‑Y掌+ 一 一 司 ⁝ │令書出 6.743i 10.743 O .943 1.643 ニ j 圏 一EL I J ~:::. I 図 5 :コンビニモードで実行した Tukeyの多重比較 対話型ネイティブモード」では、 SASデスクトップ上のフォ 「一括処理ネイティプモード J I ルダのプロパティをオープンすることにより、実行された SASプロシジャを確認することが可 能である。またここに記述されているプロシジャは編集可能で、あり、ユーザご、とにカスタマイ ズが行える。 また、サポートしている検定手法は次の通りである。 Wilcoxon(Mann‑Whitney)検定 Kruskal‑Wallis検定 多重比較 ( T u k e y, D u n n e t t, S c h e f f e ) ‑242
C o c h r a n ‑ Ami t a g e検定 J o n c k h e e r e検定 W i l l i a m sの検定 ( B a r t l e t t,L e v e n e,B r o w n ‑ F o r s y t h e,0 'b r i e n ) LD50 ( * 注 1 ) 4 .5 レポーティング コンビニモードで出力されたそれぞれの結果を、 E x c e lシートに出力することが可能である。 x c e l が起動し、データを更に見やすい形に整えて出力する。 E x c e l シート上に ボタン操作で E 出力することにより、さらにユーザの好みの形式に出力結果をを再修正することが可能になる。 5 . おわりに 本アプリケーションは当初サンプルプログラムとして開発が始まった。このサンプルプログ ラムに対してユーザより製品化の強し、ご要望をいただき、この度製品版としてリリースされた ものである。本アプリケーションをご利用いただくことにより、業務の効率化さらには SAS シ ステムの機能習得の一助となることを願っている。 また、本アプリケーションは今後さらにパージョンアップしてし、く予定である。より使い易 いアプリケーションを目指し計画中であるので、ユーザの率直な意見を是非およせいただきた *注 l 本論文執筆時期とリリース時期が前後するため、本アプリケーションがサポー卜してい る検定手法と本文中に掲載されている手法とでは、若干の違いが見られる可能性 がある。 2 4 3 ‑
[補足資料] アプリケーション動作環境 対応 O S :W i n d o w s 9 5 W i n d o w s N T 3 . 5 1以上 その他 W i n d o w s版 S A Sシステムリリース 6 . 1 2動作環境に準拠 S A S システム W i n d o w s版 S A Sシステムリリース 6 . 1 2 必須プロダクト: B a s eS A Sソフトウェア S A S / F S Pソフトウェア S A S / S T A Tソフトウェア S A S / G R A P Hソフトウェア S A S / I N S I G H Tソフトウェア S A S / A C C E S SP CF i l eF o r m a t sソフトウェア ハードウェア :W i n d o w s版 S A Sシステムリリース 6 .1 2動作環境に準拠 2 4 4 ‑
S U G I ‑ J ' 9 7論文集 •••••••••••••••••••••••••••••••••••••••••••••••••• ク ン イ 一 ア ・ケ 査一 調マ
日本 S A Sユーザー会 (SUG I‑J) SAS/IMLソフトウェアによるポジショニングマップの解釈 0朝 野 照 彦 * *専修大学 鈴木督久村 *除日経リサーチ I n t e r p r e t a t i v e use o f SAS/IML 事o f t w a r e on p o s i t i o n i n g maps H i r o h i k o Asano Sensyu U n i v e r s i t y To k u h i s aS u z u k i a , r ch I n c . N i k k e i Rese 要旨 ポジショニング分析の目的は多次元空間に製品や評価変数などをフ。ロットし、それらの位置関係か ら新製品のオポチュニティを探索したり、リポジショニングを計画したり、あるいは既存品のトラッキングを 市ことにある。具体的な分析方法としては主座標分析、パイプロット、コレスポンデンス分析などが提案さ を利 れている。本研究で、はマーケティング、の初{.;者に、これら一連の方法を教育するために SASのIML 用したc 理解を助ける具体的な例題を用意し、数値計算とグ、ラフ化を実行させることによって、ポジショニ ング、マップに対するユーザーの理解が促進で、きるかを検討した。 キーワード: s i n g u l a r value decomppsition)、スペクトル分解、主座標分析、パイプロット、 特異値分解 (SVD・ ソヌトウェア、 SAS/G良A コレスポンデンス分析、調査・マーケティング、 SASのユーザー教育、 SAS/IML PHソフトウェア 1 .主座標分析 Gower (1 9 6 6 )の主座標分析は早くから提唱されてきたMDSの一手法で、あるが、マーケティング、の分野 で、は利用度が少なかった。あまり分析プロク、、ラムが普及しなかったことと、主座標分析から得られる空間の 解釈についてユーザーの理解が混乱していたことなどが普及を阻害したのであろう。 で容易にコーディングできるし、 主座標分析で必要になる対称行列のスペクトル分解は SAS/IML SAS/G応 伊Hを用いた分析結果の2次元表示はユーザーの理解を助けてくれると期待される。 ,( 主座標分析では、 n個 の 対 象 聞 の 類 似 度 を 表 す 榊 予J E= 円)を、まず(拭に佐って2重中心 化して行列 A=仏)に変換する。 ω 一247一
Q!
"
j
ここで
=e
"
,‑ e
,+e
.
.
.
l
i‑e
'
"
"
i
.
.
.
.
.
.
.
j
(
1
)
e
;
.,
e
.
j,
e
.
. はそれぞれ、 B乃行和、列和、総和であるo
Aの固有値が非負だとするとそのスベクト/レ分解は、
A=UAU'
(
2
)
ここで、 UはAの固有ベクト/レからなるnXn
の直交行列で、 U'U=I"oAはn
次の非負定値の対角行列
で、その主対角要素はAの固有償であり、
λいん,…, 2,
…
,λ
nミO 左大きい順に並んで、いるものとす
7
2
)式の分解は UO)列べクト/レの符号反転を除し、て一意に定まる。
る。固有値に重根がない限り (
ん
い λ'1+2,・,
. An が0または Oに近い場合は、主座標空間を r
=
I
L
‑
‑
J
(
tく n
) で打ち切り、この
空間における n個の要素の座標行列
x=仏 ) を 求 め る 。 げ を Uの 1,2,...,t列の行列、 A 守 Aの左
上の t次の正方行列とすれば、
X =U'A'
,
Y
(
3
)
スペクトル分解による行列近似の度合いは固有値の t 次元までの累積寄与率で表される。
シ
メ
p=
ω
rA
主座標分析から得られる空間布置について理解を助けるために、次の2つの計算出力を加えた。
座標行列Xの第f、第j 行ベクト/レを
X
p
Xとし、 Aの階数を t とすると次の性質 1,2が成り立つ。
j
性 質1
)x
;,
xjの内積が分析テ、ータで、ある叫に一致す?る。即ち Xあら2重中 J
L
'
イじ行列が再生できることを
数値例で示す。
(
5
)
)(){'=A
性 質2
)主座標空間のd国の要素の点問平方距離は類似度データ eijを 2倍したものである。この関係は、
n個の要素の組み合わせについてユーグリッド平方距離が=仏 ‑
X
J
(
X
;-XJ
を求め、 d~ を要
素とする行列瓜とついて次式が成り立つことを確かめればよし、。
D=‑2E
(
6
)
上記の性質から明らかなように主座標分析は、 Tor
官 邸o
n(
l9
5
8
)に始まる計量的多次元尺度構成法の基
本的な理論を含んでいる。さらに主座標分析の次の性質についても、コンピュータ演習を通して確認で、き
る
。
性質3)主座標空間は各次元につき平均0にセンタリングされている。
性 質4)E
を直接スベクト/レノ渦卒しても、 d固の点聞のユークリッド平方距離は主座標空間におけるユークリ
‑248一
ッド平方距離と変わ臼弘、。 (2)
性質的固有値は各次元の座標値の平方和を表す。
性質的 Xを多変量データ行列とみなして、その分散共分散行列を主成分分析にかけるとXと同ーの主成
分得点が得られる。
2 個体差パイプロット
G
a
b
r
i
e
l(
19
7
1
)のパイプロットは矩形のデータ行列を特異値分解することで、行の要素と列の要素を2次
元の空間にビジュアルに表現しようとする方法で、ある。 (3)
特異値分解は階数tのn X
J
:
A
=
r
夢
i
J
X が次のように分解できる、品、うものである。
X=UAV'
(
7
)
ここで U,V1
まそれぞれ刀 Xt,pXtの列直交行列 {U'U= Vγ=1/)o .
!
l
はt
次の正値 (pd)の対角
l
'
λ2,
"
, As,
"
'
, A/>0と大きし、1
)
慎に並んでいるものと
行列で、その主対角要素はXの特異値であり、 λ
7
)式の分解は U、V
の列ベクトノレの同時符号反転を除いて一意に定まる。
する。特異値に重根がない限り (
さてパイフ。ロットは列に関する平均偏差データ行列Xを分析対象とする。そして U、A、Vの次元を2次
元で打ち切り、 (
8
)式》ら階数が2の行列 X2を作ってXを近似する。
X2 =U2A2九
'
(
8
)
近似の程度は累積寄与率に相当する次の指標で音判面できる。
p=(
ぷ+λ.;ρ
)rX'X
(
9
)
さて (
8
)式の右辺を2つの行列の積で表現する f
a
c
t
o
r
i
z
a
t
i
o
nには一意性がない。例えば、 G
a
b
r
i
e
lは次
のような分解を提案している。 (4)
︐
1(
1︐
(
B
︑︐
︐‑
︑‑
n
u
F
;=U2A2
B
G1=
九
そして Fめ各行を2次元平面におけるd困の点に、また θη 各行を同じく p本のベクトノレで、表す。パイプロ
ットに共通する性質として、
)
性質1
xij
~いあ)
(
12
)
)(
11
)式わパイフ。ロットl
こついては
特に(10
性質2)
X2X2 =F
;f
;
(
13
)
2
4
9
従って、 Xの行ベクトノレの差が2次元平面の点問距離で、近似されることがわかる。 (5) 即ち、このパイプロッ トは分析データXの行の点間距離をできるだけ正確にグラフ表示するようにサンプルをプロットしようとする ものである。サンプルの智コ図示に力点をおいているという意味で、我々は「個体差パイプロット」と呼ぶ のが適当であると考える。 )式が厳密に成り立つことが確かめられる。 性 質 的 階 数2の行夢iJXをパイフ。ロットで、分析すれば、(12 性質4 ) 階数2の行列Xの個体差ノ〈イプロットから得られる点問距離は、分析デ、ータXの行間のユークリッ ド距離に一致する。 3 共分散パイプロット ( 8 )式を次の2つの行列の積に分解することもできる。 ι=~五U2 G2 = ( 14 ) ( l / J n )九九 ( 15 ) 個体差ノ〈イフ。ロットと性質 1は同じで、あるが、性質2に対応するものとして ) 性質5 巧X2X2 =GG' ( 1 6 ) g k )は変動・と的共分散、 2 船 て t=2の場合は、かノルムの2乗 は 鋤 の 分 散 に 一 致 し 、 ( g j ' e つのベクトルのなす角の c o sj kは同じく相関係数i こ一致する。 結局、(14 )( 15 )式のパイプロットは変数の分散共分散行列を表現するようにp本のベクトノレを描くことに力 点をおいており、それがこの方法を共分散パイフ。ロットと呼ぶ理由となってしも。 (6) 4 コレスポンデンス分析 コレスポンデ ンス分析で、は一般にコンティンジエンシー・テープ、崎分析対象とする o Z= ( Z i j )を要素 が 非 負 実 数 の p行 q夢iJのデータ行列として、その行和と列和を主対角要素とする対角行列を R = diagh)、C 二 d i a g ( cj)とおく。次に、(17 )式i こ従って規軒じした行列Xを特異値分解する。 X = R‑I12ZC‑1/2 ( 17 ) X=UAV' ( 18 ) Z乃行をバ固のブランド(あるいは消費者など)、列をd 固のイメージや特性などの変数群と考えて、 r=1, 2, " ' , 1 但し t三 Min ( p‑l,q‑1)の多次元空間におけるそれぞ、れの座標行列を 2 5 0
A=(aiJB=( ん)とすれば、 A= K II2UA ( 19 ) I2 B= C‑1 VA ( 2 0 ) AとBはそれぞれサンプル・スコア行列、カテゴリー・スコア行列とも呼ばれる。 コレスポンデンス分析の計算例として用いた行列Zを表 1に示す。同じZを個体差ノ《イプロット、共分散 パイプ。ロットでも用し党。文、表2は表 1 から作られたチョコレート聞の類忽l 度デ「ータである。この類似度行 列五を主座標分析の計算例として用いた。 (7) 表 1 チョコレートに関する大学生の評価データ 価格が手頃めずらしい話題性があるおいしいパッケージがいし、 グリコ高原チーズ 31 . 73 3 4 8 . 1 5 9 4 0 . 8 8 9 2 4 . 7 8 1 3 1 . 6 2 5 明治ミルクチョコレート 5 9 . 2 7 5 2 5 . 2 6 9 2 2 . 9 4 1 5 6 . 2 9 7 3 0 . 0 5 4 森永SOLID ミノレフィーユ 2 6. 41 4 5 2 . 3 2 4 4 7 . 5 5 2 2 0 . 9 4 1 4 0. 42 0 ロッテクランキー 5 8 . 8 4 3 41 3 2 5. 2 5 . 9 0 7 5 7 . 6 8 7 3 7 . 2 0 6 ロッテ VIP 生クリームホワイト 4 7 . 3 0 8 3 4. 49 2 3 9 . 7 6 9 4 8 . 9 4 6 5 4 . 7 1 5 ロッテVIP 生クリーム 4 2 . 1 0 5 3 8 . 7 3 8 4 4 . 1 3 6 4 3 . 6 7 8 5 7 . 6 0 6 ロッテパティスリーモンブ、ラン 3 3 . 3 2 1 4 6 . 6 0 3 4 2 . 8 0 4 2 8 . 6 7 1 3 9 . 3 7 0 表2 チョコレートの類似度データ 高原チーズ明治チョコ ミルフィーユクラシキ一生ホワイト生ク 1 )ームモンプラン 高原チーズ 0 . 0 0 0 0 . 8 8 0 ‑ 0 . 0 4 3 0 . 9 2 5 0 . 9 3 0 ‑ 0 . 7 0 4 一0 . 0 3 0 明治チョコ 0 . 8 8 0 0 . 0 0 0 ‑ 0 . 9 7 6 一0 . 0 0 7 0 . 2 7 1 0 . 5 9 3 ‑ 0 . 9 5 7 Sミルフィーユ 一0 . 0 4 3 ‑ 0 . 9 7 6 0 . 0 0 0 ‑ 0 . 9 9 0 0 . 8 1 6 0 . 5 1 4 ‑ 0 . 0 0 3 クランキー 0 . 9 2 5 ‑ 0 . 0 0 7 ‑ 0 . 9 9 0 0 . 0 0 0 0 . 2 0 1 ‑ 0 . 5 1 1 ‑ 0 . 9 7 6 生ホワイト 0 . 9 3 0 ‑ 0 . 2 7 1 ‑ 0 . 8 1 6 ‑ 0 . 2 0 1 0 . 0 0 0 ‑ 0 . 1 0 7 一0 . 8 2 7 生クリーム 0 . 7 0 4 ‑ 0 . 5 9 3 ‑ 0 . 5 1 4 ‑ D . 5 1 1 0 . 1 0 7 0 . 0 0 0 ‑ 0 . 5 3 6 モンプラン 0 . 0 3 0 ‑ 0 . 9 5 7 ‑ 0 . 0 0 3 , ‑ 0 . 9 7 6 0 . 8 2 7 ‑ 0 . 5 3 6 0 . 0 0 0 ← 2 5 1 ←
5 結論 マーケティング、・リサーチにおいてポジショニング、分析は重要なアプローチの一つを成してしも。類似度 によってブランドや商品をグ、ルーヒ。ング、させるような課題はCLT やグ、ループインタビュー調査で、しばしば 実施されている。このようなデータには林の数量化理論N類や本報で取り上げた主座標分析が利用でき る。一方、ブランド×含判面変数の組み合わせにつし、て調査する質問紙調査も多い。この場合、行の要素と しては企業、小売居、ブランド、消費者などが用しもれ、列の要素としては企業イメージや居舗立地や製 品属性、消費者糊主などが用し、られることが多い。このようなデータに対しては、パイプロット、コレスポン デンス分析、数量化理論田類、因子分析、主成分分析などが利用できる。サンプルや変数をグ、ラフィック に表現することによってデータ構造の解釈が容易になるし、分析者の直感的な理解が促進される。しかし 反面、応用の場では分析者の恋意的な解釈も横行しがちである。行と列の要素を空間に同時にプロット するグ、ラフィック表現にの空間を、ジョイント・スペース品、う)が何を根拠としており、各点の配置やベクト/レ の角度がそれぞれ分析データの何の情報を表現してしものかは分析法によって異なる。 各理論の提唱者は数式展開さえ示せば、ユーザーは納得するはずだと期待しがちで、ある。しかし、統 計学との非専門家であるユーザーは、いちいち具体的に計算して確認したり図解しなければ実感的に理解 できなし、ことが多い。多くのマーケティング・リサーチャーも、またデータ解析の初心者で、ある学生もその 例外ではないだろう。そこで首都圏のある大学の文系 3年次の学生を対象に夏季情報処理教育の一環と して主座標分析とパイプロットの教育実習を試みた。行列の近似状況を示すためのグラフ表示には、 SA Sの SAMPLE LIBRARY に含まれる IMLGEX2を用し叱。これは多変葺車関図(し、わゆるM A チャート) を描くソフトウェアである。その結果、参加者に馴染みが無かった分析法で、あったにもかかわらず、短期間 で納得できた品、う反応を得ることが出来た。 SAS/IML ソフトウェアはエンドユーザ一志向のプログラ ミング言語としてのみならず、データ解析の初心者向けの教育Yールとしても利用可能で、ある、品、うのが 我々の結論である。 ‑252‑
注 1 JGower (1 9 6 6, 328頁)によれば、 Aは a s s o C I a t i o nm a t r i xの略。 n治的個人間の a s s o c i a t i o nを分析する とし、う意味では、 Eを分析することは因子分析でいう Q技法に相当すると Gower は指摘している 326‑327頁L ( 1966, 2 J多次元空間のユークリッド距離は原点の位置に依存しない。その意味では原点の移動に関して任意性 があるが、(1)式によってE功 、 らAIこ変換する根拠は ( 5 )式が成り立つようにするためで、ある、と考えること ができる。 3 J特異値分解はエッカート・ヤング、(19 3 6 )の分解とも呼ばれることがある。コレスポンデンス分析を特異値 こよって記述したものに G i t i( 19 9 0 )などがある。特異値分解の性質を解説した邦書としては、柳井晴 ノ耕平l 夫・竹内啓(19 9 2 )i 射影行列・一般逆行列・特異値分解」東京大学出版会や、高根芳雄(19 9 5 )i 制約付き 主成分分析法一新しし、多変量データ解析法」朝倉書庖などがある。 4 JG a b r i e l( 19 7 1 )は 危c t o r i z a t i o nの方法として本報で検討した2種類に限らず、 U2とA2V 'や、 f らA?と A?九' lこ分けるなどの分解も述べている(G a b r i e l1 9 7 1、4 5 8 頁)。パイプ ロットをタイプ 1、タイプ2に区 o a b r i e lのもので、はないようである。ところで(11)式の表現の合理性は、 ωコ 分する呼称もなされてしもが、 G 列ベクトルがノルム lになり、いわば変数の規準化に相当することに求められる。様々な f a c t o r i z a t i o nが考 えられるが、いずれもデータ行列の行と列にスコアを与え、そのスコアを用いて行と列を何らかの類似性 のもとに分類することを目的としている。 5 J性質2の根拠は、 Xの点聞の平方距離の行列が D 吋 iag(XX 加 , ‑2. x x ‑ '+11'diag(. x x ‑ ' )で表 されること。従って、 . x x ‑ '= FF'であれば、行列Xも空間座標Fも点、聞の平方距離は等しし、ことが明らか である。 6 J G a b r i e l 自身は3節の方i 去を主成分パイフoロットと呼んで、しも( 1 9 7 1、460頁)。共分散ノ〈イフoロットの呼 r e e n a c r eら(19 8 2 )によるものである。 称は G 7 J行列Zま、実際の調査の原データから一部を抜き出し、数値に若干の調整を加えたc l i s g u i s e d data で 、 ある。また昂も Eへの変換は粛藤(1980、4 2 頁)に従い、 Zの転置行列からブランド問の相関係数弓を i j=‑ ( I ‑ r i j ) j 2 によって変換した。 求めた上で、 e nd qu z u
引用文献 E c k a r t, C .a n dYoung, G. ( 19 3 6 )Thea p p r o x i m a t i o no fo n em a t I I xb ya n o t h e ro fl o w e rr a n k .P sychomet J i k a , 1, 2 1 1 ‑ 2 1 8 . K . R .( 19 7 1 )Theb i p l o tg r a p h i cd i s p l a yo f m a t I I c e sw i t ha p p l i c a t i o nt op I I n c i p a lcomponenta n a l y s i s . G a b I I e l, B i o m e t n k , a58(December), 453‑467. G r e e n a c r e, M . ] .andU n d e r h i l l, L .G.( 19 8 2 )S c a l i n gad a t am a t I I xi nal o wd i m e n s i o n a lE u c l i d e a ns p a c e .I n ω 出 t 色 a 叫 w 叫 k i 叫 n 爪 l s 丸 S , ん 恥 M ι .胤 俗d ι . )~おo片/たと p. ~s 巾i n 巾 A I P 凶 P b ω 必 凶d bMuJtiルνm 拘 rap 戸 θ An, 刀7丘砂 仰 b 必~, 臼 3 ca帥mb I 出 Id 伊 g eU 凶n i 卸 v .p r 刃 e岱 H G α i 出 H人 ( ι 1 9 ω 9 0 ω )N 九 肋 / り ' o n / 必 i 肋 n 加 7 招θ a rMu J 削 t υ ' t ν ル i J ν ' 同 1 ヤ 悶 w 7 . 刀i 加 at 臼 θA 1 刀 7 丘 砂 / y s 必 . か l . 台 F ‑ 与 . J o h nW i l e y&S o n s . l. C .(1966)Somedistancepropertiesofl a t e n tr o o tandvectormethodsusedi nmultivariate Gower, a n a l y s i s . B i o m e t n k a , 53(December), 3 2 5 ‑ 3 3 8 . 粛藤尭幸(19 8 0 )i 多次元尺度構成法」朝倉書庖 T o r g e r s o n, Wふ(19 5 8 )7 万θo . r yandMethods ofS c a / i n g . JohnW i l e y& S o n s . ‑254一
Appendix:主座標分析とパイプロットのプログラム 1 *林***林*********************************材料林*材料材料材料* 1 主 座 標 分 析 : PCOORD * 1 1 * * 1 1 *DATE: 1997/07/19 1 *CODE: Tokuhisa SUZUKI [NIKKEI RESEARCH I N C .] * 1 /材料材料*林***********林材料*材料材料材料材料*林*材料材料粋柿/ proc i m l 1 * 一一一ー一一一一一ー一一一一一一一一一一一ーーー一一一ー一一一一一一一一一一一 類似度行夢I J E (対称行列)の指定 e = {O.OOO ‑0.880 ‑0.043 ‑0.925 一0.930 ‑0.704 ‑0.030 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一* 1 ‑0.880 0.000 ‑0.976 ‑0.007 ‑0.271 ‑0.593 ‑0.957 ‑0.043 ‑0.976 0.000 ‑0.990 ‑0.816 ‑0.514 ‑0.003 ‑0.925 ‑0.007 ‑0.990 0.000 ‑0.201 ‑0.511 ‑0.976 ‑0.930 ‑0.271 ‑0.816 ‑0.201 0.000 ‑0.107 ‑0.827 ‑0.704 ‑0.593 ‑0.514 ‑0.511 ‑0.107 0.000 ‑0.536 ‑0.030 , ‑0.957 ‑0.003 ‑0.976 , ‑0.827 ‑0.536 0.000 i 専一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一叫 n= ncoI(e) ; 1 * 対象の数 * 1 t̲mean =e[ :] ; 1 * 全体平均 * 1 c̲mean = e[, :] 1 * 列の平均 * 1 r ̲mean =e[ . :] 1 * 行の平均 * 1 1 1 *行列 E を 2重中心化した行列 A 作成 * a =e ‑ repeat(r̲mean, 1, n ) ‑ repeat(c̲mean, n, 1 ) + t̲mean 1 *行列 A の国有値問題 * 1 calIeigen( eigen,evec,a ) evec =evec、# sqrt( abs(eigen)); 1 *固有値の平方根を掛ける * 1 x =t( evec ) 1 *転置して座標行列行列に * 1 proport =ei gen 1trace(a ) ,1 *寄与率 * 1 cumulat = cusum( proport) 1 *累積寄与率 * 1 reset noname ハ e[ format =9.3 ] , pri nt "類似度行列: E" "2重中心化行列: A" " a[format =9 .3 ] ] print eigen [format = 10.4 colname ='固有値, proport[ format 9.4 colname '寄与率 ] cumulat[ format 9.4 colname '累積寄与率, ] pri nt 1 ' 座標行列: X',, x[format =9 .4 ] *座標行列を出力 * 1 create pcoord from x 1 append frαn x close pcoord = = = = 1 *林 * 材 料 材 料 * 材 料 材 料 料 材 料 材 料 材 料 * 林 * 林 材 料 * 林 * * * 林 材 料 材 料 / 1 * パイプロット: BIPLOT * 1 ~ ~ 1 *DATE: 1997/07/20 * 1 1 *CODE: Tokuhisa SUZUKI [NIKKEI RESEARCH I N C .] * 1 1 *林 林 * 材 料 林 林 材 料 材 料 林 * 材 料 材 料 材 料 * 林 林 材 料 * * * 材 料 紳 * * * 粋 本 / data a ; 1 * SUG I‑ J97のデータ * 1 i n p u tx 1 ‑ x5 i d $; cards 一2 5 5 ‑
48.159 2 5 .269 52.324 25.413 34.492 3 8 .738 46.603 31.733 59.275 26.414 58.843 47.308 42.105 3 3 .3 2 1 2 4 .7 8 1 5 6 .297 2 0 . 9 4 1 5 7 .687 4 8 .946 43.678 2 8 .6 7 1 40.889 2 2 . 9 4 1 47.552 25.907 3 9 .769 44.136 42.804 高原チーズ 明治ミルクチヨコレー S ミルフィーユ クランキー 生ホワイト 生クリーム モンプラン 31 .625 30.054 40.420 37.206 54.715 57.606 39.370 run , i ト 一 一 一 一 ー ー 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一‑ ‑ ‑ * 1 = proc means data a n mean var std min max maxdec run , proc corr data =a noprob nosimple cov pearson run , proc standard data = a out = x m =0 run , =3 司4 JfJ/J/ *** 乗 解の率 分 λ与 値値寄 異異積 特特累 * ** JfJ/J/ // *・' J' 1( gb VJAU ea p‑‑ * +L ‑一一= 一uv Jffg *11 一 円 ﹃ ︑ ‑ ︑ ‑ proc i m l use x n t o x[ colname = vars rowname = i r e a da l1var ̲num̲ i dJ n = nrow(x ) m =n c o l(x ) ca1 1s vd(u,q,v,x ) q2 = q 柑 2 ; p = cusum( q2 Itrace( x、 * x) ︑︑︐︐︐ ︑ t 2M ︑ ﹃ 円 ︐ ︐gb 10 * u v # 骨 ‑un //1J * 一 . ︐ ︑j ‑#骨 rk +L q'ι1Jr ﹃ 円 ︑ 白u n H C M VJri J / nv +L+L VE4E ・ 一 円 ﹃ l ‑ C︐ M︑ 一 一 ‑ ‑ ‑ 牢 ・q ' ι q ' ι Jffg reset n o n a m e ; print q[ format = 10.5 colname = "特異値 λ"J q2[ format = 1 0 . 5 colname = "特異値 2乗" J p[ format = 5.2 colname = "累積寄与率"] ; p ri n t (u[,1: 2 J)[ c o1 name = "U ‑ m atri x " format=1O .4 J 2 J)[ c o1 name = "V‑ m atri x "f o r m a t = 1 0 .4 J (v[,1: nt "個体差パイプロットペ, p ri (f 1[,1: 2 J ) [colname = "F 寸n a t ri x (個体) "format=10.4J 2 J ) [colname = " G‑ m atrix (変量) "format=10.4J (g 1[,1: print "共分散パイプロットペ, (f2[ ,1: 2 J ) [colname =下一matrix (個体) "format=10.4J (g2[ . 1: 2 J ) [colname = "G‑matrix (変量) "format=10.4J lJ ︑ ‑ m E nk a ︑︐︐ ︐ ︐ A n u v ︐︐︑ ︐ ︐ l +L a e v ‑ ﹃ 2 5 6‑ nv e // J/ ﹃ ︐ . ︐ J. J ︐ ︑ 4 E E ︐ ︑ EEJEEJ 'nH 'entnt nm ‑ ‑ a414l EI 一'' ︐ ︐ ' F E E L F E E L SMMYJ/J/ ‑ ' c d 一41 司正 Begg ︑ nunv rI1t// a 一 FM'' vrkrK1J1 ﹂ +L+ ︑ ・n t n t /'aa /Jec‑‑ ・ ‑e'v nvnH4141 de o ﹁L 一 一 一 一 一 一 r4L lnt ‑一 SIS‑ ee m p== ay ntd12 ibb 一 一 create biplot1 fromb 1[rowname = i d] ; append from b 1[rowna 問 =i d] ; close biplot1 create biplot2 fromb2[ rowname = i dJ ; append from b2[ rowname = i dJ ; close biplot2 ;
日本 S A Sユーザー会 (SUG I‑J) テレビで見たいスポーツ番組の移り変わり,....., 88, 92, 9 6 ' " ' " ' ' " 'r 日本人とスポーツ」調査から 飯塚寿子 NHK 放送文化研究所(世論調査) Changeso fTVS p o r tP r o g r a m s. . . . . . . . . . 8 8, 9 2, 9 6. . . . ‑Fromt h es u r v e yr e s u l t so f t h e' S pOlta n dJ a p a n e s e 'c o n d u c t e dbyNHK‑ H i s a k oI izuka B r o a d c a s t i n gC u l t u r eR e s e a r c hI ns t i t u t eNHK n a t o ‑ k u,Tokyo1 0 5,J a p a n 2 ‑ 1 ‑ 1Atago,Mi 要旨 NHK では、 8 8 年以降、オリンピックイヤーごとに、 ての世論調査を実施している。この中から、 「日本人とスポーツ」につい 「テレビで見たいスポーツ番組」につ いて紹介する。 9 6年6月の調査では、テレビで見たいスポーツ番組のベスト 5は「プロ野球 J r 大 相撲 J ["高校野球J ["バレーボールJ ["マラソン・駅伝」である。 8 8年以降の 4年ご との調査で見ると、年によって多少の順位の変動はあるが、乙れらのベスト 5の位置 参照)。 は揺るがない(表 1 上位に進出するためには、スポーツ番組を見るのが好きな男性の中高年層に加え 6年のデータ て、女性層をどのくらい捉えることが出来たかに大きく左右される。 9 を中心に、上位進出の経緯についても紹介する。 キーワード N H K ["日本人とスポーツ調査」、テレビで見たいスポーツ番組、 SAS/STAT, SAS/GRAPH, BASE/SAS 分析に使用したデータ 分析に使用した「日本人とスポーツ」の調査の概要を示す。 ‑調査時期 ・調査方法 .調査対象 ・調査有効率 96年 6月 21日(金) ' " ' ‑ 2 3日(日) 個人面接法 層化 2段無作為抽出 全国の 16歳以上の国民 1800人 71 .8% (1292人) ‑257一
2 分析の目的と方法 NHKの「日本人とスポーツ」調査は、有効数が 1000人を超えるデータである ため、細かい年層別の特徴を把握することも可能である。ここでの目的は、テレビ のスポーツ番組を見たいという人はどのような人なのか、上位に位置するスポーツ 番組にはどのような特徴があるのかを、スポーツ番組の種目ごとに把握することで ある。 この目的に沿って分析するために、 SAS/STAT, BASE/SAS, SAS/GRAPHなどを使用した。 3 分析の結果 テレビで見たいスポーツ番組の推移 88 年以降のテレビで見たいスポーツ番組の種目別の順位を示す(表 1、質問形式は、 リストを示して「どんなスポーツ中継をテレビで見たいと思うか」を、いくつでも 上げてもらう、多肢選択)。テレビで見たいスポーツ番組のうち上位 5位までは、ほ ぽ国民の 3人に 1 人以上が見たいとしているもので、比率の面から見ても 6 位以下とは 明らかに差がある。 6位から 10 位までを示すと、 「サッカー J ["テニス J ["ゴルフ」 「陸上競技J ["体操競技J になる。 ベスト 1 0に入っているかどうかというごく大ざっぱな点に注目すれば、 8種目まで が常連であり、 8 8 年1 4 位 、 92年8位) 「サッカー J ( r 陸上競技J (88, 92 年とも 1 1 位)が新しく入った種目であることがわかる。ちなみに、下降したのは「スキーJ 「フィギュアスケート」で、比率の面から見ても大幅に減っている。 統計調査であることを考えれば、順位より比率の変動の方が意味を持つ。動きの 中では、上昇型よりも下降型の方が目立つ。特に大幅に下降したのは、先に示した 2 種目の他には、 「高校野球J r 体操競技J ["マラソン・駅伝J r 新体操J r スピー ドスケート Jなどである。下降型が多い理由は、 「スポーツをテレビで見たいとは 思わない J人が増えたためではなく、見たいスポーツ番組の種目を数多く上げてい る人が減ったためである。見たいスポーツ番組が 1、 2種目の人は 88年は 12%であっ 0 種目以上上げている人は 21%から 12%に たが、 92年は 21%、96年は 26%に増え、 1 減った。とのように、好きなスポーツ番組を選んで見る傾向が出てきたのは 92年か らで、 96年にはそれがさらに進んだことになる(表 2) 。 見たいスポーツ番組が 1 0 種目以上あるというような、スポーツ番組愛好型が多い 0 ‑ ‑ ‑ ‑ 5 0 代 ( 2 0、30、50 代は 20%、40代23%) のは男性 (16%、女性 10%) であり、 2 である。女性では、 1 0 種目以上の人は40代‑ ‑ ‑ ‑ 6 0 代の中年層でほぼ平均に達している 程度で、他の年層は数%と少ない。注目しておきたいのは女性の 20代 、 30代で、 「スポーツ番組は見なしリ人が 1割ほどいる。 ‑ 2 5 8一
また、 1 6 " " " " 1 9歳では、 1 0 種目以上を上げている人が 88年の 17%から 92 年は 8%に何年 は 1%に減り、 1、 2種目の人は 88年の 20%から何年は 36%に増えた。 表 1 テレビで見たいスポーツ種目の推移 lm 年 齢 隼 i9R 隼 88 年 1 92 隼法皇霊 1 プロ野球 5 4 . 214 8 . 6~ 5 2 . 2 28 大学野球 6 . 9 1 4 . 1 4 . 3 2 大相撲 3 8 . 8l 5 2 . 8~ 4 7 . 6 29 アメリカン 1 1 1 . 1 ! 7 . 7 1 3 . 9 3 高校野球 フットボール j j 6 . 3 5 7 . 414 2 . 6~ 3 4 0 . 71 3 0 . 0~ 3 4 バレーボール 5 . 0 30 トライアス口ン ! 5 マラソン・駅伝 1 スノーボード ~ ; 4 5 . 61 3 8 . 1 !3 0 . 0 3 6 サッカー 3 . 2! 6 . 5 4 11 8. 4~ 2 2 . 3 32 スピードスケート~ 1 20. 7 テニス 2 5 . 3 l1 7 . 2~ 2 0 . 4 33 I~ ドミントン i4 . 91 4 . 7 4 34 社会人野球 2 7 . 0 11 9 . 8 :1 9. 8 ゴルフ !5 . 3 !3 . 2 9 陸上競技 22. 711 6 . 3 ~ 17. 4 3 5 アイスホッケー! 6 . 3 t3 . 6 10 体操競技 3 1. 5! 2 1 . 8 :1 6 . 2 36 自転車競技 ! 5.8!3 . 6 1 1 水泳競授 2 2 . 611 3 . 8~ 1 4 . 2 37 ヨット i 4.3 i 2 . 9 1 2 プロボクシング 1 9 . 6 !1 5 . 8 :1 3 . 9 38 ホッケ‑ ! 2.1i2.2 13 柔 道 1 2 . 21 1 1 . 8~ 1 3 . 9 39 アマチュア ! ! 14 スキー 2 5 . 71 1 2 . 7~ 1 2 . 9 レスリング !1 .7 11 . 3 11 . 3 1 5 バスケットボール 1 3 . 9 1 9 . 3 :1 1 . 9 40 ハンドボール 1 1.3!2 . 1 11 . 2 16アメリカ大 1 )ーグ野球 1 1. 7 4 1.11 8 . 1~ 1 i i 1 アマチュア 1 7 フィギュアスケート 2 3 . 6!1 6 . 9 :1 1 . 5 ボクシング j 22;15i1.2 18 競馬 0 . 2 42 ボート・カヌ‑ ! 2 . 2i2 . 1 11 . 1 9 . 61 9 . 2~ 1 19 新体操 2 2 . 011 2 . 4~ 9 . 0 43 フェンシング 1 . 9 10 . 9 0 . 6 20 自動車レース 1 5 . 9 112. 4~ 8 . 1 44 その他 ! 0.6! ( ) . 3!0.2 2 1 ラグビー 1 2 . 5 11 2 . 0~ 7 . 2 45 見えいとは恩わない ! 4 . 715.4! 6 . 0 22 プロレスリング 1 2 . 8 18.5: 6 . 5 46 わからない・無回答! 0. 511 .4! 0 . 9 23 ダンス 4 18 . 2~ 6 . 5 13. 24 ボウリング 9. 4 16.0! 6. 5 25 空手 6 . 6 15. 4~ 4 . 9 26 剣 道 . 8 6 . 2 !4 . 6~ 4 27 車球 6 . 9 15.2: 4 . 6 表2 27 位までを、数量化皿類に使用。 1、 2種目 ! ! ! Y 6 4 3 2 β 円以9 3 3aa3a2211 ! 3、 4 5、 6 7 ‑ ‑ ‑ ‑ 9 10 種目以上 5.2! 4 . 9~ 見たいスポーツ番組の分類‑数量化 E類一 見たいスポーツ番組は、 1人平均で5種目程度を上げている(表 2 ) 。では、誰が、 どの種目とどの種目を同時に上げているのだろうか。との関連性を見るために、 96 年のデータのうち上位 27位までを使って、数量化皿類(カテゴリカル分析、注 1) による分類を試みた(図 1)。結果を見ると、 「女性型j の 3つに分かれるととがわかった。 ‑ 2 5 9 「若年男性型 J i 中高年男性型 j
図 1 テレビで見たいスポーツ番組の種目別の関連図 ア若年男性型 スポーツ番組をよく見ている人は、どちらかといえば男性の中高年層が中心であ 1 0 代. . . . . . . . . 3 0代)だけがよく見ている種目は周辺 ることを考慮すれば、男性の若年層 ( " 空 手 」 部に位置し、上位グループには入らないことになる。["バスケットボール J [ 「プロレスリング」がこれに該当し、 「自動車レース J ["アメリカ大リーグ野球」 もこれに近い。中高年男性との接点は、 「プロ野球J ["高校野球」などである。 イ 中高年男性型 中高年男性型は、スポーツ番組愛好者の中心を占めるだけに裾野は広く、人気種 目のほとんどをカバーする。 3大人気スポーツの「プロ野球J ["大相撲 J ["高校野 球」は、との層に圧倒的な人気がある。そして、との 3種目間で「プロ野球」を見 ている人は「高校野球」も「大相撲」も見ている人が多いと言う様な緊密な関係を 一2 6 0 ←
形成し、この 3者が将来ともに急激な人気の下降はありえない様子がわかる。この 「マラソン・駅伝 J ["陸上競技J ["水泳競技」も同様な相関関係にある。 他にも、 男性若年層との接点は「サッカー J ["プロボクシングJ ["テニス Jなどで、これ らの種目が上位に進出するためには、中高年層を引き付けることが出来るかどうか にかかっている様子である。 ウ女性型 中心層が女性の種目は、 「ダンス J ["新体操J ["フィギュアスケート」に加えて、 「体操競技J ["バレーボール J [ " 卓 球 J ["水泳競技」などがある。この中で、 「 バ レーボール J ["水泳競技」を除いた 5種目間では、それぞれが緊密な相関関係にある。 そして、この 5種目のもう一つの共通点は、人気が半減した下降型の種目であること も注目しておきたい。 若年男性型との接点は「テニス」である。中高年男性型との接点は、 「大相撲J 「マラソン・駅伝 J ["陸上競技J ["水泳競技J ["バレーボール J ["ボウリング」な ど6種目である。このなかで、 「ボウリングJ ["卓球」は中心層が目立たない、しい ていえば女性の 40代だけが平均を上回っているという例外的な種目である。 まとめ 見たい人が増えそうなスポーツ番組の条件 、 92年 、 96年を比較して、増加傾向あるいは減少しなかった「安 ここでは、 88年 定型」と、減少傾向の「下降型」の 2つに分けて、変化の過程と可能性を見ていく。 ア安定型の特徴 「安定型 Jは 、 「プロ野球 J( 図2 ‑ 1 ) ["大相撲 J ["バレーボール J ["サッカー」 ( 図2 ‑ 3 ) ["テニス J [ " 柔 道 J ["バスケットボール J ["アメリカ大リーグ野球 J [ " 競 馬 J ["プロボクシング」などである(図では、男 1 6 " " '1 9はM16、男 2併 t ;M20、男知 6 " " ' 1 9はF16、女 20 代F20・・・と表示)。 代M30、男 40代M40・・・、同様に女 1 「安定型」にも、 3つの型がある。 lつは、中高年層を確実に捉えている「プロ 野球 J ["大相撲 J ["柔道」等に代表されるものである。["プロ野球」が国民的スポー ツの位置を維持している最大の理由は、若年層でも 5割を超える男性の支持によるも のであり、女性の 50代を中心とした中年層も引き付けているためである。一方の 「大相撲」は、男女の 50歳以上の圧倒的な人気を集め、 60歳以上ではさらに人気が 高まりそうである。["柔道」にも、似た傾向が読み取れる。 2番目の型は、 「バレーボール」と「テニス」等に代表される中心が女性層のもの である。一方の「バレーボール」は女性層を確実に捉えて 88年並に戻しているのに 対し、 「テニス」は女性の若年層が低いため 88年には及ばない。 3 番目の「サッカー」と「アメリカ大リーグ野球」は、男性の若年層が中心のもの である。ともに、かろうじて男性の 40代までは捉えているが、テレビのヘビーユー ‑ 2 6 1
r プロボクシングJ も 、 9 6年に中心層が大 ザーである中高年層を捉えてはいなし迫。 幅に変わって、似た傾向を示すようになった。 ここでも、男性の中高年層と女性層をどの程度引き付けることが出来るかが、キー ポイントになっていることがわかる。 イ 下降型の特徴 「下降型」の 1つは直線的な下降型で、 図2 ‑ 2 ) 「高校野球J ( r マラソン・駅伝」 「体操競技 J r フィギュアスケート J r 新体操J r 自動車レース」がこれに該当す 「ゴルフ J r 陸上競技J r 水泳競技J r ス る。もう 1つの型は下げ止り型で、 新 キー Jである。このうち、男女比が極端に大きいのは「フィギュアスケート J r r 自動車レース J (男性中心)である。また、 「高校 マラソン・駅伝 J r 陸上競技」以外は、中心層のなかに高年層を捉えるこ 野球 J r 体操 J (いずれも女性中心) とが出来ない型、強い右肩下がりのものがほとんどである。 図 2 見たいスポーツの種目別の推移. . . . . . . 8 8 年 、 92 年 、 96 年 図 2‑1 プロ野球 8 0 畠 7 01 ‑・fT屯 JUT 図2‑2 高校野球 1: : 70 Yふ 50 2年 8 0 88年 7 0 • 6 0 4 5 3 0 図 2‑3 40 サッカー 6 0 B " 仇j:~t~ 50 96 年 . 3 0 3 0 .88 年 . ' 20 1 0 MMMMMMM FFFFFFF l : L, " … .• 。 l l 11 2 1 0 MMMMMM FFFFFFF 12345671234567 60000006000000 。 34567 1234567 0000 6000000 MMMMMMM FFFFFFF 1234567 1234567 60 000 00 6000000 ウ 見たい人が増えそうなスポーツ番組の条件 いままで見てきたことを要約すると、 2見たい人を増やしていくための条件は、 平凡ではあるが、次ぎの 3つの要素を満足させられるかどうかであるといえる。 A 中高年層を捉えているか B 女性層に人気があるか C 男女や年層間に極端な片寄りがないか 現在のところ、見たいスポーツ番組のビッグ 3に次ぐ位置にある「サッカー」 ゴルフ j が、さらに上位に進出するためにも、この条件は欠かせない。 「テニス J r 262
日本 S A Sユーザー会 (SUG I‑J) データベース・マーケティングの実践的分析視点 緒方維文 株式会社工フ・工ム・アイ 代表取締役 A Viewpoint ofPractical Database Marketing Analysis KorefumiOgata lnc. President、 Future Marketing Institute, 要旨 データベース・マーケテイングの戦略課題に対応した、既存顧客の引き留めと投資効率の 極大化を同時に可能にする 2段階標的化モデルの開発過程を述べるとともに、モデルの実践 命じる。 ついて Z キーワード:顧客セグメント、標的化、 CORR、 CLUSTER 1.はじめに 近年のめざましいコンピュータ技術の進展によってデータベース・マーケティングが身近 な存在になってきた。多くの企業で活用できる条件が整ってきたが、どのようにすればうま く運用できるか悩んでいるところが決して少なくないのではなかろうか。周知のように、デー タベース・マーケテイングとは「データベースを駆使して顧客個人に商品を売りこもうとす る活動 J(1)であり、 「必然的に顧客データベースの操作を重視するものである J(21。 そこには構造的に 2つの戦略課題がある。それは既存顧客の引き留め戦略と新規顧客の獲 得戦略であり(へその代表的な分析モデルとして R F M分析と L T V分析が知られているが、 果たして有効に機能しているであろうか。それはデータベース・マーケティングをサポート する筆者の悩みでもあった。 そこで、 「既存顧客の引き留めと投資効率の極大化を同時に可能にするモデルを開発でき ないか」という命題のもとに実際のデータベースで分析検証しながら本稿を進めることにす nべU nノ ρb
る。それを選んだのは、顧客 l人を獲得するためのマーケテイング・コストは新規顧客の場 合よりも既存顧客の方がはるかに小さいとともに高い収益を得やすいからである。そして、 そこから得た利益を新規顧客獲得の資源に充当するという構図が最も効率的だと考えるから である。 なお、以下に示す分析事例は機密保持の関係上、実数値や単位、商品名などを秘匿させて いただくことを容赦願いたい。 2. デ ー タ ベ ー ス 分 析 へ の 期 待 獲得した顧客が碍間とともに減衰するのは周知のとおりである。ヒューズの主張によれば、 l年後には 50%の顧客が残り、 2年後には 27.5% ( 1年後に残った顧客の 55%) 、 3年後に はわずかに 16.5% (2年後に残った顧客の 60%) だけが残るに過ぎない (4)。 本稿の事例(図 1)では、 l年後はヒューズの主張通りであるがそれ以降は上回り、 3年 後に至つては 2倍も多い。それはこの企業が顧客数の維持拡大に努力してきた成果であり、 その戦略は決して間違っていなかった。しかし、その活発な投資が一方では効率をヲ│き下げ る結果にもなり、改善が必要となってきた。 ここにデータベースを駆使した解決が期待されたのである。 ( 図 1)既存顧客の減衰状況 ( 9 G ) 100 90 80 70 6 0 50 40 30 2 0 ヒューズの主張 。 1 年後 2 年後 3年 後 4 年後 5 年後 {注)本事例では、初回購買後 1年単位で 購買のあった顧客を既存顧客とした 3. 投 資 効 率 を 引 き 下 げ る 原 因 顧客セグメントの手法は広く普及しており、この企業でも独自の手法を採用してき た。その手法を分析に適用すれば投資効率を引き下げているセグメントを特定化でき る。そして単純に考えれば、効率の高いセグメントだけを対象にすることによって投 ‑ 2 6 4一
資効率を極大化できる。 そ こ で 、 投 資 効 率 を 表 す 指 標 に カ タ ロ グ l部 当 た り 売 上 高 ( 以 下 こ れ を カ タ ロ グ 効 率 と 呼 ぶ ) を 用 い て 分 析 す る と 図 2の 結 果 が 得 ら れ 、 次 の 3点が明らかになった。 ① セグメントの大部分が損益分岐点をクリアしており概ね良好であったが、損益 分岐点に満たないセグメントが確かに存在している。 ② 損益分岐点に満たないセグメントは顧客数が多く、これが投資効率の引き下げ に強く影響している。しかしこれらを対象外にすれば既存顧客の減少が大きくなるこ とが危倶される。(図 2の左図) ③ また、損益分岐点に満たないものの売上高が大きいセグメントが存在している。 しかしこれらを対象外にすれば売上高の減少が大きくなることが危倶される。(図 2 の右図) 同時に、もし別のセグメント手法によれば違った結果になるのではないだろうか、 それを確認した上で対策を考えるべきではないか、という疑問が生じた。そこでいく つかの顧客セグメント手法を検討することにした。 ( 図 2)顧客セグメント別顧客数 顧客数とカタログ効率 タ 売上高とカタログ効率 ロ (グ , カ l タよれし . . . . グ幼班十) 、 " 口乙 i . . . ‑ ‑ J ‑ e • ー ‑ ド ドl l ) ) ヒ KA 4 1J lE フl (カタログ効率) →多い ログ l 部 当 た り 売 上 高 タ 売上高とカタログ効率 カ カ 0 1 1 益 分 岐 ! . ' . i . l 多い→ .. . . . ""~ . . . . .. ー盆‑ . . . (平均) 多い→ ; . / [ . . I ‑ ̲ K ,r 顧客敏 4.顧客セグメント手法の検討 4. 1 顧 客 セ グ メ ン ト 手 法 の 概 要 RFM分析は通信販売の代名詞の如く広く知られている。それは 1930年代にアメリカの大 手通信販売企業でカタログ製作・発送費を大幅に縮小するために着想、され、次の顧客にはカ タログを送付しないことにした ISI、ということから発展したモデルである。 ‑最近、カタログで買物していない人 まれにしか、カタログで買物しない人 ‑わずかの金額しか、カタログで買物しない人 ‑265
この着想に基づき、最新購買時点 (R :リーセンシー)、購買回数 (F :フリクエン シィ)、購買金額 (M:マネタリー・バリュー)、の 3つの尺度から顧客全員に得点付けを 行い、その得点の大小 l ごよって顧客の優劣順位を決めたり、その優劣によってセグメントし ようとするのが R F M分析である。それはコンビュータの発達とともに広く普及するように なったが、 R F Mポイントの計算方式には何通りかの説がある。自社にふさわしい方式を研 究開発せざるを得ないのが実状であり、この企業ではこれまで R F Mポイントを活用してこ なかった。この企業が採用した顧客セグメントは、 R F M分析の着想に基づき、 R (最新購 買時点)と F (購買回数)で表 lのように分類するものであった。以下これを R Fセグメン トと呼ぶことにする。 ( 表 1) RFセ グ メ ン ト ・ マ ト リ ッ ク ス 数 一 回一回 貿 一3 購 一 因 〆 ︒ 回 M 最 0・3ヵ月 新 購 買 4 . 6ヵ月 時 日回 セグメント 111 セグメント 1 2 1 セグメント 13 セグメント 1n Iセグメント j2 Iセグメント j3 セグメント J n 7 . 9ヵ月 10寸 2ヵ月 占 I.J カ月 セグメント j l いくつかの計算方式のなかで、ベイヤ一 (M.Baier) 、ストーン(B.Stone) およびリュング レン (R.G.Ljungren) 3人の方式をとりあげてみよう。 3人は R、 F、Mのそれぞれについて表 2に示す評点を与えたり制約しているが、これに 対して筆者は次の疑問を感じていた。 ① 最新購買時点の評点に関する疑問 一定期間以上には評点を与えなくても良いのだろうか。ベイヤーは 2 5ヵ月以上、ストーン は13ヵ月以上、リュングレンは 19ヶ月以上には評点を与えていない。 ②最新購買時点の集約に関する疑問 最新購買時点、を 3ヶ月単位に統一せず、半年や l年単位で集約したものを混在させて良い のだろうか。ベイヤーとリュングレンは 13ヶ月以上を半年や 1年単位で集約してその期間に は同じ評点を与えている。 ③ 購買回数の上限に関する疑問 購買回数の上限を制約して良いのだろうか。ベイヤーとリュングレンは 5回を上限として いる。 ④購買金額の分類に関する疑問 購買金額はどのように分類すべきだろうか。ストーンは購買金額の 10%を評点とし、リュ ングレンは 500ドル単位で 4.500ドルを上限としている。 ‑266
⑤購買回数と購買金額の相関に関する疑問 購買回数が増えれば購買金額も当然増える。購買金額は購買回数と相関関係にあると想定 されるから、両者を RFM ポイントの合成変数に組み入れるのは好ましくないのではないか。 以上の疑問点を図 3の分析で検討した上で、彼らの方式に準拠したものと、その修正方式 の 2通り算出して比較検討することにした。 ① 最新購買時点の評点について 彼らが 1 3ヵ月以上に評点を与えていないのはおそらく対象外にしているからであろう。こ の事例では最新購買時点、が古くなるにつれてカタログ効率が確かに減少するが、そのカーブ は緩やかであり、最新購買時点、 1 3ヵ月以上を対象外とするのは適切でない。そこで彼らの方 式を用いる場合には評点のない最新購買時点に Oを与え、修正方式の場合は表 3の評点を与 える。 ② 最新購買時点の集約について 最新購買時点 1 3ヵ月以上におけるカタログ効率の変動は小さいことから、半年や l年単位 で集約してその期間に同じ得点を与えても支障なさそうである。彼らの方式を用いる場合は それぞれに従い、修正方式の場合は表 3のように区分する。 ③ 購買回数の上限について この事例では購買回数 5回以上の顧客数が多い。加えて購買回数 5回以上の顧客のカタロ グ効率は高く、しかもその変動が極めて大きいことから上限を 5固とするのは適切でないと 判断するが、とりあえず彼らの方式を用いてみる。 ④ 購買金額の分類について 購買金額は分布状況に応じて、千円、 5千円、 l万円、など区切りの良い単位で分類する。 0分類する。ストーン方式では千円単位に変換 ベイヤ一方式では分布状況に応じて等間隔に 2 した金額の 10% (小数以下四捨五入)とする。リュングレン方式では 1万円単位で従う。 ⑤ 購買回数と購買金額の相関について .592が示すように確かに相聞が 購買回数と購買金額の関連を分析すると表 4の相関係数 0 高く、図 4 で確信に至る。購買回数が増えるに従って購買金額が増えるのは自明であり、 RFMポイントの合成変数に両者をともに組み入れなくても良いであろう。この事実に着目 して、購買金額を除外して最新購買時点と購買回数でポイントを計算する修正方式を加える ことにした。 購買金額についてはもう少し確認する必要がありそうだがそれは後に譲ることにして、こ こでとりあえず以上の結果を確認してみよう。 ‑267‑
( 表2 ) 3人 の RFMポ イ ン ト の 計 算 方 式 ベイヤ方式 区分 3 6ヵヵ月月以以内 最新購買時点 ( R ) 評 9ヵ月以内 1 2ヵ月以内 スト 1 )ュ ン グ レ ン 方 式 ン方式 区分 0‑3ヵ カ月 月 1 2 1 4‑6 6 1 7‑ 9ヵ月 3 1 10‑12ヵ月 13‑18ヵ月 区分 評点 2 0 1 0‑3ヵ カ月 月 1 0 1 4‑6 5 1 7‑9ヵ月 3 1 10‑12ヵ月 2~1 評点 2~ ヶ月以内 占 3回 4回 5回以上 4 8 1 2 1 6 20 最最大 小 2 0 1 盆 ( 査 た 員 の だ1 し 0 、%を最点高数 9点) 2 l回 購買回数 ( F ) │購( 賞金) M額 上記基準の加重点に 下欄のウェイトをつ けた合計点 計算方法 ウェイト 最購勅買購回数買時(点 F )( R ) 購買金額 RFMポイント 最 大 得 点 の理論値 最小得点(社) < m所}江尻弘『最新データベ ス 7 ( M ) 評点 26 2 2 1 7 1 2 6 1回 3点 × 購 入 回 数 (ただし、最高 1 5点) 1 回 4 点 X~詩人回数 最 最 小 大 500ド ド ル ル ま 以 で上 9 ~.500 上記基準による加重 点の合計点 上記基準による加重 点の合計点 5 3 なし 2 なし 00 200 購買回数に依存 5 5 ケティンゲ J τ 1 '央経済社 1 9 9 6 年 、 P . 8 6、P . 1 3 9 ‑ 1 . I O、より作成 50 i i新肱 r i l 時点の凶己対象外を 0とした場合の数値とした (注)理論値の最小得点は、 i ( 表 3) 修 正 方 式 に よ る RFポ イ ン ト の 計 算 方 式 ストーン方式 ベイヤ一方式 。 最新購買時点 ( R ) 区分 ‑3ヵ月 4‑6ヵ月 7‑9ヵ月 10‑12ヵ月 13‑18ヵ月 19ー 2~ ヵ月 評 占 購買回数 ( F ) 25‑30ヵ月 31‑36ヵ月 l回 2回 3回 4回 5回以上 ウェイト 最新購買時点 ( R ) 購買回数 ( F ) RFMポイント 最 大 得 点 の理論値 30 20 1 6 1 2 8 6 5 4 4 最小得点 リュングレン方式 区分 評点 同左 l回 3点 × 購 入 回 数 (ただし、最高 1 5点) 上記基準による加重 点の合計点 上記基準による加重 点の合計点 5 なし 3 210 購買回数に依存 2 3 (注)表 2との違いは l t l V i桃 r i l 時点を考慮した点である ‑268‑ 評点 同左 8 1 2 1回 4点 × 購 入 回 数 1 6 20 上記基準の加重点に 下欄のウエイトをつ けた合計点 計算方法 区分 評点 なし 00 8 5~ 7
( 図3 ) RF M3要因とカタログ 1部当たり売上高 (カタログ効率) ?多い カ タ ロ グ l部 当 た り 売 上 高 ¥し 多い→ 最新購買時点 (R) 購買金額 (M) 購買回数 (F) 考 . , 、 一 → l人当たり鵬口金額 ( 表 4) RF M3要因の相関行列 f 多い ( 図 4)購買回数別 l人当たり 購買金額(平均) (平均 →2 い 勝i l恒i 数 ノ 4. 2 顧 客 セ グ メ ン 卜 結 果 の 比 較 検 討 上記の評点で算出したポイントの序列に従ってそれぞれ 20分類程度を目安にセグメントし た。そして、セグメントの適切さを判断する指標として次の 2つを用意した。 ① R F Mポイントとカタログ効率の相関の高さ セグメント結果が適切で、あれば、 R F Mポイントが高いセグメントはカタログ効率も高く、 逆にポイントが低いセグメントのそれは低くなり、両者の相関は極めて高いであろう。そこ で 、 RF M (または RF) ポイントとカタログ効率の関連を最もよく表す曲娘を求めて、そ の説明力の高さを示す決定係数(r2 ) を第 lの判断指標とする。 ② カタログ効率の分散の大きさ 一方では、セグメント聞のカタログ効率にかなりの差がみられ、分散の値が大きくなるで あろう。そこで、カタログ効率の分散の大きさを標準偏差 (σ) で表してこれを第 2の判断 指標とする。 分析結果は図 5 (RFM3要因によるセグメント)と図 6 (RF 2要因によるセグメント) に示され、 3人の計算方式のなかでこの事例に最も適しているのがストーン方式であると判 断できる。この点からも購買回数の上限を 5回に制限しない方が良いという判断が正しかっ 内ju n u υ ρ0
たと言えよう。 そこで、 ストーン方式に注目して図 5 と図 6を比較すると、最適曲線の決定係数は 0.985 で全く同じ数値であり、一見どちらでも良さそうである。 しかし、 カタログ効率の標準偏差 は図 5の2 . 7 7 9に対して図 6は3 . 3 9 1と大きく、 RFM3要因によるセグメントよりも RF2 要因によるセグメントの方が適切であると判断できる。 それはまた最適曲線の傾斜角度の違 いにも表れている。 ( 図 5) R F Mポ イ ン ト (3要因の合成変数)による分析結果 <MI土購買額を使用> ベイヤ一方式 リュングレン方式 ストーン方式 J 4 1 A可 M QJpb nun4 ) 26 ( ) 一 一 一 一 2rσ 民 nvn4 Qd7a υQJ ︒ ︒ ヮ ︐ r( l Zロぃ I(σ=3.212) 一一一一 つa 7 カ↑ I 2 ( タ 多 │ ピ =0 . 8 9 5 タグ . ロ l グ部 効当 率た , . . 一 売 上 0 ・ J .・ E マ ' ・ 高 大 I → RFMポイント 大 I ・ 圃 ‑ ‑ → 大 RFMポイント (注)図中の r2 は最適曲線の決定係数、 → RFMポイント ( )内の σはカタログ l部当たり売上高の標準偏差である ( 図 6)修正方式 (RFポ イ ン ト ・ 2要因の合成変数)による分析結果 <Mを除タト> ベイヤー方式 リュングレン方式 ストーン方式 (注)図中の r2は最適曲線の決定係数、 大 RFMポイント → ) → PU7a 大 RFMポイント 51 9 e1 ‑ nu‑‑a r =0 . 9 8 5 (σ=3.391) ( r ‑= 0 . 9 7 3 (σ=1 . 11 1 ) 一 一 一 一 ︒.r →多い カタログ l部当たり売上高 (カタログ効率) ワ 大 → RFMポイント ( )内の σはカタログ l部当たり売上高の標準偏差である 4. 3 ポイント化によるセグメント効果 以上を振り返ると、 この企業が採用してきた最新購買時点と購買回数による顧客セグメン トは適切で、あったと判断される。 しかしそれをポイントで分類するのが良いのか、 ポイント 化せずに表 1のようにマトリックスで分類するのが良いのか検討を加えてみよう。 、 R Fポイント (修正ストーン方式) 表 lのマトリックスによるセグメント結果を図 7に ‑ 2 7 0
によるセグメント結果を図 8にそれぞれ示した。また、両方法によるセグメント効果の比較 数値を表 5に示した。これらの図表から次の点が読みとれる。 ① ポイント化でカタログ効率の分散が大きくなる ポイント化による方がマトリックスによる場合よりもカタログ効率の分散が拡大する。 ② ポイント化でセグメントボリュームの偏りが増大する ポイント化によれば顧客数と売上高の両方でセグメント聞の格差が拡大する。 (図7) RF (マトリックスによる)セグメント別 →多し カタログ l部当たり売上 顧客数‑売上高とカタログ効率 カ 顧客数とカタログ効率 (カタログ効率 ) 古 1 "1 売上高とカタログ効率 タ ロ ー ‑ , 「 一 ー 一 グ ; 1多 タ剣, c ロ当 た u . . 言 ー . . 九り 二売 、 L上 者 . .: ~ ・.~ ~( 多い→ (平均) : 司 ←(J!l益分陰点) (平均) 顧客数 多い→ 先上高 (注)これは国12と同じものであるが、比較のため尺度を図 8に合わせて縮小した 修正方式 (RFポイント・ 2要因の合成変数)による ( 図 8) セグメント別顧客数・売上高とカタログ効率 →多い カ タ ロ グ l部 当 た り 売 上 (カタログ効率) カ タ ロ グ l部 当 た り 売 上 高 (カタログ効率) (ストーン方式) 顧客数とカタログ効率 売上高とカタログ効率 ~ F 、 古 H可 ←[打1 益分岐白) (平均) 顧客数 多い→ (平均) 多い→ 売上高 (注)これは国 6のストーン方式の RFポイントに基づくことから基本的には図 6と同じ であるが、比較のためセグメント数を図 7に合わせて符分類しているのでこの図の 方がセグメント数が多い ③ ポイント化によるセグメント効果は認められない 2通りのセグメント方法によって、損益分岐点をクリアするセグメントを対象にした顧客 数の合計、当該カタログでの購買者数と購買金額の合計、のそれぞれが既存顧客全体の何% をカバーするのか、また、カタログ効率はどのように変化するのか、といった分析結果を示 2 7 1
したのが表 5である。この結果が示すように、 2通りの方法の違いによる差はほとんどない。 したがってポイント化によるセグメントの効果は認められない。 ( 表 5) ポ イ ン ト 化 に よ る セ グ メ ン ト 効 果 の 比 較 │購 買 者 数 │ 売上高 顧客数 吐 既存顧客全体 100 唖 100 100.0% カタログ効率 100.0% カパー率 ( i 主①) RFセグメント(マトリックスによる) RFポイントによるセグメント 5 i . 9 % 1 7 9 . 5 % 1 .9% 81 X H9.1' 7 9 . 7 % 1 82.2% H5.9' X (i主1)カハ -~t! 二損益分岐点をク ')7 したセグメントの数例/既存顧客全体の数値 (注(~,)比較を正当にするために、両方法によるセグメント数を阿 8 同様に同一にした *8* である 以上の点から、この企業ではポイントによって顧客をセグメントするメリットはないと判 断される。 4 . 4 購買金額についての検討 上記の理由で購買金額は考慮外にしても良いと判断したが、ここで購買金額が持つ意味を 検討してみよう。 購買回数が購買金額に強く影響しているならばその影響を除去すれば良いであろう。そこ で、購買金額を購買回数で除した l回当たり平均購買額を用いて分析することにした。 その結果は図 9に示され、購買回数 l回当たり平均購買額が増えるほどカタログ効率が高 くなるがその増加率は逓減し、ある一定の金額に達するとカタログ効率とは無関係になると いう傾向が明らかになった。 これから次のような仮説を提唱できるのではなかろうか。 ① 顧客は「このカタログに許容する購買の限度 J (心理的サイフ)を暗黙のうちに設定 している。 ② 購買履歴の浅い時期は慎重にサイフを聞き、徐々に大きく聞いて行く。 ③ しかし一定の大きさまで達すると、よほどのことがない限りそれより大きく開くこと はない。 ④ その限度額はカタログの特性によって異なり、パワーのあるカタログほど大きな金額 が設定される。 しかし、この仮説の検証は本稿の目的ではないので別の機会に譲ることにする。 このような購買行動の繰り返し結果が購買金額となり、図 9の左側に示すように、あたか もカタログ効率に直接影響するように錯覚するのであろう。 では、購買金額の代わりに購買回数 1回当たり平均購買額を用いて RFM分析を行ったら どうだろうか、という発想が生まれてくる。それを実施した結果が図 10である。 ← 2 7 2 ‑
これを先の図 5と比較すると大きな違いはみられず、かなり似かよっている。 l回当たり 平均購買額と購買金額のどちらを用いても顧客セグメントの効果はそれほど変わらないと判 断される。このことからも、 M ( 購買金額)を除外した R Fセグメントの妥当性が再確認さ れたと言えよう。 ( 図 9)購買金額および購買回数 l回当たり平均購買額と カタログ l部当たり売上 →多い カ タ ロ グ I部当たり売上高 (カタログ効率) 多い→ 購買金額 多い→ 購買回数 I回当たり平均購買額 ( 図1 0 ) 購買回数 l回当たり平均購買額を用いた R F M分析結果 リュングレン方式 ストーン方式 ︻ e‑ QUnu ハυ T A ( 。 r‑= 0 . 9 8 . 1 ) tyA 60 つ ‑ r ‑‑一一 ?多い カタログ 1部当たり先上高 (カタログ効率) ベイヤ一方式 。 1 二日 /〆 大→ 大→ R F Mポイント (注) [i<]中の r~ は最適 i 曲線の決定係数、 958 (σ=1 .652) ( σ ニ 3 .180) ~〆 R F Mポイント 大→ R F Mポイント ( )内のけまカタログ I部当たり売上向の標準偏差である 4. 5 実践的な顧客セグメン卜 実はこの企業が採用してきた顧客セグメントの適切さは上記以外にもある。表 lのマトリッ クスによるセグメントのメリットとして次の点をあげることができる。 ① マーチャンダイジングに結びつけやすい ポイントによる場合、 「ポイント 75点の顧客」といっても今まで何回購買して最新購買時 点がいつの顧客なのか不明確である。それに対して R Fセグメントは明確で、ある。 例えば、 「最新購買時点が 3ヵ月以内で購買回数 l回の顧客は今度こんな商品を欲するで L 円 ワt ︒ ︒ あろう Jそして「そのセグメントは何人いるから、これくらいの数量は見込めるであろう j
「最新購買時点が l年前で 5回も購買実績のある顧客が何人いる。これらの顧客を再 とか、 び購買に結びつけるにはこのような商品を提案するのが良いのではないか」、といった具合 にマーチャンダイジングに結びつけやすい。 ② プロモーションに結ぴつけやすい 同様に、 「前回のカタログで新規顧客を多く獲得できたので、今回のカタログでは最新購 買時点が 3ヵ月以内で購買回数 l回の顧客を特に意識して、連続購買につながる 00 キャン ベーンを導入しよう」といった具合にプロモーションに結びつけやすい。 ③ 販売計画に結びつけやすい 顧客セグメントは絶えず変化するが、 R Fセグメントによればセグメント聞の推移測定が 容易であり、セグメント毎の対象者数を把握しやすい。そして過去の分析結果からセグメン ト毎のリスポンス性向を一定の幅で想定できることから販売計画に結びつけやすい。 このようなメリットと前記の検証を合わせて考えると、この企業が採用してきた R Fセグ メントはまさに実践的なセグメント手法であったことが改めて確認できた。そしてこの企業 にとって RFMポイントは神話に過ぎなかったと言えるであろう。 以上みたように顧客セグメント手法の適切さが確認されたことによって、命題に対する別 のアプローチが必要となった。 5.命題へのアプローチ 5. 1 解決への着想 では、 「既存顧客の引き留めと投資効率の極大化を同時に可能にするモデル開発 j という 命題にどのようにアプローチすれば良いであろうか。収益極大化の手法としてヒューズ (A.M.H昭 h e s ) の 2段階アプローチによる採算可能顧客の標的化という手段もあるがそれで 果たして良いのだろうか。ヒューズの手法は表 6に示され、これを適用すれば確かに投資効 率の極大化が可能であろう。しかし、損益分岐リスポンス率に満たない顧客セグメントを対 象外にすることから、これを繰り返せば既存顧客の維持という命題が解決できない。ヒュー ズの着想は損益分岐点に満たない R Fセグメントを対象外にするのと同じである。 いくつかの顧客セグメント手法を適用しても RFセグメント以上の効果を上げられないと いうことは一次元の尺度では解決できないということである。ヒューズの 2段階アプローチ も一次元の尺度に過ぎずこの点でも限界がある。一次元の限界をブレイクスルーするには二 次元で考えるしかない。二次元の尺度をどう考えるかがポイントになる。 RFM分析が顧客の購買行動に着目しているという原点に立ち返れば、 R (最新購買時 点)、 F (購買回数)、 M (購買金額)は購買行動を要約したものであり、いわば粗い単位 一2 7 4一
の尺度である。もちろんこれでもかなりの効果を発揮することは万人が認めるところである が、それより細かい単位の尺度を求めるとすれば購買商品以外にはないであろう。しかし、 商品情報は複雑で、取り扱いにくいことから避けがちであった。 筆者もこれまでに商品情報の取り扱いに苦慮してきたが研究の繰り返し過程で解決の糸口 を見出した。それは、まず R Fセグメントを適用した後、購買商品の尺度を補完的に使用す るという単純な着想であった。例えば、 1種類の網で全ての魚種をすくうことはできないが、 粗い日の網ですくった直後に細かい目の第 2の網を使えば大きな魚も小さな魚もすくえるの と同様に考えたのである。この粗い目の網が R Fセグメントであり、これですくうのが損益 分岐点をクリアしたセグメントである。細かい目の第 2の網が購買商品であり、これですく うのが R Fセグメントで損益分岐点に満たないものである。損益分岐点に満たないセグメン トの顧客数や売上高が多ければ多いほど、第 lの顧客セグメントの網の目が粗大であったこ とになる。 この着想がアプローチを容易にした。 ( 表 6) 2段 階 ア プ ロ ー チ に よ る 採 算 可 能 顧 客 の 標 的 化 の 手 順 ステップ 6 損益分岐リスポンス率の計測 ι : フェイズ② 本格的マーケテイングの展開 ステップ 1 母集団(全体)顧客の RFM5分位による市場細分化 i ステップ 2 母集団市場細分別の修正リスポンス率確認 ステップ 3 損益分岐リスポンス率を超える市場細分(つまり採算可能顧客)の標的化 i i ステップ 4 採算可能顧客の標的化における損益分岐試算 i ステップ 5 採算可能顧客を標的とする本格的マーケティングの実施 ('l[用)江尻弘 f 最新デ タベース・マーケティングj 中央経済社 1996年、 P.1~3 5. 2 着想に基づくデータベース分析 データベースの分析に際して、まず過去 5年間の全カタログの分析結果を比較検討すると 次の点カf明らかになった。 ① どのカタログにおいても損益分岐点に満たないセグメントがほぼ安定して出現する。 ② それはどのカタログにおいてもある一定の最新購買時点と購買回数で出現する。 ③ しかも各セグメントのカタログ効率はどのカタログでもある一定の確率で出現する。 phυ ワt nL
この結果から、 「ある一定期間以上購買しなかった顧客が再び購買に結びっく背景には過 去のカタログで購買した商品が関連している Jという仮説を得るに至った。 そこでさっそく次の手順でこの仮説を検証することにした。 ① 過去の購買商品と目的のカタログのリスポンス性向の関連を分析する。 ② リスポンス性向によって過去の購買商品をクラスタリングして商品タイプを形成する。 ③ 商品タイプで顧客をセグメントして目的のカタログ効率を分析する。 ④ 既に分析済みの R Fセグメントのカタログ効率と比較検討する。 その結果は図 1 1と図 12に示され、商品タイプによってリスポンス性向が明らかに異なるこ とが判明した。よって「ある一定期間以上購買しなかった顧客が再ぴ購買する背景には過去 のカタログで購買した商品が関連している Jという仮説が検証された。 同時に、商品タイプによるセグメントの再編成が次の変化をもたらすことが明らかになっ た 。 ① R Fセグメントではいずれも損益分岐点に満たなかったが、商品タイプで再編成する ことによって、損益分岐点をクリアするセグメントを確実に生成できる。(図 11と図 1 2 ) ② R Fセグメントでは顧客数の格差が大きく、総じて顧客数が多いセグメントほどカタ ログ効率が低い傾向にあった。それを商品タイプで再編成することによって顧客数の格差が 大幅に縮小するとともに、顧客数とカタログ効率の関連が希薄になった。(図 1 1と図 12の左 図) ③ R Fセグメントでは売上高の格差も大きく、総じて売上高の大きいセグメントほどカ タログ効率が低い傾向にあった。それを商品タイプで再編成することによって売上高の格差 が縮小するとともに、売上高が大きいセグメントほどカタログ効率が高くなる、という逆の 傾向に転じる(カタログ効率が最も高いセグメントは例外) 0 ( 図 11と図 12の右図) そしてこのような変化は実に好ましい次の 2つの結果をもたらすことが容易に推測できた。 ① R Fセグメントの場合は損益分岐点に満たないセグメントを対象外にすると多くの顧 客を失うが、商品タイプで再編成することによって多くの顧客を維持できる。 ② R Fセグメントの場合は損益分岐点に満たないセグメントを対象外にすると失う売上 も大きいが、商品タイプで再編成することによって多くの売上高を維持できる。 以上の分析結果から、まず R Fセグメントで損益分岐点をクリアするセグメントを標的化 した後、損益分岐点に満たない R Fセグメントは商品タイプで再編成してから標的化する、 [ I 買を踏むことによって既存顧客の引き留めと投資効率の極大化を同時に達 という 2段階の手} 成できる。しかも、売上高の極大化を伴うという確信が得られた。そこでこの手順を 2段階 標的化と呼ぶことにした。 ← 276‑
( 図1 1 ) R Fセグメントでの損益分岐点未達セグメントの 顧客数‑売上高とカタログ効率 →多い カ タ ロ グ l 都中lた り (カタログ効率) 先上布 カ (完タ カ上ロ タE Zグ . 顧客数とカタログ効率 売上高とカタログ効率 ロ lム グ部ム 効当 率 た ←(lI!益分植山)→ 多い→ (既存証i f 存平均) (既存脳i 執:平均) W J i筑:数 多い→ ぅrc_t~.~ a a カ 顧客数とカタログ効率 ‑ f 多い ケサ グl部当たり タログ効率) (光タ カ l ニ ロ ←{打1 益分世主)→ . . {既イI匝n 容・ド均) 売上高とカタログ効率 →多い カタログーが当たり 先上高 (カタログ幼率) ( 図1 2 ) 過去の購買商品タイプでのセグメントに再編成した場合の 顧客数・売上高とカタログ効率 n 勾シし、一・ 刷 各数 . {既イI胤符平均) ~~ ,占多い→ フ C.J:'I~'J 5. 3 2段階標的化の効果 では 2段階標的化によって投資効率の極大化がどの程度可能なのかシミュレーションして みよう。 第 1段階目の RFセグメントによる標的化(損益分岐点をクリアしたセグメント)は問題 ないとして、第 2段階目の商品タイプによるセグメントへの標的化に際しては、投資効率の 極大化はもちろんであるが、既存顧客の維持を強く意識して損益分岐点をやや下回る水準ま で拡張することにした。 シミュレーション結果は表 7に示され、 2段階標的化は従来方式と比較してカタログ効率 5 . 7%に大きく圧縮しても売 が24.4%向上するということが判明した。対象者を従来方式の 7 上高は従来方式の 94.2%を維持できることがそれに貢献している。 そして購買客数は従来方式の 92.7%を維持できることから既存顧客の多くを引き留められ ワ t ー ワ q o
る。加えて、標的化によって経費も従来方式の 75.7%まで圧縮される結果、純利益に至つて は27.9%増加すると判明した。 これらの数値が、何十万部、何百万部も発行しているカタログ通信販売にとってはかなり 効果的であることが容易に推察できる。ここに既存顧客の維持と投資効率の極大化を同時に 達成できることを実証できた。そこでこれを r 2段階標的化モデル j と名付けてさっそく実 践することにした。 (表7) 2段階標的化モデルの効果(シミュレーションによる従来モデルとの比較) 従来モデル 2段階標的化モデル 6 . 2段 階 標 的 化 モ デ ル の 実 践 以上みたように、 2段階標的化モデルはカタログ通信販売の期待が大きい。しかし、これ から実行するカタログでは実績データがないために第 2段階目の標的化の基準となる商品タ イプによるセグメントを事前に準備できない。なぜならば、新しいカタログの掲載商品は絶 えず異なるために過去の購買商品の違いによるリスポンス性向が未知だからである。それを 解決するにはテスト・マーケティングによって探る以外にない。 そこで、これから実行するカタログでの 2段階標的化の手順は次のようになる。 ① RFセグメントによる第 I段階目の標的化 まず、過去のカタログの分析結果からカタログ効率を検討して損益分岐点をクリアできそ うなセグメントを標的化する。 ② テスト・マーケテイングの実施 上記①で対象外となり第 2 段階目の標的化対象となる顧客のなかから、 1~3 万人(該当 顧客数によって判断)程度を無作為に抽出してテスト・マーケテイングを行う。 ③ 商品タイプによる顧客セグメント テスト・マーケテイングのデータから、過去の購買商品とリスポンス性向の関連を分析し て商品タイプを析出する。その商品タイプで顧客をセグメントしてカタログ効率を分析評価 する。 ④ 2段階標的化モデルによる損益分析試算 第 2段階目の標的化対象の全顧客を上記③の商品タイプによってセグメントを再編成し、 テスト・マーケテイングのリスポンス性向を適用して損益分析を試算する。 ⑤ 本格的マーケテイングの実施 損益分析の試算結果を判断して第 2段階目の標的化を行って本格的マーケテイングに移行 ‑278
する。時間的余裕があればテスト・マーケティングを先行した後、上記①の第 l段階目の標 的と④の第 2段階目の標的を同時に本格的マーケティングの対象とすることもできる。もし 時間的余裕がなければ、第 l段階目の標的の本格的マーケティングを先行させると同時にテ スト・マーケテイングを行い、第 2段階目の標的に対する本格的マーケティングは時間をず らして実行することになろう。 以上の手順でわかるように、ポイントは第 2段階目の標的化の基準となる商品タイプの情 報をいかに的確かつタイムリーに析出するかという点である。そしてこれは新しいカタログ を発行する度に毎回実施することになる。未知なる世界に挑まざるを得ない以上、このポイ ントは避けて通ることができないのであり、それを合理的に行うのがデータベース・マーケ テイングでもある。 ともあれ、上記の手順を繰り返す過程で確実なノウハウを得ることになる。事例にとりあ げた企業も 2段階標的化モデルの導入によって成果を上げつつあるが、今まさにその繰り返 しの過程にある。 7. お わ り に データベースを駆使した結果、 R F M分析から一歩踏み出した 2段階標的化モデルを開発 することができた。このモデルはカタログ通信販売のほとんどで効果を発揮するであろうが、 なかでも発行部数の多いところほとご利用価値が高いであろう。 また、これは商品情報を有効利用する一つの方法を示したという点でも注目に値しよう。 しかし商品に関連した研究成果はまだ少ない。直ちに大きな成果が得られるほど簡単ではな いが、流通業の永遠の課題と言われるマーチャンダイジングにこそデータベース・マーケテイ ングが挑むべきではなかろうか。遠い道のりではあろつが、生きたデータに基づく地道な研 究を重ねることがノウハウを確実にするであろうし、それを継続する企業こそが成長の道を 進むであろう。 データベース・マーケテイングをサポートする立場の l人として、データベースを駆使し た実践的な研究開発を続けたい。 6 口 ‑hd pム pb 年 A4a Qd Qd 文月 ふム 経 中 央 Hノ J 川l ン 一ア ケ マ ス 41 y ょ 1よ 可 i1 ム ︑ nununuqU 一8112 タ p??? ﹁ア書書書書 回東斗則前山斗則前川 新掲掲掲掲 掛肌肌肌肌肌 初江江江江江 惨川山幻凶同 一279
日本 S A Sユーザー会 (SUG I‑J) MDSによる日韓の生活行動分析 金佑聾(キムウソン) 専修大学文学院経営学研究課 マーケティング専攻 MDSo fL i f eb e h a v i o ro nJ a p a na n dK o r e a m WoosungKi SchoolofBusinessAdministrationSenshuU n i v e r s i t y 要旨 今日のマーケティングにおいて、消費者(生活者)を把握し、それにおける戦略を組み立てる作 業は益々難しくなっている。このような時代に消費者(生活者)を把握するための道具として以前 からライフスタイルが大きな注目を浴びてきた。 本稿では、ライフスタイルを生活行動から摘出する作業のーっとして、まず日韓の生活行動を M D S分析という分析方法を用いて分析したものである。 キーワード: 因子分析、 M D S分析、生活行動、ライフスタイル 1、はじめに 本研究の主な目的は我々の現在のライフスタイルを生活行動を通して規定するのである。生活 行動は、一定の状況の中で、規範や価値などの様々な要因によって規定されながら行われる。そ れは、生活行動が人間の内面的な要因と相関関係があることを意味している。勿論、ライフスタ イルは、生活行動、生活意識、生活構造で成り立っている。これらの中、生活意識、生活構造を 内面的要因として考えた場合、生活行動は外部的な要因になると思われる。外部的な要因として の生活行動は、内部的な欲求の表現、即ち、生活意識、価値観などによって表れる顕示的な現象 であると思われる。この生活行動こそ、現在のライフスタイルを把握するに当たって大きな手が かりを与えてくれると思われる。 生活行動には、様々な領域がある。睡眠、食事などの生理的に必要な行動を第一次生活行動、 仕事など義務的に行われているものを第二次生活行動とした場合、それ以外の行動のことで、従 来自由時間ないし余暇時間と称されていたものを第三次生活行動として一般的に分けている。こ のような意味を持つ生活行動は一回の調査分析で把握しにくい膨大な内容を含んでいることか ら、今回の調査では生活行動をまず、空間的に分け、日常的に行われている生活行動即ち、スポ 2 8 1
ーツ、レジャー、趣味のようなものを第三次生活行動(家庭・職場以外)、家庭内で行われてい るもので、ある程度の正規性があると思われる生活行動を第一次生活行動、職場で日常的に行わ れているものを第三次生活行動として考え研究を進めることにした。 しかし、近年に入つては、生活行動の中で第三次生活行動の領域が拡大されつつある。それは 消費生活が高度化、多様化して消費者(生活者)のライフスタイルも、物中心から離れ、単に物を 所有(消費)するのではなく、ものを自分探しに関係させようとしている生活者即ち、新しい時 代を作ろうとしているのである。その現象は、現在のライフスタイルの特徴として自己実現、生 きがいのある生活を求めようとしているのと深い関係があるのではなし、かと思われる。 本研究では、生活行動ということに注目、限定して進めることにする。そして生活行動からラ イフスタイルを分析するのに当たって、 M D S分析・因子分析のような分析技法を SASを活用 し、今日、日韓のライフスタイノレは、どんな差があるのかを把握していくことにする。 2、MDS分析について M D S分析は、多次元上の個体聞の距離を表わす資料から、それらの非類似性を低次元の空間 に表わす多変量技法の一つである。 一般的に n個聞の個体聞の距離はそれら自身の非類似性を測定したものである。従って、:'vID S分析は、 n個の個体聞の非類似性を表わす、大きさが n*nである非類似性行列を求め、この 非類似性行列 D を元の次元より低い空間に表わす技法として知られている。そして、この技法は 一次元尺度によって測定しようとする概念を充分に測定できない場合に活用される測定道具で ある。このような M D S分析はマーケティングにおいて主に、ポジショニング マップを作成する 際に使われてきた。 i ポジショニングマップとは、消費者(生活者)が対象(企業、製品、銘柄) を評価基準に当てどんな評価をしているのかを表わすc ポジショニングとは、消費者(生活者) が対象に対して評価している心理的な空間的な位置を言うが、これは一つの対象によって成立さ れるのではなく、多数の対象によって形成されるものである J (1) 。例えば、各製品に対する相 対的な評価を幾何学的距離に換算して位置させることによって平面あるいは多次元空間を形成 することになる。従って、マーケティングおいてポジショニング、マップは裡数の競争製品群を同 一空間に位置させることによって競争上の強点、弱点、を把握するのに有用な情報を提供してくれ る戦略的道具として活用することができる。 M D Sの目的は、基本的に次のようなことに焦点がおいてある。一つ目は、消費者(生活者) が対象を認知したり、評価する際にどんな基準によって行われているのかという点と、二つ目は、 摘出された各次元に評価対象がどんな位置にポジショニングするかに関するものである。一つ目 のに対する課題は、適正の評価次元を探し出すことが重要なことになり、二つ自に対する課題と しては空間に表わしている座標、次元をどの程度適切に解釈を加えるかが重要になると思われる c この点に焦点をおいて行われる M D S分析を簡単に言えば、各対象に対して総合的な順位評価 によって得られた資料を利用して評価の基準になる次元を探し出し、各次元での評価対象の位置 を明らかにすることによって、評価者の心理的評価空間を可視的に表わす技法として言えるだろ う。しかし、このような人間の評価状態を正確に表わすのは極めて困難な作業で、実際に評価者 282
が刺激を受け入れ処理する心理的過程は複雑なものであり、 MDSによって得られた結果が果た して実際の現象と一致するにかに重点をおいて活用されなければならない。 本稿では日韓の生活行動から得られたデータを基準に MDS分析を行うことにする。その尺度 としては、各生活行動が普段どのくらい行われているのかを準備された調査表を用いて、 5段尺 9 9 6年 4‑5月、日本 2 5 0人、韓国 2 5 0人、調査方法はク 度として評価してもらった。調査は 1 オーターサンプリングよって選ぴ、訪問調査によって行われた。 3、MDS分析の結果 まず、今回の分析における説明を加えることにする。 MDS分析の最初に問題になるのは次元 (軸)の数である。 MDS分析では「軸の数を決める一定の方法は決まっていないが、一般的に 要因分析で要因のスクリーグラフによって検定する方法とストレスによって検定する方法があ るJ (2) こここでは軸の数を二つに決めることにして、因子分析でのスクリーグラフと比較検定 することにした。因子分析では V A R l M A X回転法を用いて分析を行った。 5 0人の資料を MDS分析を行うために P R O CP R I N Q U A しを利用することにし 生活行動において 2 た。そこで軸の最大の数を 2と指定して、変換方法は K r u s k a lの距離変換によって変換されるこ とにした。そして、変換されている資料を 2次元として表現しても充分であるかを判断するため にP R O CF A C T O Rを利用した。その結果は次のようなものになった。 今回の P R O CP R I N Q U A Lによる計算結果では、日本の場合、 3 3回の反復遂行を行い最適値を探し 出し、分散による全体の説明程度が 1 0 0 %になっている c それは日本においては二つの軸で生活 行動を表わすのに充分であると思われる c しかし、 P R O CF A C T O Rでの結果と比較すると、要因二 つによる説明程度が 1 6 .3 1 %で前の説明程度と一致していないことが分かつた。それは、因子分 析で日本の場合は、生活行動の多様性が見られており、今日の日本のライフスタイルを表現する ためには二つの次元で表現するのは困難であると思われる。 韓国の場合は 2 7回の反復遂行を行し、最適値を探し出し、分散による全体の説明程度が 2 6 .6 5 % になっている。そして P R O CF A C T O Rの結果においても日本のそれと同じ結果になった。というな は、日韓共に生活行動からライフスタイルを摘出し、表現するというのは二つの次元では不充分 であると思われる。 しかし、 MDS分析では表現できなかった生活行動が因子分析では、幾つかの因子が発見で、き た。その因子分析による結果を紹介すると、日本の場合、第二次生活行動で非常に積極的な行動 を見せている社会型、外食志向が目立っていて第三次生活行動で積極的である個性型、そして第 一次生活行動行動的である家庭型、すべての活動に時間を割り当てるために努力するゆとり型が あるのが分かつた。 韓国の場合、若い 2 0 ‑ 3 0代を中心にすべての活動に積極的である新世代型、専業主婦をを中心 とした非参加型、消極型、高所層を中心としたゆとり型が存在しているのが分かつたむ 日韓の生活行動を比較して見ると、日本の場合、韓国に比べ、生活行動の種類において多様に 分布している"しかし、韓国の場合は、第三次生活行動で多様性がほとんど見られていない。そ して、日本の場合は、第一次生活行動の頻度が高い反面、韓国の場合は日本のそれより低い。そ 2 8 3 ‑
の代わり韓国の場合は、第二次生活行動の頻度が高く、第三次生活行動での行為者(だれと生活 行動をしているのか)で会社の人と行われている場合が多かった。それが、韓国において家庭の 生活行動を減らした原因として考えられる。 今回の調査結果、日韓の生活行動の問には大きな差は見えないものの、その内容においては違う ところが発見された。これは同じ生活行動を行っても、そこには、価値・態度、文化など様々な 要因が絡んでいることと思われることから同じ生活行動が他の次元に存在していることが分か った O 4、結論 以上、日韓の生活行動を M D S分析によって考察してみたが、よい結果が得られなかった。そ して、研究上幾つかの間題点が発見された。 まずは、 M D S分析で評価に関するものである。生活行動を評価するに当たっての評価は個人 であることから、人々を統合しようとした場合は、問題が生じる。そして、標本の数が多い場合 と今回のように評価対象が多い場合には意味が減少すると思われる。その反面、比較対象があま りにも少なくても結果の信頼度が落ちるのである。その以外にも問題点は幾つかあると思われる が本稿で表れたことだけを書いて省略することにする。 生活行動からライフスタイルを摘出する場合、 M D S分析が適切な方法であるかどうかはまだ 結論を出せない。しかし、変数(項目)の操作などによって生活行動からライフスタイルを摘出 し、表現するのに最も有効な分析方法かもしれないのである。今後、行う M D S分析では方法論 的検討と共に、生活行動に関する次元の構成をもっともっとはっきりした後、もう一度 MDS分析 を行う必要があると思われる。 <参考文献> 1) RogerN .Shepard, " ATaxonomyofSomePrincipalTypes ofDataandofMultidimensional N e w York:Seminar press,1 9 7 2 ), p p .2 1 ‑ 2 4 . Methods for Their Analysis",( 2) Lehmann、Donald r .( 19 8 9 ), Marketing Research and Analysis,3rd E D .,Boston, M A :I r w i n . .B ."The scree test for t h e numberoffact u r s " .J o u r n a lo fM u l t i v a r i a l eB e h a v i o r 3) CaLe1 1,R R e s e a r c h . . " T h e r o r yandMethodo fS c a l i n g ぺ(Wiley,NewYork.1958). 4) Torgerson,W.S ‑284‑
日本 S A Sユーザー会 (SUG I‑J) 受療推薦度への影響要因の解析 0田 久 浩 志 、 小 野 龍 太 、 島 村 政 典 、 吉 岡 恵 美 子 太田ルシヤ、定本清美、鈴木荘太郎 東邦大学医学部病院管理学研究室 Affectfactortothe recommendation rate of visiting hospital Takyu Hiroshii,Ono Ryuta,Simamura Masanori YoshiokaEmiko,Ota Rushiya,Suzuki Sotaro .01 Hospital Administration,School 01 Med., TOHO University, Dept 要旨 著者達は病院で患者の受けるサービスの評価を重視度、満足度、受療推薦度で行 なうことの有効性について SUGI.94, 95, 96で報告した。今回、患者より見た病院サー ピスを定量的に評価するために、受療推薦度と満足度の関係を数量化I I類を用いて検 討し、満足度の改善が受療推薦度に与える影響を検討した。その結果、待ち時間の 改善が受療推薦度を大きく改善することが判明した。 キーワード: 満足度、重視度、受療推薦度、 PC 版 SASシステム、数量化 I類 1.はじめに 著者達は、外来患者が受ける医療サーピスの評価を行う場合、個別のサービスに 対する事前期待である重視度、患者が口こみで第 3者にこの病院の受療を推薦する か否かという受療推薦度、および、従来よりのサーピスに対する患者の満足度の 3 種類のサービス評価指標を用い、外来患者サーピスの問題点の抽出を試みその結果 について報告してきた H)。昨年度は、数量化I I 類を用いて、アイテムレンジと病院 の種類の関係ついて検討をした 5)。本年度は、対象とするサーピス項目に改善を加 えた場合、受療推薦度がどのように変化するについて検討した。 ‑285‑
2 .対 象 調査は、東京都にある大学附属病院である O病院を対象とした。年齢の区分は 3 5 ‑ 6 4歳の若中年の再来患者である。解析対象者は 319名である。 3 .方 法 用いた調査票の内容と各種のサーピス評価指標の求め方は前回の報告に準じ 3)、 患者サーピスの項目に対する満足度、重視度、受療推薦度、病院に対する意見の記 述等の質問項目よりの構成とし、患者の受診の流れにそった質問内容とした。 3 . 1患者属性 患者属性の調査項目は、年令、性別、郵便番号、住所、通院期間、来院時間、離 院時間、病院までの所要時間等からなる。 3 . 2満 足 度 満足度は、患者の快適性や利便性に配慮したサーピス 6)を対象とした。満足度の 測定は、表 1に示す各質問に対し、 「とても満足 ( 5点) Jから「とても不満足 ( 1 点) Jの 5 段階尺度で記入するようにした。 3.3受 療 推 薦 度 受療推薦度は、患者の本院に対する総合的な評価指標として用いた。これは、患 者自身が友人知人に本病院の受療を薦めるか否かという具体的行動を、受療を「必 ず薦める ( 5点) Jから「絶対に薦めない ( 1点) Jの 5 段階尺度で測定した。 3.4数 量 化 1類での分析のための準備 対象とする対人患者サーピスの項目としては i A : 受付の職員の応対」、 婦の応対」、 i D : 医師の説明」、 i G :診察までの待ち時間の長さ」、 i B : 看護 i N :建物の雰 囲気と快適性」の 5点の満足度を対象とした。外的基準として受療推薦度を用い、 「必ず薦める」と「薦める」の肯定群と、 「どちらでもない」から「絶対薦めない J までの否定群の 2種類に分類した。 数量化I I類は、 SASサンプルプログラム 7)と、有馬の報告 8)を用いた。解析は . p c ‑ ‑286一
SASVer6.04を用い、 I 田 B恥 MP コS /55∞ 口o t 伐eN2 幻3 s 臼Xで フプ。ルフプ。ログラムが生成するデ一夕セツトを利用し、質問に対する評価が変更した場 合の、受療推薦度の分布の変化を検討した O 4 .結 果 全科を対象とした場合、判別的中率は 76.3%であった c 受療推薦度の回答の 分布と、数量化 I類を利用した受療推薦度の推定値との関係を表 lに示す。 次に、各サーピス項目に対して改善運動を行ない、その評価結果が「とても 満足」の状態を除きすべて一段階上昇したと仮定した場合の、受療推薦度の推 定値を求た(表 2 ‑ 6 ) 。これより、診療待ち時間の改善を行なうと、回答も推定 値も肯定の群が増加して効果があり、受付職員の改善が一番効果が少ないと考 えられた。 表 l 原データ 表 2 診療待ち時間 回答 回答 否定 肯定 推定値 否定肯定計 39 6 6 1 0 5 1 4 200 214 266 319 53 否定 円疋 . . . . . 4J=.r 百 干 推定値 否定肯定計 1 9 8 6 1 0 5 209 2 1 4 5 2 4 295 319 表 3 看護婦の応対 表 4 医師の説明 回答 回答 否定 円刃 ム 三 4J=.r ~ 干 百 推定値 否定肯定計 2 4 8 1 1 0 5 1 4 8 206 2 287 319 32 推定値 否定肯定計 否定 2 6 79 1 0 5 ‑ ' ‑ ' = ‑ r ‑ 4 1 4 円疋 6 208 2 干 日 32 2 8 7 319 表 5 建物雰囲気と快適性 表 6 受付職員の応対 回答 回答 否定 円刃 ム 三 41 = .r ~ 十 百 推定値 否定肯定計 2 5 80 1 0 5 207 214 7 287 319 3 2 推定値 否定肯定計 否定 32 0 5 73 1 肯定 1 0 2 0 4 2 1 4 42 2 7 7 319 日T ‑287‑
5 .考察 近年医療施設に対して評価を行なう気運が高まり、いくつかの報告カ宝行なわれて いる 9.1九また実際に、インフォームドコンセントの充実、つまり医師の説明の充 実を、戦略的な患者増加手段としてとらえ積極的に実施する試みもある 1ぺしかし、 それらの報告が主に定性的な分析に基づくのに対して、今回の報告は数量化I I 類を 用いた定量的な解析で、総合的な評価指標である受療推薦度の改善程度を予測する 点が異なっている。 今回の解析結果からは「診療待ち時間」の改善が一番受療推薦度を改善するとい う指標が得られた。 I 診療待ち時間」については、満足度重視度分布図 2.4)の中で同 程度の重視度の質問項目の満足度に比較して極端に低い位置にあり、最初に改善す I類による解析よりその推定が理論的 べき対象と推定されていたが、今回の数量化 I に裏付けられた。 しかし、これらの推定結果を、日常の診療活動に応用するには各医療施設の性格 を充分に考慮する必要がある。現実には、診療待ち時間の改善は、全病院的な取り 組みが必要となる。そのため、建物の改良つまりアメニティの改善で同程度の改善 を試みる選択もありうる。したがって、今回の数量化 I I類による解析は、あくまで 受療推薦の改善程度の指標と受け止めるべきであろう。 表1 ‑ 6の結果から、患者の解答は受療推薦を否定しているが、満足度の解答は肯 定する場合が多く見られた。これは、満足度の得点が高く、当然受療を推薦すると 推定できるのに、現実には受療を否定する一種の過大推定群である。この偏りの生 じる原因を検討するため、患者属性についてこの過大推定群とそれ以外とを比較し たが、特に偏りは見られなかった。 患者属性以外で、偏りが生じる原因はいくつか考えられる。アンケートに回答を したこと自体が、バイアスになることも想定できる。つまり、希にアンケート調査 を行なうと、患者が病院に対して言いたい内容があるため、満足度は充分にあるが 受療推薦度として「どちらでもない」を選択することも考えられる。 今回の調査で、長期の通院期間は、 3月以上をまとめて一つの群にした。しかし、 別の調査から、全外来患者の 1/4近くが月に一回の診療のみを受けていることが判 明した。これは薬剤の 28日投与を受ける、慢性疾患の患者が多いことを意味して いる。そのため、外来部門でのサーピスには度満足していても、長い通院期間を振 り返った場合、受療推薦度として「どちらでもない」を選択することも考えられる。 従って、今後、受療推薦度の「どちらでもない」の項目は削除して調査をすること が望ましいと言えよう。 ‑288‑
今後は、単なる満足度を用いるのでなく、満足度評価の背後に潜む要因も考慮、し て受療推薦の向上を検討する必要があると言えよう。 6 .結 語 大学附属病院である O病院を対象に、外来患者サーピスの満足度と受療推薦度の 関係を数量化I I類を用いて解析した。その結果、若中年層の外来の再来患者を対象 とした場合、待ち時間の改善が、受療推薦度の改善に一番影響を与えると考えられ た。本解析を行うにあたり、アルフアジャパンの福沢良美様に御協力をいただきま した。ここに感謝の意を表します。 参考文献 1 )田久浩志:患者よりみた病院サーピス評価の有効性について、第 13回日本 SAS ユーザー会総会および研究発表会論文集、 483‑492. 1994 2 )田久浩志:満足度と重視度による外来患者サーピスの評価、病院管理、 31 (3 ), 1 5 ‑ 24, 1994 3 )田久浩志:患者より見た病院サーピス評価の曜日間変動、第 14回日本 SASユー ザー会総会および研究発表会論文集、 279‑289, 1995 4 )田久浩志:満足度と重視度による外来患者サーピスの評価(第二報) サービス 評価指標の測定日間変動について、病院管理、 3 4 ( 1 ,5 ) ‑ 1 2, 1997 5 )田久浩志:数量化I I類を用いた患者から見た病院サーピスの定量評価、第 15回日 本 SASユーザー会総会および研究発表会論文集、 3540, 1996 6 ) 厚生省健康政策局総務課編:患者サーピスガイドライン、金原出版株式会社、 1989 7 ) (株) SASインスティチュートジャパン、数量化I.I I類サンプルプログラム、 T e c h n i c a lReport : J ‑109, SAS出版局.1991 8 ) 有馬昌弘:数量化I I類サンプルプログラムの改良とその適用、第 14回日本 SAS ユーザー会総会および研究発表会論文集、 403. 404, 1995 9 ) 池上直巳、河北博文:患者の満足度と病院の管理姿勢、日本病院会雑誌、 1987̲7、13‑19,1987 1 0 )長谷川万希子、杉田聡:患者満足度による医療の評価 大学病院外来における 調査から、病院管理、 1993.7、31‑40, 1993 1 1 ) 三宅浩之:患者アンケートによる客観的病院評価の試みの報告、日本病院会雑 言 1 ; . 1988̲6、52‑61、 1988 1 2 ) 菊池令子:入院中の看護の満足感と看護婦への期待、日本看護協会調査研究報 告 、 29,8 ‑ 4 7,1989 1 3 )島津 望:患者満足規定因の構造分析、病院管理, 3 0 ( 1 ),88,1993 1 4 ) パトリシア. S .シモンズ:米国の医療における医師と患者、日経メデイカル、 2 6 ( 7 ), 136‑138,1997 ・ ‑289
日本 S A Sユーザー会 (SUG I‑J) POSデータの解析と需要予測 0陳 暁 壁 上村 賢治・ 東京大学 POSDataAnalyzingand Demand Forecasting x .Y.CHEN and Kenji UEMURA し品.8iometrics,D i v .A g r i c u l t u r eandL i f eScience,TheU n i v e r s i t yofTokyo. 要旨 生産一流通一販売を含めた「トータルロジステイタス」の最適化をはかるため、需要 動向を迅速、的確に把握することが重要である。そのため、 POS 情報の利用が注目さ れている。ここでは、マーケティングデータをシステマテイクに解析することを目的とし、 POSデータの解析法及び POSデータを取り入れた需要予測方法について述べる。 キーワード: SAS/STA丁 、 POSデータ解析、需要予測、 SAS/ETS 1.はじめに 消費ニーズ、の多様化によって、多品種少量生産に対応するため、原材料の調達から、 生産、流通、販売までを連動させ、効率的に生産性をあげていくことが必要になっている。 故に、需要動向を迅速、しかも的確に把握することが求められている。需要予測を行うこ とによって、各部門のための新鮮かつ必要な情報を提供することができ、過剰在庫、欠 品などを未然に防ぎ、「トータルロジステイクス」の最適化がはかれるのである。これはニュ ー・ロジステイクスのコンセプトで、もある C 一方、企業内売上げ管理、財務管理などの業務を支えるシステムがほぼ完成され、 日々データを蓄えている。大量のデータから、し、かにして必要な情報を取りだし、各部門 日本大学生物資源学部 守h'A n同d nd
に提供するかがポイントになっている。また、 P OS の普及により、 POS デー夕、スキャンパ ネルデータをはじめ、質の良いマーケティングデータがリアルタイムに収集できるようにな ったの これまで、、個々のデータに関する解析法について、多くの研究がなされてきて、数多く の論文、著書 ( [ 3 J[ 4 J[ 5 J[ 6 J[ 7 J等)が公表されている。しかし、商品の需要動向を的確 に把握するため、収集した様々なマーケティング データを一元的にとらえ、システマテイク 的に分析することがもっとも重要な課題になっている。 本研究は、数理統計解析の理論を応用し、販売実績デー夕、 POS データを一体的に 分析することを目的とした。今回の報告では、まず P OS データ「情報化」のプロセス及び 方法を提案する。この方法はほかのマーケティング、データの解析にも応用できる。次に、 ある商品の日々の需要量を予測するため、 P OS データを取り入れた需要予測方法につ いて述べる。 解析には飲料水販売実績データセットを用いた。商品データは 1 9 9 5 年 9月 1日 1996年 9月 30 日までの日次デ タである。需要変動に影響を与えるファクタとして、気 象要素である日次平均気温を取り入れた。 2 .POSデータの解析 POSデータとは、販売時点( P o i n tOfS a l e)データの略で、個々の販売が行われた時 点で、レジから直接ホストへ「なにがいつどれくらい売れたか」記録される [ 2 Jデータである。 一般的に小売庖の品ぞろえ、棚割り、インハウスプロモーションなどのマーチャンダ、イジン グ、コントロールに有効な情報を提供するもので、ある O メーカの立場から見ても、 POS デー タがリアルタイムに精細な情報を提供することで、値引き、山積み、キャンベ ンなどのプ ロモーション効果の測定、新製品の立ち上がり時期の追跡調査などにかなり有効なもの として利用できる。しかし、 P OS データのコストがかなり高いことから、データに含まれる情 報を十分引き出すことが重要な課題になっている。 2 . 1 POSデータの r3ステップ解析』 ここでは、 3つのステップによって、 POS データ解析を行うことを提案する。 i 3ステップ解 析」と名付ける。 第一ステップ。を「データビュー」とよび、ナマのデータをグ、ラフで、みるとしづ意味である。た OSデータを縦軸にした時系列データグラフな とえば時間軸を横軸、いくつかの商品の P どを作成し、観察することである。年次別、月別、曜日別のグ、ラフもそれぞれ異なった角 度から情報を伝えてくれるものである。原データをよく読まずに機械的に統計分析を行う と、誤った結論につながる危険がある。故に、縦軸、横軸を工夫して作成したグラフが情 報を得るのに有効である。 ‑ 2 9 2 ‑
ユ タ ピ 4T データ変動特性 周期性 カオス性 ファクタとの因果関係 相関分析 分散分析 多変量解析 図 1P O Sデータの 1 3ステップ解析」 POS データを時系列として解析する部分を「データ変動特性」分析としヴ。解析の理論 と実際について、文献 [ 6 Jが詳細である。時系列変動変動の周期性が存在しているかどう か、もし存在すれば、周期期間はどのくらいであるかを検証するため、周波数領域の解析 法が用いられる。具体的には、スベクトルの推定値で、あるピリオドグ、ラムを計算し、ピーク 値、ピーク値の対応する期間を検討することによって行うのである c 短期予測を目的とし た解析の場合、時系列データのカオス性、すなわち非線形ダイナミカル特性を分析する ことで、カオス理論を応用した予測ができるかどうかが検証できる [ 4 J。 第 3のステップは POS販売実績に影響を与えるファクタとの因果関係を分析するもので、 ある c 目的によって分析方法を選ぶ必要がある。もっとも単純なのは相関分析別である c その他に、競合関係分析などがある。プロモーション効果を評価するには、分散分析法 [ 5 Jが有効である。 1 3ステップ解析」は、段階的に分析を行い、必要な情報を引き出すのである。この方 法は、様々なカテゴリによってまとめた実績データなどの分析にも適用できる e 2 .2 解析結果 2 .1でのべた 1 3ステップ解析」方法を用いて、実際のデータを解析した。図 2はデー タの周期性を分析した結果を示す。計算には、 SAS/ETS の SPT[lOJプロシジャを用い た。横軸が期間、縦軸がピリオドグラムの値を表す。商品のもっとも短いサイクルとして、 7 日間、すなわち一週間周期の存在がわかった ο 図 3では、 5つのマーケティング、セグ、メント における POSデータから推定した売り上げと気温との相関係数を示す。総合計はすべて のマーケティング、セグ、メントを含めた販売実績の合計値である、エリア合計はあるエリアに おける販売合計である。環境 1,• • .5は POS データのカテゴリを意味する。計算には CORR プロシジャ [ 9 Jを使用した。図 3から、商品別、環境別の売れ行きに与える気温の qd Qd nL
影響が異なっていることがわかった。特に、 A飲料水の場合、 HOT/COLDの2種類があ り、出荷の段階で、区別されておらず、販売実績の総合計、エリア合計とも、気温との相聞 が認められなかった しかし、環境別 POSデータから、 HOTと気温とは負の相関、 COLD O と気温とは正の相関関係で、あることがわかった 日E+07 O 2. E + { ) 7 飲料A‑l・環境 1 5.E+07 飲料 s .環境 1 2 . E + 0 7 4.E+07 l . E+07 3.E+07 2.E+07 5正+06 ト 1.E+07 ~岨凶A晶.&. O.E+OO 46 19 O.E+OO . . . 幽 晶 画 面 46 12 図 2 .解析ステップ2の例 19 12 周期性分析。横軸が期間、縦軸がピリオドグラム値を示す。 飲 料 A̲ 1 飲 料 A̲2 総合計 エリア合計 環場5 理場4 日刊誌;総言語?総合主主義務 ~'1蹄h6悶 環 境3 環 場 3 原吉宗羽務事亨宝窓玄調書己主主豆京支部言明 環境2 壇場 1 0.00 0.20 0.40 0.60 0.80 ー0 .80 ‑0.60 ‑0. 40 ‑0.20 0.00 飲料 B 総合計 エリア合併 図 3 カテゴリ別販売実績と気温 環境 5 との相関。横軸が相関係数を、 縦軸がカテゴリ名を示す。 環境 4 瑚境 3 環境 2 環 境 1 ~岩波謀総主主主主主義縦貫~~誤認吉川 0 . 0 0 020 0 . 4 0 0 . 6 0 0 . 8 0 ‑294
故に、いくつかの角度から商品を分析することで、需要特性がより明確になり、より消費 ニーズにあった商品、よりよいサービスの提供につながることが重要で、ある。 3 .POSデータを取り入れた需要予測 需要予測とは、ある商品(製品、サービス)全体の需要構造を計量的に分析し、将来 の需要の動向や、環境要因の変化による需要の変動を予測することである [ 1 ]。また、需 要予測の結果が、数値的な裏付けをもって、企業内各部門、たとえば、販売、流通、生 産などの計画立案に使われる。大量デ、ータの蓄積によって、目的別の需要予測が可能 になった o POS データが需要動向をリアルタイムに反映されていることから、より精度の高 い需要予測を行うには、利用したしものである。ここでは、 POSデータを取り入れた予測 法について検討するコ 3 . 1 理論的モデル 商品の需要に影響を与える要因を取り入れ、需要予測モデ ルを構築するため、重回帰 分析の方法を用いた。需要合計を従属変数と定義し、 POSデー夕、気象要素、季節要因、 その他の周期要因を独立変数とする。したがって、 POSデータを取り入れた予測モデル の一般化式は次式のようになる。 x = y十 φ/Q 十 I m十 I w ① 但し、この式の中に、変数は次に示す意味を持っている。 X : ある基準でまとめた需要合計ベクトルである。 。 : Y : ある環境における POSデータのベクトル(ここでは 5環境) (ω1,ω2, … ωn 、 ) n個の気象要素の観測値ベクトル o/: (φ1,φ2, … φn 、 ) n個の気象要素の係数 . Em : 季節要因変数の集合 . Ew : その他の要因変数の集合 すなわち、需要予測のモデ、ル式に、 POS データを変数として取入れ、 Stepwise方 法 で変数選択を行う。 POS変数が選ばれた場合、 POSデータが全体の需要予測に寄与し ているとし、うことを意味し、実際の予測に用いることになる。 重回帰分析の方法を用いて、式①に示す予測モデ、/レを作成した さらに、この式によ O って、 POSデー夕、需要合計データのようなマーケティング、データを一体化させ、需要動 向をより迅速に把握できることを示した。 ‑ 2 9 5
3 . 2 予測の実際 3 . 1で、述べた理論的モテ、/レを用いて、飲料水の需要予測を行った。任意のエリア需要 を従属変数とし、 5環境の POSデー夕、気象要素、季節要因、その他の周期要因を独立 変数として取り入れた。予測モデルを構築するため、過去一年間のデータを用いた。作 成した式を用いて、一ヶ月先日別の売れ行きを予測した。計算には、 SAS/STAT のプロシ ジャによって行われた。 図4では、実績値と POS を考慮しない場合と取り入れた場合の予測値をプロットしたも のである。 表 1では、 POS データを考慮しない場合と取り入れた場合推定した結果である。飲料水 A、Bの場合、環境 5の POSデータがエリア需要に寄与し、飲料水 Cの場合、環境 1の POS が寄与してことがわかった。また、 POSを考慮しない場合と比較して、取り入れた場合の決 定係数値が約 O .5%増加した。 3商品がともに定番商品であるため、 POS を取り入れる場 合のと考慮しない場合の決定係数の差が小さい原因の 1っと思われる。新製品立ち上げ の際には、この方法がより有効的であると考えられる。 4 .終わりに POSデータを解析するため、 i 3ステップ解析」法を提案した。この方法はその他のマー ケテイングデータの解析にも適用できるであろう。また、 POS データを取り入れた需要予 測を行うため、重回帰分析の方法を応用して、理論的モデルによる分析を行った。式① によって、 POSデー夕、需要合計データを一元的にとらえ、マーケティングデータをシステ マテイク的に分析でき、需要動向をより的確に把握できることを示した。それぞれの分析 において、実際データによる検証例を示した。 本報告では、 POSデータの解析法注目し、検討してきた。マーケティング、の代表性か らみると、 POS が欠けていることから、現状を反映できる POS ロケーションの選定が重要 と思われる。 謝辞 本研究を進めるにあたって、近畿コカ・コーラボトリング株式会社、株式会社基礎技術 研究所のご協力を頂いた。ここで関係者に感謝の意を表する。 ‑ 2 9 6一
表 1 需要予測の比較 ー ω f v 一ikLX hm 2 一以内 U 引x ぷ ド 一 ?リ川村町 xpHX 町一目¥国¥田町田‑ h 田¥申曲目‑ ﹄ N¥ 助副¥由¥由曲目‑ 円削¥由¥由自由‑ FN¥由 ¥ 由 自 由 ‑ 国F¥由¥由自由↑ 亡¥由¥由自由↑ 田↑¥由¥由自由戸 円戸¥由¥由自由 F ‑F¥田¥由自由↑ 田¥由¥由自由↑ F ト¥由¥由市山田戸 田¥由¥由自由 円¥由¥由自由 F F¥田 ¥ 由 自 由 ‑ mN¥由 ¥ 由 自 由 F E 円¥由¥由自由‑ 凶剖¥由¥由自由‑ 司副¥町¥田町田‑ FN¥田 ¥ 田 町 田 ‑ mF¥由 ¥ 田 町 田 F トF¥由 ¥ 由 自 由 戸 F XJMMFX 十 MU 一 :::lF十\jf!\jl~J 司︑ V A ‑ L日 ﹂ vA1 込 〆 ' 一 F o r e c a s t i n g 由同¥由¥由自由‑ 凶剖¥由¥由自由 F hN¥由 ¥ 由 自 由 ‑ 司副¥由¥由自由‑ FN¥由¥申品目白 F m‑¥由 ¥ 由 自 由 ‑ 由戸¥由¥由自由‑ hF¥由¥由自由 F 円↑¥由¥由自由 F FF¥由 ¥ 由 自 由 ‑ F 由¥由¥由自由 F 件︑︑由¥由自由 国¥由¥由自由‑ ↑¥由¥田町田↑ 円¥由¥由自由 F 民一¥由¥由自由 F 由副¥由¥由自由↑ 叫ん円¥由¥由自由戸 円削¥由¥由自由‑ ‑N¥由 ¥ 由 自 由 ‑ 四戸¥由¥由自由 F 凶戸¥由¥申町田 F hF¥由 ¥ 由 自 由F 門 戸 ¥ 田 ¥ 申mmF 由¥由¥由自由 F F‑¥由¥由自由↑ F 件︑¥由¥由自由‑ 由¥由¥由自由 円¥由¥由自由‑ F¥由 ¥ 由 自 由 ‑ 297‑ ‑Obs. 阿武i o n F o r e c a s t i ng ‑POS 2 5 0 … 2 5 0 Jmlh M M 必 x F 凶↑¥由¥由自由↑ 門戸¥由¥由自由 ‑‑¥由¥由町田‑ m¥田 ¥ 由 自 由 ‑ h¥田 ¥ 由 自 由 ‑ 由¥田¥申町田↑ 戸¥由¥由自由 円¥由¥由自由戸 の日次データから、一ヶ月先の予測値を計算したものである。 ・ ‑ ‑x‑ 飲料水日 3 0 0 1 ‑ : = x‑ l m 飲料水B 3 0 0 qxuhx 一 門 ! 飲料水A 4 0 0 3 5 0 3 0 0 2 5 0 2 0 0 1 5 0 1 0 0 5 0 1 . 2 6 3 7 6 . 2 2 3 5 環境2 環境3 環 境4 環境5 0 . 9 4 7 6 6 . 1 5 0 8 5 5 0 . 9 4 4 6 0 . 9 5 3 0 . 9 5 2 5 0 . 9 4 5 9 0 . 9 4 0 4 決定係数 環 境1 POS POS POS 飲料水C 飲料水B 飲 料y ・ I < A その他のパラメータ 図 4 実データによる予測の結果。縦軸が売上げ予測値、横軸が日付を示す。一年間
参考文献 [リ 1]大西正和 ( μ 1 鮒 98幻 2)需要予測とコンヒユ一夕フログラム C 日刊工業新聞社} [幻 2]片平秀喜 ( μ 1 9 ω 9, 1 ) マ一ケテイング.サイエンス c 東 京 大 学 出 版 会 ζ [幻 3]坂本慶行、石黒真木夫、北川川│源源、四郎(什1 9 ω 9 1 υ ) ↑情青報量統計学一共立出版 d [4 J 陳 暁 堂 、 上 村 賢 治 ( 1996) 野 菜 市 場 情 報 の 非 線 形 ダ イ ナ ミ カ ル 特 性 に 関 す る 解 析 η1996年 度 農 業 経 済 学 会 論 文 集 戸 [5 J 広 津 千 尋 ( 1992) 実験データの解析・分散分析を超えて υ 共立出版。 [6 JF 3rockwell P . J .anc JD avis f~. 八. ( 1991)Timo S e r i e s : Thooryanc J: v 1olhoc Js, Sucond E d i l i o n .Springor‑Verlag,NewYork. [7J] ) r a p e r\.I~. andSmilhfl .( 1 9 H 2 )AppliudI~egr巳 ssion AnalysisSecondE d i l i o n .John Wiley& Son , 日I n c . ,¥ewYork. r y .¥ 1ACV 1ILL八¥ PじBL fS卜II¥C Co.,LLd., [8 J Lindgron s.W.( 1976) S l a l i s l i c a l Thじo ¥ewYork. e r ' sCuideVcrsion6F i r s lEc Ji l i o n . [9 JSASI n s l i t u t eI n c .( 1995)SAS/ST八γ じs n s l i t u t cl nじ. ( 1995)SAS/ETSL s e r ' sGuidcVersion6F i r s lEc Ji t i o n . [ I O JSAお I E‑ma 日a d d r e s s :[email protected] o k y o . a c . j p ・ ‑298
日本 S A Sユーザー会 (SUG I‑J) 概念ハイアラーキの自動抽出 代表取締役社長 株式会社 中林三平 金融エンジニアリング・グループ A u t o m a t i cD e r i v a t i o no fC o n c e p tH i e r a r c h yt h r o u g hD i s j u n c t i o nR e l a t i o n SampeiN a k a b a y a s h i P r e s i d e n t n c . F i n a n c i a lE n g i n e e r i n gGroup,I 要旨 多様なデータマイニングの技術の中で、連想ルールの導出は比較的頻繁に利用されている。現 在の分析においては、分析対象変数を 1 AND関係」に着目して組み合わせていくことから有効 なルールを抽出するというアプローチが主体である。しかし、一方においては 10R関係」を分 析することにより有効なルールが発見できる場合もあるし、 10RJ から抽出されるルールには 属性をより高次の概念により束ねていく手がかりが隠れていることがある。本稿では、 10RJ が有効となる条件を明確にし、その解釈を行う。 キーワード: マーケテイング、データマイニング、アソシエーションルール 1 問題の定義 1)データマイニング技術の発展 大規模データからの知識発見(KnowledgeD i s c o v e r yi nD a t a b a s e s ) というアプローチが注目 されるようになって数年になる。この分野での国際カンファレンスである IKDDJ も本年で 3回目を迎えた。 K D Dもしくは、そのアプローチの中での具体的な技法であるデータマイニ ングも実際の現場での応用がようやく開始され、分析の有効な事例も見ることができるように なってきた。 現実的な側面から見ると、現時点で広く利用されている手法は「決定木の自動生成」を基礎 としたデータのクラシファイアと、 「連想ルールの自動抽出」が主要なものである。これらの 手法は、比較的早期から安定したアルゴリズムが提唱されてきたことと、マーケテイングの領 域などに大きな応用分野があることから、商用のソフトウェアなども販売される状況となって いる。 データマイニングにおいては、特定の行動・事象を観測されたデータから説明するときに、 説明変数となるデータ項目間に非常に大きな相互作用があることが暗黙の前提となる。つまり、 ‑299‑
変数聞の独立性が基本仮説となる既存の統計手法が効力を発揮しにくいような状況に対応す るための手法である。項目聞の相 E作用が大きいというのは珍しい現象ではない。社会現象に おいては日常的に観察されることであり、例えば OLAPツールが「様々な切り口からデータ を見る」機能を特徴として注目を浴びているのは、単にデータ処理の速さやグラフイカル・プ レゼンテーションの美しさによるものではなく、特定の切り口をうまく設定すれば、平均的な 動きとは全く異なった現象が発見できるからである。 2) 現実の応用面での問題 しかし、データと分析用のツールがあればデータマイニングを開始することができるのか、 有効な業務知識をすぐに発見できるのかというと、現状では残念ながらそうではないといわざ るをえない。 A s s o c i a t i o nR u l e s ) の抽出という手法を考えてみよう。これは、形式 例えば、連想ルール ( 的には次のように表現される「知識」である。 I f A T h e nB ここで Aは条件部、 Bは結論部と呼ばれ、特定の条件 Aが満たされれば、行動 Bが発生する という知識を表明していることになる。 I もし、年齢が 50歳以上で、かつ、年収が 1000 万円を超え、かつ、ゴルフを趣味としていれば、購入する車種は大型セダンである」というよ うな知識である。このような知識の有効性を評価するものとして、条件 Aがどの程度汎用的な ものであるのか( I サポート」と呼ばれる)という点と、そのルールがどの程度信頼できるも のであるのか( I 信頼度」と呼ばれる)という点とからの 2つの尺度が利用される。いくつか の若干異なった定義があるが、ここでは次のように定義しておく。 サポート =IAI/IUI :Aに該当する集団が全体母集団に占める割合 信頼度 =IA and BI/IAI :A集団の中で行動 Bをとる集団の割合 一定範囲のサポートを持ち、かつ、一定以上の信頼度を持つ全てのルールの抽出を行うこと は可能で、あり、高速アルゴリズムも実現されている。しかし、実際にそのアルゴリズムを適用 してみると、通常は極めて大量のルールが発見され、分析者は玉石混交のルール群の中から面 白いもの、適切そうなものを見つけていくという極めて恋意的な作業を行わざるをえないこと になる。 3) 問題の本質 なぜこのようなルールの山に押しつぶされるような事象が起きるかというと、端的に言うと 説明変数(の候補)を絞り込むことができないからである。前記の「大型セダンを買う」とい うルールを事例に取ると、条件部には年齢・年収・趣味という 3つの属性が関与しているが、 かりにこれが「ライフスタイル」という一つの概念変数により表現されているとすれば、非常 にすっきりとしたルールとなることは間違いがない。しかし、このような概念変数を構成する こと自体が非常に困難な問題であることも事実である。 さらに、より大きな問題がその後ろに隠れている。前記の事例の条件部をみると、各属性の o 吋u n c t i o n関係のみにより表現されている。これは、データの 組み合わせは「かっ j という C ‑ 3 0 0一
中に隠れている知識を抽出するために、充分な論理関係を扱っているのであろうか。少し極端 な事例を考えてみる。 国債を保有する顧客はリスク性金融商品を購入する 株式を保有する顧客はリスク性金融商品を購入する このような 2つのルールがあり、それぞれ適度なサポートと信頼度を持っていたとする。こ の 2つのルールを適切に組み合わせることにより、さらに有効なルールを発見することは可能 であろうか。 C o n j u n c t i o n (AN D条件)のみを前提とすると、 「国債と株式の双方を保有する 顧客」というのが新しいルールの条件部となる。しかし、この条件のサポートは大幅に低下す るであろうし、同時に信頼度が上昇するかどうかは実際のデータを参照しないと判明しなし、 i s j u n c t i o n (0R条件)を考えてみるとどうであろうか。 それでは D I 国債もしくは株式を保有 する顧客」という条件であればサポートが低下することはありえない。また、このような条件 部の設定により、データの構造が適切な条件を満たしていれば、信頼度が上昇する場合がある。 n c t i o nの導入は、意味的な解釈としては「国債もしくは株式」という変数、 ここで、行った D町 u すなわち「有価証券」とでも呼べるような新しい概念を導入したことに等しい。このような D i s j u n c t i o nを通じての階層的な意味構造は「概念ハイアラーキ」と呼ばれる。適切な概念ハイ 吋u n c t i o nのみでは アラーキを発見することにより、分析の効率は大幅に向上するとともに、 Co 発見できない新しい、より精度の高い結果が発見できる可能性もある。 本稿が目的とするのは、概念ハイアラーキの自動抽出に向けての新しいアルゴリズムの提唱 である。この分野での既存研究については、参考文献を参照されたい。 2 基本的なアルゴリズム 概念ハイアラーキに関連する研究の中には、外的に与えられるコンテクストにより、人聞が 予めハイアラーキを設定することを前提としているものもある。ここで述べるのは、前提とな る知識がない場合のものである。 1)基本的な記号の定義 まず、いくつかの記号を定義する。 母集団のサイズ: N (U) ターゲット属性 :A、 A ( T ) とA ( F ) というカテゴリをもっ 記述属性 :Xおよび Y、 X ( B ) および X ( W )、Y ( R ) および Y ( p ) というカ テゴリをもっ 属性 Xの Aに関する分布: A ( T ) T o t a I X ( B ) N ( X b t ) 町 A ( N ( X b η X(W) N ( X w t ) N(Xwf ) N(W) T o t a I N ( T ) N (F) N ( U ) N ( B ) 4E4 η nU ︒
属性 Yの Aに関する分布: A(T) A(F ) T o t a l Y(R) N ( Y r t ) の N(Yr N(R) Y ( P ) N ( Y p t ) f ) N(Yr N(P) T o t a l N(T) N ( F ) N(U) X(B) X(W) T o t a l Y(R) N ( r b ) N ( r w ) N(R) Y ( P ) N ( p b ) N(pw) N(P) T o t a l N(B) N(W) N(U) 属性 X と Y の同時分布・ A =A ( T ) というサンプルに関する X とYの同時分布・ X(B) X(W) T o t a l Y(R) N ( r b t ) 同 t ) N( ロ) N(Y Y ( P ) N ( p b t ) N ( p w η N ( Y p t ) T o t a l N ( X b t ) N(Xwt) N(T) 2)Conjunctionによるルール ここで、 i x (B) という属性を持つ顧客は A (T) というアクションをとる」というルー ルがあったとする。(If X(B) t h e n A(T) という表現になる)。このルールの評価指標は 上記の記号を利用すると次のように表わされる。 サポート (Xb、 A t) = N (B) / N (U) 信頼度 (Xb、 A t) =N (Xb t ) / N (B) iY (R) という属性を持つ顧客は A (T) というアクションをとる」というルールについ ても同様の記号表現がなされる。 次に、この 2つのルールが C o n j u n c t i o nで結合された場合を考える。 j レールIf X(B) 内 Y(R) 百 l e n A(T) サポート = N (rb) / N ( U ) 信頼度 =N(rb t)/N(rb) n c t i o nによりサ N(rbt)<=min !N(Xbt) 、 N(Yrt)1 であるので、 Co吋u ポートが大きくなることはありえない。信頼度が個別のルールより高くなるかどうかは、ケー o n j u n c t i o nがより高い信頼度を持つ条件は、次のように簡単に表現でき スパイケースである。 C る。満足すべき条件は式(1)である。 ‑302
司自'ム ) ( N ( r b t ) 小J (rb)>max{N(Xbt) 介J ( B )、 N(Y口)小J ( R ) } 一般性を損なわずに Xに関するルールの方が信頼度が高い場合を想定可能であり、その想定 の も と に 式 (1)を展開すると次のようになる。 N(rbt)*N(B)>N(Xbt)*N(rb) (2) N(rbt)応J(Xbt)>N(rb)介~(B) ( 2)式の意味するところは単純で、ある。例えば、 X ( B ) という属性を国債保有者とし、 Y (R) という属性を株式保有者とし、 A (T) をリスク商品購入者とする。式(2)は、国 債と株式を両方保有する顧客のうちのリスク商品購入者の割合が、株式保有者のうちの国際保 tlOnにより生成されたルールの信頼度が高くなるという 有者の割合を上回っていれば、 Conj叩 c ことを示している。つまり、条件を複合されることにより、リスク商品購入者の比率が濃縮さ れれば信頼度が高くなるという当たり前の条件である。 3)Disjunctionによるルール t i o nによるルールを考えてみよう。 次に、 Diり叩 c j レールIf X(B) U Y(R) 百 l e n A(T) サ ポ ー ト = (N (U) ‑N (pw) ) / N (U) 信 頼 度 = (N(T)‑N (pwf ) )/ (N (U) ‑N(pw) この D i s j u n c t i o nルールは明らかに個別ルールと比較してサポートが小さくなることはない。 それでは、個別のルールのどちらよりも信頼度が高くなることはありうるだろうか。前と同様 i s j u n c t i o nル に一般性を失うことなく、 X に閲するルールの方が信頼度が高かったとしよう。 D ールが満足すべき条件は次のようになる。 (N( r b t ) + N(rwt)+N( p b t ) ) / ( N( r b)+N( r w)+N( p b ))>N( X b t ) 介J ( B ) X b t ) ‑ N ( r b t )) / ( N(R)+N( B) ‑ N ( r b ))>N( X b t ) 小J ( B ) (N(Y口)+N( N(B)*(N(Yr t ) + N( X b t ) ‑ N( r b t ) ) > N(Xb t ) * ( N(R)+N(B)‑N( r b ) ) ロ)‑N(B)*N(rbt)>N(R)*N(Xbt)‑N( r b)*N( X b t ) N(B)*N(Y N(B)*(N(Yr t ) ‑ N( r b t ))>N( X b t ) * ( N(R)‑N( r b ) (N(Yr t ) ‑ N ( r b t ) ) / ( N ( R ) ー N(rb))>N(Xbt) 小J ( B ) ( 3) 川( rw)>N(Xbt) 川( B ) N ( r w t ) 式 (3)の意味するところもかなり単純であり、 Conjunctionルールにより信頼度が低下する i s j u n c t i o nルールを導入することにより信頼度が上昇する可能性があることを示し 場合には、 D ている ( C o n j u n c t i o nルールにより信頼度が上昇する場合には、 Di引 n c tlOnルールにより信頼度 3 0 3
が上昇することはありえないということでもある)。 記号のみによる展開では若干わかりにくいかもしれないが、これは現実的には非常に大きな 意味を持っている。意味のある(信頼できる)ルールを探索するときに、通常のアルゴリズム l リ unction ルールのみを対象とする場合には、実際には物事の半分しか がサポートしている CO 見ていないことになるということである。 i s j u n c t i o nルールの持つ意味合いを考えてみる。 具体的な数値例をもとに、もう少し D 3 数値的な事例 前に示した国債保有・株式保有の例をもとに、実際の数値による計算を行ってみる。 国債保有有無とリスクに対する態度分布・ リスク O K リスク N O 合計 国債あり 60 40 100 国債なし 40 60 100 100 100 200 リスク O K リスク NO 合計 株式あり 60 40 100 株式なし 40 60 100 100 100 200 合計 株式保有者のリスクに対する態度分布・ 合計 国債と株式の同時保有に関する分布・ 合計 株式あり 株式なし 国債あり 60 40 100 国債なし 40 60 100 合計 100 100 200 リスク O Kとする顧客の国債・株式保有状況分布(ケース 1) 株式あり 株式なし 合計 国債あり 50 10 60 国債なし 10 30 40 合計 60 40 100 上記のケース lのような場合には次のようなルール評価が行われる。 「国債保有→リスク OKJ サ ポ ー ト =50%、信頼度=60% 「株式保有→リスク OKJ サ ポ ー ト =50%、信頼度=60% 「国債ハ株式→リスク OKJ :サポート =30%、信頼度 =83% 「国債 U株式→リスク OKJ サ ポ ー ト =70%、信頼度=50% 次に、分布が次のようなものであったとしてみよう。 3 0 4 ‑
リスク OKとする顧客の国債・株式保有状況分布(ケース 2) 株式あり 株式なし 国債あり 20 40 国債なし 40 正 口 〉 、 雪 J l ↓l 60 合計 。 40 60 40 100 この場合には、次のようなルール評価が行われる。 「国債保有→リスク OKJ サポートニ 50%、 信 頼 度 =60% oKJ サ ポ ー ト =50%、信頼度=60% 「株式保有→リスク 「国債ハ株式→リスク OKJ サポート =30%、信頼度 =33% 「国債 U株式→リスク OKJ サポート =67%、 信 頼 度 =71% この 2つのケースを意味的に解釈するとどのようになるであろうか。ケース lは、明らかに 国債と株式がリスク商品保有を促進する上で「補完的な関係」にあることを示していると解釈 できる。一方、ケース 2の方は逆に「代替的な関係」にあるといえる。つまり、双方の商品を 同時に保有するか全く保有しない顧客はリスク商品への反応は鈍く、どちらか片方のみを持っ ていることがリスク商品への反応につながるということである。 i s j u n c t i o nにより信頼度が上昇するような属性グループは、一つの群として(現 このような D 実的な分析のステップとしては、 O R条件により複合した新しい変数を導入することになる) 見た方が精度の高いルールを発見するためには効果的である。しかし、とりまとめられる属性 群が相互に類似しているかどうか(例えば、何らかの意味での内部相関が高いかどうか)とい う点については問題とはならない。つまり、クラスタリング等の手法を利用した際に、類似変 数であるとしてとりまとめられるかどうかは保証されない。 変数聞の単純な類似性を見るのではなく、特定のアクションを説明するための集約可能性、 つまり一つ高い階層での概念を示しているものとしてとらえるのが妥当であろう。そのような 意味で、 D i s j u n c t i o nルールの評価によりデータ分析のための新しい概念(および概念ハイアラ ーキ)を形成していくことが可能であろうし、このような潜在的な集約変数の存在をオミット しての分析は、思、わぬ落とし穴を抱えていることになる。 4 SASによるインプリメンテーリヨン 以上のような概念ハイアラーキを生成するプログラムは、繰り返し p r0 c freqを適 用していくことにより簡単に記述することが可能で、ある。しかし、探索のスペースはかなり広 い。したがって、計算時聞が長くなる可能性があるが、実際には ( 3)式から明らかなように、 o n j u n c t i o nルールの生成(これも p r0 c fre qを多用することにより 通常行われている C 行われる) [1寺に、有効で、はないルールに関してのみ、その裏を検証する形をとれば良い。つま り、ルール探索空間の枝刈りルール自体が明確になっているため、現実にハンドリング可能で ある。 u に qu n u
参考文献: Advancesi nKn owledgeD i s c o v e r ya n dD a t aMining",e d s .UsamaFayyade t . a l, AAAIP r e s s l T heMITP r e s s,1 9 9 7 論文集であり、最近のこの分野での研究成果を一望することができる。 ‑306‑
日本 SASユーザー会 (SUGI‑J) SASを使った経営戦略支援システム構築の試論 一不確実性に対応する意思決定過程一 朝倉俊明 株式会社 SASインスティチュートジャパン カスタマーサポート部テクニカノレサポートグループ Thes u p p o r ts y s t e mf o rmanagements t r a t e g yw i t hSASs y s t e m Th ed e c i s i o np r o c e s su n d e rt h eu n c e r t a i n t y一 T o s h i a k iA s a k u r a r oup CustomerS u p p o r tD e p a r t m e n tT e c h n i c a lS u p p o r tG n s t i t u t eJ a p a nL td . SASI 要旨 近年、規制緩和もあいまって各業界では既存の市場内での競争が激化してきている。このよう な状況の下、企業を取り巻く様々な不確実性に対応するために、企業はより戦略的な経営を選択 せざるを得なくなっている。情報化が急がれるのも顕著な例であろう。 このような状況を勘案し、より複雑な状況に対応可能な経営の意思決定に資する科学的かつ客 観的分析に立脚した意思決定支援システムの導入が今後望まれるところである。 OR等)のより積極的な利用により企業の意思決定の基礎データを提供するよ ここでは、 SAS(ETS, うなシステムの構築の可能性を試論として示す。具体的には不確実性への対応ツーノレとして近年 その有用性を再確認されているゲーム理論を援用しての意思決定過程を考える。 キーワード: ゲーム理論、交渉モデル、 LP、NLP、CORRESP しはじめに 本論文では、ゲーム理論を中心に SAS システムの SASIETS ソフトウェア、 SAS/OR ソフトウ ェア等を使って、企業の戦略的意思決定を支援するシステム構築の可能性を示す。最初に対外的 経営活動における戦略を、次に企業内意思決定に対し交渉モデルを取り入れて分析した例を示す。 s .経営活動における戦略 1 . 確率最適化基準に基づく最適計画 確率最適化基準に基づく計画では、実際の収益があらかじめ設定した満足水準以上になる確率 を最大化する最適解を求める。これは、経営学における経済主体の行動基準を決定する H. A. S im onの満足化原理と基本的には同一概念、である。 収益に対する満足水準を rとすれば、満足水準達成確率は次式となる。 p r o b [ rS (Xp X2, ろ ) ] 収益の予測誤差が正規分布に従うとすると、上式を最大化する xl .• x nは、次式の hを最大化する 307‑
h= ̲ ! ̲ か かl'X2'......Xn)] J か '......X 四 M l'X2 n) xl . .x nと同一になることが知られている。 hは一般に安全係数と呼ばれる指数であり、確率の大きさに対応している。収益の予測誤差が正 規分布に従う場合は、 hは標準正規分布の横軸に対応している。 A .Simonの満足水準達成確率最大化の定義より、以下の目的関数 hを最大化にする 例として、 H. h25.0x1+2 0 . 5 x 6. lx 9 . 2 x 00 3 +2 4‑2 2 +2 J ‑ va 市( X , xx 1 ] 2' 3'X4) ときの資源配分を考える。 資本制約: 1 0注 X1+x 4 2 +x 3 +x x 今﹄ A勾 J 内 4J nU 司 ︐ ム 司 ︐︐副司 nU + 今 x 守 4 司 + x i一 X IfE 4 ++ KU 3 ︑豆︑正︑ t I ﹃ ﹁ xhu γ ny.ζunu. ノ 司︐︐昌司︐︐昌司︐︐ M nununu ronaQ 労働制約: 非負条件: X .X, . X . . X . < ! :U 2 ' . . . . . . 3 ' . . . . . . 4‑ 'IJ SAS/ORソフトウェアの NLPプロシジャ出力の一部 O p t i m i z a t i o nR e s uI t s P a r ヨm e t e rE s t i m a t e s P a r a m e t e r E s t i m a t e G r a d i e n t A c t i v eBC XI 4 . 1 4 2 8 5 7 0 . 3 2 4 7 0 2 X2 0 . 8 2 3 6 2 1 0 . 1 9 6 3 8 3 X3 1 .832657 0 . 1 9 6 3 9 4 X4 3 . 2 0 0 8 6 5 0 . 1 9 6 4 0 UpperBC V a l u eo f O b j e c t i v eF u n c t i o n=0 . 7 7 0 5 2 7 0 9 4 8 2 . 期待効用最大化基準に基づく最適化 経済学では、不確実性下の経済主体の行動原理として、効用理論が知られている。期待効用理 論では、収益に関する効用関数をあらかじめ設定し、この効用関数の期待値を最大化する。 e u n d型を利用する。 効用関数は、限界効用逓減定理から、指数関数を利用した F 308‑
効用関数の'WI J 効用 0 . 9 0 . 8 O .7 0 . 6 0 . 5 0 . 4 0 . 3 0 . 2 O .1 。 。100 200 300 400 500 600 700 800 利益 u ヤ )= 1‑exp(‑aπ ) πは収益、 a危険回避定数である。 この効用関数の期待値は、収益 πの確率分布が正規分布の時は、次式になることが知られている。 [ a (a'varか か1 f 2 Xn)1‑E似 ,,人)]11 1" " ' 2 また、この最適化問題は、次式で表されることが知られている。 十 J '九 凡 ) ] ] 九 )‑jvar 伝(XJ,X2, 例として、次のようなフロイド型の効用関数を想定して、将来に対する期待効用の最大化にお ける最適な資源配分を考える。 r jva 巾 (X X , X, X ] d̲f̲̲ ̲ ̲ ̲ ̲ ̲ ̲ 1 ¥ 1 1' 2 3 4 (π)=l‑explαrVC11L'~ ¥ " ' 1 ' : 2 ' ' ' ' 3 '"'4J̲ E [ π(X, X, x, x] 1 1 II 2 • 'J "2 . '3 4 ~. J I J' =2 5.0x 0.5x2+26.1x ̲ 2x4 J +2 3+29 0 . 0 1 一万一 r, SAS/ORソフトウェアの NLPプロシジャ出力の一部 O p t i m i z a t i o nR e s u l t s P a r a m e t e rE s t i m a t e s P a r a m e t e r E s t i m a t e G r a d i e n t A c t i v eBC Xl 4 . 1 4 2 8 5 7 6 6 2 3 UpperBC 2 59 2 X2 0 . 9 1 3 2 8 7 48863 1 5. 3 X3 1 .820199 1 5. 48863 4 X4 3 . 1 2 3 6 5 6 48 8 6 3 1 5. , V a l u eofO 対e c t i v eF u n c t i o n=2 2 9 . 6 5 2 6 3 0 7 3 ‑309 1 v a 中 (XJ, X2, X3, XJ
i l l .企業内意思決定 1 . ゲーム理論 ゲームの理論は、利害関係の必ずしも一致しない状況における複数の意思決定主体の行動に関 する数学理論で、主体聞の対立や協力という可能性のもとで合理的な行動、結果の安定性などに ついて研究されてきた。意思決定の主体をプレイヤー、プレイヤーが取り得る方策を戦略とし、う。 1 ・1.零和ゲーム 例えば、二人でじゃんけんをして勝った方に正の得点(グー: 1点、チョキ: 2点、パー 3点) を与え、逆に負けた方に負の得点を与えるというルーノレでゲームを行う。このように毎回の得点 の和がゼロになるようなノレーノレに従うゲームを零和ゲームという。 次の表は、 A の得点を示した組み合わせ表である。 。 B1 グー A1 グー A 2 チョキ A 3 パー B最大 B 最小 (1) ‑1 3 1 ‑3 B2チョキ 1 。 B3 パー ‑3 2 ‑2 2 1 。 A 最大 1 2 3 A 最小 ‑3 ‑1 2 3 2 A . Bが共にマクシミン原理を採用した場合 このとき、 A は最小値の最大となる戦略 A 2を選び B は戦略 B2を選ぶ。結果は A、B の双 1 に押さえるこ 方の得点が 0となる。この A の戦略はマクシミン戦略という。 A は得点を ‑ とができ、 Bが違う戦略を取ればそれ以上の得点を得ることができる。 (2) A がマクシミン原理を採用し、 Bがマクシマックス原理を採用した場合 2点を得る。 このとき、 A は戦略 A 2を B が戦略 B3を選ぶ。結果は、 A は 2点を B が‑ この場合には、 B にとっては先ほどよりも悪い結果をもたらす。 (3) A、B が共にマクシマックス原理を採用した場合 このとき、 A は最大値 3をねらって A3を 、 B も 3をねらって B3を選ぶ。 しかし、結果として両者とも 0になる。 1 ・ 2 . 非零和ゲーム 非零和ゲームとは、たとえば A, B の二人がカードを出し合い、その時の組み合わせによって双 方の得点が決まるというルールの元でゲームを行うときに、両者の合計得点の合計がゼロになら ないようなゲームをいう。 以下の表が得点の組み合わせである。 B クローパ B スペード A 最大 3 A ハート 4 3 3 1 4 A ダイヤ 1 2 2 4 3 4 B 最大 2 B 最小 1 A 最小 1 2 一 この時に両者がミニマックス戦略またはマクシマックス戦略を取っても、ダイヤとスペードがそ れぞれ選択され、利得はそれぞれ 2である。しかし、表から明らかなようにハートとスペードを ‑310‑
それぞれが選んだときに、それぞれが利得 3を得られお互いに満足する。そのためには、両者が 協力する事が必要で、どちらかが裏切れば自分の利得を上げて、相手の利得を下げる事ができる。 しかしながら、両者が裏切ると結局ダイヤとスペードが選ばれて両者とも利得を下げる事になる。 このような協力と裏切りという人間の行動を数学モデノレにしたものをジレンマ・ゲームという。 1 ・3 . 交渉過程における意思決定モデ、/レ 意思決定対象の選好順序を定量的に表現するために効用関数を用いる。この場合、属性として の評価項目が複数であるので、多次元効用理論により個々の評価項目に対する効用関数の値を合 成し、全体としての効用値を算出する。 なお、ここでは簡単化のため、効用値は評価項目に対して単調増加(減少)するものと仮定し、 近似的に直線的であるとみなすことにする。 P この評価項目の各値 Y j( j=1, 2, . …P)に対する効用値は、次の一次関数で表わす効用関数 u(yJで求 U ( Y j )= αJ+kl‑yJ ・ ・ … ・ ・. . ( 1 ) めることができる。 A j、hは評価項目に対する意思決定者の望ましさに対応した効用関数の係数であり、重みを含む。 各対象に対する総合評価として効用値を表わすために各評価項目に対する効用関数の値を合成 する。ここで、各項目は推移性と比較可能性を持つことが考えられ、また加法的に独立であるこ p U=ZuU)ο) とを考えると、総合評価としての効用関数 uは 、 U ; ( Y j )= α;j +k ; j. Y j p Uz=2uz(YJ) と表わせる。 一方、交渉過程では、交渉者である複数の意思決定者が、それぞれ同様の各対象についての効 用値を算出する。そのため、各意思決定者の各対象の効用値は異なり、効用が最大となる対象は、 必ずしも一致しない。したがって、交渉において、この意思決定の不一致を解消し、双方が納得 できる譲歩案を提示することが重要な過程となる。 交渉モデ、ノレ ここで提案する交渉規則は、もし交渉の初期段階で双方の効用が最大となる対象が一致しなけ れば譲歩によって交渉を成立させるという共通の目標を前提とする。そして、交渉相手の意志を 尊重するとともに、できるだけ自己の効用を満足させながら譲歩して妥協案を見出すことを試み る。譲歩のための手続きとして、上の効用関数の値を相手に近づけるように各効用関数の係数を 修正するものとする。 311
交渉シミュレーションの手順は、 ①交渉相手および自分の意識や価値観すなわち、効用関数の値を客観的に認識できるように図 表等を用いて明確にする。そして、それに基づいて譲歩するように効用関数の各係数の値を 修正する。修正後の効用関数を Uij =αrij l l i jとする。 + k i j・ Y j 修正は、 kj 1>kj 2の場合、交渉者 1は k j 1の値を k2 jよりも小さくならない範囲で低減させ、ま 、k た交渉者 2は k 1 j 2 j 2の値を kj 1よりも大きくならない範囲で増加させるという手順を行って、 kj を決定する。 ここで、この操作を統一的に、かつ定量的に行うため町 ( 0三 αij;;;:;1)を定義する。 U1 j =( 1‑α Ij)U1j +αIj .U2j U2j = α 2 j・ U1j +( 1ー α υ )U2j ここでは、噌好の異なる捜数者によって共同で、車を購入する場合の交渉過程をシミュレーシ ョンする。交渉相手は、コンピュータとした。 人 αIj =(1‑α1)αIj+α Ij・α 2 j k1j = (1‑αIj) k1j +αIj ・k2j w e i g h t1 w e i g h tI A B C D E F G H I J 0.15 0 . 1 7 7 8 0 . 2 0 . 2 7 1 4 y 2 y 1 燃費 居住空間 1 0 . 4 8 7.96 1 0 . 0 1 7 . 8 8 8 . 4 2 5 . 1 1 5 . 8 1 6 . 7 5 7 . 3 5 . 6 5 6 .1 5 9 . 6 1 8 . 4 7 1 0 . 4 11 .0 5 8 . 0 6 8.38 1 2 . 9 5 1 2 . 2 6 7 . 8 1 0 . 5 0 . 9 4 9 9 0 . 1 5 0 . 9 0 4 3 y 3 y 4 最高速度 価格 4 6 7 1 7 6 4 9 5 1 7 3 3 5 2 1 6 1 2 4 8 1 1 7 3 2 1 1 4 2 3 9 2 1 4 8 1 8 0 7 5 7 6 4 7 1 7 8 5 5 0 1 4 5 6 8 6 1 8 2 この交渉過程でのプレイヤーは、 Iが自分で Eが相手、すなわちコンビュータを示す。 車は Aから Jまでの 10台で、各車種の特性は表に示すとおりである。 Weightは車の性能と噌好に対する重みを表わし、プレイヤー Iの重みは Weight 1でプレイヤ ‑II の重みは Weight I Iである。今回のプレイヤ ‑IIの重みは乱数を発生させている。 ‑312一
この表に基づいて、効用関数を計算したものが以下の表である。 u 1 2 u 1 3 u 1 4 u 2 1 u 2 2 u 2 3 u l l A B C D E F G H I J 0 . 0 4 5 0 . 0 5 4 0 . 0 8 3 0 . 1 1 3 0. l0 3 0 . 0 6 1 0 . 0 4 7 0 . 0 3 5 0 . 0 0 0 0 . 0 1 3 0. l6 3 0 . 1 5 8 0 . 0 0 0 0 . 0 4 0 0 . 0 3 1 0 . 0 5 9 0 . 1 9 2 0 . 1 6 9 0 . 1 8 7 0 . 1 5 4 0 . 2 9 0 0 . 2 6 2 0. 405 0 . 5 0 9 0. 436 0 . 3 6 5 0 . 0 0 0 0 . 1 1 0 0 . 2 0 7 0 . 0 7 1 0 . 1 2 6 0 . 1 2 0 0 . 0 9 4 0 . 0 0 0 0 . 0 5 4 0 . 0 6 6 l3 5 0. 0 . 1 3 1 0 . 0 6 0 0 . 1 3 9 0 . 0 5 4 0 . 0 6 4 0 . 0 9 8 0. l34 0 . 1 2 2 0 . 0 7 2 0 . 0 5 5 0 . 0 4 1 0 . 0 0 0 0 . 0 1 5 0 . 2 2 1 0 . 2 1 5 0 . 0 0 0 0 . 0 5 4 0 . 0 4 2 0 . 0 8 1 0 . 2 6 0 0 . 2 2 9 0 . 2 5 4 0 . 2 0 9 0 . 5 5 1 0. 498 0 . 7 6 9 0 . 9 6 7 0 . 8 2 8 0 . 6 9 3 0 . 0 0 0 0 . 2 0 9 0 . 3 9 3 0 . 1 3 5 u 2 4 u l u 2 0 . 7 6 2 0 . 7 2 3 0 . 5 6 8 0 . 0 0 0 0 . 3 2 3 0. 400 0 . 8 1 4 0 . 7 8 8 0 . 3 6 2 0 . 8 4 0 0 . 6 2 4 0 . 5 9 4 0 . 5 8 2 0 . 6 6 2 0 . 6 2 4 0 . 5 5 2 0 . 3 7 4 0. 444 0. 454 0 . 3 7 7 1 . 58 8 1 . 5 0 0 1 .436 1 . 156 1 . 31 6 l . 247 1 . 130 l . 267 1 .008 1 . 199 その結果、プレイヤー Iの効用関数を最大化する車種は D であり、それに対してプレイヤ ‑IIの 効用関数を最大化する車種は A であることが分かる。この場合、お互いの選んだ車種は異なって おり、交渉の必要が生まれる。 プレイヤー I :ひし形の点 プレイヤー II:四角の点 燃費 効用 0 . 1 6 0 0 . 1 4 0 0 . 1 2 0 0 . 1 0 0 0 . 0 8 0 0 . 0 6 0 0 . 0 4 0 0 . 0 2 0 0 . 0 0 0 5 弘 、 , . . . . . . . . . . . . . . . . . . . . 、、~ 竺竺基哩且 車 、 、事ト唱 可¥幽 7 1 1 9 1 3 15 8 9 燃費 (1/km) 居住空間 効用 0 . 3 0 0 0 . 2 5 0 0 . 2 0 0 0 . 1 5 0 0 . 1 0 0 0 . 0 5 0 0 . 0 0 0 4 5 6 7 居住空間 3 1 3一
価格 効用 1 . 2 0 0 1 . 0 0 0 0 . 8 0 0 0 . 6 0 0 0. 40 0 0 . 2 0 0 0 . 0 0 0 2 0 0 3 0 0 4 0 0 5 0 0 6 0 0 7 0 0 8 0 0 価格(万円) 速度 効用 1 . 0 0 0 0 . 8 0 0 0 . 6 0 0 40 0 0. 0 . 2 0 0 0 . 0 0 0 1 0 0 1 2 0 1 4 0 1 6 0 1 8 0 200 速度 ( k m / h ) 先に述べた引について乱数を発生させて求め、 P 1 がプレイヤー Iの重みで P2 がプレイヤ ‑II の重みを表わす。 この重み引を使って計算された譲歩した効用関数が次の表である。 u 1 2 ' u l l ' u 1 3 ' u 1 4 ' u 2 1 ' u 2 2 ' u 2 3 ' A B C D E F G H I J 0 . 0 4 8 0 . 0 5 7 0 . 0 8 8 0. 12 1 0 . 1 1 0 0 . 0 6 5 0 . 0 5 0 0 . 0 3 7 0 . 0 0 0 0 . 0 1 3 0 . 2 0 4 0 . 1 9 8 0 . 0 0 0 0 . 0 5 0 0 . 0 3 9 0 . 0 7 4 0 . 2 4 0 0 . 2 1 1 0 . 2 3 4 0 . 1 9 3 0 . 5 2 7 0. 476 0 . 7 3 6 0 . 9 2 5 0 . 7 9 2 0 . 6 6 3 0 . 0 0 0 0 . 2 0 0 0 . 3 7 6 0 . 1 2 9 0 . 1 7 5 0. 166 0 . 1 3 0 0 . 0 0 0 0 . 0 7 4 0 . 0 9 2 0 . 1 8 7 0. 18 1 0 . 0 8 3 0 . 1 9 2 0 . 0 4 4 0 . 0 5 2 0 . 0 8 0 0 . 1 1 0 0. 100 0 . 0 5 9 0 . 0 4 5 0 . 0 3 4 0 . 0 0 0 0 . 0 1 2 ‑314‑ 170 0. 0 . 1 6 6 0 . 0 0 0 0 . 0 4 2 0 . 0 3 2 0 . 0 6 2 0 . 2 0 1 0 . 1 7 6 0 . 1 9 6 0 . 1 6 2 0 . 5 4 1 0. 48 9 0 . 7 5 6 0 . 9 5 0 0 . 8 1 4 0 . 6 8 1 0 . 0 0 0 0 . 2 0 5 0 . 3 8 6 0 . 1 3 3 u 2 4 ' u l ' u 2 ' 0 . 6 3 7 0 . 9 5 3 2 . 3 4 5 0 . 6 0 4 0 . 8 9 7 2 . 2 0 8 0. 47 5 0 . 9 5 4 2 . 2 6 5 0 . 0 0 0 1 . 0 9 6 2 . 1 9 7 0 . 2 7 0 1 .015 2 . 2 3 1 0 . 3 3 5 0 . 8 9 4 2 . 0 3 1 0 . 6 8 0 0. 476 1 .402 0 . 6 5 8 0 . 6 2 8 0 . 3 0 2 0 . 6 9 2 1 . 577 0 . 7 0 2 0 . 5 2 8 1 . 53 5
次に、評価項目ごとの譲歩された効用関数を先程のグラフに追加して、どの点、でお五いが譲歩 し合い、どの点で更に譲歩する余地が残されているかを見る。また、第 3者が参入しようとすれ ば、この結果に自分の効用関数とを照らし合わせる事で、他社より優位な点を見つけ交渉を進め ることができる。このように各評価項目に対して見直す事で、新たな戦略を模索する事ができる。 修正されたプレイヤー 1 :三角の点 修正されたプレイヤ ‑II :パツ印の点 燃費 効用 0 . 1 5 0 0 . 1 0 0 0 . 0 5 0 0 . 0 0 0 7 5 9 1 1 13 15 燃費(I/km) 燃費に関するグラフから燃費に関しての効用関数を見ると、プレイヤ ‑IIの効用関数は交渉前 の効用関数より、下方にシフトしていることがわかる。このことはプレイヤ ‑IIが燃費に関して は譲歩したことを示している。また、プレイヤー Iとプレイヤ ‑IIの効用関数聞の事離幅が減少 していることからも、双方の歩み寄りが見られる。 居住空間 効用 0 . 3 0 0 0 . 2 5 0 0 . 2 0 0 0 . 1 5 0 0 . 1 0 0 0 . 0 5 0 0 . 0 0 0 4 5 6 7 8 9 居住空間 居住空間に関するグラフから居住空間の効用関数についてみると、先程と同様にプレイヤ ‑II の方が譲歩していることがわかる。 ‑315一
価格 効用 1 . 2 0 0 1 . 0 0 0 0 . 8 0 0 0 . 6 0 0 0. 40 0 0 . 2 0 0 0 . 0 0 0 200 300 400 5 0 0 6 0 0 7 0 0 8 0 0 価格(万円) 価格に関するグラフから価格の効用関数を見ると、今までとは逆にプレイヤー Iの方が上方に シフトしていることから、プレイヤー Iが譲歩している事が分かる。 速度 効用 1 . 0 0 0 0 . 8 0 0 0 . 6 0 0 400 0. 0 . 2 0 0 0 . 0 0 0 100 120 1 4 0 1 6 0 1 8 0 200 速度 ( k m / h ) 速度に関するグラフより速度の効用関数をみると、双方の歩み寄りは見られるもののまだ双方 の効用関数に他のものよりもかなり:iIt離幅がある。ここには、まだ譲歩する余地が残されている。 しかし、結果としてはプレイヤー Iの効用関数を最大化にする車種は D であり、それに対する プレイヤ ‑IIの効用関数を最大化にする車種は A となり、さらに譲歩した妥協案を提示する必要 がある。 例えば、外車ではなく日本車を購入するというように新たな評価項目を追加すれば (ex日本車 の w e i g h t = l,外車の w e i g h t = O )、それによる重み付けも変化し選考車種が絞られる。このようにし て、新しい評価項目での再交渉を繰り返しひとつの車種を選定してし、く。 その結果、プレイヤー Iの効用関数を最大化にする車種は D であり、それに対するプレイヤ ‑II の効用関数を最大化にする車種も Dになり交渉が成立したことになる。 ‑316‑
アンケート調査 先程はシミュレーションとして乱数を発生させて重みを計算し、譲歩した効用関数を求めたが、 実際にはアンケート調査などを行って重みを計算する事もできる。次の例は、ある会社の営業部 に営業車を配置するに当たって、どのような項目を重視しますかというアンケートを取った結果 を集計した。営業 l課は 30人、営業 2課は 20人に対して、 2項目までの多重回答のアンケートを 行った結果が以下の表である。 営業 l課のアンケート集計 番号 。。 。 。 。。 。 。 。 。。 。 。 。 。 。。 。。 。 。 。 。 。 。 。。 。 。 。 。。 燃費 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 居住 価格 。 。 。 。 。。 。。 。 。 。。 。 。 。 。 。 。 。。 。 。。 。 。 。 。 。。 。。。 。。 速度 1 6 1 7 1 8 1 9 20 2 1 22 23 24 25 26 2 7 28 29 30 注 :2項目まで選択可 このようなアンケート結果から、各営業課の W e i g h tを計算するために対応分析(数量化 E類) を実行する。 S ASシステムにおいては、 S A S / S T A Tソフトウェアの CORRESPプロシジャを使って 求める事ができる。 p r o cc o r r e s pd a t a = b i n a r ys h o r td im =l ; var v 1 ‑ v 4 ; i d n; r u n ; その結果、以下の表のような W e i g h tが求められた。 価格 居住性 速度 燃費 0 . 3 1 0 . 1 7 0 . 0 4 1 . 0 0 . 3 8 0 . 3 8 1 . 0 1 . 0 ム 唱E t ワ qu
この Weightを使って、譲歩した効用関数を求めると次の表である。 車種 U11 A 。 B D E F G H J 0 . 0 5 0 . 0 6 0 . 0 9 0 . 1 2 0 . 1 1 0 . 0 6 0 . 0 5 0 . 0 4 0 . 0 0 0 . 0 1 U12 0 . 2 3 0 . 2 2 0 . 0 0 0 . 0 6 0 . 0 4 0 . 0 8 0 . 2 7 0 . 2 4 0 . 2 6 0 . 2 2 U13 U14 U21 U22 U23 U24 0 . 3 0 0 . 5 0 0 . 0 5 0 . 3 0 0 . 2 7 0 . 1 1 0 . 0 6 0 . 2 9 0 . 2 7 48 0 . 2 5 0 . 1 0 0. 0. 42 0 . 3 8 0 . 0 9 0 . 0 0 0 . 3 8 0 . 0 8 0 . 5 3 0 . 1 2 0 . 0 0 0 . 0 7 0 . 4 8 0 . 0 0 0. 45 0 . 2 1 0 . 1 1 0 . 0 6 0 . 0 5 0 . 4 1 0 . 3 8 0 . 2 7 0 . 0 6 0 . 1 1 0 . 0 6 0 . 3 4 0 . 0 0 0 . 0 5 0 . 1 2 0 . 5 4 0 . 3 5 0 . 0 0 0 . 1 1 0 . 5 2 0 . 0 4 0 . 3 1 0 . 1 1 0 . 1 0 0 . 2 2 0 . 2 4 0 . 0 0 0 . 3 5 0 . 2 0 0 . 0 5 0 . 0 7 0 . 0 1 0 . 1 2 0 . 5 6 0 . 2 9 0 . 0 7 U1 U2 1 .08 1 .03 0 . 8 8 0 . 7 0 0 . 8 2 0 . 7 9 0 . 8 6 0 . 9 1 0 . 7 2 0 . 8 6 0 . 7 3 0 . 7 0 0 . 5 5 0 . 6 7 0 . 6 2 0 . 5 7 0 . 5 2 0 . 5 6 0 . 5 9 0 . 4 8 このアンケート調査から得られた重みから、双方の効用関数を最大化する車種は A となり、交 渉は成立する。ただし、このようなケースは希であり、実際にはさらに双方の効用を満たすよう な代替案の提示が必要になる。そのときには、先ほどの例のようにグラフを使って、双方の譲歩 できる点を見つけ出す事が重要である。 N.まとめ 企業の経営活動において、将来の需要を予測して目標となる収益を決定し、目標を達成するた めの最適な生産計画および経営資源(人、もの、お金、情報)の最適な配分を決定する事は重要な意 思決定である。そのために、将来の不確実性をいかに排除するかという観点から、いくつかの手 法を説明してきた。中でも、ゲーム理論を応用した例は、近年、不確実性に対応した理論として 再認識されている。本論文では、これらの手法を取り入れて、 SASシステムが提供している SASIETS ソフトウェア、 SAS/ORソフトウェアなどを使って、不確実性に対応した意思決定支援システムを 構築する事ができることを示した。 v .参考文献 「オペレーションズ・リサーチ入門 J(日本放送出版協会) 近藤次郎 「交渉戦略の実際J(日本経済新聞社)佐久間賢 「経済学のためのゲーム理論 J (創文社) ロパート・ギボンズ 福岡正人・須田伸一訳 「コンペティション経営 J (日本経済新聞社) A・ M.プランデンバーガー B . J .ネイノレパプ 島津裕一・東田啓作訳 「ゲームとしての交渉J (丸善株式会社) 草野耕一 rSASシステムによるマーケットリサーチー最新統計手法とビジュアノレ化テクニックー Jから rSASによる数量化 E類 J(株式会社 SASインスティチュートジャパン) 岸本淳司 ‑318‑
S U G I ‑ J ' 9 7論文集 経済・金融
日本 S A Sユーザー会 (SUG I‑J) JMPv e r . 3 . 1ソフトウェアによる銀行業情報システム投資横断面分析 関西大学総合情報学部 鵜飼康東台 e ‑ m a i l :[email protected]‑u.ac.jp CrossSectionAnalyseso fInformationSystemInvestment i ntheBa nkingIndustrywithusingo fJMPSoftware, Version3 . 1 YasuharuUKAI Facultyo fI n f o r m a t i c s, K . ansaiUniversity Prcfessoro fEconomics, 要旨 アンケート調査により、被説明変数を銀行のシステム開発費、説明変数 を預金残高、更に、被説明変数を純利益、説明変数をシステム要員当り開 発費として、正の傾きの回帰線を推定した。共に統計的に有意であった。 キーワード: 銀行、情報システム投資、 JMPソフトウェア、回帰分析 1、はじめに 1、 l、研究の目的 本研究は、従来、産業別の集計量としてしか把握されていなかった「銀行業の情報シ ステム投資」を、独自のアンケート調査によるマイクロデータ(個票データ)により 把握する試みである。 1 アンケート調査は、関西大学総合情報学部鵜飼研究室に事務局を置く「情報投資研 究会」の「情報システム投資研究計画 J (平成 6年 4月一平成 13年 3月)の一環と して実施された。この研究計画の最終日的は、獲得されたマイクロデータを有価証券 '本研究は平成 7年度関西大学学術研究助成基金(奨励研究)を受けたものである。 また、研究の過程で、渡辺真治氏(大阪府立大学)と岩佐代市氏(関西大学)より数 多くの貴重な助言を賜った。記して深謝する次第である。 ‑ 3 2 1
報告書や銀行法第 21条に基づいて公開された経営情報における各種データと連結す ることにより、銀行行動の数理モデルを構築することである。 2 なお、本研究に必要な情報を提供した銀行との協定により、各銀行の具体的な名前 や所在地は一切明らかにすることが出来ない。また、これらを推定することが出来る 各種の分布曲線も公開しない。 1、 2、情報システム投資の定義と提供された情報 本稿では銀行業の「情報システム投資Jを以下の項目を包括する支出金額と定義し た 。 l、メインフレーム、ワークステーション、パソコン、および C D機械、 A T M 等を含む端末機器の設置費用、および賃貸料。 2、ソフト・ウェアの購入料および使 用 。 3、上記に関する人件費。 3 アンケート調査票は、平成 7年 2月末日に日本国内の 8証券取引所に株式を上場し ている 120の銀行の情報システム担当の取締役あてに郵送した。平成 7年 4月末日 までに回収された銀行は 27行であった。回収率は 22.5パーセントである。 質問項目は平成 7年 3月現在の以下 12項目である。 1、情報システムの運用開始 時期、 2、その開発時間、 3、情報システム開発要員とその所属内訳、 4、システム 開発費用、 5、システム開発要員年収、 6、システム開発費用の外注状況、 7、シス テム運用要員とその所属内訳、 8、情報システム運用費、 9、システム運用要員年 収 、 10、情報システム運用の外注状況、 11、システム更新予定時期、 12、シス テム更新にあったっての投資基準。 1、 3、回答銀行の資産分布と総従業員数分布 最初に、われわれは、回答銀行 27行の 1994年(平成 6年)末の企業会計上の 総資産を東洋経済新報社編『会社四季報』により調査した。縦軸に銀行数をとり横軸 に総資産をとった座標上での資産は、最頻値が極端に左に偏った単峰分布を描いてい る。総資産が 5兆円を越える銀行は 3行しかない。逆に、総資産が 1兆円以下の銀行 は 4行しかない。残りの 20行が 1兆円から 4兆円の間に分布している。総資産平均 値は 3兆円であるが、統計的には意味がない。中央値は 2兆円である。 次に、上記文献により、各銀行の 1994年(平成 6年)末の総従業員数を調査し た。縦軸に銀行数をとり横軸に総従業員数をとった座標上での分布曲線は、同様に、 最頻値が左に偏った単峰分布を描いている。従業員数が 5000人を越える銀行は 3 行しかない。逆に、従業員数が 1000人以下の銀行は 1行しかない。残りの 21行 が 1000人から 400人の間に分布している。従業員数の平均値は約 2500人で あるが、統計的に意味があるのは、中央値約 2000人である。 したがって、今回のアンケート調査により統計的に意味がある結論が得られる可能 性がある銀行は、地方銀行および第 2地方銀行である。 4 2、アンケートへの回答の分布曲線 2、 1、運用開始時期と開発所用時間 ‑322‑
現行の情報システムの運用開始時期についての有効回答数は 25である。縦軸に回 答銀行数をとり横軸に運用開始年をとった座標上での、分布曲線は双峰分布を描き、 1988年(昭和 63年)に低い峰があり 1993年(平成 5年)に高い峰がある。 最初の低い蜂は、金融機関の第 3次オンラインシステムが構築された時期に対応し、 次の高い峰は、大手都市銀行の情報システムが多数の自立型サブ・システムに分割さ れた時期に対応している。 5 最も古いシステムは 1969年開始であり、最も新しいシステムは 1995年開始 である。 1985年以前の古いシステムを部分的に修正しながら運用している銀行が 3行ある。平均値は 1989年開始、中央値は 1992年開始であった。 システム開発所用時間の有効回答数は 24である。縦軸に銀行数をとり横軸に開発 時間をとった座標上での回答分布は、蜂が 3年の位置にある正規分布に近い単峰分布 を描いている。最短が半年、最長が 6年である。 3年と回答した銀行数は 10であ る。平均値と中央値は 3年と一致している。 2、 2、システム開発要員 各社のシステム開発要員は、本社正規従業員、系列子会社従業員、非系列外部企業 従業員と錯綜していることが予想されたので、最初にシステム開発要員の総人数を尋 ねた。有効回答数は 23である。 10人から 200人の聞にほぼ一様に分布してい 、 130人台が 2行 、 200人台が 3行あった。平均値は 108 る 。 70人台が 2行 人、中位数が 130人である。 正規職員のシステム開発要員数についての有効回答数は 22である。 3人から 90 人の聞にほぼ一様に分布している。しかし、 50人の位置に 3社存在している。平均 値は 35人、中央値は 30人である。 系列子会社のシステム開発要員についての有効回答数は 21である。ゼロと回答し た銀行が 6で最高であった。 40人以上と回答した銀行が 3行であり、残りは 5人か ら 40人の聞にほぼ一様に分布している。平均値は 28人、中央値は 11人である。 なお、地方銀行の中で、情報システムを共同開発していると回答した銀行が複数あっ た。奇妙なことに、共同開発は地域的に飛び離れた銀行間で行われている。 6 2、 3、システム開発の内部費用 人件費と外注費を除くシステム開発の内部費用についての有効回答数は 20であ る。なお、システム共同開発を行った場合、各銀行の正確な分担金が明らかではない ために、申告された総開発費用を出資銀行の数で等分した。 縦軸に回答銀行数、横軸に開発金額を採った 2次元座標上で、費用分布は 1億円以 下が最頻値となる下に凸の曲線を描いている。ゼロもしくは l億円以下と回答したの は 4行である。最大値は 300億円、平均値は 65億円、中央値は 21億円であっ た。開発の内部費用が 100億円以上と回答した銀行が 5行ある。この内 3行は、総 資産が 4兆円以下であり同時期の税引き後利益が 50億円以下の銀行である。 2、 4、システム開発要員の年収 qu η o nL
システム開発要員の平均年収についての有効回答数は 18である。縦軸に回答銀行 数、横軸に年収を採った 2次元座標上で、分布曲線は、最低値が 350万円、最高値 が 900万円で、ほぼ左右対称の上に凸な形を描いている。平均値は 605万円、中 央値は 600万円であった。主要新聞や経済誌で報道されている巨大都市銀行従業員 の年収に比べてはるかに低い金額である。回答銀行のほとんどが地方銀行であること がこの結果に大きな影響を与えているものと思われる。 このような低い年収は、システム開発要員の都市銀行から地方銀行への労働移動を 妨げる原因のひとつであろう。 2、 5、システム開発外注費用 系列子会社へのシステム開発の外注費用についての有効回答数は 19である。縦軸 に回答銀行数、横軸に外注金額を採った 2次元座標上で、分布は下に凸な 2次曲線を 描いている。外注費ゼロと回答した銀行が 9行あり。これが最頻値である。最大値は 7 1億円、第 2位は 27億円、第 3位は 10億円である。しかし、この 3つは飛び抜 けた外れ値であり、中央値は 140万円である。平均値は 6億円であるが、経済分析 上はまったく意味を持たない。地方銀行の多くはシステム開発のための子会社を持っ ていないからこれは当然、の結果であろう。 密接な資本関係を持たない外部企業へのシステム開発の外注費用に対する有効回答 数は 19である。分布は 26億円を頂点とするほぼ下に凸な曲線を描いている。最大 値は 58億円の 1行、次の値は 44億円で 2行である。最頻値は 2億円以下で 7行で ある。中央値は 1億円である。平均値は 11億円であるが、経済分析上はまったく意 味を持たない。 われわれは、各銀行について、上記 2種類の外注費を合計して総外注費を計算して みた。どの分類でも外注費がまったくゼロと申告した銀行を除けば、有効回答数は 1 6である。費用分布は双峰分布である。 1億円以下が 6行あってここに高い峰があ り 、 45億円が 2行あってここに低い峰がある。平均値は、 21億円であり、最大値 は 71億円、中央値が 10億円である。 以上の 3種類の分布曲線は、開発要員の年収の分布と併せて考えれば、地方銀行の 情報システムの開発について数千億円単位の需要が存在していることを予想させる。 開発要員年収の銀行間格差が明確に存在していることから、この格差を解消する働き をする筈である銀行間システム開発要員労働市場は存在していないことが予想され る 。 これに対して、巨大都市銀行はむしろ自己が蓄積したシステム開発の知識と方法を 外部に販売する供給の主体となりうる可能性を秘めていることが予想される。 7 2、 6、情報システム運用要員の数と内訳 情報システムの運用要員の総数についての有効回答数は 26であった。縦軸に回答 銀行数、横軸に人数を採った 2次元座標上で、分布は、 20人を最頻値とする左に 偏った曲線をしている。最大値は 230人、平均値は 50人、中央値は 25人、最小 値は 3人である。運用要員数 100人以上の銀行は 4行しかない。 ‑ 3 2 4一
このうち正規職員数を見れば、最頻値を 5人とするさらに左に偏った分布をしてい る。最大値は 100人、平均値は 22人、中央値は 10人、最小値は 3人である。正 規運用要員数が 30人以上の銀行は 4行しかない。 次に、系列子会社より派遣されているシステム運用要員数を見てみよう。最頻値を ゼロとするさらに左に偏った分布となる。最大値は 47人、平均値は 9人、中央値は 6人、最小値はゼロである。 われわれは、先に述べた『会社四季報』により各銀行の正規従業員数を調査し、こ れに占めるシステム運用正規職員数比率を計算した。 25銀行についてこの比率が得 られた。 21社が lパーセント以下で一様分布をしている。しかし、外れ値とみなし うる 4社が 2パーセント以上である。最大値は 4.2パーセント、平均値が 0.9パーセ ントであり、中央値は 0.6パーセント、最小値が 0.01パーセントである。 2、 7、人件費を除くシステム運用費 レンタルリース料金、運転費等を含み正規職員人件費を除く現行システムの年間運 用費の総計についての有効回答数は 20であった。縦軸に回答銀行数、横軸に運用費 額を採った 2次元座標上で、分布は 10億円を最頻値とする左に偏った分布をしてい る。最大値は 168億円、平均値は、 37億円、中央値は 14億円、最小値は l億円 である。年間運用費 70億円以上の銀行が 5行ある。地方銀行のシステム運用につい ても数千億円規模の需要が存在することが読みとれる。 2、 8、システム運用正規職員の年収 システム運用にあたる正規職員の平均年収についての有効回答数は 17である。縦 軸に回答銀行数、横軸に年収を採った 2次元座標上で、分布曲線は最低値が 350万 円、最高値が 730万円で、ほぼ左右対称の形を措いている。平均値は 525万円、 中央値は 500万円であった。システム開発要員よりも平均値も中央値も約 100万 円低い。われわれは、運用正規職員の年収が開発要員よりも低い理由は、運用要員の 勤続年数が開発要員よりも短いことから来るのではないかと予想している。 2、 9、システム運用外注費とその内訳 系列子会社への運用外、注費についての有効回答数は 18である。分布は、 11億円 を最大値とし、平均値が l億 2千万円、中央値が l千 5百万円、最小値はゼロであっ た。最大値 11億円、次の値 3億 6千万円等、明白な外れ値が 1億円以上で 5行存在 する。 系列外の企業への運用外注費に対する有効回答数は 19である。分布は 9億 6千万 円を最大値とし、平均値 l億 4千万円、中央値 3千 9百万円、最小値ゼロであった。 これを総計した外注費を計算しておこう。最大値は 13億円、平均値が 2億 4千万 円、中央値が 7千 8百万円、最小値がゼロである。 2、 10、情報システム更新年予想、と更新理由 現行のシステムの更新予定年についての有効回答数は 14であった O 更新予定年は ‑325‑
1996年から 2005年までほぼ一様に分布している。 2、 11、情報システム更新に際して重視される要因 現行システムの更新に当たってシステム開発の責任者が重視する要因について 4つ の選択肢をあげて質問した。その選択肢とは l、技術的な陳腐化、 2、同業他社の投 資行動、 3、新商品開発、 4、日本銀行の示唆や大蔵省の行政指導である。有効回答 数は 25であった。 回答の多かった選択肢は、技術的な陳腐化と新商品開発の二つのであり、それぞれ 全体回答数の約 30パーセントを占めていた。アンケートでは、各要因の重要度を回 答させたので、重要度のもっとも高いと回答された選択肢に 4、次に高いとされた回 答された選択肢に 3、その次に高いとされた回答された選択肢に 2、最後の要因に l と加重をつけて集計してみると、この二つの要因は各々が約 36パーセントの重みを 示した。 8 2、 12、情報システム部門人員比率の推定 われわれは、アンケート回答に記述されている開発要員数と運用要員数の合計を算 情 出して、先に述べた『会社四季報Jにより調査し各銀行の正規従業員数で割り、 「 報システム部門正規職員比率j を計算した。 21銀行についてこの比率が得られた。 縦軸に銀行数、横軸に正規職員に占める情報システム部門人員の百分比を採った 2 次元座標上で、分布曲線を見れば、双峰分布の右端を切り取ったような形をしてい る。最大値は 6.6パーセント、平均値が 3パーセントであり、中央値は 2.6パーセン ト、最小値が 0.04パーセントである。 金融情報システムセンター (1996) の調査によれば、コンビュータ関連部門人 員比率は、 1995年現在、都市銀行 2.9パーセント、地方銀行 2.8パーセント、第 2地方銀行 2.1パーセントであった。われわれのアンケート調査はこの数字をミクロ データ面から裏付けるものである。 9 3、回帰分析とクラスター分析の結果 3、 l、従属変数(被説明変数)をシステム開発費用 D Cとし、独立変数(説明変 数)を当該銀行の預金残高(含む譲渡性預金) Dとして、回帰直線を最小 2乗法によ り推定した。 (1) DC=‑2.124+0.035D ( ‑ 0 . 1 5 )( 7 . 2 3 ) d jR2=O.74,N=19 R2=O.75,A 上式のカッコ内の数字は各パラメータの t値である。有効観察数は 19銀行であっ た。決定係数R2も自由度修正済み決定係数AdjR2もあまり高くないが、仮説検定を 行ったところ 99パーセント水準で有意であった。 3、 2、従属変数(被説明変数)を税引後純利益 NPとし、独立変数(説明変数)を qu n o n y ω
当該銀行のシステム開発要員 1人当たり開発費用 S Cとして、回帰直線を最小 2乗法 により推定した。 (2) NP=0.982+0.620SC ( 2 . 1 6 ) ( 5 . 7 5 ) R2=0.68,AdjR2ニ 0.66,N=17 式のカッコ内の数字は各パラメータの t値である。観察数は、 2銀行を外れ値とみ なしたので、 17銀行であった。決定係数R2も自由度修正済み決定係数AdjR2もあま り高くないが、仮説検定を行ったところ 95パーセント水準で有意であった。 3、 3、従属変数(被説明変数)を税引後純利益 NPとし、独立変数(説明変数)を 当該銀行のシステム運用費 R Cとして、以下の回帰曲線を最小 2乗法により推定し た 。 (3) NP=0.141+0.176RC‑0.004RC2+0.001RC3 ( 0 . 1 5 ) ( 1 .99) ( ‑ 2 . 4 0 ) ( 3 . 2 1 ) R2=0.82,AdjR2=0.79,N=19 式のカッコ内の数字は各パラメータの t値である。観察数は 19銀行であった O 決 定係数R2も自由度修正済み決定係数AdjR2もかなり高く、仮説検定を行ったところ 9 0パーセント水準で有意であった。 したがって、システム運用費の金額が大きくなると、税引後純利益の上昇の度合い が大きくなる傾向が読みとれる。ただし、これを銀行の情報システムの「規模の利 益j と読みとることはできない。純利益を説明する変数が他にも多数存在する可能性 カfあるからである。 3、 4、従属変数(被説明変数)を当該銀行の総資産 T Aとし、独立変数(説明変 数)をシステム開発費用 D Cとして、回帰曲線を最小 2乗法により推定した。残念な がら、統計的に有意な結果は得られなかった。 しかし、ここに明らかにすることが出来ない散布図では、総資産 10兆円までは、 システム開発費が増加するにつれて開発費当たりの資産額は逓増しているが、 10兆 円を越えると一転して逓減している傾向が読みとれた。今後の調査で都市銀行のデー タが蓄積されると、統計学的に興味のある結論が得られる可能性がある。 3、 5、従属変数(被説明変数)をシステム運用費 R Cとし、独立変数(説明変数) を当該銀行の総資産 T Aとして、回帰曲線を最小 2乗法により推定した。統計的に有 意な結果は得られなかった。 しかし、ここに明らかにすることが出来ない散布図では、総資産 10兆円までは、 システム運用について資産が拡大するにつれて資産当たりの運用費は逓減している が 、 10兆円を越えると逓増している傾向が読みとれた。開発費の場合と同様に、都 市銀行のデータが蓄積されると経済学的に興味のある結論が得られる可能性がある。 3、 6、従属変数(被説明変数)を当該銀行のシステム開発費用 D Cとし、独立変数 ノ ヴ t nω つd
(説明変数)をシステム開発要員総人数 E Mとして、回帰直線を最小 2乗法により推 定した。残念ながら、統計的に有意な結果は得られなかった。 しかし、クラスター分析を行うと、散布図の上に 2本の右下がりの回帰直諌があら われた。銀行数が 4行の上方に位置する回帰直線は統計的に有意で、あるが、銀行数が 8行の下方に位置する回帰直線は有意ではない。 第 1に、興味あることは、いずれのクラスターでも、システム開発要員が増加する につれて開発費用が低下していることである。情報システム投資においても資本と労 働が代替関係にあることを推測させる。 第 2に、興味あることは、開発費用 150億円のあたりで回帰直線がきれいに分離 していることである。総資産との関係で推測された、 「規模の利益の逆転現象Jがこ こでも発生しているのではないかと予想される。 4、要因分析の結果 システム更新に際して重視される要因については、 27銀行が解答している。自由 記述項目以外の 4つの選択肢のうち、 「技術的な陳腐化j については、すべての銀行 が「重視する j と解答している。しかし、その他 3つの要因については解答がぱらぱ らである。 われわれは、各選択肢に対して重視すると解答した銀行と、これを無視した銀行と に分類して、アンケート結果をわれわれが独自に計算して得られた「システム要員 1 人当たりのシステム開発費用 J (開発投資率)を説明する 3つの要因、 「他銀行への 態度J (準拠型と独立型)、 「新商品開発J (積極型と消極型)、 「中央銀行および 政府への態度J (配慮型と無視型)を仮定した。開発投資率が計算できた 19銀行に ついて、これら 3つの要因と開発投資率との聞に因子分析を行った。ほとんどの結果 は統計的に有意ではなかった。 しかしながら、 「中央銀行および政府への態度 J (配慮型と無視型)については 「銀行の開発投資率Jの変化を 95パーセント水準で有意に説明していた。すなわ ち、無視型の銀行の方が配慮型の銀行よりもシステム開発を積極的に行っている。た だし、決定係数は0 . 3と低い値にとどまっている。 5、統計的結論 われわれの第 1回アンケート調査は、以下のような統計的結論を与えてくれた。第 1に、情報システム開発費用、情報システム開発要員 1人当たりの開発費用、および システム運用費の増加は、当該銀行の預金額および純利益と正の相関関係がある。 、 「情報システム投資の規模の利益Jについては、総資産、開発費用、もし 第 2に くは運用費用の金額がある一定の値までは存在する可能性が強い。しかし、一定の値 を越えたところで、規模の利益から規模の不利益への逆転が生じている可能性があ る 。 第 3に、銀行内部のシステム開発要員やシステム運用要員が賃金面で他の部門の被 ‑ 3 2 8一
雇用者と比べて優遇されている形跡はいまのところ認められない。したがって、これ らの要員が労働市場を通じて銀行聞を移動する可能性は今のところ弱い。 第 4に 、 11央銀行や大蔵省の意向に配慮をあまり払わない銀行の方が情報システム 投資を積極的に行っている。 、 1997年 3月 3 1U、第 2稿 ( 第 1稿 、 1997年 7月 3 1日) 情報システム投資アンケート調査(参考) 間 1‑ 1 現在の全情報システム体系の運用開始はいつ頃でしたか? 答 1‑ 1 19 年月頃 開発に関する質問 ~IJ 1ー 2 現在のシステムの開発開始から運用開始までどのくらいの時間を要しまし たか? 容 lー 2 約 年 I U J2ー l 現行システム開発に貴社の正規職員、系列子会社職員、その他の外部企業 の職員を併せてどのくらいの人員を要しまししたか? fUJ2‑1 約 人 日 !J2ー 2 そのうち貴社の正規職員の開発要員の数をお符えください。 答 2‑2 約 人 間 2ー 3 そのうち系列子会社の開発要員の数をお答えください。 容 2ー 3 約 人 問 3ー l 現行システムの開発に要した費用を概算でお符えください。ただし、人件 費と外注費は除きます。 答 3‑ 1 約 万 f 1 J 日J3ー 2 現行システムの出発に要した正規職員の平均年収を概算でお答えください 答 3ー 2 年 収 約 万 円 問 3ー 3 現行システムの開発に要した系列子会社への外注費を概算でお答えくださ し 、 。 容 3ー 3 約 万 f l 1 I U J3‑ 4 現行システムの開発に要したその他の外部企業への外注費を概算でお答え 3 2 9
ください。 答 3‑4 約 万円 運用に関する質問 問 4‑ 1 現行システム運用に貴社の正規職員、系列子会社職員、その他の外部企業 の職員を併せてどのくらいの人員を要していましたか? 答 4‑1 約 円 答 4ー 2 そのうち貴社の正規職員の運用要員の数をお答えください。 答 4ー 2 約 人 間 4‑3 そのうち貴社の系列子会社の運用要員の数をお答えください。 答 4ー 3 約 人 問 5‑1 レンタルリース料・ランニングコスト等を含む現行システムの年間運用費 を概算でお答えください。ただし、正規職員の人件費は除きます。 答 5‑1 年 間 約 万円 問 5ー 2 現行システム運用に携わっている正規職員の平均年収を概算でお答えくだ さい。 答 5ー 2 年 収 約 万 円 問 5ー 3 現行システムの運用に要した系列子会社への外注費を概算で、お答えくださ し 、 。 答 5‑3 約 万円 間 5‑4 現行システムの運用に要したその他の外部企業への外注費を概算でお答え ください。 万円 答 5‑4 約 問6 答6 現行のシステムは何年後に全面的に更新の予定ですか? 約年後 問 7‑1 システム更新に際して、以下の要因のうち貴社が重視する度合いの高い順 番にカッコ内に番号をふってください。なお、順番は l番目、 2番目、 3番目までで 止めても結構ですし、 4番目まで付けてくださってもかまいません。 ( )技術的な陳腐化 ( )同業他社の投資行動 η ﹃U nu qu
)新商品開発 )日本銀行や大蔵省の行政指導 )その他 問 7ー 2 上記の質問で「その他」と回答された場合具体的な投資基準をお書きくだ さい。 <参考文献> r (1)株式会社関東データセンター総務部 (1992) 株式会社関東データセン ター会社案内』。 (2)金融情報システムセンター (1996) 、財団法人金融情報システムセンター 編『平成 9年版金融情報システム白書』、 1996年、財経詳報社。 ( 3)東洋経済新報社 (1995) 東洋経済新報社編『会社四季報 1995年 2集・ 春季号』、 1995年、東洋経済新報社。 <巻末注> , • 日本銀行は、 『日銀短観』により、毎年 5月に金融機関(銀行、証券、保険)約 200社の情報化投資額を集計した数値を発表している。それによれば、金融機関の 情報化投資の年間総額は、平成 3年度の 1兆 5千億円を頂点として、平成 4年度に 1 兆 4千億円に下落し、以後は平成 7年度まで約 1兆 l千億円で横這い状態である。し かし、これらの個票データは日本銀行に所属しない研究者には公開されない。 2 . 銀行法第 21条の全文は以下のごとし。銀行は、営業年度ごとに、業務及び財産 の状況に関する事項を記載した説明書を作成して、主要な営業所に備え置き、公衆の 縦覧に供するものとする。ただし、信用秩序を損なうおそれのある事項、預金者その 他の取引者の秘密を害するおそれのある事項及び銀行の業務の遂行上不当な不利益を 与えるおそれのある事項並びにその記載のため過大な負担を要する事項については、 この限りでない。 3 . このような「情報システム投資」の定義に対しては、複数の巨大都市銀行のシス テム開発の責任者より異議を唱える電子メールが鵜飼研究室に送られて来た。その中 で特に重要な指摘は、日常業務を扱う勘定系システムは長期の時間を考慮した投資決 定がなされるのに対して、その他の商品開発システム、為替取引システム、投資分析 システム等は短期の投資決定が行われるので、担当部署がまったく異なり、情報シス テム投資の金額を統一的に把握する人物は日本の巨大都市銀行内部に存在しない、と の指摘である。この根本的異議に衝撃を受けたわれわれは、平成 7年度に日本銀行お ﹃U 唱 ' ο q
よび複数の巨大都市銀行のシステム開発の責任者に綿密な面接調査を実施した。その 結果、日本の巨大都市銀行の情報システム投資の決定には分散型と統一型のあること を知った。したがって、巨大都市銀行といえども、内部に情報システム投資額全体の 数字を把握している人物が存在している銀行も存在する。しかしながら、特定の巨大 都市銀行に対しては、今後のアンケート調査では複数の部署の責任者に対してアン ケート用紙を発送する必要があることも事実である。この面接調査の詳細は、平成 9 年度に鵜飼康東と渡辺真治の共同論文として公刊する予定である。 4 . I 情報投資研究会」が平成 8年度に実施した第 2回アンケート調査では回答銀行 は日本銀行を含め 33行に増加した。この中には巨大都市銀行が 4行含まれている。 しかし、第 2回調査ではアンケート票の設計を変更したので、その分析は本稿とは別 の機会におこなう。 5 . この時代区分は、金融情報システムセンター (1996) 、 48ページ掲載の図 1I 銀行のコンピュータシステムの歩み」を参照した。 6 . 昭和 52年 12月に 3つの地方銀行の出資により設立された株式会社関東データ センターはこのような情報システムの共同開発および、共同運用のための組織の一例で ある。平成 3年 5月には、この株式会社は 5つの地方銀行の業務を委託されている。 7 . 巨大都市銀行は様々の情報システム開発組織を関連企業として設立している。 これらの資本関係は複雑で、あり、子会社や孫会社と本社との共同出資の形をとること が多く。財務諸表に銀行の関連子会社として報告されていない場合が多い。しかし、 人的な関係は従業員出向制度を通じて緊密に維持されている。過去には、これらの都 市銀行関連企業は銀行業以外の企業を顧客としてきた。しかし、地方銀行を顧客とし ている例もいくつか存在する。 8 . 6大銀行と呼ばれる日本の大手都市銀行の情報システム開発の責任者とのわれ われのインタピューでは、 「情報システム技術について日本銀行や大蔵省に指導を受 ける必要はまったくない」というのが一致した見解であった。 9 . 金融情報システムセンター (1996) 、 432‑433頁、を参照せよ。な お、この調査でいうコンピュータ関連部門とは「システムの企画・開発・運用に関す る部門 j であり、われわれの調査の「情報システム部門」に対応している。 u 円r QU q a
日本 S A Sユーザー会 (SUG I‑J) 商品先物取引における米国産大豆の時系列分析と回帰分析 0大 久 保 謙 一 鈴木二郎 フジフューチャーズ株式会社 商品開発部 T H ET i m eS e r i e sa n dR e g r e s s i o nA n a l y s i sf o rS o y b e a nF u t u r e s ( ) K e n i c h i O k u b o Ji r o S u z u ki M a n a g e dF u t u r e sO e v e l o p m e n tO i v i s i o n T O . F U J1F U T U R E SC O .,L 要旨 シカコ。マーケットと東京マーケットの H H I l l l I先物取引の主要銘柄の一つである米 J I , I jl)そ大厄の l 時系 列分析を通じて、 j ,!i]マーケットの先物 { r l i栴の動向を検 I証する。また│副知}分析咋からキ1 1 英W I :を調 べ 、 f r l i格推移を検討する。 キーワード: SAS/ETS S八 S/CI~八 1)11 S ^ S / I¥ JS I C I I T SAS/^ S S I S T 3 3 3
時系列モデルの位置づけ 経済現象を構造方程式によって捉えようとする手法は、決定論的な因果関係を前提とした理 論モデー/レに基づくとされてしも。 しかし、現実の経済現象にはランダムな変動が存在する, このラング、ムな変動は、確率的な変動として捉えられるが、「確率変数」として扱われるのが 普通である。 構造方程式によるアブローチで・は、誤差項が確率的に変動するとしづ形でラン ダムな変動を捉えようとするが、この場合、誤差項は互いに時間的に独立であるとの仮定がた つ。時系列モデルは、確率的な変動が相互に影響し合っている部分を扱うれ 1 <0 000 東京米国産大豆月足 1 2 0 0 0 0 10α"'" 以 " ' " 8 6 以lOO 4国 同 2 以lOO 1 5 1 7 5 1 9 1 1 1 1 9 1 7 1 9 1 8 1 9 7 1 1 H i l 8 0 1 9 8 1 1 9 8 2 1 1 1 8 3 1984 1 9 8! 1 1 9 8 6 1987 1 9& 8 1 1 1 6 5 1 1900 1 9 1 1 1 1992 1 9 9 3 1994 1995 1 9 9 1 1 1 9 9 7 1998 1100 シカゴ大豆月足 1000 9 ∞ 800 100 600 ∞ 5 d eeA74 ea 4 ﹄ ・ ︐ A ・ ﹄ ' ・ 。 。 ∞ 3 ・ IIH21 131117 ・ ・ ・ 1 9 1 5 1 1 1 7 1 1 1 1 1 1 1 1 1 1 1 8 '979 j l l a O 1 1 1 8 1 1982 1983 I841985198619871 8818891宮島o 1 5 1 5 1 1 1 1 1 9 2 1 内 宮g J 1 9 1 1 4 1 95 1 l 19! i 1 991 1 9! i8 ‑334‑
/て叫眼 ¥ コ ム ド 正 自\~,IR~Æ 単 位5 8 2 差州 東京米国産大豆 シ プJゴ大豆 ~. 1 1 . L . 一 一 一 L ̲ ̲ ̲ L 一 一 一l ・ ・ ・ ・ ・ ・ ・ • 1 ー ・ ・ ・ ・ ・ •・ ! ! . . [ ! . i i 1 ~ I. W 信 号 車 . ~II 慌 時 平 関陣 このグラフは、東京市場の米 I J I応大豆とシカゴ" di J : b i の大 ‑ Uのう1 0物 i d l i棉のチャー卜で ある。シカゴ大江の;場合、 ‑見すると、ランダムな到Jきをしているように i Lわれるが、 m 位制検定において、 シカゴ市場の j劫合は、ランダムウオーク似 ;j~~ は来却される。点 I I米国産大 5 ‑の場合、 トレンドを形成・反転で批移していることから、附去をとるこ とにより、定常化することが!日米る。 時系列モデルの考え方 時系列モデルは、経済現象がど、の様なものであるにせよ iつのブラック・ボックスとみなし、 そこから得られた変数を読解し、経済システムの特性を経済変数の時間的変化によっすて把握 しようとするが、その中には、変動が持ってし活様々な周期の波動を分析するスヘクトル解析 や、過去の自分自身の変動によって現在を説明する自己回帰分析等がある。 東京米国産大豆差分 シカゴ大豆 g c l 躍 売 ô2(~~ 巳段 ~J;)SH~ ',‑ーー一一‑‑‑.面画面目園面「 i ; 一一子園町 1ij! 1 ・ E ↓ h i ・ 圃 iijf iJ 1h ・ i l ! il l l L 十 十 十 「i i ‑ 'l 11 i 1 1 協妨 l 地 問E i i , ' J. l革 路 G . ¥, ; i 、 " 民υ η o q o j~~f,託
自己中目関係数は、時系列における時点聞の関係の強さを直接示すものである。これに対し て時系列における偏自己相関係数は、与えられた期間内の影響を取り除いた時の関係の強 さを示すものである。主にモデルの次数を決める時に用いられる。前図のシカゴ大豆や東京 ]enkinsの方法を用いると、二次が最適、つまり、 AR(2)が最適だ 米国産大豆の場合、 Box‑ と考えられる。 《確率過程と定常確率過程》 ある事象が、各時点 tにおいて確率変数 X, で記述されるとするc このような確率変数で表現 された系列を「確率過程」と呼ぶ。時系列モデ、ルは、各期の経済現象を様々な可能性の中 から確率的に実現した事象ととられ、その系列を分析しようとしたものである。 つまり、対象と する経済現象を確率過程としてとられる分析手法である。 1変量の確率過程において、分散 が一定で自己相関関数が時間に依存せず時間差のみに依存している場合は、「定常確率過 程」としウ。 「一一一̲ k 一一一一寸 , X X1+S X'+k Xt+s+k L一一一一 ( 一 て一 一 一 ら ば x X , とX'+k の相関と Xt+sとX +s+kの相聞は等しくなる。 1 1 ) ARMAモ子ル A R ( p )モデ、/レと MA(q)モデルを組み合わせた形で、現在の Xtを過去の xの値の加重和及 び、現在並びに過去のその期独特なランダ、ム要素の加重和として表現した次のモデ.ルを i ARMA(p, q )モデル」と呼ぶ。 ゆ 九 日 1+ ゆ2Xt‑2+…+ゆpXt̲p +U, +θlU'̲l +82u'̲2+…+ θqUt̲q Xg= ARノfー卜 1 ) ……… ( M Aパート (1)式で時び=1 , 2 ・ ,, "q )とすると、このモデルは A R ( p )モデ";レとなりや' j =O ( j=1 ム… p )と q o n o q o
すると MA(q)モデルとなる事から、八I¥M八モデルは一般的なモデル表現といえる日 AI~M 八 (p , q) モデルで特に p=q=O のケース、すなわち、八 I~M 八 (0, 0 ) は 、 U, ωものモデル となるが、これを「ホワイト・ノイズ・モデル」と呼ぶ 同モデル i 士、各期特有のラン夕、、ム要素のみ h からなるモーア、/レで、ある O シカゴ大互の場合は、差分をとる必要がないので、八!ミ M八モデルを当てはめる"IV1八には、 一次、二次を当てはめ、その統計量を比較すると、二次の方が信頼性が高いことが分かる シカゴ大豆 当てはめた統計量の比較 :A R M A( 2,2 ) モデル 1 モデル 2 :A R M A( 2,1 ) N A M E L A B E L M S E R M S E M A P E M A E R S Q U A R E 誤差の平均平方 誤差の標準偏差 絶対パーセント誤差の平均 絶対誤差の平均 寄与率 M O D E L1 M O D E L 2 3 2 6 6 .9 7 0 5 9 4 5 7 . 1 5 7 4 1 9 5 . 5 9 9 1 6 2 3 7 . 8 2 7 7 1 1 0 . 7 5 1 5 7 7 3 3 1 9 . 7 9 8 7 4 9 5 7 . 6 1 7 6 9 5 5 . 6 5 8 1 7 6 3 8 . 1 9 0 7 7 0 O .7 4 7 5 6 0 A 凪" ( 2 . 2 ) C釦γ の予~値 1 1 0 0 1 αl O 900 8 田 7 ∞ 臥lO 500 ∞ 3 1 ¥ 17 1 lHl 1;7 4 1 1 1 7 5 1 9 7 6 ' 9 7 7 ' 9 7 8 ¥979 l 1 i8 0 ¥981111. 821983198 ・ 1 1 1 8 5 ¥ 1 1 5 81 9 Bヲ 19881989 '9CQ 1 ¥ 11 1 ¥ 1 9 1 1 2 , I i I I i IJ l 1 i 1 1 i 14 I 日 毎w 5 ' 9 9 6 1il719宮 川8 11 i9 1 1 υ nd ηl n a
《八 I~IM 八モデル》 Af~MA モデノレを原系列 x , の階差系列について当てはめたモデルを八 I~IM 八モデルと呼 -S~。 例えば、 x, の 1階差を考えて、 W, =x ,‑xト 1……… ( A )とする。 この時、 x ,= ( x,‑X, ̲ J + ( X ' ̲ l‑X, ̲2)+"' =W, + W ' ̲ l + . . . . . . . . . . . . (β )と変形て、きることか ら 11 INTECHATED11 M~MA モデルと呼ばれる口 東京米国産大豆の場合は、差分をとる必要があるので、 AI~IM 八モデルを当てはめる υM 八には、一次、二次を当てはめ、その統計量を比較したが、ほとんど差はない。 東京米国産大豆 当てはめた統計量の比較 モモル 1 : ARI MA( 2,1,2 ) モデル 2 : ARI MA( 2,1,1 ) NAME 均 平 の 回持 差 方差ト均 平偏ン平 均準セの 平棟一差 ののパ誤率 鼠誤絶絶寄 差差対対与 MSE RMSE MAPE MAE RSQUARE LABEL MODEL1 MODEL2 20134426 4 4 8 7 .140042 5 .116482 3 0 0 7 .833653 O .969834 20130789 4 4 8 6 .734735 5 .135267 3 0 0 8 .384824 O .969840 A R 1 H A ( 2 .1 ,1 ) TSOY 由 予 澗 恒 1 4 0 0 伺r‑‑ 1 2 αl O O . . . .・ ︐ 2 2''ae ︐ 1 0 α " ' " 8回 目 ν f げ ' 0 αl O ' 0 0 0 0 B ∞ 2 0 0 久 . ∞ ‑ 2 0 0 197~ '976 1977 1978 1979 1980 1 自6 1 1982 19BJ 1964 1 9后 ! i 1 986 1987 1 9 1 后 ! 8 t S le S l 1990 H I 9 1 1992 199J 199 3 3 8 ‑ ' . 1 9 5 1 5 1996 1991 1 自 自6 1 999
次に 96 年 7 月までのデータで、 ^I~M 八モデル、八 I.(IM 八モデルを当てはめ、凶年 N 月以
障の予測と実際の価格のヨj
j
o離を検証するに
一
シカゴ大豆
﹁iILl‑ト l h K L ヘ
﹁2
111
1
1
1
0
1
1
1﹂‑¥‑¥喜一
州側附蜘側附附
一一則問削抑制
∞
∞
7
0
0
戸二二五百ili~1I
│ー+ー予測値
!
卜・・ー上限 75%信持限界!
i
…一一下限 7
5百信頼眼界 l
!ー・ー上限 95S信頼限界
(二二ニヱ堕95誌{雲級限界
戸¥九円¥円︒由‑
一一¥町¥門町田一
一一¥円¥匹目白‑
一
一
ミh
g
‑
一¥‑‑¥田町田一
東京米国産大豆
一一¥一
一/ f ¥ ¥
/J'¥¥
¥‑ー一予測値
│
!一・上幅削茸頼限界│
i
ーー‑下隈 9
5彊{!i碩隈界 1
I
二土竺醐
注
目
町
一
‑h
¥ ? と ︑i
︑十
一
一
¥ωmm‑
戸¥凶
一
¥
門¥
@mm‑
戸
¥‑F¥的mmF
̲ 門 田
戸¥‑¥岨由m
F
‑
ノノ・¥¥.一︻¥¥︒
/JM7JJ/
m
町 守 田 町 田
町 町 田 町 。
ー 田 ‑
‑
‑
mam‑
戸
︑
︑
九
一¥
m
一
ー
ー
ー
ー
、
、、
、、
、、
、、ー
、
¥
ー田
"町
" 田
"
守 ¥
F¥m¥田町︒F
守
‑¥円¥マmmF
¥
m
‑¥同¥守m
m‑
、、
‑¥門¥マm
m‑
!
日
日
口
一
T1111Fr4111トliltoili‑‑一言注目宝
一
fJ!rff
;;
¥¥‑KQ︐¥¥
ヘヘ同町一へ
∞∞∞
﹁ 11}││iA1
レい
r¥le
R L
11000
戸ミ二瓦扇面否一一寸
.
1
I
l
界i
Qu
n
o
n
o
結果を見ると、シカゴ大豆は予測からかなり事離している。一方、東京米国産大豆は精密と はいかないが、予測と近い範囲で推移している。この違いは、シカゴ大豆は上昇下落がかなり 激しく推移しているが、東京米国産大豆はトレンドを持って推移しているからだと考えられる。 相場を分析する手法の一つにテクニカル分析があるが、この分析においても基本はトレンドと いうことが知られている心 │ │ 先物価格の変化量における自己相関の存在 I 1 ‑自己相聞とは、基本的には、過去の価格変化量が将来の価格変化量の予測に有効だと する仮説である。 自己相関からゼロではない期待価格変化と、その結果としてゼ、ロで、はない期待利益が示され ることもある。だが、我々はリスクと期待利益の聞にトレード・オフ関係があることをすでに知っ ている。先物価格の自己相関には、理論的な正確さ以上のものがある。最小 2乗推定量は、 自己相関が存在しているためにバイアスがかかっていることが一般的に言われている このバ F イアスはある程度であれば修正可能であるが、適切な調整をするためには、自己相関の性質 を調べなければならない。このことは、特にへッジする時に重要となってくる。 ││最小 2乗回帰推定量 I 1 平均、分散、共分散が解ってしも確率変数と wとzI, f, Z3r‑‑znを考える ο 回帰残差 い (ど 山 E= W ‑ b 1 z1 +b2 パ ど 〆 bn〆 + ゆ z 2 ♂ F 何かο これはすなわち線型回帰の基本形式である ,, , ( . . z "の加重和をつくり、 wとの差の分散で、測った距離の近似値を求めるとし、うこと zl Z2 Z 3 r・ であるc ‑340一
l
l
J
J
三 I~;l
了│」│
[
医
吾
ヨ
iHn10・
4
Eヨ
?
:
二
;
司
ι
;
¥
J
ム
1
l
:
一
一
‑
山
」
i
士
3
J
矛
J
五
h
工
i
入
:
¥
i 1::T31
『じじ竺,,¥ペー:
;
J
:
;
:
:
:
; 心
?
そ ι 4
ペ
:
J
:
:
i
;
J
i
i
i
J
‑
;
;
J
;
;
i
i
j
:
:
;
J
:
:
;
:
:
;
:
:
;
;
J
:
:
:
;
.
;
j
;
J
j
;
;
:
i
i
J
i
三
.
;
J
J
.
;
;
‑
,
.
:
j
‑三:
600
700
sOO
三
一
戸
一
500
~OO
刈
1
;
j
コ
;
:
Jご
ミf
../t
,
;
l
i
'
'
;
f
;
̲
:
;
̲
100
200
"
"
一
,
画
mJ
二
五
二
相関行列
T150Y!
一一
J
o
o
同一一一一一一
一一一一一一一
当てなめの重約
変動因
f
'0
モデル
鼠 ..
金俳句}
341‑
(0
モデル式 4 7 2 8 6 . 7 + 6 2 . 3 7 0 9C S O Y + 当てはめの要約 5 7 1 1 7 . 4 9 6 8I 寄与率 1 0 0 5 8 .9 0 5 6I自由度調整済み寄与率 3 6 0 . 4 8 5Y E N 0 . 8 5 1 0 O .8 4 9 9 商品先物市場の場合、通常ロープ' JJレγ ーケットは γ ザーマーケットを反映する しかし、それ J だけではない様々な要因がある。東京米国産大豆は、シカゴ市場を反映しているとしづより、 為替による要因の方が大きいとし、える。また、市場規模の違いや市場参加者の違しも影響し てくるであろう υ シカゴ、大豆と東京米国産大豆の回帰分析は失敗で・あったが、要因は次のよう に考えられる。マザーマーケットで・は、現地の情報が直に反映される川穀物相場におし、ては、 天候や在庫、需給統計などがそうである。そしてこれは、時に噂や未確認情報であったとして もマーケットに影響を与える c,そのためにアップrグ、ウンが激しし立想像出来るりしかし東京市場 には、為替を加味してその日のマーケットが始まる。タイムラグとしウ問題も起こる"以上のこと が、シカゴ大豆と東京米国産大豆の先物価格の推移の差と我々は考える。 参考文献 [ I J浪 花 貞 夫 贋 松 毅 経 済 時 系 列 分 析 朝 倉 書 庖 ‑342‑
日本 S A Sユーザー会 (SUG I‑J) 投資スタイル・インデックスの分析 小野潔 株式会社ニッセイ基礎研究所 金融研究部 Thea n a l y s i so ft h eInvestmentS t y l elndex Ki yoshiOno NLI Research I n s t i t u t e FinancialResearch‑Department 要旨 投資スタイル・インテヘソクスは、運用のぐンチマークやファンド、・マネシYーのリスク分散に使われ る。米国の年金運用では、かかせないものになってきた。昨年日本の証券 各社が、日本株式市場に合ったスタイルインテVクスを、相次いで発表した。各社 のスタイ)いインデックスの概念は、同じでも定義が相違するため、ユ-~"は使用する うえで分析が欠かせない。本稿は各社のスタイル・インテVク ス を 、 SAS システムで統計 分析した結果を報告する。 キーワード: 投 資 ス タ イ ル ・ イ ン テ 、 、 ヅ ク ス 、 2次元計画法、 クラスター分析、 SAS/IML、SAS/STAT 1 .はじめに 投資スタイルインテ Vクスは、株式銘柄をある指標で分類し、その力テ了リーに属する銘柄の収益率から作 成する。スタイル・インテVクスの重要性は、 77ン 卜 ゃ ・ 7ネシ、、ヤーの投資スタイルを判断で、きる点にある。米国では、 年金運用が大きくなり、 7 ァ ン 卜 ゃ ・ 7ネ γャーによる資産運用を投資スタイルに分類し、 JOト?ンス評価j I や リ ス ク 官理するようになってきた。日本でも最近、投資スタイルの重要性が、認識され始めてきた。 昨年、日本の野村・大和・日興証券各社が、日本市場に合った投資スタイル・インテVクスを発表した。 各社のインデックスは、それぞれ特徴があるので、ユーす、はその定義とインテV引を分析する必要がある。 投資スタイルインデ、ックスを分析する統計ソフトには、統計分析機能として相関係数/2次元計画法/ク ラスト分析を備え、データのハンドリンクー機能、経済 DBへのアクセス機能、ゲラ7イツクス機能が充実し、 かっ 簡単に取り扱えることが重要である。 SASシステムは、これら機能をすべて提供されており、今回、 UNIX版の SAS シ ス テ ム リ リ ー ス 6 . 1 1ーに分析アrリケサョンを構築した。 3 4 3
2 .投資スタイルの考え方 投資スタイルには、一般に Growth型と Value型がある。 Growth型7ネγャーは、将来市場平均を上 回る利益成長が、見込まれる企業の株式に投資する。それに対して、 Value型のすわやヤーは、企業 の将来の成長性に関心はなく、何らかの理由で割安に放置されている銘柄に投資する。 スタイル・インデヅクスは、スホ。ンサーの7 ァ ン 卜 ゃ ・ 7ネγャーに対するリスク分散から発生した。そのため、リターンの格差 があっても、インテVクス聞の相関係数が低く、リターンの変動が異なれば、リスク分散の意義が大きい。 事 。 一 卜7 ォリオのスタイル分類するには、「リターン時系列に基づく投資スタイル許叩i l 法」がある。この理論によれ ば、投資スタイルの決定は、;ji0 ̲卜 7 ォリオの月次リターンとの相闘が高く、決定係数が大きくなるような、スタ イ ル イ ン テVクスの組合せを 2次元計画法で解くことで導かれる。これを 2次元座標上 ( V a lue/Growth r 軸、大型/小型軸)に時系列であらわすと、スタイル・ 7 ッ が得られ、 7 ア ン ド 、 ・7 ネ γャーの投資スタイルの変遷 がわかる。 スタイルインテVクス悶のリターンの格差は、 どの 7 アクターから生じているのであろうか。 7 アクター分析は、 7 アクターリターンとその累積値をトレースすることで、どの 7 アクターが超過リターンの瀬泉となるかを確認でき、 あわせて Value型と Growth型の市場動向をレビューできる。 3 .計算方法 3 .1.インデ Yクス・データ 円。リトションの開発には、 S A S / I M L,S A S / S Q L,S A S / S T A T,SAS/CO 附E C T,S A S / A F,ス ク リ ー ン コ ン ト 日 づレ言語,および P R O C A テ, ' ) rを用いた。 基本の各社のスタイルインテ守ツクスのデータは、 85年から 96年までの月次収益率を、 SASテ タセットに保存 し適宜用いる。インデックスは、月次収益率を累積計算する。 Value型/Growth型 イ ン テVクスの相関係 数は、 SAS の CORRr日シーシやヤーで時系列の月次収益率の相聞を月次ごとに計算し、 SASデ ー タ セ ッ ト に蓄積する。 3 . 2 . 2次元計画法 a l u e型/Growth型および大型/小型イン リターン時系列分析は、分析する事。一卜片付の月次収益率を V デックスの月次収益率で説明できるように、 2次元計画法で解析する。 r日グラムは、次の関数 stylc̲optを定義し、 NLPQN)阿ンを用いる。 s t a r . ts t y l e ̲ o p t ( x ) g l o b a l ( f u n d, varl, v a r 2 ) ; e r= ( f u n d・( x山女varl+x [ 2 ]宋 v a r 2 ) )##2; r c t u r n ( s u m ( e r ) ) ; f i n i s hs t yl ̲ o p t ; 宋 QCc o n d i t i o n ; con={ O0..,11..,1101} ; xO={ O2 } ; c a l ln l p q n ( r c, x r,s t y l ̲ o p ぺ ' txO, optn, c o n ) ; 大 fundは、分析する;ji 卜 7 ォリオの月次収益率のデータセ y卜; 大 v a r lは 、 Valuc型インデックスの月次収益率のデータセット; 0̲ ‑344‑
v a r 2は 、 G r o w t h型インデックスの月次収益率のテ タセット; .一 1 rl万 ションでは、 f u n d, v a r l, v a r 2は、各社のインテヘyクスと株価指数中から自由に選択できる。 f u n d に TOPIX 、v a r lに V a l u e型 、 v a r 2に G r o w t h型の SASテ タセットを選択すれば、 TOPIXの投資ス r山と x r [ 2 Jの割合を V a l u e / G r o w t h軸の座標点に変換する。次に v a r l タイル分析ができる。解の x に大型、 v a r 2に小型インテVクスの SASデータセットを選択し、 B i g / S m a l l軸の座標点、を求める。これらの 座標を SAS デ、ータセットに保存し、時系列で解を求め、グラ7 上に表示すると、スタイル・ 7 ッ 7 。になる。 六 3 . 3 .クラスター分析 r ト 分類は、 各社のスタイル・インテヘyクスの月次収益率を、 クラスター分析する。 S ASの スタイル・インデックスのゲ j CLUSTER7 。日シーシやヤーを使用し、データは 85年 1月から 96年 1 2月の 1 4 4ヵ月間を用い、分析 手法にはウトド法を用いた。 3 . 4 .ファクタ一分析 7 アクター分析は、月末時点ごとに東証上場銘柄をスタイル別に分類し、 1 0年間 ( 8 7年‑ ‑ ‑ ‑ 9 6年)の月次7 ア アクターの時価総額加重平均を 7 ア ク クターリターンを使って如スセクション回帰分析をする。スタイルに属する銘柄の7 ターエキスホ。ーシ守ヤーとし、スタイル・インデックスの月間リターンを7 アクターエキスホ。ーグヤーで回帰し、 7 アクター・リターン(回帰係 数)を求める。その7 アクターリターンの推移を t 検定し、有効な 7 i ' ' J J I ーを抽出する。分析対象は、大和証 券のスタイル・インテゃックスとする。 4 .分析結果 4 . 1 .定義の比較 各社から提供されるインデックス数は、業種やセクター区分数が相違するが、基本のスタイル・インテ、、ックス 数は、各社ともほぼ同じである。各社の定義を次頁(表 1)に示す。なお、各社のデータを一律に R u s s e n / N R I を野村証券、日興/ B A R R Aを日興証券と略する。また、大和証券の M o m e n t u mG r o w t h型を G r o w t h 比較するため、会社発表の数字・項目を一部変更しである。以後の各社の名称は、 型と略する。 野村証券の分類指標は、修正 P BR(= 株価/1株当たりの自己資本)を使用し、定義がシンプルで わかりやすいが、インテVクス聞の相闘がやや高い。大和証券は、無理に V a l u e型と G r o w t h型に分 類せずに、どちらでもない銘柄を C o m p l e m e n t型(全体の 2割)とし、インデ、yクス聞の相関を低く した。日興証券は、修正時価総額を用いずに、公表データのみで作成した点が評価できる。ただ定 義が複雑であり、他社とスタイルが逆になる業種がある。 4 . 2 . スタイル・インデ妙スの時系列変化 各社インデックス共に、 V a l u e型の方が G r o w t h型より、変化率が大きく平均リターンがよし¥(次頁)。ま た、米国の株式市場のように V a l u e型と G r o w t h型の循環が、この十年以上日本では、ほとんど 起きていない。結局、日本市場では V a l u e型のみを運用した方がリターンが高くなるが、リスク分散が できない問題を生じる。 υ F同 Aせ qu
表 1. 各社の投資対イルインテVクスの定義 野村 ( R u s s e l l / N R I) 名称 日興(日興/ BARRA) 大和 ar k e t,L a r g eC a p,日本株総合、大型株、中型株、 大型、超大型、中型、小型、 T o t a lM S 問 1 1C a p, T o pC a p, 附 dCap 小型株の ALL/Value/ 種別 M ‑ G r o w t h / C o m p l e 鴨川別 のA L L /G r o w t h/ V a l u e別 総合 J ' I マイクロの A L L /G r o w t h/ V a l u e 別 合計数 上記のトー外リタウ/株価リターン別 上記の全銘柄/投資可能銘柄別 よ記の全銘柄/東証 1部よ場 計 30種類 計 32種類 8市場+盾頭 市場 東+大+名証+盾頭市場の 計 32種類 銘柄別 8市場+盾頭、東証 1部銘柄 投資可能銘柄 時価 修正時価総額 時価総額(よ場/修正) 総額 (安定持株を除く) 単位株換算株数 修正 PBR低 下記の基準化値の単純平均高 V a l u e (自己資産に保有有価 ①修正 PBRの逆数 合成指標値を作成する の定義 ②予想 PERの逆数 ① PBRの逆数 ③予想配当利回り ②売よ高成長率、実績売よ高 証券、土地の修正を加える) 時価総額(修正なし) 下記G)(2)の平均分ク値から 成長率、予想売よ成長率 下記の基準化値の単純平均高 / 3が V a l u e型 合成指標値の低位 1 G r o w t h 修正 PBR高 ①平均内部成長率 合成指標値の高位 1 / 3が G r o w t h型 の定義 ②予想増益率 / 3が V a l u eからの時価 中央 1 ③売よ高成長率 総額ペースでの比率により按分 i n d e x 安定持株修正時価総額加重 安定持株修正時価総額加重 時価総額加重 9 8 0年 1月 開始 1 1 9 8 4年 1 2月 1 9 8 0年 1月 年 2回 (6、1 2月) 年 2回 (6、1 2月) 入替 年 1回 ( 1 2月) 証券各社の STYLE INDEX( 8 4年 1 2月末二 1 0 0 ) 一一一日経 2 2 5 (図中) A L U E (図上) 一一一野村 V A L U E (図上) 一一一日興 V A L U E (図上) 一一一大和 V 一一一野村 G R O W (図下) 一一一'日興 G R O W (図下) R O W (図下) 大和 G 5 0 0 4 5 0 4 0 0 3 5 0 累3 0 0 f250 数2 0 0 図の中央の太線が日経 1 5 0 2 2 5であり、それをは 1 0 0 5 0 85868788 8 ! J 90919293949596 ‑ 3 4 6 さんで上側にあるグラ フが V A L U E指数、下側 R O W 旨 : j にあるグラフが G 数である。
4 . 3 . V a l u e / G r o 抗 h型の相関係数の時系列変化 90年以降、 Value型と Growth型の系列相聞が、異常に高まっている。最近は Value型と Growth型が、同じような変動} ¥ Oトンを起こしている。 ValuejGrowth相 関 係 数 ( 3 6ヵ月トリンクゃ) 相 0 . 9 思0.8 数 0 . 6 8 38 48 48 58 58 6 8787888 88 98 99 09 19 19 29 29 39 49 49 59 59 6 (注)大和インドック 1は 8 5年 か ら 4 . 4 .スタイル・マップ 日本株式市場の特性と各社の特徴を調べるために、市場指数 ( T O P I X 、日経 2 2 5 )を検証した。例 えば、 T O P I Xのスタイル・ 7 " ) 7。では、大和・日興証券はほぼ特定範囲に収まっており、 T O P I Xが株式市 場のベンチマークとして適確なことがわかる。 スタイル'チャート (TOPIX) (90~ 何年月末毎,相関期間 36 カ月) ‑ 2 5 o Value/Growth 2 5 にに布広し 部部分は布 上中て村分︒ ははし野にる 興和中︑囲い 畠日大集し範て 5 0 5 0 これに対し日経 2 2 5は、ぱらつきが大きいのでアクティア・ 7 ァントゃと同じに、 3 6カ月移動平均で時系 列のスタイル・?ッ7"(次頁)を描いた。 日経 2 2 5が定点、にならない理由は、①日経 2 2 5が平均株価で、時価総額加重で、作成されていな い、② Value型と Growth型のインテVクスの相聞が 0 . 9以上と高く、 2次元計画法で解く際に、系列 相闘が起こるためである。 スタイル・?、,')7"の大型/小型値の変化に比べて、 V aluefGrowth値は、かなりばらつきがあるが、 各社のスタイル・インテVクスの定義を反映したものである。 A包 t ワ QU
スタイル・チャー卜(日経 2 2 5 ) 大型/小型 ‑ 2 5 ‑ 7 5 日興・大和 は、直近ほど 左下から右上 方向に移動す る。それに対 して野村は、 途中から左下 7 5へ 方 向 転 換 し ている。 2 5 ValuefGrowth 4 . 5 .グループ分類 " ; ' } Aを提供している。この各社の月次 証券各社は時価総額区分に応じて、サイス、、別スタイル・インテ " ¥ Oトンをクラスター分析すると 1 砂川‑]"に分類できる。 収益率の変動 } クラスター分析のヂン卜1グラム(樹系図、次頁表 2)は類似ゲ)トアを結びつける。この図の特徴は、 ト]"が中・小型ではなく大型に含まれること、②大和中型が野村・日興の小型に ①野村中型ゲ j 近いところに位置していることである。 r別インデックスの中に各会社の特徴が、発生するのはなぜであろうか。 r各社の時価総額に占め サ イ るスタイル・インデックスのサイr区分」をみると、野村証券の中型は他社の大型を多く含み、大和証券の中 型は他社の小型に含まれる。このようにサイ了別インデックスは、証券各社のサイ r区分の定義を把握 しないと、意図するぐンチトクにならない。 時 価 総 額 に 占 め る λ9イル・インテ.ツヴスのサイズ区分 大和 日興・野村の 大型は超大型 と中型を合計 する。 日興 大和・野村は 修正時価総額 を用いている。 野村 日目 2日目 4日目 60首 348一 8日目 100%
表2 . スタイル・インデックスのグループ分類 大分類 中分類 大和 中・小型 Growth グループ. スタイル・インテ・7クス名 大和中型 第 1 大 和 中 型 Growth 野 村 小 型 Growth 第2 大 和 小 型 Growth デンドログフム ド 第 3 大 和 中 型 Complement 日興小型 第 4 日興小型/ンマイクロ 野村小型 中・小型 ス9 イ / レ ・ イ ン テ "Jク ス 野村・大和・日興 小型 第5 野 村 小 型 大 和 中 型 Value ト ー y ト ー 大和小型 第 6 大 和 小 型 Value 大 和 小 型 Complement 日興マイクロ 日興 中型 野村 大 型 Growth 里子村 中型 日興中型 第 7 日興中型 Value 日興中型 Growth 野 村 中 型 Growth 第 8 野 村 Growth 野 村 大 型 Growth 第9 野 村 超 大 型 野 村 超 大 型 Growth 第 10 野 村 中 型 野 村 中 型 Value 野村・日興・大和 大型・総合 日興総合 第 11 日興総合/ンマイクロ 日興大型 大和総合 野村・大和・日興 大 型 Value 第 四 野村総合 野村大型 第1 3 日興超大型 野 村Value 第 14 野 村 大 型 Value 大 和 Value 大 和 大 型 Value 総合・大型 スタイ/レ・インテ "Jク ス 大和・日興 大 型 Growth ト 一 一 一 一 円 は ト 一 一 ← ト ー トー ヤ ー ー ー } 同 ー ー ト ー ト ー 第1 5 日興Value ← ー 日 興 超 大 型 Value 第1 6 野 村 超 大 型 Value 大 和 Growth 第 17 日興 Growth 日 興 超 大 型 Growth 第 四 大 和 Complement 大 和 大 型 Complement 一 一 (注)各社が発表したインデックスの名称を、統ーをとり、わかりやすいように変更しである。 ‑349
4 . 6 .ファクタ一分析 累積7 アクター・リターンの符号が、正でも負でも同一であり続けることが、安定性をみるうえで重要で ある。その傾きがより急なほど効果が高い。市場動向をレビューすると、最初から一貫して有効で ある 7 ア ク タ ー( e x .配当利固めと、 9 1年以降あまり有効でなくなる 7 ア ク タ ー( e x . 株式益利回り)がある o ) ¥ " 7 " ) v 崩壊後の株式市場が変化し、有効な 7 アクターに影響があったことが読み取れる。 スタイル別に比較すると、 アクターと、特に V alue型に効く 7 アクターが存在する。前者は、 両者に効く 7 「移動平均からの不離」、「前月のトタル・リターン」であり、後者は、「純資産株価倍率」、「配当利回り」、 「 キ ャ ッ シ ュ7 ト株価倍率」、「売上高株価倍率」、「予想経常利益の変更率」、「予想当期利益の変更率」、 「予怨売上高の変更率」である。 配当利回り 5 .おわりに 各社のインテヘyクスには特徴があり、ヘマチトクとて使用する場合は、注意が必要である。同じような 意味をもっスタイル・インテVクスでも、どの会社のスタイル・インテペyクスをへやけ?ークに採用するかによって成績評価 が異なるようでは、問題があるだろう。したがって、どの会社のインテヘyクスが最も適切なのかは、更 なる分析が必要であるが、利用目的と照らして、慎重に選ぶべきだろう。 0年以上、 一貫して V a l u e型インデ、ックスの成績がよい。そのため、アクティ 日本株式市場では、過去 1 ア運用のぐンチトクとして、まだ積極的に使われていない。しかし、年金の増加に伴い、投資スタイル・ イ ン テ ヘyクスを利用した、新しし刊。ンチトクや 77ン ト ゃ ・ 7わやヤーの分散が、 ますます重要になろう。 参考図書 T .ゲニエ!日キツ、 7 ラ ン クJ . 7i ' 事 、 、 ツ イ : i 株式投資スタイJ V J、 1 9 9 6、野村総合研究所 大和証券および日興証券の「投資スタイル・イげやックス」資料 ‑35 0
日本 S A Sユーザー会 (SUG I‑J) データウェアハウスのための金融ニーズ密度推計モデル 恒松直幸浦垣勉属岡康雄内藤孝一 システム科学研究所 NTTデータ通信株式会社 A nE s t i m a b l eM o d e lo fF i n a l c i a lN e e d sf o rD a t aW a r e h o u s e s NaoyukiTsunematsu,TsutomuUragaki, YasuoH i r o o k a,K o u i c h iN a i t o h ResearchI n s t i t u t ef o rSystemScience NTTDataC o r p o r a t i o n 要旨 本稿は、老後の備え、教育資金といった金融ニーズがライフステ ジと 密接に関係している事に着目し、これらのニーズをロジスティック回帰 により分析した結果を報告する。また、この結果を金融機関におけるデ ータウェアハウスで活用する方法を提案する。 キーワード:口ジスティックプロシジャ、ランクプロシジャ、データウェアハウス 1 . はじめに データウェアハウスが新しいタイプの情報システムとして注目を集めている。これは、デ ータウェアハウスが、既存業務を革新する「知識を生みだすためのシステム」として期待さ れている事にもよるであろう。そして、 「知識を生みだ、すための技法」がデータマイニング である。一般的に、データマイニングは、人間には発見しにくいパターンや規則性をデ タ ウェアハウスに蓄えられたデータの中から発見する事と考えられている。ひとたび、このよ うなパタ ンや規則性という形の知識を発見できれば、それを業務に適用する事によって、 競争力を高める事ができる。ところが、業務に適用可能であり競争力に資する知識を発見す る方策は、上述のようにデータウェアハウスに蓄えられたデータをマイニングする事だけで はない。 本稿では、金融商品の利用状況に関するアンケ トデ タの解析によって、金融機関のマ ーケティング業務に有用な知識が発見できる事を示す。また、この知識を金融機関のデータ ウェアハウスに実装するための方法を提案する。 υ F同 噌﹄ム qu
2 . 金融商品の利用実態の概要 NITデータ通信(株)システム科学研究所は、 1 9 9 4年 6月に首都圏 40km圏に居住する 2 0 歳以上 7 0歳未満の男女個人 1 , 3 0 0名(学生を除く)を対象に、金融商品の利用状況や貯蓄、 保険などに関する意識調査をを郵送法によって行った。この結果、有効回収 958票(回収率 7 3 . 7%)を得た。この節では、上記調査による金融商品の利用実態の概要を述べる。 2 .1 金融商品の利用率 5 5 . 6 定額貯金 貯蓄型の養老保険 定期預金・スーパ一定期 財形貯蓄・社内預金 積立定期預金 学資保険 貯蓄型の損害保険 株式・株式投信 金銭信託・貸付信託 MMF・中国ファンド こども保険 積立貯金 定期貯金・ニュ一定期 教育積立貯金 公社債投信 割引金融債など 債券 金貯蓄口座 株式るいとう 変額保険 住宅債券 こども養育共済 外貨預金 住宅積立貯金 。 1 0 20 30 40 図 1 貯蓄・投資のための金融商品の利用率 ‑352‑ 50 60(%)
前記のアンケートを用いて、様々な種類の貯蓄・投資商品の利用状況をまとめたのが図 1 である。この図には、郵便局の普通貯金、銀行の普通預金など、あまりにも利用率が高いと 考えられるものは含まれていない。また、主として保険会社によって提供されている保険・ 年金商品も含まれていない。 図 1は、銀行、保険、証券、郵便貯金という 4種類の金融機関によって提供されている商 品を、全部で 24掲げている。一般的に言って、保険業界が提供する商品は、その利用目的 が限定されている物が多い点に特色がある。これと対照的なのが、銀行業界が提供する商品 で、商品の性格だけからはその利用目的を特定しにくい。 この点を具体的に見てみると、まず、 「貯蓄型の養老保険」、 「学資保険 J ["こども保険」 は老後の生活の安定や、子供の教育費といった特定の目的のために提供されている。一方、 「定額貯金」、 「定期預金・ス パ一定期」、 「積立定期預金」などは、特定の目的とは直 接には結びついていない。では、こうした商品の利用者はどのような目的でこれらの商品を 利用しているのだろうか。 2.2 利 用 目 的 別 の 金 融 商 品 の 利 用 率 この問いに答えるために、アンケ トでは、図 2に示すような形で、さまざまな金融商品 の利用目的を尋ねている。この質問の結果を、主要な目的別に利用率の高い順に整理し、 5 つの金融商品を示したのが表 1である。 貯 蓄 や る投 も資 のを のお 番こ 下 Eコ 玉 ー 」 件L 、 につ 0て 印い 住 自 分 の 毛 F占 『 取 得 や 増 改 築 の た め 老 後 の リ 手 殖 生 i 舌 の た め の た め 定額貯金 定期預金・スーパ一定期 2 MMF・中国ファンド 3 財形貯蓄・社内預金 4 この質問では、最初に貯蓄や投資をおとなっている商品を選んでもらい、 つぎにその商品を選んだ目的を 3つまで選ぶ形で回答してもらっている。 図 2 貯蓄・投資商品の利用目的を尋ねる質問 ‑353‑
この表を見ると 2つの事が明らかとなる。第ーは、当然の事ではあるが、目的別にみると その目的に限定して提供されていると思われる商品の利用率が高い。具体的に 4つの目的に ついて見てみよう。 表 1 利用目的別金融商品利用率 目的 順位 住宅取得や増改築のため(%) 結婚や子供の出産・教育費のため (%) 第1 位 財形貯蓄・社内預金 4 2 . 9 学資保険 43. 4 位 第2 定期預金・スーパー定期 1 6 . 1 こども保険 2 3 . 1 第3 位 定額貯金 1 3 . 1 定額貯金 22. 4 第4 位 金銭信託・貸付信託 8 . 9 教育積立貯金・愛育貯金 2 1 . 0 第5 位 住宅債券 8 . 3 定期預金・スーパー定期 1 2 . 5 目的 順位 利殖のため(%) 自分達の老後の生活のため ( % ) 第1 位 定額貯金 2 9 . 6%) 1 3 . 8 貯蓄型の養老保険 ( 2 9 . 6 第2 位 株式・株式投信 13. 4 定額貯金 1 7 . 3 第3 位 貯蓄型の養老保険 . 6%) 1 1 . 7 個人年金保険(16 1 6 . 6 第4 位 定期預金・スーパー定期 . 0%) 8 . 1 保障重視型の生命保険(16 1 6 . 0 第5 位 金銭信託・貸付信託 8 . 9 定期預金・スーパー定期 1 1 . 2 百分率は、すべて当該目的別に見た金融商品の利用率を示す。 「住宅取得や増改築のため」という目的を持つ人達の 4 2.9%が「財形貯蓄・社内預金」を 利用している。住宅財形制度が広く利用されている様子が伺われる。また「住宅債券J ( 利 用率:8.3%、順位:第 5位)も、この目的に限定された商品である。 3.4%が「学資保険」を利 「結婚や子供の出産・教育費のため」という目的を持つ人達の 4 用している。同様に教育資金という限定された目的のための商品である「こども保険J ( 利 3 . 1%、順位:第 2位)や「教育積立貯金・愛育貯金J (利用率 :21 .0%、順位: 用 率 :2 第 4位)の利用率も高い。 AH1 phυ qu
「利殖のため」という目的では、リスクがあるが高いリターンも期待できる「株式・株式 投信 J (利用率:1 3. 4%、順位:第 2位)の利用率が高いのが特徴的である。 最後に「自分達の老後の生活のため」という目的では、 29.6%、順位:第 1位)、 「貯蓄型の養老保険 J (利用率: 「個人年金保険 J (利用率:16.6%、順位:第 3位)保障重視 型の生命保険(利用率:1 6 . 0%、第 4位)の利用率が高い。 このように「利殖のため」という目的を例外として、利用率トップはその目的に特化した 商品が占めている。これと裏腹に、一般的な利用率(図 1を参照)では、順位の高かった「定 額貯金 J (利用率:55.6%、利用順位:第 1位)や「定期預金・スーパー定期 J (利用率: 41 .8%、利用順位:第 3 位)が、利殖目的を例外として、いず、れの目的別利用順位において も低く、また、利用率も低い。 以上から、金融商品のマーケテイングにおいても、他の分野でのマ ケティングと同様に、 利用目的や使用場面を絞り込んだ商品の方が競争力がある、と言えるだろう。 3 . 金融ニーズの規定要因とその測定 利用目的を把握する事が金融商品のマーケティングにおいても重要であることがわかった。 では、利用目的そのものはどのような要因によって規定されているのだろうか。一つの有力 な要因として考えられるのが、ライフステ た人生の節目毎に金融ニ ジである。結婚、出産、住宅取得、老後といっ ズが変化し、それに応じて金融商品の利用目的が変化すると仮定 するのは自然であろう。しかし、このような変化を金融機関が直接に把握することは容易で はない。女性は、結婚によって姓が変わる事が通例であり、この姓の変更を金融機関に届け 出ているようである。この届け出は結婚したという事実を知るのには役に立つ。しかし、こ れは例外である。そこで、以下では年齢をライフステ ジの代用特性として用いることにす る。ほとんどの金融機関は顧客の生年月日を把握しているので、顧客の年齢を知ることがで きるからである。 アンケートでは、子供の教育費、退職後の生活資金等について、 保険などを行って準備している」かどうかを尋ねている。 そのような資金のニ 「資金のために、貯蓄や I 準備している J と回答した人は、 ズがあり、かっそのための準備を行えるだ、けの経済的な条件が整って いると考えられる。ニーズの方は、年齢を用いて推測することとし、経済的な条件として、 アンケートの中から世帯年収を選び、これら 2つの説明変数が、子供の教育費の準備と退職 後の生活資金の準備にどのように影響を与えているかを分析した。 3.1 年 齢 別 、 世 帯 年 収 別 に 見 た 教 育 費 と 退 職 後 の 生 活 資 金 の 準 備 度 図 3は 、 「子供の教育費の準備をしている」と回答した人の割合を年齢別、世帯年収別に 整理したものである。全体で 958のサンフルを年齢で 10のグループに分け、かつそれぞ れについて世帯年収を 3グルーフに分けたので、グラフに示された割合(%表示)は、必ず 355一
しも安定していない。しかし、全般的な傾向を読み取るには十分であろう。 (%) ,、、 9 0t 世帯年収 日 ーケベu 7 0 6 0 , y 40I . . " 一一一・高位グループ 中位グループ ‑・ ・̲.・:低位グループ E , ̲ ~ ~ 3 0 2 0 1 0 ーロー‑.J OF 年齢 2 0 ' " 2 5 ' " 3 0 ' " 3 5 ' " 4 0 ' " 4 5 ' " 5 0 ' " 5 5 ' " 6 0 ' " 6 5 ' " 24 29 34 3 9 4 4 49 54 59 64 6 9 図 3 子供の教育資金の準備度(年齢別、世帯年収別) このグラフの作成のためには下に示すSASのプログラムを使用した。 RANKプロシジャと ME 必.J Sプロシジャを組みあわせて用いている。 proc sorヒ; by age; / 女 5歳刻みの年齢 女/ proc rank groups=3 ouヒ=ouヒ; by age; var incorne; /安世帯年収(百万円単位) り ranks r̲inc; proc rneans ; by age; class r̲inc; var kid ret; / 女 kid子供の教育資金 reヒ 退職後の生活資金 ouヒpuヒ out=final rnean=kid̲rnean reヒ̲rnean; proc sorヒ data=final; by r inc age; proc print data=final; var r inc age kid̲rnean ret̲rnean; ‑356‑ */
図 3を見ると、子供の教育費の準備をしていると回答した人の割合は、明らかに年齢に影 響されている。一方、世帯年収の影響は、 40歳台の前半から不明瞭になり、後半にはほと んどないように見える。これより若い年齢層では、世帯年収も影響を与えているように見え、 世帯年収が高いグループ程、子供の教育資金の準備度は高いようである。 ( % ) 90 80 70~ 6 0‑ 1 5 0 世帯年収 一一一・高位グループ 中位グループ 低位グループ ̲ . . ̲ . . 1 ︐ ︐ 3 0 会 電 o a " a‑ ︐ V Ju 2 0 E ‑︐ 40 、、 q v F 1 ゆ / 〆 園口" 20~ 2 4 25~ 30~ 年齢 35~ 40~ 45~ 50~ 55~ 60~ 65~ 2 9 34 3 9 4 4 4 9 5 4 5 9 6 4 図 4 退職後の生活資金の準備度(年齢別、世帯年収別) 6 9 図 4を見ると、退職後の生活資金の準備をしていると回答した人の割合は、年齢に影響さ れている。誰もが予想するとおり年齢につれて増加する傾向を示している。一方、世帯年収 の影響は、 40歳台の前半から不明瞭になる。特に、世帯年収が低いグループの動きは不安 定であり、不可解とも言える。 3.2 年齢、世帯年収の教育費と退職後の生活資金の準備度への影響 以上のようにグラフから全般的な傾向を読み取ることができる。しかし、年齢や世帯年収 の影響を統計的に検定したり、それを数値として表現するためには、グラフや記述的な統計 量だけでは不十分である。そこで、教育資金と退職後の生活資金の準備の有無という 2値変 数を従属変数とし、年齢と百万円単位の世帯年収を独立変数とするロジスティック重回帰分 析を行うととにした。グラフの形状から年齢、世帯年収の両方について第一次の項だけでは 円 I Ru qu
なく、第二次の項も影響を与えている事が予想されたので、これらの項も独立変数に加えた。 しかし、第二次の項を第一次の項を二乗する形で作ると、両者の聞の相聞が高くなり、多重 共線性が生じる危険がある。そこで、二乗する前に、それぞれの変数の平均値を減じておく 事とした。 SASのプログラムは以下のとおりである。 agesq = (agei‑42)たて (agei‑42); incsq = (income‑7.4)たて (income‑7.4); ageinc = (agei‑42)たて (income‑7.4); proc logistic; model kid = income agei incsq agesq ageinc; proc logistic; modeユ re七 = income agei incsq agesq ageinc; 実際には、この単純なプログラムに続いて、説明変数を削除したモデルをすべて推定し、 尤度比検定によって適切なモデル選択を行った。その詳細は割愛し、結果だけを表 2に示す。 表 2 口ジスティック重回帰係数 変数名称 子供の教育資金準備 退職後の生活資金準備 定数項 1.2241 ‑ 3 .26 年齢 ‑0.0334 0.0345 世帯年収 0.1172 0 . 0 8 4 5 1 年齢の二乗 ‑0.00672 有意水準 10%で有意差無し 世帯年収の二乗 ‑0.0155 有意水準 10%で有意差無し│ 年齢×世帯年収 ‑0.00515 ‑0.00323 1 2つの推定結果を見比べると、退職後の生活資金準備のモデルの方が単純な結果をなって いる。年齢と世帯年収の係数が両方とも正であり、年齢が高い程、また、世帯年収が高い程 準備の度合が高いことがわかる。これに比して、子供の教育資金準備の方は、モデルが複雑 で係数を見ただけでは、準備度が年齢や世帯年収に関してどのように振る舞うのか掴みにく い。そこで、この推定結果に、 5歳刻みの年齢の中央値、百万円刻みの世帯年収の中央値を 代入して、それぞれの準備度を計算してみた。図 5および、図 6にその結果を示す。 どちらのグラフも全般的な傾向としては、図 3および図 4とそれぞれ似ている。すなわち、 子供の教育資金準備の度合いは、 3 0歳台の後半から 40歳台の前半にピ クがあり、世帯年 収の影響は、ピークを過ぎるとほとんど無くなるように見える。退職後の生活資金準備は年 齢とともに高くなり、世帯年収の影響は、年齢が高くなるにつれて小さくなる。 ‑358‑
(%) 8 0 70 世帯年収 6 0 一一一園高位グループ 中位グループ ー ・ "̲"1 低 位 グ ル ー プ 5 0 40 3 0 2 0 10 。 年齢 2 0 ' " 2 5 ' " 3 0 ' " 3 5 ' " 4 0 ' " 4 5 ' " 5 0 ' " 5 5 ' " 6 0 ' " 6 5 ' " 24 29 34 39 44 49 54 59 64 69 図 5 子供教育資金準備の推定値 6 0 5 0 40 30 2 0 ( % ) 世帯年収 一一一園高位グループ 中位グループ ー ー "̲"1 低 位 グ ル ー プ p ゲ, ・ ( ) I o 門 ̲ ̲ ̲‑ .0.・ 司 ー・ 円ーー̲ J ~--~ ̲ ̲ , . " " , ‑ ‑ ̲ oIJ~ ̲̲"",‑‑‑ ~ /乞~-_, . ‑ d '~ずンロ F ! 。 年齢 2 0 ' " 2 5 ' " 3 0 ' " 3 5 ' " 4 0 ' " 4 5 ' " 5 0 ' " 5 5 ' " 6 0 ' " 6 5 ' " 24 29 34 39 44 49 54 5 9 64 69 図 6退職後の生活資金準備の推定値 ‑359‑
3.3 推 計 値 の 評 価 全般的な傾向はグラフによって確認できたが、計量的な評価も必要である。線型の回帰モ デルの場合、重回帰決定係数がモデルの適合度を測る指標としてよく用いられる。ロジステ ィック回帰の場合には、推計された確率に適当な闇値を設定し、確率を離散的な反応に変換 し、それを観測値と比較する事も行なわれる。 SASのロジスティックプロシジャでは、 CTABLEオプションを用いて、適切な闇値を選ぶことができる。 しかし、ことではマーケティングに応用する事を念頭においているので、データベ マ ス・ ケティングで用いられるリフト・テープルを用いて評価する。 表 3 推計値のリフト・テーブル 三分位 子供の教育資金準備 退職後の生活資金準備 準備度リフト指標累積度数と百分率 準備度 リフト指標累積度数と百分率 1‑高 68% 175 215人 (58%) 38% 156122人 (52%) 2‑中 37% 95 336人 (90%) 23% 94196人 (83%) 3‑低 11% 30 372人 (100%) 12% 50 235人 (100%) 全体 39% 100 25% 100 乙のリフト・テーブルについて説明する。一番左の欄は、子供の教育資金準備(または、 退職後の生活資金準備)を行っている確率の推計値個々のサンプルについて求め、その推計 値によって 3ランクに分けた事を示している。サンプル数が大きければ、ランク数をもっと 多くすることができる。次の欄の「準備度Jは、各ランク別に、実際に準備を行っていると 回答したサンプルの百分率である。その次の欄の「リフト指標」は、この準備度を全体の値 で除して 1 0 0を乗じた数字である。全体から任意に一人を選べば、その人が子供の教育資金 を準備している確率は 39%だが、最も高いランクのグループから選べば、その確率が 75% 高くなる事を示している。 I 累積度数と百分率」は、通常の統計と同じ意味である。子供の 教育資金準備について言えば、準備を行っている人の 58%が最も高いランクのグループに 属している。退職後の生活資金準備の欄についてもまったく同様である。 よい推計値が得られている場合には、リフト・テープルは以下の特徴を示す。 1 . 高いランクで、リフト指標が大きい。 2 . 低いランクで、リフト指標が小さい。 3. 高いランクから低いランクに向かつて、リフト指標が単調に減少する。 4. 高いランクでの累積百分率が大きい。 ‑360‑
表 3において、子供の教育資金準備と退職後の生活資金準備を比較してみよう。高いラン クでのリフト指標は、子供の教育資金準備の方が高い。また、低いランクでのリフト指標は、 子供の教育資金準備の方が低い。両方とも、高いランクから低いランクに向かつて、リフト 指標が単調に減少している。高いランクでの累積百分率は、子供の教育資金準備の方が大き い。したがって、子供の教育資金準備を行っている確率を推計するモデルの方が、退職後の 生活資金準備を行っている確率を推計するモデルよりも良いモデルである。 最後に、との表の準備度を計算した SASのフログラムを子供の教育資金準備についてのみ 以下に示す。退職後の生活資金準備についても同様である。 proc sort; by p̲kid; / * p̲kid子供の教育資金準備の推計確率 */ proc rank groups=3 ouヒ=ouヒ; var p̲kid; ranks r̲kid; proc means daヒa=ouヒ; class r̲kid; var kid; /* kid子供の教育資金準備を行っているかどうかを示す ハ 2項変数 安/ */ 4 . データウェアハウスへの実装の可能性 以上の推計式を金融機関のデータウェアハウスに実装する可能性について考察する。アン ケ トによって得られるデタとデタウェアハウスに格納されるデ タは、性格が異なる。 アンケートでは、質問票設計者が必要とするデータをかなり自由に収集できる。マーケテ イングという観点からは競合商品に関するデータは特に重要である。この種のデ ータウェアハウスにはない。また、顧客が置かれているライフステ いても、アンケ デ タは、デ ジや経済的な条件につ トであれば容易に収集できるが、データウェアハウスにおいて、との種の タを整備するのは容易ではない。 しかし、アンケ トデ タには短所が 2つある。第一に、アンケートはコストが高く、全 顧客を対象に実施することは、不可能に近い。第二に、収集できるデータの精度が、低い。 アンケートは回答者の想起に頼るので、この短所は避けられない。 このように 2種類のデ タは一長一短であるが、両者の長所を組みあわせる方策の一つが 本稿で示せたと思う。金融商品に対するニーズというアンケートによってしか得られないデ ータを年齢と世帯年収を用いて推計した。推計に用いた 2つの変数のうち、年齢はデータウ ェアハウスに容易に格納されうる。一方、世帯年収は金融機関の通常業務において収集でき る機会は多くない。しかし、顧客全体からサンプルを抽出しアンケ 年収デ タも収集可能である。ひとたび、アンケ ‑ 3 6 1一 トを実施すれば、世帯 トを用いて収集されれば、本稿で示した
手順と類似の手順によって、金融機関内部のデータから推計する事は可能である。特に、銀 行や郵貯のように給与振込サ ピスを提供する金融機関は、世帯年収の推計には有利なデー タを保持している。つまり、金融商品に対するニーズは、金融機関内部のデ 能である。同様の手順を踏めば、アンケ トで収集できるデータは原理的にデ タから推計可 タウェアハ ウスを用いて推計可能である。 もちろん、実践的に重要なのは、この推計値の精度である。これについては一般的な結論 は言えない。推計値の精度がどの程度あれば、マーケティングの有効性を高めたり、コスト を低下させるのに有効であるかは、まだ、未知数である。 <参考文献> 奥野忠一、久米均、芳賀敏郎、吉津正(19 8 1 ) . 多変量解析法(改訂版) . 日科技連. Holtman,Art h u rF .andDonaldC .Mann( e d s . )( 1 9 9 2 ) . τ l l eNewAgeo fF i n a n c i a l S e r v i e sM a r k e t i n g . 森田秀和、田尾啓一(訳) . 金融デ タベース・マーケテイ ング(19 9 3 ) . 東洋経済新報社. η︽U り白 ρb
日本 S A Sユーザー会 (SUG I‑J) 法人融資と企業評価モデル 法人融資における信用リスク管理と債権ポートフオリオ最適化 宮村幸夫 金融研究部長 株式会社 金融エンジニアリング・グループ EstimatingtheCredit‑Risko fCorporateLoanthroughMulti‑FactorModeling; YukioMiyamura GeneralManager FinancialEngineeringGroupI n c . 要旨 近年、法人融資に絡む信用リスク管理が急激に注目を集めている。本論文では、従来の定性的 観点の強し、法人融資に対する評価基準に定量性を持ち込むための企業評価モデ、ルの構築方法 について述べる c キーワード: イ言用リスク、 7ル チ 7iHーモデル、 PROCCANDISC 、PROCREG、 PROCPRINCOMP l はじめに 近年、トータノレ・リスク・マネージメントが金融機関を筆頭に、企業の直面するホットなテーマ になってきているのトータル・リスク・マネージメントとは、①アセット・アロケーションの対象である、 資 産 サ イ ド に 発 生 す る 金 利 、 為 替 、 株 価 等 の 市 場 リ ス ク の 管 理 、 ② ALM( A s s e tL i a b i l i t y Management)における資産と負債とのキャッシュ・フロー発生額差および収益利回り差の管理 および近年、急激に市場の注目を集めている③テVパティブ(先物、オブ。ション、スワッフ 等)や J 融資に発生する信用リスクの管理を総括したものであるといえる。その中でも、金融機関の資産 運用勘定科目として大きな位置付けをなす融資に絡む信用リスク管理は、特に重要な課題で あるつ融資資産(貸付金)から得られる金利収益は、伝統的に金融機関の主要な収益源である が、近年、日本の金融機関および日本経済を揺るがしてきた不良債権問題を発端にして、従 来我が国ではほとんど考慮せずに済ますことのできた融資に発生するデフォルトリスクを定量 化する試みが急務となって来ているの そこで小稿では、融資先企業の評価を定量的に行うための企業評価モデルを構築すること により、法人融資に絡むデフォノレト率を推計することを試みる。 ‑363‑
2 融資リスク定量化の必要性と問題点 こして、融資に発生する信用リスク管理は、財務部門の関 前述したように、金融機関を中心 l 係者にとって急務の課題で、ある。従来の企業聞における株式保有持ち合い構造が象徴してい たような、ほぽ硬直的ともいえる企業経営に対し、近年の不良債権問題は、企業聞に市場競 争原理を導入し、経営の合理化を余儀なくさせる棋を打ち込んだといっても過言で、はなかろう。 今後における企業経営の安定化と合理化を図るためには、客観的判断基準による貸付金利と 与信枠の設定はいうまでもなく、資産サイドの重要な勘定科目である貸付金を市場性のある債 券や株式等の特性と比較する必要性が生じる。ここでしづ特性とは、 Modern P o r t f o l i o Theory (以下 MPT と略す)の根幹をなすリターン・リスク特性であり、具体的には、リスク(デフォノレトリ スク)調整後の期待リターンである。しかし、融資リスクを定量化する際に現在大きな障害となっ ているのは、分析対象となる我が国の企業融資に関るデフォノレ卜および倒産確率のデータが充 分整備されていないことである。格付け機関が提供しているデータは存在するが、問機関から の格付けを受けていない企業をどう評価するか、また、格付け機関の評価だけに依存してよい ものかとし寸疑問は依然として残る。このような観点から、融資先企業に対する企業独自の定量 的な融資基準を構築する必要性が生じる。 3 企業評価の考え方 企業をどのように評価するかとしづ視点は、株主と債権者とで異なる。融資に絡む企業評価 方法は、いうまでもなく後者の観点であるが、以下では、両者の視点を比較整理してみたいの まず、株主の観点から見ると、株主は自己の出資先企業の運命共同体であるので、当該企 業が、し、かに永続的に株主の経済的利益を提供できるかがその評価に繋がる。株主の期待す る経済的利益とは配当金(インカムゲイン)と値上り益(キャヒ。タノレゲ、イン)であるので、前者の決 定要因として収益性を、また、後者の要因として成長性を示し得る財務指標 *1を、その評価の 判断基準にしているといえる。事業リスクおよび財務リスクの決定要因である安全性の指標は、 株主の経済的利益の決定要因としては 2次的になる得るものなので、収益性や成長性に比べ るとやや注目度は落ちるといってもよい。 次に、債権者の観点では、債権者は株主と同じように出資をしていても、第 3者 的 に 出 資 先 企業を見ることができるので、当該企業に対して、自己の出資金およびその利払い金の確実な 回収を期待するのしたがって、株主と同様に、収益性を示す財務指標叫に注目しても、それは 債務(利子および元本)支払い能力の決定要因として捉えているといえる。ここでしづ収益性を 示す財務指標とは負債まで含めた総資産に対する利益率、すなわち ROA( R e t u r n OfA s s e t 総資産利益率)であり、株主が重視する収益性指標の ROE( R e t u r nOfE q u i t y 自己資本利益 率)とは異なる n また、短期的な元利返済能力の決定要因として、流動比率、当座比率、自己 資本比率などの安全性を示す静態比率を株主以上に重視しているといえる c 次章では、このような債権者の観点に立った企業評価のための定量的モデ 述べたい n ‑364 ル構築について
' : '1 収益性を示す財務指標としては、通常、(総資産、資本、売上高)に対する(営業、経常、 一株当等)利益率を、また、成長性を示す財務指標としては、(営業、経常、一株当等)利 益成長率を用いる。 *2 債権者の着目する収益性指標は、通常、手Ij払い能力を示すインタレストカバレッジと償還 能力を示すキャッシュフロー比率である。 インタレストカバレッジ=事業利益(税引き前)‑‑;‑支払利息 キャッ、ンュフロー比率二(税引後純利益+減価償却)‑‑;‑長期負債 4 企業評価モデルの考え方 企業評価モデルの考え方は、ほぽ 2種類に分別出来うるものと考えられるの一方は、個々の 企業のデータ属性に基づき、それらを複数のグ、ルーフ。に分類する方法で、あり、判別分析型モ デ/レと呼ばれるものである。他方は、個々の企業のデータ属性に基づき、個々の企業の評価 水準(通常は評価点)を説明する方法であり、通常、多数の属性データを説明変数として用い ることから、マルチフアクター型モデ、ルと呼ばれる。以下では、各々のモデルの概念とその構築 方法を述べる。 1)判別分析型モデ.ル ①式に示すように、線形型のモデ、/レで、あり、企業評価モデルとして用いる時には、個々の 企業財務データまたはその主成分分析により得られる因子を判別説明変数とし、貸出可ある いは不可といった分類された企業のクルーフ。を目的変数とする。 目的変数 L :( K i X 判 別 説 明 変 数 ) + E i (ただし、目的変数 一 ① … 貸 出 可 O R不 可 判別説明変数…収益性指標、成長性指標、安全性指標等 K i l ファクター(判別説明変数)に対する係数) 判別分析モデルは、 SAS/STATの PROCCANDISCを活用することにより、比較的容易に構 築することが可能であるのまた、主成分分析を実行するには、 SAS/STATの PROCPRINCOMP が適用できるの当モデ、/レは、、貸出実績の要因分析から今後の貸出基準の見直しを図ることに 有効であると思われるの ‑365‑
2 )マルチフアクター型モデル ②式に示すように、線形型のモデルで、あり、企業評価モデルとして用いる時には、個々の企 業の有する財務データや経済変数(金利、為替等)に対する感応度等の様々な説明変数 *1 (フアクター)のエクスポージャー*~を基に、企業に評価点を与えるモデルとなる。 企 業 評 価 点 =L :(町 (ただし、 円 X 一一一一一一② Xij ) + E i . . . フアクターハりュアンス Xi j. . . Jファクターに対する I企業のエクスホ。ーシ eヤー) モデ、ル構築は、 SAS/STATの PROCREGを活用できるのまた、主成分分析を実行するには、 前述の SAS/STATの PROC PRINCOMPを、各フアクターに対する企業のエクスポージャーを 算出するためには、 PROC STANDARD を用いる。 当モデ、/レの活用範囲は広いりまず、モデ ノレ構築過程時に得られるフアクターバリアンスは、企業評価における各フアクターの寄与度を判 断できるものであり、さらに、フアクターバリアンスの時系列変化を捉えることで、企業評価の見 方がどのように変遷してきでいるかを推定することも可能である。次に、モデ、ルから得られる評価 点に基づき、独自の企業評価ランキングを構築し、貸出可否と与信枠の設定といった融資基 準を構築することが可能となる。そして、最終的には、融資リスクの要因分析と融資リスク分散 ボートフォリオの構築を目指せるものであると考える。図 2にマルチフアクター型モデ /レ構築方 法のフローを示す c *1 ファクターとして、収益性指標 (ROE,ROA...)、成長性指標(各種利益成長率一.)、安全 性指標(負債比率、自己資本比率、流動比率…)、経済変数感応度(金利変化による収益 変化率)等が考えられる。 :;~ 2 エクスポージャーとは企業個々の各ファクターデータに対し、企業間で基準化した値 n 5 企業評価モデ、ル構築事例 当章では、マノレチファクター型企業評価モデルの構築事例から分析し得る内容を概観するわ 1)分析期間と使用データ 1990年 4月から 1997年 4月までの月末値による東証一部上場企業を対象とした日経企業 財務の公表月次データを使用しそテ、ル構築および検証を行った。また、企業評価点の代替変 数として額面調整済み株価の偏差値を用いたが、これは、債権者から見た場合の企業評価も 様々な市場参加者が決定する株価に、最終的には反映されるはずであるとしづ前提をおいた 考え方による n 実際に当モデ、ルを開発する時には、モデ ル構築時に格付け機関の評点を目的 変数として利用をすることも考慮することが好ましいと考える。 ‑366‑
2 )分析結果と若干の考察 ②式に示すマルチファクター型企業評価モデ /レの構築過程で得られるファクターバリアンス の平均的水準を図 3に示す。 94年 5月から '97年 4月 ま で の 期 間 で 個 々 の 企 業 の 各 財 務 デ ータの平均値を基に構築した期間平均型モデ ルには、ユニバース(母集団)として設定した約 150ファクターから、変数聞の多重共線性(マルチコ)排除や各変数の説明力を示す t値により、 最終的に絞り込まれた 19のファクターが使われている。この中でも、額面調整済み株価を代用 した企業評価点を決定する寄与度の大きいファクターには、売上高利益率のような収益性や 法定準備金が示す企業の安全性を見ることができる。逆に、株価を分母に持つ配当利回りや 株価経常益回りがモデルの負の寄与度として表れているが、企業評価を反映した株価が下落 することによりこれらの指標の水準が高まることからすると妥当な結果であるといえよう n なお、こ . 6 4 5で 、 F値も高水準であり、実用にほぼ耐える数値と の事例におけるモデ、ルの決定係数は 0 いえる 図 4は、 90年 4月から '97年 4月までの期間で、月次ベースで構築したモデ、ルの生成過程 で得られたファクターノくリアンスの時系列推移を表わしたものであるのこの推移から企業評価に 対する考え方の変遷を捉えることが可能となる。このケースでは、 '95年までは、ほぼ安定して いた売上高経常利益率のファクターバリアンスが '96年の半ばから大きく低下していることが伺 え る 6 企業評価モデ、ルとデ.フォノレト率推定 当章では、マルチファクター型企業評価モデ ルを基に企業のランク付けを行い、各企業のラ ンクの変遷を捉えることにより、仮想デ、フォノレト率を推定する考え方を示す。 1)分析期間と使用データ 6章と同じc 2 )分析結果と若干の考察 図 5は、 90年 4月から '97年 3月までの期間で、年度毎(当年 4月から翌年 3月)の期間平 均型モデ、ルを構築し、そこから得られる企業評価点を基に対象企業を 5ランクに分類後、 91年 度モデ、ルの企業ランクが、その後 5年間でランク 1(仮想デフォルト)になった確率を示したもの であるコ 91年度モデルで、 4以上にランク付された企業のうち、その後、 5年間で、仮想、デ、フォノレト グ ループになったものはなかった。同じくランク 3の企業でも 5年間で、の仮想デフォノレト率は、ほ ま (Oであるといえる n したがって、このケースでは、ランク 3以上の企業に対する融資は問題ない といえる 融資の可否を検討するのはランク 2の企業に対してであり、実際の融資においては、 n 企業規模や業種といった要因も考慮、しながら、その与信枠を設定することが試みられると思わ れる心 ‑367‑
7 債権ポートフォリオ最適化 マルチファクター型企業評価モデ ルの最も有効な機能は、複数の債権を保有する債権ポー トフォリオが内包するリスクをコントロールし得ることで、あるといえる c 前述したように、モデ、ル生成 過程において算出されるファクターバリアンスに対するポートフォリオのエクスポージャーをコント ロールしながら、目標期待収益率に対するデ、フォルトリスクの最小化を図るといった最適化手 法も理論上可能となり得る。具体的には、デフォノレトの大きな発生要因とみなされる経済環境 (こすれば、 (例えば、景気指標)ファクターに対する債権ポートフォリオのエクスポージャーを O 景気動向に左右されないデフォルトリスク最小の債権ポートフォリオを構築することが可能とな るその数理的背景は以下に示す通りである。 ① 数 理 的 解 法 : 2次 計 画 法 ② 最 小 化 の 目 的 関 数 : Var (Hp) (ただし、 Hp ...ポートフォリオを構成する企業の評価点の加重平均) ③制約条件: L (Wpi) = 1 , Wpi)=0 , L(Wpi*X i l ) =Xm1+α1 , L (Wpi*X i 2 ) =X m 2+ α 2 , L (Wpi*X i 3 ) =X m3 + α 3 , (ただし、 Wpi : i企業のポートフォリオ構成比率、 X ij : j ファけーに対する i企業のエクスホ ‑ γャ一、 X m j :J ファクターに対するユニバース企業全体のエクスホ。ーン ヤ ー e 8 むすび 小稿では、まず、従来の定性的観点の強い法人融資に対する評価基準に定量性を持 ち込むためのマルチファクター型企業評価モデ、ルの構築方法を、次に、同モテ、ルから の企業評価に基づいたデフォルト確率推定方法を、そして最後に、債権ポートフォリ オ最適化の考え方について述べた。融資に発生する信用リスクをどう定量化し、コン トロールしていくかという考え方は、ホットなテーマではあるが、我が国では、まだ、 梨明期にあるといっても過言ではなかろう。したがって、小稿で提示した考え方も、 その理論的側面や検証において、さらに研究されるべき点は大きいと思われる。特に、 モデ ル構築時におけるベースとなる企業評価点としてどのようなデータを適用するか、 また、企業評価ランクとデフォルト確率のヒストリカルな関連性の検証等は今後の課 題としたい。 参考文献 [lJEugeneF.Fam乱 E f f i c i e n tC乱p i t a lM乱r k e t s :I I .XLVl N05 VOL DECEMBER1991 THE jOURNAL OF F1NANCE pp.1575~1617 [ 2 J中林三平「法人融資の信用リスク管理と債権ポートフォリオの最適化 J SUG卜J96/IDSConference 論 文 集 pp.145~150 ‑368‑
図1
企業評価と与信の計量化
O貸付先企業を定量的に評価し(独自の格付け)、
与信の計量化をはかる。
:¥LMシ ミ ュ レ ー ン ョ ン に 反 映
〆
j
1
‑
"
;
/I(
I
I
I
(
.
"
i
l
l
lt
:
u
;
.
:
i
l
lt
!
l
!
r
i
l
l
gG
r
o
t
l
p
̲l
u
c
図2
マルチファクタ一企業評価モデルの構築方法
r
.
ユニ,<ース企
撃の11<"'
{資本規頃司営裏腹頃憶による企裏グルーピング}
ユエパースフアクターの決定
{候柑ファクターの辺町幽.主成分分新実行)
候欄ファクターーデータのJ;I
I
I化
{ファクター・エクスポージャーの算出}
金集聞のクロスセクンョナル回帰
ファクターパりアンスの算出
そデル弐の決定(決定係置、 F値}
貸出先企農の僻価点およびランキ r グの決定
貸出品別"の何耳慣{貸出可否および与信梓)
F
i
l
l
l
l
l
1c
i
l
l
lE
u
g
i
l
l
,
!
tどr
i
n
gGroup̲I
I
/
c
.
q
u
門
司
ρ
o
図3
マルチファクタ‑企業評価モデル事例
マルチファウ告
企業評価モデルのファ?1;I‑./¥I)アンス分析(平均的寄与度)
Eコ予. ~よ志
Eコ予き
_~...?
H
・‑
. 拘 面 司E
配当何回り
1
,
.
0
l ;l
)
'
、
,
ヲ
..定例温
.r.虞
度
L~
.
1
:
.
厄
."
竃
U 歪 $
Eコ~問樋恒例量
・・
処 当 "
.平坦一橋売
i
&
H '
"
I !
! 1
1
:
; ~
1
l.
.!
I
I t
口 自 己 . .比軍
・
・
・ " .,
同 .
・
・
縄
問
惜
. ,ε"
~
"
・
..
Cコ
司
,
巴コ亀 t?" ~ "
) (1 ‑ liiI圃リ
Eコ予想
2
Eコ;!
=,・
Eコ
ィ
;
'
)
I
‑
!
!
!
同
, .
・・予き聴・ H '" . 図 'J
J
λ.
決定係数 U.645
f
位
41A85
p
r
u
f
u
.
u
o
分析期間
班
i
i
!l錦上場企軍
額面調盤済保価代用
199~/O !i """"'1 1) 970/叫
被脱明宜散
I1I1t11
1
a
a
l
1
:
.
:
I
I
;
'
:
I
I
It
!e
r
II
1
;
'
:G
roup.1m
図4
マルチファクター企業評価モデル事例
マルチファウ1;1一企婁評価モデ J
レのファウ1;1 ・バリアンスの推移
0.8
0
.
6
一一一予売上高経常利益率
0.
4
一一-~甘悪応度
予配当利回り
法定準備童
0
.
2
<
:
dレλトカハレヲ y
一一ーー B 岨
一一一時常利益置 ~m
‑ ‑ 0 71"畢応度
ー0
.
2
0.
4
分析期 l
t
l
'..刊IU~"""'1"'9'U/UJ
敏
,
l
I
vm
配置
F
i
l
l
lJJ/c
i
a/l
:
.
:
I
l
:
,
:i
nどe
r
i
l
l
;
:Group.1
11(
‑
3
7
0
A
i
l
i
正1部上場企量
額面調腰掛昧価代用
図5 企業評価ランク推移から推定するデフォルト確率 企業評価モデル 保用力仰数(ユニハ λ163) 決定係数 prof>F (同) フ7?9ー の VIF(マル子コの子ェッウ) フ7灼ーの t { i [ 91m 92m 93m 94m 95m 96m 1 8 18 1 7 18 19 1 9 0.6895 0.6675 0.6708 0.6681 0.6511 0.5664 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 ー 2 . 0)0 )0 1 . 6 ← 91 年度(サ 1/()~-'nl()3) の企業ランクが、その後、ランク 1( 仮定デフォルト)になった確率。 うノヴ 5 (>ニ 80) 4 (>=60) 3 (>=40) 2 (>=20) 1 (>=口) 単 位H 1年後 2年後 3年後 4年後 5年後 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 000 0 . 0 0 0 . 0 0 0 . 0 0 000 000 000 0 . 0 0 0 . 0 0 045 0 . 4 5 3. 45 6 . 9 0 1 0 . 3 4 0 . 3 4 689 1 10000 100.00 100.00 8 3 . 3 3 8 3 . 3 3 F i l l l m c i l l JEl1g I I Iどe r i n gGroup./ 1 1 ( 3 7 1
い ︑ A m κ 幽但饗寵4 s h z 総川門指幅広‑﹃︐ ••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
日本 SASユーザー会 (SUGI‑J) リリース 6 . 1 2における データテーブルおよびデータフオームの拡張点 石井由美子 株式会社 SASインスティチュートジャパン カスタマーサポート部テクニカルサポートセクション DataT a b l eandDataFormEnhancementsi nRelease6 . 1 2 YumikoI s h i i CustomerSupportD e p t ., SASI n s t i t u t eJapan, LTD. Te c h n i c a lSupportS e c t i o n, 要旨 リリース 6 . 1 2における、 SAS/AFソフトウェア FRAMEエントリのデータテーブルおよ びデータフォームのおもな拡張点を紹介する。 hha ワ キ リリース 6 . 1 2、SAS/AFソフトウェア、データテーブル、データフォーム 1.はじめに リリース 6 . 1 1より SAS/AFソフトウェアの FRAMEエントリに、データ入力および照会 を行う 2つのクラス、データテーブルとデータフォームが追加されている。データテープ ルとデータフォームはどちらもデータセットの表示・編集を行えるが、データテーブルク ラスは一度に複数のオプザベーションを表示し、データフォームクラスは、一度に lオプ ザベーションを表示する(図 1 , 2参照)。また、データフォームではさまざまなオブジェ クトを使って、データの値を表示することもできる。 この 2つのクラスは、リリース 6 . 1 2で機能拡張されていて、データフォームはリリー . 1 1では評価版だ、ったが、リリース 6 . 1 2でプロダクト版になっている。 ス6 本論文では、リリース 6 . 1 2におけるデータテーブルとデータフォームの拡張点から次 の機能を紹介する。 民U ワt ηJ
0実行モードのポップアップメニューの追加項目 。追加されたメソッド 0データテーブルの拡張点 選択機能の拡張 。データフォームの拡張点 ページめくりマークによる複数ページのスクロール、ページ聞のオブジェクトの移 動 、 1ページの自動レイアウト、ウィジェットの配置 0オンラインヘルプ Oデータテーブルとデータフォームの関連づ、け (マスタデータと詳細データの関連づけ) 6ω64 r J UY 川 副引引叫川 ‑RdquququQVRdqdRdQVQURd7' L 目的制由民節目白白 c=:主 図 1 データテーブル トトロ NAME SEX AOE: HEIGHT: I~_6, WEIGHT: I̲ 5 : 8< 1 図2 データフォーム 2 .実行モードのポップアップメニューの追加項目 実行モードのポップアップメニューに、次の項目が追加された。 ‑ヘルプ • WHE 阻条件の定義 • WHERE条件の取消 ‑表示モード/編集モード ‑376一
‑レコードレベルロック/メンバーレベルロック 0ヘルプ 特定の列に対するヘルプ情報を表示する I ^ ‑ J v1 !を選択すると、列名、列のタイプ、レングス、フォーマット、インフォーマ ットがメッセージ行に表示される。 O L U M N :N A M ET Y P E :C H A RL E N G T H :8F O R M A T :$ 8 . I N F O R M A T :$ 8 . 1 例) t OWHERE条件の定義 データテーブル、データフォームに対して即座に WHERE条件を設定できる。 同HERE条件の設屈を選択すると、図 3の fWHERE句」ウインドウが表示される。 て 図 3 fWHERE句」ウインドウ OWHERE条件の取消 データテーブル、データフォームに対して設定されている WHERE条件を即座にク リアする。 O表示モード/編集モード データテーブル、データフォームの表示/編集モードを切り替える。 ただし、 SETDATASET メソッドで BRONLYデータセットオプションが指定され ている場合は、編集モードに切り替えることはできない。 0レコードレベルロック/メン J¥ーレベルロック レコードレベルのロックとメンバーレベルのロックを切り替える。 3 . 追加されたメソッド 次の 3組のメソッドが追加されている。 GETVIEWERATTRIBUTE :特定の列の表示属性を取得する SETVIEWERATTRIBUTE :特定の列の表示属性を設定する ‑377‑
例)変数 AGEの値が 1 6より大きいときは背景色を赤にし、それ以外のときは自にする。 i n i t : a g e : 6 ) then i f ( a g e gt 1 '̲ set̲viewer̲attribute̲', 'a g e ',' b c o l o r ', 'r e d ' ) ; c a l l send(̲viewer̲, else '̲ set̲viewer̲attribute̲', 'a g e ',' b c o l o r ','white'); c a l l send(̲viewer̲, r e t u r n ; 表 l 取得・設定可能な属性 属性の名前 属性 BCOLOR 背景色 FCOLOR 前景色 BPATTERN 背景パターン BDRCOLOR ボーダー色 FONT フォント H尻 J S T 右寄せ/左寄せ V尻 J S T 上寄せ/下寄せ LTSOURCE 光源 MARGll 可 マージン REVERSE 反転 PROTECT 保護 データフォーム 。 。 。 。 。 。 。 。 データテーブル 。 。 。 。 。 。 。 。 GETCOLUMNATTRIBUTE :~IJ の属性を取得する SETCOLUMNATTRmUTE :列の属性を設定する 例)変数タイプが数値のときは最大値を 99にセットする i n i t : ̲get̲co1 umn̲attri b u t e . ー ' ,' a g e ',' t y p e ',var̲type); ca1 1 noti fy( 'tab1 e ', i f (var̲type= ' N ' ) then ̲ s e t ̲ c o l u m n ̲ a t t r i b u t e ̲ ', 'a g e ',' m a x v a l u e ',9 9 ) ; c a l ln o t i f y ( ' t a b l e ',' r e t u r n ; 378
GET DISPLAYED COLUMNS :表示列の名前のリストを取得する SET DISPLAYED COLUMNS :表示する列と順序を指定する(データテーブルのみ) 例)変数 c o l 1, c o I 2, c o I 3, c o I 4, c o I 5, c o I 6があるとき、 c o 1 3, c o I 4を除いて、 c o l 1, c o I 5, c o I 6, c o I 2の順で表示する i n i t : c a lI n o t i f y ( ' t a b l e ', '̲set̲displayed̲columns̲',' c o l l ',' c o I 5 ',' c o I 6 ',' c o I 2 ' ) ; r e t u r n ; 4 .データテーブルの拡張点 . 1 2では、データテーブルの選択機能が拡張されている。 リリース 6 4 . 1 連続した領域の選択 リリース 6 . 1 2では、次の手順で連続した領域を選択できる。 ①開始位置でマウスをクリックする。 E ②終了位置で匡 キーを押しながらマウスをクリックする。 この方法は広い範囲を選択するのに便利である。 4 . 2 複数選択(複数行、複数列の選択) デフォルトでは、この選択はできない。複数選択を可能にするには、 T a b l eE d i t o rク ラスの SETATTRIBUTES メソッドを使い、 MULTIPLE SELECTIONS属性を設定 する。 MULTIPLE SELECTIONS属性を設定すると、 2つめ以降は困キーを押しなが ら選択することで、複数選択が可能になる。 i n i t : d t a t t r l =m a k e li s t ( ) ; ,y ', 'multiple̲selections'); r c = s e t n i t e m c ( d t a t t r l, y ','s e l e c t ̲ c o l u m n s ' ) ; r c = s e t n i t e m c ( d t a t t r l,' '̲ s e t ̲ a t t r i b u t e s ̲ ',d t a t t r l ) ; c a lIn o t i f y ( ' t a b l e ', d t a t t r l =d e lI i s t ( d t a t t r l ) ; r e t u r n ; 4 . 3 行、列、ラベル選択モード 複数選択では、次の 3種類の選択モードをサポートしている。 ・行選択モード ・列選択モード ‑ラベル選択モード 3 7 9
0行選択モード 行選択モードでは、セルの選択が、そのセルを含む行全体の選択に拡張される。 行選択モードにするには、 SELECTROWS属性を設定する。 i n i t : a k e li s t ( ) ; dtattrl =m y ','multiple̲selections'); r c = setnitemc(dtattrl,' r c =setnitemc(dtattrl,' y ', 's elect̲rows'); c a l l notify('table', '̲ set̲attributes̲',dtattrl); e l1ist(dtattrl); dtattrl =d return; 09 l J 選択モード 列選択モードでは、セルの選択が、そのセルを含む列全体の選択に拡張される。 列選択モードにするには、 SELECTCOLUMNS属性を設定する。 i n i t : a k e li s t ( ) ; dtattrl =m y ','multiple̲selections'); r c =setnitemc(dtattrl,' r c 二 setnitemc(dtattr1,' y ', 'select̲columns'); c a l l notify('table', '̲ set̲attributes̲',dtattrl); dtattr1二 d e l list(dtattrl); r e t u r n ; 0ラベル選択モード ラベル選択モードでは、列ラベルの選択が列全体の選択に拡張され、行ラベルの選択 が行全体の選択に拡張される。 ラベル選択モードにするには SELECTLABELS属性を設定する。 ‑380
init: dtattrl =makelist(); rc =setnitemc(dtattrl,' y ','multiple̲selections'); y ','select̲labels'); rc =setnitemc(dtattrl,' call notify('table', '̲set̲attributes , 一 ,dtattr1 ); dtattrl = del1ist(dtattrl); return; 5 .データフォームの拡張点 5 . 1 ページめくりマーク . 1 2のデータフォームでは、 lオプザベーションが複数のページを持つ場 リリース 6 合にページめくりマーク(イアマーク)を使ってページのスクロールを行える。前ペー ジがある場合は左上に、次ページがある場合は右上に、ページめくりマークが表示され る 。 0ページめくりマークを使ったスクロール 前ページに移動:左上のマークをシングルクリックする 次ページに移動:右上のマークをシングルクリックする 先頭のページに移動:左上のマークをダブルクリックする 最終ページに移動:右上のマークをダブルクリックする 「オブジェクト属性」の「フォームのカスタマイズ」を使って、表示/非表示、ページめ くりマークの色を設定できる。 また、ページめくりマークの属性をプログラムで設定するための、次のメソッドも追 加されている。 GET EARMARKCOLOR :ページめくりマークの色を取得する SET EARMARKCOLOR :ページめくりマークの色を設定する GET EARMARKOUTLINE COLOR :ページめくりマークのアウトラインの 色を取得する SET EARMARKOUTLINE COLOR:ページめくりマークのアウトラインの色 を設定する 3 8 1一
STORE: 日 D A Y : 巴 P R IC E 1・ PRICE2: 図 4 ページめくりマーク 5 . 2 ページ聞のオブジェクトの移動 リリース 6 . 1 2のデータフォームでは、ページからページ、もしくは 1つのデータフ ォームから別のデータフォームにデータ中のオブジェクトをコピー、もしくは、移動す る機能がサポートされている。オブジェクトの移動は、データフォームのBUILDモー ドのポップアップメニューに追加された匡I J m zl Jl 、 巨 己 、 匪I JN~llを使って行う。 例) 1ページ目のオブジェクト SALESlを 2ページ目に移動する場合 ①オブジェクト SALESlにカーソルを位置づけてポップアップメニーを表示する ②ポップアップメニューから、~亙を選択する ③右上のページめくりマークをクリックして2ページ目に移動する ④ポップアップメニューを表示して、 1 MJ IN~1lを選択する 5 . 3 1ページの自動レイアウトの作成 リリース 6 .1 2では、いてージのデータフォームを作る際、オブジェクトが多く てリージョンにおさまらないと、スクロールパーを付加して、リージョン内に自 動的にレイアウトする機能がある。この機能を使うには「オブジェクト属性 J ウ インドウで「フォームのカスタマイズ」を選択、 「フォームのカスタマイズJ ウ インドウで「全てのウィジェットを 1ページに作成 J を選択する。 」2ご 笠I I 7O I コ己j C ) J ! ! 図 5 iフォームのカスタマイズ」ウインドウ ‑382‑
5.4ウィジェットの配置(垂直方向、水平方向) ウィジェットの配置を垂直方向にするか、水平方向にするかを設定する機能が追加されて iフォームのカスタマイズ」ウインドウの「ページ内ウ いる。ウィジェットの配置の指定は、図 5 で行う。 ィジェットの配置J 垂直方向 水平方向 co1 1 co1 4 co1 7 co1 1 co1 2 co1 3 col2 col5 col8 col4 col5 col6 col3 col6 col9 col7 col8 col9 6 . データテーブルとデータフォームの関連づけ (マスタデータと詳細データの関連づけ) リリース 6 . 1 2では、データフォームとデータテーブルの関連づけをプログ、ラミングなしで簡単 に設定できる。この機能が役立つのは、共通の変数を持つマスタデータと詳細データがあり、 データフォームでマスタデータを表示し、データテーブルで、マスタデータに関連する詳細デー タを表示するような場合である。 次の例では社員データ(マスタデータ)を表示するデータフォームと家族データ(詳細デー タ)を表示するデータテーブルを社会保険番号をキーにして関連づけている。 制可否刻一 EMPLOY 毘 l ME 〉ト払 花岡「 宕. T I : 間百四、 ・ r‑ r e . . ,. ・. ・ " a . . 闘 . Gend r f 一一寸荷認証Z r A G E : 一一一一ーで 四 図6 データテープ、ルとデータフォームの関連づけ 0関連づけの手順 ①データフォームを作成する ( iテーブル」にマスタデータを設定する) ②データフォームの中にデータテーブルを作成する(iテーブル」に詳細データを設定 する) ③データテープ ルで、「キー列」属性を設定する 383一
a .データテーブルの「オブ、ジェクト属性」ワインドワで、「テーブルのカスタマイズ」を選択 する b.iオプション」を選択して、「キー列」を設定する c .i了解」を2回選択して、 FRAMEに戻る ④データフォームの「列ワインドワ」で、データフォームのキー列をデータテーブルに関連づけ る a .データフォームのポップアップメニューで「フォームー >Jを選択する b.i安リワインドワ」を選択する I C . : 7 J ワインドウのキー列を反転させ、データテーブルオブ、ジェクトの内側にドラッグ、&ドロ ップする 7 .オンラインヘルプ データテーブルとデータフォームのリリース 6 .1 2における新機能および使い方は、 S A S システムのオンラインヘルプで参照できる。 ・目次から「リリース 6 .1 2の新機能J→ i S A S / A Fの新機能」→ i F R A M Eクラス Jを選択 する。 ‑目次から i S A S / A Fソフトウエアによるアプリケーション開発 J →i F R A M Eクラスの辞書 J →「データフォームクラスとデータテーブルクラス」を選択する。 8 .おわりに このように、リリース 6 . 1 2のデータテーブルおよびデータフォームでは、アプリケー ションの作成を容易にする機能、データ入力(照会)を効率的に行う機能が追加されてい る 。 データテーブルとデータフォームはリリース 6 . 1 1から追加されたが、 SAS/AFソフトウ ェアを利用しているユーザに広く使われている。これからも、ますます機能が充実される ことを希望する。 参考文献 1 ) O b s e r v a t i o n sF i r s tQ u a r t e r1 9 9 7 2)SAS/AFS o f t w a r eFRAMEC 1 a s sD i c t i o n a r yV e r s i o n6 , F i r s tE d i t i o n ‑384‑
日本 S A Sユーザー会 (SUG I‑J) PLSプロシジヤ(評価版)の紹介 小野裕亮 統計解析研究室 SASインスティチュートジャパン AnI n t r o d u c t i o nt othePLSProcedure YusukeOno S t a t i s t i c a lr e s e a r c hL a b o r a t o r y T e c h n i c a lS u p p o r tGroup SASI n s t i t u t eJapanLtd 要旨 " P a r t i a lL e a s tS q u a r e sReg r e s s i o n "( 以下、 PLS回帰)を実行する SASjSTATリリース 6 . 1 2 j 6 . 0 9 E j 6 . 1 1の PLSプロシジャ(評価版)について、簡単な紹介を行なう。 PLS回婦は、 「説明変数間の相聞が大きいデータ」や「説明変数の数がオプザベーションに比べて多いデ} タJ等の通常の回帰モデルでは対処しきれないような共線性が生じているデータから、応答に 対する予測式を算出する際に有用な方法であると言われている。 なお、 PLSプロシジャは評価版である(本稿は V e r s i o n 6 . 1 2に基づき作成されている)。本プ ロシジャに関するマニュアルはないが、より詳細が記載された資料として、米国 SASのホー ムページより何年 SUGI論文および例題集が入手できる。本稿はこの 2つの資料に基づき作 成されている。この資料の入手方法については、「付記」を参照のこと。 hha 門ノ キ PROCPLS;P a r t i a lL e a s tS q u a r e s iP r i n c i p a lComponentR e g r e s s i o n ; はじめに 「説明変数聞の相聞が高いデータ」や、「変数の数がオプザベーションの数より少 ないデータ」に対しては、通常の回帰モデノレを評価するのが困難になる。このような データに回帰モデルをあてはめても、どの変数をモデルに残して、どの変数をモデ〉レ に含めるかを判断するのが非常に難しい。 もし、残差 2乗和を最小にすることだけが目的ならば、すべての説明変数を予測 モデ〉レに含めることで、その目的は達成されるであろう。しかし、現データの変動を すべて説明するモデ、/レ(極単な場合、残差がまったくないモデル)は、必ずしも「適 切Jな予測式ではない。そのようなモデ〉レは、現在、得られているデータに関しては、 その変動を全て説明しているが、新しいデータに適用できるとは限らない。いわゆ ‑385
る" o v e r ‑f i t t i n g "を避けるため、モテツレ変動と偶然誤差の変動を適切に表すモデ /レを探 索する必要があるだろう。 PLS回帰は、通常の回帰モデノレで、は扱いにくいデータから 予測モデ、/レを推定する方法として、特に分析化学・計量化学の間で普及している方法 である。 PLS回帰の例としては、ある混合物における各成分の含有量を、光スベクトノレから 予測する例が有名である。定量分析において、安価で、手軽な測定器具を用いて取られ たデータには測定誤差がある。そのため、真の値を求めるために実際のデータを補正 b s o r b a n c e)もしくは振幅から、混合物の する必要が生じてくる。周波数毎の吸光度(a 含有量を測定するのは手軽な方法であるが測定誤差が生じてしまう。 また、このような周波数毎に振幅がとられたデータには次のような特徴があるため、 通常の回帰モデ、/レから予測モデ /レ(測定モデル)を作成することが難しい。 1.周波数毎の変数聞に大きな相闘がある。(説明変数聞に高い相関) 2 .測定する周波数の数がサンプルに比べて多い。(説明変数の数が多い) この紹介文では、初めに PLSプロシジャおよび PLS回帰法を概観し(1章)する。 2章では PLS回帰法の計算方法の 1つを説明する。最後に、 PLSプロシジャを用い た分析例を示す。 1 PLSプロシジャと PLS回帰法の説明 1 .1 P LSプロシジャによって実行できる分析 PLSプロシジャは、 iPLS回帰」および「主成分回帰」を実行するためのプロシジャ 判面方法としては交差確認法 ( c r o s s ‑v a l i d a t i o n )が である。また、推定された予測式の3 採用されている。 a r t i a lLeastSquares 1 .P デフォノレト(METHOD=PLS)ではオリジナルの W o l d ( 1 9 6 6 )の方法に従い、 PLS回帰が実行される。 PLSプロシジャは応答変数が複数ある場合に対する PLS回帰も扱うことができる。しかし、 l組の説明変数に対して l組の応答変 数群があるモデ〉レのみしか扱うことができない。 3 8 6
2 .主成分回帰分析 ( p r i n c i p a lc o m p o n e n t sr e g r e s s i o n ) METHOD=PCRオプションを指定すると、主成分回帰分析が実行される。 なお、 M ETHOD=SINIPLSと指定すると、 DeJ o n g ( 1 9 9 3 )の SIMPLS法が実行さ れる。 METHOD=PLSとは、応答変数が 2個以上がある場合には 2次以上の結果が 異なるが、応答変数が l個の場合には全て同じ結果になる。 1 .2 PLS回帰とその他の方法との関連 1 .2 . 1 PLS回帰と主成分回帰法との相違 P L S回帰や主成分回帰は、通常の回帰モデ、/レをあてはめることが難しいデータ(共 諌性があるデータ)から予測式をたてるのに用いられる手法である。これら 2手法で は、説明変数そのものを応答の予測に用いるのではなく、ある潜在的な媒介変数の推 定値を合成得点、として求めた後に、その合成得点、により応答の予測が行われる。 P L S回帰と主成分回帰は、合成得点を算出する際の基準が異なる。主成分回帰は、 た、けから合成得点(主成分得点)を構成する (Xは平均 0で分散 l 説明変数の行列 Xo に中心化・尺度化されることが多い)。主成分得点のベクトノレは、加重ベクトノレの大き さを一定にした制約下で、直交するベクトルのなかで、その大きさ ( 0分散)が最大にな るベクトノレから求められる。主成分分析は、 X の変動をできるだけ説明するように逐 次的に抽出 ( e x t r a c t )されてして。 主成分得点、を説明変数として用いた場合、多重共頼性は生じないし、 X の変動を十 分説明する変数を説明変数とすることができる。しかし、主成分得点は Yの変動を考 慮、して作成されていない。一方、 P LSモデノレの合成得点は、 Xおよびその応答である Yの両方を考慮、して構成される。 PLS回帰の第 l主成分は、 x 。の合成得点、と YO の 合成得点、の共分散が最大になるような直交する合成得点を求めてして。第 1P LS得 の特異値分解によって得られる。 2次 点に対する重みベクトルは、 XuY 、 3次は残 o 差から構成されていく(次章を参考のこと)。 このような見方をすると、 P LS回帰法は通常の重回帰分析(lE樹 i目関分析)にも似て Xoと YOとの正準角)が最大に いることが分かる。正準相関の第 l合成得点は相関 ( なるように計算されるのに対して、 P L S回帰の第 1合成得点はその共分散(内積)を 最大化するベクトルが求められる。 ‑387
1 .2 . 2 PLS回帰と共分散構造分析の測定モデルとの相違 PLS回帰は、図 lで表されている潜在変数を含むパスモデ〉レ ( p a t hmodelw i t hl a t e n t v a r i a b l e s )に対する推定法の l種とも考えられる。図 lのモデ ルに対する推定方法と しては、共分散構造分析で行われる最尤推定がもう lつの選択肢として考えられる。 2つの推定方法には、 W o l d ( 1 9 8 5 )によると下記のような相違点がある。 1.共分散構造分析では、顕在変数および潜在変数の共分散行列をモデ、ノレ化する。 2 .共分散構造分析では、独立・同一の特定の多変量確率分布にオブ、ザベーション i s t r i b u t i o n ‑合間であり、また、オプ は従うことを仮定している。 PLS回帰は、 d ザベーションの独立性は要求されない。 3 .共分散構造分析における構造モデルの回帰パラメータ推定値は、一致性を満た す。しかし、潜在変数の値は推定されなし、。 PLS回帰においては、潜在変数の 推定値は顕在変数の合成得点として算出される。しかし、 PLS回帰のパラメー タ推定値および潜在変数の推定値は一致性を満たさない。 4 .共分散構造モデ〉レで、は、モデソレを評価する際に、古典的な漸近理論を用いて仮 説検定や標準誤差を計算することができる。 PLS回帰では、分布や独立性の仮 定を置かない推定方法に基づきモデ、ル評価を行なわなければならない。 2 PLS回帰の計算手順 PLS推定の計算は、大雑把に述べると下記の 2部分に分けて考えることができる。 ‑合成得点(潜在変数に相当する部分)を計算する ・合成得点を説明変数として予測値を求める。 なお、計算手順やアルゴ リズムとしては幾つかの方法が考案されており、 PLSプロ シジャでも METHOD=の ALGO Rl THM=オプションにて選択することができる。 METHOD=PLSによって行われる分析の計算手順を次節 2 . 1から 2 . 3に述べる。 ‑388
。 。 。 。 A 図は、説明変数 3個、応答が 2個の場合。 丸で囲んでいるものが"潜在変数"、四角が"顕在変数"、ひし形が誤差。 図 1 :PLSプロシジャが扱える方法 389‑
2 . 1 合成得点(潜在変数)を求める際の基準 与えられたデータの説明変数の η xp行列を X、応答変数の η xq行列を Y とする。 η はオブザベーション数、 qは応答変数の数、 pは説明変数の数である。 PLS回帰においても、主成分分析と同様に、 Yおよび X の各列を平均 O分散 lに 中心化・尺度化した後に計算を行なう場合が多い。中心化・尺度化されたデータをそ れぞれ Xo, Yoと表T.ロ まず、 PLS回帰では、中{..'{七・尺度化されたデータ Xo , Yoから、「ある基準に基づ いて」重付きの合計(合成得点)を求める。この合成得点が、第 1次の合成得点となる。 X O ( こ対する加重ベクトノレを Wl、この重みによって求められた合成得点を t lとする。 Wlはpxlベクトル t lは ηx1ベクトノレである。同様に Y O ( こ関して、重付けの qx1 l、得点の ηx1ベクトルを U lとする。これらの関係は下式で表される。 ベクトノレを V 百二 XoWi u i=Yoむ PLS回帰において、加重ベクトノレ Wl, V lおよび合成得点 t l, u lは、いくつかの方法 にて求めることができる。 PLS回帰で求められた合成得点には、 大きさが一定の制約下で) されているので、 r (r wlおよび V lの t iUlを最大化する」としづ特徴がある (Xoと YOは中心化 t iUlは合成変数間の共分散を表す)。計算上、この基準を満たすよ うな加重ベクトノレは、 XuYoの最大の特異値に対応した左および右特異ベクトル(を 定数倍したもの)である。 PLS得点を用いて予測を行なった場合、主成分回帰と異なり Yの変動も考慮して合 成得点は作成される。 2 . 2 データ更新 第 2PLS得点は、 t lを説明変数とした時の Xo, Yoの残差を特異値分解することに より得られる。 t lによる Xoおよび Y O (こ対する予測値および残差は次のように表さ れ る 。 む lお よ ひ お lの添字の lは、第 l合成得点のみを用いて予測したことを表す ことにする。 x o tこ対しては、 おl ニ t 1 6 i Xl=Xo‑X01 3 9 0
こ回帰させて、データを更新する。 Yolこ対しでも、同様に t 11 Y01= t1q' 1 Y1ニ YO‑Y0 1 ここで、仇およびもは、第 1PLS得点に対する iPLS負荷量Jである。 XOー お および YO む が 、 第 2PLS得点を求めるために使われる。第 1PLS得点を求めた 時と同様に、 X~Y1 の特異値分解により、 2 次における加重ベクトノレ W2 , V2 および合 成得点 t 2, u2が求められる。 ) 固と同様に、第 3PLS得点を求めるには、 tbt 2を説明変数 第 2PLS得点の計算手1 九の残差を特異値分解すればよい。 とした時の Xo, Xolこ関しては、 X02=t 1 P ' l+t 2 P ' 2 X3=Xo‑X02 としてデータは更新される。 こ対しては下記の式に従い更新される。 また、 Yol Y02=t 1 Q ' l+t 2 Q ' 2Y3=YO‑Y02 このような手順で求められた Xの PLS得点 t 1, t 2, t 3ぃ.は、互いに直交するベク トノレである。 2 . 3 合成得点に基づく予測 2ぃ ・ ,t 適当な次数 αまで PLS得点を求めたならば、その合成得点 tbt aから元デー タの予測値を算出する。 PLSプロシジャで、は、 LV=オプションにより予測に用いる 次元を明示的に示すこともできる。予測値は、 T= [ t 1 't 2, … ,t a lに Yの各列を回帰 させることによって得られる。 Yニ b ' o十 t 1b' l十 t 2b' 2十 … +t a b ' a 51,5 … ,5 、 kxlのベクトルである。なお、 6 。切片を表すベクトルである。 PLS aは 2, プロシジャで、は、 REGプロシジャ等と同様、 OUTPUTステートメントの PREDICT= オプションや YRESIDUAL=オプ、ンョンを用いて、 Yの予測値および残差 Y ーすを 円HU ーよ n4U
データセットに出力することが可能である(応答が多変量の場合には、 PREDICT= PlP2P3…のように、その応答変数の数だけ指定しなければならなし、)。 なお、 t 1 u lを最大にするような合成得点および加重ベクトルの解を一意にするに は、「加重ベクトルである W lおよび Vlの大きさの各々を 1に固定」、もしくは、「負 荷量 (PLS負荷量)の大きさを 1にする」といった制約が考えられる。いずれの制約 をとっても、 tの方向は変わらないので、 Yおよび X の予測値は、大きさの制約によ り左右されることはない。 3 簡単な使用例 この章では、 PLSプロシジャを用いた分析例を紹介する。 用いたデータは、元々、 Lindbergetal.(1983)に記載されたものである。また、こ のデータは、 PLSプロシジャの例題集の 2章でも用いられている。この例題集はホー 付記」を参考のこと)。 ムページよりダウンロードすることができる( r 3 . 1 データ PLSプロシジャを用いるためには、データセットは下記のように各標本をオプザ ベーションとして保存されていなければならない。 data samp1e; 且 e$ v 1‑v27 ls ha dt~~; input obsna cards; EM1 2766 2610 3306 3630 3600 3438 3213 3051 2907 2844 2796 2787 2760 2754 2670 2520 2310 2100 1917 1755 1602 1467 1353 1260 1167 1101 1017 3.0110 0.000 0.000 EM2 1492 1419 1369 1158 958 887 905 929 920 887 800 省略... EM16 Vl・V27は、各周渡数に対応した変数であり光の握幅を値として持っている。 L8, HA, DFは、サンプノレの海水中に含まれている成分の含有量を値として持つ変数であ る。変数 L8は lignins叫fonate(リグニン=スノレホン酸;)、 H Aはフミン酸、 D Tは漂 白剤 (whitener企omdetergent)の量を表している。また、 OB8NAMEは、各サンプ 392
ルを識別するための変数で、ある。このデータは全部で 1 6サンプルしかない。「説明変 数聞の相闘が高い」、また、何よりも「オブザベーション数が変数の数より少なし、」た め、このデータの変数 V1‑V27から LS, HA, DFの各量を予測したい場合、通常の回帰 分析に基づく予測式を立てることが困難になる。 3 . 2 PLSモデルのあてはめ 下記のプログラムにより、 1 6サンプルのデータが入ったデータセット SAMPLEか ら 、 PLSモデ、ルを推定する。 担批 守 門 ︐h ︐ .f v f& v e ー ム = ︐ . D & +U s ah =a ﹃ 4 as S 0 e ・ dl 1ム p企 ・d cm o r p nm; PLSプロシジャは、デフォルトでは、各次元の Xの PLS得点 T により説明される データ変動の割合および累積割合しかプリント出力しない。また、説明変数の数だけ の PLS得点を計算する。説明されるデータ変動の割合は、顕在変数が 1つの場合に は 、 X の PLS得点 T を説明行列とした時の各列の R2を平均した値である。複数あ る場合には、各 R2の値が出力される。前述のプログラムにより、出力された結果を 示す。 内ぺ U 円同d qu
The P LS Procedure Percent Variation Accounted For Nu 皿b erof Latent Variables Model Effects Current Total 1 2 3 4 5 6 7 8 9 10 1 1 12 13 14 15 1 6 17 97.4607 2.1830 0.1781 0.1197 0.0415 0.0106 0.0017 0.0010 0.0014 0.0010 0.0003 0.0003 0.0002 0.0004 0.0002 0.0000 0.0000 26 27 0.0000 0.0000 Dependent Variables Current Total 97.4607 41 .9155 99.6436 24.2435 99.8217 24.5339 99.9414 3.7898 99.9829 1.0045 99.9935 2.2808 99.9952 1.1693 99.9961 0.5041 99.9975 0.1229 99.9985 0.1103 99.9988 0.1523 99.9991 0.1291 99.9994 0.0312 99.9998 0.0065 100.0000 0.0062 100.0000 0.0000 100.0000 0.0000 一省略... . . 100.0000 0.0000 100.0000 0.0000 41 .9155 66.1590 90.6929 94.4827 95.4873 97.7681 98.9374 99.4415 99.5645 99.6747 99.8270 99.9561 99.9873 99.9938 100.0000 100.0000 100.0000 100.0000 100.0000 15次までの PLS得点によって X および Y の変動がすべて説明されているのは、分 6オブザベーションしかないからである。 析に用いたデータには 1 このプリント出力より、まず研究者が予測を行なおうとしている応答変数の変動は、 3次までの PLS得点 T により 90%、 8次までの PLS得点を用いると 99.5%程度の割 合で説明されることが分かる。また、顕在的な説明変数 (V1・ V27)の変動は、応答 変数よりも更に低い次元の PLS得点により説明されている(1次だけで 97%の割合)。 3 . 3 PLSモデルの評価・次元の同定 もし、前節のように次元を指定しないと説明変数の数だけ PLS得点は計算される ので、予測値と実測値は閉じ値になる。次に、分析者はどの次元までを用いて予測式 を作成するかを決めなければならない。 PLSプロシジャは、 c v=オプションに値を指定することにより、「テストセット ‑394
に基づく確認法 ( t e s ts e tv a l i d a t i o n )J と「交差確認法 ( c r o s s ‑ v a l i d a t i o n )Jに基づき、 PRESS(PredictedREsidualSum0 1S q u a r e s )が計算される。後者の確認方法は、モデ ルを推定する標本 ( t r a i n i n gs e t )とモテ、ル評価に用いる標本 ( t e s ts e t )とにデータセッ r a i n i n gs e tから推定されたモデ、ルを、 t e s ts e tを用いて開国する方法で トを分けて、 t ある。 CV=TESTDATA(データセット名)にて、。内に指定したデータセットを t e s t s e tにした確認法が実行される。現在、扱っているデータセット SAMPLEにおいて r a i n i n gs e tと t e s ts e tに分けると、それぞれのオブザベーション数が少なくなる は 、 t ため、この方法を使用するのは得策ではないだろう。 交差確認、法としては、 4種の抽出方法が指定できる。ジャックナイフ型の方法とし て 、 1個ずつ除く方法 (CV=ONE)、ブ、ロックで除く方法 (CV=BLOCK(block‑size) )、分割して取り出す方法(CV ニS PLIT(仇 旬 開a 0 )が実行できる。また、乱数を用い るブートストラップ型の方法として、 CV=RANDOMを指定すると乱数により標本 再抽出が行われる。 CV=ONEオプションは、各オブザベーションが 1つずつ t e s ts e tとして取り除か れる。まず 1番目のオブザベーションを t e s ts e t (それ以外が t r a i n i n gs e t )として、次 e s ts e tとし、…というように n個の標本から統計量 に、第 2オブザベーション数を t が計算されるいはオブザベーシュン数) 0 CV=BLOCK(b l o c k ‑ s i z e )を指定すると、ブ r a i n i n gs e tのオフ守ザベーションが変更される。例えば、 CV=BLOCK(10) ロック毎に t と指定すると、初めに 1から 1 0のオブザベーションを、次に 1 1から 2 0までのオブ ザベーションを…というように再抽出が行われる。また、 CV=SPLIT(10)と指定す , 1 1, 2 1,.・‑番目が、次に 2 , 1 2, 2 2,…番目のオブザベーションが、というよ ると、まず、 1 うに一定間隔を置いてオブザベーションが取り除かれてし、く。 CVニ ONEオプションを付加したプログラムおよび、および交差確認法の結果を下 記に示す。 ‑395‑
proc p1s data=samp1e cv=o n e ; mode1 ls ha dt = v1‑v27; r u n ; The PLS Procedure Cross Va1idation for the Number of Latent Variab1es Number of Latent Variab1es Root Mean PRESS 。 ー一ーーーー一一ーー一一一ーーーー一一一ーー 1 2 3 4 5 6 7 8 9 10 1 1 12 13 14 15 1 .0667 0.8929 0.8246 0.5939 0.5277 0.6560 0.4785 0.4281 0.4786 0.4787 0.4760 0.4814 0.5274 0.5292 0.5316 0.5316 . 省 略 .. . MinimumRoot Mean PRESS = 0.428141 for 7 1atent variab1es 3 . 4 予測値のデータセットへの出力 予測値をデータセットに出力するためには、 OUTPUTステートメントを使用する。 どの次元までの PLS得点、を予測に用いるかを明示的に指定したい場合には、 LV=オ プションで指定する。 cv=オプションのみを指定した場合には、最小の PRESSをと るモデ、ノレによって、応答の予測が行なわれる。下記のプログラムは、平均の PRESS が最小となる 7次までの予測式に基づき、予測値 (PREDICTED=オプション)・残 差 何ESIDUAL=オプション)および合成得点 (XSCORE=および YSCORE=オプ ション)をデータセット OUTlに出力する。なお、この時、予測したい標本を応答を 欠損値として入れておけば、その予測値が出力される侭EGプロシジャと同様、応答 n 叫U ρ u ο η
答だけが欠損値のオプザベーションは、モデ〉レ推定の計算からは除外されるが、その 予測値は説明変数から計算される)。 p r o cp 1 s data=samp1e c v = o n e ; mode1 1 s hadt =v l ‑ v 2 7 ; output out=outl predicted= p̲1s p̲hap̲dt residua1 =r̲ 1 s r̲har ̲ d t xscore=xscore; r u n ; しかし、 PRESSを最小にもつ次元までを採用したモデルは少し元長である(次元数 を多く取りすぎている)かもしれなし、。できるだけ次元数を節約したモデノレを採用す るために、 PRESSを最小にもつモデルと、それよりも次元が少ないモデルとを比べ て 、 2つのモデルの PRESSに統計的な差が無い場合には、次元が少ないモデ〉レを採 用するといった方法も考えられる。 PLSプロシジャで、は、 CVTEST(STAT=T2)もしくは CVTEST(STAT=PRESS) オプションを付加すると「予測の良さ」に有意な差があるか否かを検定する。 CVTEST 2統計量に基づいてモデ〉レ聞の比較 (STAT=T2)がデフォルトであり、 HotteU n gの T が行なわれる。また、 CVTESTオプションに、 STATニ PRESSを指定すると、 van d e rVoet検定(v 阻 d e rVoet( 1 9 9 4 ) )が実行される。 CVTESTオプションを付加する.と、最小の PRESSをもっ PLSモデノレとの統計的 な有意差が見られないモデルのなかで、最小の次元のモデルが自動的に選択される。 前のプログラムで、は最小の平均 PRESSをもっモデルにより予測値が推定された。こ のプログラムに、 CVTEST(STAT=PRESS)オプションを指定すると、 2次までのモ デルに基づく予測値がデータセットに出力される。なお、モデル聞の比較を行なう時 の有意水準は PVAL=オプションで変更することができる。デフォノレトの有意水準は 0 . 1 0である。 p r o c p1s data=samp1e c v = o n ec v t e s t ( s t a t= press); mode1 1 s hadt =v l ‑ v 2 7 ; o u t p u t out=outl predicted= p̲1sp̲hap̲dt yresidual =r̲1s r̲har ̲ d t xscore=xscore yscore=yscore; r u n ; ‑397一
残差プロットや PLS得点聞の関係をグラフで描きたい場合には、このデータセット を元にプロッ卜すればよい。 4 結び 既に計量化学の分野ではポピュラーな手法となっている PLS回帰法を実行する PLS プロシジャについて簡単な紹介を行なった。 5 参考文献 L i n d b e r g , W.P., P e r s s o n, JλandWold, S . ( 1 9 8 3 )" P a r t i a lL e a s tS q u a r e sMethod f o rS p e c t r o f t u o r i m e t r i cA n a l y s y so fM i x t u r e so fHumixa c i dandL i n g n i n s u l f o n a t e " , A n a l y t i c a lC h m i s t r y , 5 5, 6 4 36 4 8 . 戸 Wold, H . O . ( 1 9 8 5 )P a r t i a lL e a s tS q u a r e sの項, i nE n c y c l o p e d i ao fS t a t i s t i c a lS c i ‑ ,防 lume6(EditorS.KotzandN.L.Johnson), p . 5 8 1 ‑ 5 91 .W iley e n c e s H . ( 1 9 9 4 ), "Comparingt h eP r e d i c t i v eAccuracyo fModelsUsinga vand e rVoet, S i m p l eRan d o m i z a t i o nT e s t ", ChemometricsandI n t e l l i g e n tL a b o r a t o r yS y s t e m s , 2 5, 3 1 3 ・ 3 2 3 付記 PLSプロシジャは評価版で、ある。他の正式版のプロシジャと異なり、そのマニュア ルも存在しない。下記の 2資料が PDF形式および PS形式にて、米国 SASのホー t t p : / / w w w . s a s . c o m / r n d / a p p / s t a t / s t a t n e w . h t m l # 6 . 1 2R e l e a s eからダウン ムページ h ロードできる。 1 . ExamplesU singt h ePLSP r o c e d u r e 2 .T o b i a s, R .D . ( 1 9 9 5 )AnI n t r o d u c t i o nt oP a r t i a lL e a s tS q u a r e s i nF r o c e e d i n g so ft h eT w e n t i e t hAnnualSASU s e r sGroupI n t e r n a t i o n a lCon 舗 f e r eπ c e 統計的分布の性質や、他のモデ、/レとの予測精度の比較についての本質的な議論につ いても、上記資料に記載されている文献をあたってほしい。 nud η0 a u
日本 SASユーザー会 (SUGI‑J) リリース 6 . 1 2 / 6 . 0 9 Eの新機能の紹介 一一SAS/MDDBS e r v e rソフトウェア及びリモートライブラリサービスの DBCS変換機能一一 迫田英之 株式会社 SASインスティチュートジャパン カスタマーサポート部テクニカルサポートグループ I n t r o d u c et onewf u n c t i o n si nt h eSASsystemr e l e a s e6 . 1 2 / 6 . 0 9 E . 一 一 一 SAS/MDDBS e r v e rS o f t w a r eandDBCSc o n v e r s i o nv i aRemoteL i b r a r yS e r v i c e s ‑一 一 H i d e y u k iSakota Te c h n i c a lSupportGroupCustomerS u p p o r tDepartment,SASI n s t i t u t eJapanL t d . 要旨 . 1 2 / 6 . 0 9 Eの新機能である、 SAS/MDDBS e r v e rソフトウエア及びリモート SASシステムリリース 6 ライブラリサービスの DBCS変換機能について紹介する。 . 1 2、6 . 0 9 E、SAS/MDDBS e r v e rソフトウエア、 DBCS変換機能、新機能 キーワード: 6 1.はじめに 今夏、最新版となる SASシステムリリース 6 . 1 2 / 6 . 0 9 E が出荷された。本論文では、リリース 6.12/6.09E の新しいプロダクトである SAS/MDDB S e r v e rソフトウェアについて以下の通り説明す る 。 ・ ・ • MDDBのファイノレ構造、容量の見積もり 稼動プラットフォーム、リリース及び必要なプロダクト MDDBの作成、更新、移動方法 • MDDBの利用、参照方法 また、クライアント/サーパ環境で、 MDDB のみならず SAS ファイルをリモートライブラリサービス ( R L S )を使ってアクセスする際に要望の強かった、 DBCS変換機能についても紹介する。 ‑399一
2.MDDBのファイル構造 MDDBは SASデータセットとは異なるデータ構造を持ち、要約データを管理できる読み込み専用 の多次元データベースである。ファイルタイプは MDDBである。 MDDBは NWAYと呼ばれる基本テーブルと S u b t a b ! eからなる。 • NWAY....分類変数の全組み合わせのうち最も高いサブ、グ、/レープに対して分析変数ごとの要 約統計量を保持するテーブル。(必須) ・ S u b t a b ! e . . . .階層に対して分析変数ごとの要約統計量を保持するテープソレ。(任意) MDDBを作成する方法の一つである MDDBプロシジャでは、分類変数 =CLASSステートメント、 分析変数/統計量=VARステートメント、階層 =HIERARCHYステートメントで指定する。 (MDDBプロ シジャについての詳細な記述方法は 6‑1 .MDDBプロシジャを参照されたい) 以下にデータと MDDBプロシジャの例を通して、詳 細を説明する。 表 lの例では、分析変数は s a ! e s、統計量は sum である。分類変数には year, q u a r t e r , r e g i o nの 3つを 指定している。よって、表 2の NWAYには表 lと同じ データが格納される。 ( 表 1: sastemp.ron(元データ)) y e a r 1 9 9 6 1 9 9 6 1 9 9 6 1 9 9 6 1 9 9 6 1 9 9 6 1 9 9 6 1 9 9 6 q u a r t e r 2 3 4 2 3 4 (プログラム 1 ) PROCMDDBDATA = s a s t e m p . r o n oUT=sastemp.ronmddb; CLASSy e a rq u a r t e rr e g i o n ; HIERARCHYy e a rq u a r t e r ; HIERARCHYy e a r ; VARs a l e s / s u m ; RUN: r e g l o n s a l e s ( 表 2:NWAY ) y e a r q u a r t e r r e g l o n s s a l e s 東京 東京 東京 東京 太阪 太阪 太阪 太阪 1 0 20 30 40 1 5 25 3 5 45 1 9 9 6 1 9 9 6 1 9 9 6 1 9 9 6 1 9 9 6 1 9 9 6 1 9 9 6 1 9 9 6 東京 東京 東京 東尽 太阪 太阪 太阪 太阪 1 0 20 30 40 1 5 25 35 45 S u b t a b ! eは表 3, 4のように格納される。(階層名 h i e r nは 自動的に定義される) 2 3 4 2 3 4 ( 表3 : h i e rl ) s s a l e s 25 45 6 5 8 5 このように複数のテーブノレが抽出しやすい形で格納さ れている。 今回は理解しやすいように、元データと NWAYデータ が同じになるようなデータを例としたが、実際にはより多 : h i e r 2 ) くの変数とオブザベーション数を持つ元データから(表 4 o 院 二 凶 e s 次に NWAY のみを格納した場合はどうなるだろう U盟主~ MDDBを作成することになる。 400一
カミ? MDDBプロシジャで HIE 孔 ベRCHYステートメントを一切指定しないと NWAYのみで構成された MDDBが作成される。つまり、(表 3、表 4)のデータは MDDBには格納されず、 SAS/EISで抽出する 場合は NWAYより動的に計算されることになる。なお、 NWAYのデータは NWAYオプションを使っ て SUMMARYプロシジャを実行した出力データと同一である。 S u b t a b ! eを保持するかどうかは、レスポンスタイムと容量を考慮し、どちらを優先するかで決まって u b t a b ! eを持つように MDDBを作成したほうが、データ抽出レスポンスは良くなる) くる。(当然ながら S MDDBの各種制限値 ・ • MDDBの物理的な容量は最大 2GBとなっている。(将来的には拡張予定) 元データの行数、また分類変数、分析変数、階層に関しての数的な制限はなし。 3 .容量の見積もり ・ ・ ・ ・ MDDBに対してどの程度の容量を必要とするかを以下に示す 0 1MDDBに対して 9 0 0バイトのオーバヘッド、 l分析変数に対して 6 7 6バイトのオーパヘッド l分類変数に対して 3 4 0バイトのオーバヘッド+(フォーマットの最大バイト数牢値の数)+(フォー マッ卜されていない最大バイト数牢値の数) l階層に対して 2 9 6バイトのオーバヘッド、+(次元数叫+分析変数の数*統計量の数時)*組み合 わせ数)… NWAYを含む 以上を合計した値を必要とする。プログラム 1を例に取り計算してみると、 900+ 2*2 76+ 3 4 0 + ( 8 * 1+ 8牢 1 ) + 3 4 0 + ( 8 * 4 + 8 * 4 ) + 3 4 0 + ( 8 * 2 + 8 * 2 ) + 2 9 6 + ( 3 * 4 +1 * 1* 8 )牢8 + 2 9 6 + ( 2 * 4 +1 *1*8 )牢4 + 2 9 6 + ( 1 * 4 + 1 * 1 * 8 ) * 1 + 1 *MDDBのオーバヘッド、 * 1 1 *分析変数に対してのサイズ * 1 1 1 *year分類変数に対してのサイズ * 1 *qua巾 r分類変数に対してのサイズ * 1 1 *region分類変数に対してのサイズ * 1 1 *NWAY階層に対してのサイズ * 1 1 *hier1階層に対してのサイズ * 1 1 1 *hier2階層に対してのサイズ * =3698 ただし、実際には数千バイト程の誤差(上増し)が生じる場合がある。これは、 SASデータセットと 同様にページを基本としたファイノレアロケーションを行うためである。 4.MDDBが稼動するプラットフォーム、リリース(日本語版) 1 9 9 7年 7月 3 1日現在の日本語版の対応プラットフォーム及びリリース状況を以下に示す。 最新状況に関しては、 SASインスティチュートジャパンのテクニカルサポートに確認していただきた ‑ 4 0 1 ←
し 、 。 ・ ・ リリース 6.12f o rWin, OS/2, AIX, HP‑UX, S o l a r i s, AXP‑YMS(出荷準備中) ‑ リリース 6.12TS040f o rMac(出荷準備中), D i g i t a lUNIX(出荷準備中) リリース 6.09Ef o rMVS(出荷準備中) 5.MDDB稼動のための必要プロダクト 以下に必要となるプロタeクトを操作別に示す。 リリース 6.09Eに関しては、 MDDBプロシジャ及び MDDBウインドウのみ用意されている。 必要プロダクト 操作 考慮点(下 記参照) 作 成 / MDDBプロシジャで作成/更新 BaseSAS, SAS/MDDBS e r v e r 更新 SAS/EISで作成/更新 BaseSAS, SAS/MDDBS e r v e r, SAS/EIS 2 SAS/WAで作成/更新 BaseSAS, SAS/MDDBServer, 3 SAS/WarehouseA d m i n i s t r a t o r SAS/MDDBS e r v e r, SAS/ AF SAS/AFのMDDBクラスで作成/ BaseSAS, 4 更新 利用 SAS/EISで利用 BaseSAS, SAS/EIS 5 SAS/AFで利用 BaseSAS, SAS/ AF 6 WEBブラウザ、での利用 WEBが稼動するクライアントに SASシステム 7 は不要。 A p p l i c a t i o nS e r v e r 上に BaseSAS SAS/EIS, S A S / l n t r N e t, SAS/MDDBServer (MDDBが ロ ー カ ル の 場 合 ) ま た は SAS/CONNECT(MDDBがリモートの場合)が 必要になる 参照 SASSFIO エンジン(評価版)経由 BaseSAS, SAS/CONNECT 8 BaseSAS 9 での PROCステップ、 DATA ステ ップ MDDBウインドウ 1 . パッチ、 DMSとも実行できるが、 HIERARCHYステートメントで指定する階層を全て記述する必要が ある。 SAS/CONNECT, SAS/SHAREがあればリモートマ、ンンに MDDBを作成することができる。 2 . 対話型のみであるが、階層の自動生成を行うので、操作が簡単である。 3 . 2 .の長所をもち、さらに MDDBローデ、イングのスケジュール機能も持っている。 4 . SCL にてオブジェクト指向型で記述する。 MDDB クラスを使用し、 SUMMARY̲ メソッド、で、作成、 UPDATEMDDBメソッド、で更新する O 一4 0 2
5 . クライアント/サーバ、スタンドアロン環境で OLAPを行う上でもっとも標準的な利用の仕方である。 6 . SCLにてコーディングする、 ( S A S / E I Sのようにノンプログラミングではない) 7 . クライアントのリソースの負荷とコストの軽減を図れるが、 SAS/EIS のように利用者自身が試行錯誤 をしながら分析を行う(つまりアプリケーションを容易に修正し実行する)ことはできない。 8 . MDDBの各 Subtable(NWAYテーブノレを含む)を DATAステップ、各プ口、ンジャの入力デ、ータセット とすることができる。 9 . 属性情報を参照できる。 6 . M D D Bの作成・更新 ・ MDDBを作成・更新する方法は以下の 4通りある 0 MDDBプロシジャを実行する。 • SAS/EISソフトウェアを使ってローデ、イング、する。 ・ • SAS/WarehouseA d m i n i s t r a t o rソフトウェアを使ってローデ、イングする 0 SAS/AFソフトウェアの MDDBクラスを使用する。 本論文では MDDBプロシジ、ャについて詳しく説明する。他の方法に関してはオンラインマニュアノレ を参照されたい。 6‑1.MDDBプロシジャ MDDBプロシジャを使用することにより、 MDDBの Baseテーブノレからのローデイング、及び既存 の MDDBに対しての更新が行える。 構文 PROCMDDBDATA=dsnameOUT=l i b r e f . o u t m d d bIN=l i b r e f . inmddb LABEL=d e s c r i p t i o n PW="password" r d er ‑o p t i o n s CLASSv a r lv a r 2… /o 1 c l a s s ̲ v a r 2… / NAME=nameI"name" DISPLAY=YESINO; HIERARCHYc l a s s ̲ v ar VARv a r lv a r 2 . . . /s t a t ‑ o p t i o n s RUN; MDDBステートメント • DATA=dsname MDDB のソースとして使用するテーブルの名前を指定する。テーブノレ名を指定しないと、最後に 開いたテーブルが使用される。このオプションは必須である。 • OUT=l i b r e f . o u t m d d b ・ 作成する MDDB の名前を指定する。このオプションは必須である。 IN=l i b r e f . i n皿 ddb ‑ 4 0 3一
他のテープノレのデータを使って既存の MDDB を更新する場合は、このオプションに更新する ・ MDDB名を指定する。 LABEL=d e s c r i p t i o n MDDB と一緒に保存されるラベノレを 80 文字以内で指定する。ラベルテキストが空白を含む 場合は、それを引用符で固まなければならない。 PW="p a s s w o r d " • MDDB に割り当てる読み込みパスワード を 8文字以内で指定する。パスワードは必ず引用符 で囲んで指定しなければならなし、。 CLASSステートメント CLASSステートメントを使うと、 MDDB 内で分類変数として使用される変数を入力データセット から指定することができる。 CLASSステートメントは複数指定することができるが、同じ変数はすべ ての CLASSステートメント内で l度しか指定することができない。クラス変数には数値か文字値 が使用できる。ソート1 ) 慣を指定しないと、昇順が使用される。 CLASSステートメントでは次のオプションが使用できる。 o r d eト o p t i o n s • オプ、ンョン 意味 ョンのいずれかで指定する。 ASCENDING 昇順 また、各 CLASS変数ごとに異なるソート DESCENDING 降順 順を指定することもできる。その場合、各 ASCFORMATTED フォーマット化文字で、昇順 変数ごとに別々の CLASSステートメント DESFORMATTED フォーマット化文字で、降順 を使うようにする。 DSORDER 作成されたオプザ、ベーション順 分類変数のソート順を右の表のオプシ HIE孔t¥RCHYステートメント HIE孔t¥RCHYステートメントを使って、 MDDB に保存するサブテーブノレを定義することができる。 階層の指定を省略すると、 NWAY階層だけが MDDB に保存される。複数の CLASS 変数を指 定することもできるが、 HIERARCHYステートメントでは CLASS変数を l度しか指定することはで きない。 ・ HIE孔t¥RCHYステートメントでは次のオプションが使用で、きる 0 NAME=nameI "name H 階層名を指定する。階層名が空白を含む場合は、それを引用符で囲んで指定しなければならな し 、 。 階層名を指定しないと、標準名 HIERnが使用される。 n は定義した階層の番号を表する(開始 は 1である)。 • DISPLA Y=YESINO ‑404
階層をメタベースに自動的に登録するかどうかを指定する。 DISPLAY=YES を指定すると、階層 はメタベースに自動的に登録される。このオプションを指定しないと、標準の DISPLAY=NO が使 用される。この場合は、 SAS/EISメタベースに階層を明示的に登録しなければならない。 VARステートメント VAR ステートメントで指定した入力データセットの変数は、 MDDB で分析変数として使用でき る 。 VARステートメントは複数指定することができるが、各変数は、すべての VAR ステートメントで l 度しか指定することができない。また、指定する変数は数値タイプでなければならない。統計量の 指定を省略すると、標準の SUMオプションが使用される。 VAR ステートメントには、次のオプションを指定することがで、きる。 • s t a t ‑ o p t i o n s 複数の統計量オプションを指定する場合は、各オプションをスペースで区切って指定する。 WEIGHT=オプションに指定する値は、そのデータセット内の数値変数の名前でなければならない。 また、 SUMWGTオプションも指定すると、その値は MDDB に保存される。 WEIGHT= オプション だけを指定すると、重みは SUM 統計量の計算に使用されるが、 SUMWGT値は保存されず、 SUMWGT に基づいて計算されるはずの他の統計量は計算されない(つまり、それらは欠損値に 0SUMWGTを指定して WEIGHT= を指定しないと、 SUMWGT値は保存されない。 なる) ( s t a t ‑ o p t i o n s一覧) (実行時に算出可能な統計量一覧) オプション 説明 オプ、ンョン 統計量の説明 元となる統計量 N 度数 AVG 平均値 N, SUM USS 無修正平方和 九 ベ NGE 範囲 MIN, MAX SUM 合計 PCTN 度数百分率 N MIN 最小値 PCTSUM 百分率 SUM SUMWGT 重み変数の和 CSS 修正平方和 N, SUM, USS MAX 最大値 VAR 分散 N, SUM, USS UWSUM 非欠損値の重みな STD 標準偏差 N, SUM, USS し合計 STDERR 標準誤差 N, SUM, USS 欠損値の数 CV 変動係数 N, SUM, USS WEIGHT=重みと T t統計量 N, SUM, USS して使用される数 PRT t値の確率値 N, SUM, USS 値変数 LCLM 下限信頼区間 N, SUM, USS UCLM 上限信頼区間 N, SUM, USS NMISS 上の表は MDDBに指定できる統計量、及び実行時に計算される統計量と計算もとの統計量の一覧 405一
である。 MDDB の容量を小さくするため、データ抽出時に算出可能な統計量については、あらかじ め MDDBに格納することはしていない。 MDDBの新規作成の例 PROCMDDBDATA=sashelp.prdsaleout=work.prdmddb LABEL='MDDB売り上げ情報'; CLASSy e a rq u a r t e rmonth; i s p l a y ニy e s ; HIERARCHYy e a rq u a r t e rmonth/name='売り上げ情報(年/四半期/月)'d HIERARCHYy e a rq u a r t e r ; HIERARCHYy e a r ; VARa c t u a l/nu s ssumminmaxn m i s s ; FA n u ︐ . VARp r e d i c t / nu s ssumminmaxn m i s s ; 既存の MDDBに対して更新する例 FA HU n u ︐ . PROCMDDBDATA=sashelp.prdsaleOUT=work.prdmddbIN=work.prdmddb2 ; 既存の MDDBに対して更新追加する場合は MDDBステートメントに DATA=, OUT=, IN=の3つの オプションのみが指定でき、他のステートメント、オプションは一切指定できない。つまり、分類変数、 分析変数、統計量、階層について変更することはできない。 この処理は"ドリップフィード"と呼ばれる。 7.MDDBの移動 ・ MDDBの移動をサポートするプロシジャは以下の 2種類である。 COPYプロシジャ • DOWNLOAD/UPLOADプロシジャ いずれも、個々の MDDBのみ、ライブラリ全体、ライブラリの中で MDDB形式のファイノレを全部、 の 3種類の方法がある。 CPORT/CIMPORTプロシジャにおいては MDDBの移送はサポートされていない。 7‑1 .COPYプロシジャ 各ライブラリどうしで MDDBの移動が行える。また、 リモートライブラリサービス機能を使うことにより、 異なるマシン間で MDDBの移動が行える。 4 0 6 ‑
使用例 1 *ライブラリ全体でコピー(含む MDDB)* 1 HU n u ︐ .VA PROCCOPYI N = w o r kOUT=sastemp; 1* メンバータイプニMDDB のみコピ~ * 1 1 *指定した MDDBのみコピー * 1 n u u ︐ . r PROCCOPYI N = w o r kOUT=sastempMT=MDDB; PROCCOPYI N = w o r kOUT=sastemp; n u u ︐ . r SELECTprdmddbIMT=mddb; 7‑2.DOWNLOAD/UPLOADプロシジャ 異なるマシン間で MDDBの移動が行える。 . 1 2とリリース 6 . 0 9 Eの問では、 DOWNLOAD/UPLOADプロシジャにおいて ただし、現在リリース 6 MDDBの移動が行えないため、リモートライブラリサービス機能と COPYプロシジャを使用してくださ し 、 。 使用例 1 *ライフゃラリ全体で、アップロード(含む MDDB)* 1 HU FA n u ︐ . PROCDOWNLOADI N = w o r kOUT=sastemp; 1 *メンバータイプ=MDDBのみアッブロード * 1 PROCDOWNLOADI N = w o r kOUT=sastemp VA n u ︐ .nu MT=MDDB; 1 *指定した MDDBのみアッブロード、 PROCDOWNLOADI N = w o r kOUT=sastemp; * 1 二 n u u ︐ . r d d b ; SELECTprdmddbIMTm *UPLOADプロシジャの構文は DOWNLOADプロシ、ジャと同様である。 8.MDDBの利用、参照 ・ MDDBを利用して多次元分析を行う方法は以下のとおりである 0 S A S / E I Sを使用する。 • SAS/AFを使用する。 • Webブラウザを使用する。 MDDBの各データや属性を参照する方法は以下のとおりである。 ・ • SASSFIOエンジン(評価版)を使用して、 DATAステップや各種プロシジャを実行する 0 MDDBワインドワにより、属性を参照する。 本論文では、 SAS/EISでの利用方法ならびに SASSFIOエンジンと MDDBワインドワについて説明 する。 一407一
8‑1.SAS/EISからの MDDB利用方法(リリース 6 . 1 2のみ) SAS/EISから MDDBを利用する際は、 SASデータセットを利用する場合と同様に、メタベースの登 録と E I Sアプリケーションの作成を行う必要がある。 ・ ・ ・ 以下に MDDBで利用可能な EISオブジェクトを示す0 多次元レポート 3次元ビジネスグラフ ・ ・ マップ 組織チャート グラフ対比分析レポート MDDBにて利用可能な統計量については 6 ‑1 .MDDBプロシジャの VARステートメントを参照の こ と 。 リーチスルー SAS/EISで多次元レポートを使う際に非常に便利な機能がある。リーチスノレーと呼ばれるもので、 あるカテゴリに対して右クリックで「詳細データ」を選ぶことにより、そのカテゴリでサブセットされた元 の詳細データを参照することができる。これにより、より多角的な分析を可能とするであろう。 8‑2.SASSFIOエンジン(評価版)からの MDDB参照方法(リリース 6 . 1 2のみ) SASSFIOエンジンは SAS/CONNECTに含まれる読み込み専用の新しいエンジンである。対象と HTTP している SASファイルも SASデータセットや MDDB、その他多数用意されており、また FTP, 等の URLアドレスでパスを指定することもできる。 本論文では、 MDDBに対しての指定方法のみを説明する。その他については SASインスティチュ ート・ジャパンのテクニカルサポートに問し、合わせていただきたい。 SASSFIOエンジンを使用することにより、 CONTENTSプロシジャで、 MDDBに含まれる論理的なデ ータセット名を知ることができる。また、論理的なデータセット名を DATAステップや各種プロシジャ に指定することにより、データの抽出をすることが可能になる。 構文 LIBNAMEl i b r e fSASSFIO' p a t h n a m e 'くI i b n a m eo p t i o n > ; • p a t h n a m e . . . . M D D B が格納されている物理ファイル名を プラットフォーム 拡張子 指定する。物理ファイノレ名は MDDB名+拡張子で表させ PC . S M 2 る 。 MDDBの拡張子は右表のとおり UNIX , . s s m 0 2 . s s m O1 l i b n a m eo p t i o n . . . M D D B では MREAD=のみ指定可能。 VMS .SASEB$MDDB ・ MREAD=で読み込みパスワードを指定可能。 4 0 8
DATA=libref.member(<SASDATAS e toptions><SASSFIODATAS e to p t i o n s > ) STAT ニが指定できる。 MREAD=は SASSFIO DATA S e to p t i o n s .…MDDB では MREAD=, • l i b n a m eo p t i o nと同様。 STAT=は MDDBに格納済みのものとそこから算出可能なものを指定で き る 。 例 ' ; l i b n a m eSFIO' / u s e r / t m p / r o n m d d b . s s m Ol / *PCの場合 / *UNIXの場合 p r o cc o n t e n t sd a t a = S F I O . ̲ a l l ̲ ; r u n ; /*論理データセットを表示*/ 二S F I O . n w a y ; r u n ; p r o cp r i n td a t a / *NWAYテーブノレの全データ表示*/ / *h i e r l (階層)テーフ守ルのデ、ータ表示 * / l i b n a m eSFIO' c :平s a s 6 1 2 ¥u s e r d a t a 平r o n m d d b . s m 2 '; p r o cp r i n td a t a = S F I O . h i e r l ; r u n ; * / * / 8 ‑ 3 . M D D Bウインドウ MDDBコマンド、または DIRウインドウから該当の MDDBに対して Sを入力した場合、 MDDBウ イ ンドウが聞かれる。 MDDB ウインドウには、エントリ名、作成日、見出し、次元、変数及び統計量、階層情報が表示され る 。 MDDBコマンドの構文は以下のとおり。 MDDBl i b r e f . m d d b n a m e 9 .リモートライブラリサービス (RLS)のDBCS 変換機能 従来は、リモート/ローカルで使用する漢字コード、が異なる場合に、文字化けが生じることがあっ たが、漢字コード変換を自動的に行うことによりこの問題を解消した。これにより、クライアントが Windows95(SJISコード)で、サーバが S o ] a r i s ( E U Cコード)とし、った構成の場合、漢字コードの自動変 換機能により文字化けが発生しなくなる。 ・ 制限事項 システムオプションの DBCSLANG はリモート/ローカルで、同じでなければならない。 katakana と japanese が指定可能だが、 SAS 内部では、異言語として扱われるので注意すること。 ・ 漢字コード変換を行った結果、文字列長が短くなる場合、スペースパデ、イング、される。また、 変換の結果、文字列長が長くなる場合、適当にトランケー卜される。つまり DBCS 文字列を含 むメンバの長さには余裕をもたせておくことが大切である。 ・ • SAS/GRAPH用オブジェクト内の日本語はコード変換されない。 リモートまたはローカルがメインフレームの場合、漢字コードの自動変換はサポート対象外であ 409‑
る 。 リモート側だけが DBCSRLS対応の場合 漢字コードの自動変換はサポートの対象外となる。 ローカノレ側のみが DBCSRLS対応している場合 この場合は、リモート側の DBCSLANG や DBCSTYPE がわからないため、ローカノレ側の環境 変数 RDBTYPEにリモート側で使用する漢字コードを設定する必要がある。 (例)リモート側が EUCコードを使用している場合 o p t i o n ss e t ニr d b t y p ee u c ; 1 0 .おわりに OLAPをより迅速に行うための基盤として MDDBという新しいデータ構造が作られた。おそらく、 MDDBという言葉を聞いたときに最初に上がる疑問は、 iMDDBとはなんだ ?Jではないかと思われ る。本論分では、 MDDB の構造、作成/利用方法について平易に説明できることを目指した。ベン チマークテストの結果等、 iMDDBを導入することによりこれだけのアドバンテージがある」まで踏み 込むことはできなかったが、 MDDBを作成や利用する際の簡単な手引書ともなれば幸いである。 ‑410‑
日本 S A Sユーザー会 (SUG I‑J) SASマクロ言語の新機能について 鈴木一彦 カスタマーサポート部 株式会社 SASインスティチュートジャパン AboutextendedfunctionsusingSASMacroLanguage KazuhikoSuzuki CustomerSupportDepartment SASI n s t i t u t eJapanL t d . 要旨 本論文では、 SASシステムリリース 6.11 および 6.09E以降で追加された SASマクロ言語の新しい機 能について紹介する。 キーワード: SASMACRO LANGUAGE 1 . はじめに まず、マクロ言語の新機能を紹介する前に、 マクロ機能について簡単に説明する。 マクロ機能とは、 S A Sシステム上で、ユーザ が入力するテキストの量を減らすために役立 つ非常に便利なツーノレである。マクロ機能を使 用すると、特定のテキストの名前(マクロ名) を付けた後、そのマクロ名を使って対応するテ キストを操作する'ことができる。 たとえば、特定のコマンド文字列にマクロ名 を付けた場合には、そのマクロ名を入力するだ けで、対応するコマンドを実行できるようにな る。また、特定の S A Sステートメント文字列 にマクロ名を付けた場合には、そのマクロ名を プログラム内に記述するだけで、対応する S A Sステートメントを自動的に生成することが できる。 マクロ機能は、マクロ言語を使って記述され た文字列をマクロプロセッサが処理すること によって実現される。マクロ言語では、 D A T A ステップ言語と同じように、変数、プログラ ムステートメント、式、関数などを使用でき る。ただし、マクロ言語では、%や&の付いた 名前を特別な意味を持つものとして使用す る 。 ‑マクロ定義の記述例 %macro create(m); %do 1 = 1 %to &m: data month&1; i n f il ei n & l : input product cost date; r u n ; %end; %mend create; ‑411‑
マクロ名 c r e a t eを次の様に呼び出すと、 このマクロ関数は、マクロ定義内外から SAS 関数および SAS庁 OOLKITソフトウェアを用 いてユーザにより作成された関数を呼び出す BaseSASソフトウェアのユ ことができる。 ーザは、マクロ定義において SAS品 F ソフト ウェアの SCL言語の関数に類似した記述形式 により、 S A Sデータセットの属性情報の入 手 、 S A Sデータセットの存在チェック、外部 ファイノレの存在チェック等を行なうことがで きる。 % c r e a t e( 3 ) マクロプロセッサは、次の様なステートメント を生成する。 d a t am o n t h 1 ; i n f il ei n 1 ; i n p u tp r o d u c tc o s td a t e ; r u n ; d a t am o n t h 2 ; i n千il ei n 2 ; i n p u tp r o d u c tc o s td a t e ; r u n ; d a t am o n t h 3 ; i n千il ei n 3・ i n p u tp r o d u c tc o s td a t e ; r u n ; 2 .4 %PUTステートメントの拡張 マクロのデ、パッキングのために、 %PUTステ ートメントにいくつかのキーワードが追加さ れた。以下に追加されたキーワードを示す。 ALL̲. ̲AUTOMAT1 C ̲ . ̲USER̲. GLOBAL マクロプロセッサは、反復 % D Oノレープを実 行するたびに、マクロ変数参照 &1をその時点 でのマクロ変数 Iの値に置き換えます。 Iはマ クロ変数M で指定された 1から 3までの値を とるため、この % D Oノレープは 3回実行され る。その結果、上記の様な 3つの異なる D A T Aステッププログラムが生成される。 ̲LOCAL̲. このキーワードをマクロのデパッキングの ためにプログラム中で用いることで、グローパ ノレマクロ変数情報、ローカルマクロ変数情報お よび自動マクロ変数情報を S A Sログ上に出 力することができる。 2 .5 MPRINTシステムオプションの拡張 2 .追加されたマクロ言語の機能 から、いくつかのマクロ関数とマクロのデバッ グに有用なステートメントが追加された。 以下に追加された内容を示す。 マクロのデパッキングのために M P R 1 N Tオプションおよび RESERVEDBlオ プションを指定することで、マクロ実行時に生 成されたマクロテキストを外部ファイノレに出 力することができる。 2 . 1 %SYSCALLマクロ関数 2 . 6 自動マクロ変数 SYSSCPLの追加 SAS システムリリース 6 . 1 1および 6 . 0 9 E このマクロ関数は、マクロ定義内外から C A L Lルーチンあるいは、 SAS庁 OOLKIT ソ フトウェアを用いてユーザにより作成された CALLJ レーチンを呼び出すことができる。 自動マクロ変数 SYSSCPL が追加され、こ れまでの SYSSCP 自動マクロ変数より詳細な 情報を得ることが可能となった。 2 . 2 %SYSEVALFマクロ関数 このマクロ関数は、 %EVALマクロ関数と異 なり、マクロにおいて算術式や論理式を記述す る際に浮動小数点を持つ数値を含め評価する ことができる。 2 . 3 覧SYSFUNCマクロ関数 412‑
3 . 各機能の構文および使用例 構文 3 . 1 %SYSCALLマクロ関数 %5 Y 5E VA L F( e x p r e s s i o n ) 構文 パラメータ %SYSCALL c a l l ‑ r o u t i n e argumentl i s t ) > ; ぐ ( c a l l ‑ r o u t i n e タイプ e x p r e s s i o n 内容 浮動少数点を 含んだ任意の 算術式および パラメータ タイプ 論理式を記述。 内容 新しい %SYSEVALF マクロ関数は、これまで の%EVALマクロ関数と異なり、浮動少数点を含む 数値を演算することができる。 SASシステムあ c a l l ‑ r o u t i n e るいは、ユーザ 作成 CALL )V‑ ーチン名 使用倒 c a l l ‑ r o u t i n e 町 駅m e n tl i s t No rC 引数のリスト O P T I O N SM L O G O Cの指定により、%SY S C A L Lマク ロ関数が実行している問、他のマクロ変数と同 様に情報メッセージが出力される。 但し、 L A B E L,VNA 肥 ,S Y M P U T ,E X E C U T Eの C A L L ノレーチンは%SY S C A L Lマクロステートメントに より呼び出すことはできない。 使用例 例えば、これまでの % E V A Lマクロ関数を 用いた場合、以下の演算式はエラーになる。 1 8 ? %1 et a=%eva1( 1+ 0 .3 3 ); ERROR: %EVAL 関数,又は % I F 条件に数値演算 項の代りに文字演算項があります. 条件は:1+0.33 以下に、 R A N U N ICALLノレーチンを用いた例を 示す。 % S Y S E V A L Fマクロ関数を用いた場 合には、以下の様に演算することができる。 % I e t aニ 1 2 3 4 5 6 ; % I e t b= .; % S Y S C A L Lr a n u n i( a . b ) ; % p u t& a& b ; 2 0 ?% I e ta = % s y s e v a l f ( 1 + 0 . 3 3 ) ; 2 1 ?% p u t& a ; 1 . 3 3 この例では、%SYSCALL マクロステートメン トはマクロ変数 A と B を文字ストリング 123456と.を R A N U N ICALLノレーチンで必要な各 引数のデータタイプに変換した後に呼び出さ れる。 左記の % P U Tステートメントにより出力さ れる結果は、以下の通りである。 1587033266 0.739019954 3 . 2 %SYSEVALFマクロ関数 ‑413一
3 .3 %SYSFUNCマクロ関数 VAR1 NFMT VARLA8EL VARTYPE VARLEN VARNAME VARNUM 構文 住用倒 %SYSFUNC(function(functionargument 3.3. 1 外部ファイル参照名の存在チェック l i s t ) , <format >) パラメータ タイプ f u n c t i o n fexist 関数を用いて外部ファイノレ参照名の 存在の有無を確認する。 関数の結果は、存在していた場合には 1、存在 していない場合には Oが戻される。 内容 実行する SAS関 数名あるいは、 ユーザ作成関数名 9 色 nacro usage1; f u n c t i o na r g u m e n t No rC %if %sysfunc(fexist(myref)) %then 関数の引数リスト %put 外部ファイノレ参照名は存在します。; %else l i s t f o r m a t C %put 外部ファイノレ参照名は存在しません。; %me n d ; 関数の結果に対 して用いる任意 の SASあるいは 3 .3 . 2 物理名で外部ファイルの存在チェック ユーザ作成フォ )マット名 % S Y S F U N Cマクロ関数により、マクロ 定義内外において S A Sシステム関数あるい は、ユーザ作成関数を使用することができる。 このマクロ関数で使用できる Base SAS ソフ トワェアの S A S関数は、以下の S A S関数を 除き使用することができる。 f i l e e x i s t 関数を用いて物理名で外部ファイ ノレの存在の有無を確認する。 関数の結果は、存在していた場合にはし存在 していない場合には Oが戻される。 %macro usage2; 自i f%sysfunc(fileexist(test.dat)) 目t hen %put 外部ファイルは存在します。 D1M, LAG, D1F, H80UND, LBOUND, PUT, 1NPUT, 自e lse SYMGET, RESOLVE 日p ut 外部ファイルは存在しません。 また、 S A Sデータセットのアクセス、外部 ファイノレアクセスのためのシステム関数、 C A L Lノレーチンも利用可能となった。 以下に関数をアノレフアベット順に記述す る 。 ATTRCATTRNCEX1 TCLOSECUROBSDCLOSED1 NFODNUM DOPEN DOPTNAME DOPTNUM DREAD DROPNOTE DSNAME EX1 STFAPPENDFCLOSEFCOLFDELETEFETCHFETCHOBS %mend usage2; 3.3.3 SASデータライブラリのメンバの存在チェ ッ ク exist 関数を用いて S A Sデータライブラリ 中のメンバの存在有無を確認する。 FEXIST FGET FILEEXIST FILENAME FILEREF FINFO 関数の結果は、メンバが存在する場合には 1、 FNOTE FOPEN FOPTNAME FOPTNUM FPOINT FPOS FPUT FREAD FREWIND FRLEN FSEP FWRITE GETOPTION 存在しない場合には Oが戻される。 GETVARCGETVARNLIBNAMELI8REFMOPENNOTEOPEN PATHNAME POINT REWIND RXCHANGE RXFREE RXMATCH RXPARSE RXSUBSTR SET SYSMSG SYSRC VARFM 丁 目n a c r0 us a g e 3 ; %if %sysfunc(exist(GL.EXAMPLE)) ‑414
目else %then 目put 目p ut 指定されたメンバは存在します。; 日else %put データセットのオープンに失敗しました。 %sysfunc(sysmsg0 ); 日put exampleは 、 &nvars 変数で &nobs オブ ザベーシヨンです。 指定されたメンバは存在しません。 %mend obsnvars; %mend usage3; -実行 ~J 3.3.4SASカタログまたは SASカタログエン は 、 SASカタログエントリの有無を確認す data example; array a a1‑a13; do 1 = 1 to 8 ; output; e n d ; r u n ; る。関数の結果は、 SASカタログが存在する 目 。 bsnvars(example,nvars,n obs) トリの存在チヱツク c e x i s t 関数を用いて SASカタログまた 場合には、 1、SASカタログまたはカタログ エントリが存在しない場合には、 0が戻され ‑結果 examplef 、 ま 14 変数で る 。 目macro u sage4; 8 オブザベーシヨンです。; 3 .3 .6 GETOPTION関数を用いてシステム オプションあるいはグラフィックスオプション値 を得る %if %sysfunc(cexist(DB.AF.M.FRAME)) %then 目p ut カタログエントリは存在します。 GETOPTION関数を用いて SASシ %else ステムオプション値を得ることができる。 %put カタログエントリは存在しません。 以下の例は、レポート出力等で一時的に現在の 目mend u sage4; ページサイズ、ラインサイズを別の値に変更す 3.3.5 . SASデータセットのオフザペーショ る際に値を一時保存し、実行後に以前の値にリ セットするものである。 ン数および変数の数を入手 SCL言語と同様の関数 OPEN (SAS データセットのオープン)、 ATTRN (SA Sデータセットの数値属性を返す)、 CLOS E (SASデータセットのクローズ)を用い て、任意の SASデータセット中に存在する変 数の数およびオプザベーション数を求める。 %macro obsnvars(ds,nvarsp,nobsp); %global &nvarsp &nobsp; %Iet dsid = %sysfunc(open(&ds)); 日i f&dsid 目then%do; 国l e t &nobsp = %sysfunc(attrn(&dsid,NOBS)); %Iet &nvarsp= %sysfunc(attrn(&dsid,NVARS)); %Iet rc = %sysfunc(close(&dsid)); %end; %macro genrep; %Iet ps=%sysfunc(getoption(ps,keyword)); %Iet Is=%sysfunc(getoption(ls,keyword)); %put 設定値 &psと &Isを保存します。 options ps=32 Is=65; 国l e t nps=%sysfunc(getoption(ps,keyword)); %Iet nls=%sysfunc(getoption(ls,keyword)); す。 %put 新しい設定値は、 &npsと &nlsで options &ps 目p ut %mend; %genrep ; ‑415‑ &Is 以前の値 &psと &Isfこ戻しました。
‑使用例 なる。スコープ名は、 A U T O M A T I Cで %genrep ; 設定値 PS二 58と LS=132を保存します。 新しい設定値は、 PS=32と LS=65です。 以前の値 PS=58と LS=132に戻しました。 ある。 説明:スコープとは、変数を参照できるプログラムの 範囲を示す。ローカル変数の場合、そのスコープ以外 の場所から変数の値を取り出したり変数に値を代入す 4. %PUTステートメントの拡張 ることはできない。 % P U Tステートメントは、マクロ変数のテキ スト、または情報を S A Sログに書き出すため 4.4 GLOBAL に用いる。このステートメントに関して、リー ユーザ定義のグローパルマクロ変数をすべ ス 6.11および、 6.09E以降から以下の引数が て表示する。スコープ名は、 G L O B A Lで 追加された。 ある。 構文 4.5 LOCAL 参照環境にあるユーザ定義のローカノレマク %PUT < t e x t1 = AUTOMATIC̲I ̲ALL̲1 ロ変数を表示する。スコープ名は、現在実行し ̲GLOBAL̲1 ているマクロの名前になる。 LOCAL̲IーUSER̲>; ー 4 . 6 USER 4 . 1 text 参照可能にあるすべてのユーザ定義マクロ テキストを指定する。 t e x tが現在の S A Sシ ステムオプション LINESIZEの値よりも長い 変数を表示する。スコープ名は、グ、ロ}パルマ 場合、その部分を改行して表示する。また、引 クロ変数を表示する場合は、 G L O B A Lとな e x tの前後の空白文字 用符を使用しない場合、 t り、マクロ内で定義している変数を表示する場 合はそのマクロ名となる。 は、O/OPUTにより削除される。 4 .7 使用例 4. 2 ALL 参照環境に定義されているマクロ変数を全 以下にO/OPUT ステートメントでの使用例を 示す。 て表示する。 4.7. 1 自動マクロ変数の表示 4 .3 AUTOMATIC %PUT AUTOMATIC : 自動マクロ変数を表示する。表示される自動 変数は、サイトに導入されている S A Sプロダ クトとオベレーティングシステムによって異 AUTOMATIG AFDSID 0 AUTOMATIC AFDSNAME AUTOMATIC SYSDATE 06SEP96 ‑416‑
AUTOMATIC SYSDAY Friday AUTOMATIC SYSDEVIC AUTOMATIC SYSDSN S Y S D A T Eは、それぞれグローパノレなマ クロ変数と自動マクロ変数であるため表示さ NULL れない。ローカノレなマクロ変数 N A M Eのみ が表示される。 4.7. 2 ユーザ定義マクロ変数の表示 号 也 PUT USER すべての参照環境にあるユーザ定義マクロ変数を 5. MPRINTシステムオプションの 拡張 表示する。 マクロのデパッキングのために、 M P R I N T オプションおよび R E S E R V E D B lオ %macro myprint(name); proc print data=&name; title "&name のリスト &sysdate"; r u n ; %put ̲user ; %mend myprint; %Iett=SAS J a p a n ; プションを指定することで、マクロ実行時に生 成されたマクロテキストを外部ファイノレに出 力することが可能になった。 下記の指定により、ファイノレ参照名 M P R 1N 1Tで指定されたファイノレ名に生成され たマクロテキストが出力される。 %myprint(sasuser.class) 構文 ‑結果 FILENAME MPRINT '7ァイノル. 4 ! iJ; o p t i o n sMPRINT RESERVEDBl; MYPRINTNAMEs a s u s e r . c l a s s GLOBALTSASJapan 上記の結果では、マクロ変数 S Y S D A T E 使用例 は自動マクロ変数であるため表示されない。 2 %macro f ilename(ref,n a m e ) ; 3 FILENAME &ref ‑&name‑; 4 % m e n d ; ¥macro1 .s a s ' 5 FILENAME MPRINT 'C:¥tmp 6 options MPRINTRESERVEDBl a l e s ) 7 % f il e n a m e ( T E S T,s MPRINT(F I L E N A M E ) : FILENAME TEST " s a l e s " ; N O T E :T h e macro generated output from MPRINT willalsobe written to external f il e C :¥t mp ¥m a c r o l .s a sw h il e OPTIONS MPRINT and RESERVEDBl are s e t . 4.7.3 特定のローカルマクロ変数を表示 %PUT LOCAL ; %macro myprint(name); proc print data=&name; title "&name のリスト &sysdate"; r u n ; %put̲Iocal̲; 切m endm y p r i n t ; 同l e tt=SAS J a p a n ; %mypri n t( s a s u s e r .c l a s s ) ; ‑結果 MYPRINT NAME sasuser.class 左記の結果では、マクロ変数 Tおよび ‑ 4 1 7
6. 自動マクロ変数 SYSSCPLの 追加 これまでの自動マクロ変数 SYSSCPに は、使用しているオベレーティングシステムの 省略値がセットされていなかった。 新しい自 動マクロ変数 SYSSCPLの値には、オベ レーテイングシステム固有の名前がセットさ れている。双方共に読込み専用の自動マクロ変 数である。 Platform SYSSCP値 SYSSCPL値 MAC6800 MAC MAC M68 MAC PowerPC MAC MAC MPP MVS OS MVS SOLARISl SUN 4 SunOS SOLARIS2 SUN 4 Solaris VM/CMS WINDOWS 32S WINDOWS 95 WINDOWS/NT CMS WIN WIN WIN 32S WIN 95 WIN WIN NT VM ESA 7 .おわりに SASマクロ言語は、 BaseSASソフトウェアが提供 する一機能である。しかし、この機能をアプリケー ション構築する際に効果的に利用することで、より 高度で汎用的なプログラミングを行えることは言う までもない。今後の機能拡張にも期待したい。 ‑参考文献 .SAST e c h n i c a lR e p o r tE・105JSASシステ ムリリース 6 . 1 1における変更点と拡張点 .BaseSASソフトウェア SASマクロ機能 使用法およびリファレンス ‑ 4 1 8
日本 SAS ユーザー会 l~ lJ~ I‑J) SAS/lntrNetの紹介 松井陽子(jp n y b m @ j p n .s a s .c o m ) 抹式会社 SASインスティチュートジャパン セールス&マーケティンゲ本部 営業企画ゲループ I n t r o d u c t i o nt oS A S / l n t r N e tS o f t w a r e YokoM A T S U I Sales Planning G r o u p . Sales& Marketing Department. SAS Institute Japan 要旨 SAS/lntrNetソフトウェアは S A Sシステムの可能性をインターネット・イントラネット にまで広げる新プロダクトである。すでに組織内で用いられているさまざまな SASデータ セットや SASシステムによる分析結果等を Webを介して閲覧・配布・利用を可能にする。 また Webを介して SASシステムを実行させるオンデマンドプロセツシング機能も実現した。 本論文ではプロダクトの機能紹介とサンプノレアプリケーションの作成の仕方を紹介をする。 キーワード ハ SAS ntrNet、インターネット、イントラネット、 W曲 、 HTML、ThinC Ii e n t、 FatClient 1 .はじめに SAS/lntrNetソフトウェアは S A Sシステムの可能性をインターネット・イントラネット にまで広げる新プロダクトである。データウェアハウスの活用フェーズの幅を広げ、ブラ ウザしか稼動しない ThinClient(スリムな機能しか持たない端末)上でも SASシステムの 分析結果や集計データ等の閲覧・利用を可能にする。また Webブラウザからリクエストを 送り、 SAS システムを実行させるオンデマンドプロセッシング機能も実現した。現在この プロダクトのベータ版が SASインスティチュートのホームページからダウンロードできる。 (http://www.sas.com/japan/m/special/webdemo.h t m l ) 2 . S A S l l n t r N e tの構成 SAS/lntrNetは大きく分けて 2つに分類される。一つが静的に Webにデータを提供する 4 1 9一
Webパブリッシング、もう一つが動的にデータを提供するダイナミック Webアプリケーシ ヨンである。ダイナミック Webアプリケーションは SAS/SHAREサーバをデータサーバとし て活用するデータサーピスと、 SAS システムをアプリケーションサーバとして活用するコ ンピュートサーピスに分かれる。 SAS/lntrNet は固定した製品ではなく常にインターネッ ト・イントラネットに対応してさまざまに変化する。上記にあげたモジューノレ以外に VRMLや Javaなどに対応した製品も予定している。本論文では今年 7月 24 日に米国で正 式リリースされた Webパブリッシングとダイナミック Webアプリケーションについて解説 する。 3.Webパブ、リッシング(静的な Webの活用) SASシステムよりインターネット・イントラネット上に静的にデータを提供する Webパ ブリッシング(出版)ツーノレ群である。 すぐWeb へ" W e bパフリッシングイメージ 3 . 1HTMLフオーマッタ SAS システムの実行結果や SASデータセットを HTML ファイノレに変換するユーティリテ イである。マクロとして提供され、 HTMLファイノレ名と設定を指定するだけで実行できる。 HTMLフォーマツタには現在 3つのフォーマッタがある。 データセットフォーマッタ (ds2htm): 任意のデータセットを HTMLのテーブノレ形式に変換する。 アウトプットフォーマッタ (out2htm): SASシステムの実行結果=アウトプットウインドウに表示された結果をキャプチャーし、 HTMLファイノレに変換する。 tabulateフオーマッタ (tab2htm): proc tabulate の結果をキャプチャーし HTML のテーブル形式に変換する。クロス集計 などを行った結果を簡単に Webに提供することができる。 ‑420一
W i n d o w s版 S A Sではクリックするだけで作業が行えるユーティリティーが提供されおり、 S で実行する場合もマ へノレプのプノレダウンメニューから選択して実行できる。その他の O クロでファイル名等を指定してサブミッ卜すればよい。 データセットフォーマツタメニュー ユーティリティメニュー 3 . 2データセットフオーマッタの使用法 ユーティリティメニューかマクロで H T M Lのファイノレ生成先、データセット、 H T M Lの設 t m l f i l eに H T M L 定を記述したプロパティを指定し、実行する。マクロで実行する場合は h ファイルの生成先を指定する。 W e bサ ー パ が 稼 動 し て い る 環 境 で あ れ ば 生 成 先 を p u b l i c ̲ h t m l等の W e b上で公開されているディレクトリを指定し、外部に即公開するとい e b上にデータを提供するこ うことも可能である。定期的にこのマクロを実行し、静的に w とも可能である。 データセットフォーマッタマクロサンプル % d s 2 h t m (h t m l f i l巴= C :干T E M P¥T E S T .H T M L, o p e n m o d e = R E P L A C E, e n c o d e = Y , p r o p l o c = S A S H E L P .H T M L G E N .D S P R O P . S L I S T, d a t a = s a s d a t a . c a r s a l e s, w h e r e = S H O P問、四谷, a n dm o n t h問、 0 9 ', i d = S H O P, v a r = C A RP E R S O NM O N T HT O T 札, s u m = T O T A L, c a p t i o n =これはキャプションです。, b r t i t l e =これはブラウザよのタイトルです。, r u n m o d e = B ); 4 2 1一
上記のマクロではサンプルとして提供されているの自動車販売データを HTMLに変換し ている。データセットフォーマツタは単に変換するだけではなく、データに対して where 文を実行させたり、変数を指定したり、合計を計算させて表示することができる。上記例 では where文で販売庖を四谷 ( s h o pe q,四谷)、月を 9月 ( m o n t he q' 0 9 ' )と指定している。 また合計で金額 ( s u m = t o t a l )と指定して最後の行に金額の合計を表示している。 i dを四谷 と指定して左の列に表示し、 varで表示する変数を指定している。 captionは HTMLのペー ジに表示される文字を指定する。 brtitleはブラウザの上部に表示される HTMLのタイト ノレを指定する。プロパティ編集ユーティリティを利用すればフォント、カラー、背景イメ ージや HTMLタグに対してのカスタマイズができる。上の例ではデフォノレトの SASHELP.HTMLGEN.DSPROP.SLISTをプロパティとして利用している。カスタマイズしたプ 一 一 一 一 一 一 一 圃 ー さ 鵠 主 ロノ号ティを保存し活用すれば様々なデザインの HTMLファイノレが作成可能になる。 実行結果 3 . 3t a b u l a t eフオーマッタの使用法 tabulateフォーマツタは直前に実行され proctabulateの出カ結果を HTML化する。ま ず proctabulateでクロス集計を行い、その結果をフォーマツタを利用して HTML化する。 データセットフォーマツタが単純な where 文や合計の実行しかできないのに対して、 tabulate フォーマッタはさまざまな集計表を簡単に Web に提供できるのである。下記の サンプルデータでは sashelp 下の売り上げ情報を proc tabulate で集計し、結果を tabulateフォーマッタで HTML化している。州ごとの売上げの予測データと実績データを 集計し、それぞれで合計と平均を計算した。 4 2 2
tab
.
.
r
抗eフォーマッタサンコカレ
t
i
t
1
e'チール戸フイドセールス μ代ード;
加 国1
也α
(中 田 町L
rum:浩子七);
戸 田 包l
h
叫a
t
eda
t
a
=
潤i
l
l
e
1
p
.p
r
d
s
a
l
2
;
t
c
l
h
1
es包 t
角
(
a
c
1llal戸吋ict)*(&
耐ト<bl
l
a
r
l
4
.2回rM=也l
l
a
r
l
4
.2
);
v
a
ra1llal戸吋i
c
t
;
c
l
a
s
ss
t
a
t
e
;
齢 1SlIIF伽f
o
t
a
l
"
;
k
ξ
y
1
r
r
=
"
A
夜宮司事日";
k
ξ
y
1
a
e
1mヨ
ワールドワイドセールスレポート
……一一……
…
"
一
一
Actua
lS.l
e. . …
Predi
ctedS
ale一
. :
ミ
nn;
%地,2h
t
m
G
α!ptur明百,
rum:法ヂb
,
a
c
e
,
O同時丹‑ep
1
h
国l
f
i
le
=
'c
:¥国耐f
i
n
a
l
.h
t
m
l
',
b
r
t
i
t
1e=T;血l
a
t
ef,ほIlBt
世 h耳
,l
,
e
抑制。;
l~.~恒例目閉山...:...~~.~~.~.~俊明Q._1.空 .!4切符悦回_1_~:~.~l
:
Te日 . 誌 四 回 1 . 0 0 :
$
1国 9
.
34';担問。回目ゆ 1
,
0
2
9
.
6
9
:
説長出j!~~二 :::.:.~:.:~~r.:~~J:.t;.?~.?~.~:J~.~*♂[email protected]~.t~~.~~t@員.1".12空怨主
実行結果
もっと複雑な表や SASでの分析結果を Webで活用したい場合は、アウトプットフォーマ
ッタを利用するとよい。アウトプットフォーマッタは直前に実行されアウトプットウイン
ドウに出力されたデータを HTML化する。まず HTMLにしたいデータを任意のプロシージャ
で加工し、その後アウトプットフォーマツタ実行することになる。出力される HTML をカ
スタマイズしたい場合は事前にプロパティを変更する必要がある。これらのフォーマツタ
はぜひそジュールをダウンロードしてお試しいただきたい。 HTML フォーマッタは SAS シ
ステム 6.11 と 6.12上で稼動する。ユーティリティメニューは Windows版 SAS システム
6
.1
2のみである。 HTMLフオ}マッタは BASESASソフトウェアのライセンスがあれば無料
で利用できる。対応プラットフォームは日々増えているのでホームページで確認してほし
し
、
。
3.
4Web用グラフィック作成
SASシステム 6
.1
2から SAS/GRAPHの機能に Web用グラフィックを作成するデバイスが
提供された。 goptionsの deviceに GIFや JPEG形式への変換形式を指定するだけである。
423一
GIF アニメーションも作成できる。使用可能な形式はグラフィックデノくイスウインドウの ハードコピーデバイスをクリックすれば確認できる。 グラフィック作成サンプル 1 *gif ファイルを作成 * 1 goptionsreset=all simfont=mincho ftext=mincho ; l e .g i f '; filenameout 'c:VtempVs祖 p goptions dev=GIFgsfname=outgsfmode=replace; title 'GIFのサンプル'; proc gchart data=SASUSER.CLASS; hbar SEXI J raxis=axisl G I Fのサンプル 、 一 maxis=axis2 nostats subgroup=AGE type=freq; r u n ;q u i t ; 実行結果 上記サンプノレは SASUSER.CLASS をグラフ化したデータを goptions のデバイス指定 (dev=GIF)で GIFデータに変換している。 Web対応グラフィックを利用すれば、 SASシステ ムのさまざまなプロダクトでピジュアライゼーションを行った結果をインターネット・イ ントラネットで簡単に共有することができる。 3 . 5Webパフ、リッシングの可能性 SASシステムの Webパプリッシングはデータを静的に活用する。夜間パッチ処理などで 事前にデータを作成・ Webサーバへの転送を行えるので、ネットワークやサーバに対して 負荷をかけることなく簡単に情報共有が実現する。 FatClient (高機能なハードウェア、 UNIX ワークステーションなど)を利用するヘビーユーザの探索・推考結果を、 Thin Clientでデータアクセスするビジネスユーザが簡単に利用できるということである。 ‑424
4 .ダイナミック Webアプリケーション SAS/lntrNetソフトウェアでは静的に SASシステムを活用する Webパブリッシングに対 して、動的に SASシステムを Webで活用するダイナミック Webアプリケーションも提供し ている。ダイナミック Webアプリケーションでは Webブラウザから発行されたリクエスト を Webサーバ上の CGIプログラムが受け取り、パックエンドで稼動している SASサーバ上 で実行する。 ダイナミック冒ebアプリケーションイメージ ダイナミック Webアプリケーションには 2つのサービスがある。 データサービス Webブラウザから SAS/SHAREサーバに対してデータをリクエストを発行して結果を表示 する。 HTML文に SQLを埋め込む htmSQL、ODBC対応のデータベースに対してデータ検索が 行える ODBC ドライパ、 ]avaアプレットと SAS/S出 REサーバ聞をつなぐ ]DBC ドライパ等 が提供されている。 コンビュートサービス Webブラウザから SASアプリケーションサーバに対してリクエストを発行して SASアプ リケーションを実行し、 Web パブリッシングの機能を利用して結果を表示する。データサ ービスがデータ検索だけを行うのに対し、コンピュートサービスは SASシステムで行える ことほぼすべてを Webブラウザ上から操作できるようになる。 Webブラウザからのリクエ ストを受け取って転送(ディスパッチ)を行うアプリケーションブローカ (CGI プログラム) と、リクエストを実行するアプリケーションサーバ、またアプリケーションサーバ上で実 行される SASアプリケーションによって構成されている。 ‑ 4 2 5一
4 . 1データサービスの活用 データサーピスには htmSQL、O D B C ドライパ、 ]DBC ドライパのサービスがあるがここで t皿SQLを紹介する。 htmSQLは S A S / S H A R Eサーバに対して Webを介してデータ検索を は h SQLベースで行うサーピスである。検索したいデータが他のデータベース上にあっても SAS システムのデータアクセス機能を利用して透過的に検索・利用ができる。前提知識と してデータサーバ上のデータを熟知していること、正確な SQL文が書けること、 HTML の t r 日S QLは HTML文の中に SQLを埋め込み検索結果をブラワ 知識があることが要求される。 h ザで表示するので、 HTML の細かいデザインが可能となる。現時点では UNIX 上の SAS/SHAREサーバのみをサポートしているが W i n d o w s版も近い将来発表される予定である。 事前準備として 4 . 1 . 1h t m S Q Lの設定 /usr/local/ src の下に解凍した htmSQL のファイル類を置く。または解凍した先を /usr/local/s r cの下にリンクする。 h t r 日 S Q L ‑ k s h というファイノレを CGI実行ディレクトリ ( e x ./ c g i ‑ b i n / )の下に h t m S Qしという名前でリンクする。次にデータソースの定義ファイ ノレを作成する。 dsdefという設定ツーノレを利用すれば簡単に設定ファイノレが作成できるが、 事前に下記の情報を確認しておくことをすすめる。 ‑ データサーバマシンのホスト名・ I Pアドレス servicesファイルで設定した S A S / S H A R Eサーバのポートナンバー ・ ・ ・ • データソース名(検索したいデータソースのこと。適切な名前を用意しておく。) ライブラリ名(検索データが入っているライブラリ)とパス名 D B M Sとの接続オプション ( D B M Sデータにアクセスしたい場合) s d e fを立ち上げ、表示されるプロンプトごとにデータを入 以上のデータを確認したら d 力する。サーバ名、データソース名、ライブラリ名の順でデータを入力すればデータソー t皿S QL .d a t a s r c というファイノレが生成 スを示すファイルが生成される。デフォルトでは h される。 ‑426‑
4
.1
.2 hsqIファイルの作成
htmSQしでは hsql という HTML文に sql文を埋め込んだファイノレを利用する。サンプル
として webdemo というデータソースで指定した sasdata.carsalesに検索をかける hsql文
を紹介する。
h
s
q
lサンプル (
C
8
r1
.h
s
q1
)
く
HTML><
田AD><TITLE>自動車販売データの検索く/TITLE
> </HEAD>
<H3>自動車販売データの検索く/H3>
くF
ORMACTION="/cgi‑bin/htmSQL.exe/sqls阻 p/c訂 2.hsql" target=subset>
{query datasrc "webdemo"}
二
{
s
q
l
} select distinct shop from sasdata.carsales {
/
s
q
l
}
Shop <BR>
くS
ELECTNA
阻 =HshopH S
IZE=3>
&
s
h
o
p
}く/OPTION> {
/
e
a
c
h
r
o
w
}
{
e
a
c
h
r
o
w
} くOPTION>{
</SELECT
>
{
s
q
l
} select distinct car from sasdata.carsales {
/
s
q
l
}
Car Type <BR>
くSELECTNAME=
九 ar" SIZE=3>
&
c
a
r
}く/OPTION>
{eachrow}くOPTION>{
{!eachrow} く/SELECT
>
{
jquery}
<INPUTTYPE="submit" VALUE="Subset Data">
</CENTER> </BODY> <
/
H
l
l
ι〉
HTML 文の中に入れ子で {query}{!query}、 {
s
q
l
}{
!
s
q
l
}、 {eachrow}{/eachrow}というタ
グが挿入されている。 {query datasrc=webdemoつで検索したいデータソースを指定して
いる。 {sql}{
!sql}でデータソースの中の sasdata.carsalesに対する select文を記入し、
{eacrow}{/eachrow}で select文で利用する変数を選択・指定している。この hsql文をダ
イレクトにブラウザで指定するとサンプノレ lのように所々に sql文が出ているページが表
示される。
427一
{ q u e r yd a t a s r c =Nwebdemo"}{sqOselect d i& t in ‑ c tshopf r o ms a s d a t a . c a r s a l e s( / 問 。 Shop γ一 一一一一‑‑(l e a c h r o w ){ s q O. e l e c t a s d a t a . c a r s a l e .l ! . q O d i s t i n c tc a r世oms CarType , { e a c h r o w ll !query} 選強鐙j 謹盤強到 サンプル 1 サンプル 2 サンプルの h s q l文を / c g i ‑ b i n /の下に配置した h t m S Q Lの実行ファイルに読ませるよう にu r lを指定すると { q u e r y }{ / q u e r y }て中実んだ s q l文を解釈してサンプル 2のような H T M L ページを生成する。上記の例ではh t t p : / / . ip n y b m / c g i‑ b i n / h t m S QL .e x e / s Q l s祖 p / c訂1.h S Q l となっている。サンプル 2で s h o pに高井戸、 c a rt y p eに RVを指定した結果がサンプノレ 3となる。このように h t m S Q Lは s q lと H T M Lを組み合わせて、動的にデータ表示を行うペ A S システムのデータアクセスの機能と合わせて活用すれば ージが簡単に作成できる。 S 色々なデータに対してクエリをなげて W e b上で閲覧することが可能になる。 Shop 高井戸 丹。d u c tT y p e :RV ‑428 !抑制問︑倒‑ 太平会友三 恵型車一一悦一 奪 諒 一 ↑ 古 町 一A1 行村且口座 5if一 品汁証引誌山口誌川 F 高福一ー高高一 一 則 一 剛 一 一 剛 一 両 一 P一 山 戸 吉 山 一‑ 一 戸 一 サンプル 3
4 . 2コンビュートサービスの活用 コンピュートサービス 1 コンピュートサービスは Webサーバを介してパックエンドの SASアプリケーションサー バに必要な処理をさせる、リモートの実行サービスである。コンピュートサーピスは次の 3つで、構成される。 ・ ・ ‑ Grプログラム アプリケーションブローカ: Webサーバに配置する C アプリケーションサーバ: Webサーパのリクエストを処理する SASアプリケーショ ンサーバ SASアプリケーション:アプリケーションサーバで実行される SASアプリケーショ ン SASシステムのコアテクノロジーである MVA(MultiVendor Architecture) ・MEA(Multi A Sアプリケーションが利用するデータはアプリケー Engine Architecture)を利用すれば S ションサーバ以外のプラットフォームにあっても、他 DBMS 上で管理されているデータで あっても透過的に利用できる。従来の SASシステムで活用できる利点がそのまま Webとい う環境に移行したのがコンピュートサービスである。 ‑429‑
コンピュートサービス 2 パックエンドで処理を実行するアプリケーションサーパは必要に応じて複数台設置する ことも可能でらある。設定ファイノレにアプリケーションサーバのサーピス名、ホスト名また Pアドレス、ポートナンバーを書き込むだけである。処理やネットワークの負荷の分 は I 散、また遠隔にあるアプリケーションサーバの利用も可能になる。 4 . 2 . 1コンピュートサービスのサンプル 簡単なコンピュートサービスのサンプルの説明をする。アプリケーションサーバ上の自 動車販売データに対して、 W e bブラウザから変数を選択しサマリーした結果を表示を行う サンプノレを作成する。 事前準備として 4 . 2 . 2HTMLの作成 A Sアプリケーションとデータを用意する。またユーザが作業を行うためのフ 実行する S ロントエンドとなる HTMLファイルを作成する。 ‑430一
H T M Lサンプル く H T M L > <肥 A D >< T I T LE>車の販売データデモく/ T I T L E >< / H E A D > < F O R MA C T I O N = " / c g i ‑ b i n / b r o k e r . e x e勺 くI N P U TT Y P E = " H I D D E N "N A M E = "S E R V I C E "V A L U E = d e f a u l t > くI N P U TT Y P E = " H I D D E N "N A M E = " ̲ P R O G R A M "V A L U E = " s a m p l e . c a r s u m . s a s " > くH 2 >下の変数からクラス変数を選んでください。その後実行ボタンを押してください く/ H 2 > < B R > 変数: < S E L E C TN A M E = " c l a s s " > くO P T I O NV A L U E = " s h o p勺 販 売 庖 くO P T I O NV A L U E = " p巴r s o n " >担当者 < / S E L E CT >< B R > くI N P U TT Y P E = " s u b m i t "V A L U E = "実行うく B R > Q 本これらを記述するだけでアプリケーションをディスパッチできるが、デバッグ照のオ プションも設定できる。 ーヲ く ! 一 一 begin̲debug‑ ‑ > 〈 叩 N佃 OBわ R〉デパツグのレベル: < 犯 SE 印 LE 口 CTNA舵 M Eピ =" 由 d 巴b 加u ピ g " <OPTIONVALU 疋 E="O"> なし くO PTIONVALUE="2" SELECTED>実行時間を表示 <OPTIONVALUE="18勺 出 力 の hexdumpを表示 くO PTIONVA 山E ="258"> コネクションのトレースを表示 <OPTIONVALUE="14"> すべてのサービスを表示 くO PTIONVALUE="131勺 SASのログ等を表示 く/ SELECT> く/NOBR> く!‑‑ end̲d 巴b ug‑ ‑ > く/ FORM> </BODY> </HTML> ‑431‑
< f o r ma c t i o n = X X X X >にてアプリケーションブローカが設定されている CGrディレクト リを指定する。 ̲SERvrCE でアプリケーションを実行したいアプリケーションサーバを e f a u l t というサーバを指定している。 指定する。このサンプルでは d P R O G R A Mで実行 したい S A Sアプリケーションを指定する。このサンプルでは次に説明する s a 皿p l e . c訂 s u m . s a sという S A Sプログラムを用いている。このサンプルでは S A Sプログ ラムを指定しているが、 SCLやマクロなども活用できる。タイプを HIDDEN にしている のでブラウザ上では隠れているが、サーパやアプリケーションを複数用意し、ブラウザ から選択するように設定することももちろん可能である。必要に応じてデバッグのオプ ション設定も有効である。 下の変数からクラス変教を選んでください。その後実 行ボタンを押してください。 E政.揮官習 謹選鐙j デパッずのレベル l 町lIi~暗侵示 週 フラウザに表示させたイメージ ‑432‑
4 . 2 . 3SASアプリケーションの作成 サンプル SASアプリケーション (S8mp1 8 .C8rSum.S8S) p r o cs u m m a r yd a t a = s a s d a t a . c a r s a l e sn w a y ; c l a s s& c l a s s; v a rt o t a l; 皿皿a r ys u m = S U田 ; r u n; o u t p u to u t = w o r k . s u 皿( d a t a = w o r k .S U 皿皿 a r y, % d s 2 h t H T M L f r e f =̲ w e b o u t, v a r = & c l a s ss 叫 b g t y p e = c o l o r, b g = w h i t e c a p t i o n =車販売データのサマリー, s a s p o w e r = y, r u n m o d e = s ); 掴 p l e .c 町 s u m . s a sは通常の S A Sプログラムで、データセットに対してサマリーを実行 S する。変数に Webブラウザから選択したものが挿入されるように& c l a s s としておく。ま たサマリーデータを一時ライブラリの work下に書込むようにする。永久ライブラリから 取り込んだデータを work下に取り込み、自由にデータ加工を行うこともできる。サーバ 上のデータを活用しながら元データはリードオンリー(読込み)のデータウェアハウスの原 則にのっとったデータ活用が展開できる。実行結果をデータセットフォーマッタに渡して いるが、この場合はファイル生成先 ( h t m l f i l e = X X X X )を指定するのでは無く Webに出力す ニ̲ w e b o u t と指定する。 W e bパブリッシングの機能と C G Iプログラムを組 るよう h t m l f r e f みあわせたものがコンピュートサービスであるといえる。右図が変数に販売庖を選択した サマリー結果の表示である。マクロの s a s p o w e r =に Yと指定すると図のように SASPowered のロゴを貼り付けることができる。またパックのカラーも b g t y p e = c o l o r、b g = w h i t e など のオプションを利用し変化させることも可能である。 ‑433‑
EU 四一一-回目 E叫一四回・田ー叩時岡田=ー~掴園田島田町aー:註 1 ロ IXI 4 ム 販宮戸ータのサマ1 )ー情報 とここに聖書道二:二二二 j二 二 二 二 二 二 期 . . . . . 二 二 二 . . . . . . . . . . i 戸 ' ; i . . . . . . . .N W ' l 量 百 一 一 一 一 寸 … … j i 四谷 麗盤Y‑t k/4 b u i l d/03 蜘 0 ) 7凶2 2 3 3百 . . . . . . 3 . 3 9 3 ωωw 幻 (;BCOn時 ofrsa/ 、 実行結果 5 .MDDBピ、ユーア SASシステムリリース 6 .1 2では多次元データベース ( M u l t iQ i皿e n s i o n a lDataB a s e )を O L A Pの両方をサポートしたハイブリット型の OLAP 提供している。 SAS/MDDBは R O L A P ・M で、データウェアハウスのリポジトリーとして理想的なツーノレで、あるが、 SAS/lntrNet ソ フトウェアではこの MDDBも有効に活用できる。 S A S / M D D Bで多次元データベース化したデ ータは、ほぽノンコーディングで Web上で活用できるのである。間D Bを使用する場合、 S A Sシステムが稼動する F a tClientを持つユーザは S A S / E I Sを利用してドリルダウンや リーチスノレーを行うことができるが、 S A S / l n t r N e t を利用すれば Web ブラウザしかない Thin Client のユーザでも同等のドリノレダウンやピジュアライゼーションが行える。 Java や ActiveX等のプログラミングやプラグインツール、アプレットもまったく必要とせず、 テーブルとフレーム、 GIFを表示できるブラウザが稼動する端末であれば叩D Bのブラウ ジングが行えるのである。 5 . 1MDDBデータの作成 MDDBビューアを作成するにはまず MDDBデータが必要で、ある。 MDDBの作成に関してはそ の他の論文を参考にしてほしい。ここではサンプルとして提供されている sashe1pの下に ある prdmddbを利用する。 MDDBビューアでは事前に MDDBを S A S / E I Sのメタベースに登録 しなければならない。 SAS/EISアプリケーションウインドウのメタベースアイコンをダブ 皿d d bを追加するだ ノレクリックし、メタベースの登録先を指定してテーブルに sashelp.prd けである。注意点としてはメタベースの登録先は s a s u s e rや sashelp等デフォルトで使用 されるライブラリではなく、 S A S / l n t r N e t専用のデータライブラリを指定することである。 SAS/lntrNetではデータライブラリとアプリケーションライブラリを分けて指定する。デ ータのセキュリティーと管理のためにも専用のライブラリを指定することをおすすめする。 ‑434‑
サンプノレで、は c : V s a s d a t aを s a s d a t aとライブラリにしてその下に皿 e t a b a s eというメタベ ースとしている。 メヲペース登録ウインドウ 5 . 2MDDBビューアの作成 メタベースを登録したら次のプログラムを実行するだけである。 d 皿 、 、a fc = s a s h e l p . w e b e i s . r p t s e l . s c l皿e t a b a s e = 's a s d a t a .皿e t a b a s e ' p a t h = ' C :¥w e b s h a r e 平w w w r o o t ¥ 皿d d b .h t m l 'C G I = ' / c g i ‑ b i n / b r o k e r .e x e ' u n ; t it le = 'M D D Bビューアのサンプル' r メタベースの登録先 ( m e t a b a se=X X X X )と生成されるファイノレのパス ( p a t h = X X X X )、アプリ ケーションブローカの設定先 ( C G I = X X X X )とタイトノレ ( t i t l eX X X X )等を指定するだけで自動 二 e r V l c e 的にピューア用の HTML ファイノレが生成される。できあがった HTML ファイノレの s の指定先を実際の環境に合わせて変更し、タイトノレ等を任意のものに変更したのち、 W e b サーバの公開ディレクトリに置く。 A告 に u ηO
5 . 3MDDBビューアの実行 上記のスクリプトを実行すると左のような HTML ファイノレが生成される。メタベースに 複数の MDD8を登録した場合は SelectFileの下に表示され、どの MDD8をピューするか選 択できる。次元の選択をした後、 Next ボタンを押すとサンプル 2 のような画面が表示さ S u m, Percent, Average e t c )を選んでクリックし、 れる。ビューしたい階層構造と統計量 ( グラフのアイコンをクリックすると色んな視点でデータの確認ができる。グラフの種類も 棒グラフ・パイチャート等さまざまなものが選択でき、テーブルの中の変数をクリックす るとドリノレダウンして下の階屠を表示する。クライアント側には Webブラウザの以外のな にも用意する必要がなく、アプレットのようなものをダウンロードする手間もない。最初 の MDD8を選択する画面の HTMLファイル以外はすべて自動的に生成されるので、ほぽノン コーディングで MDD8をインターネット・イントラネットの環境で利用できるのである。 上記のスクリプトを利用する以外に直接 HTML ファイノレを作成することもできる。下記 のサンプノレを参考にしてほしい。 ‑436‑
5. 4MDDBビューア HTMLサンプル くH TML> <HEAD> くT ITLE>即 DBReport Viewerく/TITLE> </HEAD><BODY> くCENTER><Hl>MDDBビューアのサンプルく/Hl ></CENTER> くF ORMACTION="/cgi‑bin/broker.exe"> <H2>Specify ReportType</H2> <INPUTTYPE="radio" NAME="rpttype" VALUE="l" CHECKED> 1次元く BR> くI NPUTTYPE="radio" NA 肥= "rpttype"VALUE="2"> 2次元く BR> くH 2>SelectFile</H2><BR> くS ELECTNAME="mddb" SIZE=3> くO PTIONVA 山E ="SASDATA.METABASE"SELECTED> SASDATA.METABASE ( M D D B )く/OPTION> く/ SELECT ><BR> Select s e r v i c e :くSELECTNAME=" SERVICEり くOPTIONVALUE="defaultう defaultく /OPTION>く /SELECT > くI NPUTTYPE="hidden" NAME="metabase" VALUE="SASDATA.METABASE"> くI NPUTTYPE="hidden" NAME 二" ̲program"VALUE ニ" sashelp.webeis.mddbrpts.scl"> <P>< INPUTTYPE="submit" VALUEニ"Next "><BR> く/ FORM> L > </BODY> </HTM 4 3 7 ‑
6 .最後に SAS システムで貯えられた資産データを簡単に、効率よく、 SAS システムが稼動してい ない Webブラウザのみの ThinClientでも活用できるツールが SAS/lntrNetである。 SAS システムで行えることほぼ全てをインターネット・イントラネット環境で実現するこのプ ロダクトは現在ベータ版が S A Sインスティチュートのホームページで提供されているので ぜひ御試しいただきたい。本論文ではスペースの都合上全ての機能を紹介していないがホ ームベ}ジ上では毎日新しい機能とツーノレが追加されている。今回紹介していないが Java アプレットを使ってデータサーバ上のデータを加工・更新を行う Jtunnel のベータ 版や、 SASシステムを用いて VRMLを作成するスクリプト等も公開されている。従来の SAS システムプロダクトと異なり、 SAS/lntrNet はインターネット・イントラネット用の SAS システムツール群のようなもので、発展するインターネット・イントラネットテクノロジ ーに合わせてどんどん新しいツーノレが追加されてして。 Javaに限らず ActiveXや NCにも 注目し、新しい SASシステムの可能性を広げるプロダクトが SAS/lntrNetである。 7 .参考文献 SASシステムで構築するイントラウヱアハウスペ董野真一郎 SASインスティチュートジャパン 月刊イントラネット,ソフトパンク(株) 97/5~9717 連能分(注:この連践は 10 月号まである. ) 1997 SUG122 P r∞eedi n g s . Th. SAS/lntrN.t A p p Iication Dispatcher" el G ob b o . John L e v e i1 1 . SAS Institute I n c . Donald J .Henderson. Edmund Burnette. Vincent D HTMLリファレンス"オープンデザイン No.13. c a出版社 h t t p : / / I 剛 W.686.c om/jopan/m/special/webdemo.h t m l ‑438
日本 SASユーザー会 (SUGI‑J) SAS lW arehouseAdministratorUsageandEnhancements T e r r yLewis, SASI n s t i t u t eI n c ., Cary ,NC 罰 訳 松 井 陽 子 [email protected]) 株式会社 SASインステイチュートジャパン セールス&マーケティング本部 営業企画グループ SASlW arehouseAdministratorUsageandEnhancements T r a n s l a t e dt oJapanesebyYokoMATSUI S a l e sP l a n n i n gGroup, S a l e s& M a r k e t i n gDepartment, SASI n s t i t u t eJapan 要約: SAS 八NarehouseA d m i n i s t r a t o rソフトウェアは SASシステムが提供するプロダクトの全 ての利点を活用して、データウェアハウスの構築・管理・活用を容易にする。 SASlW arehouseA d m i n i s t r a t o rソフトウェアはひとつのインターフェースから SASシステ ムのあらゆるプロダクトを自由自在に操作し、将来提供されるプロダクトまでも包括的に 取り扱うことを可能にする。 本論文で、は SAS lW arehouseA d m i n i s t r a t o rソフトウェアの基本的な使い方と 1996年 の SUGI211こ発表されてから以来追加された機能について紹介する 1 .はじめに: SASシステムはデータウェアハウスという言葉が生まれる以前からデータウェアハウス に必要な機能を提供し、活用されつづけている。 1995 年 、 SASインスティチュートではSAS システムの機能をデータウェアハウス用に一つのフレームワークにまとめあげ、プロダク トとして提供することを決定した。併せて必要な機能も付け加え、データウェアハウスの lW arehouseA d m i n i s t r a t o rソフトウェアを発 全てのニーズ、とフェーズ、をサポートする SAS 表した。 2 .提供する機能として ‑ 親しみやすいユーザインターフェースから簡単にデータウェアハウスとビジネスオ ← 439
ブジェクトの定義が行える。データウェアハウスに必要なさまざまなデータを構成・ 管理できる。例えば色んな階層構造を持った複雑なデー夕、詳細テープノレ、詳細テ ーブル、データマート、インフォメーションマートなどさまざまなタイプのデータ を管理し定義することができる。 ‑ ウェアハウスの元データとなる基幹系システムからのデータ取り込みの定義。 ‑ 基幹系データを取り込む際のプロセスの定義。どのように取り込み、変換し、要約 ーし、ウェアハウス上のどのデータとして用いるかまでのプロセスを管理する。デ ータ変換に必要なツールも提供。 ‑ ウェアハウス上のデータ要素とプロセスを管理する、各種メタデータの管理ツール を提供。メタデータのブラウジング・アップデート・検索・外部ツールへの書き出 し等を行うツールを提供。 ‑ ウェアハウスの作成・データのローディングに必要なコードの自動生成機能を提供。 ユーザが作成したコードを取り込む機能も完備。 ‑ 分散化型データウェアハウスの構築をサポート。 ‑ ASシステム以外の DBMSやデータタイプで保管が可能。 ウェアハウス上のデータを S ‑ ジョブのスケジューリング機能。 以上のリストからも確認できるように、このプロダクトの主なる目的はデータウェアハ ウスの管理者に対して、データウェアハウスの導入時に必要な柔軟でカスタマイズ可能な データウェアハウス構築ツールを提供することである。 SAS lW a r e h o u s eA d m i n i s t r a t o rYフトウェアのプロダクションリリースは 1 9 9 7 年の第一 四半期を予定している。(注:英語版) 3 .稼働環境: SASシステムリリース 6 . 1 2が稼動する環境。 W i n d o w s 版では B a s eSASソフトウェアと S A S / F S Pが必要。 SAS lW a r e h o u s eA d m i n i s t r a t o rソフトウェアが生成したコードは SASシ . 0 8以上が稼動する環境で実行できる。ウェアハウスで必要な機能に応じ ステムリリース 6 ASシステムプロダクトを追加する。例えばリモート実行を行う場合は てその他の S SAS/CONNECTソフトウェアを追加が必要である。また他の DBMS上に保管されている AS/ACCESSソフトウェアが必要となる。 データをロード・アクセスするにはS 440‑
4 .概要: SAS lW a r e h o u s eA d m i n i s t r a t o r' . Jフトウェアはデータウェアハウス管理者が以下の用件 を満たしてから活用されるツールでトある。 ‑経営幹部がデータウェアハウスプロジェクトの承認をした。 ‑データウェアハウスプロジェクトに必要な人員が確保された。 T部門の必要事項の確認 .エンドユーザの要望調査および業務上の必要事項の確認と、 I がされた。 ‑ウェアハウス項目の論理的および物理的データモデルの定義が完了した。 論理的および物理的データモデルの定義が終われば、データ定義に従って SAS lW a r e h o u s eA d m i n i s t r a t o rソフトウェアを用いてグラフイカルにプロトタイプを作成 し、要望どおりのウェアハウスデータ定義であるかどうか確認ができる。この確認作業は ウェアハウスの構築に必要な情報や実際にロードされるデータなどがなくても行うことが できる。 大切なポイントとして、通常データウェアハウス管理者は一度にすべてのウェアハウス プロジェクトを進めてはならないということがある。データウェアハウスの定義とインプ リメンテーションの作業は繰り返しの反復を必要する作業である。作業を徐々に増やし、 プロジェクトを少しづっ達成するアブローチの方が、管理もしやすく早く効果を確認でき る。データウェアハウスのサブ、ジ、ェクトを一つづっ処理するというルールを、ぜひ実行し てほしい。ウェアハウス構築の要件とモデルが確認されたら、次のステップをたどる。 1 . SAS lW a r e h o u s eA d m i n i s t r a t o rソフトウェアを起動。 2 . メタデータのリポジトリを定義。データウェアハウス環境の設定と付随するデータ AS lW a r e h o u s eA d m i n i s t r a t o rソフトウェアを立ちあ ウェアハウス群の定義。 これはS げる際に行う。またエクスプローラウインドウからプロパティウインドウを立ち上 げて定義することもできる。 3 . 入力データの定義。ウェアハウスに取り込む基幹系データの入手先を、エクスプロ ーラウインドウからプロパティウインドウを立ち上げて定義する。 4 . ウェアハウスを構成するいろいろな要素を定義。詳細テープ/レ、データマート、イ ンフォメーションマートなど。エクスプローラウインドウからプロパティウインド ウを立ち上げて定義する。 ‑441
5 . ウェアハウスを構成する多種多様な要素を生成するプロセスを定義。プロセスエデ ィタよりおこなう。 6 . ウェアハウスの構成要素をウェアハウスへロードするコードを生成。プロセスエデ イ夕、またはエクスプローラウインドウからおこなう。プロセスエディタなどでプ ロパティウインドウに入力されたメタデータ情報などを用いて SASlW arehouse A d m i n i s t r a t o rソフトウェアが目的にあったコードを自動的に生成する。 7 . 次に行うステップとして以下が選択できる。 a .自動生成されたコードを即時実行。 b .コードを保存し、後に実行。 c .ジョブスケジューラにコードを渡し、適切なタイミングで実行。(マシンに余力があ る夜間時など) コードが実行されたらログやテープ、/レをチェックし、ウェアハウスに必要な情報がロー ドされたか確認する作業は必ず行ってほしい。 次項で各ステップを詳細に説明する。 5.SASlW arehouseAdministratorソフトウェアの起動 SAS lW arehouseA d m i n i s t r a t o rソフトウェアを起動するにはまずSASシステムを DMSモ ードで起動する。そしてコマンド行で D W と入力する。または、 D WFOLDER=library.catalog.entry.FOLDER と入力する。 D Wコマンドは SASシステムリリース 6 . 1 2で提供された新しい機能の SASデスクトップ を起動する。 SASデスクトップを用いればビジネスユーザでも簡単にオブジェクト指向の ユーザフレンドリなインターフェースで、フォノレダー・ライブラリ・カタログ・アプリケ ーションなどを保管・管理ができる。しかしながら SASlW arehouseA d m i n i s t r a t o rソフト ウェアにおいての SASデスクトップの主たる目的は、データウェアハウス環境の作成と管 理、また関連するアプリケーションをデスクトップ上のフォノレダで管理することである。 FOLDER= パラメータを指定しない場合 SAS 川' a r e h o u s eA d m i n i s t r a t o rソフトウェアは A .FOLDER)を用いる。このフォノレダ デフォルトのフォノレダ(SASUSER.FOLDER.SAS̲W 4 4 2
は自動的に生成される。 :;;:.~:.::;;~年均一川 吉 長 サンプル画面ではS ASデスクトップ上に、サンプルのデータウェアハウス環境とユーテ ィリティのフォルダ、データウェアハウスの利用ツールフォルダが表示されている。 6 .ウェアハウス環境の定義 SAS lW a r e h o u s eA d m i n i s t r a t o r'./フトウェアの初期の環境ではデータウェアハウス環境 は存在しない。立ち上げた際に次のように作成する。プルダウンメニューのファイルかポ ップアップメニューのから項目追加を選び、次にデータウェアハウス環境を選択する。 SAS lW a r e h o u s eA d m i n i s t r a t o rソフトウェアがデータウェアハウス環境設定用のプロパテ ィウインドウを開く。 データウェアハウス環境設定用のプロパティウインドウで入力した情報は、データウェ アハウス環境用のLlBNAME ステートメントを生成するのに用いられる。 L 旧NAME のパス はグローパルなメタデータなどを含む S ASデータセットを保管するリポジトリとなる。グ ローパルなメタデータとは固有のデータウェアハウスのみに属するメタデータではなく、 いろいろなデータウェアハウスで用いられるものを意味する。オプションフィールドでサ AS/SHAREソフトウェアを介してメタデータの ーパのパラメータを指定することにより S 共有とネットワーク間での活用を可能にする。 ‑443
データウェアハウス環境を定義したら、次にカーソルをデータウェアハウス環境アイコ ンに移動しポップアップメニューを起動して編集を選択する。 SAS lW arehouseA d m i n i s t r a t o rソフトウェアウインドウには2つのウインドウがある。左 がデータウェアハウス環境の階層構造をグラフイカルに表現している。今後この左画面を 階層構造画面と呼ぶ。右のウインドウは選択したデータウェアハウス要素の情報を表示し ている。右ウインドウに表示される情報はどのビューを選択したかで、異なってくる。ビュ ーのプノレダ、ウンメニューからは5つのタイプのビューが選択できる。大きいアイコン・小 さいアイコン・詳細・メタデータ一一般・メタデーター詳細の5つである。これらのビュ ーを利用すればメタデータ情報を必要に応じて詳細に表示させることも、最低限の情報を lW arehouseA d m i n i s t r a t o rソフトウェアは前回使用したビ 表示させることもできる。 SAS ューの設定を保存しているので、次に使用した際も同じビューで、表示する。 エクスプローラウインドウで最初に行う作業はデータウェアハウスの定義である。デー タウェアハウスの定義はメタデータが保管されている場所を示すという意味では、デー タウェアハウス環境の定義に似ている。しかしデータウェアハウス環境の定義が指し示 す保管先はグローパルなメタデータ(複数のウェアハウスで用いられるメタデータ)が保管 されているリポジトリであり、データウェアハウスの定義が示す保管先はそのデータウ ェアハウスだけが用いる固有のメタデータのリポジトリである。データウェアハウス環境 でデータウェアハウスを定義するには、追加のプノレダウンメニューからデータウェアハウ スを選択する。データウェアハウス用のプロパティウインドウがオープンされる。 444‑
データウェアハウス定義のプロパティウインドウには一般とメタデータの保管場所の 2 つのタプがあり、一般タプではメタデータの名前や見出し、所有者や管理者などの一般的 な情報定義できる。また保管場所タブではライブラリ先を定義する。 画面下部の説明アイコンをクリックするとノートパッドウインドウが表示されるので自 由に必要な情報を記入できる。また上部のアイコンをクリックすると現在定義しているデ ータウェアハウス示すアイコンを任意のものに変更できる。 一般タプはデータウェアハウス定義用のプロパティウインドウに限らず、ウェアハウス の構成要素を定義するさまざまなプロパティウインドウで使用されている。一般タブによ り一環したワインドウ操作が可能になり、今後行うその他のウェアハウス要素の定義でも 同じ操作で定義できるのである。 一つのデータウェアハウス環境で複数のデータウェアハウスが定義できることに注目し てほしい。ウェアハウスの情報と入れ子になるウェアハウスごとの階層構造定義を簡単に 行えるようにするためである。全ての情報を一つのウェアハウスで管理・保管するように してしまうと、大変巨大で管理が煩雑なウェアハウスになってしまう。櫨数のウェアハウ スに分けることで管理されるメタデータもサイズが小さくなり、パフォーマンスも向上す る 。 7 .データソースの定義 データウェアハウス環境やデータウェアハウスなどのメタデータの管理先を定義したら、 次にデータウェアハウスの構成要素として取り込む基幹データのデータソースを定義する。 基幹データの定義は基幹データ定義と呼ぶ。基幹データ定義はSASのテーフやルやビューな どに似ている。フラットファイノレで保管されている基幹系データにアクセスする際はデー 八NarehouseA d m i n i s t r a t o rソフトウェアの基幹系デー タステップでビューを作成し、 SAS タ定義として用いる。データベースシステム上の基幹系データにアクセスする際は、 SAS/ACCESSソフトウェアのビューを用いて定義するか、 PROCSQしのビューを活用し ‑445‑
て基幹データ定義として用いる。 基幹データ定義は論理的に基幹データ定義グループの中に含まれる。基幹データ定義も 基幹データ定義グループも必要なだけ作成することができる。基幹データ定義グループの 作業はデータウェアハウス定義の作業と似ている。エクスプローラウインドウから項目追 加のメニューを選び基幹データ定義グループを選択する。データウェアハウス定義と異な る点は、メニューを選んだだけで基幹データ定義グループがデ、フォルトの名前で階層構造 画面に追加される。名前を変更するにはプノレダウンメニューかポップアップウインドウよ りプロパティを選択して行う。またはマウスの右ボタンを押して名前の変更のメニューか らも行える。 基幹データ定義グループに新しい基幹データを加えるにはプルダ、ワンメニューの追加か、 マウスの右ボタンをクリックして項目追加の基幹データ定義を選択する方法がある。基幹 データ定義のアイコンが階層構造画面に表示されたらプロパティから基幹データ定義のプ ロパティを起動する。基幹データ定義のプロパティウインドウには、一般タブとデータの 保管場所タブと列タブ、の3つのタプがある。 一般タプは前項で説明済みである。データの保管場所タブは基幹システム上の基幹デー タの保管場所を SASライブラリまたは SASテーブルかピューで指定する。このタプで定 義しなければならない基幹データの保管場所は物理的な保管場所と異なるのが普通である。 例えばデータベース上のテーブルに対して基幹データとしてアクセスしているとすると、 実データはホストマシンの上にあることになる。しかし PC上からクエリーウインドウな ど利用してリモートマシンにビューを定義しであれば、保管場所の定義は PC上というこ とになる。 保管場所の定義を行うにはプルダウンメニューのツーノレから行う。 ‑ 4 4 6一
ACCESSウインドワ、外部ファイルインターフェース、クエリーワインドワを用いて基 arehouseA d m i n i s t r a t o rソフトウェア 幹システム上にあるデータに対するビューを SASlW の基幹データソースとして定義する。 基 幹 シ ス テ ム の デ ー タ に 対 し て ア ク セ ス し て い る マ シ ン が SASlW arehouse A d m i n i s t r a t o rソフトウェアが稼動しているマシンとは異なるケースも多々ある。保管場所 を指定する際、どのマシンでアクセスしているのかを注意して欲しい。 列タブにより SASlW arehouseA d m i n i s t r a t o rソフトウェア上の基幹データ定義の列情報 を定義する。名前、タイプ、長さ、見出し、出力形式、入力形式などの情報を各列ごとに 定義することもできるし、読み込みボタンから他のメソッドを選択するということもでき る。メタデータの列情報を保管場所タブで指定した場所やその他色々なソースから読み込 むことができる。 この機能に列情報全てをキーボード入力しなくてもメタデータの列情報を定義できるの である。メタデータの列情報は PROCCONTENTSの出力情報や COBOLファイルディス クリプタなどを利用して定義することもできる。 一般タプと同じように保管場所タブや列タブも、その他のウェアハウス要素のプロパテ ィウインドウで用いられている。 8 .ウエアハウス要素の定義 基幹データ定義グループと基幹データ定義はデータウェアハワス環境を構成するもので あるが、データウェアハウスの構成要素ではない。これは基幹データ定義が一回の定義で、 複数のデータウェアハウスで共有できるようにする必要があったからである。このように すればデータウェアハウスごとで基幹データの取り込み先の指定を何度もし直すことが無 くなる。データウェアハウス環境にはいろいろな要素があるが、データウェアハウスにも ‑ 4 4 7
さまざまな要素がある。大切なものとしてサブ、ジェクトとデータマートがある。 8 . 1サブジヱクト サブジェクトとは企業内で日々の業務に用いられる情報・顧客・売上げ・購買などのピ ジネス情報のことである。これらのサブジェクトは、例えばSASデータセットで管理され ていたり、データベースシステム、多次元データベース、表計算シート、レポートやグラ フィックなどで管理されていたりする。ひとつのサブジェクト内での論理構造は次のよう な階層をなす。 サブジェクトの階層構造 データウェアハウス サブジェクト l 詳細論理グルーフ 詳 細 テ ー ブ ル1 詳細テープ)J..n 裏 約 グ ル ー プ1 霊 的 テ ー ブ ルl 要 約 テ ー プ ル2 要約多次元デ‑‑‑11ペース1 要約多次元デ‑‑‑11ベースa 霊 的 グJレ ー プn ‑ 1 ' ユ , 土 : > ; t ‑ メ ー ー 三 ノ ョ ュ , τF ーート l インコォメ)むヨンマート項目 1 イン=サメーむヨンマート項目n インコーナメー ョンτF一ートn ‑v サフ~ェクトn サブジェクト n サブジェクト内の要素は、基幹データ定義グループのような複数の情報をまとめるグル ープの役割を果たすものもあるし、一個のデータテーブルまたは複数のテーフ守ルや詳細テ ーフツレを参照しているピューなどもある。 詳細論理テーフ守ルはローディング情報が明記されている詳細テーブル群をまとめる。詳 細テーブルは基幹データソースからのデータ取り込み情報が記述されている。データの加 工作業がすでに済んで、いるものに対してのローディングの情報である。 要約グ、ループは要約テーフeルや要約多次元データベースをまとめるグループであり、関 連する詳細テーブルから演縛される。必要に応じて要約グループは複数定義できる。要約 グループはグループ内の要約レベルごとで生成される次元のもととなるデフォルトの分類 変数や分析変数の定義をする。 448‑
要約レベノレとは時間をベースとした、テーブルで要約グループで定義されている変数で 要約される。要約レベノレのそれぞれが目、週、月、年などの時間の次元に対応している。 6つの時開設定が行える。 インフォメーションマートとはインフォメーションマート項目群をまとめるグループで ある。インフオメーションマート項目には、詳細テーブノレや要約テーフツレから引き出され る情報の表示など行うツーノレの集まりと考えてもよい。 SASシステムで作成したチャート、 レポート、グラフなどで表示するが、クエリやテキストファイルでの表示、また別アプリ ケーションで作成した情報をアプリケーションを立ちあげて表示することもできる。 8 . 2データマートグループ データマートグループの階層構造 データウェアハウス サゴジェクト 1 サづ.ジェクト n データマートク.ルーブ 1 データマート l データマート2 インコ';t‑)ICーションマート l インフォメーションマート項目 l インフォメーションマート項目n インヨr )ICーションマートn デ」タマートク.ル」ブn データマートグループとはデータウェアハウス内のデータマート群をまとめるグループ である。データマートとは部や課または個人など、特定のユーザに必要な情報のみがサブ セットされたテープノレの集まりをさす。アドホッククエリの結果や、クロスサブPジェクト 分析の結果などを保管し、ビジネスユ}ザ、の身近に置かれることが多い。例えばデータウ ェアハウスは全社レベル=エンタープライズレベルの UN 医サーパに置かれるが、データ マートは部門や個人のPC上に置かれる。 ウェアハウス要素の定義プロセスは基幹データ定義グ、ノレープや基幹データ定義の定義プ ロセスに似ている。エクスプローラウインドウ内でプノレダウンメニューかマウスの右ボタ ンを押してウェアハウス要素を加えていく。そして作成した要素をプロパティウインドウ を用いて編集する。ここで表示されるプロパティウインドウのタブは基幹データ定義で見 たものとほぼ同じである。新しいものとしてデータウェアハウスでは必須の機能である他 のデータベースシステム上で保管されているテーブルにアクセスするための定義のタブ等 ‑ 4 4 9一
などが追加されている。 サンプルの画面はデータの保管先を設定する詳細テープノレのプロパティである。詳細デ ータまたは要約データの保存形式はSASかDBMSのいずれでもよい。ロード方式はは全て をロードし直す更新と、変更されたトランザクションのみ加える追加が選べる。保存形式 とロード方式を選択したら定義のボタンをクリックし、次の定義プロパティをオープンす る 。 保存形式が SASならばSASテーブルのプロパティがオープンされる。このプロパテイで はSASテープ、ノレの保存場所情報や、リード・ライト・実行権限のパスワードの設定、 SAS データセットのオプションであるデータの圧縮や暗号化の設定、インデ、ックスの設定など が定義できる。インデ、ックスタブで複数のインデ、ックスを設定したり、インデックスのア ップデートや削除なども行える。 保存形式を DBMS形式に選択した場合は次のプロパティがオープンする。 ‑450‑
この保存場所タブでは DBMSテーブルに対してのアクセスを定義する。また DBMSに対 してアクセスするために必要な PROCSQしや PROCDBLOADのDBMSのオプションが設 定できる。 詳細論理テ}プルや詳細テーブルが定義で、きたら次、にプロセスエディタを使ってテ} ブルを生成するプロセスを定義することをすすめる。プロセスを定義してロードをテスト を行うことにより、次に作業する要素=要約テーブルやデータマートなどの定義の作業も 容易になる。 9 .ウェアハウスプロセスの定義 必要なウェアハウスの構成要素の定義が終わったら、次にこれらの構成要素をし、かに生 成するかの定義を行う。プロセスエディタというツールを使用する。プロセスエデ、イタは いろいろなプロパティで利用からできる。、プノレダ、ウンメニューのツールから選択して立 ちあげるか、エクスプローラウインドウの階層構造画面でマウスの右ボタンから選択でき 451 ‑
る 。 プロセスエディタにより、どの基幹データソースから抽出するか、ソースからいかにし てデータをロードするか、どのようにターゲ、ツトのテーブルに落とすか、などのフローが 定義できる。また要約テーフツレやデータマートなどをどのように生成するかのステップな ども定義できる。 データのロード、プロセス画面を利用しながら使用法を説明する。 顧客詳細情報をもっという定義を作成したとしよう。プロセスエディタを起動すると次 のような画面が表示される。 この画面には顧客詳細情報のアイコンしかなく、まだ何の定義もされていない。 国 阻害群梱惰樋 このプロセスエディタには定義したワェアハウス構成要素としてのタイプや見出し、ま た詳細テープ、ノレの定義プロパティで定義した情報が表示される。プロセスタイプのラジオ ボタン表示で。プロセスステップが定義されているか確認できる。定義済みであればロー ディング時に、 SAS lW arehouseA d m i n i s t r a t o rソフトウェアが生成したコードを利用する のか、ユーザが作成したコードを用いるのかも確認できる。 まず顧客詳細情報としてロードするための基幹データ定義を選択する。顧客詳細情報の アイコンをクリックしメニューから追加→基幹データのマッピングを選択する。基幹デー タのマツヒ。ングは基幹データ定義の列定義を詳細テープノレの列定義にマッピングするのに 用いる。ここでは基幹データ定義の東京を選択する。 ‑452‑
プロセスダイアグラムの中に東京の基幹データ定義が加わる。データをロードするター ゲ、ツトのテーブルの下にデータソースが配置される。詳細データと基幹データ定義はグラ フィックアイコンで表示されているのに、マッピングはテキストである。グラフィックア イコンのオブジェクトはロード可能なテーブノレなどのエントリを示し、このアイコンをク リックしてメニューを表示するとロードステップの編集などが選択できる。 マッピングなどのテキストのオブジェクトはプロセスのエントリで、ソースコードなど を示す。プロセスオブジェクトには詳細テーブルや基幹データ定義のようなデフォノレトの 定義はない。 マッヒ。ングオフeジェクトのプロセスを定義するにはアイコンを選択してポップアップメ ニューを表示し、プロパティを選択する。 d告 Ru qu
ソースコードタフ守で、は列のマッピングを SASlW arehouseA d m i n i s t r a t o rソフトウェアが 自動生成するコードで行うか、ユーザ作成のものを用いるか選択できる。ユーザ作成コー ドを用いる場合は SASカタログのソースエントリで指定する。 実行タブではマッピングソースコードをどのホストで実行させるか指定をする。 出力データタブではマッピングソースコード実行結呆のデータセットををどのライブラ リに出力させるか指定する。 列のマッピングタブ、では詳細テーブルの列と基幹データ定義の列のマッピングを定義す 対1 マッピングボタンをクリックすれば1 対1 マッピングワインドワが表示されて、 る 。 1 列ごとにマッピングするかどうかできる。 ‑ 4 5 4
マッピングに必要な定義を入力したら了解を押して保存する。必要に応じてオプション タブを利用したり、 whereタブでwhere文を定義しマッピングコードから実行させること もできる。一般タプはマツヒ。ングオブジェクトのプロセスエディタ上での名前の変更など に用いる。 追加→ユーザプログラムを選択すればユーザが用意したプログラムを利用することもで きる。 聞協 z 1 1M 型 国柑 I角1中 川 左 肺 害川 J ⁝ 副ユ τ 最後に必要な作業としてデータロードステップの編集を行う。基幹データ定義のアイコ ンを選択してマウスの右ボタンをクリックするとウインドウが表示される。ここでロード ステップにて利用されるソースコードの実行の仕方、どのホストでコードを実行するか、 また必要なオプションであるロードステップ終了時の後処理ステップを指定できる。後処 理ステップではロードしたテーブルのパフォーマンスを計算したり、終了メッセージをデ、 ータウェアハウス管理者に送ったりなどが設定できる。 プロセスエディタを利用すればさまざな処理が行える。ウェアハウスに必要な作業のい ろんなフェーズで、ツールとして活用できる。ウェアハウス上のテーブルや列の生成工程の ドキュメント作成にも利用できる。 SASインスティチュートで、はプロセスエディタを用い てデータウェアハウス以外のデータフローやソース・ターゲットのリレーションのドキュ メンテーションなどを行っている。 1 0 .コード生成 これまでの処理が済めばデータロードを行うコードの生成が行える。コードを確認する にはマウスの右ボタンを押し、メニューからコードの参照を選ぶ。ステップと全部のメニ ューが表示される。ステップは選択したウェアハウス要素のコードをのみを参照し、全部 ‑455‑
はプロセスツリーのすべてのコードを参照する。 プロセスエディタ上のすべてのオブジェクトのコードを確認するようにしてほしい。こ れらのオブジェクトのふるまいやプロセスダイアグラム上での処理で何をするかの確認で ある。たとえばリモートのホストにある基幹データにアクセスするよう基幹データ定義を lW arehouseA d m i n i s t r a t o rソ 定義したならばリモートサブミット処理部分のコードは SAS フトウェアが自動的に行う。次のようなコードを自動的に生成する。 o p t i o ncomamid=tcp; f i l e n a m er l i n kt c p . s c r " ; % I e tMVS=mvs.kaisha.co.jp; s i g n o nMVS; r s u b m i tMVS; libnamemvsdata" t e s . t w a . s a s d a t a " ; e n d r s u b m i t ; lW arehouseA d m i n i s t r a t o rソフトウェアはプロセスエディタ上のあらゆる部分でコ SAS ードを自動生成する。たとえばユーザ自身がテーブルにアクセスするコードを新たに加え た場合、そのテーブルが既存のデータウェアハウス要素にアクセスするのに必要なコード lW arehouseA d m i n i s t r a t o rソフトウェアが自動的に生成する。ロード可能な要素、 をSAS 例えば詳細テープノレや要約テープソレなどを選択してコードの参照を選ぶと、 SAS lW arehouseA d m i n i s t r a t o rソフトウェアがコードを自動生成する。コード、にはプロセ スエディタ上でこの要素の次にロードされる要素へのアクセスに必要なコードまで含まれ る。もしも選択した要素の次にロード可能な要素があれば、アクセスに必要な部分までを SAS lW arehouseA d m i n i s t r a t o rソフトウェアが自動生成し、次にロードされる要素のロー ディングコード生成までは行わない。ユーザが要約テーブルをロードするコ}ドを作成し lW arehouseA d m i n i s t r a t o r'/フトウェアはその要約テーブルに流し込まれ たならば、 SAS る詳細テーブルへのアクセスコードは生成するが、要約テーブルに流し込む詳細データの ロード部分までは自動生成しない。 1 1 .コードの実行 コード、の確認作業が終わったら、ロードしたい要素を選択して実際にコードを実行する。 エクスプローラウインドウかプロセスエディタより要素を選択して、ポップアップメニュ ‑456一
ーかプ/レダ、ワンメニューから実行を選択する。 SASlW arehouseAdministratorソフトウェ アはその要素のロードの生成/実行プロパティを表示する。 このプロパティウインドウでは生成されたコードをパッチで処理するか、対話形式で処 理するかが選択できる。対話形式では現在のセッションで実行されるのでメタデータまで の割当ては行わない。対話形式はコードのテストには有効だが、大量データウェアハウス NAME を処理するには実用的ではない。パッチを選択するとメタデータにアクセスするL1B ステートメントを SASlW arehouseAdministratorソフトウェアが自動生成する。 またジョブ実行のスケジュー/レの管理、コードやカタログの保存や外部ファイノレへの書 き出しなども行える。 1 2 .最後に SAS lW arehouse Administratorソフトウェアはデータウェアハウスの管理において、メ タデータ指向のアーキテクチャを用いて柔軟で、効果が高いフレームワークを提供している。 ビジネスサフeジェクトの定義、テーブルや列の定義、要約処理、プロセス編集のなどで高 度な機能を提供し、データウェアハウスの構築・運用・活用のすべてのフェーズで役立つ。 SAS lW arehouse Administratorソフトウェアは SASシステムの機能をさらに高め、データ ウェアハウスソリューションとして SASシステムをデータウェアハウス管理者に提供す るものである。 参考文献 L e w i s .T e r r y .SASI n s t i t u t eI n c . ( 1 9 9 6 ) D a t aWarehousingw i t ht h eSASSystem.WesternUserso fSAS 隠 u a lR e g i o n a lConference S o f t w a r eProceedingso ft h eF o u r t hAnn SASI n s t i t u t eI n c . ( 1 9 9 6 ) .SAS 八NarehouseA d m i n i s t r a t o rUser 'sG u i d e .C a r y .NC:SASI n s t i t u t eI n c . 企 ワt RU 4
S U G I ‑ J ' 9 7論文集 •••••••••••••••••••••••••••••••••••••••••••••••••••••••• ビジネス・ インテリジェンス
日本 S A Sユーザー会 (SUG I‑J) 経営情報戦略における「データマイニング」の役割 ーデータから情報というダイヤモンドを掘り出すために一 奥山真一郎 株式会社 SASインステイ子ュートシ."ハンコンサルティング部統計サービスグループ TheRoleo fDataM i n i n gi nBusinessI n t e l l i g e n c eSystem 一Diggingf o rDiamondsfromDatabases‑ S h i n ' i c h i r oOkuyama SASI n s t i t u t eJapanL td .ConsultingDepartment,S t a t i s t i c a lServiceGroup I n u iB l d g .Kachidoki8thF l o o r,1‑13‑1 I くa c h i d o k i,Chuo‑ku,Tokyo104 要旨 本稿では、現在注目を集めているデータマイニングについて他のデータ活用手法との違いなど を含め、やさしく解説すると共に、企業のデータ活用の問題点を解決するための新たな視点を提 案する。これまでの非常に初歩的なデータ活用の現状に対し、データマイニングへの関心からは じまり、現在の「データから情報へ」で、はなく、「必要な情報のためのデータ収集へ」と、ビジネスの 視点を移すことの重要性を示唆する。 キーワード: ビジネスインテリジェンス (8IS) データマイニング OLAP 統計解析データウエアハウス 1 . 日本におけるデータ活用の現状とデータマイニングの登場 「データマイニング」とは、新たなデータ活用術の 1つである。まず、「データマイニング」の必要 性・メリットを議論するにあたり、まず日本におけるデータ活用の現状とデータマイニングが注目さ れる背景について振り返る。 初歩的なデータ活用 まず、データによる科学的な判断に基づく経営というものが、日本においてどこまで真剣にクロ ーズ、アップされているのだろうか。確かに議論のテーマとして、何度も話題にのぼる点ではある。 しかしながら、どれも具体的方法論が伴わない概念中心の議論で、実際どのようにプロジェクトを 進めれば良いのか一向に理解できない。またコンビュータハードウェア・ソフトウェアベンダーは、 機能やスピードといった製品のメリットしか強調しない。その結果として、「データベースを購入し phu A性 ーよ
たから大丈夫である J f高速コンピュータと多次元分析ツールを導入しているから心配なしリといっ た視点での判断ばかりで、単に流行のツール検討という側面しかない感は否めない。高速なコン ピュータ・高度なソフトウェアを購入しても、それらは単なるツール(手段)にすぎず、最終目的にな んら答えを出すものではないことは、自明の理のはずであるが。 また、その最終目的というものも、現在の日本においては、「検索・自動レポート・グラフ化」とい う、情報戦略策定という観点からは、極めて初歩的なものである。情報システム関係者も、「とりあ えず定型処理のしくみをつくる」ということで、「とりあえず」ということが、この情報戦略を支える社 内システム構築の第一命題となっているのである。経営情報戦略のしくみ作りとは、本来「最終目 的」より始まる話題であるが、日本においてはその核心には触れず、周辺の話題からはじまると いう特徴がある。そしていつの間にか、「とりあえず」という言葉の先は、忘れ去られてしまうようで ある。 データに対する無関心 また多くの人が、データには情報があるという誤解しているようである。その証拠に、「このデー fこのデータから何か言えませんか」とし巧話が後をたたない。これは担当者の タで何とかしたい J 問題であるのか、そういう指示を出してしまう組織の問題であるかはさておき、データ利用者の、 「データ」に対する過信・誤解があまりに多いのである。例えば、社内にある顧客データから、ある 商品のターゲットとなる顧客をセグメントしたいとする。その際の重要な要因として、「年齢」という 顧客属性を使用するとしよう。しかしながら、顧客はみずからのプロフィールとして、本当の年齢を 記入するのであろうか。もし何歳も偽った申告をして、なおかつそれらをチェックする仕組みもなけ れば、偽りの年齢が、社内のデータベースに菩積され、さらにその偽りのデータを下に意思決定 をおこなった、「つもり」になってしまうのである。または、アンケート調査データの際に、「次のうち、 どのような雑誌を定期購読していますか」という質問があったとしよう。この質問に対し、本当は 「マンガ」を定期購読している人が、果たして正直に申告するであろうか。おそらく「ビジネス誌」を 購読しているなどの回答が予想される。 このように、「データ」を活用することを議論するには、まずその「データ」そのものが、どのよう にして収集されたのか、あるいは収集されつづけているのかという「データの素性」を明らかにす ることが極めて重要なのである。しかしながら、現在の日本では、基本中の基本であり、最も重要 Q u a l i t yo fD a t a ) Jf データの妥当性(Va l i d a t i o no fD a t a ) Jということがま なこの「データの品質 ( ったく無視されているといっても過言ではない。収集方法がまったく異なる、データをいっしょに集 計し、何かを結論づけてし、くなどもつての外で、ある。このことは、昨今のデータマイニングブームに ついてもいえることであり、現在手持ちのデータが必ず活用できるかの広告宣伝もあるが、誇大 広告であるといわざるおえない。データとし巧客観的事実に基づく経営判断を行おうとし、うから!こ は、この点に関する深い認識は不可欠である。 ‑462‑
コンビュータ資源の充実とデータの蓄積 以上概観したように、日本のビジネスにおけるデータ活用の現状は、大いなる問題点で、満ち溢 れている。こうした中、 1つの流行語として「データマイニング」が取り上げられつつある。その背景 には、業務の自動化・電子化のためのインフラ整備が進み、各企業その貯えられた膨大なデータ の活用方法を模索していることがあげられる。日本においてもここ数年来、特に「データウェアハ ウス(データ倉庫)構築」に代表される経営情報のしくみの構築ブームがある。これは、社内の過 I一刻と変化する市場動向をリアルタイムで把握し、適 去より蓄積された膨大なデータ利用し、表J 切な経営判断を迅速に行うためのしくみを、各企業が構築を急いでいることの証拠でもある。上 述のように、これまでは検索やレポート・グラフの自動化が、データ活用の中心で、あったが、更な るデータの活用に各企業が注目し始めたのである。これはデータそのものがなかった、あるいは、 収集したデータを最大限活用するためのコンビュータ資源の限界があった時代には起こり得ない ニーズなのである。 データマイニングへのトレンド 多次元データ分析 / ー ¥ 検索 業務の自動化 fII'~ データマイニング SASl n S t l lUleJ α p αnL t d 図 1 データマイニングの登場までのデータ利用のトレンド ハ hu 刈 坐 qu
2 .データマイニングとは データマイニングとは何か。直訳すれば、「データを掘る J rデータから金・ダイアモンドなどの鉱 石を採掘する」という意味になる。この項では、データマイニングの定義、目的をより一般的な観 点よりまとめ、氾濫するさまざまな考え方を整理するアイデアを提供する。 データマイニングの定義 データマイニングとは、米国 G a r t n e rGroupにより指摘されているように、解析の 1 テクニッ クにとどまらず、情報を抽出するための手法を包括した一連のプロセスとして定義されるのが一 般的である。すなわち、データマイニングとは、大容量のデータから噂されたパターンや関連性を )。データマイニングというとすぐに、ニューラルネットや 発見し、検証するプロセスなのである(図 2 ディシジョン・ツリー(決定木)手法など個別の技術そのものをデータマイニングであるという誤解 もあるようであるが、データを闇雲に個々のデータマイニング技術に適応すればよいというもので はない。 が ; ゥ " 5 . : 1 J" 明 ヴ叩j ; 子 J4 三 会 マ ベ 手 L 渉L 曹 証 v, • r フ & バ ソ ラ Jtr ﹂ ν ヅ J キ ス ヒ . 、 L ' a ③ 広義のデータマイニング: 一連のプロセスとして定義される 執 悲 劇 仰T 乙 意思辞意 SASI n S l i r u l eJ a p a nL t d . 図2 広義のデータマイニング ーデータマイニングは、大容量データからの情報抽出プロセスとして定義される一 ‑464
月1の観点から言えば、データマイニングとは「社内データと意思決定者とのコミュニケーション」 であるといえる。蓄積されたデータが物語る事実と意思決定者が語らせたい内容とがお互いに歩 み寄り、関わっていくプロセスで ある o 前項で触れたように、現在データに基づく意思決定がどれ だけ行われているか大いに疑問が残る中で、ビジネスにおいてようやく注目されてきたのが、デ 草されている事実にまず注目してみるという試みがこのデータマイニングである。 ータに1 また、データマイニングの核となる内部プロセスに注目すると、そこにも情報抽出へのより詳細 なフローが確立されている。このフローは、それぞ、れのステップの頭文字をより SEMMAモデル と呼ばれる、より普遍的なデータマイニングの方法論である。この内部プロセスは、最善の結果 が得られるまで、繰り返し実行される反復プロセスであり、各回結果の評価を伴うものである。 一 一 一 データマイニング内部プロセス (SEMMA) (サンプ 1 )' : . / ' f怪 ( 呈 m 叫 仰 拘 μ 叩 p 仲l e サンプリングの有無 v 〉 ( E x p l o r e ) 探索 応 ) G ーヒ…1~ 一問 G ( 盟0尚 ) ー レ ー … セ ッ ト 化 山 の 判 八 ( 盟ode l)ー吋木時系列相関統計解析 1 11 G 評価 (同)ザルの評価一更新…目点 SASJ n s t i t u t eJ ,a凹 nLtd 国3 データマイニングの内部プロセス (SEMMAモデル) ‑465‑ ) 0
また、この SEMMA(セマ)プロセスは、「ビジネスの問題発見と検証」という意思決定プロセス の第 1、第 2段階に完全に対応し、また第 3段階である「情報の伝達」へ引き渡すとし巧重要な役 割を担うのである。 意思決定の 3つの段構 SASl n s l i l u t eJapanLld 図4 意思決定プロセスの 3つの段階 この図 4で言えば、データマイニングの特徴的な点が「発見」の段階にあることがわか る。つまり、従来のデータに基づく実証をともなう仮説検証に加え、データから検証すべ き仮説を導き出す点が、データマイニングの役割なのである。もちろん図 4が示すように 発見だけでは、ビジネスにおける科学的意思決定には不完全であり、検証を伴って始めて 全体の体をなすのである。この発見と検証をつかさどる SEMMA(セマ)プロセスの詳細は、 表 1を参照のこと。 ‑466
表 1 データマイニング技術のポイント 技術力 T ゴリー サンプル抽出 口説明 原デ‑1>の情報量を損なう」とな 〈、ランダムにサンプルを抽出する。 」んな時使う デ‑1>量が、コンビュー 9資源と比較して、膨大な 場合。 ポイント(メリットなど) マイーングプロセスを効 率的に行なうことができ る 。 探索 ビジュアル化機能をもっ探索的デ ‑1>解析(EDA)ツールや古典的次元 縮約統計手法を用いて、デ‑1>の大 まかな傾向を把握し、ビジネスルー ルの導出に関連がある可能性のあ る項目を吟味する。 フィル 9リングなどにより、外れ値 なども検出する。 ビジネスルールの導出に欠けて いる項目の追加や不必要な項目・レ コードのサブセット化を行なう。ま た、必要に応じて、標準化、変数変 換などを行なう。 デ‑1>全体の傾向や性質 が良〈把握できていない湯 A E e コ h。 デ‑1>の分布・外れ値の 有無などマイニングデ‑1> の特徴を把控室することがで きる。人が見落としがちな 要因の重要度をチェックで きる。 デ‑1>から重要な項目を選択した り、デ‑1>を、あるいくつかのグルー プにまとめたり(クラス 9リング)、分 類(クラシフィケーション)を行なう。 膨大なデ‑1>項目から、 自動的に結果をレポート 目標に対して重要な項目を してくれるので非常に効率 自動的に抽出したい場合。 が良い。 l( 1レ 結果がツリー形式で出力 デ‑1>から何か法目J ール)を導いたり、デ‑1> され、解釈がやさしい。 の分類などを行ないたい場 加工・変換 Tイン.ン、.ヨ‑ン ツリー(決定 木) モ 業務知識により、仮説を 既に持っている場合で、デ ‑1>の大まかな傾向と比 較・確認を行なう場合。 デ‑1>測定基準が大きく 異なるなどデ‑1>が非常に 汚れている場合。 必要なデ‑1>が複数箇所 に点在している場合。 モデル化い必要な情報を 整えるための重要なス子ツ プ 。 A E e 2 h0 づ ー ーユ フルネ ットワーク 人間の脳細胞を模倣し、過去の デ‑1>1 こよりに学習を繰り返し、予 測・分類をすることが可能となる。 相関分析 データの膨大な項目の中から、関 連のある項目を抽出する。 時系列分析 時系列デ‑1>の中から、特定・類 似パ 9ーンを発見する。複数の時系 列要因から 9 ゲットとなる目的変 数を示すモデルを作成し、原因系表 現・予測を行なう。 jレ 化 評価 各モデルの正確さ、問題点をさ まざまな基準から評価する。 「何が J r どのくらい」と =高い。 精度が非常 1 いうような判別・予測を行 「なぜ」そうなるのかと ないたい場合。 いう質問には答えられな 立、そ デ‑1>量が膨大で、デ‑1> い。原因系の追求に i 聞の関連が非常に複雑な場 の他の方法を補完的に使用 A コ E 企 h。 する必要がある。 デ‑1>量・項目数が膨大 バスケット分析など応用例が で、各関連のある項目の組 多数ある。 み合わせを導き出すのが困 組み合わせの抽出が主で 難な場合。 あるので、結果が直感的に 分かりやすい。 時間の変化を考慮に入れ 過去の商品購買パ 9ーン から次回購入商品の関連性 て分析することが可能とな を求めるというような場 る 。 A E e コ h。 時系列デ‑1>の分類・予 測を行ないたい場合。 毎回必ず行ない、よりよ いモデル構築を行なう。 ‑467‑ データマイ ングの目的 に対しても複数のアプロー チが考えられる中で、各結 果の比較を行なうことがで きる。
既存の経営分析方法多次元データ分析(OLAP)との違い それでは、現在データ活用の中心として取り上げられている、多次元データ分析 (OLAP:OnLineA n a l y t i c a lP r o c e s s i n g )とデータマイニングの違いをまとめてみよう(表 2 )。 端的に言えば、「データに基づく実証ができるかどうか」にその違いがある。 OLAP とは、その 内容を見ていけば単なるデータの「集計」なのであり、それをオンライン化し、かつ高速化したもの e a r n i n g分野で に過ぎない。それに対しデータマイニングは、統計手法や工学分野.Machinel 発達してきた数理手法を取り入れ、データの探索・仮説の導出から、導出された仮説の検証まで を行なうのである。 多次元データ分析および多次元データ分析ツールの特徴は、蓄積されたデータをもとに「いつ・ どこで・誰が・何を・どのくらい売りあげたのか」というように、さまざまな切り口からデータを分析す S l i c eandD i c e )。つまり 5W(羽市en, V . 市e r e, V . 市o 川市a t, v . もi c h )・1H(How)と ることができる ( ) Jという質 いう質問に対し答えを与えることができるが、肝心のもう一つの W である、「なぜ川市y 問には答えを与えてはくれない。 また、その戦略上重要だと思われる切り口や注目すべき要因については、すべて分析担当者 の判断から生まれる必要があるのである。つまり、 OLAP のデータをあらかじめ用意しなければ いけない性質上、分析の範囲というものが、ある担当者の主観により選ばれた、あるいは情報シ ステム部門などにより用意された切り口に限定されてしまうということである。 表 2 データマイニングと他のデータ活用手法との違い 多次元データ分析 統計解析 データマイニング (OLAP) 主な分析対象データ 履歴データ 履歴データ 実験・調査データ 分析データ量 大 大 I J、 中(希に大) 分析目的 現状把握(モニタリング) 問題の特定と原因・構 仮説検証 造追求(発見と検証) (記述と推測) 実行モード 対話型 半自動 対話型 分析プロセスの特徴 人間の判断によりあらか 大量の生データから出 ある仮説の下、必要な じめ重要だと想定される 発し、そこからパターン 情報を実験計画法など パターンを定義する を発見、検証していく に基づき収集、分析。 結果は、集計なので非 分析プロセスが半自動 分析プロセスが、対話 常に簡単。手法に関する 化され簡易に実行。各 型であり、各手法の深 特別な知識は不要。 技術の基本的知識が い知識が必要。 難易度 必要。 最終的結論 より主観的 より客観的 より客観的 解釈にばらつき 知識の共有化 知識の共有化 ‑468‑
このように、多次元データ分析 (OLAP)の主目的は、現状把握であり、把握すべき要因や OLAPが示す現状の判断方法については、すべて各担当者の判断に委ねられているということ である。つまりより判断する人聞が重要になり、その判断より問題が導出される。それに対しデー タマイニングは、ビジネスの構造、因果関係の追求を目的としており、押さえるべき重要な要因・ 問題の特定は、データが語る事実より半自動的に導出される。また、導かれた客観的事実に基 づくシミュレーション、予測をも可能とするのである。つまりデータが命という、まさにデータドリブン な手法なのである。 これら 2つの方法は、共存可能であり、データマイニングより導出されたピ、ジネスのルールをも とに、 OLAPでの切り口の定義!こフィード J心yクしていくことがで、きる。また、マイニングプロセスの 部として、 O LAPツールを用いることもできる。 データ探索の 1 統計解析とデータマイニングの違い 統計解析とデータマイニングがどう違うのかも議論の対象となることが多い。そこで統計解析と データマイニングの関係についても触れることにする。とはいえ、「統計解析」という用語について も学術的世界の定義と、ビジネスにおける現在の認識と!こは大きなギャップがあるため一概にま とめることは困難である。例えば、統計解析というと、これまでビジネスで応用されてきた統計手 法が重回帰分析等に代表される、ごく限られた範囲にとどまっているため、「統計解析」という言 葉の意味は、平均値を求めることや、古典的な線形手法を指すことが多いのが現状である。また、 こういった「かぎられた統計解析」を所与として、データマイニングと比較するものも多い。しかしな がら一口に統計解析と言っても、記述統計量などの初等統計から、カテゴリ力ルデータ解析手法 や非線形モデルのための最新統計手法まで、さまざまなものがある。実際、データマイニングの核 となるアルゴリズムの多くは、統計解析手法そのものや統計解析手法の組み合わせにより実現 するものがほとんどである。また、統計解析は仮説検証アプローチ、データマイニングは知識発 見(仮説導出)アプローチという違いで説明する場合もあるが、これもある部分的な比較に過ぎな E x p l o r a t o r yDataA n a l y s i s:EDA)Jや変 いだろう。統計解析の世界で、も「探索的データ解析 C 数選択手法という知識発見・仮説導出のためのアプローチが既に存在し、特に目新しくはない。 このように、データマイニング、統計解析それぞれの定義や守備範囲によって、用語そのものが 混乱を来しているのが現状である。そこで、本稿では、主に扱うデータの種類の違いからそれぞ れの違いを説明することにする。 4 6 9
データマイニングは大量の履歴データを活用するのに対し統計解析は通常実験データや調査 データがその対象となる。このデータ量と対象データの遣いが統計解析とデータマイニングの考 え方やアプローチの違いとなっている。 )。統計解 データには大きく分けて,実験データ,調査データ,履歴データの 3種類がある(表 3 析が扱う実験データと調査データはある目的や仮説に基づき収集されるものである。収集テクニ ックとして,適切な実験手法や調査用紙の設計が必要になる。統計解析の世界では,このデータ 収集技術が最も重要であり,相当の教育や経験が必要となる。これに対し,データマイニングが 対象とするデータは,基幹業務などから得られるデータであり,そこから半自動で情報抽出するし くみなので、データに対する知識と業務経験があれば、実践することが可能である。表 2でも触れ ているが、統計解析は通常 1つ 1つの手法を対話的に積み重ねていくのに対し、データマイニン グは、一連のデータ解析技術の自動化を進めている点にある。つまり、統計解析が伝統工芸の ような職人芸であるとすれば、データマイニングは、機械によるオートメーション化を進めているイ メージといえよう。 言い換えれば、データマイニングでは目的を持たず蓄積されたデータを何とか活用し、検証す べき仮説を導き出すことがその主なる目的であり、統計解析は検証すべきデータを如何に収集す るかという点にその主眼がある。収集されたデータに対する数理手法などの解析手段は、互いの 分野で有効性が認められるものを貧欲に採用していけば良いので、口ジスティック回帰であれニ ユーロであれ、 I~ ターンマッチングであれ手法そのものの違いなどは、ツールの違いと等価であ るのでビジネスにおいてはあまり重要ではない。 表3 データの3つの種類 データの種類 特徴 実験データ 実験計画法に基づき収集される良質なデータ。データ量は少ないが情報量│ が多い。但し、収集コスト高い。動物実験・化学実験・官能評価などで実用。 調査データ 適切に設計された調査用紙より収集されるデータ。目的に対し収集するため 比較的良質である。世論調査、市場調査、顧客満足度調査など最も一般的 なデータ。 履歴データ 自然発生的に蓄積されるデータで、量は通常膨大となる。収集コストは、低い が特定の目的のために収集されていないため、他のデータより質は劣る。売 上げデー夕、顧客デー夕、製造データなど。 ‑ 4 7 0一
科学的経営判断のための基盤「データマイニング」 また、社内のコンビュータシステムの中で、データマイニングはどのような位置づけでどのよう な役劃を果たすのであろうか。ここで簡単に社内におけるコンビュータシステムを振り返ってみよ う。大きく分けて「データを処理・収集するしくみ」で、ある基幹系システムと情報の抽出を司る情報 系システムの 2つのしくみがある。そして、その情報抽出プロセスが基幹系のデータ処理収集に 対する影響を、最小限度に押さえるには、この 2つのしくみを物理的に分離・独立させる必要があ る。この情報抽出のために用意されるデータの管理・編成・利用までの仕組み、それが情報武装 した経営判断のためのデータ倉庫、「データウエアハウス」で、ある。データウェアハウスがあれば、 この時点で、データマイニングツールによって「発掘」する準備が既に整っていることになる。デー タウェアハウスがない場合でも、データマイニングは可能であるが、その際には、後述するデータ 加工・準備に大変な時間と労力が費やされることになるだろう。 データマイニングは、一般にデータウェア J、ウスにおける利用のーっと考えられるが、それだけ にとどまらず、データウェアハウスに格納すべき重要な目的別データ編成に、曙されたビジネスル ールを発見、フィードJ心yクする役割もあるのである。つまり情報系システムにおけるデータベー スそのものの設計や、上述の多次元データ分析への重要な示唆を与える役割があるのだ。デー タマイニングはデータウェアハウス、つまり戦略的な経営判断を行うための基盤と言えるものであ る(図 5 )。 情報系システム 、 、 . 図 5 社内コンビュータシステムにおけるデータマイニングの位置づ、け 一基幹系システムとデータウェア J、ウスとデータマイニングの関連 4 7 1ー
3 .データマイニングの実際 それではここで、これまで紹介してきたデータマイニングが、実際どのような問題に対して、どの ような流れで、どのような結果を企業にもたらすのかを具体的例として示そう。 流通業における顧客セグメンテーション 本のカタログ販売会社 A 社は、国際的にビジネスを展開し、世界でも有数の品揃えを誇ってい る。しかしながら、競争の激化による売上げの減少、郵送費用の増加、マージンのカットなどの問 題に直面した。そんな時、カタログ部門の一人が、それまで垂流し的に送付していた一般カタログ を止め、 A社にとって最も利益をもたらすと思われる顧客セグメントに対し、各個別のカタログを送 付することを考えた。 そこでまず、 A社の顧客の分類をすることから始めることとした。つまり顧客といってもそれぞ、れ タイプが異なるので、そのタイプごとに顧客を分類することから始めたわけである。これまでの顧 客のスコアや顧客アンケートから得られたデータを活用し、顧客タイプの違いを明らかにするため クラスタ一分析によるグループ化を行なった。そして得られた各グループの番号を目的変数として、 CHAID によるディシジョン・ツリー(決定木)を作成した。このディシジョン・ツリーにより、顧客グ ループの違いを決定する重要な要因を示すことができる。この A社のケースでは、年齢とフィクシ ヨン・ノンフィクションに対する好みが、顧客グループを特定するための重要な要因として発見され た。更に、ライフスタイルなどの追加調査より個人的関心を表すデータを、もとのデータへ追加し、 詳細に各グループの意味づけと解釈を行なった。これらのグループ情報に基づき、顧客は各グ ループへと分類される。 これらのデータマイニングの結果は、マーケティング部副社長へ送られ、 A 社として既存のカタ ログ政策を廃止し、フィクション・ノンフィクションといった重要な製品カテゴリ別のカタログを、より 木目細かく顧客へ送付するという意思決定をした。そして A社は、無駄なカタログ送付を削減する ことにより郵送費を 20%削減することに成功した。またカタログに対する既存顧客の反応や新規 顧客からの受注が増加し、前年度比の売り上げの 110%上昇に成功したのだった。 ここにあげた例は、データマイニングのほんの一部に過ぎない。これ以外にも、データマイニン )。ユニークな問題意識が、 グは、既に幅広く応用されており、日本における普及が待たれる(表 4 データマイニングの新たな応用分野を開拓し、市場における競争優位の獲得につながる。実は、 データマイニングの応用分野に関するヒントは、身近なところに転がっているので、ある。 472‑
表4 データマイニングの応用分野 ダイレクトメールに対する反応率の向上 陳列のための購買商品組み合わせパターン検出 購買パターン・支払・反応率などに影響を与える要因の発見 優良顧客とその理由の特定 ブランドスイッチ、キャンセルなど顧客減少理由の特定とその防止 クレジットカードの不正使用・保険不正請求など不正の予測・防止 新商品・新サービスの開発 品質管理・品質保証における要因・対策管理 CPU利用状況の予測などによる効率的情報システム管理の計画策定 おわりに 本稿では、データマイニングの概要とその中心となる技術の紹介をしてきた。また具体例の中で 示したよう!こ、各データマイニング技術をプロセスの中で生かしていくことが大切であることも述べ た。データマイニングは、ツールを購入し、今あるデータをただツールに流し込めば結果が出てく るというものではない。データマイニングを「ブラックボックス化」してとらえてはならない。このこと をいさめて、 garbagei ngarbageo u t (ごみを入れれば、ごみが出てくる)という。また、別の表現 で datadredging (データさらい)というものがある。データをたださらっていれば何か出てくるも のではないのである。もっとも重要なことは、実践をする際に適切な方法論に従ってデータマイニ ングを進めていくことができるかどうかであろう。つまりツールも大切であるが、データマイニング の総合的なノウハウと業務知識の融合が求められるのである。 データに基づく、戦略情報経営が求められる時代となった。また、それを可能とするコンピュー タ環境は整った。今こそ、データマイニングをビジネスに活かし、国際競争力をつけていかなけれ ばならない。本稿がきっかけとなり、データマイニングがさらに普及し、現在の企業内データの再 点検、再活用の一助となることを期待する。また、実験計画や調査用紙設計などのデータ収集能 力の向上、データの観察力・思考力の強化、モデル表現による各人の知識、経験の共有化・菩積 化が注目され現実のものとなることを切に望む。データから情報へ、そして欲しい情報を獲得する ためのデータ収集へと、多くの関心が寄せられることを期待する。 473‑
参考文献 SASI n s t i t u t eJapan(1997), TheDataWarehouse'"市 i t ePaper SASI n s t i t u t eJapan(1997),AFormulaf o rOLAPS u c c e s s'"市 i t ePaper n t e l l i g e n c eSystemsandDataMining'"市 i t e SASI n s t i t u t eJapan(1997),BusinessI Paper 奥山 ( 1 9 9 7 ), 膨大なデータに経営戦略を語らせる「データマイニング」の実像"日経情報ストラテ ジー 8月号 p327・334,日経 BP社 J.W.Tukey(1997), E x p l o r a t o r yDataA n a l y s i s,AddisonW e s l e y . ‑474
S U G I ‑ J ' 9 7論文集 • そのイ也
日本 S A Sユーザー会 (SUG I‑J) 電子メールサービスの有効利用 高木雅弘 株式会社 SASインスティチュ トジャパン カスタマーサポート部テクニカルサポートグル プ TheUseo fE l e c t r o n i cM a i lS u p p o r t MasahiroTakagi CustomerSupportD i v i s i o nT e c h n i c a lSupportGroup SASI n s t i t u t eJapanL t d . 要旨 弊社テクニカルサポートでは、顧客の SASシステムに関する問題に対してサポートを行っているこ 質問の受付けには、ファク、ンミリおよび電子メールなどが利用できる。その中で、ファクシミリによる質問 の受付けが一般的だが、問題を早く解決するために、電子メールサービスを利用したほうがより効率 的である。電子メールサービ、スの実態および利用方法を紹介する! キーワード:電子メールサービス、ヘルフ。ファイル、受付けフォーマット 1.はじめに テクニカルサポートで、は、顧客からの技術的な問い合わせを、ファクシミリおよび電子メールなどで、 受付け、問題や質問に対して調査・回答を行っている" 1 ヶ月あたり 400 数十件 ~450 件の問い合わ せを処理している。また必要に応じて I n t e r n a t i o n a lTr ackingSystemを通じて、米国のテクニカ ルサポートと対応を検討して問題の解決を行っている c その中で、ファクシミリによる質問の受付・回答 の割合が大半を占めているが、例えば大量のエラー情報をファクシミリで、質問する場合、まず用紙に エラーの内容を印刷しなければならない。しかし電子メールサービスでは、印刷の手聞が省けるので ファクシミリより効率的に質問することができる。 本文では、電子メールサービスの実態および利用方法を紹介するので、この機会にご利用を 考えていただければ幸いである。 ‑477
2 . 電子メールサービスの位置付けおよび利点 1995年 12月 1日よりテクニカルサポートでは、従来のファクシミリによる質問の受付けに加え、電 子メールによる受付けを開始した。これはテクニカルサポートサービスの充実をはかるため、顧客を対 象に電子メールサービスに関する質問および、調査を行い、その結果を電子メールサービスに反映さ せている。 2 . 1 年度別電子メールサービス利用率 図 1~ 図 3 は年度別の電子メーノレサービス利用率を表わしている。電子メーノレサービスを開始した 初年度の利用状況は全体の 1~2% 程度で、顧客はほとんど利用していないことが図 1 により示されて いる。 SAST e c h n i c a lNewsおよび、弊社ホームページ等で、サービス開始の案内を行ったが、やはり 当初の認知度は低い状況で、あった。その後、電子メールによる受付けが徐々に増加しているのが分 こファクシミリなどの受付の割合が減少しているG これより一度利用した顧客がファクシミリ かる。代わり l から電子メールサービスの利用に切り替えたことが推測できる。 95年度 96年度 / ファクシミリ ファクシミリ 7 g .0 8 % 8 3 . 8 3 % 図 2 1996年度 図 1 1995年度 97年度 (7月 25日現在) 嬬 ファクシミリ 7 6 . 6 1 % 図 3 1997年度 ‑478一
T o :s u n D o r t C 砲m l l . s a s . c o m From:< y o u r ‑ e m a i l ‑ a d d r e s s > S u b j e c t :HELP ‑入力例 ( 1 9 9 7年 3月現在のフォーマット) ※ 題 名 は 必 ず iHELPJのみを記述 3 . 2 利用範囲 電子メールサービスにおいても質問者は SASコンサルタントおよび SASコンサルタント代行者 に限る。これは、発生した問題や顧客の質問を SASコンサルタントが情報を蓄積して有効に、活用す るためである。 3 . 3 記述上の注意点 電子メールサービスを利用するためには、以下の点について注意する必要がある r 質問が複数ある場合には、それぞれ別々のメールに分ける。 テキスト中に半角カタカナはいれない。 すべてのテキストを返信に付加することはしないので、質問メールは必ず保存する 再質問、添付資料の補足等を送る場合は、受付コードをフォーマットに従って明記する G バイナリファイルは添付しないリ n 3 .4 メール自動受付処理概要 質問の受付から返信にいたる処理の流れについて述べる。 ①顧客よりメール受信 ②新規エントリ作成・既存エントリへのテキスト(追加質問、関連資料)追加 受信した新規の質問については新規エントリが作成され、自動受付により受付コード、が割当 てられる。既存エントリへのテキスト追加の場合は、メーノレの題名に参照番号を記述すること で追加処理が行われる。 ③受付確認、メールの返信 参照番号を含む「受付確認、メーノレ」が返信される。 例) [RECEIPT]T1234567 ‑480一
2 .2 電子メールサービスの利点 電子メールサービスを利用することによる顧客とテクニカルサポートスタッフ、双方にとっての利点は 以下のようなことが考えられる。 ロペーパーレス ファクシミリで、は用紙に質問を記入したり、エラー情報や回答などを印刷する必要がある しかし 電子メールで、は、ディスク上に保存できるため用紙の使用を抑えることができる。 U ロデータやエラーログなどの貼付けが容易 顧客側では実際に出力されたエラーやワーニングなどをカット&ペーストで、簡単に貼付けること ができるので、用紙に記入する手聞が省ける。また、テクニカルサポートスタッフ側で、は、確実な 情報により問題の調査が敏速に行なえる。 口送受信の効率化の実現 デスクワーク上で質問や回答の送受信の確認をリアルタイムに行える。 以上のことから、双方の作業効率化の向上に伴い、問題の発生から解決するまでに要する時間が ファクシミリを利用するより短縮することが可能である。次の章では、電子メールサービスの利用方法に ついて述べる。 3 .利用方法 電子メールサービスは自動受付を採用しているので、処理に必要な項目を記述するための簡単な フォーマットを設定している。フォーマットの詳細は後で、述べるが、まず電子メールサービスを利用す るためにヘルプファイルを入手する G 3 . 1 電子メールサービス利用の手引き(ヘルプファイル)の入手 初めて利用される場合や長期間利用されなかった場合には、最新版のヘルプファイルを入手して フォーマットの確認をする必要がある。また、フォーマットに合わなし、メールを受信した場合にも正しく 受付けができないので、フォーマットの確認をするために最新版のフォーマットを入手しなければなら ない。 ①メールヘッダー部 s u p p o r t @ j p n . s a s . c o m J 宛に、題名 ( S u b j e c t )が IHELPJのみのメール 電子メールアドレス I を送信するとヘルプファイルが返信される O ‑479‑
④テクニカルサポートスタップによる調査 調査結果の「回答メーノレ」が顧客宛に送信されるコ 例) [必~SWER]T1234567 3 . 5 フォーマット入力例 3.5. 1 新規エントリの作成 新規エントリを作成する場合は、メールヘッダー部およびテキストヘッダ一部にフォーマットを記 述しなければならない。 1997年 3月現在のフォーマット) ‑入力例 ( S I T E :1 2 3 4 5 6 7 8 9 0 製作所 C O M P A N Y :A B C N 馴E : 地C 太郎 T E L :X X一治(間一治( X X O S 陥M E :W I N N T P R O D U C T :S A S R E L E A S E :6 . 1 2 くく必ず空白行 1行あけて下さい>> データテーブルをアプリケーションで使用しています。各セルの幅を調整しようと調べて みましたが、うまくいきまぜん。各セルのこのような属性の変更方法を教えてください。 宜しくお願いします。 ①メールヘッダー部 s u p p o r t @ j p n . s a s . c o m J 宛に、質問の概要を電子メールの題名とし 電子メールアドレス i て記述する。 100プロシジャについて」や「印刷法」のような簡単なものでも受付できる。題 名を IHELPJまたは ITESTJと記述すると新規エントリを作成することができないので注意す ることc τb:sunnor 寸; ( a l i n n . s a s . c o m From:<your‑email‑address> S u b j e c t :<任意の題名〉 ②テキストヘッダ一部 新規エントリの作成要領は簡単にで、きる。下記フォーマットにしたがって必要な項目データ を記述し、空白行 l行あけてから質問の詳細を記述する。なお、各タグおよびセミコロンは必 ず半角で記述する" ‑ 4 8 1一
8ITE: <セットイニットサイト番号〉 COMPANY: <質問者の会社名または学校名〉 NAME: <質問者氏名〉 TEL: <電話番号〉 08NAME: <OS名〉 PRODUCT: <プロダクト名〉 RELEA8E: <プロダクトリリース番号〉 <<必ず空白行 1行あける>> 以降質問 ③ フォーマットの詳細 8ITE:<セットイニットサイト番号>(必須) セットイニットサイト番号は 8A8システム起動時の LOGウインドウ、または LOGファイル 3行 L i c e n s e dt o . . . Jの最後に出力される 1 0桁の番号。この番号を右詰めにし、残りをゼロ ( 0 ) 目 i で埋めて記述する。 この項目データが含まれていなし、メールは受付けることはできない。 NOTE: Copyright ( c ) 1989‑1996 bySAS Institute I n c .,Cary,NC,U S A . NOTE: SAS ( r ) Proprietary Software Release 6.12 TS020 08CS2716 YlCorporation.,SiteX X X X X X X X X X . Licensed t oX COMPANY:<質問者の会社名または学校名>(必須) 質問者の会社名または学校名を記述する。 この項目データが含まれていなし、メールは受付けることはできない。 NAME:<質問者氏名>(必須) 質問者の氏名を記述してする。 この項目データが含まれていなし、メールは受付けることはできない。 TEL:<電話番号>(必須) 質問者に直接連絡が可能な電話番号を記述する。 この項目データが含まれていなし、メールは受付けることはできない。 08NAME:<08名>(必須) オペレーティング、システム名を記述する。不明な場合には、 8A8を起動してコマンド、行、または コマンドウインドウから 8ETINITコマンドを実行して表示される 8ETINIT‑8ITEVALウイン ドウの 08名:に続く値を記述する。 ‑ 4 8 2一
PRODUCT:くプロタ守クト名>(必須) 質問のプロダクト名を記述する。 SASシステムの場合は I SASJ、ジャンブの場合は IJMPJ、 SAS/Cの場合は I C J と記述してする。 RELEASE:くプロダクトリリース番号〉 プロタヲトのリリース番号を記述する SASシステムの場合、起動時の LOGウインドウ、また LOGファイル 2行目途中に出力されるじ c 3 .5 . 2 既存エントリにテキスト追加 既存エントリにテキストを追加する場合には、メールヘッダー部にはフォーマットを記述しなければ ならないが、テキストヘッダー部のフォーマットはなし、のでそのまま質問などを記述するわ ①メールヘッダー部 s u p p o r t @ j p n . s a s . c o m J 宛に、題名 ( S u b j e c t )が「参照番号 J を記述する 電子メールアドレス I ことで追加処理が行われる。 τ b :s U D n o r t C r i ! i n n . s a s . c o m From:< y o u r ‑ e m a i l ‑ a d d r e s s > S u b j e c t :く参照番号〉 ‑ 入 力 例 (1997年 3月現在のフォーマット) サンプルプログラムを参考に、 1万オブザベーションのデータセットを処理しましたが 5 0 0 0オフザペーションしか E X C E Lファイルに書き出せません。 どんなオプションを指定すればできるのでしょうか。 宜しくお庫、弘、します。 ※題名は必ず「参照番号」のみを記述 ‑483‑
一
予8
干
、
。q
三」♀足立、 q
尋基 F
字
‑
:
'
!
霊童当F字、 4予告年'Z:'~~~長吉孟ニiユ才sf:百耳、ご ω、、J どユ ~*'i ~iド*-'1([広三;;壬、マ壬'L~SVS 司 ~b~
。を〈手ふけ幸エJ'l本.{..f},,/-ミム q催輪、ご3喜一、与鶴、 qζ{~~ 弓コヰ咋 i宇宙 fl主ふ手々、ふ ω 'Z:'~ふ~~弓士
'Z:'--f-翠i~ 予弓コふ何
i 'Z:'~、0-世耕三手盟国〉才法臨」、;仁J'l本利二平~../- ¥
'l)_.寸断!主主手ど,,::j~*勺/ー〆士事
コ
1(
iq~ 予
.
手~'2~.::手セ ω 「斗S宜.L J ふ、ヌF 工J ~歩~
※
(オバム~..jどどこ ω 玉t醤百 ε 古 L661) 凶年 Y ・
Q U J U J山
術即日
n ほ仁
A
山口凶一
Y
中﹀間
3Z
T
山
宜n 済
S4R
TL一日
B m司
B5
内HU
T仏
PL同
PL 一一山
︿
QU
Q
σ
''Z:'~ふ点弓士 G司t弘三手オピ壬三}吾宗弓s'c半三j 宰~;予
勺
/
ー
:
どωセω「
ふS宜.LJ
~~(pa~qns) 9c菌、士 1
9
i i U1 0:J・ sBs'ud~@+Ioddns J'Lペパ .L‑'1(ー〆士事
\]塁 ~l;k '-J"-'1(ー〆①
、
'
Z
:
'
‑
+
匝1
[
主
計
:
;
('t;.キa ::fi廷.{..)~}本草 ωぺ/ー〆士事 "<L~ふ~~弓士宮--f-泊'さ安易
i
ぺ/ー〆士事二平寸三}宗匂目点主主題 G 才コJ'l本士宮 -f-~ 三J~(弓写字i犀 ~l; ぷvぺ/ー〆)*ヨミ ω 長マ<;-半島
~f;長引~(士事)_. G-~~平寸コ 1 オ kム~..jどどこ Cρ '2~土Lふ Cρ<;-~忌よ)....~~弓士ç:,1V手オ'L壬呈J~ 宗 ω ぺ(~(士事
-r~ 壬呈}吾事 ω ぺ (-'1 士事
ε・9 ・ε
.日本SASユーザー会世話人会 東京大学 大橋靖雄 副代表世話人 藤沢薬品工業株式会社 松岡 世話人 東京三菱銀行 青沼君明 東京大学 市川伸一 国際大学 大槻聴幸 株式会社目立製作所 小野寺徹 代表世話人 j 手 株式会社ニッセイコンピュータ 坂原将生 クインタイルズアジアインク 西次男 キリンビール株式会社 本川裕 株式会社竹中工務庖 八木章 .日本SASユーザー会事務局 株式会社 SASインスティチュートジ、ヤパン内 東京都中央区勝どき 1 ‑ 1 3 ‑ 1イヌイピルカチドキ 8 F a x . 0 3 ‑ 3 5 3 3 ‑ 6 9 2 7 T e . l 0 3 ‑ 3 5 3 3 ‑ 6 9 2 1F jil‑‑ 第 16回日本 SASユーザー会総会および研究発表会論文集 ︑ 1 9 9 7年 9月 I I日 初 版 第 l刷発行 発行 日本 SASユーザー会 株式会社 SASインステイチュートジャパン