序
統 計 モ デ ル(statistical model)は,見
か け の 変 動 を示 す デ ー タ の 中 に 埋
没 し て い る 本 当 の 姿 を 把 握 す る 重 要 な ツ ー ル で あ る と 考 ...
106 downloads
710 Views
8MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
序
統 計 モ デ ル(statistical model)は,見
か け の 変 動 を示 す デ ー タ の 中 に 埋
没 し て い る 本 当 の 姿 を 把 握 す る 重 要 な ツ ー ル で あ る と 考 え る こ とが で き る. こ こ20年
間 の 間 に,実
際 の 問 題 解 決 をめ ざ した さ ま ざ ま な新 し い 統 計 モ デ
ル が コ ン ピ ュ ー タ の 進 歩 ・普 及 と と も に 急 速 に 進 歩 し て きた. 伝 統 的 な 最 尤 法 は 依 然 と し て そ の 応 用 範 囲 は 広 いが,個
体差 な ど考慮 した
変 量 モ デ ル が 普 及 す る に つ れ て 登 場 す る 制 限 付 き最 尤 法,理 難 な 状 況 で も推 測 の バ ラ ツ キ を 評 価 で き るbootstrap,モ す る ク ロ ス ・バ リデ ー シ ョン ・情 報 量 規 準,正 分 布 に 拡 張 し た 一 般 化 線 形 モ デ ル,パ
論 的 な展 開 が 困
デ ル の良 さを評価
規 線 形 モ デ ル を よ り広 い 確 率
ラ メ トリ ックな関数 を指 定す るこ とな
く,デ ー タ に 語 らせ る ノ ンパ ラ メ ト リ ック 回 帰 モ デ ル,Gibbs samplingに づ くMarkov chain Monte Carlo法 を 利 用 したBayesianモ
基
デ ル,個 体 毎 に あ
る イベ ン トの 発 生 と そ の 共 変 量 を経 時 的 に 観 測 した 回 帰 モ デ ル(longitudinal data analysis)に お い て 個 体 内 相 関 構 造 を特 定 す る 必 要 の な い 一 般 化 推 定 方 程 式 法,な
ど コ ン ピ ュ ー タ を駆 使 し た 新 し い 方 法 が 続 々 と生 まれ て きて い る.
本 書 の 主 要 な 目 的 は,「 統 計 モ デ ル の 面 白 さ 」,「統 計 モ デ ル の 基 礎 」,「代 表 的 な 方 法 の 原 理 」 を 具 体 的 事 例 を 通 し て 解 説 す る こ と に あ る が,そ 同 時 に,読
者 が 「計 算 」 で き る こ と を 目指 し て い る.プ
ヒ ッ トを 打 つ こ とが 自信 に つ な が る の と 同 じ よ う に,自 こ とが わ か る と 自信 と興 味 に つ な が る か らで あ る.ま
れと
ロ 野 球 選 手 で も まず 分 で 「計 算 で き る 」
た,本
書 で は,い
くつ
か の トピ ッ ク ス を 交 え な が ら,上 記 の 新 し い モ デ ル を 紹 介 し,な ぜ こ の よ う な 「モ デ ル 」 が 必 要 な の か,ど
の よ う な ア イデ ア の 下 に 誕 生 し て き た の か な
ど に つ い て も 入 門 的 な 解 説 を行 う.た だ,longitudinal data analysisの 統 計 モ デ ル の 詳 細 に 関 して は,そ
の 内容 の 豊 富 さ,他 の 章 と の バ ラ ン ス ,か ら 残
念 な が ら 本 書 で は 割 愛 し た. ま た,具
体 的 事 例 の 統 計 解 析 に はS‐Plusを
者 はS‐Plusの
広 報 担 当 で は な い け れ ど も,新
利 用 させ て 頂 い た.な
試 行 錯 誤 の 道 具 と し て,ま
た,学
の ソ フ トと して もS‐Plusは
に も筆
会 発 表,論
し い 方 法 論 を創 造 す る た め の 文発 表用 の 図表 を作成 す るた め
ま こ と に 便 利 で あ る か らで あ る.欧
米 に お い て,
S‐Plusを 利 用 し た 研 究 論 文 ・テ キ ス トが 増 加 し て い る こ とは そ の 便 利 さ を雄 弁 に 物 語 っ て い る. 本 書 は ま た,こ
こ 数 年 の 慶 應 義 塾 大 学 理 工 学 部 で の 講 義 テ キ ス ト をベ ー ス
に 再 構 成 し た もの で あ り,大 学 の 学 部 ・大 学 院 に お け る統 計 モ デ ル,応 計 学 に 関 す る授 業 で の テ キ ス トと し て 利 用 で き る よ う,例 題,練
用統
習 問題 を適
宜 配 備 し,そ れ な りの 工 夫 を 凝 ら し た つ も りで あ る. 本 書 に よ っ て 「統 計 モ デ ル 」 の 面 白 さ を実 感 し,統 計 学 に 興 味 を 覚 え る 読 者 が 少 しで も増 え れ ば 幸 い で あ る. 2000年
1月
丹 後俊郎
S‐Plusに
日本 で は,デ る.S‐Plusに
つ いて
ー タ の 統 計 解 析 の た め の ソ フ ト と し てSAS,SPSSな
そ の 特 徴 は な ん と い っ て も,統
計 手 法 ・統 計 モ デ ル を 芸 術 的 な 感 覚 でvisualに
作 で き る 便 利 な ツ ー ル とい え る こ と に あ る.問
(株)数
どが 有 名で あ
も他 の ソ フ トに 優 る と も劣 ら な い 統 計 解 析 機 能 が 備 わ っ て い る が,
理 シ ス テ ム,S‐PLUSグ
い 合 わ せ は 下 記 へ.
ル ー プ,Tel:(03)3358‐6681
創
目 次
1. トピ ッ ク ス Ⅰ:新 記 録 の 誕 生 と競 技 水 準 の 向 上
1
1.1 考 え 方
1
1.2 新 記 録 の 数 の 確 率 分 布
2
練 習問題
3
2. トピ ッ ク ス Ⅱ :病 原 性 大 腸 菌O‐157に 2.1 は
じ
め
に
よる集 団食 中毒
6 6
2.2 デ ー タ を み る 目
7
2.3 統
8
計
モ
デ
ル
2.4 尤 度 関 数 と最 尤 推 定 値
8
2.5 対 数 正 規 分 布
9
2.6 最 尤 推 定 値 は 最 小 値?
12
2.7 適
13
用
例
2.8 なぜ 対 数 正 規 分 布
16
練 習 問題
16
3. Bootstrap― 3.1 は
じ
め
中 央 値 の 標 準 誤 差 を 求 め る?
18
に
19
3.2 古 典 的 な 統 計 学 的 推 測
19
3.3 Bootstrapに
よ る推 測
20
3.4 Bootstrap信
頼 区 間
26
3.4.1
パ ーセ ン タ イル法
27
3.4.2
BC
法
3.4.3
BCa
法
27
28
練 習問 題
32
4. モ デ ル を 比 較 す る 4.1
は
じ
め
35
に
36
4.2 MallowsのCp規
準
36
4.3 AkaikeのAIC規
準
40
4.4 自 由度 調 整 重 相 関 係 数
44
4.5 よ く見 か け る 変 数 選 択 法
46
4.6 AllenのCV規
49
4.7
準
モ デ ル 選 択 の 例No.1
4.8 HjorthのCMV規 4.9
51
準
モ デ ル 選 択 の 例No.2
54
56
練 習 問題
58
5. 測 定 誤差 の あ る線形 モデ ル― 5.1 誤
差
測 定 法の 比 較
61 62
5.2 正 確 度 の 評 価 の 基 本
63
5.3
63
測 定 法 の 比 較
5.3.1 線 形 回 帰 式 と線 形 関 係 式
65
5.3.2
68
Bootstrapに
よ る 推 測
5.3.3 繰 り返 し測 定 の あ る場 合
練 習 問題
72
6. 一 般 化 線 形 モ デ ル(GLIM) 6.1
は
じ
70
め
に
75 75
6.2 GLIMの
三つ の特徴
77
6.3 最
推
79
尤
定
6.4 モ デ ル の 適 合 度 の 評 価
81
6.5
Analysis
6.6
Over‐dispersion
84
6.7 回 帰 係 数 の 解 釈
86
6.8 適
of deviance
用
例
83
88
練 習 問題
91
7. ノ ン パ ラ メ ト リ ッ ク 回 帰 モ デ ル
92
7.1 基 本 的 ア イ デ ア
93
7.2 局 所 重 み 付 き 平 均 ―kernel
smoother
94
7.3 局 所 重 み 付 き線 形 回 帰 ―loess 7.4
ス プ ラ イ ン 関 数 の 利 用 ―smoothing
7.5 Smootherの
バ ラ ツ キ とsmoothingパ
96 splines ラ メ ー タ
98 102
7.6 一 般 化 加 法 モ デ ル ―GAM
106
練 習問 題
111
8. イベ ン ト発 生 ま で の 時 間 の 長 さに 関 す る モ デ ル
114
8.1 生 存 時 間 の 確 率 分 布
116
8.2 生 存 関 数 の 推 定
118
8.2.1
パ ラ メ ト リ ッ ク法
119
8.2.2
ノ ン パ ラ メ ト リ ッ ク 法
121
8.3
比 例 ハ ザ ー ド 回 帰 モ デ ル
126
8.3.1
パ ラ メ ト リ ッ クモ デ ル
128
8.3.2
Coxの
130
8.3.3
log‐rank検
9. Bayes推
モデ ル ―
測
定
伝 統 的統計 学
140 141
9.3 無 情 報 事 前 分 布 後
133
140
Bayesian
9.4 事
9.1 Frequentist― 9.2
セ ミパ ラ メ ト リ ッ ク モ デ ル
分
布
142
144
9.5 階層 的 条 件 付 き独 立 モ デ ル
145
9.6 応
149
用
例
練 習 問題
10.
153
Markov
chain
Monte
Carlo法
155
10.1
期 待 値 の 計 算
155
10.2
Markov連
156
10.3
Metropolis‐Hastingsア
10.4
2 種 類 のsampler
10.5
収
10.6
Single‐component
10.7
Gibbs
鎖
束
診
ル ゴ リ ズ ム
159 161
断
165
MH法
166
sampling
169
11. トピ ッ ク ス Ⅲ:多
施 設 共 同臨床 試験 に おけ る施設 間 差
181
11.1
治 療 効果 の モデ ル
182
11.2
Balanced
190
dataで
の 推 測
11.2.1
分 散 分 析(ANOVA)法
11.2.2
最
11.2.3
制 限 付 き 最 尤(REML)法
尤(ML)法
11.3
Unbalanced
11.4
解
192
dataで
析
例
192
194
の 推 測 の 留 意 点
196
197
練 習 問題
200
12. トピ ッ ク ス Ⅳ:疾 12.1
は
じ
12.2
問 題
め の 所
病 地 図 と疾 病 集 積 性 に
在
202 202
203
12.3 年 齢 調 整 で も不 十 分
205
12.4
207
Bayesian
approach
12.4.1
Empirical
12.4.2
Bayesian
Bayes hierarchical
209 model
212
12.5 疾 病 の 集 積 性
213
練習 問題
220
付 録 A:最
尤
推
定
221
A.1 尤 度 に 基 づ くモ デ ル
221
A.2 漸 近 的 に 同 等 な 三 つ の 検 定 統 計 量
223
A.3
信
頼
区
間
225
A.4
デ
ル
タ
法
付 録 B:S‐Plusプ
ログ ラム他
226
227
文
献
238
索
引
241
1 トピ ッ クス Ⅰ: 新 記 録 の 誕 生 と競 技 水 準 の 向上
世 界 大 会,オ
リン ピ ッ クな ど で,多
で 塗 り変 え られ て い るが,こ で あ ろ うか?
くの 競 技 種 目の 記 録 が 年 々 「新 記 録 」
れ は 選 手 ・競 技 の 水 準 が 向 上 し て い る 結 果 な の
水 準 に 向 上 が 全 くな く と も,何
年 か す る と必 ず 更 新 され る,
す な わ ち 「新 記 録 」 が 生 まれ る こ と も確 か の よ う に 思 わ れ る. そ こで,こ
こ で は,最 近 の ス ポ ー ツ の 世 界 で の 新 記 録 の デ ー タか ら,本 当
に 競 技 水 準 が 向 上 し て い る と 言 え る の か ど うか?を
統計 学 的に検 討 して み
よ う!
1.1考
まず,あ
え
方
る 競 技 種 目 に 関 す る 毎 年 の 最 高 記 録 を 考 え る.そ の 記 録 が 初 め て
と ら れ た 年 を 時 点 lと し よ う.も ち ろ ん,最
表1.1
1975年
か ら1985年
初の 年 の最高記 録 は新記 録で あ
まで の 陸 上競 技 に お け る 新 記 録 の 数
る.そ
こ で,次
帰 無 仮 説H0:競
の 帰 無 仮 説 を考 え よ う: 技 の 水 準 に 変 化 が な く,各 年 の 最 高 記 録 が 同 じ 分 布 に 従 う
こ の 帰 無 仮 説 の 下 で は,к 年 目の 最 高 記 録 が 新 記 録 とな る確 率 は1/к とな る. なぜ な ら,1,2,…
,κ年 目の そ れ ぞ れ の 最 高 記 録 は 同 じ確 率 分 布 に 従 うの で
あ るか ら,ど れ が 最 大 に な る か は す べ て,等 確 率 で あ る か らで あ る.こ の 現 象 を記 述 す る た め に,次
Xκ=
の確 率 変数 X
を 導 入 し よ う.
1,κ 年 目 の 記 録 が 新 記 録 で あ る
{
0,κ 年 目 の 記 録 が 新 記 録 で な い こ れ ら は,互
い に 独 立 で, Pr{Xκ=1}=1/κ
Pr{Xκ=0}=(κ-1)/た
(1.1)
(1.2)
で あ り,そ れ ら の 期 待 値 と分 散 は そ れ ぞ れ,
(1.3)
(1.4)
1.2 新 記録 の数 の確 率 分 布
さ て,以
上 の 準 備 よ り,n 年 間 の 新 記 録 の 数Snは Sn=Xl+X2+…+Xn
で あ る か ら,そ
(1.5)
の 期 待 値 と分 散 が
(1.6)
(1.7) と な る. さ て,Snの
確 率 分 布 は 次 の よ うに し て 求 め る こ とが で き る.い p(r,n)=Pr{Sn=r}
と お こ う.{Sn=r}と
ま,
(1.8)
い う事 象 は
{Sn-1=γ-1か
つXn=1}U{Sn-1=rか
つXn=0}
と い う二 つ の 排 反 な 事 象 の 和 と して 表 現 され るか ら p(1,1)=1
(1.9)
(1.10) r=1,...,n;n=2,3,... と い う関 係 が 成 立 す る.た
だ し,
p(0,n)=p(n+1,n)=0, と す る.こ
こ で,r=1と
n=1,2,...
(1.11)
す る と,
(1.12) が 得 られ る . つ ま り,p(1,n)は を 表 す.さ
て,こ
最初 の 年 の記 録が n年 間更新 され ない 確率
れ 以 降 は 次 の 練 習 問 題 を や りな が ら 考 え て み よ う.
練 習 問題 [問題1.1]次
式 を証 明 せ よ.
(1.13)
[問 題1.2]p(r,n)を{p(r-1,j):j=r-1,r,…,n-1}を
利 用 して 求 め
よ.
[問題1.3]あ
る競 技 の 記 録 は こ こ25年
間 更 新 され て い な い.こ
準 に 関 し て は 向 上 が み られ な い と評 価 して よい か?
の 競 技 の水
有 意 水 準5%で
検 定せ
よ.
[問 題1.4]p(r,11),r=1,2,…,11を 側5%の
コ ン ピ ュ ー タ を利 用 し て 計 算
棄 却 限 界 点(critical
し,上
value)s*
離散分布の上側5%の 棄却限界点s* Pr{sn〓s*}
〓0.05
Pr{Sn〓s*-1}>0.05
を 求 め よ.そ
の 際,作
成 し た プ ロ グ ラ ム とoutputも
図1.1
S‐Plusで
作 成 し たp(γ,20)の
添 付 せ よ . な お,プ
分 布
ロ
グ ラ ム チ ェ ッ ク の た め に,図1.1にS‐Plusで [問 題1.5]表1.1の,1975年
か ら1985年
技 の 新 記 録 の 回 数 の 成 績 に 基 づ い て,競
作 成 し たp(r,20)の ま で の11年
分 布 を 示 す.
間 に 生 まれ た 陸 上 競
技 水 準 の 向 上 に 関 す る 解 説 を 行 え.
2 トピ ッ ク スII: 病 原 性 大 腸 菌O‐157に
表2.1は,平
よ る集 団食 中毒
成 8年 5月 岡 山 県 邑 久 町 の 小 学 校 で 発 生 し たO‐157に
団 食 中毒 に お け る発 症 日別 度 数 分 布 で あ る.感
よ る集
染 源 へ の 曝 露 時 点 は い つ と推
定 で き る だ ろ うか? 表2.1
平 成 8 年 5 月 岡 山 県 邑久 町の 小 学 校 で 発 生 し たO‐157:H7に に お け る 発 症 日別 度 数 分 布(市 場,日
2.1
平 成 8年,大
よる集団食中毒
本 医 事 新 報,No.3785,26‐30,1996)
は じ め に
阪 で 勃 発 し た 病 原 性 大 腸 菌O‐157:H7に
よ る 食 中毒 の 集 団 発
生 は 食 中 毒 の 恐 ろ し さ を 再 認 識 させ る と と も に,当 時 の 管 厚 生 大 臣 の 「貝 割 れ 大 根 が 感 染 原 因 で な い こ とが 否 定 で き な い 」 旨 の 発 言 に よ る カ イ ワ レ ・パ
ニ ッ クは 食 中 毒 の 感 染 原 因特 定 の 重 要 性 とそ の 困 難 性 を浮 き彫 りに し た.一 般 に,集
団 食 中 毒 の 感 染 源 の 調 査 は,過 去 に 食 べ た 食 品 の 細 菌 検 査,症
発 現 し た 人 と発 現 し な い 人 で 比 較 す る 喫 食 調 査 な ど が 実 施 さ れ る.し 事 件 が 起 き て か ら後 ろ 向 き に行 う調 査 で あ る だ け に,時 て,曝
状の か し,
間が 経 過 す る に つ れ
露 時 点 と感 染 源 の 特 定 に 必 要 な 決 め 手 と な る 食 品 に 関 す る デ ー タが 入
手 困 難 と な る.さ
ら に,感 度 の 低 い とい わ れ る細 菌 検 査,大
部 分 の 人が 同 じ
食 事 を と る と い う集 団 食 中 毒 の 性 格 か ら 感 染 源 を 同 定 す る こ とは 容 易 で は な い.も
っ と も,感 染 源 が 体 内 に 入 っ て か ら 1日 も た た な い で 症 状 が 現 れ る 食
中 毒 で は 感 染 菌 の 混 入 し た 食 事 を 特 定 す る こ と は 比 較 的 容 易 で あ る. と こ ろ が,病
原 性 大 腸 菌O‐157の
場 合 は 潜 伏 期 間 が 1週 間 以 上 に も な る
厄 介 な 代 物 な の で あ る.1 週 間 前 に 食 べ た 食 事 の 内 容 を 明 確 に 回 答 で き る 読 者 は ど の くら い い る だ ろ うか? り向 け られ が,医
一 般 の 関 心 と調 査 の 目 は 食 品 の ほ う にば か
療 機 関 が 中 心 とな っ て 実 施 す る 初 発 症 状 の 問 診 調 査 に 貴 重
な 情 報 が 隠 され て い る こ とは 意 外 と 知 られ て い な い.そ
れ は 「症 状 が 発 現 し
始 め た 時 期 」 で あ る.
2.2
具 体 例 と して 表2.1の
デ ー タ をみ る 目
デ ー タ を み よ う.こ れ は 平 成 8年 5月 に 岡 山 県 邑 久
町 の 小 学 校 で 発 生 した 学 校 給 食 が 感 染 源 とみ られ るO‐157:H7に 中 毒 事 件 の 発 症 日の 度 数 分 布 で あ る.こ が 死 亡 して い る.こ
よる集 団食
の 食 中 毒 事 件 で は,脳 症 で 児 童 2名
の 表 を ど うみ る か が 鍵 と な るが,こ
の デ ー タに は わ れ わ
れ が 知 り た い 未 知 の 曝 露 時 点 か ら の症 状 発 現 まで の 潜 伏 期 間 の 個 人 差 に 関 す る貴 重 な 情 報 が 入 っ て い る.感 染 して も,健 康 度,免
疫 力 の 違 い か ら,外 部
の 侵 入 者 に す ぐ 負 け て 早 々 に発 症 す る者 も い れ ば,最
初 の うちは抵抗 してそ
の 拡 大 を 阻 止 し て い た が 力 尽 きて 発 症 す る者,逆
に 侵 入 者 が 打 ち負 か され て
発 症 し な い 強 い 者 な ど さ ま ざ まで あ る.こ の 貴 重 な デ ー タ を上 手 に解 析 す れ ば 曝 露 時 点 の 候 補 を か な り絞 り きれ る か も しれ な い.
2.3
統 計 モ デ ル
さて,こ の 観 察 され た 潜 伏 期 間 の 個 人 差 の 分 布 か ら ど の よ う にO‐157に
集
団 曝 露 し た 時 点 を特 定 す る か が 問 題 と な るが,「 潜 伏 期 間 の 個 人 差 」が 1)あ る 確 率 分 布 に 従 う確 率 変 数 で あ り,2)表2.1が
そ の 実 現 値 で あ る発 症 日の 分
布 で あ る,と い う統 計 モ デ ル を 考 え る こ とが で き る . つ ま り,一 斉 に 曝 露 し た 時 点 を γ,あ る個 人 の 発 症 日を X とす れ ばX-γ(〓0)の 義 され る確 率 分 布 を適 用 す る の で あ る.そ
うす れ ば,問
分 布 に正値 で定 題 は適 用 した確 率分
布 が 観 察 され た デ ー タ に 最 も適 合 す る よ うに パ ラ メ ー タ(曝 露 時 点 γ と確 率 分 布 が も っ て い るパ ラ メ ー タ)を 推 定 す る統 計 学 的推 測 に 帰 着 す る. 感 染 症 の 潜 伏 期 間 と し て は 古 くか ら対 数 正 規 分 布(log‐normal distribution) が 利 用 され て い る の で こ こ で もそ れ を適 用 し て み よ う:
(2.1) つ ま り,対 数 を と っ たln(X-γ)が
平 均 μ,分 散 σ2の 正 規 分 布 に 従 う と仮
定 す る の で あ る.
2.4 尤 度 関 数 と最尤 推 定 値 一 般 に 確 率 変 数 X の 確 率 分 布f(x;θ)は θ=(θ1,...,θp)
パ ラ メー タ
(2.2)
を 固 定 した 下 で の xの 関 数 と考 え た もの で あ る.こ の 関係 を逆 に して,x に デ ー タを 入 れ て xを 固 定 し て パ ラ メー タ θの 関 数 と考 え た もの を尤 度(likelihood) , 尤 度 関 数 と よ び 一 般 にL(θ)と
表 す . つ ま り,デ ー タ に 適 合 し て い る も っ と
も ら し さの 度 合 い で あ り,こ の 尤 度 が 最 大 と な る パ ラ メ ー タ の 値 が デ ー タ に 最 も適 合 し て い る と い え る.大
き さ n の 1組 の 独 立 な 標 本x=(x1,...,xn)
が 与 え られ る 同 時 確 率 密 度 関 数 は
と な るか ら,尤
度 関数 は
(2.3) と な る.こ
の 尤 度 関 数 を 最 大 に す る パ ラ メ ー タの 値 θ は 最 尤 推 定 量(maxi‐
mum likelihood estimator)と
よば れ,一
般 に nが 大 き くな る に つ れ て 最 良
の 性 質 を もつ 推 定 値 で あ り実 際 問 題 の 統 計 モ デ ル に よ く登 場 す る(付
録 A
参 照). 最 尤 推 定 量 を 実 際 に 求 め る に は,尤 る た め,対
度 関 数 を直 接 取 り扱 う こ とが 面 倒 で あ
数 を と っ た 対 数 尤 度 関 数 の 最 大 値 を 考 え る.こ
の対 数 尤度 関 数
l(θ)=log L(θ)
(2.4)
が 上 に凸 な滑 らか な 関数 であ るこ とが 多 い こ とか ら次 の連 立偏 微 分方 程式
(2.5) の 解 と して 求 め る の が 通 常 で あ る.こ の 連 立 方 程 式 は 一 般 に は 非 線 形 方 程 式 と な る.非
線 形 方 程 式 を解 くに はNewton‐Raphson法
を利 用 す るのが 一般
的 で あ る が....
2.5
対 数 正 規 分 布
まず,n 例 の 食 中 毒 患 者 の 症 状 の 発 生 時 点{Xi,i=1,...,n}の 計 算 され る 尤 度 関 数 は,一
デ ー タか ら
斉 曝 露 で 症 状 が 独 立 に発 生 す る と い う条 件 の 下 で
とな る.三 つ の パ ラ メ ー タ(γ,μ,σ2)の 最 尤 推 定 量 は,対 数 尤 度 関 数 の 偏 微 分 を計 算 して,連
立方 程式
の 解 と して 求 め るの が 通 常 で あ る と述 べ た が,こ
の非線 形方 程式 には解が 収
束 し な い ケ ー ス が 少 な くな い と い う計 算 上 の 問 題 点 が 知 られ て い る(Cohen, 1988).そ
の た め い ろ い ろ な 工 夫 が さ れ て い る が,こ
こ で は,簡
単 でか つ収
束 問 題 の な い 線 形 探 索 法 を利 用 し て 解 を 計 算 す る方 法 を紹 介 す る,ま ず,γ を所 与 と す る と,(μ,σ2)の 最 尤 推 定 量 は 簡 単 に
(2.6) (2.7) と計 算 で き る.し
たが っ て,最
大 対 数 尤 度 は γ の 関 数 と して
(2.8) と 計 算 で き る.こ lihood)と
よ ぶ.つ
の 最 大 対 数 尤 度 を γ の プ ロ フ ァ イ ル 対 数 尤 度(profile likeま り,こ
め る 最 尤 推 定 量 で あ り,そ {γ1〓
の プ ロ フ ァ イ ル 対 数 尤 度 を 最 大 に す る γ が,求 れ は 適 当 に 用 意 し た γの 数 値 列 γ2〓...〓
γM<min
xi}
に 対 応 し た プ ロ フ ァ イ ル 対 数 尤 度ι**(γj),j=1.....Mを
計 算 して最大 値 を
探 す 一 次 元 数 値 探 索 法 で 簡 単 に 求 め ら れ る. さ て,最
尤 推 定 量 の 次 に,プ
め 方 に つ い て 説 明 し よ う.そ test)を
知 る 必 要 が あ る.そ
ロ フ ァ イ ル 対 数 尤 度 を利 用 し た 信 頼 区 間 の 求
の た め に は,ま の た め に,次
H0:γ=γ0,
度 比 検 定(likelihood ratio
の 仮 説 検 定 を 考 え よ う. H1:γ
帰 無 仮 説 の 下 で の 最 大 尤 度L**(γ0.μ,σ2|H0)と L**(γ,μ,σ2|H1)の
ず,尤
≠ γ0
対 立仮 説の 下で の最大 尤度
比 を 考 え る.
(2.9) こ こ に,「.」 と 「.」は そ れ ぞ れ 帰 無 仮 説,対 す 記 号 で あ る.対
立仮 説 の下で の 最尤推 定 量 を示
立 仮 説 の 下 で は γ は γ0に 縛 られ る こ と な く自 由 に 動 き 回
れ る の で,分
母 の 尤 度 は 分 子 の そ れ よ り小 さ くは な ら な い.し
たが って,こ
の 尤 度 比 は 1以 下 で あ り,尤 度 比 が 1か ら遠 ざ か る に つ れ て 帰 無 仮 説 の 信 憑 性 は 小 さ くな る,こ
の性 質 を 利 用 し た検 定 を 尤 度 比 検 定 と よび 統 計 的 検 定 の
中 で 重 要 な 位 置 を 占 め て い る.漸
近的 に は
-2logλ
な る 性 質 を 利 用 す る.こ
∼
X
2 1
分布 (2.10)
の χ2分 布 の 自 由 度 1は 帰 無 仮 説,対
自 由 に 変 化 で き るパ ラ メー タ の 数 の 差 を 意 味 す る.い
立 仮説 の 下で
まの 場 合,帰
無仮説 で
の 自 由 な パ ラ メ ー タ数 は 2,対 立 仮 説 の 下 で は 3で あ る か らそ の 差 1が 自 由 度 と な る.し
た が っ て, -2ι**(γ
で あ れ ば,帰
2
ο)+2ι**(γ)〓
χ1 (α)
無 仮 説 を棄 却 して 対 立 仮 説 を採 択 す る.こ
(2.11)
こ に,χ21(α)は 自 由
度 1の χ2分 布 の 上 側100α パ ー セ ン タ イル で あ る. と こ ろで,こ
の 検 定 の 裏 返 し を 考 え よ う. -2ι**(γ
2
ο)+2ι**(γ)〓
χ1 (α)
(2.12)
と な る γοの 範 囲 は 帰 無 仮 説 を棄 却 で きな い 範 囲 で あ り,信 頼 区 間 と言 い 換 え る こ とが で き る . つ ま り,γ οを γ と お く と,γ の 両 側(1-α)水
準 の 信頼
区 間が 1 {γ
:ι**(γ)〓
と し て 定 義 で き る の で あ る.こ 信 頼 区 間(profile
な お,対 が,観
ι**(γ)-
/2
2
χ1 (α)}
(2.13)
の 信 頼 区 間 を プ ロ フ ァ イル 対 数 尤 度 に基 づ く
likelihood based confidence interval)と
よ ぶ.
数 正 規 分 布 は 一 般 に 高 値 に 裾 を 長 く引 く非 対 称 な 分 布 形 状 を 示 す
察 され た デ ー タ に よ っ て は,正
す も の も少 な く な い.こ
規 分 布 の よ うに 対 称 性 に近 い 分 布 を示
の よ う な 場 合 に は,式(2.8)の
度 関 数 が γ の 単 調 減 少 関 数 と な り γ →-∞
プ ロ フ ァ イル 対 数 尤
と な る こ とが あ る.し た が って,
こ の 場 合 に は 曝 露 日の 推 定 は で きな い こ と に 注 意 し た い.正 裾 が −∞ へ と伸 び て い る こ と を 考 え れ ば,自
然 で あ る.
規分 布の左 側 の
2.6 最 尤推 定 値 は最 小値?
と こ ろ で,デ
ー タ の 最 小 値 をx(1)と
お くと
(2.14) と な る.な
ぜ な らx(1)に
十 分 近い γに対 して
と な る か ら,
と な る.こ
こで
で あ る 。 と こ ろ が,limx→0H(x)=+∞ で あ る.つ
で あ る か ら 式(2.14)が
ま り最 尤 推 定 値 は デ ー タ の 最 小 値 と な っ て し ま う.し
事 例 で も 示 す よ う に,通
常 の 精 度 で 計 算 す る か ぎ り,式(2.8)の
γ を 過 ぎ る と 尤 度 関 数L**(γ)は と し てlog10H(x)の
減 少 す る.と
づ く に つ れ て,log10(x)
る 点 よ り 減 少 か ら 増 加 に 転 じ,徐 る.し
か し,後
た が っ て,式(2.8)の
こ の 問題 は,式(2.1)の
の
最 大 値 を とる
こ ろ が,図2.1にx=x(1)-γ
挙 動 を10-100〓x〓10-1,n=1(1)50の
た よ う に 驚 くべ き 挙 動 を 示 す の で あ る.小 がx(1)に)近
成 立す るの
さ い n を 除 け ば,x
範 囲 で示 し が 0 に(γ
も 最 初 は 減 少 し て 0 に 近 づ くが,あ
々に増加 し ∞ へ と無 限に増 加 す るので あ
最 大 値 は 極 大 値 と な っ て し ま う.
条 件 「x> γ」 に よ り,最 尤 推 定 量 の 正 則 条 件 の ひ
とつ 「デ ー タの 範 囲が パ ラ メー タに 依 存 し な い こ と 」 を 満 た し て い な い こ と が 原 因 で あ る.し
た が って,式(2.8)を
常識 的範 囲で最 大 にす る推 定量 γは
厳 密 に い え ば 最 尤 推 定 量 と は よべ な い も の の,実 が 示 され,実
際 には十分 有効 で あ るこ と
用 的 な 意 味 で の 最 尤 推 定 量 と よべ る もの で あ る.つ
条 件 を 満 足 し な い 場 合 の 最 尤 推 定 量x(1)が
ま り,正 則
実 用 上 は 正 し くな い こ と を示 す
図2.1
範 囲10-100〓x〓10-1and log10{|Inx|-n
x-1}の
n=1(1)50で プ ロ ッ ト,x
興 味 深 い 例 の 一 つ で あ る(computer
の 関 数log10H(x)=
軸 の ス ケ ー ル はlog10(x)
simulationで
2.7 適
用
確 認 し て み よ).
例
平 成 8年 5月 岡 山 県 邑 久 町 の 小 学 校 で 発 生 し たO‐157に に お け る発 症 日別 度 数 分 布 の デ ー タ(表2.1)に 計 算 の た め,4月30日 午 はx=24で
正 午 を原 点x=0と
あ り,6 月 1 日はx=32で
よる集 団 食 中毒
適 用 し て み よ う. し よ う.例 え ば,5
あ る.実
月24日
正
際 の 計 算 で は,γ の 数 値
列を
と し て 小 数 点 以 下 1桁 の 精 度 で プ ロ フ ァ イル 対 数 尤 度 ι**(γ)をS‐Plusを 利 用 し て 計 算 し た 結 果 を 図2.2に 照).曝
示 し た(S‐Plusプ
ロ グ ラ ム は 付 録B.1参
露 時 点 の 最 尤 推 定 値 は プ ロ フ ァ イル 対 数 尤 度 が 最 大 と な る γ の 値 で,
γ=21.9,最
大 値 は ι**(21,9)=-379.93で
給 食 が 最 も 疑 わ れ る.図2.2に
と な る線 で あ る.式(2.13)よ 頼 限 界 を 与 え る.こ
で あ っ た.つ
1/ 2 χ1 2
の よ う に し て 求 め た95%信 曝 露 時 点 が5月20日
と23日
頼 区 間 は(20.3,22.8) か ら5月23日
が 最 も疑 わ れ る と し て い るが,原
数 正 規 分 布 の 適 合 度 を 視 覚 的 に 検 討 す る た め に,
表2.1の
まで の 学
お,学 校 給 食 の 料 理 の 調 査 か ら も
定 は 難 航 して い る と 報 告 し て い る.
図2.2
れ は
(0.05)=-381.85
校 給 食 の い ず れ か で あ る と推 測 で き る.な
さて,対
の
り,こ の 水 平 線 と ι**(γ)との 曲 線 と の 交 点 が
ま り,確 率95%で
曝 露 日 と して5月22日
な わ ち,5月22日
は x 軸 に 平 行 な 線 が 描 か れ て い る が,こ
y=ι**(γ)-
95%信
あ っ た.す
デ ー タ のプ ロ フ ァ イル 対 数 尤 度 ι**(γ)と 推 定 値
因食 品の特
図2.3 表2.1の
デ ー タに つ い て(a)ヒ
ス トグ ラ ム と対 数正 規 分布 の 推 定 値,(b)対
正規 性の 良 さを チ ェッ クす るた め のlog(x-γ)の
数
正規プ ロッ ト
1)発 症 日の 相 対 度 数 分 布 の 図 上 に 推 定 され た 対 数 正 規 分 布 を重 ね 合 わ せ た 図 を 図2.3(a), 2)推 定 さ れ た 潜 伏 期 間 の 対 数 変 換 値,log(x-γ),の
正 規 プ ロ ッ トを 図
2.3(b), に そ れ ぞ れ 示 し た.図2.3(a)の
視 覚 的 適 合 性 と 図2.3(b)の
点 の並び のほぼ
直 線 性 に よ り対 数 正 規 分 布 へ の 適 合 度 は ま ず ま ず と い う こ と に な る.区
間頻
度 デ ー タ に 基 づ い て い る の で 正 規 プ ロ ッ トの 点 が 階 段 関 数 とな っ て い る こ と に 注 意 し た い.他
の パ ラ メ ー タ は=1.79,σ=0.41と
か ら 潜 伏 期 間 の 中 央 値 はexp(μ)=5.99,95%点 と 推 定 さ れ る.
推 定 さ れ た,こ はexp(μ+1.645σ)=11.73
れ
2.8
これ まで は,対
な ぜ対 数 正 規 分 布
数 正 規 分 布 を 利 用 してO‐157へ
たが,「 病 原 性 大 腸 菌O‐157に,一
食 中毒 の 潜 伏 期 間が 対 数 正 規 分 布 に 従 うか?」 的 根 拠 は 希 薄 で あ る.動
の 曝 露 時 点 を追 い つ め て き
斉 に 曝 露 す る こ とに よ っ て 発 生 す る 集 団 と い う本 質 的 な 仮 定 の 生 物 学
物 実 験 モ デ ル な ど で 確 認 さ れ て い る わ け で は な く,
O‐157と は 異 な る 他 の 感 染 症 の 流 行 事 例 の 潜 伏 期 間 の 分 布 を よ く記 述 で きた とい う経 験 を利 用 した だ け で あ る.し
たが っ て,対
数正規 分布 の仮 定 の下で
は 漸 近 的 に 最 良 の 推 定 値 を 与 え る方 法 も,対 数 正 規 分 布 の 仮 定 が 正 し くな い 場 合 に は,推 の で,対
定 され た 曝 露 日が 非 現 実 的 な も の と な る こ と も十 分 予 想 さ れ る
数 正 規 分 布 の 適 合 度 を 十 分 チ ェッ クす る必 要 が あ る(本 章 で 紹 介 した
方 法 は 明 らか に,robustで れ る ケ ー ス で は,ま ず,収
は な い).も
し 対 数 正 規 分 布 の 妥 当 性 が 強 く疑 わ
集 され た デ ー タの 信 頼 性 を再 検 討 す る必 要が あ る.
練 習 問題 [問 題2.1]表2.2に
示 す 平 成 8年 7月 に 石 川 県 の 中 学 校 で 発 生 し た 学 校 給
食 が 感 染 源 とみ られ る 集 団 食 中 毒 事 件 に 適 用 し て み よ う.こ の 原 因 菌 はO‐ 157:H7で
は な くO‐118:H2で
あ った.使
用 す る デ ー タは 初 発 症 状 の 日別 推 移
の デ ー タで あ る.
表2.2
平 成 8年 7 月 石 川 県 の 中 学 校 で 発 生 したO‐118:H2に る発 症 日別 度 数 分 布(蓮 井 他,日
よる集団食中毒におけ
本 医 事 新,No.3788,27‐29,1996)
[問題2.2]過
去 のO‐157の
件 の デ ー タ か ら,対
食 中 毒 事 件 簿 よ り,曝 露 時 点 が 判 明 し た 事 例 K
数 正 規 分 布 を 仮 定 し て 推 定 され た (η κ,μ
κ,σ
κ),
κ=1,...,K
の デ ー タが 利 用 可 能 で あ る.こ の デ ー タ を利 用 す る と,こ れ か ら起 きるO‐157 の 食 中 毒 の 曝 露 時 点 の 推 定 に ど の よ う な モ デ ル 化 が 可 能 か? [問 題2.3]式(2.1)の
対 数 正 規 分 布 に つ い て, E(X)=γ+exp(μ)ω1/2 Var(X)=exp(2μ)ω(ω-1) α3(X)=(ω+2)(ω-1)1/2
を 示 せ.こ
こ に, ω=exp(σ2)
で あ る.
[問題2.4]最
尤 推 定 量 θ=(γ,μ,σ)tの 漸 近 分 散 ・共 分 散 が 次 式 で 与 え られ
る こ と を 示 せ.
こ こ に,
で あ る.
[問 題2.5]本 表2.2に
章 で は,発 症 時 点 を 連 続 変 数 と し て 扱 っ たが,実
際 に は 表2.1,
もみ ら れ る よ う に 日単 位 の よ うに 区 間 頻 度 デ ー タで あ る こ とが 多 い.
区 間 頻 度 で あ る こ と を 積 極 的 に 利 用 す る と ど の よ う な モ デ ル 化 が 可 能 か? [問題2.6]HIVに
感 染 し てか らAIDSを
分 布 が よ く仮 定 され る.表2.1の 布 にWeibull分
布
を 仮 定 す る と ど うな る か?
発 症 す る まで の 潜 伏 期 間 にWeibull
食 中 毒 の デ ー タ に つ い て も,潜 伏 期 間 の 分
3 Bootstrap―
「中央 値 の 標 準 誤 差?」 うか?
中 央 値 の 標 準 誤 差 を 求 め る?
と 聞 い て,は て?,と
思 う人 は 多 い の で は な い だ ろ
平 均 値 の 標 準 誤差(standard error)は,母
分 散 を σ2と す れ ば 無 作
為 標 本 の 背 後 の 分 布 が 何 で あ れ,
(3.1) で 計 算 で き る の に,中
央 値X0.5の
標 準 誤 差 は?
で は あ ま りな じ み が な い か も しれ な い が,も
一般 の 統計 学 の テキ ス ト
う少 し 数 理 に 詳 し い テ キ ス トを
調 べ て み る と あ る だ ろ う.そ れ は 漸 近 的 に
(3.2) で 与 え ら れ る.し
か し,こ
こ に 〓(X0.5)は
x=X0.5で
の 密 度 関 数.〓(x)の 値
で あ り 確 率 分 布 F が 未 知 の 場 合 に は 求 め ら れ な い の で あ る. 表3.1
あ る疾 患 患 者11人
の 血 清 酵 素GPT値
のデ ータ
3.1は
じ
め
に
1979年 に ア メ リ カ の 数 理 統 計 学 の 雑 誌Annals of Statisticsに,コ
ン ピュ ー
タ時 代 の 到 来 に ふ さ わ し い 新 し い 方 法 論bootstrap methodがEfron(1979) に よ っ て 提 案 さ れ た.こ
の 方 法 は あ るパ ラ メー タ推 定 に お け る推 定 誤 差,バ
イ ア ス を表 現 す る統 計 量 を コ ン ピ ュ ー タ乱 数 を 利 用 す る だ け で 簡 単 に 導 け る 方 法 論 を示 し た も の で あ る.実
に 簡 単 な 方 法 で あ る に もか か わ らず,理
論的
に は 構築 不 可 能 な 困 難 な 問 題 に 対 し て エ レ ガ ン トな 解 答 を 与 え て くれ る た め, そ の研 究 は そ れ 以 来 数 理 統 計 学 者 の 一 大 テ ー マ と な り,さ ま ざ まな 問 題 に 拡 張 され 今 日の 統 計 学 の 発 展 の 中 核 を な す 方 法 論 に ま で 成 長 し て い る(Efron and Tibshirani,1993). こ こ で,議
論 す る 問 題 は,未
知 の 確 率 分 布 F か ら の 無 作 為 標 本 か ら分 布
の あ るパ ラ メ ー タ θを 推 定 量 θで 推 定 す る 場 合 の 1)推 定 誤 差 の 大 き さ 2)バ イ ア スの 大 き さの 推 定,バ
イアス を修正 した推 定量 の導 出
3)信 頼 区 間 の 構 成 に 関 す るnonparametric はpararnetric
bootstrapの
bootstrapと
比 較 し てbootstrap推
い う.こ
問 題 で あ る.分 こ で は,古
布 型 を仮定 した場 合 に
典 的な統計 学 的推測 の形 式 と
測 の 考 え 方 を 説 明 し よ う.回
帰 モ デ ル へ の 適 用 は 5章,
7 章 を 参 照 の こ と.
3.2 古典 的 な統 計 学 的 推測
ま ず,当
た り前 の こ と を 記 述 し よ う,(x1,...,Xn)を
あ る 確 率 分 布F(x)に
従 うサ イ ズ n の 独 立 な 無 作 為 標 本 の 実 現 値 と し よ う.θ θ=θ(X1,...,xn)
を 「標 本 の 関 数 」
(3.3)
と し て 推 定 し た い パ ラ メー タ と す る.期 待 値 は 当 然 EF(θ)=∫
とな る.こ
こでEFは
… ∫ θ(x1,…,xn)〓(x1)…
〓(xn)dx1…dxn(3.4)
分 布 F で 期 待 値 を 計 算 す る とい う意 味 で あ る.こ
の推
定量 の バ イアス は Bias(θ)=EF(θ-θ) で あ る.す い う.ま
(3.5)
べ て の θ に 対 し て.EF(θ-θ)=0の た,そ
と き 推 定 量 θは 不 偏 で あ る と
の分 散 は Var(θ)=EF{(θ-EF(θ))2}
で あ り,標 準 誤 差SE(θ)は 性 質,例
えば,そ
れ て い る,つ
そ の 平 方 根 で あ る.さ て,パ
の 分 布,期
待 値,分
(3.6)
ラ メー タの 推 定 量 の
散 など は未 知の分布 F の 関数で 定義 さ
まり θ=g(F)
し た が っ て,F
(3.7)
が 未 知で あ る以 上 これ らの 統計 量 を古典 的な推 測 で は正 確
に計 算 す る こ とは ま ず 不 可 能 で あ る.多
くの 古 典 的 な 統 計 学 的 推 測 で は,指
数 型 分 布 族 に 含 まれ る 一 つ の 分 布 型 を 仮 定 し,未
知 のパ ラ メー タに依 存 し
な い 統 計 量 を 構 成 す る こ とで こ の 問 題 を 回 避 し て き た と もい え る.例
え ば,
F(x;μ,σ2)が 平 均 μ,分 散 σ2の 正 規 分 布 で あ る と き,
が(μ,σ2)の 値 に か か わ らず 自由 度n-1の い る.ま
た,(n-1)S2/σ2が
t分 布 す る こ とは よ く知 られ て
σ2の 値 に か か わ らず 自 由 度n-1の
χ2分 布
を す る こ と も.こ れ ら の 性 質 を利 用 し て μ,σ2そ れ ぞ れ の 信 頼 区 間 が 構 成 さ れ て きた の で あ る.ま た,標
本 サ イズ nが 大 き くな る に つ れ て 正 規 分 布 へ 収
束 す る と い う,便 利 な 中心 極 限 定 理(central limit theorem)を ざ ま な 推 定 量 の 漸 近 分 布 を 導 い て きた の で あ るが,そ
利 用 して さま
の 適 用 に は 多 くの 限 界
が あ る.
3.3
さ て,(nonparametric)bootstrap法 関数 F 自身は経 験 分布 関数
Bootstrapに
よ る推 測
の 原 点 は 経 験 分 布 関 数 で あ る.分
布
(3.8)
に よ り推 定 で き る こ と は よ く 知 ら れ て い る.つ か ら 観 察 さ れ た 標 本(x1,...,xn)を
ま り,未
基 に し て F(x)を
知 の 分 布 関 数F(x)
経 験 分 布 関 数Fn(x)に
置 き換 え て random ∼
(x1,...,xn)
F(x) (3.9)
とい うフ レー ム を *
(x1 に 置 き 換 え て 推 測 す る,つ
* n
,...,x
)
random ∼
ま り,式(3.9)で
(3.10)で
定 義 さ れ る 「bootstrapの
strap法
の 基 本 的 ア イ デ ア で あ る.こ
い う.し
き る と い う の がboot‐
こで *
*
sampleと
定 義 さ れ る 「現 実 の 世 界 」 が 式
世 界 」 でsimulateで
(x1 ,...,x をbootstrap
Fn(x) (3.10)
)
n
た が っ て,式(3.7)で
与 え られ た パ ラ メ ー タ
の定 義 は θ=g(Fn)
(3.11)
に 置 き 換 え ら れ る,標
本(x1,...,xn)が
つ ま り,bootstrapの
世 界 で の 母 集 団 パ ラ メ ー タ に 相 当 す る.分
う サ イ ズ n のbootstrap
sampleと
得 ら れ て い る 下 で はFn(x),θ
は,標
し た 無 作 為 抽 出(with replacement)を ら れ る 標 本 を 意 味 す る の で,コ 実 現 で き る.つ
本(x1,...,xn)の
は 既 知,
布Fnに
中 か ら重 複 を 許
独 立 に n 回 繰 り返 す こ と に よ っ て 得
ン ピ ュ ー タ 乱 数 を利 用 す れ ば きわ め て 簡 単 に
ま り.θ の 推 定 が θ*=θ(x
と で き る こ と に な る.こ
従
* 1 ,...,x
の 操 作bootstrap
* n.
)
simulationを
Bias*=E*(θ*)-θ
繰 り 返 せ ば,
(3.13)
Var*(θ*) Pr*{θ*-θ
(3.12)
〓t}
な ど の 推 定 量 の 近 似 値 が 簡 単 に 得 られ る.実
は これ らの値 が
Bias=E(θ)-θ Var(θ) Pr{θ-θ
をsimulateし
〓t}
て い る 点 が 重 要 で あ る.こ
こ でbootstrap
simulationの
繰 り
返 し 数 を B とす る と
(3.14) (3.15) で 推 定 で き る.た
と え ば,バ
イ ア スBias*が
大 き け れ ば,バ
イア スが
Bias*=E*(θ*)-θ
で 推 定 で き る か ら,バ
イアス修 正推 定値が θc=θ-Bias*=θ+θ-E*(θ*)
で 定 義 で きる.も
ち ろ んBias*が
り返 し数 B が 必 要 で あ る.興
(3.16)
十 分 に 正 確 に推 定 で き る 程 度 の 大 き さの 繰
味 深 い こ と はBias*が
い ま手 元 に あ る 一 つ の
標 本 だ け か ら 定 義 さ れ た 経 験 分 布 関 数 の 関 数 と して 構 成 で き る 点 で あ る.こ の よ うな 性 質 は 古 典 的 な 統 計 学 的 推 測 で は 考 え も し な か っ た 新 しい 発 見 で は な い だ ろ うか? も ち ろ ん,こ
の よ う な 性 質 を 利 用 で き る の は,あ
る条件 の 下 で次 の 性 質
(概 収 束)
(3.17) を 満 た す 推 定 量 θ で な け れ ば な ら な い.さ
ら に,中
央 値 につ いて は
(3.18) と い う法 則 収 束 が 成 立 す る.式(3.2)と [例 題3.1]表3.1の
ど こ か 似 て い るで あ ろ うか?
デ ー タ に お け る 中 央 値 θに つ い て
1)標 準 誤 差 2)バ イ ア ス 3)バ イ ア ス 修 正 推 定 値
をbootstrap法
で 計 算 し て み よ う,
[解答] まず,実
世 界 で は,通
常 の推 定値 θ=x(6)=129
(3.19)
を 利 用 し よ う.経 験 分 布 関 数 か ら は 中 央 値 の 定 義 か ら θ=x(6)=129
が 導 か れ る.こ
の 場 合 は θ=θ と な った.実
る こ とは 少 な くな い が,異 る.し
か し,bootstrap法
い ま,一
際 に は,同
な っ た(間 違 った)推
(3.20)
じ推 定 量 が 利 用 され
定 量 が 利 用 され る こ と もあ
で は 後 で み る よ う に そ れ は あ ま り問 題 で は な い.
つ のbootstrap
sampleを
コ ン ピ ュ ー タ 乱 数 で 抽 出 し て み る と
41,41,57,124,193,215,215,215,280,280,363 と な っ た.式(3.19)よ
り θ*=x*(6)=215
と 推 定 さ れ る.B=100と
し たbootstrap
simulationをS‐Plusで
つ の 結 果 は 次 に 示 す と お り で あ る.
平均
E*(θ*)=152.7
標準 偏 差 バ
イ ア ス Bias*=23.8
S‐Plus
g←rep(0,nb)#nb
program:表3.2
is a value of B
x←c(16,41,57,76,124,129,193,215,280,363,914)
med←x[6] for(i in 1:nb{ y←sort(sample(x,replace=T)) g[i]←
y[6]}
g mean←mean(g);gsd←sqrt(var(g)) gbias←gmean‐med;gmod←med-gbias
行 った一
バ イ ア ス 修 正 推 定 値 θc=129-23
繰 り返 し数 をB=200,500,1000,2000と 表3.2に
示 し た.1000を
増 加 させ て い った と きの 結 果 を
越 え る とそ れ ぞ れ の 推 定 量 が ほ ぼ 一 定 の 値 に 収 束
し て い る こ とが わ か る.表3.2に (例 題3.2)の
.8=105.23
はB=∞
と し た,つ
ま り,理 論 的 な 計 算
結 果 も示 し た.理 論 値 に ほ ぼ 近 い 結 果 が 得 られ て い る だ ろ う.
次 に,bootstrapの
面 白 さ を味 わ っ て い た だ くた め に,平
均 値で 中央値 を
推 定 し よ う とす る とど う な る か を 見 て み よ う.こ の 場 合,式(3.19)が θ=x=218.91
と な る.つ
ま り
と 変 更 さ れ る.B=100の
結 果 は
平 均 E*(θ*)=228.4
標 準偏 差 バ イ ア ス Bias*=99.4 バ イ ア ス 修 正 推 定 値 θc=218.9-99.4=119.5
と な る.表3.3に
は 繰 り返 し数 をB=200,500,1000,2000と
た と きの 結 果 を 示 した,同
様 に,1000を
理 論 値 に 収 束 し て い る こ とが わ か る.こ
増 加 させ て い っ
越 え る とそれ ぞれ の推 定 量が ほぼ こで 興 味 深 い 結 果 は,「 平 均 値 を 中
表3.2
表3.1の
デ ー タ の 中 央 値 に 関 す るbootstrap
simulationの
結 果 と理 論 値
表3.3
表3.1の
デ ー タ の 中 央 値 に 関 す るbootstrap
simulationの
結 果 と理 論 値
央 値 の 推 定 値 」 と し て 利 用 し たbootstrapで
あ るが,そ
の バ イア ス 修 正 推 定
値 が 理 論 的 に は 中 央 値 そ の も の と な っ た と い うこ と で あ る.な ぜ だ ろ うか? そ こ で,理
論 的 に これ ら の 値 を 計 算 し て み よ う.
つ ま り,バ
イ ア ス は 式(3.13)か
ら,も
との デ ー タの 平 均 値 と 中央 値 との 差 で
あ り
Bias*=218.9-129=89.9 し た が っ て,バ
イ ア ス 修 正 推 定 値 は 平 均 値 か ら バ イ ア ス を 引 くの で 中 央 値 に
一 致す るわけで あ る
.一
般 に は,式(3.16)よ
り,た
と え,実
世界 で使 用 して
い る パ ラ メ ー タ の 推 定 値 が 誤 っ て い て も(mis‐specified) θ=E*(θ*)
で あ れ ばbootstrapに
よ り正 しい 推 定 値 θが バ イ ア ス 修 正 推 定 値 と して 推 定
され る. [例 題3.2]表3.2の [解 答]理
理 論 値 を 導 け.
論 的 な 計 算 に は,bootstrap
大 き い 観 測 値x
個 以 上 のX*iがx(κ)を
た が っ て,
ず,x(κ)よ
第 κ番 目に り大 き くな
越 え な い 確 率 に等 し い の で
る と, Pr*{X*(6)=x(κ)}=α
と な る,し
中 央 値X*(6)が
( κ)に 等 し い 確 率 を 計 算 す れ ば よ い.ま
ら な い 確 率 は,6
と お く.す
sampleの
κ-α
κ-1=pκ
と計 算 で き る.こ
れ を 実 際 に 計 算 す る と表3.2の
3.4
Bootstrap信
理 論 値 と な る.
頼 区 間
信 頼 区 間 の 構 成 法 に つ い て は 少 々議 論 の 多 い と こ ろ で あ る.ま
た,分
布の
裾 を 推 定 す る わ け で あ る か ら バ ラ ツ キ も大 き く,精 度 よ く推 定 し よ う とす れ ば,繰
り返 し数 B も必 然 的 に1000,2000と
B=1000個
のbootstrap sampleか
大 き さが 要 求 され る.例
ら計 算 され たbootstrap推
え ば,
定 値 を小 さ い
順 に並べ て θ*(1)〓
と す る と,θ
の90%信
を θ-θ
-θ
parametric推 け(推
θ*(1000)
< θ*-θ
世 界で の 関係
< θ
-θ}=0
*
.90
(3.21)
に 置 き換 え る こ とに よ り θ-θ*(951)
し,θ=θ 2θ-θ
と な る.し
〓
(951)
θ+
と 推 定 で き る.も
…
頼 区 間 はbootstrapの
Pr*{θ*(50)
の θ*-θ
θ*(2)〓
< θ < θ+θ-θ
* (951)
< θ <2θ
-θ*(50)
sample自
(3.23)
身 の 分 布 に 基 づ くnon
F とあ る 程 度 ず れ て い る の で そ の 安 定 性 に 欠
定 の バ ラ ツ キ が 大 きい)あ
ま り推 奨 で き る もの で は な い.実
タ解 析 で も正 規 分 布 に 近 づ け る 変 数 変 換 を よ く行 う よ うに,推 あ る単 調 増 加 関 数hに
(3.22)
で あ れ ば,式(3.18)は
か し,式(3.23)はbootstrap 定 で あ り,Fnは
*(50)
定 値の分 布 を
よ り正 規 分 布 に 変 換 す る こ と を考 え よ う.こ θ=θ
とい う よ り一 般 的 な 場 合 を 考 え る.
際 のデ ー
こで は
(3.24)
3.4.1
パ ー セ ン タ イル 法
まず,任
意 の θに対 して h(θ)-h(θ)
が 達 成 で き た と し よ う.bootstrapの
∼ N(0,1)
(3.25)
世 界 で も 同 様 の 正 規 性が 期 待 され る か
ら Pr*{h(θ*)-h(θ)〓+zα}=Pr*{ と な る.こ
こ で,zα
はN(0,1)の
θ*〓h-1(h,(θ)+zα)}=α
下 側 α パ ー セ ン ト点 と す る.θ*のbootstrap
分 布 の 下 側 α 点 を θ*αと す る と, *
h-1(h(θ)+zα)=θ と 推 定 で き る . 一 方,式(3.25)の
(3.26)
a
実 世 界 と 式(3.26)か
α=Pr{h(θ)-h(θ)<zα}
と な る.つ
ま り,両
=Pr{θ
〓h-1(h(θ)-zα)}
=Pr{θ
〓h-1(h,(θ)+z1
=Pr{θ
〓 θ*1 -α}
側100(1-α)%信
ら (3,27) (3.28)
-α)}
(3.29) (3.30)
頼 区 間は単 純 に *
θ*α/2〓 θ 〓 θ1-α/2
で 計 算 で き る こ と に な る.こ
3.4.2
BC
満 た す よ い 変 換 は そ うそ う存 在 し な い.よ
原 点 調 整 の 定 数 cを 加 え て,次 h(θ)-h(θ)+c
cは 原 点 修 正 の た め の 定 数 で あ る.こ
り現 実 的 に
の よ う に 変 形 す る ほ うが よ い.
∼ N(0,1)
(3.32)
うす る と,式(3.26)は
h-1(h(θ)+zα-c)=θ
と な り,式(3.27)に
(3.31)
パ ー セ ン タ イ ル 法 と よ ば れ て い る.
法
しか し,式(3.25)を は 式(3.25)に
れ はEfronの
*
α
(3.33)
相 当 す る式 は α=Pr{h(θ)-h(θ)+c<zα}
=Pr{
と な るか ら β を
θ 〓h-1(h(θ)-zα+c)}
(3.34)
zβ-c=-zα+c
と な る,す
な わ ち, β=Φ(2c+z1-a)
(3.35)
と設 定 す れ ば, α=Pr{θ と な る,こ
こ に,Φ(.)はN(0,1)の
〓 θ*β}
分 布 関 数 で あ る.さ
ら に,hは
(3.36) 単 調増 加
関 数 で あ,る か ら Pr*{θ*〓
θ}=Pr*{h(θ*)-h(θ)〓0}
=Pr*{h(θ*)-h(θ)+c〓c}
=Φ(c)
(3.37)
と な る か ら,
(3.38) と な る.し
た が っ て,両
側100(1-α)%信
頼 区間は
βL=Φ(2c+zα/2)
(3.39)
βU=Φ(2c+z1-α/2)
(3.40)
とお くことに よ り θ*βL〓 θ 〓 θ* βU で 計 算 で き る こ と に な る.こ
れ はEfronのBCパ
rected
よ ば れ て い る.
percelltile
3.4.3
Efronは
BCa
method)と
(3.41)
ー セ ン タ イ ル 法(bias
cor
法
正 規 変 換 を 考 え る と き,推 定 す べ きパ ラ メー タ θの 大 き さ に よ っ
て 分 散 が 変 化 す る,と い う よ り現 実 的 な モ デ ル も提 案 して い る.分 散 と して 平均 の二次 関数 Var(h(θ))=(1+ah(θ))2 を 考 え,
(3.42)
と い う モ デ ル を 提 案 し た.こ centile method)と (3.40)が
れ はBCa法(accelerated
よば れ る.こ
の 場 合 もBC法
bias corrected per
と 同 様 に 展 開 す る と 式(3.39),
次 の よ う に 変 更 さ れ る.
(3.43) (3.44) こ こ に,aは
推 定 値 θ の 分 布 の 正 規 分 布 か ら の 歪 み の 度 合(skewness)を
価 し た も の で,詳
細 は 省 略 す る が,Efronは
1)κ 番 目 の デ ー タxκ を 除 い た(n-1)個 (Jackknife推
評
次 式 を 提 案 し て い る. の デ ー タ か ら θ(-κ)を 計 算 す る
定 値 と よ ば れ て い る).
2)θ( .)=Σnκ=1θ(-κ)/nと
す る.
3)次 式 で 計 算 す る.
(3.45) 推 定 値 θの 分 布 が 正 規 分 布 に 近 い 場 合 に はa=0に
近 づ きBC法
と 同 じに
な る. [例 題3.3]表3.1の
デ ー タ に つ い て 中 央 値 の90%信
頼 区 間 をbootstrap法
に よ り, 1)パ
ー セ ン タ イル 法
2)BC法 3)BCa法
で 推 定 せ よ. [解 答]表3.2のB=2000の
デ ー タ を 利 用 す る と θ*=x*(6)の
に 示 す よ う に な る.そ
の 詳 し い 頻 度 表 は 表3.4の
パ ー セ ン タ イ ル 法 に よ る90%信
頼 区 間(対
分 布 は 図3.1
よ う で あ る.し
た が っ て,
称)は
(θ*100,θ*1901)=(x(3),x(9))=(57,280)
と推 定 され る.さ 要 と な る.こ 定は
て,BC法
で 求 め る 場 合 に は 式(3.38)に
よ る原 点 修 正 が 必
の デ ー タの 場 合 は θ*の 分 布 は 離 散 分 布 で あ る た め 定 数 cの 推
図3.1
表3.1の
表3.4
表3.1の
デ ー タ の 中 央 値 のB=2000のbootstrap推
定 値 の分 布
デ ー タ の 中 央 値 のB=2000のbootstrapの
し た が っ て,式(3.39),(3.40)よ
頻 度 表
り
βL=Φ(2×-0.0226-1.645)=0.0455 βU=Φ(2×-0.0226+1.645)=0.9452 と な る.つ
ま り, 2000×0.0455=91,
で あ る か ら求 め る90%の * (θ91
2000×0.9452=1890
対 称 な信 頼 区 間 は ,θ*1890 ) =(x(3)
,x(9))=(57,280)
と離 中 散 分 布 よ りパ ー セ ン タ イル 法 と同 じ 信 頼 区 間 とな っ た. 次 に,BCa法
で 計 算 す る と,(θ(-1),...,θ(-n))は,10個
の デ ー タの 中 央
値 は
5 番 目 と 6 番 目 の デ ー タ の 平 均 値 で あ る か ら, (161,161,161,161,161,158.5,126.5,126.5,126.5,126.5,126.5)
と 計 算 さ れ, θ(.)=149.09
と な る.式(3.45)よ
り α=0.00893
と 計 算 さ れ る.こ
の 値 は き わ め て 小 さ くそ の 影 響 は 少 な い が,試
て み る と,式(3.43),(3.44)よ
で あ る か ら求 め る90%の
しに 計 算 し
り
対称 な信 頼 区間 は
(θ*96,θ*1896)=(x(3),x(9))=(57,280)
と これ ま た 同 じ結 果 が 得 られ て い る. [例 題3.4】
表3.1の
デ ー タ の 中 央 値 の90%信
頼 区 間 をnonparametric法
で
理 論 的 に 導 け.
[解答]理
論 的 に は 対 称 な 順 序 統 計 量 の ペ ア を(X(γ),X(n-γ+1))と
す る と,
こ の 範 囲 に 中 央 値 が 含 まれ る確 率 は
(3.46) で 与 え ら れ る.し
た が っ て,信
頼 係 数(1-α)の
信頼 区間 は
(3.47) を 満 た す 最 大 の γで 推 定 され る.n=11の よ う に な る か ら,90%信
場 合 の 計 算 を し て み る と表3.5の
頼 区 間 は,式(3.47)よ
り γ=3 と な るか ら 理 論 的 に は
(x(3),x(9))=(57,280) と 推 定 さ れ る.こ
の 結 果 は 例 題3.3のbootstrap推
定 値 と 同 じ で あ っ た.
表3.5
式(3,47)の
γ と Q
との 関係
練 習 問題 [問 題3.1】
未 知 の 分 布 F(平 均 μ,分
(x1,...,xn)と
し,そ
を 問 題 に し よ う.い し てbootstrap推
散 σ2)か
らの無作 為標 本 の 実現 値 を
の 平均 値
ま,こ
の 標 本 か ら のbootstrap
sampleを(x*i,...,x*n)と
定 値
につ い て B →
∞,つ
ま り, E*(μ*)=x
Bias*=0
(3.48)
(3.49)
(3.50) と な る こ と を 示 せ.こ
こに
で あ る. [問 題3.2]い
ま,手
元 に あ る 標 本(x1,...,xn)は,次
の式 で 定義 され る確
率 変 数 の n 回 の 独 立 試 行 の 実 現 値 で あ る と す る: Pr{X=1}=p,
Pr{X=0}=1-p
pの推 定値 は通常 不偏推 定 値
で 与 え られ,そ
で あ っ た.さ
の分散 推定 値 は
て,こ
の 標 本 か ら のbootstrap推
定 を 考 え よ う.経 験 分 布 関 数 は
0,
{
Fn(x)=
x<0
1-p,0〓x<1 1,
1〓
x
で あ る か ら, p=p と な る.こ
の と き,bootstrap推
定 値
につ いて E*(p)=p
Bias*=0
(3.51)
(3.52)
Var*{p*}=Var(p)
(3.53)
と な る こ と を示 せ. [問題3.3]次
の 命 題 を証 明 せ よ.
1)あ る連 続 分 布 F か ら抽 出 し た サ イ ズ n の 独 立 な 無 作 為 標 本 に お い て, 「(k-1)個
が x未 満,1 個 がX=x,残
りがx を 越 え る 」 確 率 は
g(F)=F(x)k-1(1-F(x))n-kdF(x) に比 例 す る.n → ∞ の と き,こ の 確 率 を最 大 に す る 値x は F(x)=p,
で 与 え ら れ る.つ
2)Xpの
ま り,分
k=np
布 の p パ ー セ ン タ イ ルXpで
付 近 の 確 率 分 布g(x)(定
数 は 省 略)を 調 べ る た め に δ=F(x)‐p
と お こ う.そ 従 う.(ヒ
う す る と,δ
あ る.
の 確 率 分 布 は 漸 近 的 にN{0,p(1-p)/n}に
ン ト: 9(F)→(δ+p)np(1-p-δ)n(1-p),
と な る の で,対
数 変 換 し た 後 にTaylor展
3)式(3.54)のTaylor展
開 を 行 う)
開 の 一 次 近 似 を 利 用 し て, Var(δ)=(〓(x))2Var(x)
と な る 。 つ ま り,
n → ∞
(3.54)
(3.55) と な る. 4)式(3.2)を [問 題3.4]あ X(n))と
示 せ. る 分 布 F か ら の 無 作 為 標 本 で の 順 序 統 計 量 を(X(1)〓
し よ う.こ
…
〓
の と き,
1)
(3.56) 2)
と す る と き,
(3.57) 3)分
布 F の p パ ー セ ン タ イ ル をXpと Pr{X(γ)〓Xp〓X(s)}=I1-P(n-s+1,s)-I1-p(n-γ
す る.こ
の と き, 十1,γ)
(3.58) 4)式(3.46),(3.47)を
示 せ.
4 モ デ ル を比 較 す る
表4.1は,1960年
代 後 半 の ア メ リ カ 合 衆 国 の60の
主 要 な都市 におけ る大
気 汚 染 の 健 康 影 響 を検 討 す る た め の デ ー タ の 一 部 で あ る(デ 録B.2).全
死 因 の 年 齢 調 整 死 亡 率(MORT)の
六 つ 上 げ て あ る.年 (EDUC),人
平 均 降 雨 量(RAIN),25歳
口密 度(POPD),人
ー タ の 全 貌 は付
変 動 を 説 明 す る た め の 変 数が 以 上 の メデ ィア ン就 学 年 数
口 に 占 め る非 白 人 の 割 合(NONW),一
酸 化+二 酸 化 窒 素 濃 度(NOX,oxides
of nitrogen),二
suifur dioxide)で
デ ー タは 対 数 変 換(log10)し
あ る.NOx,SO2の
酸 化 硫 黄 濃 度(SO2, て使 用す
る も の と し て, MORT=β0+β1RAIN+β2EDUC+β3POPD+β4NONW +β5log10(NOX)+β6log10(SO2)+誤
差
を 最 大 の 回 帰 モ デ ル と して 最 適 な 変 数 の 組 み 合 せ か ら な る 最 適 回 帰 モ デ ル を 検 討 して み よ う. 表4.1
ア メ リカ合 衆 国の60の
主 要都 市に おけ る大 気 汚 染の 健 康 影響 を検 討す る
た め のデ ー タセ ッ トの一 部
4.1
まず,線
は じ め に
形 回帰 モデ ル y=β0+β1x1+…+βpxp+〓
の 良 さ を 評 価 す る,比
(4.1)
較 す る とは ど う い うこ とか を考 え よ う.n 組 の 観 測 値
{yκ;xκ1,xκ2,
を 用 い て,式(4.1)を
…,xκp},
κ=1,2,...,n
ベ ク ト ル と 行 列 表 現 に 変 え て お こ う.
y=(y1,...,yn)t β=(β0,β1,...,βp)t
X=(xκi),κ=1,...,n;i=0,...,p
Xt=(x1,x2,...,xn) xκ
=(xκ0,xκ1,…,xκp)t,xκ0=1
〓 = (〓1,...,〓n)t と す れ ば,式(4.1)は y=Xβ+〓
(4.2)
と な る.
4.2
も と も と,モ ぎ な い.回
MallowsのCp規
デ ル 自体 は 真 で は な く,あ る 現 象 を記 述 す る た め の 近 似 に す
帰 モ デ ル で い え ば,真 E(y)=θ
実は
Var(y)=T2In,Inはn×nの
で あ る の に,わ る.こ
準
れ わ れ は 式(4.2)の
(4.3)
単 位 行 列 (4.4)
回帰 モ デ ル で 近 似 し よ う とす る わ け で あ
の 場 合, E(〓)=0,0はn×1の
Var(〓)=σ2In
ゼ ロ ベ ク ト ル (4.5)
(4.6)
を 通 常 仮 定 す る(等
分 散 性 は か な らず し も必 要 は な い).最
小 2乗 法 を 適 用
し てβ を推 定 す る と
と な る の で βで 偏 微 分 して 0 とお く と -2Xty+2XtXβ=0 つ ま り,
(4.7) (4.8) が 得 ら れ る.ま
た,そ
の 期 待 値 は,仮
定(4.5),(4.6)の
下 で は
E(β)=(XtX)-1XtE(y)
=(XtX)-1XtXβ=β
(:不
偏 推 定 量)
で あ り,分 散 は Var(β)=σ2(XtX)-1 と な る.な
(4.9)
ぜ な ら, β=(XtX)-1Xty =(XtX)-1Xt(Xβ+〓) =β+(XtX)-1Xt〓
で あ るか ら Var(β)=E(β-E(β))(β-E(β))t
=E((XtX)-1Xt〓)((XtX)-1Xt〓)t
=(XtX)-1XtE(〓
=E(〓
と な るか ら で あ る.さ
〓t)X(XtX)-1
〓t)(XtX)-1
=σ2(XtX)-1
て,わ
れ わ れ の モ デ ル で は θの 推 定 値 と し て
y=θ=X(XtX)-1Xty=Hy を 考 え て い る こ と に な る.こ
こ で,
H=X(XtX)-1Xt=(hij) は ハ ッ ト 行 列 と よ ば れ る.こ
(4.10)
こ で,
Ht=H H2=H trH=trX(XtX)-1Xt =tr(XtX)-1XtX =trIp+1=p+1
が 成 立 す る こ と に 注 意 し よ う.つ ま り,わ れ わ れ の モ デ ル を真 の 世 界 で 評 価 す ると E(θ)=Hθ
と な っ て い る こ と に 注 意 し よ う.さ て,真
≠ θ (4.11)
の世界 で は不偏 で は ない推定 値の
良 さ を 評 価 す る尺 度 と して は θ-θ=(θ-E(θ))+(E(θ)-θ) に 注 意 す る と,分
=(偏
差)+(バ
イ ア ス)
散 と バ イ ア ス の バ ラ ン ス を 考 慮 し た 平 均 2 乗 誤 差(mean
square error.) △p=E‖
を考 え る の が 自然 で あ る.つ
θ-θ ‖2=E(θ-θ)t(θ-θ)
(4.12)
ま り,△ pが 最 小 と な る モ デ ルが 最 も 良 い こ と
に な る.実 際 の デ ー タか らモ デ ル を 評 価 す る の で あ るか ら,問 題 は △pの 不 偏 推 定 量 を 求 め る こ とに 帰 着 され る. さ て,△ pを 変 形 し て い く と △p=E‖Hy-Hθ-θ+Hθ =E‖H(y-θ)‖2+‖(I-H)θ =E{(y-θ)tH(y-θ)}+θt{1-H)θ =E{tr(y-θ)tH(y-θ)}+θt(1-H)θ
‖2 ‖2, H(I-H)=0
(4.13) と な る こ とが わ か る.第
1項 は モ デ ル に 入 っ て い る 変 数(独
の 数 に 対 す る ペ ナ ル テ ィ で あ り,第 き さ を 表 現 し て い る.と
立 な パ ラ メ ー タ)
2項 は バ イ ア ス の 2乗 和 で バ イ ア ス の 大
こ ろ で,式(4.2)の
回 帰 の 残 差 平 方 和RSSp(residual
sum of squares)は
(4.14) で あ る.仮
定(4.5)(4.6)の
下 でRSSpの
期 待 値 を考 え る と
(4.15) と な り,誤 差 分 散 σ2の 不 偏 推 定 値 は
(4.16) で 与 え ら れ る.と
こ ろ が,真
の 世 界 で は,
(4.17) と な る.つ
ま り,真
の 分 散 〓2を 既 知 と す れ ば
が 最 小 2乗 誤 差 △pの 不 偏 推 定 量 と な る こ とが わ か る.し たが って,こ の 値 が 小 さ い モ デ ル ほ ど 式(4.2)の
回帰 モ デ ル は 望 ま し い こ とに な る.Mallows(1973)
は こ の 式 を 〓2(の 推 定 量〓2)で
割 っ て,
MallowsのCp規
準
Cp=RSSp/〓2+2(p+1)-n
=RSSp/ 〓2+2×(モ
デ ル に含 まれ る独 立 な パ ラ メ ー タ 数)-n
(4.18) を モ デ ル 選 択 の 規 準 と す る こ と を提 案 し た.〓2の が あ るわ け で は な いが,一 多 い)モ
デ ル(フ
般 に は,い
決 め方 に特 別 に 良 い方法
ま考 え て い る 最 も複 雑 な(変
数 の最 も
ル モ デ ル と い う)の 誤 差 分 散 の 不 偏 推 定 量 を 〓2に 置 き換
え る こ とが よ く行 わ れ る.つ
ま り,フ ル モ デ ル の 変 数 の 数 をpmaxと
す る と,
(4.19) と 設 定 し,Cpの selection ら,最
値 が 最 も 小 さ く な る 最 適 な 変 数 の 組 み 合 せ を 選 ぶ(subset
規 準 と し て よ く 利 用 さ れ る.こ
の 場 合Cp
max=pmax+1で
あるか
適 モデ ルで は Cp〓pmax+1
(4.20)
と な る.
4.3
式(4.2)に
AkaikeのAIC規
準
対 して 〓 ∼N(0,σ2I)
(4.21)
と い う正 規 性 を 仮 定 し よ う.こ の と き明 らか に y は y∼N(Xtβ,σ2I)
(4.22)
に従 う. こ の よ う に,回 帰 モ デ ル に 限 らず,一 〓(ω |β)を 仮 定 で き る 場 合,真
般 に 観 測 値 W に あ る確 率 密 度 関 数
の 未 知 の 確 率 密 度g(ω)を
モ デ ル 〓(ω│β)
で 近 似 す る 場 合 を 考 え よ う.こ Kullback‐Leibler情
の モ デ ル 間 の 距 離 を計 る 尺 度 の 一 つ と し て
報 量
(4.23) を 導 入 し よ う.モ デ ル の 相 対 的 な 比 較 を考 え る と き この 距 離 が 小 さい ほ ど 良 い モ デ ル とい う こ と に な る.言
い換 えれば
L(β)=Eω(log〓(ω│β))=∫g(ω)log〓(ω│β)dω(4.24)
が 最 大 と な る モ デ ル が 良 い モ デ ル とい う こ とに な る.さ て,確 られ た 場 合 の パ ラ メ ー タ β の 推 定 は,漸
率分 布が 与 え
近 的 に 最 良 な 最 尤 推 定 量 β を計 算
す る か ら,わ れ わ れ は 最 大 尤 度 を も つ モ デ ル 〓(ω│β)で 真 の モ デ ルg(.)を 近 似 す る こ と に な り, L(β)=Eω(log〓(ω│β))=∫g(ω)log〓(ω│β)dω(4.25)
を 最 大 に す る モ デ ルが 良 い モ デ ル と い うこ と に な る.し 推 定 量 β=β(y)の
か し なが ら,こ れ は
関 数 と して の 確 率 変 数 で あ る か ら,y で 期 待 値 を 計 算 す
る こ とに よ り Λp=Ey{L(β(y))}=∫g(y)Eω(log〓(ω│β))dy(4.26)
で そ の モ デ ル の 評 価 が 可 能 とな る.つ
ま り,こ こで は,規 準 Λpを 最 大 にす る
モ デ ル が 最 良 と な る の で,問 題 は そ の 不 偏 推 定 量 を 求 め る こ と に 帰 着 され る. さ て,一
般 に確 率 変 数 X の 関 数 ん(X)に お け る 期 待 値 E(h(x))の
不 偏 推 定 量 は,n 個 の 独 立 な 確 率 標 本 を(X1,...Xn)と
自然 な
すれ ば
1 /n
(h(X1)+…+h(Xn))
で あ る こ と に 注 意 す れ ば,式(4.26)の
「自 然 な不 偏 推 定 量 」 は 最 大 対 数 尤 度
の平 均 値
(4.27)
で 与 え ら れ る.問
題 は こ の 最 大 対 数 尤 度 ι(β)の平 均 が 式(4.26)の
偏 推 定 量 とな っ て い るか 否 か で あ る.も 良 と な る.そ
こ で,そ
し不 偏 で あ れ ば 尤 度 最 大 モ デ ル が 最
の 関 係 を検 討 す る た め に,こ g(ω)=〓(ω│β*)
で 表 現 で き る と仮 定 し よ う(一 般 論 で は,こ いが 簡 単 の た め).ま
ず,式(4.25)の
メー タ β*の 近 傍 でTaylor展
Λpの 不
こで は,真
のモデ ルは
(4.28)
の 仮 定 は か な らず し も必 要 は な
漸近 的分 布 を検 討 す るため に真 のパ ラ
開 して み る と
(4.29) と な る.と
こ ろ で,最
尤推定 量 はあ る正則 条 件 の下 で 漸近 的 に
(4.30) が 成 立 す る.こ
こ に,I*FはFisher情
報 行 列 と い い,そ
れは
(4.31) で 定 義 さ れ る.し
た が っ て,式(4.29)の
次 元 数 の 自 由 度(こ
こ で は,p+1)を L(β)=L(β*)-
第 2項 は 0,第
3 項 の2n倍
は β の
も つ χ2分 布 に 従 う こ と が わ か る: 1 /2n
χ2p+1
し た が っ て, Λp=Ey{L(β(y))}=L(β*)-
一 方
,式(4.27)の
1 /2n
(p+1)
(4.32)
対 数 尤 度 ι(β)の平 均 に つ い て 最 尤 推 定 量 β の 近 傍 でTaylor
展 開す る と
(4.33)
と な る.と
こ ろ で,対
数 の法 則 に よ り
(4.34) と な る,し
た が っ て,式(4.33)で
β → β*と 置 き 換 え
ι(β*)=ι(β)-
ば
1 /2
χ2p+1
(4.35)
つ ま り 1 Ey{ι(β*)}=Ey{ι(β)}が 成 立 す る.と
/2
(p+1)
(4.36)
こ ろ で,
(4.37) が 成立 す るか ら
(4.38) と な る.つ
ま り,
1 /n
{ι(β)-(p+1)}
が Λpの 不 偏 推 定 量 と な る こ とが わ か る.つ
(4.39)
ま り,こ の 値 が 大 き い モ デ ル ほ
ど 良 い モ デ ル とい う こ とが わ か る.Akaike(1973)は
こ の 式 を 変 形 して
AkaikeのAIC規
準
AIC=-2ι(β)+2(p+1) =-2(最
大対 数尤 度)+2(モ デ ル に含 まれ る独 立 をパ ラ メーダ 数)
(4.40) を モ デ ル 選 択 の 規 準 とす る こ と を提 案 し た.式(4.39)と
は 符 合が 逆 で あ る か
ら 当 然 こ の 値 が 小 さい ほ ど 良 い モ デ ル とい うこ と に な る.式(4.18)で れ て い るMallowsのCp規 うか?
定義さ
準 と き わ め て 形 が 似 て い る こ とが 理 解 で き る だ ろ
モ デ ル の 次 元 数(パ
ラ メー タの 数)に
関 す るペ ナ ル テ ィは 全 く同 じ
2倍 で あ る. さ て,式(4.21)の
回 帰 モ デ ル の 話 し に 戻 ろ う.定
数 項 を 除 く と,
(4.41)
(4.42) と な る.こ
こ で,s2は
誤 差 分 散 の 不 偏 推 定 量 で あ る.つ
き,AIC規
準 は近 似的 に
ま り, n≫pの
と
(4.43) と等 価 で あ る こ と に 注 意 し た い.
4.4 自由 度 調整 重相 関 係 数
さて,式(4.2)の
回 帰 分 析 の 結 果 は 表4.2に
示 す よ うな 分 散 分 析 表 に ま と
め られ る こ と を こ こ で 思 い 出 し て み よ う.式(4.21)の
下 で は,仮
説検 定
表4.2
回 帰 分 析 に お け る分 散 分 析
H0:β1=…=βp=0
(4.44)
に は 次 の F 検 定 が 有 名 で あ る.
(4.45) さ て,回
帰 分 析 の 有 意 性 の 指 標 と し て 重 相 関 係 数 R,寄 与 率(決
定 係 数)
R2
(4.46) が よ く利 用 され るが,モ な ら,変
デ ル 選 択 に は この 重 相 関 係 数 は 適 用 で き な い.な ぜ
数 を増 加 させ れ ば い く らで も1.00に
こ の 回 帰 分 析 の 自由 度 は 0,RSSp=0と
近 くな り,p=n-1と
な る の だ か らR=1と
すれ ば な って し ま
う.y を 説 明 す る の に全 く情 報 が な い 変 数 を 選 ん で も数 学 的 にR=1と
なる
の で あ る.こ の 自 由 度 に よ る い た ず ら を 除 去 す る た め に,次
の 自由度 調整 重
相 関 係 数R*が
自由度 調 整寄 与
モ デ ル 選 択 に利 用 され る こ と も多 い.R*2は
率 と よば れ
(4.47) (4.48) と 計 算 さ れ る.さ
て,い
ま ま で に 紹 介 した 統 計 量 を こ こ で 整 理 し て み よ う
不 偏 誤 差 分 散:s2
寄 与 率:
自由度 調整 寄与 率: Cp:
(4.49)
AIC: とな る.つ
(4.50)
ま り,p が 一 定 で あ れ ば,こ
で 同 等 で あ る.例
え ば,10の
れ らの 規 準 はs2だ
け の関数で あ るの
変 数群 の 中か ら五つ の変 数 か らな るモデ ル群
(10 5)=252個 を 考 え た と き,こ と に な る.し
の 中 か ら最 適 モ デ ル を 選 ぶ 規 準 は 単 純 にs2だ
けで 良い こ
た が っ て,こ れ ら の 規 準 の 違 い が 出 て くる の は,明
らか に,「 変
数 の 数 が 変 化 す る モ デ ル 選 択 」 で あ る.そ
こ で 次 節 で は そ の 挙 動 の 違 い を,
よ く統 計 パ ッ ケ ー ジ で 使 わ れ る F‐to‐enter(〓)F‐to‐removeの F 検 定 統 計 量 との 関 連 で み て み よ う.
4.5
変 数 選 択,つ
よ く見 か け る 変 数 選 択 法
ま り,各 変 数 の 有 意 性(寄
要 な 点 は 絶 対 的 評 価 は で きず,あ あ る.式(4.1)の
与 の 度 合 い)を
議 論 す る 場 合,重
くまで 相 対 的 評 価 で しか な い と い うこ とで
回 帰 モ デ ル で い え ば,p 個 の 変 数(x1,...,xp)の
「組 み 」の
線形 結合 β0+β1x1+…+βpxp
で y の 変 動 を 説 明 し よ う と い う モ デ ル で あ る か ら,あ
る 変 数 「xκ」 の 有
意 性 は あ く ま で こ の p 個 の 変 数 群 の 中 で の 相 対 的 な も の で あ る.し て,も
し,新
xj(1〓j〓p;j≠
しい 変 数xp+1を
たが っ
モ デ ル に 加 え た り,既 存 の 変 数 の 中か ら変 数
κ)を 削 除 し た りす る と,変
数xκ の 有 意 性 が 変 化 し て し
ま う. さ て,フ た数 は
ル モ デ ル の サ イ ズが pで あ る と き,す べ て の サ ブ モ デ ル を 合 わ せ
(p 1)+(p 2)+…+(p とな る.こ
p)=2p-1
の す べ て の 組 み 合 せ の 中 か ら 最 適 な モ デ ル を選 択 す る 方 法 を総
当 た り法(best subset regression)と い うが,p が 大 き くな る に つ れ て 組 み 合 せ の 総 数 は 天 文 学 的 な 数 字 と な りス ー パ ー コ ン ピ ュ ー タで も実 用 上 計 算 不 可 能 とな る.し
た が っ て,実 用 上 は 逐 次 的 に変 数 を 選 択 し て い く逐 次 選 択 法
(stepwise regression)が 利 用 され る.簡
単 に そ の 概 略 を 説 明 す る と,
〓 変 数 増 加 法(forward)
まず,y
と相 関 の 最 も高 い 変 数x(1)を
選 ぶ.次
x(1)と 組 み 合 わ せ た と き最 大 の 寄 与 率R2(最
に,残
小 のs2)を
りの 変 数 か ら もつ 変 数x(2)
を追 加 す る...こ の よ うに 変 数 の 数 を一 つ ず つ 追 加 し て い く方 法 で,指 定 され た モ デ ル 選 択 の 規 準 で こ の プ ロ セ ス を 継 続 す る か 終 了 す る か を 決 め る. 〓変 数 減 少 法(backward)
まず,フ
ル モ デ ル で の 寄 与 率 を計 算 す る.次
た と き の 寄 与 率 の 減 少 量 が 最 小 の 変 数x(p)を 残 りの 変 数 か ら さ らに 1個 除 い て,寄
に,一 選 ぶ.こ
つ の変数 を削 除 し の変 数 を除 いた
与率 の減少 量 の最小 の 変数 を除 く
...こ の よ う に 変 数 の 数 を フ ル モ デ ル か ら 一 つ ず つ 削 除 し て い く方 法 で, 指 定 され た モ デ ル 選 択 の 規 準 で この プ ロ セ ス を 継 続 す る か 終 了 す る か を 決 め る. 〓変 数 増 減 法(stepwise
forward)
変 数 増 加 法 の 各 ス テ ップ で す で に取 り込 まれ た 変 数 の 中 に 相 対 的 に 寄 与 率 の 小 さ くな っ て し ま っ た 変 数 を削 除 す る 方 法. 〓変 数 減 増 法(stepwise
backward)
変数 減少 法 の各 ス テ ップです で に落 と され た変 数の 中 に相 対的 に寄与 率 の大 き くな った復 活すべ き変数 を追 加 す る方法. た だ,解
析 の 目的 に よ っ て は,必 ず モ デ ル の 中 に 入 れ るべ き変 数 が あ り,全
くの 自動 選 択 の 結 果 と そ の 解 釈 に は 注 意 が 必 要 で あ る. さ て,逐
次 変 数 選 択 のstopping
(4.1)の 残 差 平 方 和RSSpと
変 数xκ
ruleを
考 え る た め に,ま
ず,回
を 除 い た 残 差 平 方 和RSSp-1(-xκ)の
帰 モデ ル 差
を考 え て み よ う.つ ね に,前
者 の ほ うが 小 さ い わ け で,
△(xκ)=RSSp-1(-xκ)-RSSp =SS(R2-R2(-xk))
(4.51)
が p 個 の 変 数 群 の 中 に お け る 変 数xκ の 寄 与 の 度 合 い を表 現 して い る と考 え ら れ る.こ
こ に,R2(-xκ)は
変 数xκ を 除 い た 残 りのp-1個
る 回 帰 モ デ ル の 寄 与 率 で あ る.こ
の 差 が 大 きけ れ ば ,変 数 の 寄 与 は 大 き い の
で 回 帰 モ デ ル か ら 除 く(に 入 れ る)こ こ と を 意 味 す る だ ろ う.も
し,小
の 変数 か らな
と は モ デ ル 寄 与 率 が 減 少(増
加)す
る
さ い 差 で あ れ ば 変 数xκ が あ って も な くて
もモ デ ル の 寄 与 率 に は 影 響 が な い,必
要 な い と考 え る の が 自然 で あ る.代 表
的 な モ デ ル 選 択 規 準 に よ るstopping ruleを 比 較 して み よ う. (1)F 検 定 も し,正 規 性 の 条 件,式(4.21),を
満 足 す る な らば 次 の 検
定 仮説 H0:β
κ=0
(△(xκ)=0)
(4.52)
に 対 して は 次 の F 検 定 が 知 られ て い る.
(4.53) こ こ で, F1 ,∞(0.05)=3.84, F1 ,∞(0.15)=2.07
F1,∞(0.10)=2.71
F1,∞(0.30)=1.07
(4.54)
(4.55)
と な る こ と を よ く覚 え て お こ う. (2)自 由 度 調 整 寄 与 率 自 由 度 調 整 寄 与 率 の 大 小 で 変 数 選 択 を 考 え て み よ う.式(4.47)か
で あ るか ら
ら
R*2〓R*2(-xκ)⇔F(-xκ)〓1 と な る.つ
ま り,式(4.55)よ
り,有
意 水 準30%前
(4.56)
後 の F 検定 を実 施 して い
る こ と に な る. (3)MallowsCp規
準 式(4.18),(4.19)よ
り,
で あ る か ら, Cp-1(-xκ)〓Cp⇔F(-xκ)〓2.00
と な る.つ
ま り,ほ ぼ15%の
(4)AIC規
準
式(4.50)よ
(4.57)
有 意 水 準 の F 検 定 と等 価 で あ る, り
で あ るか ら
(4.58) と な る.こ は,Cp規
の 規 準 は 漸 近 的 に はMallowsのCp規 準 よ り条 件 が 緩 い.MallowsのCp規
準 と等 価 と な る が,一 準, AIC規
般に
準か ら判 断す る
と,統 計 パ ッ ケ ー ジ の 変 数 選 択 の 規 準 の オ プ シ ョ ン と し て
F‐to‐enter=2.01>F‐to‐remove=2.00(有
と 設 定 す る の は,モ こ の 規 準(有
後)
デ ル 選 択 の 観 点 か ら 一 見 合 理 的 の よ う に み え る だ ろ う.
意 水 準15∼20%)は
ク 回 帰 分 析,Coxの
意 水 準15∼20%前
他 の 多 変 量 解 析,た
と え ば,ロ
ジ ス テ ィッ
比 例 ハ ザ ー ド モ デ ル な ど で も 採 用 さ れ て い る よ うで あ る.
4.6
AllenのCV規
こ れ ま で の モ デ ル 選 択 の 議 論,特
準
に,MallowのCp規
準, AkaikeのAIC
規 準 に お い て は,
「デ ー タへ の 適 合 度+モ
デ ル の 複 雑 さへ の ペ ナ ル テ ィ」
をバ ラ ン ス させ た 内 容 で あ っ た.こ れ を 言 い 換 え る と,変 数 を 多 く取 り込 ん だ 複 雑 な モ デ ル に な れ ば な る ほ ど,現
在 の デ ー タ に は 適 合 度 が 良 くな る が,
将 来 の デ ー タ に 対 す る 予 測 の 精 度 は 悪 くな る,つ
ま り
「予 測誤 差 を最 小」 を 目 的 と し た モ デ ル 選 択 の 規 準 も考 え られ る.し か し,現 在 の n組 の デ ー タ か ら 選 ば れ た モ デ ル の 予 測 誤 差 を評 価 す る こ と は 理 論 的 に は 簡 単 で は な い. しか し,昔
か ら,直 感 的 に ナ イー ブ な 方 法 と し て,現
在 の n組 の デ ー タを
1 回 帰 モ デ ル 推 定 の た め の デ ー タセ ッ トDEST 2 予 測 の 良 さ を 検 証 す る た め の デ ー タセ ッ トDPRED に 分 割 す る 方 法 が 考 え ら れ て き た.こ (cross validation)と
よ ば れ て い る.Allen(1971)はDPRED=(yi;xi)と
の デ ー タ に 限 定 し,こ 提 案 し た.こ
の 方 法 は ク ロ ス ・バ リ デ ー シ ョ ン 法
れ を 繰 り 返 す,効
こ で は こ の 方 法 をAllenのCV規
AllenのCV規
1組
率 的 な ク ロ ス ・バ リ デ ー シ ョ ン 法 を 準 と よ ぶ.
準 の ア ル ゴ リズ ム
1)Step1:i←1.
2)Step2:第
i組 目 のyiを
り(n-1)組 D
予 測 す る の に i組 目 の デ ー タ を 除 い た 残
み の デ ータ
EST,i={yκ;xκ1,xκ2,…,xκp},κ=1.2,...,n;κ
か ら 推 定 さ れ た 式(4.1)の
≠i
回 帰 モ デ ル で 推 定 値yi(DEST,i)を
計 算
する. 3)Step3:i←i+1;Go
4)Step4:最
後 に,予
to step
2.
測 平 方 和(prediction
sum of squares)の
平 均
と して予 測 誤 差を 計算 す る. (4.59)
この 規 準 は,特
に 難 し い 理 論 を必 要 とせ ず,論
理 も 明快 で あ る た め,さ
ざ ま な統 計 モ デ ル の 検 証 に よ く利 用 され て い る方 法 で あ る.た
だ,こ
ま
の計算
は 一 見 す る と 回帰 式 の 推 定 を n 回繰 り返 す 必 要 性 が あ り,計 算 時 間 が n 倍 か
か る か の よ うに 思 わ れ る が,実
は
(4.60) と計 算 で き るの で 1回 の 推 定 で す む の で あ る.実 にAICと
等 価 な 式(4.43)に
漸 近 的 に あ る 種 のCV規
近 い こ とが 示 され る.さ
準 とAICは
4.7
さて,こ
こで は 表4.1の
は,こ
の 予測誤 差が 漸近 的 ら に,Stone(1977)は
等 価 で あ る こ と を 示 し た.
モ デ ル 選 択 の 例No.1
デ ー タ の 回 帰 分 析 を 行 っ て み よ う.使 用 し た 変 数
全 体 の 基 礎 統 計 量 と 相 関 行 列 を そ れ ぞ れ,表4.3,表4.4に 回帰 モ デ ル MORT=β0+β1EDUC+β2NONW+β3LSO2+〓 表4.3
各変数の要約統計量
表4.4
各変数間の相関係数
示 した.例
え ば,
図4.1
表4.1の
デ ー タの 回帰 モ デ ル に お け る 4種 類 の モデ ル の 選 択 規 準(R*2,Cp,
AIC,CV)で
は,例 CV規
え ば,統
選 ば れ た 最 適 モデ ル(p=4)
計 ソ フ トS‐Plusを 利 用 す る と,線 形 回 帰 モ デ ル に 関 数glm,
準 の 計 算 に 必 要 な ハ ッ ト行 列 は 関 数hatを
よ う な プ ロ グ ラ ム で 計 算 で き る.そ さて,最
の 結 果 は 図4.1で
る と,変 数 増 加 法,減
少 法,増
減 法,総
示す
あ る.
大 6個 の 説 明 変 数 か ら な る モ デ ル の 数 は26-1=63通
最 適 な モ デ ル の 選 択 を 実 施 し て み よ う.S‐Plusで
ば,総
利 用 す る と付 録B.3に
りで あ る.
は 関 数stepwiseを
利 用す
当 た り法 な どが 簡 単 に で き る.例
え
当 た り法 は S‐Plus
program:表4.5
x ←cbind(rain,educ,popd,nonw,lnox,lso2)
y←mort stepwise(x,y,intercept="T",method="exhaustive")
と 指 定 す る.増
加 法 で はmethod="forward"と
の 関 数 か ら はR*2,MallowsのCp,AICは
録B.3に
指 定 す れ ば よ い.た 簡 単 に 計 算 で き る が,
示 す よ うに 別 に 計 算 し な け れ ば な ら な い.
だ,こ S2 CV
は付
表4.5
subset
selectionに
準 じ た 回 帰 モ デ ル の さ まざ まな 選 択 規 準 の 値.同
サ イズで の モ デ ル の 多 い場 合 に はAllenのCV規
さ て,総
当 た り法 で 計 算 し た 結 果 を表4.5に
R*2,Cp,AIC,
2 s CV
示 す.最
適 なモ デ ル と して
いず れ も
p=4:{RAIN,EDUC,NONW,LSO2},s2=1315.1, を 選 択 し て い る.推
じモデル
準 に よ る ベ ス ト 5の モ デ ル
定 さ れ た 回 帰 モ デ ル は 表4.6に
は モ デ ル 選 択 規 準 に か か わ ら ず 同 じ 結 果 で あ っ た.
R=0.683 示 す と お り で,こ
の 結果
表4.6
モ デ ル 選 択 規 準 に よ り選 択 され た 最 適 回 帰 モ デ ル
4.8
HjorthのCMV規
準
こ れ まで 議 論 し て き た モ デ ル 選 択 の 規 準 は,も を 評 価 す る た め の もの で あ るが,実
ち ろ ん,あ
るモデ ルの 良 さ
は,現 在 の デ ー タに 基 づ い て,多
くの モ
デ ル の 中 か ら最 適 な モ デ ル を 一 つ 選 ぶ とい う 「モ デ ル 選 択 そ れ 自身 の 不 確 定 性 」 を 考 慮 し て い な い の で あ る.例
え ば,あ
る モ デ ル 選 択 規 準 と し てAIC
を 考 え て み よ う.も ち ろ ん,MallowsのCp,s2,R2,R*2,s2CVで い.い
も何 で も よ
ま,候 補 と な る モ デ ル が 全 部 で K 個 あ り
{M1,M2,...,MK} と し よ う.そ れ ぞ れ の モ デ ル のAICをAICκ に,そ
れ ぞ れ の モ デ ル のAICは
タ を と っ て,そ
れ ぞ れ のAICを
とす る と,1.2節
式(4.26)の
で 示 した よ う
不 偏 推 定 量 で あ っ た.い
まデ ー
計 算 し て 最 小 の モ デ ル が モ デ ルMjで
た と し よ う.と す る と,つ ね に モ デ ルMjが
あっ
選 ば れ る こ とが な け れ ば,す
わち Pr{min AICi=AICj}<1
で あ れ ば,期
(4.61)
待 値 は積 分であ る こ とを考 えて AICj=min
AICi〓AICi
⇒ E(min AICi)<E(AICi)
つ ま り,
E(min AICi<E(AICj)
と な る.つ
ま り,モ デ ル 選 択 と い う行 為 に よ りモ デ ルMjの
(4.62)
本 来 のAICが
な
小 さ め に推 定 され て し ま う とい うバ イア ス を もつ こ と に な る の で あ る.も 自 由 度 調 整 重 相 関 係 数 を利 用 し た と し た ら,最
し,
適 なモデ ルの 重相 関係数 は本
来 の 重 相 関 係 数 を 大 きめ に 推 定 す る バ イ ア ス を 示 す こ と に な る. こ の 種 類 の 欠 点 は,現
在 の デ ー タ だ け に 最 も よ くフ イッ ト した 回帰 モ デ ル
か ら 推 定 され た 誤 差 分 散s2が る.こ
の 意 味 で,変
過 小 評 価 され て い る 点 に きわ め て 類 似 し て い
数 選 択 に 伴 う変 動 を 評 価 す る,つ
ま り,モ デ ル の ク ロ ス
バ リデ ー シ ョ ン を 目的 と し た ク ロ ス ・モ デ ル ・バ リデ ー シ ョ ン(cross model validation)と
い う方 法 がHjorth(1982)に
よ り提 案 され た.モ
デ ル選択 の不
確 定 性 は 残 念 な が ら理 論 的 に は 評 価 で き な い の で ク ロ ス ・バ リデ ー シ ョ ン で 評 価 し よ う と い う もの で あ る.こ され て い な い と い う点 で,ま
る が,そ
販 の 統 計 ソ フ トに も導 入
だ 市 民 権 を得 る ほ ど に は 至 っ て い な いが,コ
ピ ュ ー タ 時 代 に ふ さ わ し い,利 法 をHjorthのCMV規
の 方 法 は,市
用 価 値 の 高 い 手 法 で あ る.こ
準 と よ ぶ.さ
て,そ
こで は,こ
ン の方
の 方 法 は 以 下 に 示 す とお りで あ
の 中で 使 用 され るモ デ ル 選 択 規 準 は す で に 述 べ た 中 の 何 で も よ い が
一つ 決 め る必 要が あ る. HjorthのCMV規
準 の ア ル ゴ リズ ム
1)Step1:i←1.
2)Step2:第
i組 目 のyiを
り(n-1)組
予 測 す る の に i組 目 の デ ー タ を 除 い た 残
のデ ー タ
DEST,i={yκ;xκ1,xκ2,…,xκp},κ=1,2,...,n;κ
≠i
を 推 定 用 デ ー タセ ッ トと す る. 3)Step3:事
前 に 決 め た 選 択規 準 に 従 っ て,す
q(q=1,2,...,p)毎
に最 適 モ デ ル を決 定 す る.総 当 たり 法 が 利 用
で き な い 場 合 は,stepwise法 M(q,DEST,i):モ
と し,こ
を 利 用 参 る.こ
こ で,
デ ル サ イ ズ が qの 最 適 モ デ ル
の 最 適 モ デ ル に よ る 第 i組 のyiの yi(q)=yi(M(q,DEST,i)),q=1,2,...,p
と定 義 す る.
べ てのモ デル サ イズ
予 測値 を (4.63)
3)Step4:i←i+1;Go 4)Step5:予
to step 2.
測 誤 差 分 散 を
で 計 算 す る. 5)Step6:最 を
後 に,予
測 誤 差 分 散 が 最 小 と な る モ デ ル の 変 数 の 数q*
決 定 す る.
6)Step7:モ デ ルサ イズq*の 中か らデー タ全部 を利用 しそ 最適 モデ ル(変 数 の最 適 な組 み合せ 〉 を事前 に決 めた 選択 規準 に よ り決定 す る 。
上 記 のStep3
に お い て,変 数 の 数 が あ る 程 度 小 さけ れ ば(p<20程
度),す べ
て の 組 み 合 せ の 中か ら最 適 な モ デ ル を 選 択 す る 方 法(best subset regression) が 利 用 で き るが,大
きけ れ ば 変 数 増 加 法,減
少 法,増
減 法,減
増 法 を利 用す
れ ば よ い だ ろ う.ま た,観 測 値 の 組 み 数 nが 大 き くな る と 時 間 が そ れ だ け か か る が,DESTを
デ ー タの100(1-α)%,DPREDを100α%等
工 夫 も有 効 で あ る.例
え ば,n=1000の
り返 し が 必 要 で あ るが,デ れ ば,計100回
場 合,上
ー タの 最 初 か ら10個
とす るな どの
記 の 方 法 で は1000回 毎 にDPREDと
の 繰 り返 しで 済 む.こ の 場 合 は 式(4.64)の
の繰
して 定義 す
予 測誤 差 の分散 は
で 計 算 す る.
4.9
さ て,CV規 表4.1の
モ デ ル 選 択 の 例No.2
準 を モ デ ル 選 択 規 準 と し て 利 用 し たHjorthのCMV規
デ ー タ に 適 用 し て み よ う.そ の 結 果 は 表4.7に
準を
示 す よ う に,CV規
準 に よ る最 適 モ デ ル よ りは モ デ ル サ イズ が 一 つ 小 さい モ デ ルが 選 ば れ た,最
表4.7
モ デ ル選 択 の変 動 を考 慮 し ないAllenのCV規 考慮 したHjorthのCMV規
表4.8
適 モ デ ル は 表4.8に
HjorthのCMV規
準と
準 の 比較
準 に よ り選 択 され た 最 適 回帰 モ デ ル
示 し た よ う に,
p=3:{RAIN,NONW,LSO2},s2=1387.0,R=0.660 の 組 み 合 せ が 選 ば れ た.ま
ず,表4.7か s2CMV(q)〓
ら s
2 CV
(q)
と な っ て い る こ とが 理 解 で き る で あ ろ う.モ デ ル 選 択 の 変 動 の 影 響 が 出 て お り,式(4.62)で
示 した よ う に,通 常 の モ デ ル 選 択 規 準 が 低 め に 推 定 す る バ イ
ア ス の 実 例 で あ る.p=6の
と き とp=3の
と きが 両 者 が 一 致 し て い る.前
者 の 場 合 は 最 も大 きい モ デ ル の 場 合 で あ る か ら,比 較 す る モ デ ル(つ 選 択 に よ る 変 動)が
ま り,
な い の で 一 致 し て 当 然 で あ る.後 者 の 場 合 に 一 致 し た こ
との 意 味 は,式(4.61)の
確 率 が つ ね に 1で あ る こ と を 意 味 す る の で あ る.つ
ま り,こ の ケ ー ス で は
Pr{M(q=3,DEST,i)={RAIN,NONW,LSO2}}=1, で,DEST
,iに か か わ らず,つ
ね に 組 み 合 せ{RAIN,NONW,LSO2}が
最適
モ デ ル で あ っ た こ と を 示 し,そ れ だ け こ の 組 み 合 せ が 強 い モ デ ル で あ る こ と を 意 味 す る の で あ る.つ
ま り,(1)降 雨 量 が 多 く(天 候 条 件),(2)白
の 人 種 が 多 く(低 所 得 者 階 級 を 表 現),し
人以外
か も,(3)工 場 を 固 定 発 生 源 と した
大 気 汚 染 物 質 の 代 表 で あ る 二 酸 化 硫 黄 に 汚 染 され て い る程 度 が 高 い ほ ど全 死
因 の 死 亡 率 が 高 く な る と い う,reasonableな
モ デ ル で あ る.
モ デ ル 選 択 の 変 動 を考 慮 をせ ず に選 ば れ た 最 適 モ デ ル とCMVで モ デ ル の(1)予 測 値 の プ ロ ッ トの 比 較,CMVで ロ ッ トを 図4 .2,図4.3に Orleansが
の 最 適 モ デ ル の(2)残 差 プ
示 した.残 差 プ ロ ッ トで み る とLouisiana州
のNew
若 干 高 値(推 定 値 が 低 値)に 飛 び 離 れ て い る.
な お,表4.1の
よ う な 死 亡 率 を 取 り扱 う と き は,各
を 考 慮 に い れ た 重 み 付 き 回 帰 モ デ ル,死 化 線 形 モ デ ル(generalized 式(4.1)の
の最適
linear model)な
都 市 の 「人 口 」 の 大 き さ
亡 数 にPoisson分
布 を仮 定 し た 一 般
ど を 利 用 す る の がbetterで
あ る.
単 純 な 「正 規 線 形 」 モ デ ル で は 人 口 が 大 き く異 な る とmisleading
な 結 果 に つ な が る 危 険 性 が 大 き い(12章
参 照).
練 習 問 題 [問 題4.1]y=Xβ+〓,z=Xβ+δ
図4.2
CVで
の 最 適 モ デ ル(p=4)とCMVで
プ ロ ッ トの 比 較
と し,〓,δ
は 独 立 にN(0,σ2I)に
の 最 適 モ デ ル(p=3)と
の予測値の
従
図4.3 CMVで
う と す る.β
の最適モデ ルの残差プ ロッ ト
は y か ら推 定 し β=(XtX)-1Xtyと
し よ う.そ の と き,こ
の 推 定 値 を 利 用 し て 同 じ 説 明 変 数 の 値 で zの 予 測 に 利 用 す る と き次 式 を証 明 せ よ.
(4.65) こ の 推 定 値 は 式(4.43)に
等 し い,つ
[問 題4.2]AllenのCV規
準 のs
2 CV
ま りAIC規
準 と漸 近 的 に 等 価 で あ る.
が,式(4.60)の
よ う に ハ ッ ト行 列 を 利
用 し て 1回 の 推 定 で 計 算 可 能 と な る こ と を次 の ス テ ップ で 証 明 せ よ, 1)式(4.10)の
ハ ッ ト行 列 の i番 目 の 対 角 成 分 はhii=xi(XtX)-1xtiで
あ る こ と に 注 意 し て 次 式 が 成 り 立 つ こ と を 示 せ.
2)XtX=
n
Σi=1
xixtiで
あ る こ と に 注 意 し てDEST
定 値 β(-i)は β(-i)=(XtX-xixti)-1(Xty-xiyi) 3)1),2)か
ら
,iか ら 推 定 さ れ た 推
-yi-yi
β(-i)=β こ こ に,yi=xtiβ
4)結 局,次
(XtX)-1xi
/1-hii
式 が 成 立 す る.
な お,式(4,66)は
analysis)に
△β=β-β(-i)
[問題4.3]モ
yi-yi
/1-hii
第 i組 目 の デ ー タが 回 帰 係 数 の 推 定 値 β に 与 え る 影 響 の 度
合 を 検 討 す る 感 度 分 析(sensitivity
た,そ
(4.66)
で あ る.
yi-yi(DEST,i)=
が,ま
の 関 数 で あ るCook(1979)の
デ ル 選 択 規 準 にAllenのCV規
利 用 してHjorthのCMV規 結 果 を再 現 せ よ.
(4.67)
距 離 は 有 名 で あ る.
準,変
数 選 択 に 総 当 た り法,を
準 ア ル ゴ リズ ム の プ ロ グ ラ ム を 作 成 し,表4.7の
5 測定誤差 のあ る線 形モデ ル―
こ こ で は,説
測定法 の比較
明 変 数 に 測 定 誤 差 の あ る 場 合 の 回 帰 モデ ル の 例 と し て 測 定 法
の 比 較 を 取 り上 げ る.表5.1は
未 熟 児20例
の 検 体 か ら血 清Kanamycinの
をheelstick法(X),umbilical
catheter法(Y)の
2種 類 の 検 査 法 で 測 定 した
も の で あ る.2 種 類 の 測 定 法 の 比 較 を統 計 学 的 に 推 論 せ よ. 表5.1
未 熟 児20検
値
体 か ら 測 定 した.血清Kanamycin値
5.1
測 定 に は 誤 差(error)が
誤
差
つ き もの で あ る.真
値 が θで あ る物 質 の 測 定 値 を
x と す る と 誤 差 〓は 〓=x-θ
で 定 義 され る.こ
(5.1)
の 誤 差 の 中 身 は 大 き く分 け て
1)分 析 操 作 の 誤 り 2)精
密 度(precision)ま
3)偏
り(bias),正
た は,偶
然 誤 差(random
確 度(accuracy),ま
の 三 つ に 分 解 で き る.す
た は 系 統 誤 差(systematic
error)
な わ ち,
〓=(x-y)+(y-μ)+(μ-θ)
と な る.こ
error)
(5.2)
こ に,y は 操 作 誤 りの な い 場 合 の 測 定 値 で あ る.操 作 誤 りが な い
と仮 定 す れ ば 真 値 θを もつ 試 料 を n 回 「繰 り返 し 測 定 」 し た と き の 第 j回 目 の 測 定 値xjは
母 平 均 μ,母 分 散 σ2eの正 規 分 布 に 従 う変 量 と 考 え ら れ る(誤
差 の 法 則).さ
て,平
均 値 x を利 用 す る と,第
j回 目 の 誤 差 は
〓j=(xj-x)+(x-θ)
と 分 解 され る.こ
こ で,第
1項 は 偏 差(deviation)と
推 定 値 で あ る 平 均 値 xの ま わ りの バ ラ ツ キ,つ す る.そ
よ ば れ,母
(5.3)
平 均 μの
ま り測 定 法 の 精 密 度 を 意 味
の 平 均 的 な 大 き さは 母 標 準 偏 差 σEの 推 定 値 と して の 標 準 偏 差SD
(standard deviation)
(5.4) で 推 定 で き る.一 表 す.言
方,第
2項(x-θ)は
真 値 か ら の 偏 り(μ-θ)の
推定値を
い 換 え れ ば 測 定 法 の 正 確 度 を 表 す と 考 え られ る,さ て,精
密 度 と正
確 度 を 含 め た 誤 差 の 総 合 的 指 標 と して の 測 定 精 度 σ〓 は
(5.5) で 与 え ら れ る.こ
の 精 度 σTが 臨 床 に お い て ど の 程 度 ま で 許 容 さ れ る か と い
う 精 度 の 目 標 と し て 許 容 誤 差(tolerance
limit)が
よ く 用 い ら れ る.
と こ ろ で,測
定 誤 差 の 大 き さ に 関 し て は,現 実 に 測 定 され る値 の 全 域 で の
評 価 が 必 要 不 可 欠 と な る.し か し,標 準 試 料 の 値 を連 続 的 に 動 か す の も現 実 的 で は な く,実 際 に は低 値,中 評 価 を 行 う.こ の 場 合,真
値,高
値,な
ど数 点適 宜選 定 して測定 誤差 の
値 θ と測 定 値 x と の 間 に x=μ+〓=α+β
と い う 線 形 関 係 が 成 立 す る こ と が 多 い.こ
θ+〓 (5.6) こ で,α
は 一 定 系 統 誤 差(constant
systematic
error),β
は 比 例 系 統 誤 差(proportional
systematic error)と
よ
ば れ る.正
確 度 の 評 価 で は こ の 2種 類 の 誤 差 は 区 別 し て 評 価 し な け れ ば な ら
な い.
5.2 正 確 度 の 評 価 の 基 本
さ て,最
も 基 本 的 な 正 確 度 の 評 価 方 法 は 標 準 試 料 を 利 用 し て,2
系 統 誤 差 の 大 き さ を 検 討 す る こ と で あ る.す 異 な る 標 準 試 料 を α 個 用 意 し,そ る.測
な わ ち,真(表
種類 の
示)値
θiの
れ ぞ れ b 回 繰 り返 し 測 定 す る 実 験 を 考 え
定 順 序 に 関 し て は な ん ら か の 適 当 なrandomizationを
{xij:i=1,...,a;j=1,...,b;N=ab}と
し,一
施 す.測
定 値 を
定 系 統 誤 差 を α,比
例 系
統 誤 差 を β とす る と xij=α+β
θi+〓ij,
と い う 回 帰 分 析 で α と β を 推 定 す る,こ
〓ij∼N(0.σ2e)
(5.7)
こで の 統 計 学 的 推 測 の 興 味 は,そ
れ ぞ れの 信頼 区間 と 1)H0:β=1の
検定
2)H0:α=0の
検定
等 で あ ろ う.
5.3
測 定 法 の比 較
近 年 の 臨 床 検 査 技 術 の 進 歩 は め ざ ま し く,新 し い 測 定 法 が 次 々 と 開 発 され て い る.測
定 法 の 取 り換 え に 際 して は,従
来 法 と新 し い 方 法 の 比 較 検 討 が
重 要 と な る.こ
の 際,日
に 示 す 例 で は,図5.1に
常 遭 遇 す る患 者 検 体 を利 用 す る場 合 が 多 い.表5.1 示 す よ う に,x 軸 に 従 来 法 で あ るheelstick法,y
に 新 しい 方 法 で あ るumbilical catheter法
の 測 定 値 を プ ロ ッ トし て 回 帰 直 線
を 計 算 し て...と い う誘 惑 に 駆 ら れ そ うで あ るが,実 ん で い る の で あ る.表5.2に
は1986年
軸
は こ こ に 落 と し穴 が 潜
の 雑 誌 「臨 床 病 理 」 に 掲 載 さ れ た 臨
床 検 査 法 の 比 較 に 関 す る論 文 の 中で 使 用 され て い た 回帰 直 線 の 例 を示 す.な お,以
下 の 議 論 は,臨
床 検 査 を例 に あ げ る もの の,測 定 法 一 般 に つ い て 適 用
図5.1
表5.2
1986年
表5.1の
の臨 床 病 理(Vol.34)に
主 要 な 結 果(丹
後,1988)
デ ー タの線 形 回 帰 式
掲 載 され た 測 定 法 の 比 較 に 関 す る主 な 論 文 で の
で き る.
5.3.1 線 形 回帰 式 と線 形 関 係 式 従 来 法 の 測 定 値 を x,新 し い 方 法 の そ れ を y と し よ う.同 一 試 料 を 二 分 し て 測 定 値{(xi,yi),i=1,2,...,n}を
測 定 す る 場 合 を 考 え よ う.測 定 法 を 比
較 す る場 合,ま ず 精 度 が 悪 け れ ば お 話 に な ら な い.あ 法 の 精 密 度 を検 討 して.測
らか じめ 2種 類 の 測 定
定誤 差 の分 散比 σ2y/
λ= σ2x
(5.8)
を推 定 し,λ が 許 容 され る 限 界 を 越 え れ ば 新 しい 測 定 法 に は 交 換 で き な い と 判 断 す る の が 順 当 で あ ろ う. さて 正 確 度 の 比 較 の 基 本 モ デ ル は,i 番 目 の 試 料 の 真 値 を θiとす る と,次 の線 形 モデ ル xi=θi+δi,
yi=α+β で あ り,通
δi∼N(0,σ2x)
θi+〓
常 の 線 形 回 帰 式(linear
i, 〓i∼N(0,σ2y)
regression
(5.9)
(5.10)
line)
yi=α+βxi+〓i
で は な い こ とに ま ず 注 意 し た い.期
待 値 で 表 現 す れ ば 線 形 回帰 式 は
E(y)=α+βx で あ る の に 対 して,こ
の 場合 の モデ ル は E(y)=α+βE(x)
とい う違 い が あ る.線 形 回 帰 式 で は,xiに
(5.11)
誤 差 は 許 さ れ て い な い,も
し くは
x軸 の 測 定 誤 差 が y軸 に 比 較 し て 無 視 で き る場 合 を 想 定 して お り,パ ラ メー タ推 定 値 は 最 小 2乗 法(最
尤 推 定 法)に
より
Sxy
β=
/ S2x
α=y-βx で 与 え ら れ る こ と は よ く 知 ら れ て い る.し 最 小 2 乗 法 ま た は モ ー メ ン ト 法 に よ り,
(5.12)
(5.13) か し,式(5.10)の
α,β
は後 述 の
(5.14) α=y-βx で 推 定 さ れ る.こ (検 体 間)の
こ で,S2x,S2y,Sxyは
標 本 分 散,共
(5.15)
分 散 で あ る.も
し,θi間
バ ラ ツ キ に正 規 分 布 が 仮 定 で き る場 合 に は この 推 定 値 は最 尤 推 定
値 に 一 致 す る.こ [例 題5.1]線
の 関 係 式 を 線 形 関 係 式(linear
形 関 係 式 は 観 測 点 P(xi,yi)か
で の x 軸 方 向,y
relationship line)と
い う.
ら 直 線 上 の 点 Q(θi,α+β
θi)ま
軸 方 向 の 距 離 を そ れ ぞ れ の 測 定 誤 差 σ2x,σ2yで規 準 化 した 距
離 の平 方和
(5.16) を 最 小 に す る,最
小 2乗 法 で 導 か れ る こ と を 示 せ.こ
こ で θi,i=1,2,...,n
は 未 知 で あ る. [解 答]線
形 モ デ ル(5.9),(5.10)よ
は そ れ ぞ れ 直 線 上 の 点(θi,α+β る と 考 え ら れ る,し
り,測
定 値 の ペ ア(xi,yi),i=1,2,...,n
θi)を 中 心 に 二 次 元 正 規 分 布(無
た が っ て,パ
相 関)を
ラ メ ー タ の 最 尤 推 定 値 を 考 え る と,測
差 で 規 準 化 さ れ た 距 離D2(Mahalanobis
す 定誤
distance)
(5.17) を最 小 化 す る 問 題 に 還 元 され る.も
し,x 軸 方 向 の 測 定 誤 差 が な け れ ば x軸
方 向 に デ ー タ の バ ラ ツ キ は な い の で, θi=xi,
i=1,2,...,n
で あ る か ら,y 軸 方 向 の 誤 差 だ け を考 慮 に 入 れ れ ば よ く,そ れ は 通 常 の 最 小 2乗 法 に 一 致 す る. ま ず 点 θiを推 定 す る の に偏 微 分
と な る.こ
れ をD2に
代 入 す る と
∂D2/ ∂θi
=0を
計 算 す る と,
(5.18) と な る,こ
のD2に
関す る連立 偏微 分 方程 式
を解 くと βに 関す る二次 方程 式 Sxyβ2-(S2y-λS2x)β-λSxy=0 が 導 か れ る.こ を 満 た す.こ
れ を 解 け ば,式(5.14)が
得 ら れ る,も
(5.19)
ち ろ ん α は 式(5.15)
の 方 法 は そ れ ぞ れ の 真 値 θiが 固 定 さ れ て い る(fixed)と
linear functional relationshipと [例 題5.2]モ
考 えた
よ ば れ る*1).
ー メ ン ト法 に よ っ て も 式(5.14),(5.15)で
与 え られ る推 定 値 が
導 か れ る こ と を 示 せ. [解 答]検
体 の 真 値
(5.9),(5,10)よ
θiの 期 待 値 と 分 散 を μ,σ2と
す る と,線
り E(Xi)=μ
E(yi)=α
σ2x
Var(yi)=β2σ2+σ2y Cov(xi,yi)=β
(5.19)の
(5.20)
+ βμ (5.21)
Var(Xi)=σ2+
が 成 立 す る.こ
形 モ デ ル
σ2
れ ら の 式 に 標 本 平 均,標
本 分 散,標
二 次 方 程 式 が 得 ら れ 式(5.14),(5.15)の
(5.22) (5.23) (5.24)
本 共 分 散 を代 入 す る と式
線 形 関 係 式 が 推 定 さ れ る.こ
の 方 法 は そ れ ぞ れ の 真 値 θiが あ る 分 布 に 従 う 変 量(random
variable)で
と 考 え たlinear structural relationshipと
定 誤 差 を考 慮 し
よ ば れ て い る.測
あ る
た 統 計 学 的 推 測 は こ の 考 え 方 が 利 用 さ れ る. さ て,式(5.12),(5.22),(5.24)よ
り
(5.25) *1) な お
,こ
n+2で
の 方 法 で は 推 定 す べ き パ ラ メ ー タが
α,β,θi(i=1,2,...,n)と
あ る た め 統 計 学 推 測一 般 に は 適 さ な い.
デ ー タ数 よ り 2個 多 い
が 導 か れ る.つ
ま り測 定 誤 差 σ2xを無 視 して 回 帰 直 線 を推 定 す る と真 の 傾 き
β よ り小 さめ に 推 定 され て し ま う(attenuated to zero)こ とが わ か る.測
定
誤 差 σ2xが大 きい ほ ど 小 さ くな る.
をattenuation
factorと
よ ぶ.
5.3.2 Bootstrapに
よ る推 測
推 定 値 α,βの 標 準 誤 差,帰
無 仮 説 「H0:β=1,α=0」
の 検 定,信
頼 区間
の 計 算 な ど の 推 測 は 通 常 の 回 帰 モ デ ル と異 な り容 易 で は な い.日 常 遭 遇 す る 患 者 検 体 の 中か ら選 ば れ る検 体(真
値)の
分 布 が 正 規 分 布 す る 仮 定 も不 自然
で あ る し,そ の よ うに 仮 定 し て も理 論 的 な推 測 は容 易 で は な い.し こ こ で は 分 布 型 に 依 存 し な いbootstrap法(3 的 で もあ り便 利 で あ ろ う.例
え ば,勾
章 参 照)を
の 問 題 点 は 問 題5.6参
1)ωi=(xi,yi),i=1,2,...,nと
ン プ ル をbootstrap 3)こ
のbootstrap
4)Step2-3
中 か ら 重 複 を 許 し て 無 作 為 に(コ
組 の サ ン プ ル(ω*1,...,ω*n)を sampleと
sampleを
信 頼 区 間 はEfronのBC法(3.4.2項)ま の が 簡 単 で あ る.
抽 出 す る.こ
のサ
代 入 し て β*を 計 算 す る. 得 る.信
頼 区 間を計算 す る
が 必 要 で あ る.
推 定 値 β の 標 準 誤 差 のbootstrap推
こ に,β*=
ンピュー
よ ぶ.
式(5.14)に
の が 最 終 目 的 の 場 合 はB=2000位
で 与 え ら れ る.こ
以 下 に示
照).
を B 回 繰 り返 し,{β*1,...,β*B}を
5)式(5.14)の
bootstrap)は
か し,
す る.
2)n 組 の 測 定 値(ωi,...,ωn)の タ 乱 数 を 利 用 し て)n
利 用 す るのが 実 際
配 β に 関 す る 一 つ の 簡 単 な,し
少 々 過 大 評 価 ぎ み の ア ル ゴ リズ ム(nonparametric す と お りで あ る(そ
たが って,
ΣB1β*j/Bで
定値 は
あ る.
た は,BCa法(3.4.3項)を
利 用す る
[例題5.3]表5.1の [解答]こ
未 熟 児 の デ ー タ に つ い て 解 析 し て み よ う.
こで は 測 定 誤 差 の 分 散 比 は λ=1と
S‐Plusで 行 い,そ
の プ ロ グ ラ ム は 付 録B.4に
仮 定 で き る と し よ う.計 算 は 示 す.推 定 され た 線 形 関 係 式 は
E(y)=-1.16+1.07E(x) で あ っ た.ま
たB=2000と
し てbootstrap法
形 関 係 式y=α*j+β*jx,j=1,...,B を 図5.3に
示 し た.ま
を 図5.2,ま
た,BC法
に よ り,α,β
β: 0,72∼1.53,
た,α*jと
の線
β*jの 散 布 図
の信 頼 区間 は
SE=0.222
α:-10.70∼5.20,
と推 定 され た.こ
に よ り推 定 し た2000本
SE=4.279
の 結 果 よ り,帰 無 仮 説H0:α=0,β=1を
積極 的 に否定
で きず,2 種 類 の 測 定 方 法 の 差 異 認 め る 十 分 な 証 拠 は な い と推 測 で き る.ま た,二
つの 回帰 直線 は y =2
図5.2
表5.1の
.786+0.881x
デ ー タ の 線 形 関 係 式 のB=2000回
のbootstrap推
定
図5.3
表5.1のbootstrap
sample(α*j,β*j,j=1,...,B)の
散 布 図
x=-5.350+1.271y で あ っ た.こ
れ ら の 3 種 類 の 直 線 を 図5.4に
は 定 点(x,y)=(20.86,21.15)を
5.3.3
示 し た.も
つ の直線
通 る.
繰 り返 し測 定 の あ る 場 合
繰 り 返 し デ ー タが な い 場 合 に は,あ お く必 要 が あ っ た が,も
し,同
ら か じ め 測 定 誤 差 の 分 散 比 を推 定 し て
一 試 料 を 4等 分 し て そ れ ぞ れ 2回 繰 り返 し て
測 定 し た デ ー タ{(xij,yij),i=1,2,...,n;j=1,2}が は な く,か 1)精
ち ろ ん,三
つ,よ
得 ら れ れ ば,そ
の必 要
り 完 全 な 解 析 が 一 挙 に 可 能 と な る.
密度 の 比較 ま ず,そ
れ ぞ れ の 精 密 度,例
え ば,
(5.26)
図5.4
を 計 算 して,分
表5.1の
デ ー タの線 形 関 係 式
散比を
(5.27) と 推 定 す る と と も に信 頼 区 間 を計 算 す る こ とが で き る.帰 無 仮 説 H0:σ
の 下 で は,式(5.27)は
2
自 由度(n,n)の
x=σ
2 y
(5.28)
F 分 布 に 従 うの で,検 定 に よ り
新 し い 方 法 の 精 密 度 を 検 討 す る こ とが 可 能 で あ る. 2)正 確 度 の 比 較 基 本 モ デ ル は,式(5.9),(5.10)と
同 様 で,真
値 を θiとす る と,次 の
線 形 モ デ ル で 与 え られ る. xij=θi+δij,
δij∼N(0,
2 σx
) (5.29) 2
yij=
α+β
θi+〓ij,
〓ij∼N(0,
σy
)
(5.30)
こ の モ デ ル で は α,βの 推 定 が,
(5,31)
と 変 換 す る こ と に よ り,式(5.14),(5.15)が
利 用 で き る.λ
は 式(5.27)
の 推 定 値 が 利 用 で き る の で あ る. 3)患
者試料 の大 き さ
さ ら に,新
しい 測 定 法 の 精 度 が 従 来 法 に比 較 して,許
容 で きない精
度 を もつ もの を検 定 で 排 除 す る た め に最 低 限 必 要 な 標 本 サ イ ズ を 考 え る こ とが 可 能 で あ る.そ
れ に は,ま ず,測
定 誤 差 の 分 散 比(=
変 動係
数 の 比 の 2乗)
(5.32) の 許 容 限 界 λ0を 設 定 す る こ とで あ る.そ
うす る と,式(5.28)の
仮 説 の 下 で の 等 分 散 の F 検 定 に お い て,Fn,n(α)を 側100α%点
帰無
自 由 度(n,n)の
とす る と有 意 水 準 α で 有 意 差 が 出 る(設 定 した λ0を 検 出
す る)確 率,す
なわ ち 「 検 出 力1-β 1-β=Pr{F>Fn
した が っ て,標
本 サ イ ズnと
」 が 次 式 で 計 算 で き る. ,n(α)/λ0} (5.33)
λ0の 値(CVの
比 の 2乗)の
組 み合せ
に 関 す る検 出 力 を計 算 し,必 要 な n の値 を 検 討 す る.表5.3に 値 を示 す.現
実 に は,少
な く と も,検 出 力80%は
一部 の
ほ しい.
練習問題 [問題5.1] 線 形 関 係 式 の傾 き β に 関 して 次 の 命 題 を証 明 せ よ. 1
上
λ → ∞ の と き β=βy│x=Sx
2
λ →0の
と き β=β
3
βx|y〓 β 〓 βylx
4
λ=1の
x│y=Sxy/
2
y/S x
S
2 y
(式(5.12))
(xの y に対 す る 回 帰 式 の 傾 き)
と き β は 2 変 数 x,y の 主 成 分 分 析(principal
表5.3
有 意 水 準5%で
の検 出力(%)の
表
component
analysis)を [問 題5.2]
適 用 し た と き の 第 1主 成 分 の 傾 き に 等 し い.
例 題5.1で,T(xi,α+βxi)と
す る と
tan∠QPT=β/λ
で あ る こ と を 証 明 せ よ. [問 題5.3]
式(5.18)を
変形 す る と
とな る.こ れ か ら類 推 し て,線 形 関 係 式 の モ デ ル の 検 証 の た め の 残 差 統 計 量 は
表5.4
患 者 検 体48例
か ら 2 種 類 の 方法 で 測 定 し た あ る 臨床 検 査 値
(5.34) で あ り,モ
デ ル(5.9),(5.10)が
に,約99.7%が
正 し け れ ば,残
区 間(-3,3)に
差 の 約95%が
入 る と 推 測 で き そ う で あ る が,こ
区 間(-2,2) の こ とを説
明 せ よ. [問 題5.4]
表5.1の
デ ー タ の 残 差 プ ロ ッ ト を 行 え.
[問 題5.5]
表5.4は
あ る 検 査 に 関 す る 標 準 法(reference
提 案 さ れ た 方 法(proposed
method)に
よ る48検
方 法 で 2 回 繰 り 返 し て 測 定 し た デ ー タ で あ る.線
method)と
新 し く
体 を利 用 して それ ぞ れ の 形 関 係 式 を 推 定 せ よ(答:
E(y)=−6.629+0.991E(x)). [問 題5.6] に,計
5.3.2項
で 解 説 し た 線 形 関 係 式 で のbootstrap
画 行 列 が 変 化 し,計
さ れ て い る.そ
こ で,例
画 行 列 のsamplingの 題5.1を
sampleで
はつ ね
影 響 で 分 散 推 定 が 大 きめ に
参 考 に して
δi=xi-θi〓
i=yi-a-β
と し た 誤 差(δi,〓i),i=1,....nか ル ゴ リ ズ ム が 考 え ら れ る か? [問 題5.7]
ら のbootstrapを
考 え た らど の よ うなア
ま た そ の 結 果 を 比 較 し て み よ.
式(5.9),(5.10)で θi∼N(μ,σ2)
と 仮 定 で き る 場 合,α,β を 示 せ.
θi
(5.35)
の 最 尤 推 定 値 は 式(5.14),(5.15)に
一致 す る こ と
6 一 般 化 線 形 モ デ ル(GLIM)
表6.1は,あ
る 薬 剤 の50%致
死 量(LD50,median
こ と を 目 的 と し た 毒 性 試 験 の デ ー タ で あ る.ロ
lethal dose)を
推 定す る
ジ ス テ ィッ ク 回 帰 モ デ ル で 推
定 し て み よ う.
6.1
Nelder and generalized
は
Wedderburn(1972)に linear
model)は
じ め に
よ り提 案 さ れ た 一 般 化 線 形 モ デ ル(GLIM, 今 日の医学 分 野 におけ る統 計学 的推 測 の根 幹 を
な す 基 本 モ デ ル で あ る(McCullagh
and
Nclder,1989).そ
れ は,古
典 的 な線
形 モ デ ル に お け る 誤 差 項 に 仮 定 さ れ て い た 正 規 分 布 の 枠 組 み を 外 し,正
規分
布 に な じ まな い 確 率 変 数 に 対 し て も統 一 的 な 線 形 推 測 が 可 能 と な る よ うに し た も の で あ る.い
く つ か の 例 を 紹 介 し よ う.
1)正 規 線 形 モ デ ル 表6.1
毒性試験デ ータ
4章 で 例 題 と して 利 用 した 大 気 汚 染 の 健 康 影 響 に 関 す るデ ー タ の 線 形 回 帰 モ デ ル は,誤
2)ロ
差 に 正 規 分 布 を 仮 定 す る と,次 の よ うに 表 現 で き る. yi∼Normal(μi,σ2)≡N(μi,σ2)
(6.1)
μi=β0+β1xi1+…+βpxip
(6.2)
ジ ス テ ィッ ク 回 帰 モ デ ル
表6.1に
示 す動 物 を利 用 した毒 性試 験 のデ ー タにおけ る解析 の 一つ
の 方 法 は,各 用 量 群 の 標 本 サ イズmiの
中 の 観 測 死 亡 数diが
piを 母 数 に も つ 二 項 分 布Binomial(pi,mi)に
死亡 確率
従 う確 率 変 数 で,用
量反
応 曲線 が ロ ジ ス テ ィッ ク 曲 線 に 従 うモ デ ル を導 入 す る こ とで あ る. di∼Binomial(pi,mi)
(6.3)
(6.4) 3)ロ
ジ ス テ ィッ ク 回 帰 モ デ ル
ア メ リ カ の フ ラ ミ ンガ ム で 開 始 され た 冠 状 動 脈 性 疾 患 の リ ス ク フ ァ ク ター に 関 す る 大 規 模 コ ホ ー ト研 究 で は,調 す る リ ス ク フ ァ ク ターxi=(xi1,...,xip)を
査 対 象 者 i毎 に(1)検 討 追 跡 開 始 時 点 で 観 測,(2)
12年 間 の 追 跡 期 間で の 当 該 疾 患 の 発 生 の 有 無di=0(無),1(有)を
観測
し た.当 該 疾 患 の 発 生 確 率piに 影 響 を 与 え る リス ク フ ァ ク ター を検 討 す る 一 つ の モ デ ル は次 の よ うに 表 現 で き る. di∼Binomial(pi,1)
(6.5)
(6.6) 4)Poisson回
帰モデ ル
あ る県 内 の 市 町村 毎 の 死 亡 率 の 比 較 に標 準 化 死 亡 比(SMR,standard mortality
ratio)が よ く用 い られ る.そ
れ は 観 測 死 亡 数diを(県
ま た は 国 全 体 の 年 齢 階 級 死 亡 率 に 基 づ い て 計 算 さ れ る)ベ 期 待 死 亡 数E0iで
除 し た 比 で あ る.死
社 会 経 済 的 要 因xi=(xi1,...,xip)を デ ル は,死
全体
ース ラ イン
亡率 の地域 差 を説 明す るため に 説 明 変 数 と して 行 わ れ る 回 帰 モ
亡 数 が 期 待 死 亡 数 μiを もつPoissozi分
布Poisson(μi)に
従 う確 率 変 数 と考 え た 次 の 対 数 線 形 モデ ル(log‐linear model)が
標準 的
な 統 計 モ デ ル で あ る. di∼Poisson(μi)
(6.7)
logμi=logEoi+β1xi1+…+βpxip
こ の 線 形 モ デ ル か ら,説
(6.8)
明 変 数 で 調 整 され たSMRの
推 定値が
(6.9) と して 求 め ら れ る.
6.2
GLIMは
GLIMの
次 の 三 つ の 成 分 で 規 定 され る モ デ ル で あ る.
(1)ラ ン ダ ム 成 分(random 規 分 布,二
三 つ の 特徴
component)
項 分 布,Poisson分
確 率 変 数Yiの
従 う分 布 は,正
布 など を含 む指 数型 分布 族
(6.10) で あ る.こ
こ に θiは 正 準 母 数(canonical
数(dispersion れ る.Yiの
parameter),ま
parameter),φ
た は 局 外 母 数(nuisance
は 散 ら ば りの 母 parameter)と
よば
期 待 値 と分 散 は μi=E(Yi)=b(θi)
(6.11)
Var(Yi)=ai(φ)b(θi)
で 与 え ら れ る.こ
こ で,b(θ)は
ance function)と
期 待 値 μ だ け の 関 数 で あ り,分
よ ば れ る,こ
(6.12)
散 関 数(vari
の 意 味 で, V(μi)=b(θi)
と し て お く.ま
(6.13)
た,ai(・)は ai(φ)=φ/ui,(uiは
の 形 に 特 定 す る . さて,指
(6.14)
数 型 分 布 族 の例 を 典 型 的 な 分 布 で 調 べ て み る と次
の と お りで あ る. 1)正 規 分 布:Y
既 知)
∼ N(μ,σ2) α(φ)=φ;ui=1
b(θ)=θ2/2 μ=θ V(μ)=1
2)二
項 分 布:Y=d/m,d∼Binomial(μ,m),μ=p α(φ)=1/m,φ=1,ui=mi b(θ)=log(1+exp(θ)) μ=1/(1+exp(-θ)) V(μ)=μ(1-μ)
3)Poisson分
布:Y∼Poisson(μ) α(φ)=1,φ=1,ui=1 b(θ)=exp(θ)
μ=exp(θ) V(μ)=μ
(2)系 統 的 成 分(systematic
component)
明 変 数, 共 変 量 の 線 形 結 合 をGLIMで と よ び,η
通 常 の線形 モデ ル で考 え る説
は 改 め て 線 形 予 測 子(linear predictor)
で 表 す:
(6.15) (3)連 結 関 数(link function)
期 待 値 μiと 線 形 予 測 子 ηiと を 連 結 す る
関 数g(・): g(μi)=ηi=xtiβ を 連 結 関 数 と よ ぶ.連
結 関 数 の 中 で,特
の が 正 準 連 結 関 数(canonical
(6.16)
別 な,し
か し,標
準 的に利 用 され る
link function)
g(μi)=θi=ηi=xtiβ
(6.17)
で あ る.こ の 連 結 関 数 に よ る 推 測 は θの 十 分 統 計 量 が 利 用 で きる の で,他 連 結 関 数 よ り特 に 小 標 本 で 望 ま し い 性 質 が あ る.例 え ば,そ の 正 準 連 結 関 数 は 次 の とお りで あ る.
の
れぞれ の 分布で
1)正 規 分 布:μ=η(正
規 線 形 モ デ ル)
2)二 項 分 布:log{μ/(1-μ)}=η(ロ 3)Poisson分
ジ ス テ ィ ッ ク 回 帰 モ デ ル)
布:logμ=η(Poisson回
帰 モ デ ル)
これ 以外 の連 結 関数 として は 1)プ
ロ ビ ッ ト変 換
Φ-1(μ)=η (6.18) 2)complementary
log-log変
換
log{-log(1-μ)}=η 3)Box-Cox変
(6.19)
換
(6.20) な ど が 利 用 され る,
6.3最
さて,母
尤
推
定
数 の 推 定 は 最 尤 推 定 が 用 い られ る.最
尤 推定 量 β は 対数 尤 度
(6.21) を 最 大 に す る,つ
ま り,βs,s=0,1,...,pで
偏 微 分 し て
(6.22) を 満 た す.こ
こに
(6.23) で あ る.さ
て,正
準 連 結 関 数 を 考 え れ ば,
とな る こ と に 注 意 し よ う. 次 に,式(6.22)を
βtで 偏 微 分 す る と
(6.24) と な る.そ
の期 待値 を とる と
(6.25) こ こ に,
(6.26) で あ る.し
た が っ て,Fisherの
ス コ ア 法 を 利 用 す れ ば,ベ
ク ト ル 表 示 で,
(6.27)
を 解 け ば よ い.最
尤 推 定 値 の 漸 近 分 散 はFisherの
情報 行 列の 逆行列
(6.28) で 与 え られ る. こ こ で は,式(6.27)を
さ ら に 変 形 し て み よ う.
と な る.こ
れ は
と い う回 帰 モ デ ル の 最 小 2乗 解 の 反復 計 算 と な る こ とが わ か る.言 い 換 えれ ば,β
の 最 尤 推 定 の 反 復 計 算 の 各 過 程 は,
〓重 み:ωi=1/{αi(φ)b(θi)(g(μi))2} 〓従 属 変 数:ηi+g(μi)(yi-μi) 〓 説 明 変 数:xi
と設 定 し た 通 常 の 重 み 付 き線 形 回帰 モ デ ル で 最 小 2乗 解 と同 値 とな る こ とが わ か る.例
え ば,正
規 分 布 の ケ ー ス で あ れ ば,重
明 変 数 は そ れ ぞ れyi,xiと 一 致 す る. と こ ろ で,式(6.29)の 値 が 必 要 に な る が,一 の が 通 常 で あ る.し て はy=0,1で
な り,繰
み は ωi=1,従
属 変 数,説
り返 し な し の 通 常 の 線 形 回 帰 モ デ ル に
重 み 付 き最 小 2乗 解 の 反 復 計 算 に は 従 属 変 数 の 初 期 般 に は デ ー タ 自 身yiを
か し,二
μiに 代 入 し た η(yi)を用 い る
項 分 布 の 場 合 の η(y)=log{y/(1-y)}に
発 散 し ま うの で,そ
おい
の よ う な 場 合 に は 微 調 整 し た η(yi+〓
と設 定 す る 必 要 が あ る.
6.4
モデ ル の 適 合 度 の評 価
一 般 化 線 形 モ デ ル の デ ー タ に 対 す る 適 合 度 を 評 価 す る方 法 と し て は,尤 度 比 検 定 規 準 の 考 え 方 を 利 用 し た"scaled deviance"を
利 用 す る.そ れ は,デ ー
タ 自身 を 代 入 し た full model
の対 数 尤度 ι 〓 とp+1個(interceptを
〓:θ=θ(yi)
考 慮 し て の 「+1」)の 母 数 を もつ モ
デ ル の 最 大 対 数 尤 度 ιpと の 差 の 2倍 で 定 義 され る:
(6.30) こ こ で,D(p,〓)を
“deviance”
と よ ぶ.“scaled
ル が 正 し い と い う 帰 無 仮 説 の 下 で 漸 近 的 に(正 由 度n-p-1の
χ2分 布 に 従 う.例
deviance”
は,現
在 の モデ
規 線 形 モ デ ル で は 正 確 に)自
え ば,
1)正 規 線 形 モ デ ル この 場 合 に は
(6.31) と よ く知 られ た 性 質が 導 か れ る. 2)二 項 分 布 モ デ ル こ の 場 合 に は,
で あ る こ と に 注 意 し て 式 を 変 形 して い くと
(6.32) が 得 られ る. 3)Poissonモ
デ ル
(6.33) が 得 られ る.
二 項 モ デ ル,Poissonモ
デ ル で は,deviance統
計 量 以 外 にPearsori
χ2適
合度 統 計量
(6.34) が 利 用 で き る.ま
た,そ
の 成 分 のPearson残
差
(6.35) で あ る.正 規 線 形 モ デ ル の 残 差 は こ のPearson残
差 を散 らば りの パ ラ メー タ
φ の推 定値 で規 準化 した残 差
(6.36) を 利 用 す る の が 通 常 で あ る.二 が 適 合 し て い れ ばX2の
値 はdevianceと
E(X2)=n-P-1(現
か し,多
れ ら の 漸 近 性 が くず れ,特
6.5
く の 観 測 度 数miま にdevianceの
Analysis
た は,yiが
の よ
あ る.
of deviance
局 外 母 数 φ を 含 ま な い 統 計 量 で あ る た め,こ
デ ル で はanalysis
小 さ
性 質 が 悪 く な る.こ
計 量 がbetterで
て 正 規 線 形 モ デ ル で は い わ ゆ る 分 散 分 析(analysis Poissonモ
在 の モデ ル
同様
う な 場 合 に は ど ち ら か と い う とPearson統
さ て,devianceは
デ ル で,現
在 の モ デ ル が 正 し い と い う 条 件 で)(6.37)
の 近 く に あ る は ず で あ る.し い と,こ
項 モ デ ル,Poissonモ
of devianceが
of variance),二
れ を 用い 項 モ デ ル,
展 開 で き る.
その準 備 として Mp=p+1個 と して,二
の 母 数 を含 む モ デ ル
つ の モ デ ルMpとMq(P>q)を
り,こ こ で,興
比 較 す る こ と を考 え よ う.つ
ま
味 あ る検 定仮 説 は
H0:モ
デ ルMPか
ら 除 か れ た(p-q)個
の母 数 の効 果は な い
H1:モ
デ ルMpか
ら 除 か れ た(p-q)個
の母 数 の効 果 はあ る
(6.38)
で あ る.ま て,そ
ず,正
規 線形 モデ ル では
のdeviance(=残
「最 大 モ デ ル の 母 数 の 数 をpmax」
差 平 方 和)をD(pmax,〓),自
とし
由 度 をn-pmax-1と
す る と,「 最 大 モ デ ル を 前 提 に し て 」 散 ら ば り の パ ラ メ ー タ φ を,
(6.39) と 推 定 し て お く.そ うす る と,帰 無 仮 説 の 検 定 統 計 量 は F 検 定 統 計 量 とな る:
(6.40) つ ま り,こ れ に よ り,分 散 分 析 表 が 構 築 で き る . 一 方,二
項 分 布,Poisson分
布 の 場 合 に はscaled deviance=devianceで
あ る の で 単 純 に,「devianceの ま り,大
差 と し て 」 尤 度 比 検 定 統 計 量 が 定 義 で き る.つ
き い モ デ ルMpが
正 し い と い う帰 無 仮 説 の 下 で
(6.41) が 成 立 し,モ
デ ルMpか
ら 除 か れ たp-q個
比 検 定 に よ り計 算 で き る.こ deviance"が
の母 数 の 有 意性 検 定 が 尤 度
れ を 繰 り 返 し 適 用 す る こ と に よ り"analysis of
で き る の で あ る.
6.6
Over-dispersion
正 規 線 形 モ デ ル を 除 くと,確 率 変 数Yiの 分 散 が 期 待 値 の 関 数 と な って い る, 二 項 分 布:V(μ)=μ(1-μ) Poisson分
こ れ は,同
布:V(μ)=μ
じ 説 明 変 数 の 値xiを
同 じ 期 待 値 μi,同 じ分 散V(μi)を い る.現
実 に は,全
もつ 個 体 す べ て が 同 じ確 率 分 布 ,す な わ ち, も つ と い うか な り強 い 条 件 が 課 せ ら れ て
く同 じ 年 齢 ,同 じ 生 活 習 慣 を 有 し て い て も 個 体 差 が あ
り,観 測 ・制 御 不 可 能 な 要 因 に よ り期 待 値 が 変 化 す る.こ
の よ うな 場 合 に
は 観 測 値 の 分 散 が 分 布 で 規 定 さ れ て い る 分 散 よ り大 き くな る.こ over‐dispersionと い い,程
の現 象 を
よ く適 合 し て い る モ デ ル で もdeviance,Pearson
統 計 量 が か な り大 き くな り,有 意 に 適 合 が 悪 い と い う答 え を 出 して し ま う. い ま,二
項 分 布 の 例 で,μiの
個 体 差 が 平 均 μ,分 散 〓2を 有 す る 確 率 変 数 で
あ る とす る と E(yi)=Eμ(E(yi│μi))=μ
(6.42)
(6.43)
と な る.ベ
ー タ 二 項 分 布 は こ の 種 のover‐dispersionを
る た め に 利 用 さ れ る が,一
積 極 的 にモデ ル化 す
般 的 に 適 用 で き る ほ ど の 柔 軟 性 は な い.そ
こ で,
〓2=cμ(1-μ)
とお け ば 式(6.43)は (6.44)
と 表 現 さ れ る.Poissonモ -likelihood approach)と
デ ル で も 同 様 で あ る.こ い うつ
ま り, 分 散 関 数 を
V(μ)〓 とす る方 法 で あ る.し
の 方 法 を 疑 似 尤 度 法(quasi
た が って,モ
σ2V(μ) (6.45) デ ル を フ ィッ トさ せ た 後 で,残
差 など を
検 討 し て も 系 統 的 な 不 適 合が み られ な い 場 合 に は 式(6.34)のPearson
χ2適
合度 統計 量 で σ2=X2/(n-p-1)
と推 定 し,パ
ラ メー タ β の 共 分 散 行 列 を
(6.46)
表6.2
ダ ミー 変 数 の つ く り方 の例
(6.47) と変 更 し,興 味 あ る パ ラ メー タ の 検 定,信
6.7
頼 区 間 を 計 算 す る.
回 帰 係 数 の解 釈
従 来 の 線 形 モ デ ル 用 い ら れ る 変 数 は 基 本 的 に は 間 隔 尺 度 で あ る計 量 値,連 続 量 で あ るが,名 義 尺 度,順 序 尺 度 で あ る κ個 の カテ ゴ リー(グ ル ー プ)か な る変 数 を利 用 す る こ とが 多 い.そ の 場 合 に は,ダ な ら な い.そ
の代 表 的 な方 法 の 一 つ が,基
ミー 変 数 を作 成 し な け れ ば
準 カ テゴ リー(reference category)
を 定 義 し て そ れ に 対 す る 「差 」 を 表 現 す る(κ-1)個 る こ とで あ る.例
え ば,変
基 準 カ テ ゴ リ ー と し,第 す る と,表6.2の
数xjが
ら
の ダ ミー 変 数 を 定 義 す
5 カテ ゴ リー の 場 合,第
1カ テ ゴ リ ー を
2 カ テ ゴ リー 以 降 の ダ ミー 変 数 を(xj2,...,xj5)と
よ う に 作 成 す る こ と に な る.ま
た,合 成 変 量 Z の 中 の 変 数
xiに 対 応 す る部 分 は βjxj⇒
βj2xj2+...+βjKxjK
と変 更 さ れ る こ とに 注 意 し た い.例
え ば,式(6.6)に
おけ る冠 状動 脈 性疾患
の リス ク フ ァ ク タ ー に 関 す る大 規 模 コ ホ ー ト研 究 に お い て,喫 りの 喫 煙 量)の {1:=喫
影 響 を み る た め に.ア
煙 経 験 な し,2:=1箱
リー と し て,喫
よ り 多 い}
の 場 合,「喫 煙 経 験 な し」を
煙 の 影 響 を 考 え て み よ う.変 数x1を
は 連 続 変 数 と し て,式(6.6)の
日当た
ン ケ ー ト調 査 に お い て
未 満,3:=1箱,4:=1箱
とい う 質 問 票 が 作 成 され て い る.こ
煙(1
対 数(こ こで は,個
規準 カテゴ
喫 煙 と し て,他
の変 数
人 を表 す 添 え 字 iは 繁 雑 に
な る の で 省 略 す る)を と る と, p
=exp(β0+β12x12+β13x13+β14x14+β2x2+…
/1-p
+βpxp)
(6.48)
と な る.左
辺 は リス ク フ ァ ク タ ー x を も つ 個 体 の 冠 状 動 脈 性 疾 患 を 発 症 す
る 確 率p(x)の
発 症 し な い 確 率1-p(x)に
(incidence odds)で
あ る,そ
対 す る 比,す
な わ ち発 症 オ ッズ
こ で,「喫 煙 経 験 の な い 人 」 の発 症 確 率p(xA)と
「1日 1箱 よ り多 く喫 煙 す る 」人 の 発 症 確 率p(xB)を
比 較 し て み よ う.こ こ に
xA=(0,0,0,x2,x3,...,xp)
xB=(0,0,1,x2,x3,...,xp) で あ る.こ こ で,あ
る 因子 の 効 果 を 比 較 で き る とい うこ とは,他 の リス ク フ ァ
ク ター の 値 が 同 じ と い う条 件 が 必 要 で あ る.そ
こで,そ
の 条 件 の 下 で,そ
れ
ぞ れ の 発症 確率 は
と な り,そ
の 比 を と る と,オ
ッ ズ 比(odds
と計 算 で き る こ とが わ か る.こ
ratio)が
の オ ッ ズ比 を他 の 変 数(交
た 調 整 オ ッズ 比(adjusted odds ratio)と よぶ.こ
絡 因 子)を
の よ う に して,疫
お け る ロ ジ ス テ ィッ ク 回 帰 モ デ ル の 適 用 結 果 の 解 釈 で は 表6.3の 毎 に 整 理 す る こ とが 多 い. 表6.3
回帰 係 数 の 解 釈
調整し
学研 究 に
よ うに変数
一 方,Poisson回
帰 モ デ ル に お い て 同 様 な 計 算 に よ り導 か れ る 指 標 は 相 対
リ ス ク(relative risk)と
よ ば れ る.
6.8 適
用
例
こ こ で は,2 種 類 の 適 用 例 を 紹 介 し よ う. (1)量 反 応 関 係 の ロ ジ ス テ ィッ ク 回 帰 モ デ ル 表6.1に
示 す毒 性 デ ー タ
の 量 反 応 曲 線 に ロ ジ ス テ ィッ ク 回 帰 モ デ ル を適 用 し て み よ う.表6.1の デ ー タ そ の も の を 利 用 で き るS‐Plusの
「glim関 数 」 を 利 用 し た プ ロ グ ラ ム
は 次 に 示 し た. S‐Plus
program:図6.1,表6.4,表6.5
xx←c(1.691,1.724,1.755,1.784,1.811,1.837,1.861,1.884) d←c(4,10,19,31,52,53,60,60) n←c(59,60,62,56,63,59,62,60) dose←glim(xx,d,n,error="binofmial",link="logit",resid="Pearson")
図6.1
表6.1の
頻度
ロ ジ ステ ィッ ク回帰 モデ ル に よ る死 亡 率 の 推 定 値 と観 測 値
表6.4
表6.5
deviance分
析 表
ロ ジ ス テ ィッ ク 回 帰 モ デ ル に よ るPearson残
差
推 定結 果 は log
と な っ た.推
p/
= -64
1-p
.77+36.53x
定 誤 差 はSE(α)=5.51,SE(β)=3.10で
曲 線 は 図6.1に
示 し た.し
あ る.推
た が っ て,LD50はp=1/2つ
定 され た量 反 応
ま り,α+βx=0な
る
xで あ り,x 軸 は 対 数 目 盛 り で あ る こ と に 注 意 し て,x=1064.77/36.53=59.29 と 推 定 さ れ る.ま
た,deviance表
は 表6.4の
と お り で あ る.モ
は 尤 度 比 検 定 で χ2=4.07,df=6,two-tailed
p=0.66と
デ ル に よ る 推 定 値,Pearson残
示 す.
差 を 表6.5に
デ ルの適 合度
悪 く な い.ま
た,モ
特 別 に 系 統 的 な 残 差 の パ タ ー ン は 観 察 さ れ な い. (2)放 射 線 被 曝 従 業 員 の 追 跡 調 査 に お け るPoisson回
帰 モ デ ル あ るエ
ネ ル ギ ー研 究 所 で の 低 濃 度 放 射 線 の 健 康 影 響 を調 査 す る た め に 実 施 され た 従 業 員7778名
の 追 跡 調 査(1943‐1977)の
た 例 を 紹 介 し よ う.説
解 析 にPoisson回
明 変数 としては
1)x1=累
積 被 曝 線 量(dose):4
2)x2=年
齢(age
3)x3=暦
年(year
4)x4=就
業 期 間(employment):4
5)x5=追
跡 期 間(follow‐up):4
at risk):9 at risk):4
カ テ ゴ リー カテ ゴ リー カ テ ゴ リー
カテゴ リー カ テ ゴ リー
帰 モ デ ル を適 用 し
を 取 り 上 げ て い る.標
本 は 全 体 で,最
層 別 され る が,こ
の 場 合 に は390の
(person‐years)N
を 集 計 し て,期
大4×9×4×4×4=2304個 層 に 層 別 さ れ た.層
の層 に 毎 に 死 亡 数 d,人 年
待 死 亡 数 μ のPoisson回
帰 モデ ル
d∼Poisson(μ)
(6.49) を 適 用 して い る.こ
こ で,d/N=pは
観 測 死 亡 率 で あ る.そ の 結 果 の 一 部 と
し て全 死 因 に 関 す る 解 析 の プ ロセ ス と 累 積 被 曝 線 量 の 第 1カ テ ゴ リー を規 準 と し た 各 線 量 カ テ ゴ リ ー に お け る死 亡 相 対 リ ス クの 推 定 値 を 表6.6に 線 量 だ け を 入 れ た モ デ ル で は,線 向 が み られ,特
量 の 増 大 に つ れ て 相 対 リ ス クの 増 大 の 傾
に 3番 目の 線 量 カ テ ゴ リー で 相 対 リ ス クが1.47を
か し,モ デ ル のdeviance=1699,
示 す.
df=386で
示 した.し
適 合 度 が き わ め て 悪 い 。他 の 交
絡 因 子 を 説 明 変 数 に 順 々 に 入 れ て い く とモ デ ル の 適 合 度 が 徐 々 に よ くな り, 全 変 数 を 入 れ た 段 階 で はdeviance=369,df=369と 表6.6
あ るエ ネ ルギ ー研 究 所 の 低 濃 度 放 射 線 被 曝 に 関 す る 追 跡 調 査 の 全 死 因 に 関 す る Poisson回
表6.7
きわ め て よ くな り,ま
帰 モ デ ル の 適 合 度 と相 対 リ ス ク
あ るエ ネ ル ギ ー 研 究 所 の 低 濃 度 放 射 線 被 曝 に 関 す る追 跡 調 査 の 全 死 因 に 関 す る Poissson回
帰 モ デ ル:各
変数の有意性検定
た,over‐dispersionも
み ら れ な い.そ
の 傾 向 は み ら れ な い.ま で 行 う と,表6.7に
の 結 果,線
た,式(6.41)に
量 の 増 大 と死 亡 との 間 に 正
よる各 変 数の 有 意性 を尤度 比 検 定
示 す ご と く に な る.年
齢 効 果 が は るか に 大 き い こ とが わ
か る.
練 習 問 題 [問 題6.1]正
準 連 結 関 数 を 利 用 す れ ば,最
法 とNewton‐Raphson法 [問 題6.2]一
尤 推 定 に お け るFisherの
ス コア
は 同 じ と な る こ と を 示 せ.
般 化 線 形 モ デ ル で のAIC(Akaike's
information
criterion)は
ど の よ う に 定 義 で き る か? [問 題6.3]帰
無仮 説 H0:β1=…=βp=0
の 下 で の 最 大 尤 度 をL(0)と
す る と 、一 般 化 線 形 モ デ ル に お け る p 個 の 説 明
変 数 の 「寄 与 率 」 は
(6.50) と 定 義 で き る.な
ぜ な ら,正
の 寄 与 率 の 定 義 に 一 致 し,一 る.一
規 線 形 モ デ ル で は 式(6.50)は
式(4.46)の
通常
般 化 線 形 モ デ ル へ の 拡 張 と考 え ら れ る か ら で あ
致 す る こ と を 示 せ.
[問 題6.4]式(6.27)を 作 成 し,表6.1に
利 用 し て ロ ジ ス テ ィッ ク 回 帰 モ デ ル の プ ロ グ ラ ム を 示 す 毒 性 デ ー タ に 適 用 し,S‐plusの
結 果(表6.4‐5)を
再現
せ よ. [問 題6.5]平
均 値 を μ とす る ガ ン マ 分 布
も ま た 指 数 型 分 布 族 で あ る.式(6.10)の
θ,α(φ),b(θ),c(y,φ)を
求 め よ,
7 ノ ンパ ラ メ ト リ ッ ク 回 帰 モ デ ル
図7.1は
茨 城 県 龍 ヶ崎 地 方 城 取 清 掃 工 場(以 下,ご
の 中 か ら公 募 で 選 ば れ た 男 性57名
み焼 却 施 設)週 辺 の 住 民
の 血 液 中の ダ イ オ キ シ ン 濃 度(pg‐TEQ/g
脂 肪)と 住 民 の 居 住 地 の 焼 却 施 設 か ら の 距 離 との 関 係 で あ る.血
中濃度 は焼
却 施 設 周 辺 に 高 い と い え るだ ろ うか?
図7.1
茨 城 県 龍 ヶ崎 地 方 城 取 清掃 工 場 週 辺 の 住 民(男 性)57名 の 血 液 中の ダ イ オ キ シ ン濃 度(pg‐TEQ/g脂 肪)と 焼 却 施 設 か ら の 距 離 との 関 係 で あ る
7.1
まず,手
基 本 的 ア イデ ア
元 に あ る デ ー タが (yi,xi),i=1,...,n
で あ る と し,y の 変 動 を xで 説 明 し た い 状 況 を考 え る.さ
(7.1)
ら に,神 様 だ けが
ご 存知 の モ デルが y=s(x)+〓,
E(〓)=0,Var(〓)=σ2e
と 表 現 で き る 場 合 を 考 え る.こ る.未
こ でs(・)は
未 知の真 の
(7.2)
「滑 ら か な 」 関 数 で あ
知 の 関 数 を パ ラ メ ト リ ッ ク に 仮 定 せ ず,「 滑 ら か さ 」 だ け を 仮 定 し て,
デ ー タ 自 身 に 語 ら せ よ う と い う の がnonparametric回 で あ り,そ
の 推 定 値 s をsmootherと
age,running
mean)が
い う.い
わ ゆ る 移 動 平 均(moving
そ の た め の 最 も 基 本 的 な 方 法 で あ り,い
済 の 時 系 列 デ ー タ の 処 理 に よ く利 用 さ れ て い る.そ 幅 h の 窓(window)の
帰 モ デ ル(smoothing)
れ は,点
aver
ま で も よ く経
x を 中心 と して
中 に 入 る デ ー タ の 平 均 値 を 利 用 し た 方 法 で,
κ(xi-x│h)= 0,そ の他 {1,xi〓[x-h,x+h]
(7.3)
と お い た と き,
(7.4) で 表 現 で き る.な ぜ な ら ば,
(7.5) はwindow[x-h,x+h]の
中 に 入 る デ ー タ の 数 で あ る か ら で あ る.式(7.4)
の 平 均 と い う 操 作 を 「中 央 値 」 に 置 き 換 え れ ば,移
median)と
な り,平
均 値 よ りrobustなsmootherと
動 メ デ ィ ア ン(running な る が,等
れ て い る よ う な デ ー タ 以 外 に は あ ま り 有 用 で は な い の で,こ 象 外 と す る.
間隔で測 定 さ こで は議 論 の 対
7.2
式(7.3)を,よ
局 所 重 み 付 き 平 均 ―kernel
smoother
り広 い 範 囲 の 関 数 に拡 張 して,改
めて 重み 関数 を
(7.6) と お く と,
(7.7) と な る か ら,
(7.8) で 定 義 さ れ た 局 所 重 み 付 き 平 均(locally weighted (kernel)に
も つkernel
メ ー タ と よ ぶ.一
smootherと
般 に,h
幅(width)を
behaviour)」
核
数 の h をsmoothingパ
ラ
よ うに か な らず し も利 用 す るデ ー タの
意 味 し な い,し
表 す の でbandwidthと
数 で はwindow内
い う. Kernel関
は 式(7.3)の
範 囲 を 定 義 す るwindowを
average)を,た(z│h)を
か し,そ
よ ば れ る.さ
れ に 似 た 範 囲(band)の て,式(7.3)のkernel関
の デ ー タ の 重 み は 等 し く設 定 さ れ て い る が,「 局 所 性(local を 考 え れ ば, x の 近 くは 重 み を 大 き く し,遠
重 み を 小 さ くす る 方 法 が 自 然 で あ る.kernel関
くに い くに 従 っ て
数 に 要 求 さ れ る 主 な性 質 を ま
とめ る と
と な る.中
で も,平
均 0,分 散h2の
正 規分 布
(7.9) は 代 表 的 で あ る. 図7.2に
は,図7.1の
デ ー タ(変
設 か ら の 距 離 をdistance)に
数 名:ダ
対 し て,式(7.9)の
イ オ キ シ ン 濃 度 をdiox,焼
却 施
正 規 分 布 をkernel関
数 と
図7.2
bandwidth
h を1.0(0.5)5.0と
変 化 さ せ て い っ た と き のkernel
smootherの
推 定 値 の 変 化
し て,bandwidth smootherを
h を1.0(0.5)5.0と
変 化 さ せ て い っ た と き の 九 つ のkernel
重 ね て 描 い た も の で あ る.
S‐Plus program:図7.2
for(i in 2:10){
lines(ksmooth(distance,diox,kernel=”normal”,
bandwidth=i*0.5),lty=l,col=i)
} デ ー タが 粗(sparse)な
と こ ろ(3km付
近)は, bandwidthの
変 化 して い る のが 理 解 で き よ う.bandwidthの 凸 な 曲線 を 描 い て い る.図7.2か
ら の 全 体 の 印 象 と して は,血
キ シ ン 濃 度 が 焼 却 施 設 付 近 か ら わ ず か に 減 衰 曲 線(直 れ た 地 点 で は だ い た い1pg‐TEQ/(g
値 で大 き く
値 が 小 さい ほ ど,大
線)を
脂 肪)か ら1.5pg‐TEQ/(g
き く下 に
液 中 の ダ イオ 描 き,7km離 脂 肪)程 度 低
下 して い る と解 釈 で き よ う. 次 に,式(7.8)を
各 デ ー タ ポ イ ン トxjで
考 える と
(7.10) つ ま り,ベ ク トル ・行 列 で 表 現 す る と y=s=Sy と な る.こ は,デ
の 表 現 の 意 味 は 重 要 で あ る,な
ー タy=(y1,...,yn)tの
(7.11) ぜ な ら,後
述 す る す べ て のsmoother
変 換 S と し て 定 義 で き るか らで あ る . 一 般
線形 モ デ ル
y=Xβ+〓
に おけ る推 定 量は
y=X(XtX)-1Xty=Hy とハ ッ ト行 列 で 変 換 さ れ,そ
の 自由度 は
tr(H)=p+1,y で あ っ た.つ
ま り,smootherの
切 片 を 含 む モ デ ル (7.12) 自 由度 も
smootherのdf=tr(S)
で 定 義 で き る.例
え ば,smootherの
(7.13)
自 由 度 が ほ ぼ 2に 等 し け れ ば そ れ は ほ
ぼ 直 線 と な っ て い る こ と が わ か る.
7.3 局 所 重 み 付 き線 形 回 帰 ―loess
式(7.8)の た次 の
局 所 重 み 付 き 平 均smootherに
「局 所 重 み 付 き 線 形 回 帰(locally
比 べ る と も う少 々 回 帰 を 意 識 し weighted
linear regression)」
型 の
smoother
(7.14) も 自 然 で あ る.つ
ま り,
(7.15)
で 与 え られ る.こ
こで
で あ る.な
のsmootherは,式(7.8)の
お,こ
が 上 の 回 帰 モ デ ル で β(xi-x)の
局 所 重 み 付 き平 均 のsmoother
項 を 除 い た 回帰 モ デ ル の 解 と一 致 す る と い
う意 味 で 拡 張 と な っ て い る こ と に 注 意 し よ う.kernel関 もの が 考 え られ る.ま た,式(7.14)の
数は前 節 と同様 な
式 を考 え る こ とが 可 能 で あ るが,多
回帰 モ デ ル を 二 次,三 くの 場 合,そ
次 と高 次 の 多 項
の メ リ ッ トは 少 な く線 形 回
帰 で 十 分 で あ る. さ て,Cleveland(1979)は
こ のsmootherの
し た.最
ど と よ ば れ て い るsmootherで
近,lowess,loessな
1)デ
ー タxjに
一 つ と し て 次 の モ デ ル を 提 案
近 い デ ー タ の う ち,κ
番 目 ま で の デ ー タ の 集 合(k
neighbors)をNp(xj),j=1,...,n と よ ば れ,こ
と す る.こ
のsmootherのsmoothingパ
2)kernel関
数 のbandwidth
3)kernel関
数
hの
あ る. nearest
こ で,p=κ/nはspan
ラ メ ー タ で あ る. 定 義
(7.16) loessの
特 徴 は,局
所 重 み 付 き 線 形 回 帰 に 寄 与 す る(正
タ の 割 合 を 示 すspanがsmoothingの た め ,bandwidth
hを
指 定 す る よ り,理
離 だ け で は な く,残
る 工 夫 で あ る.そ 図7.3に
ー
程 度 を 表 現 す るパ ラ メ ー タ と して い る 解 し や す い,ま
は 記 述 し て い な い 異 常 値 に 影 響 さ れ に く いrobustな つ ま り,距
の 重 み を も つ)デ
た,「loess」 に は 上 に
方 法 も 導 入 さ れ て い る.
差 の 大 き い デ ー タ に 対 し て は 重 み を 小 さ くす
の 詳 細 は 原 文 を 参 照 し た い.
は,図7.1の
デ ー タ に 対 し て,span
い っ た と き の 九 つ のloessを
p を0.2(0.1)1.0と
重 ね て 描 い た も の で あ る.
変 化 させ て
図7.3
span pを0.2(0.1)1.0と
変 化 さ せ て い っ た と き のloessの
推 定 値 の 変 化
S‐Plus program:図7.3
for(i in 2:10){
lines(loess.smoosth(distance,diox,span=i/10,col=i))
}
全 体 と し て の 推 定 値 は,kernel や は り,デ
ー タ が 粗(sparse)な
る に 従 っ て,推
7.4
明 確 にkernel関 smootherと
smootherと と こ ろ(3km付
さ ほ ど 違 い は な い よ う で あ る. 近)は,spanの
値が 変化 す
定 値 も 同 様 な 変 化 を し て い る.
ス プ ラ イ ン 関 数 の 利 用 ―smoothing
数 を 指 定 し て い る わ け で は な い が,近
同 じ よ う な 局 所 的 性 質 を も つ も の にsmoothing
splines
似 的 にkernel型 splinesと
の
よばれ
るsmootherが
あ る.そ
れ は,三
次 の ス プ ラ イ ン 関 数s(x)を
利 用 して
(7.17) を 最 小 に す るs(x)で まず,ス
あ る.
プ ラ イ ン 関 数 と は,二
を 含 む あ る 区 間a<t1<
…
を 通 る 滑 ら か なpiecewise多 を 補 間(interpolation)す
次 元 の 問 題 で い え ば,x
<tκ <bで,観
測 値 の ペ ア(tj,zj),j=1,...κ
項 式 関 数 で あ り,区 る た め に 使 わ れ る.そ
1)任 意 の 区 間(tj,tj+1)で
は,s(x)は
軸 上 の デ ー タ点 列
間 上 の 任 意 の 点 x の 値z(x) れ は 次 の 性 質 を も っ て い る.
γ 次 の 多 項 式 で あ る,
2)s(x)は(γ-2)次
ま で の 連 続 な 導 関 数 を も つ,
3)s(x)の(γ-1)次
導 関 数 は,点t1,...,tκ
でjumpを
もつ ス テ ップ 関
数 で あ る.
実 際 の 応 用 で は 三 次 の ス プ ラ イ ン 関 数 を利 用 す る こ とが 多 い の で,cubic splineと よば れ,次
の 多 項 式 の 形 で 表 現 で き る:
(7.18) こ こ で,()+は()内
が 正 の 部 分 だ け を 表 し,点
い う.も
こ で 推 定 す る ス プ ラ イ ン 関 数 は デ ー タ の 補 間 で は な く,
ち ろ ん,こ
式(7.17)の
関 数 を 最 小 に す る デ ー タ のsmoothingで
正 のsmoothing span,に
parameterで
penalty)で
次 微 分=0)と
な り,変
数 で あ る.こ
の 意 味 で,P
sum of squares)と さ て,こ
数 P の λは
2項 は 「滑 ら か で な い 関 数s(x)」 あ り,最
へ の ペ
も 滑 ら か な 「直 線 」 の 場 合 に 0(二
動 の 激 し い 曲 線 に な る ほ ど大 き くな る ペ ナ ル テ ィ関 は ペ ナ ル テ ィ付 き 残 差 平 方 和(penalized
residual
よ ば れ る.
の ペ ナ ル テ ィ付 き 残 差 平 方 和 を 最 小 に す る ス プ ラ イ ン 関 数 は 一 意
に 決 ま り,デ …
あ る.関
を 節(knots)と
あ りkernel smootherのbandwidth,loessの
相 当 す る も の で あ る.第
ナ ル テ ィ(roughness
(x(1)<
列t1,...tκ
ー タ ポ イ ン ト(x1,...,xn)を
<x(m))を
小 さい順 に並べ た相 異 な るデ ー タ
節 と し たcubic splineと
な る こ と が 導 か れ る:
(7.19) も し,λ=0と
す れ ば,第
1項 の 残 差 平 方 和 の 最 小 化 の 問 題 とな り,x の デ ー
タが す べ て 異 な れ ば ス プ ラ イ ン 関 数 の 性 質 か ら,す べ て の 点 を 通 るデ ー タ補 間 に 対 応 し,す べ て の 点 の 残 差 は 0 とな っ て し ま う.逆 に λ→ ∞ と す る と, 第 2項 が き わ め て 小 さ くな り,そ の結 果,smootherは
直 線 と な っ て し ま う.
し た が っ て,λ の 値 に よ り,「適 合 度 と 滑 ら か さ」 の バ ラ ン ス を 図 っ て い る と 考 え る こ とが で き る. さて,実
際 の 推 定 に あ た っ て は 式(7.19)の
多 項 式 表 現 は デ ー タに よ って は
き わ め て 大 き な 値 とな る 可 能 性 が あ り,そ れ を 避 け る た め に,パ 数 に 相 当 す る(m+2)個(両 る)の
方 の 端 の境 界 条 件 の た めm+4か
B ス プ ラ イ ン 関 数 を 基 底(base)と
ラ メー タの
ら二 つ 減 少 す
した
(7.20) とい う形 式 で 表 現 す る と計 算 が 容 易 と な る.B テ キ ス ト を 参 照 され た い(例,Boor.1978).そ Bij=Bj(x(i)):n×(m+2)行
スプ ラ イ ン 関 数 の 詳 細 は 他 の うす る と,
列
(7.21)
(7.22) と お く と,ペ
ナ ル テ ィ付 き残 差 平 方 和 は P=(y-Bθ)t(y-Bθ)+λ
θtΩθ
(7.23)
と表 現 で き る : し た が っ て,θ で の 微 分 を 0 とお い て (BtB+λ と な る.こ
の 推 定 値 θ を 式(7,20)に
図7.4に
は,図7.1の
を2(0.5)6と も の で あ る.こ
Ω)θ=Bty 代 入 す る こ と に よ りs(x)が
デ ー タ に 対 し て,λ
の 値 で は な く,自
変 化 さ せ て 推 定 し た 九 つ のsmoothing こ で,smoothingパ
(7.24)
由 度df=tr(S)
splinesを
ラ メ ー タ で あ る λ の 値 は,ど
を 動 か せ ば よ い か は 一 般 に わ か ら な い の で,S‐Plusに
推 定 さ れ る.
重ね て描 いた の値 の範 囲
は 自由度 で指 定 で き
図7.4
自 由 度df=tr(S)を2(0.5)6と
変 化 さ せ た と き のsmoothing
splinesの
推 定
値 の 変化
る 機 能 が 備 わ っ て い る.自
由 度 2の 場 合 に は 回帰 直 線 を意 味 す る こ とは 既 述
し た, S‐Plus program:
図7.4
for(iin4:12){ lines(smoo.spline(distance,diox,df=i/2)1ty=1col=i)
全 体 と し て,κernel い る.
smoother,loessと
類 似 の 推 定値 のパ ター ン を示 して
7.5
Smootherの
こ れ ま で,解
バ ラ ツ キ とSmoothingパ
ラ メー タ
説 し て き たsmootherは
y=s=Sy と表 現 で き る.こ
の 場 合 に は,そ
(7.25)
の分散 が
Var(S)=SStσ2e
と 計 算 で き る.ま
た,誤
(7.26)
差 分 散 σ2eは
(7.27) と推 定 で き る の で,ポ け れ ば,近 さ ら に,3
イ ン トワ イズ の 推 定 誤 差,ま
の バ イ ア スが 小 さ
似 的 な 信 頼 区 間 な ど の 計 算 が で き る. 章 で 述 べ たbootstrapを
利 用 す る と,smootherの
子 が 実 際 に 推 測 で き る の で 便 利 で あ る.つ 「残 差 」 をbootstrapす
よ るsmoother
1)残 差〓i=yi-s(Xi)を 2)残 差 を 平 均0に
の よ う に な る.
s のバ ラツキ の推 定
計 算 す る.
ら のbootstrap
sampleを(〓*1,...,〓*n)と
お く. し て, y*i=
お く.
4)(xi,y*i),i=1,...,nをsmoother
推 定 値s*(xi)を 5)Step3)-4)を
図7.5にloess(span=0.7)の や は り,わ
バ ラ ツキ の様
の ア ル ゴ リズ ム は 回帰 の
左 規 化 し て〓i=〓i-Σi〓i/nど
3)(〓l,...,〓n)か s(xi)+〓*1と
ま り,そ
る こ と に 注 意 す れ ば,次
bootstrapに
200).
た,s
求 め,プ
s でsmoothingし
てbootstrap
ロ ヅ トす る.
B 回繰 り返 す.
変 動 幅 のbootstrap推
定 値 を 示 し た(B=
ず か な が ら 距 離 減 衰 し て い る パ タ ー ン に は 変 わ り は な い.
図7.5
loess(span=0.7)のbootstrap変
動 幅(B=200)
S‐Plus program:図7.5
dd<-loess.smooth(distance,diox,span=0.7) h<-approx(dd$x,dd$y,distance)
lines(dd,lty=1,col=2) r<-diox-h$y r<-r-mean(r)
for(i in 1:B){ lines (loess.smooth(distance,h$y+sample(r,replace=T)),lty=4)
} 次 に,smoothingの
程 度 を ど の 程 度 にす べ きか と い うsmoothingパ
タの 選 択 の 問 題 は ま じめ に 考 え 出 す と,簡 単 な こ とで は な い が,通 モ デ ル の 評 価 法 と 同 様 に,バ
ラメー 常 の線形
イ ア ス と精 度 を考 慮 し た 平 均 2乗 誤 差(mean
squaxe
erxor)
(7.28) を 最 小 に す る の が 好 ま し い モ デ ル と考 え る こ とが で き る.こ
れ は,
(7.29) と 分 散 と バ イ ア ス の 項 に 分 解 で き る.こ も つsmootherに
こ で,κernel型
の 重 み 関 数 ω(・)を
つ い て 期 待 値 と 分 散 を 考 え る と,近
似 的に
(7.30) (7.31) と な る(Bowman
and Azzalini,1997).
で あ り,ま
こ で はsmoothingパ
た,こ
れ か ら,smoothingパ
は xの未 知の密 度 関数
ラ メ ー タ を ん で 代 表 さ せ て い る.こ
ラ メ ー タ を 大 き くす る と バ イ ア ス が 増 加 し,分
少 し,smoothingパ き よ う.し
dense(x)と
散が 減
ラ メ ー タ を 小 さ くす る と 逆 の 現 象 が 生 じ る こ と が 理 解 で
た が っ て,バ
イ ア ス と 分 散 の バ ラ ン ス を 図 る 必 要 が あ る.こ
的 の た め に 一 般 に よ く 利 用 さ れ る 規 準 は,MSEの バ リデ ー シ ョ ン(CV)平
の 目
推 定 量 と して の ク ロ ス ・
方 和 の 最 小 化 で あ る:smoothingパ
ラ メ ー タ を んで
代 表 さ せ る と,
(7.32) で あ る.こ
こ に,S−i(xi)は,1
組 の デ ー タ(xi,yi)を
の デ ー タ で 推 定 し た s に 基 づ くyiの ル と 違 っ て,S−i(Xi)は(n−1)個 題 と な る の で,n
推 定 値 で あ る.し
除 い た 残 り(n−1)個 か し,一
般線 形 モデ
の デ ー タか ら他 の デ ー タポ イ ン トの 推 定 問
個 の デ ー タ の 関 数 と し て 導 か れ た s と 異 な り,一
定 義 の 関 数 で あ る.一
つ の 自 然 な 考 え 方 は,ち
ょ う ど(xi,yi)へ
般 には未 の 重 みSii
に 相 当 す る 部 分 を0に
し,そ
の 分 だ け 残 り の 重 みSij,j=1,...,nを
引 き
上 げ た s に よ る 推 定 値 と 定 義 す る こ と で あ る.
(7.33) し た が って,線
形 モ デ ル と 同様 にCVの
計 算 が わ ざ わ ざ 「除 去 」 の 計 算 を 繰
り返 す こ と な く,1 回 の 計 算 で
(7.34) と 計 算 で き る.も
ち ろ ん,smoothingパ
ラ メー タ んを 変 化 させ て 最 小 と な る
ん*を 選 ぶ. S‐Plusに
はsmoothing
を 選 択 で き る(自 て み た の が 図7.6で のsmootherを
splinesに
だ け,CV規
準 でsmoothingパ
由 度 や λ の 指 定 を し な い 標 準 オ プ シ ョ ン)の あ る.ほ
ぼ,直
比 較 す る た め に,代
図7.6
線 が 選 ば れ て い る.さ 表 的 なsmoothingパ
CV 規 準 で 推 定 し たsmoothing
splines推
て,こ
ラ メー タ で,実 こ で,三
行 し つ
ラ メー タの 値 を選 ん
定値
図7.7
で 比 較 し た の が 図7.7で と,kernel る.こ
smoother,smoothing
れ は,loessに
はrobustで 近 で20pgを
あ る.傾
三 つ のsmootherの
比 較
向 は 大 差 な い が,絶 splineが
約 1pg程
は 飛 び 離 れ た 値 にrobustで
対 値 がloessに
比べ る
度 高 い 値 を 維 持 して い
あ る の に 対 し て,他
な い こ と を 示 し て い る 可 能 性 が 高 い.事
実,1km付
の二 つ
近 と 6km付
越 え た 比 較 的 飛 び 離 れ た デ ー タ が 存 在 し て い る こ と と,対
換 後 の デ ー タ に 適 用 し た 結 果,こ
数 変
れ ほ ど の 差 は み ら れ な か っ た こ と か ら,そ
の 可 能 性 が 高 い と い え る.
7.6 一般 化 加 法 モデ ル―GAM
こ こで は,こ
れ まで のx-yの
関係 に影 響 を与 え る共変 量が あ る場 合
(yi;x1i,x2i,...,xpi),i=1,...,n を考 え よ う.図7.1の
例 で は,血
中 ダ イオ キ シ ン濃 度 に 関 連 が 大 きい と考 え
られ る年 齢(age),曝
露 年 数(施
設 が 稼 動 し て か らの 居 住 年 数)の
二 つ を取
り上 げ る.例
え ば,次
の一 般線 形 モデ ル
yi=β0+β1x1i+β2x2i+〓i,i=1,...,n
(7.35)
に お い て,も し線 形 性 「β1x1」 が 疑 わ しけ れ ば,二 次,三 次 の 多 項 式(例 え ば, β12x21)を 追 加 し た り,ま た は 非 線 形 の 項 に 変 形(例 し た り試 行 錯 誤 を 繰 り返 す こ と に な る.こ
え ば,β11exp(β12x1))
の よ うなパ ラ メ トリ ックな アプ
ロ ー チ は 結 構 大 変 で か つ 不 満 足 な 結 果 に 終 わ る こ と も少 な くな い .こ の 未 知 の 「関 数 」 を デ ー タ 自 身 に 語 らせ る,つ
ま り,smootherを
利用 した ノンパ
ラ メ トリック回帰 モデ ル yi=β0+s1(x1i)+s2(x2i)+〓i,i=1,...,n
がFriedman 提 案,開
(7.36)
and Stuetzle(1981),Hastie 発 さ れ た.こ
and Tibshirani(1990)ら
こ で,各smootherが
に よ っ て
一 意 解 を 得 る た め に
(7.37)
の 条 件 が あ る.こ の 条 件 は,分 散 分 析 に お け る各 要 因 効 果 の 一意 解 の た め に , パ ラ メ ー タ に 課 せ ら れ た 条 件 と 同 一 で あ る .た だ,そ sj(x)に 適 用 す るsmootherは
な ん で も よい し,変 数 毎 に 変 え て もか ま わ な
い.さ
て,推
次,残
差 に フ ィッ ト させ る 」 と い う こ とで あ る.
1)ま ず,各
れぞ れ の変 数 の 関数
定 の 基 本 的 な 考 え 方 は,additive modelの
変 数 の 一 意 解 の 条 件 式(7.37)を
特 徴 を 利 用 し て 「順
生 か す た め に,定
数 項 βοの
推 定 値 は 全 平 均 y とす る. 2)次
に,残
差
「y-y」
に 変 数x1を
フ ィッ ト さ せ る,つ
ま り,smoother
の行 列で 表現 す ると
s1(x)=S1(y-y) 3)次
に,残
差
「y-y-s1」
に 変 数x2を s2(x)=S2(y-y-s1)
4)同 様 に し て,s1が
(7.38)
更 新 さ れ る. s1(x)=S1(y-y-s2)
5)3),4)を
フ ィッ ト さ せ る.
収 束 す る ま で 繰 り返 す.
(7.39)
こ の 方 式 は 「backfitting」 ア ル ゴ リズ ム と よば れ て い る.こ
の方 法は 一般 の
回帰 モ デ ル に 容 易 に 拡 張 で き る.
(7.40) つ ま り,
(7.41) を 繰 り返 せ ば よ い.た
だ,理
リズ ム の 「収 束 条 件,そ ま た,こ
のbackfittingア
smoothingパ
論 的 に は,3 変 数 以 上 に な る と,こ
の 性 質 」 な ど に 関 し て は ま だ よ くわ か って い な い. ル ゴ リ ズ ム を 利 用 す る に し て も,各smootherの
ラ メ ー タ の 選 択 は 別 の 問 題 で あ る.例
え ば,各
ス バ リデ ー シ ョ ン を 適 用 し て 自動 選 択 は 可 能 で あ るが,計 な る 可 能 性 が 高 い.し
たが っ て,視
量 毎 の 回 帰 モ デ ル にCVを
の アル ゴ
ス テ ップ で ク ロ
算時 間が ネ ックと
覚 的 判 断 に よ って 主 観 的 に 選 ぶ か,1 変
適 用 し て 得 ら れ たsmoothingパ
ラ メ ー タ を参 考
に す る こ とが 考 え られ よ う. 次 に,通
常 の 線 形 モ デ ル と 同様 に,ノ
て も各 変 数 の 有 意 性 の 検 討 は,近
ン パ ラ メ ト リ ッ ク回 帰 モ デ ル に お い
似 的 で は あ る も の の,残
差平 方和
(7.42) を 規 準 に す る こ とが 可 能 で あ る.つ
ま り,
1)最 大 モ デ ル で の 残 差 平 方 和 をRSS1,自 2)最 大 モ デ ル か ら変 数xjを
由 度 をdf1,
除 い た モ デ ル の 残 差 平 方 和 をRSS2,自
由
度 をdf2,
とす る と,誤 差の 正規 性 の下 に導か れ る F 検 定統 計量
(7.43) に よ る 「近 似 的 」 な 推 論 が 可 能 で あ る.こ
こ で,変
の 組 み 合 せ に よ っ て 変 化 す る もの の 式(7.27)よ
り
数 jの 自由 度 は,共
変量
tr(2Sj-SjStj) と な る の で,残
差 平 方 和 の 自 由度 は
(7.44) と な る.さ
ら に,現 実 の 解 析 で は 「線 形 性 」 を 満 た す 変 数 もあ る わ け で,そ
の よ う な 変 数 ま で も ノ ンパ ラ メ ト リ ッ ク に 推 測 す る こ とは い た ず ら に推 定 精 度 と 検 出 力 を 落 とす こ と に な る . し たが っ て,よ
り興 味 あ る モ デ ル は
(7.45) と い う セ ミ パ ラ メ ト リ ッ ク(semi‐parametric)モ 数xjが
「線 形 」 が 良 い か
1)変 数xjは
デ ル で あ る.こ
の 場 合,変
「曲 線 s(xj)」 が 良 い か に つ い て も,
曲 線 「s(x)」 を仮 定 し た モ デ ル で の 残 差 平 方 和 をRSS1,自
由 度 をdf1, 2)変 数xjは
線 形 「βjxj」 を 仮 定 した モ デ ル で の 残 差 平 方 和 をRSS2,自
由 度 をdf2, とす る と,式(7.43)と
同様 の F 検 定 を利 用 し た 推 論 が 可 能 で あ る.こ
df2-df1は
項 をsmootherか
変 数xjの
こ で,
ら線 形 に 変 え た こ と に よ る 残 差 平 方
和 の 自 由 度 の 増 加 分 に 等 しい. 本 章 で は 正 規 線 形 モ デ ル の 枠 組 み の 下 で,smoother,ノ 回 帰 モ デ ル を 解 説 し た が,全 え ば,ロ
ンパ ラ メ ト リ ッ ク
く 同 様 の 展 開 が 一 般 化 線 形 モ デ ル(GLIM),例
ジ ス テ ィ ッ ク 回 帰 モ デ ル,Poisson回
ド モ デ ル な ど に 対 し て も 可 能 で あ る.加
帰 モ デ ル,Coxの
比 例 ハザ ー
法 モ デ ル を 一 般 化 線 形 モ デ ル に拡 張
し た モ デ ル を 特 に 一 般 化 加 法 モ デ ル(GAM,generalized
additive model)と
よ ん で い る.
さ て,図7.1の
デ ー タ に 戻 ろ う.血 液 中 の ダ イオ キ シ ン濃 度(pg‐TEQ/g脂
肪)に 関 連 が 大 きい 項 目 と し て,年 住 年 数)の
齢 と 曝 露 年 数(施
設 が 稼 動 し て か らの 居
二 つ の 変 数 を 加 え て 解 析 して み よ う(変 数 名:年
年 数=expyear).そ
れ ぞ れ の 散 布 図 は 図7,8に
は 正 の 相 関が あ りそ うで あ る.一 方,曝
齢=age,曝
示 す と お りで あ る.年
露 齢と
露 年 数に 関 しては調 査対 象 と選ばれ
図7.8 年 齢,曝
露 年 数 とダ イオ キ シ ン濃 度 との 相 関
た 住 民 が 焼 却 施 設 が 稼 動 す る前(27年 と な って い る た め,あ
前)か ら住 ん で い た た め,ほ
ま り明確 な 関 連 が 観 察 され て い な い.い
こ の 二 つ の 共 変 量 を調 整 す る た め の 第 1段 階 と して,ま し て み る と 表7.1に
とん ど27
ず れ に して も
ず線 形 モデ ルで解 析
示 す 結 果 が 得 られ た.
S‐Plus program:表7.1
model←glm(diox∼age+expyear+distance) summary(model)
年 齢 と は 有 意 な 関 連 が 認 め ら れ た が,距 意 で は な い.次 た 結 果 を 表7.2に
離 と 負 の 関 連 が 認 め ら れ る が,有
に ノ ン パ ラ メ ト リ ッ ク 回 帰 モ デ ル(additive 示 す.い
ず れ も,loessを
使 用 し,span=0.7と
model)を
適用 し 設 定 し た.
表7.1
血 液 中 の ダ イオ キ シ ン濃 度 と ご み焼 却 施 設 か ら の 距 離:線
RSS=561.285,
表7.2
形モデルでの 解析
df=53,σ2e=10.59
血 液 中の ダ イオキ シ ン濃 度 とごみ 焼 却施 設 か らの 距離:ノ ラ メ トリ ック 回帰モ デ ルGAMで
RSS=525.863,
df=47.505.
ンパ
の 解析
σ2e=11.0697
い ず れ の 変 数 も 「非 線 形 部 分 」(Npar Df,Npar F,Pr(F))は こ こ で は そ れ ぞ れ のsmootherに
有 意 で な いが,
よ る推 定 値 を 考 え よ う.図7.9に,そ
れぞ
れ の 変 数 の 他 の 変 数 を 調 整 し たsmootherの
推 定 値 と推 定 誤 差 を示 す.こ
で,特
あ る.も
に 興 味 深 い の は,距
離 のsmootherで
ち ろ ん,有
こ
意で は な い
もの の,焼 却 施 設 付 近 が わ ず か に 高 く,徐 々 に 減 少 し,2 ∼3km以
降は ほぼ
直 線 とな っ て い る 点 で あ る.
S‐Plus program:表7.2
m odel←gam
図7.8
(diox∼lo(age,span=0.7)+lo(expyear,span=0.7
) +lo(distance,span=0.7))
plot(model,se=T)
練習問題 [問 題7.1]式(7.25)で
表 現 で き るsmootherSは
そ の よ う に 表 現 で き な い も の は 非 線 形smootherと ン(running [問 題7.2]一
median)は
線 形smootherと い わ れ る.移
い わ れ る. 動 メデ ィ ア
線 形 か 非 線 形 か?
つ の 局 所 重 み 付 き 線 形smootherが
式(7.15)で
与 え られ る こ
図7.9
年 齢,曝
露 年数,距
離 それ ぞ れ に,他
の 変 数 を 調 整 したsmootherの
推 定値 と
推定誤 差
と を 示 せ.
[問題7.3]式(7.18)の
多項式 が そ の上 の三 つ の性 質 を満足 す る こ とを証 明
せ よ. [問 題7.4]Taylor展
開 の 一 次 近 似 を 利 用 し て,式(7.30),(7.31)を
[問 題7.5]式(7.33)で smoother,smoothing
新 し く 定 義 し たs-i(xi)は,式(7.6)の splinesで
は,線
導 出 せ よ. 型 のkernel
形 回 帰 モ デ ル と 同 様 に,smoother自
体 の 定 義 か ら 導 か れ る こ と を 示 せ. [問 題7.6]式(7.27)を [問 題7.7]線
線 形 回 帰 モ デ ル で の 式(4.17)のanalogyか
形smootherの
自 由 度 を 式(7.13)でtr(S)と
れ 以 外 に も 二 つ の 自 由 度,tr(2S-SSt)(式(7.27)の の た め の 自 由 度)とtr(SSt)(式(7.29)の が 定 義 さ れ て い る.も
し,S
ら 導 け. 定 義 し た が,こ
意味 で 、残差 平 方和 意 味 で,分
が 対 称 行 列 で あ れ ば,線
散 の た め の 自 由 度), 形 回帰モ デ ルの ように
こ れ ら の 三 つ は 一 致 す る こ と を 示 せ.
8 イベ ン ト発 生 まで の 時 間 の長 さ に 関す るモデ ル
が ん の 臨 床 に お け る 治 療 効 果 の 判 定 の 物 差 し と し て,治 療 後 か ら死 亡 ま で の 時 間 の 長 さ,つ
ま り,生 存 時 間,を 評 価 す る こ とが 多 い.し
間 の 大 小 を 単 純 に 比 較 す る こ と は で きな い.な
か し,生 存 時
ぜ な ら,図8.1,図8.2に
図8.1 臨 床 試験 に お け る登 録 され た 患 者 の 動 向
図8.2
図8.1の
5 名 の 患 者 の 追 跡期 間 の 長 さ と追 跡 終 了 時 点 で の 患 者 の転 帰
示
表8.1
す よ うに,治
療 中 止,転
肝 硬 変 患 者 に 対 す る 臨床 試 験 デ ー タ
院 な ど で 追 跡 不 能 が 生 じ た り,研 究 の 終 了 時 点 で は
多 くの 対 象 患 者 が 生 存 す る な ど の 理 由 か ら 死 亡 時 点 の デ ー タが 入 手 で きな い こ とが 当 然 起 こ り得 る か ら で あ る.例 こ とが 確 認 され て い るが,そ カ 月 」 とは で きな い.正
え ば,「3年 2カ 月 ま で は 生 存 して い た
の 後 は 不 明 」 で あ る 場 合,生
存 時 間 は 「3年 2
し くは 「3年 2 カ 月 以 上 」 で あ り,こ の よ う な 状 況
を 「打 ち切 りが 生 じ た(censoring)」,こ
の よ うな デ ー タ を 「打 ち 切 りデ ー
タ 」(censored data)と
い い,表8.1の
よ うに 整 理 され る.し
ち切 りデ ー タが あ る以 上,「死 亡 ま で の 時 間 の 長 さ の 平 均 値,中
た が っ て,打 央 値 」,ま た
は,「5年 生 存 率 」 と い っ た 頻 度 な ど も単 純 に は 計 算 で きな い の で あ る . そ こ で,打
ち切 りの 可 能 性 が あ り,興 味 あ る イベ ン ト(event)が
発 生す
る ま で の 時 間 の 長 さ を評 価 す る た め に 登 場 す る統 計 手 法 が 「イベ ン ト発 生 ま で の 時 間 を 生 存 」 と す る 生 存 時 間 分 析(survival analysis)で トは 死 亡 だ け で な く,脳 卒 中,心 筋 梗 塞 な ど の 発 生,あ で あ っ た りす る.た
だ し,こ
こ で 注 意 し た い の は,い
あ る . イベ ン
る病 気 の 再 発,寛
解
く ら打 ち 切 りデ ー タが
解 析 で き る と い っ て も 「イベ ン ト発 生 と 関 連 して い る打 ち切 り(informative censoring)」 は 解 析 で きな い こ とで あ る.例 え ば,患 者 の状 態 が 悪 化 し て きた た め 担 当 医 へ の 信 頼 に 疑 問 を もち 転 院 し て し ま っ た 場 合 のcensoringが で あ る.こ
の 場 合 は,生
そう
存 時 間 が 長 くな る ほ うへ バ イ ア ス が 生 じ る.解 析 に
正 し く利 用 で きる 打 ち切 りデ ー タは,不
慮 の 事 故,引
っ越 しな ど の イベ ン ト
の 発 生 と は 無 関係 に 起 こ る 原 因 で 打 ち切 られ た(non‐informative censoring) デ ー タで あ る.
8.1 生 存 時 間の 確 率 分 布
一 般 に 生 存 時 間 T が 連 続 な 生 存 関 数(累 積 生 存 率 曲線 と も よば れ る)S(t), 確 率 密 度 関 数 〓(t)を もつ 確 率 変 数 で あ る と き, S(t)=Pr{T〓t},
0<t<
∞
(8.1)
(8.2) と定 義 され る.生 存 時 間 分 析 で 重 要 な 関 数 で あ る ハ ザ ー ド関 数(瞬 瞬 間 故 障 率)は
間 死 亡 率,
次 の 条 件 付 き確 率 で 定 義 さ れ る.
(8.3) この式 か ら
dlogS(t)/ λ(t)=-
で あ り,S(0)=1か
ら,
dt
(8.4) (8.5) と 書 け る.ま
た,生
存 時 間 tで の 平 均 余 命(expected
residual life)は
(8.6)
(8.7) で 与 え ら れ る.こ
れ か らt=0と
し た 平 均 寿 命(expected
life)は
(8.8) (8.9) で 与 え られ る. 次 に,生 数,す
存 時 間 T が,0<t1<t2<
…
の 離 散 値(discrete)を
とる 確 率 変
な わ ち, pj=〓(tj)=Pr{T=tj},
j=1,2,...
(8.10)
で あ る と き,生 存 関 数 は
(8.11) で あ り,ハ
ザ ー ド関数 は
(8.12) で 与 え られ る,最 み る と,条
後 に 確 率 分 布pj,生
存 関 数S(t)を
件 付 き確 率 の 性 質 とPr{T>0}=1か
〓(tj)=Pr{T=tj}
=Pr{T=tj│T>tj-1}Pr{T>tj-1}
ら
ハ ザ ー ド関 数 で 表 し て
(8.13) と な る.し
た が っ て,
(8.14) と な る.
8.2
まず,生
生存 関数 の 推 定
存 時 間 分 析 の 対 象 と な る デ ー タの 構 造 を 整 理 し よ う.あ る 一 定 の
研 究 期 間 に エ ン ト リー し た 患 者 総 数 をn0と
し よ う.こ の 期 間 に イ ベ ン トが
確 認 され た相 異 な る 生 存 時 間(イ ベ ン ト発 生 まで の 時 間)を 小 さ い ほ うか ら 順 に 並べ て t1<t2< で あ っ た と し よ う.こ し て お
…
<tj<
…
<tm
の 場 合,j=0,1,2,...,m
と し て,以
(8.15)
下 の 項 目 を 定 義
く.
1)dj(〓1)例 こ で,イ
が 同 じ 生 存 時 間tjを
記 録 し た.こ
こ で,d0=0と
す る.こ
ベ ン トの 総 数 を
(8.16)
2)左
閉 右 開 区 間[tj,tj+1)に
ωj例 が な ん ら か の 理 由 で 追 跡 不 能 と な り,
そ れ ぞ れ の 打 ち 切 ら れ た 時 間(censored {tj1,tj2,…,tjωj}
で あ っ た と し よ う.こ
3)つ
ま り,時
点tjの
こ で,t0=0,tm+1=∞
直 前tj-0に
time)は
(8.17)
と す る.
は
nj=(dj+ωj)+(dj+1+ωj+1)+…+(dm+ωm)
例 の患 者が まだ な る.こ
「生 存 」(number
の 患 者 全 体 を 時 点tjで
(8.18)
of patients at risk)し の リ ス ク セ ッ トR(tj)と
て いる こ とに い う.
R(tj)={時 4)最
後 に,エ
点tj以
後 に観 測 され たnj例
ン ト リ ー し た 患 者 全 体 の 打 ち 切
{tj,tjκ},j=0,...,m;κ=1,...,wj,を
z(1)〓z(2)〓
小
…
の 患 者 全 体} (8.19) りデ ー タ を 含 め た デ ー タ
さい 順 に並 べ て
〓z(no) (8.20)
と 定 義 し て お く.
8.2.1 パ ラ メ ト リ ッ ク 法 生 存 時 間分 析 で よ く利 用 され る 連 続 な 確 率 分 布 は 次 の 2通 りで あ る.
1)指 数分 布
(8.21) (8.22) (8.23) 2)Weibull分
布
(8.24) (8.25) (8.26) Weibull分
布 でc=1の
Weibull分
布 の 場 合 の 最 尤 推 定 法 を考 え よ う.尤 度 は 二 つ の パ ラ メー タ(η,c)
の 関数 として
ケ ー ス で は 指 数 分 布 に 一 致 す る の で,こ
こで は
(8.27) と な る.し
た が っ て,対
と な る.そ
こ で,パ
数 尤 度 ι(η,c)は
(8.28) ラ メ ー タ(η,c)で
偏微 分 す る と
(8.29) (8.30) と な る.
∂ ι/
∂c
=∂ι /∂η=
0の
尤 度 方 程 式 を 解 く と,2 変 数 のNewton‐Raphson法
(8.31) を利 用 す る まで も な く cは
(8.32) の 解 と し て 得 ら れ,1
変 数 のNewton‐Raphson法
(8.33) で 計 算 で き る.こ
で あ る.結
局,η
こに
は
(8.34)
で 計 算 で き る.最 尤 推 定 値(c,η の 漸 近 的 な 分 散 共 分 散 行 列 はFisher情
報行
列 の 逆 行 列 で あ るか ら
(8.35) と 計 算 で き る.し か し,実 際 の 生 存 時 間 デ ー タ の 解 析 で は 次 節 の ノ ン パ ラ メ ト リ ッ ク法 が 利 用 され る こ とが 多 い.
8.2.2
ノ ンパ ラ メ トリ ッ ク 法
最 尤 推 定 法 で 推 定 す べ き生 存 関 数 を S(t)と お こ う.時 点tjで
イベ ン トが
発生 す る 確 率 は
(8.36) と な る の で,S(t)の
関数 として尤 度 は
(8.37) と な る.さ
て,も
し推 定 値s(t)が
が 明 らか に 0 と な るの で,S(t)は を 最 大 に す るの で あ る か ら,第
連 続 関 数 とす れ ば,上
記 の 尤 度 の 第 1項
離 散 分 布 で な け れ ば な らな い.ま た,尤
度
2項 目は
S(tjκ+0)=S(tj+0),j=1,...,m,κ=1,...,ωj S(t0κ+0)=S(0)=1,κ=1,...,ω0
とす る こ と に よ り最 大 化 され る こ とが 容 易 に わ か る.し た が っ て,尤 度 関 数 は
(8.38)
と な り,式(8.14)か
ら生 存 関 数S(t)は
次 の 式 で 推 定 さ れ る.
(8.39)
(8.40) (8.41) こ こ に λjは 時 点tjで
の ハ ザ ー ド 関 数 の 推 定 値 で,そ
し た 尤 度 L を最 大 化 す る こ と に よ り得 られ る.つ
れ は これ ら の 式 を代 入
ま り,
(8.42) と な る.最
後 は ωm=nm-dmに
注 意 す る.こ
の 尤 度 関 数 は 明 らか に 二 項
分 布 の そ れ に 等 し い か ら最 尤 推 定 値 λjは dj/ λj= nj
で 与 え られ る.し
た が っ て,生
,
j=1,...,m
存 関 数 の 最 尤 推 定 値 は 式(8.39)に
(8.43)
代 入 して
(8.44) で 与 え ら れ る.こ
れ が い わ ゆ る,「 累 積 生 存 率 曲 線 のKaplan‐Meier推
と よ ば れ る も の で あ る.も
し,ωm>0で
あ れ ば,S(t)は
決 し て,0
定値 」 にな ら
な い の で, S(t)=定
義 さ れ な い,for
t>tmωm(ωm>0)
(8.45)
と な る.
さ て,次
に,生
存 関 数 の 推 定 誤 差 を 計 算 し て み よ う.最 尤 法 と 同 様 に 式
(8.39)の 対 数 を と っ て 考 え る と,
(8.46) この漸 近的 な分 散 推定 量 は,
(8.47) の 性 質 を 利 用 す れ ば,
(8.48) と 計 算 で き る.今
度 は,式(8.47)で
Var(logS(t))= で あ る か ら,
θ=S(t)と 1/
お くこ とに よ り
vas(S(t)) S(t)2
(8.49) と計 算 で き る.こ の 式 がGreenwoodの の 式 を 利 用 し て,例
え ば,あ
公 式 と よば れ る も の で あ る.た だ,こ
る生 存 時 間 tで の95%信
頼区間を
で 計 算 す る と,信 頼 区 間 の 限 界 値 が 範 囲[0,1]を は み だ し て し ま う こ とが あ る.こ
れ を避 け る た め,範
は 次 のlog(-log)変
囲[0,1]の 範 囲 で 定 義 され る 推 定 量 の 信 頼 区 間 に
換 が よ く利 用 され る. y(t)=log(-logS(t))
も う 一 度,式(8.47)を
利 用 し て,y(t)の
(8.50)
分 散 υ(t)を 計 算 す る と
(8.51) と 計 算 で き る.こ
う す れ ば,
S(t)=exp(-exp(y(t))) で あ るか ら,S(t)の95%信
頼 区 間は
(8.52) と計 算 され る. [例 題8.1]
表8.1の
デ ー タを利用 して
1)デ ー タ全 体 の 生 存 率 曲 線 の 推 定 を,(1)Weibull分
布,(2)Kaplan‐Meier
法 の 両 方 で 推 定 せ よ.
2)治 療 群 別 に も 上 と 同 様 に 2種 類 の 方 法 で 推 定 せ よ. [解答] 1)デ ー タ全 体
図8.3
表8.1の
デ ー タ全 体 に お け る 生 存 率 曲線 のWelbull分
リ ッ ク推 定 値 とKaplan‐Meier推
式(8.33)-(8.35)を
布を仮定 したパラ メ ト
定値
利 用 す る と,そ
0.690±0.136,η=2.09±0.730)と
れ ぞ れ の 推 定 値 と標 準 誤 差 は(c= 推 定 さ れ,最
大 対 数 尤 度 は 式(8.28)
よ り ι(c,η)=-27.905
で あ っ た.Kaplan‐Meier法 こ で は,S‐Plusの 体 のS‐Plusプ
は 式(8.44)を
計 算 す る こ と に な る が,こ
プ ロ グ ラ ム 「surv.f it」 を 利 用 す る.こ ロ グ ラ ム は 付 録B.5に
示 し た.結
れ らの 計 算 全
果 は 図8.3に
示 す とお
り で あ る.
2)治 療 群 別 Weibull分
布 の パ ラ メ ー タ は,
と推 定 さ れ た.治 療 群 別 の 生 存 曲線 の 推 定 結 果 は,Kaplan‐Meier法
の
図8.4
表8.1の
デ ー タの 治 療 群 毎 の 生 存 率 曲線 のWeibull分
ト リ ッ ク推 定 値(Weibull比 Kaplan‐Meier推
布 を仮定 したパ ラメ
例 ハ ザ ー ド モ デ ル に よ る推 定 値 と ほ ぼ 同 じ)と
定値
結 果 と 一 緒 に 図8.4に
示 す.
8.3 比 例 ハ ザ ー ド 回 帰 モ デ ル
生 存 時 間 分 析 に お け る 回 帰 分 析 は 比 例 ハ ザ ー ドモ デ ル が よ く利 用 され る. そ れ は,ハ
ザ ー ド関 数 と共 変 量x=(x1,...,xp)tと λ(t;x)=λ0(t)exp(xtβ)
=λ0(t)exp(β1x1+…+βpxp)
で 表 現 さ れ る モ デ ル で あ る.こ ‐ard function)で デ ル の下 では
あ り,xtβ=0の
の関係が 線形 対数 モデル (8.53)
(8.54)
こ に λ0(t)は 規 準 ハ ザ ー ド 関 数(baseline 場 合 の ハ ザ ー ド 関 数 と 考 え ら れ る.こ
haz の モ
(8.55) と な る.こ
こ にS0(t)は
規 準 生 存 関 数 で あ る.
さ て,共
変 量 が そ れ ぞ れxA,xBと
相 異 な る 2群 の ハ ザ ー ド 関 数 を 比 較 し
てみると
(8.56) と 生 存 時 間 に 無 関 係 に 一 定 と な る.こ
の 比 例 定 数 を ハ ザ ー ド比(hazard ra
‐tio),相 対 ハ ザ ー ド(relative hazard)な
ど と よ び 共 変 量 の 評 価 指 標 と して 推
定 され る. 例 え ば,2 種 類 の 治 療 A(新 治 療),B(標 準 治 療)の 効 果 を,予
後 因子 を調 整
して比 較す る
H0:SA(t)=SB(t) H1:SA(t)≠SB(t)
に は,共
変 量x1を
治療 群 を表す 変数 として x1=1(A群),
と し,予
(8.57)
後 因 子 を{x2,...,xp}と
x2=0(B群) し た,変
数x1の
係 数 の有 意性 検 定
H0:β1=0
H1:β1≠0
(8.58)
を行 え ば よ い.な ぜ な ら,共 変 量 を調 整 す る と い う こ と は 治 療 群 を表 す 変 量 x1以 外 の 他 の 変 量 は 同 じ値 を もつ 群 を 比 較 す る こ と を 意 味 す る の で,
(8.59) か ら,標
準 治 療 に 対 す る新 治 療 の ハ ザ ー ド比 はexp(β1)で
与 え られ,
(8.60) と な り,仮
説(8.57)と(8.58)が
一 致 す る か ら で あ る.
さ て,次
の 項 か ら 比 例 ハ ザ ー ド モ デ ル に 関 す る 推 測 方 式 の 解 説 を 行 うが,
1.2節 で 定 義 し た 用 語:式(8.15)-(8.20)を
こ こ で も 利 用 す る.
8.3.1
パ ラ メ ト リ ック モ デ ル
規 準 ハ ザ ー ド関 数 λ0に あ る 確 率 分 布 を仮 定 す る 方 法 で,中 で も,式(8.24) -(8.26)のWeibull分
布 を仮 定 す る こ とが 少 な くな い.ま
ず,尤
度 関 数 は,式
(8.27)を 参 考 に し て
(8.61) と な る.共
変 量 に 関 す る 記 号 の 意 味 は 後 述 のp.131を
参 照 の こ と.対 数 尤 度
関数は
(8.62)
と な る.偏
微分は
(8.63) (8.64) (8.65) と な る.し
た が っ て,
(8.66) と お け ば,最
尤 推 定 値 θ はNewton‐Raphson法
(8.67) で 計 算 で き る. [例 題8.2]表8.1の
デ ー タ を 利 用 し て,次
λ(t;x)=λ0(t)exp(βx)
x=0(プ
のWeibull比
ラ セ ボ),x=1(プ
例 ハ ザ ー ドモ デ ル レ ド ニ ソ ン)
に よ り治 療 効 果 を推 定 せ よ. [解 答]S‐Plusで 録B.6に
のNewton‐Raphson法
示 し た.推
し た が っ て,プ 95%信
等,す
べ ての計 算 のプ ログ ラムは付
定 結果 は
ラ セ ボ に 対 す るプ レ ドニ ソ ン 治 療 の ハ ザ ー ド比 の 推 定 値 と
頼 区 間は 最 尤 推 定 値:exp(-0.735)=0.480 95%CI:exp(-0.735±1.94・0.519)=0.177-1.300
と計 算 され る.ま
た,帰
無 仮 説H0:β=0に
対 す るWald検
定の 自由度 1
の χ2検 定 統 計 量 は β2/SE(β)2=2.085,
と な る.ま =0に
た,ι(c,η,0)=-27.905(例
p=0.149
題8.1)で
あ る の で,帰
対 す る 尤 度 比 検 定 の 自 由 度 1の χ2検 定 統 計 量 は -2(ι(c
,η,0)-ι(c,η,β))=2.256,
p=0.133
と 計 算 で き る. さ ら に,式(8.55)よ
り生 存 関 数 は
プ ラ セ ボ 群:S0(t),プ
レ ド ニ ソ ン 群:S0(t)exp(β)
無 仮 説H0:β
で あ る.治 療 群 別 の 推 定 値 は 図8.4の あ っ た.比
8.3.2
群 別 に 推 定 し た 生 存 関 数 と ほぼ 同 じで
例 ハ ザ ー ドモ デ ル の 適 合 度 が 程 よい こ と を 示 す 傍 証 で あ る.
Coxの
モデ ル―
セ ミパ ラ メ ト リ ッ ク モ デ ル
こ こで の 推 定 の 最 も重 要 な 点 は,パ
ラ メ ト リ ッ ク法 と異 な り,規 準 ハ ザ ー
ド 関 数 λ0(t)は 未 知 の ま ま に し て お い て,β し た が って,統
に 関 す る 推 測 を 行 うこ と に あ る.
計 学 的 に は な ん らか の 意 味 で の 条 件 付 き推 測 に よ り,局 外 母
数(nuisance parameter)と
もい え る 規 準 ハ ザ ー ド関 数 を推 定 方 程 式 か ら除 か
ね ば な ら な い. さ て,い
ま,2
種 類 の 事 象 A,B の 列 {A1,A2,…,Am},
{B0,B1,...,Bm}
を 考 え, 事 象Aj:時
点tjで
事 象Bj:区
間[tj,tj+1)で
と定 義 し よ う.す
る と,デ
の イベ ン トの 発 生 の 打 ち 切 りの 発 生
ー タ全 体 の 尤 度(確
率)は
Pr{B0A1B1A2,...,Bm-1AmBm}
で 与 え ら れ る.条
と な る.8.2節
(8.68)
件 付 き確 率 を 順 に 計 算 し て い く と
で も 解 説 し た よ う に,censored
関 数 の 推 定 に ほ と ん ど 情 報 を も っ て い な い.し
timesで
あ る 事 象Bjは
た が っ て,回
生存
帰 の パ ラ メー タ
で あ る β に も ほ と ん ど 情 報 が な い と考 え て も ほ と ん ど 間違 い は な い だ ろ う. し たが っ て,β
に 関 す る 尤 度 を 考 え る に は,尤
度 全 体 か ら事 象Aκ
に関す る
「部 分 」 尤 度(partial likelihood)
(8.69) だ け を考 え れ ば よ い こ とに な る. さ て,こ
の 部 分 尤 度 を 考 え る の に,ま
な い,つ
ず,生
ま り,dj=1(j=1,...,m)で り,dj=1(j=1,...,m)で
リ ー し たn0例
存 時 間 に タ イ(tie,同
あ る 場 合 を 考 え よ う.研
時 間)が
究 にエ ン ト
の患 者 につ いて
1)共
変 量:xi=(x1i,x2i,...,Xpi)t,i=1,...,n0 量:xi=(x1i,x2i,...,xpi)t,i=1,...,n0
2)生
存 時 間tjを
記 録 し た 患 者 の 共 変 量 をx(j)
す る と,
(8.70) と な る.し
た が っ て,式(8.69)よ
り β の部 分尤 度 は
(8.71) と な る.次
に,タ
イが あ る 場 合(dj〓1),を
考 え よ う.そ
こ で 次 の 用語 を 用
意 し て お こ う. 1)タ 1)タ
イで イ で あ あ っ っ たdj例 たdj例
…+x(j …+x(j 2)R(tj,dj):リ 2)R(tj,dj):リ
dj)と dj)と
の の共 共変 変 量 量 を(x(j1),...,x(jd を(x(j1),...,x(jd
ス ス ク クセ セ ッ ッ トR(tj)の トR(tj)の
こ の こ の 場 場 合 合は は 式(8.70)の 式(8.70)の
j))と j))と
し し,s(j)=x(j1)+ ,s(j)=x(j1)+
す す る. る.
展 展 開 開が が
Pr{Aj│B0A1…Bj-2Aj-1Bj-1}
中か 中 か らdj例 らdj例
の の添 添 字 字 の の組 組 み み合 合せ せ の の 集 集 合. 合.
(8.72) と な る . し た が っ て,求
め る正確 な部 分 尤度 は
(8.73) と な る. し か し,タ
イの数が 多 い と上記 の尤 度 の計算 は膨 大 な組 み合せ nj
( dj ) の 計 算 を必 要 と す る の で 計 算 が 困 難 で あ る.そ 考 え る 必 要 が あ る.njがdjに
こで,一
般 的 にはそ の近似 を
比 べ て 大 きい 場 合 に は
(8.74) と 近 似 で き る.こ れ がBreslow(1974)の
近 似 部 分 尤 度 と よば れ る も の で, S‐
Plus等 の 代 表 的 な 統 計 パ ッ ケ ー ジ に 利 用 され て い る. さ て,一 般 に は この 部 分 尤 度 関 数 が 利 用 され て い る の で,こ
れ を用 いて β
の 最 尤 推 定 値 を 求 め て み よ う.対 数 部 分 尤 度 は
(8.75) と な る か ら,最
尤 推 定 値 β は β で 偏 微 分 し た 式,エ
フ ィ シ ェ ン ト ・ス コ ア
(efficient score) U(β)=
∂logPL(β) /∂β
(8.76)
の 各 成 分 を 0 と し た p 個 の 連 立 方 程 式 の 解 で あ る.そ
の 第 i成 分 は
(8.77)
こ こ で,
(s1(j),
s(j)=
s2(j), ...,sp(j) )t
(8.78)
(8.79) で あ る.さ
ら に,β
に 関 す るFisher情
報 量I(β)の
第(ih)成
分は
(8.80) こ こ に,
(8.81) で 与 え ら れ る.通
常,最
尤 推 定 値 はNewton‐Raphson法,ベ (κ+1)
β
=β(κ)+
の 繰 り返 し計 算 で 求 め る.推
I(β(κ))-1U(β
ク トル 表 記 で は (κ))
(8 .82)
定 値 β の 分 散 共 分 散 行 列 は も ち ろ ん,I(β)-1
で あ る.
8.3.3
さ て,比
log‐rank検
定
例 ハ ザ ー ドモ デ ル で の 部 分 尤 度 に 基 づ くパ ラ メ ー タの 検 定 に も通
常 の よ う に,漸 1)Wald検
近的 に 同等 な三 つの 方法 定
2)尤 度 比 検 定 3)ス コ ア検 定 が 利 用 で き る.こ
こ で は,次
の治 療変 数 以外 に共 変量 の ない モデ ル
λ(t;x)=λ0(t)exp(βx), x=1(新
治 療),x=0(標
(8.83) 準 治 療)
で の仮 説 H0:β=0, に ス コ ア 検 定 を 考 え よ う.ま
H1:β
ず,式(8.73)に
≠0
(8.84)
基 づ く正 確 な 部 分 尤 度 で 考 え て
み る と , エ フ ィ シ ェ ン ト ・ス コ ア は
(8.85) ここで
,
(8.86) で あ る.さ
ら に,β
に 関 す るFisher情
報 量I(β)は
(8.87) ここ に,
(8.88) で 与 え ら れ る.そ
こ で,帰
無 仮 説 の 下 で の エ フ ィシ ェ ン ト ・ス コ アU(0)を
考 え て み る と,超
幾何 分布 に 関す る推論 で {(新 治 療 群 に お け る時 点tjで
の イベ ン トの 観 測 数)
-(新 治 療 群 に お け る ,時 点tjで
の イベ ン トの 期 待 数)}
(8.89) と な っ て い る こ と が 理 解 で き る だ ろ う.つ
ま り,表8.2の
ような分割 表 を考
え る と,
(8.90)
表8.2
イベ ン ト発 生 時 点tjで
の 「治 療 群 」 × 「イベ ン ト発 生 の 有 無 」 の 分 割 表
で あ り,
(8.91)
(8.92) (8.93) と な る.し
た が っ て,ス
コア検 定 は
(8.94) と な り,い れ は,オ
わ ゆ るlog‐rank検
定 と い わ れ る 検 定 統 計 量 が 導 か れ る .ま
ッ ズ 比 の 層 別 解 析 で 有 名 なMantel‐Haenzsel検
と こ ろ が,式(8.74)の
た,こ
定 と 同 一 で あ る.
近 似 部 分 尤 度 で 計 算 す る と超 幾 何 分 布 で は な く幾
何 分 布 で の 推 論 に 変 換 され て い る こ と に注 意 し て,近 似 式(8.74)-(8.81)か
ら
(こ こ で は 近 似 を 意 識 し て 記 号 に 添 字 「approx」 をつ け る),
(8.95)
(8.96) と な る.式(8.93)と
式(8.96)と
に の み 両 者 は 一 致 す る が,一
を 比 べ る と,明 らか に タ イが な い 場 合dj=1
般 に は 近 似 尤 度 の 分 散 が 過 大 推 定:
djRapprox,j(0)〓Rj(0) Iapprox(0)〓I(0) と な っ て お り,近
(8.97)
(8.98)
似 部 分 尤 度 に 基 づ くス コ ア 検 定 は 少 々 検 出 力 が 小 さ くな る
傾 向(conservative)が し て,n1j/nj<
あ る.Peto
<1で
and Pike(1973)は
さ らに分散 を過大 評価
あ れ ば 近 似 的 に 成 立 す る 分 散: n1j/
Vj=
dj
=Ej(期
待 値)
nj
を 利 用 し た 簡 便 な(し
を 提 案 し て い る.コ 本 章 で は,比
か し,conservativeな)log‐rank検
ン ピ ュ ー タ の 普 及 し て い な か っ た 時 代 の 産 物 で あ ろ う.
例 ハ ザ ー ド モ デ ル の 基 本 的 な 考 え 方 に 重 点 を お い た の で,他
の ト ピ ッ ク は 省 略 し た.中 tionality)の
定
で も,そ
の 応 用 上,重
要 な 比 例 ハ ザ ー ド 性(propor
チ ェ ッ ク の 考 え 方 に つ い て は 他 の テ キ ス ト,例
and Prentice(1980),Fleming
and Harrington(1991)な
え ば,Kalbfleisch
どに進 んで い ただ き
た い. [例 題8.3]下
の 架 空 の 生 存 時 間 デ ー タ にCoxの
し 治 療 効 果 の 推 定,検
定 の 計 算 を 行 え.な
比 例 ハ ザ ー ド モ デ ル を 適用
お,20+,35+はcensored
timeを
表 す.
[解 答 ] まず,こ
の デ ー タ に 適 用 す るCoxの
比 例 ハザ ー ドモデ ル は
λ(t;x)=λ0(t)exp(βx)
で あ る.必
要 な デ ー タは 表8.3の
似 尤 度 式(8.74)を
よ う に ま と め ら れ る.そ
利 用 し て い る.こ
こ で の 尤 度 は,近
の 表 か ら部 分 尤 度 は
(8.99) と な る.し
た が っ て,
ι(β)=logPL(β)
表8.3
生 存 時 間 分 析 の た め の 架 空 デ ー タ.共 変 量 は 1個 x で,治 で,x=1(新
治 療),=0(標
を示 す 変 数 で,δ=1(イ (8.74)を
と な り,最
準 治 療),で
あ る.ま た,δ
ベ ン ト発 生),=0(censored)で
療の種類を表す変数
は イベ ン ト発 生 の 有 無 あ る.尤
度は近似 式
利 用 して 計 算 し て い る,
尤 推 定 値 β は 次 のNewton‐Raphson反
復 収束 法
の 解 と な る.そ
の 結 果,
と な る.
し た が っ て,標
準 治 療 に 対 す る 新 治 療 の ハ ザ ー ド比 の 推 定 値 と95%信
頼区
間は 最 尤 推 定 値:exp(-1.380)=0252
95%CI:eXp(-1.380±1.96・1.157)=0.026-2.431
と計 算 され る.ま た,帰
無 仮 説H0:β=0に
対 す るWald検
定 の 自由 度 1の
x2検 定 統 計 量 は β2I(β)=1.422 と な る.ま
た,U(0)=-1.271,I(0)=0.975で
あ る の で,帰
無 仮 説H0:β=0
に対 す る 有 効 ス コ ア 検 定 の 自 由 度 1のX2検
と な る.ま β=0に
定統 計 量 は
た,ι(0)=-7.937,ι(β)=-7.098で
あ る の で,帰
対 す る 尤 度 比 検 定 の 自 由 度 1のx2検 -2(ι(0)-ι(β))=1
無 仮 説H0:
定 統計 量 は .678
と計 算 で きる. さ て,次
に,式(8.73)の
正 確 な 部 分 尤 度 に 基 づ く推 定 値 を 求 め て み よ う.
近 似 尤 度 と の 違 い はt4=25,d4=2,n4=5に
対 す る尤度が 近 似部 分尤 度
か ら,正 確 な 部 分 尤 度
eβ/{(2 2)+(2 と変 化 す る だ け で あ る.こ み 合 せ が,二
1)(3 1)eβ+(3 2)e2β}
こ で,リ
ス クセ ッ トR(t4)の
(8.100)
中か ら 2 人 を 選 ぶ 組
つ の 治 療 群 か らの 組 み 合 せ を考 え て (2
2 1)
(5 2)=
2)+(
と な っ て い る こ と に 注 意 し た い.さ
て,こ
2) (3 1)+(3 の 正 確 な 部 分 尤 度 に よ り推 定 す
ると β=-1.606,
SE(β)=1.245
ハ ザ ー ド 比=0.201,95%CI:0.017-2.304
で あ り,帰 無 仮 説H0;β=0に
対 す るそれ ぞ れ の検定 統 計量 は Wald検
定 統 計 量=1.663
ス コ ア 検 定 統 計 量=1.891 尤 度 比 検 定 統 計 量=1.947
と な る,こ
の 結 果 は,近
似 尤 度 が 少 々 控 え 目 で あ る こ と を示 す 一 例 で あ る.
[例 題8.4] 1)例 題8.2の
モ デ ル にCoxの
λ(t;x)=λ0(t)exp(βx),x=0(プ
比 例 ハ ザ ー ド モ デ ル を 適 用 せ よ. ラ セ ボ),x=1(プ
レ ド ニ ソ ン)
表8.4
2)表8.1全
表8.1の
デ ー タ に対 す るCoxの
体 の デ ー タ にCoxの
比 例 ハ ザ ー ドモ デ ル の 適 用 結 果
比 例 ハ ザ ー ドモ デ ル を適 用 し て 治 療 効 果
を 推 論 せ よ. [解 答]い
ず れ も 近 似 尤 度(8.74)に
利 用 す る.変 法),alb(ア
数 は,day(生
基 づ くS‐Plusプ
存 日数),event(イ
ル ブ ミ ン),sake(飲
酒 の 有 無)で
S‐Plus program:例
ログ ラム
「coxreg」
ベ ン ト発 生 の 有 無),treat(治
を 療
あ る.
題8.4,表8.4
coxreg(day,event,treat) coxreg(day,event,cbind(treat,alb,sake))
1) 例 題8.2
推定 結 果 は
で あ っ た.ま 定,ス
た,帰 無 仮 説H0:β=0に
対 す るWald検
定,尤
度比検
コ ア 検 定 の χ21検定 統 計 量 は い ず れ も1.2と 計 算 され た.Weibull
比 例 ハ ザ ー ドモ デ ル で の 推 定 結 果 と比 較 し て み よ う. 2)全 体 推 定 結 果 は 表8.4に ず か に 及 ば な い0.067で
示 す と お りで あ る.治 あ っ た.
療 効 果 のp値
は5%に
わ
9 Bayes推
9.1
Frequentist―
伝 統 的統 計 学
こ れ まで 解 説 し て きた 推 測 方 式 の 多 くは,原 可 能 な 実 験(標
本 抽 出)か
測
則 と して,何
度 も繰 り返 しが
ら 得 られ る 標 本 X に 対 し て,未
知 母数 θを含 む
確 率 分 布〓(x| θ)を 考 え る と い う意 味 で 頻 度 論 者(frequentist)の る と い え る.す [例 1]あ
立場であ
で に 解 説 して あ る 事 柄 も あ るが こ こ で 整 理 し て お く.
る 母 集 団 か ら 無 作 為 に 選 ん だ 1組 の 標 本
(X1,X2,...,Xn) に 対 し て,正
規 分 布N(μ,σ2E)を
考 え,未
知 母 数(μ,σ2E)を 推 定 し よ う とす
る の は 頻 度 論 者 で の 統 計 モ デ ル で あ る. [例 2]n タXijに
人 の 患 者 に つ い て,そ つ い て,統
れ ぞ れ γ回 繰 り返 し測 定 し た 一 元 配 置 デ ー
計 モデ ル Xij=μ+αi+〓ij,
を 考 え,母
数 αi,i=1,...,nを
〓ij∼N(0,σ2E)
(9.1)
推 定 し よ う とい うの は 頻 度 論 者 の モ デ ル で
あ る.
[例 3】 例 2の モ デ ル の 中 で,αiは 場 合 に は,母
対 象 とす る 集 団 か ら “random” に 選 ん だ
数 で は な く,確 率 変 数 で あ る と考 え る こ と もで き る.つ
ま り,
選 ば れ た 患 者 の 効 果 に は 興 味 が な く,そ の バ ラ ツキ に 興 味 が あ る 場 合 で あ る. し た が っ て,αiに αi∼N(0,σ2B)
(9.2)
と い うモ デ ル を 導 入 し,σ2Bを 推 定 し よ う とい うモ デ ル も頻 度 論 者 の モ デ ル
で あ る が,変 て,例
量 効 果 モ デ ル(random‐effects
model)と
よ ば れ る.こ
1,2 は 母 数 効 果 モ デ ル(fixed‐effects model)と
よ ば れ る.
[例 4] あ る 条 件 下 に お か れ た 動 物 の 成 長 を 観 察 す る た め に,n の 体 重 を γ 回 の 測 定 時(t1,...,tr)で て,母
れ に対 し
例 の マ ウス
測 定 し た 二 元 配 置 デ ー タXijに
対 し
数効 果の 線形 モ デ ル Xij=α+βtj+〓ij,〓ij∼N(0,σ2E)
(9.3)
を考 え て み よ う.デ ー タ を グ ラ フ に プ ロ ッ トし て 観 察 して み れ ば わ か る よ う に,個
体 差 が 大 き くて 一 つ の 線 形 モ デ ル で 表 現 で き る ケ ー ス は 少 な い,こ
よ うな 場 合 に は,個 Xij=(μ
の
体差 を表現 す るた めの 変量効 果 モデ ル α+αi)+(μ
2
β+βi)tj+〓ij,〓ij∼N(0,
(αi,βi)∼N(0,Σ)
σE
)
(9.4)
(9.5)
を 考 え る こ とが で き る.
9.2
Bayesian
これ に対 して,Bayes推 測 の 立 場(Bayesian)で は,頻 度 論 の 立 場 に 立 た な い た め,ど の よ うな もの に も確 率(分 布)を 考 え る こ とが で き る .例 え ば,次 の よ う な推 測?で
あ る. 「あ い つ が 彼 を殺 し た 確 率 は0.9以
上 だ!」
頻 度 論 者 は こ の 推 測 は ナ ン セ ン ス で あ り,ま さ に,げ
す(guess)の
かんぐ り
で あ る と非 難 す る, さ て,Bayes推
測で は
〓問 題 に す る 未 知 パ ラ メ ー タ(母 数 と は い わ な い)θ 布p(θ)と
し て 表 現 し,θ
は 確 率 変 数 と 考 え る.こ
観 測 す る 前 に 設 定 さ れ る か,後 distribution),事
の不 確 実性 を確 率分 の確率 分布 をデ ー タを
に 設 定 さ れ る か に よ っ て 事 前 分 布(prior
後 分 布(posterior
distribution)と
い わ れ る.
〓デ ー タ X も頻 度 論 者 と 同 様 に 確 率 変 数 で あ り,確 率 分 布 〓(x|θ)を も つ,し
たが っ て,
〓未 知 パ ラ メ ー タ とデ ー タの 同 時 確 率 分 布 を 考 え る こ とが で き る. p(θ,x)=p(θ)〓(x|
θ)
(9.6)
さて,Bayes推
測 で 推 測 の対 象 と な る 未 知 パ ラ メ ー タ θ は な に も確 率 分 布
〓(x│θ)に 含 ま れ る もの に 限 ら な い.応 〓 欠 損 値(missing
用 上 で 重 要 な もの と し て
value)
〓測 定 誤 差 に 隠 れ て い る 真 の 値
な ど も 対 象 と な る.さ て,Bayes推
測 で は θの 不 確 実 性,す
率 分 布 に 推 測 の 興 味 が あ る わ け で,デ
な わ ち,そ の 確
ー タが 観 測 され て い れ ば,デ
ー タで 条
件 付 け す る こ と に よ り(デ ー タ の 情 報 が 付 加 され た)θ に 関 す る 条 件 付 き確 率 分 布p(θ│x)を Bayesの
求 め よ う と す る の は 自然 で あ ろ う.そ
し て,そ
の 方 法 は,
定 理 が 教 え て くれ る の で あ る.
Bayes
theorem
(事 後 分 布 の 「核 」 と よぶ)
(9.7)
事 後 分 布 = 事 前 分 布 х 尤 度(デ ー タが.given)(9.8)
9.3 無 情 報 事 前 分 布
さて,Bayes推
測 の 最 大 の 問 題 は事 前 分 布 の 設 定 法 で あ る.
〓最 も極 端 なBayes推
測 は 「主 観 確 率 」 で 推 測 す る 立 場 で あ る.主 観 確 率
の 選 び 方 に よ り事 後 確 率 が 大 き く異 な り,こ の 意 味 で 頻 度 論 者 か ら 非 難 さ れ て きた 歴 史 的 背 景 が あ る. 〓専 門 家 の 考 え を事 前 確 率 に取 り入 れ る こ とが 容 易 とい う点 で,Bayes流 意 思 決 定 の 分 野 で は 応 用 上 重 要 で あ る と 考 え ら れ て い る. 〓しか し,実
際 の 統 計 的 推 測 に お い て,未
知 パ ラ メー タの不確 実性 を規定
す る 事 前 分 布 の 選 び 方 に よ り結 果 が 変 わ っ て し ま っ て は 困 るわ け で,こ の 意 味 で,実
際 のBayes推
試 み る こ とが 多 い.な
測 で は 「客 観 的 」 に 事 前 分 布 を 設 定 し よ う と
か で も,
‐ モ デ ル の 未 知 パ ラ メ ー タ の 事 前 分 布 に 含 ま れ る パ ラ メ ー タ(超 パ ラ メ ー タ,hyper tive prior)」
paremeter)に
さ ら に 「無 情 報 事 前 分 布(noninforma
を 仮 定 し たfull Bayes法
‐ 超 パ ラ メ ー タ の 事 前 分 布 は 未 知 と 考 え,そ 法 で 推 定 す るempricial
Bayes法(具
れ を 観 測 デ ー タか ら最 尤
体 例 は12.4.1項
参 照)
の 二 つ が よ く 利 用 さ れ る.
こ こ で,無
情 報 事 前 分 布 とは.未
知 パ ラ メー タに 関 し て 事 前 の 知 識 が 欠 け て
い る 状 況 を 表 す 事 前 分 布 を さす.「 未 知 」 と い う こ と は も と も と 「知 識 が 欠 け て い る 」 こ と を 意 味 す る の で あ る か ら,頻 度 論 者 か らみ れ ば な ん と も変 な こ と を し て い る もの だ!と で あ るか ら,そ
一 蹴 され か ね な い.と
はp(θ)∝C(定
「-∞
〓 θ 〓 ∞ 」 の 値 を と り得 る と き そ の 事 前 分 布
「0<
θ 〓 ∞ 」 の 値 を と り得 る と き そ の 事 前 分 布 は
数).
〓未 知 パ ラ メ ー タが p(logθ)∝C(定
数),す
な わ ち,p(θ)∝1/θ
と 考 え る の が 自 然 で あ ろ う,し
こ で,応
前情 報が ない の
れ を 表 す 確 率 分 布 と し て は 「一 様 分 布 」 が 自然 で あ ろ う.
〓未 知 パ ラ メー タが
し ま い,確
もあ れ,事
か し,前
と な る.
者 の 場 合,積
分 す る と ∞
率 分 布 と し て は 正 し く な い 事 前 分 布(improper 用 上 は,観
prior)と
な る.そ
測 デ ー タの 適 当 な ス ケ ー リ ン グ に よ り
〓未 知 パ ラ メ ー タが,平
均 値 の よ うに,「-∞
と きそ の 事 前 分 布 は,正
〓未 知 パ ラ メー タ が,分 そ の 事 前 分 布 は,逆
〓 θ〓 ∞ 」 の 値 を と り得 る
規 分 布,
p(θ)=N(0,σ2),σ=100程
散 の よ うに,「0<
度 (9.9)
θ 〓 ∞ 」 の 値 を と り得 る と き
ガ ン マ 分 布,
p(1/θ)=Gα(α,α),α=0.001程
とす る こ とが 多 い.こ
こ に,Gα(α,b)は
度 (9.10)
ガ ンマ分 布で そ の確 率密 度 関数 は
α/
b 〓(x|
とな って
α,b)=
α-1
x
T(α)
exp(-bx)∝x
α-1
exp(-bx)
図9.1
α/
E(X)= で あ る.こ
,
b
無 情 報 事 前 分 布 の例
Var(X)=
α/
(9.12)
b2
の 二 つ の 事 前 分 布 の 「無 情 報 ぶ り」 は 図9.1に
示 す と お りで あ る.
ま た,こ の よ うに 無 情 報 事 前 分 布 を設 定 す る 他 の 理 由 と し て は,後
で示 す よ
う に,事 前 分 布 と事 後 分 布 が 同 じ 分 布 属 に属 す る 解 析 上 の メ リ ッ トが あ るか らで あ る.こ
の 種 の 事 前 分 布 を 自然 共 役(natural conjugate prior)と い う.
9.4
さ て,Bayes推
事
分
布
測 で は 事 後 分 布 に興 味 が 集 中 す る わ け で あ る が 実 際 の 統 計
的 推 定 問 題 へ の 適 用 に 際 して は,事 で あ る.も
後
ち ろ ん,未
後 分 布 か ら点 推 定 値 を求 め る こ とが 必 要
知 パ ラ メ ー タは 確 率 変 数 で あ るか ら,頻 度 論 的 立 場 に
お け る よ うな 未 知 母 数 の 「不 偏 推 定 」 とい う概 念 は な い も の の,推 さの 基 準 が 必 要 に な る.そ
の 一 つ が 損 失 関 数(loss function)と
定 値 の良
い わ れ る もの
で あ る.い
ま,θ が 真 の と き に 推 定 値 tを と る と き の 損 失 関 数 をL(t,θ)と
し よ う.す る と,事
後 分 布 に 基 づ く期 待 損 失 は E(L(t│θ)|x)=∫L(t・
θ)p(θ |x)dθ
(9・13)
と な り,こ の 期 待 損 失 を 最 小 にす る推 定 量 tを選 ぶ の が 自然 で あ ろ う.も ち ろ ん,用
い る損 失 関 数 に依 存 して 変 化 す る.表9.1に
は代 表的 な損 失 関数 と
そ れ か ら導 か れ る 推 定 量 との 関 係 を示 し た. 一 般 的 に は,期 待 損 失 関 数 を 平 均 2乗 誤 差 で と らえ る こ とが 多 い の で,し た が って 「事 後 分 布 の 期 待 値 をBayes推 9.1の(3)に な る が,こ らば,事
定 値 」 と す る こ とが 多 い.ま
示 す 損 失 関 数 を利 用 す る と事 後 分 布 の モ ー ドがBayes推
た,表 定値 と
れ は 頻 度 論 者 で の 最 尤 法 を 特 別 な 場 合 と して 含 ん で い る.な ぜ な
前 分 布 に き わ め て 範 囲 の 広 い 一 様 分 布p(θ)=Cを
仮 定 す れ ば,式
(9.7)よ り p(θ│x)∝
〓(x| θ)
と な り,事 後 分 布 最 大 は 尤 度 最 大 を 意 味 す る か らで あ る.
9.5 階 層 的条 件 付 き独立 モデ ル
こ こ で は,full Bayes法
の な か で も,複
雑 なモデ ルが 階層 構造 を有す るい
くつ か の 独 立 な サ ブ モ デ ル に 分 解 で き る(確 条 件 付 き 独 立 モ デ ル(hierarchical
率 計 算 が 簡 単 に で き る)階
conditional independent
model)を
層 的 紹 介
し よ う. ま ず,例
1の 問 題 で,二
分 布p(μ,σ2E)を
導 入 し,事
し よ う と す る の がBayes推
表9.1
Bayes推
つ の 未 知 パ ラ メ ー タ(μ,σ2E)に 後 分 布p1(μ
|x)とp2(σ2E|x)を
測 で あ る.式(9.6)で
あ る 2変 量 の 事 前 そ れ ぞ れ,推
定
示 され る 同 時 分 布 が こ の 例
定 に おけ る損 失 関 数 とそ れ に 対 応 し た推 定 量
では
(9.14) と な り,例 え ば,平
均 値 に 関 す る事 後 分 布 は
(9.15) と計 算 す る. こ の 場 合,図9.2に
示 す よ う に,μ,σ2Eそ
れ ぞ れ 独 立 に,事
前 分 布 と し て,
(9.16) ガ ン マ 分 布 (9.17) を 「独 立 に 」 仮 定 し て み よ う. さ て,こ dency)」
の 図 は,各
ノ ー ド を 矢 印 で 結 び,矢
を 表 し,そ
acyclic graph)と
印 の 方 向 に 「依 存 性(depen-
の 反 対 方 向 に は 進 ま な い と い う 意 味 で, DAG(directed
よ ば れ る.「 ○ 」 で 囲 ま れ た 変 数 は 未 知 パ ラ メ ー タ で,「 □ 」
で 囲 ま れ た 変 数 は デ ー タ で あ る. 〓 そ れ ぞ れ の,○,□
〓例 え ば,○
→
を ノ ー ド(node)と
○ の 場 合 に,矢
い う
印 を 出 し て い る ノ ー ド を 「親 」,受 け て
い る ノー ド を 「子 」 とす る と,そ れ ぞ れ の ノー ド は 親(複 数 あ る場 合 も) の み に 依 存 し,親 の 先 祖 に は 依 存 せ ず 独 立 で あ る.た だ し,こ の 独 立 性 は デ ー タ を と る前 に 仮 定 され て い る の で あ って,デ
ー タで 条 件 付 け られ
た後 で はそ の独 立性 はか な らず しも保持 され ない . 〓矢 印 が 実 線 で あ れ ば 「確 率 的 依 存 性 」 を表 現 し,「点 線 」で あ れ ば 「関 数 的 依 存 性 」 を表 現 す る.
図9.2
2
正 規 分 布 N(μ,σ E,)のBayes推
定 に お け るDAGの
例
と仮 定 す る 階 層 的 条 件 付 き独 立 モ デ ル で あ る.し か に 独 立 と 仮 定 して い るが,デ
ー タ を と っ た(条 件 付 け し た)後
は か な らず し も保 存 され な い.つ フ は 階 層 的Bayesモ
た が っ て,μ
では独 立性
ま り,推 定 値 間 の 相 関 が 生 じ る.こ
のグ ラ
デ ル の 同 時 分 布 を 考 え る う え で き わ め て 有 用 で あ る.こ
の モ デ ル の 特 徴 の 詳 細 はSpiegelhalter et al.(1993)を さ て,こ
と σ2Eは 明 ら
の モ デ ル の 特 徴 は,式(9.6)の
参 照 され た い.
同 時 分 布 が,
(9.18) と 書 け る こ と で あ る.こ v={モ
こに
デ ル に 含 ま れ る す べ て の ノ ー ド υ の 集 合}(9.19)
で あ る.図9.2のDAGよ
り, P(μ,〓,x)=p(μ)p(〓)〓(x
と書 け る.も
ち ろ ん,こ
|μ,〓)
の 単 純 な例 で は 明 らか で あ り,こ の よ う な表 現 は つ
ま ら な い 例 か も しれ な い が,後 ル で 発 揮 され る.さ て,そ
で み る よ うに,こ
の 表 現 の 良 さは 複 雑 な モ デ
れ ぞ れ の 事 後 分 布 を計 算 し て み る と,以 下 の よ う
に な る.
(9.20) (9.21) で あ り,ま
た,
(9.22) と な る.し
た が っ て,(μ,〓)のBayes推
定値 は それぞ れ の事後 分布 の期待値
であ るか ら
(9.23) (9.24) の 連 立 方 程 式 を 解 く こ とに な る.こ の 例 で み る よ う に,事 後 分 布 も そ れ ぞ れ 正 規 分 布,逆
ガ ン マ 分 布 とな り,式(9.16),(9.17)の
事 前 分 布 が 自然 共 役 で
あ る こ とが わ か る.解 析 が 容 易 と な る こ とか ら共 役 な 事 前 分 布 が よ く利 用 さ れ て き たが,10章
で み る よ う に,最
近 の 計 算 技 術 の 進 歩 に よ り共 役 な 事 前
分 布 は か な らず し も必 要 で は な くな っ て きて い る. [例題9.1]下
のDAGに
[解 答 ] 式(9.18)よ
り,同
対 す る 式(9.7)で
与 え ら れ る 事 後 分 布 の 核 を導 け.
時分 布 は
p(α,β,γ,x,y)=p(γ│α)p(β│α)p(y│β,x)p(α).p(x)
と な るか ら,事
後分 布 は
p(α,β,γ│x,y)∝p(γ│α)p(β│α)p(y│β,x)p(α)
と な る.
9.6応
用
例
以 下 に い ろ い ろ な 応 用 例 を あ げ る.そ れ ぞ れ のDAGよ
り事 後 分 布 の 核 を
求 め よ. [例 5]一 元 配 置 分 散 分 析 例 3 の 変 量 効 果 モ デ ル を 階 層 的Bayesモ
デ ル で 考 え て み よ う.式(9.1),
(9.2)は Xij∼N(μi,σ2E)
μi∼N(μ0,σ2B)
と な り,超
パ ラ メ ー タ のnon‐informative事
前 分 布 の例 は
μ0∼N(0,σ2),σ=100 1/σ2E∼Gα(α,α),α=0.001 1/σ2B∼Gα(α,α),α=0.001
と な る.こ
の モ デ ル のDAGは
図9.3に
示 す と お りで あ る.
[例 6]成 長 曲 線 モ デ ル 例 4の 体 重 の 成 長 曲 線 の 変 量 効 果 モ デ ル を 階 層 的Bayesモ
デ ルで考 えてみ
よ う.式(9.4)は Xij∼N(μij,σ2E) μij=αi+βitj
と再 表 現 で き る.変 量 効 果 モ デ ル で は,(μi,βi)に 式(9.5)の を仮 定 し て い た が,階
層Bayesモ
デ ル で は,独
2変 量 正 規 分 布
立 にそ れぞ れ の 事 前分 布 を
仮定
す る こ と に 注 意 し た い,五 例 は
αi∼N(μ
α,σ2α)
βi∼N(μ
β,σ2β)
つ の 超 パ ラ メ ー タ のnon‐informative事
前 分布 の
図9.3
Bayesian一 モ デ ル のDAGの
元 配 置分散 分 析 例
図9.4 Bayesian成
μα ∼N(0,σ2α),σ
α=100
μβ ∼N(0,σ2β),σ
β=100
長 曲 線 モ デ ル のDAGの
例
1/σ2E∼Gα(α,α),α=0.001 1/σ2α ∼Gα(α,α),α=0.001 1/σ2β ∼Gα(α,α),α=0.001
と な る.こ [例 7]混
の モ デ ル のDAGは
図9.4に
合 効 果(mixed‐effects)モ
示 す と お りで あ る.
デ ル の ロ ジ ス テ ィッ ク 回 帰 分 析
五 つ の 超パ ラ メー タの事前 分布 の 例は β0,β1,β2,β12∼N(0,100) 1/σ2∼Gα(0.001,0.001)
と お け る.こ [例 8]臨
の 場 合 のDAGは
図9.5で
あ る.
床 試 験 の メ タ ・ア ナ リ シ ス(meta‐analysis)
第i(=1,...,K)臨
床 試 験 の 対 照 群 の 症 例 数 とevent発
新 治 療 群 の そ れ を(ni2,γi2)と
し よ う.そ
う す る と,可
生 数 を(nil,ril), 能 なモデ ルは
図9.5
図9.6
混合 効 果 モデ ル の ロジ ス テ ィッ ク回帰 モ デル にお け るBayes推
定 のDAGの
Bayesianメ
タ ・ア ナ リ シ ス
にお け るDAGの
例
例
γij∼Binomial(Pij,ηij)
log
pij
=αi+βixj, xj=0(control);=1(new
treatment)
/1-pij
βi∼N(μ,σ2)
こ こ に,βiは
真 の 効 果 の 対 数 オ ッズ で あ る,三
つ の 超 パ ラ メー タの 事 前 分 布
の例 は αi∼N(0,100) μ ∼N(0,100) 1/σ2∼Gα(0.001,0.001)
と お け る ・ 図9.6にDAGを
[例 9]測
示 す.
定 誤 差 の あ る ロ ジ ス テ ィッ ク 回 帰 モ デ ル
生 活 環 境 中 のNO2へ
の 曝露 xと呼吸 器系 症状 の発生 率 pとの関 連 を ロジ
ス テ ィッ ク 回 帰 モ デ ル で 検 討 し た い.し NO2曝
露 濃 度 の 真 の 測 定(例,パ
か し,疫
ー ソ ナ ル サ ンプ ラ ー)は 困 難 で,家
濃 度 を 簡 易 測 定 法 で 測 定(z)す る以 外 に な い.た は 双 方 の 測 定 を 行 い,x
学調 査で すべ ての対 象 者の
だ,少
の 中の
数 の 対 象 者 に 対 して
と z との 関 係 式 を推 定 す る こ と は 可 能 で あ る.こ
よ う な状 況 で の モ デ ル は 以 下 の と お りで あ る. dj∼Binomial(pj,nj) log
pj/ 1-Pj
=θ1+θ2xj
(9.25) (9.26)
の
図9.7
測 定 誤 差 を 考 慮 したBayesianロ
ジ ス テ ィッ ク 回帰 モデ ル で のDAGの
μj=α+bzj
xj=N(μj,σ2)
こ こ で,(α,b,σ)は
少 数 の 対 象 者 で の 推 定 値 で あ る.二
例
(9.27) (9.28)
つ の 超 パ ラ メー タの
事前 分布 の例 は θ1,θ2∼N(0,100)
と お け る.図9.7にDAGを [例10]市
示 す.
町 村 単 位 の 死 亡 率 の 標 準 化 死 亡 比(SMR,
ratio)のsmoothing(12章
参 照)
1)over‐dispersionモ
デ ル
超 パ ラ メー タの 事 前 分 布 は β0,...,βp∼N(0,100) 1/σ20ti Ga(0.001,0.001)
と お け る. 2)空 間smoothingモ
デ ル di∼Poisson(μ logμ
i)
i=logEi+β1x1+...+βpxp+αi+θi
standardized
mortality
超パ ラメー タの事前 分布 は β0,...,βp∼N(0,100) 1/σ20,1/σ21∼Ga(0.001,0.001)
と お け る, さ て,こ
れ ま で,Bayesモ
デ ル の 柔 軟 性 を 解 説 し て き た が,実
メ ー タ 推 定 の 計 算 に な る と,次 Carlo)法
の 章 に 解 説 す るMCMC(Markov
が 重 要 な 武 器 と な る.頻
関 し て は,Breslow
度論 者の立 場で の変量 モ デル での推 測法 に
and Clayton(1993)が
参 考 に な る.
練習問題 [問題9.1】
[問題9.2]下
下 のDAGに
対 す る 事 後 分 布 の 核 を導 け,
のDAGに
対 す る事 後 分 布 の 核 を導 け,
[問 題9.3]Bayesian線
形 モ デル
際 の パ ラ
chain Monte
yi∼N(α+βzi,σ21),
に お い て,真 し てxiが
i=1,...,n
α ∼N(μ1,φ21),
(non‐informative)
β ∼N(μ2,φ22),
(non‐informative)
の 共 変 量 の 値ziは
測 定 で きず,そ
れ に 代 わ っ て,代
替変数と
測 定 さ れ る 状 況 を考 え る. xi∼N(zi,σ22)
も ち ろ ん,ziの
分 布(non‐informative)を
1)DAGを
指 定 す る 必 要 が あ る.こ
の と き,
描 け.
2)同
時 分 布 を 導 け.
3)未
知 パ ラ メ ー タ α,β,zの
事 後 分 布 を 導 け.
[問 題9.4] mi∼Poisson(μ),
i=1,...,n
μ ∼Gamma(γ,λ)
と す る と き,次
の 問 い に 答 え よ.
1)μ の 事 後 分 布,平
均,分
散 を 求 め よ.
2)n が 大 き くな る と事 後 分 布 は ど うな る か? [問題9.5]表9.1に [問題9.6]例10の ル のDAGを
描 け.
示 す 損 失 関 数 と推 定 量 との 関 係 を導 け. 死 亡 率 の 標 準 化 死 亡 比 のsmoothingに
関す る二つ のモデ
10 Markov
6章 の 表6.1に
Monte
Carlo
法
示 し た 毒 性 デ ー タ の ロ ジ ス テ ィッ ク 回 帰 分 析(6.8節(1))に
個 体 差 を考 慮 したBayesモ mκ
chain
∼Binomial(θ
デル κ,nκ),κ=1,...,K
(10.1)
(10.2) p(α,β):あ る事 前 分 布 に 従 う
(10.3)
〓κ:個 体 差 等 に よ り,二 項 分 布 で 説 明 で きな い 変 動(10.4) を 適 用 し て み よ う.問
を 推 定 し,Bayes推
題 は,(α,β)の
事 後 分 布,例
え ば,
定 値(事 後 分 布 の 期 待 値) β=∫
βp(β│x,m,n)dβ
(10.5)
を 求 め る こ とで あ る,
10.1
期 待値 の計 算
確 率 変 数 X が 密 度 関 数 π(x)を もつ と き,関 数 〓(x)の 期 待 値 は Eπ(〓(x))=∫ で あ る.し
か し,
〓積 分が 複 雑
〓(x)π(x)dx
(10.6)
〓高 次 元 〓解 析 解 が 得 ら れ な い(no
closed form)
の 場 合 に は 困 っ て し ま う!最 近 の 統 計 学 の 研 究 は,従 者)の
立 場 の 母 数 効 果 モ デ ル(fixed‐effects)か
effects),混
合 効 果 モ デ ル(mixed‐effects),さ
ら,変
来 のfrequentist(頻
量 効 果 モ デ ル(random‐
ら に は, Bayesian推
方 法 論 が 盛 ん に な っ て き て い る.そ
の 計 算 に は こ れ ら の 期 待 値(積
要 と な る.解
た は 不 可 能 な 場 合,も
析 的 に 計 算 が 困 難,ま
立 な 標 本 がsimulateで
度論
論 などの 分)が
し,π(x)か
必
らの 独
きる
x(1),x(2),...,x(N)∼
π(x),x(i)⊥x(j)
(10.7)
な らば
(10.8) で 近 似 で き る.こ
れ がMonte
large numbers)に
Carlo(MC)積
分 で あ り,大
数 の 法 則(law of
よ り 一 致 性(consistency)
(10.9) が 成 立 す る.し π(x)か
らの
実 は,独 ulateす
か し,既
知 の 確 率 分 布 な ら 問 題 は な い が,一
「独 立 」 なrandom
立 で は な い が,あ
sampleのsimulationも
る 「Markov連
鎖(MC,
般 に は複 雑 な
ま た 困 難 で あ る. Markov
chain)」
でsim
れ ば 一 致 性 が 成 立 す る の で あ る,
10.2
推 移 確 率p(・│・)を
Markov連
も つMarkov連
鎖 か ら 乱 数 を 発 生 さ せ る と は,
x(i+1)∼p(x│x(i)),i=1,2,... と い う こ と で あ る.つ
ま り,x(i+1)はx(i)に
と は 独 立 で あ る.
[例 題10.1]Markov連
鎖
鎖 x(i+1)∼N(0.5x(i),1.0)
(10.10) は 依 存 す る が,x(0),x(1),...,x(i-1)
につい て 1)初 期 値 を 適 当 に 変 え て300個 2)x(i)の
定 常 分 布 π(x)を
の 乱 数 を 図 示 せ よ.
求 め よ.
[解答] 1)S‐Plusを
利 用 し,初
に 示 す.す
期 値 を 2通 りx(0)=5,-4,に
で に,100番
こ と が わ か る.101番
変 え た 結 果 を 図10.1
目前後 か らデ ー タのバ ラ ツキは類 似 して いる 目 か ら の デ ー タ の ヒ ス トグ ラ ム を み る と,正
分 布 に 類 似 し た 形 状 を 示 し,そ
の 平 均 値 と 分 散 は,前
1.416),後
あ っ た.
者 は(0.139,1.270)で
規
者 は(-0.0014,
2)定 常分 布 Markov連
鎖 を 書 き換 え れ ば x(i+1)=0.5x(i)+〓,〓
と な る,ま
図10.1
ず,定
∼N(0,1)
常 分 布 は 正 規 分 布 で あ る こ と は 明 らか で あ ろ う.そ
例 題10.1のMarkov連
鎖 の 初期 値 を変 え た 2種 類 の300の
個 の 乱 数 列 の ヒ ス トグ ラ ム
乱 数 列 と 最後200
こで そ の定常 分 布 を N(μ,σ2)
と し よ う.定 常 で あ れ ば,期
待値 の 関係 か ら
μ=E(x(i+1))=E(x(i))
よ り μ=0と
な る.ま
E(x(i+1))=0.5E(x(i))
た,分
散 の 関係 よ り
Var(x(i+1))=0.52Var(x(i))+1 つ ま り,
σ2
=σ2 /4
か ら σ2=4/3と
な る.結
し か し,す べ て のMarkov連 性 質 と し て,Markov連
局,定
常 分 布 はN(0,4/3)と
要な
鎖 が 「再 帰 的(irreducible)」 で あ る場 合 に,定
常分
こ に,再 帰 的 と は,任 意 の あ る状 態 か ら他
限 回 の 推 移 で 推 移 で き るMarkov連
は,式(10.9)と
な る.
鎖 が 定 常 分 布 を もつ とは か ぎ らな い.重
布 は 一 意 に 定 ま る こ と で あ る.こ の 状 態 へ,有
+1
鎖 を 意 味 す る.そ
の場 合 に
同 じ等 式
(10.11) が 成 立 す る.た さ て,そ
だ し,こ
の 場 合 は,エ
の 推 定 誤 差(NSE,
ル ゴ ー ド 平 均(ergodic
numerical
average)と
standard errors)は,理
よ ぶ.
論 は省 略す
る と,
(10.12) こ こ に ρj(〓)は長 さjの あ る.こ
間 隔(lag)を
お い た 数 値 列{〓(x(i))}の
相 関係 数で
の 推 定 誤 差 に 関 して は
〓N を大 き くす る こ と に よ り小 さ くす る こ とが で き る 〓独 立 なsamplingで
あれ ば 相 関の 項 はゼ ロで あ る
〓相 関 の 項 は 推 定 誤 差 を 小 さ くす る方 向 に 働 くこ と もあ る が,通 くす る 方 向 に 作 用 す る
常 は大 き
な ど が い え る(Gilks
et al.,1996参
10.3
さ て,問
照).
Metropolis‐Hastingsア
ル ゴ
リズ ム
題 は,式(10.10)の Markov連
を 利 用 し て,目
鎖:p(・│・)
標 で あ る 式(10.6)の
期 待 値 を計 算 す る た め の
定 常 分 布:π(x) を ど の よ う に 構 成 す れ ば よ い の か,で の 方 法 を 提 示 し,Hastings(1970)に MCMC(Markov
あ る.Metropolis
よ り ア ル ゴ リ ズ ム が 完 成 し た.こ
chain Monte Carlo)法
(i+1)
∼ p
ア ル
設 定 する.
y∼q(x│x(i))
3)Step2.x(i+1)の ま ず,y
ゴリズ ム
(x│x(i))
1)あ ゐ 条 件 付 き分 布(a sampler)をq(・|・)と 2)Step1.sample
れ を
と い う.
Metropolis‐Hastings
x
et al.(1953)が,そ
値 と し て,次
の確 率 的 選 択 を行 う.
を採 択 す る か ど う か の 採 択 確率(acceptance
probabil‐
ity)と定義する: (10.13)
ぞこで,次 の決定を行う. x(i+1)=y,
with probability α(x(i),y)
x(i+1)=x(i),
さ て,上
のMHア
ル ゴ リズ ム で 得 ら れ る 定 常 分 布 が,条
に か か わ らず,π(x)で [例題10.2]対
with probability 1-α(x(i),y) (10.14)
件 付 き分 布q(・│・)
あ る こ と を 以 下 の 例 題 を 通 し て 考 え て み よ う.
称 な 条 件 付 き分 布, q(x│y)=q(y│x)
(10.15)
で あ る 場 合 の 採 択 確 率 α(x,y)は ど う な るか? [解答 】
(10.16) [例 題10.3] π(x)P(y│x)=π(y)p(x│y)
(10.17)
で あ る こ と を 示 せ. [解答] 1)Case
1.y≠x
2)Case
2.y=x
明 ら か.
[例題10.4]定
常 分 布 が π(y)と な る,す
なわ ち
∫(x)p(y│x)ax=π(y)
(10.18
)
と な る こ と を 示 せ.
[解答1定
常 状 態 で,時
点 iに 状 態yに
い て,推
移 確 率p(y│x)で
状 態yに
い る 確 率 は,時
点i-1に
推 移 す る確 率 を x で 合 計(積
もので あ るか ら
∫ π(x)p(y│x)dx と な る.例
題10.3の
結 果 を 利 用 す る と,次
∫ π(x)p(y│x)dx=∫
式 が 展 開 で き る.
π(y)p(x│y)dx
=π(y)∫p(x│y)dx
状態 xに 分)し
た
=π(y)
10.4
さ て,前 Markov連
節 でsampler
2 種 類 のsampler
q(・│・)の
選 び 方 に か ぎ ら ず,MH法
で 構 成 され る
鎖 に よ り望 み の 定 常 分 布 π(x)が 得 ら れ る こ と が わ か っ た.し
〓sampler q(・│・)の
か し,
候 補 は た くさ ん あ る
〓 そ の 選 び 方 は? 〓早 く 収 束 す る(rapid ら,定
mixing)も
の が 良 い が,そ
れ は,当
然 の こ と なが
常 分 布 π(・)と の 関 係 に 大 き く 依 存 す る
〓mixing rate=「 れ ば,NSEは 〓 し か し,あ
過 去 を 忘 れ る 速 度 」 と 定 義 す る と,mixing
rateが
速 け
小 さ くな る るMarkov連
鎖 が ど の よ う なmixing
rateを
もつ か を事 前 に
予 測 す る こ とは 困 難
な ど とい う問 題 が あ る, こ こ で は,条
件 付 き確 率 と し て 2種 類 の
「common
choices」
の例 をあげ
よ う. 1)対
称sampler(Metropolis
sampler)
q(y|x)=q(x|y) Metropolis(1953)が (10.16)で
(10.19)
提 案 し た も の で あ る.こ
与 え ら れ る.応
用 で は,正
規 分 布
q(Y│X)=N(X,σ2) と す る こ とが 少 な く な い.そ
の,特
の 場 合 の採 択確 率 は式
(10.20)
殊 な 場 合 と し て,random
walkモ
デ ル q(y│x)=q(|y-x|)
が 考 え られ る.後
の 例 で も 示 す よ うに,分
散 σ2の 大 き さの 選 び 方 に
注 意 が 必 要 で あ る. 2)独
立sampler(independence
sampler)
q(y|x)≡q(y)
た だ,独
立samplerは,後
の 例 で 示 す よ う に,非
(10.21)
常 に良 いか 非常 に悪
い か の ど ち ら か で あ る こ とが 多 い こ とに 注 意!こ
の 場合 の採 択確 率 は
(10.22) こ こ に,ω(・)=π(・)/q(・)で
あ る.
[例 題10.5] π(x)=N(0,1) q(y│x)=N(ax+b,σ2) に お い て, 1) a Metropolis
sampler
2) an independence
を 求 め よ.次
に,こ
sampler
れ ら の 2種 類 のsamplerに
つ い て,σ2を
適 当 に 変 え て,
そ の 収 束 状 況 を 観 察 せ よ.
[解答] 1) Metropolis
sampler
q(y│x)=q(x│y),で
あ るか ら
(y-αx-b)2=(x-αy-b)2 〓
0={(1-α)(y+x)-2b}(1+α)(y-x)
つ ま り, (α=1,b=0),ま
と な る.特
と,random 2)independence
た は,(α=-1,b:任
に,(α=1,b=0)の
walk samplerと
意)
場 合は
な る.
sampler
こ の 場 合 は 明 ら か に(α=0,b:任
さ て,(α=1,b=0)のMetropolis
意)と samplerで,初
σ2=0.1.0.5.10
な る. 期 値x(0)=-4と
し て,
図10.2
例 題10.5のMetropolis
samplerで,分
の 乱 数 列 と 最 後500個
と 変 え て,1000回
の 繰 り返 し たMH乱
乱 数 の ヒ ス ト グ ラ ム を 図10.2に
数 列 と501回
れ る 採 択 確 率 が 高 く な る が,変
た め,採
れ に,対
場 合 はy-xの
変動 幅
1 に 近 く な り,式(10.16)で
与 え ら
た が っ て,mixing
設 定 す る と,y-xの
択 確 率 は 小 さ く な り,し
に な る.σ2=0.5の
目 まで の
動 は 小 さ く,し
し て,σ2=10と
か ら 順 に σ2=0.1,0.5,10
目 か ら1000回
示 し た.σ2=0.1の
が 小 さ く抑 え ら れ る た め,π(y)/π(x)が
い.こ
散 の 初 期 値 を 変 え た 3 種 類 の 長 さ1000
の 乱 数 列 の ヒ ス ト グ ラ ム.上
rateは
遅
変 動幅が 大 きす ぎ る
ば ら く 変 動 し な い サ イ ク ル を 繰 り返 す こ と
ケ ー ス で は,こ
れ らの 両 極 端 の パ タ ー ン が 生 じ る こ と な
く比 較 的 早 く収 束 し て い る よ う に 思 わ れ る. 次 に,independence
samplerの
挙 動 を み る た め に, b=0と
し て,
σ2=0.5,1.5,5.0
の 三 つ の 場 合 を 調 べ て み よ う.図10.3に
示 す よ う に,σ2=0.5の
場 合は 初
図10.3
例 題10.5のindependence 長 さ1000の
samelerで,分
乱 数 列 と 最 後500個
散 の 初 期 値 を 変 え た
の 乱 数 列 の ヒ ス ト グ ラ ム.上
3 種 類 の か ら 順 に
σ2=0.5,1.5,5.0
期 値x(0)=-4が
全 く変 化 し て い な い.し
れ い に 収 束 し て い る こ とが わ か る.こ か?
か し,σ2=1.5の
場 合はか な りき
の 理 由 は な に が 原 因 して い る の だ ろ う
採 択 確 率,式(10.22)の
の 部 分 を 考 え て み よ う.q(・)の
分 散 が π(・)の 分 散 よ り小 さ い,す
布 の 裾 が よ り 軽 い(light tailed)場 1)初 期 値 が 分 布 の 裾x(0)=-4に 2)q(x)が
π(x)に
合, 位 置 す る と,
比 し て き わ め て 小 さ く な り,分
きわ め て 大 き くな る
な わ ち,分
母,す
な わ ち,ω(x)が
3)そ れ に 対 し て,y の 値 は ほ とん ど 裾 に 位 置 し な い こ とか ら採 択 確 率 は き わ め て小 さ くな る の で あ る.こ の 場 合 は つ ね に採 択 さ れ な い 極 端 な結 果 と な っ た の で あ る. と こ ろ が,σ2=1.5の
場 合 はq(・)は
の で こ の よ う な こ と は 避 け ら れ る.図 い る 例 で あ り,こ
者 の ヒ ス トグ ラ ム で 示 し
れ ぞ れ,(-0.090,1.038)と
近 づ い て い る こ と が わ か る.と
先 ほ ど のMetroplois
samplerの
σ2=10の
な り,定
こ ろ が,σ2=5と
例 の よ う に し ば ら く変 動 し な い ど はmixing
れ で も,後
散 は そ れ ぞ れ,(0.165,1.116)と
の デ ー タ の 平 均,分
常 分 布 す る と,
サ イ ク ル を 繰 り 返 し て い る.σ2=1.5ほ 半500個
tailed)
に 示 し た 結 果 は 非 常 に う ま くい っ て
の 二 つ は 対 照 的 な 例 で あ る.前
た 乱 数 列 の 平 均 値 と 分 散 は,そ π(・)=N(0,1)に
π(・)よ り裾 が 重 く な る(heavy
rateは
早 く な い が,そ 標
準 正 規 分 布 に 近 づ い て い る.
10.5
さ て,図10.2,図10.3の あ っ た.こ
収 束 診 断
右 側 に はMH乱
の 例 で は 一 律 にM=500回
M+1=501回
目 か ら1000回
数 列 の ヒ ス トグ ラ ム を 示 し て の 繰 り返 し は 捨 て て(burn‐in),
目 ま で の500個
の乱 数 列 を利 用 した の で
あ るが,「 乱 数 列 の 最 初 の 項 は 初 期 値 に 依 存 し て い る の で,そ
の 部 分 は 捨 て,
収 束 し た(過 去 を忘 れ た)部 分 だ け を利 用 」 し よ う と い う 自然 な 発 想 で あ る. つ ま り,式(10.11)の
で 置 き換 え ら れ る.最 と よぶ.M
期待 値 の計 算は
初 の M 回 の 初 期 値 に 依 存 す る 部 分 をburn‐in sample
の 決 定 を 含 め て,収
束 して い るか ど うか を 簡 単 に チ ェ ック す る方
法 の 一 つ に,burn‐in sampleを
捨 て た乱 数 列 の 前 半 部 分 と 後 半 部 分,そ
れ の 平 均 値 と分 散 を計 算 し,次
の 統 計 量 を 計 算 す る 方 法 が あ る.
れぞ
(10.24)
乱 数 列 が ほぼ 収 束 して い れ ば,こ
の Z 値 が 標 準 正 規 分 布 に 従 うこ とか ら収 束
の 状 況 を チ ェッ クで き る と い う意 味 で あ る.よ Rubin法(1992)を Markov連
り精 度 の 高 い 方 法 はGelman‐
利 用 す る . 初 期 値 を数 種 類 変 え てMCMCを
鎖 の 群 内,群
行 い,複
数の
間 分 散 を計 算 す る方 法 で あ るが こ こ で は 省 略 す る.
いず れ に し て も,初 期 値 を 変 え て 収 束 状 況 を チ ェッ クす る こ とは 重 要 で あ る.
10.6
こ れ まで は,Markov連
Single‐component
MH法
鎖の 推 移確 率
は 1変 量 を暗 黙 の う ち に 仮 定 して き た.実
際 に は多変 量
x=(x1,...,xp)
の 場 合 が ほ と ん ど で あ る.例
え ば,表
の ロ ジ ス テ ィッ ク 回 帰 分 析 の 例 で は
x=(α,β) の 2変 量 で あ る.こ
(10.25)
(10.26)
の 多 変 量 の 場 合 に は 推 移 確 率 に 多 変 量 分 布 を設 定 して 一
度 に 推 移 さ せ る 方 法 も 考 え ら れ る が,そ sampler qj(・│・)を 設 定 し,そ
れ よ り も,そ
れ ぞ れ のiteration
に 逐 次 推 移 さ せ る 方 法 が 簡 単 で あ り,か
れ ぞ れ の 変 数xj毎
iで,変
数x1,x2,...の
つ い ろ い ろ と 便 利 で あ る.つ
に 順 ま り,
次 の ア ル ゴ リ ズ ム が よ く 利 用 さ れ る:
(10.27) つ ま り,そ れ ぞ れ の 変 数 の 推 移 に あ た っ て は,最
も新 し い x に 基 づ く採 択 確
率 を利 用 す る.ま ず,iteration iか らiteration i+1へ 数xjが
の 推 移 に お い て,変
推 移 す る 直 前 の 他 の 変 数 の 状 態 を次 式 で 定 義 す る:
(10.28) つ ま り,こ
の ア ル ゴ リ ズ ム の 下 で は,sampler,定
常 分 布 π(・│・)と も,現
在
の 状 態 の 条 件 付 き 確 率 で あ る か ら,
(10.29) こ の ア ル ゴ リ ズ ム をsingle‐component
Metropolis‐Hastings法
と よ び,
(10.30) で,フ
ル 条 件 付 き 分 布(full
[例 題10.6]表6.1の いBayes流
conditional
distribution)と
毒 性 デ ー タ にover‐dispersion(6.6節
よ ぶ.
参 照)を
ロ ジ ス テ ィッ ク 回 帰 モ デ ル を 適 用 しsingle‐component
考慮 しな MH法
を
適 用 し て 推 定 せ よ. [解答]ロ
ジ ス テ ィッ ク 回 帰 モ デ ル
(10.31) (10.32) の 式(10.32)を,計
算 を 容 易 に す る た め に,
と 標 準 化 し て お こ う.パ ρ1(α),ρ2(β)と す る と,そ
ラ メ ー タ(α,β)の
事 前 分 布 を そ れ ぞ れ 独 立 に
の 事 後 分 布 は,図9.5のDAGを
参 考 に して
と な り積 分 の 項 が 含 まれ る . しか し,single‐component MH法 確 率 を計 算 す る と き に 分 母 の 積 分 が 消 え て くれ る の で,こ
におい て採択
こ で は,事
後 分布
の核 p1(α)p2(β)〓(m│x,n,α,β) だ け が わ か れ ば よ い.そ qβ(・│・)を
こ で,パ
ラ メ ー タ(α,β)に そ れ ぞ れ,sampler
適 当 に 選 ん で,single‐component
MH法
qα(・│・),
を 適 用 す る と,そ
れぞれ
の 採 択 確 率 は 次 の と お り に な る:
と な る.こ
こ で,samplerと
し て, independence
samplerを
適 用 し,
qα(yα│α(i,β(i)=qα(yα)=p1(α)=N(0,σ2α)
(10.33)
qβ(yβ│β(i,α(i+1))=qp(yβ)=p2(β)=N(0,σ2β)
と し て み よ う.こ の 場 合,採
択 確率 は
と き わ め て 単 純 化 され る.さ
て,こ
(10.34)
ん な に 単 純 化 され たMCMCの
挙 動 を次
の 三 つ の 場 合 に つ い て 検 討 し て み よ う.
図10.4に
「run 2」 の 実 行 を,そ れ ぞ れ2000回
タ リ ン グ とburn‐in sampleと 1500回
し て,最
初 の500回
の 数 値 列 の ヒ ス トグ ラ ム を示 し た.初
ま り変 化 は な いが,分
繰 り返 し た 数 値 列 の モ ニ の 繰 り返 し を 捨 て た 残 り
期値 に よって 収束 の仕 方 はあ
散 が 大 きい と し ば ら く変 動 し な い サ イ ク ル を 繰 り返 す
図10.4
例 題10.6の
「run 2」 の 長 さ2000の
表10.1
例 題10.6の
挙 動 を 示 す こ とが わ か る.図10.5は で あ る.収
式(10.29)の
3通 りの 実 行 を 一 つ の 図 に 示 した もの
中 のsampler
れ い な乱 数 列 とは い い
示 す と お り,最 尤 推 定 値 と あ ま り変 わ
束 診 断 の た め の 式(10.24)の
10.7
の 乱 数 列 の ヒ ス トグ ラ ム
結 果
束 とい う点 で は あ ま り問 題 は 少 な い が,き
が た い.し か し,推 定 結 果 は 表10.1に ら な い.収
乱 数 列 と 最 後1500個
Gibbs
Z 値 も悪 くな い.
sampling
qj(・│・,・)を フ ル 条 件 付 き 分 布(式(10.30))
(10.35) と 設 定 し たsamplerはGibbs 応 用 は こ のGibbs
samplingを
samplerと
よ ば れ る.今
利 用 し て い る.そ
日 のMCMCの
れ は,求
多 くの
め たい定 常分 布 の
図10.5
例 題10.6の
3種 類 の 「run」 の 長 さ2000の
フ ル 条 件 付 き 分 布 か ら のsamplingと ら 独 立samplerで
あ る.こ
乱 数 列の 重 ね プ ロ ッ ト
な っ て い て, x(i)jに 依 存 し な い こ と か
の 式 を 式(10.29)に
代 入 し て み る と,
(10.36) と な り,つ
ね に 採 択 さ れ る 独 立samplerで
-(10,34)Bayes流
も あ る.と
こ ろ が,式(10.31)
ロ ジ ス テ ィッ ク 回 帰 モ デ ル の フ ル 条 件 付 き 分 布 を 求 め て み
る と,
(10.37) (10.38) と な り,こ
の 複 雑 な 分 布 か ら 乱 数 を 「直 接 」 発 生 させ る の は 容 易 で は な い.
し か し,次
に 解 説 す るrejection samplingと
い うア ル ゴ リズ ム を利 用 す る こ
とで 多 くの 場 合 比 較 的 簡 単 に コ ン ピ ュ ー タ で 乱 数 が 発 生 で き る の で あ る. そ の 論 理 は,す べ て の xに つ い て П(x)〓 π(x)と な る 関 数 П(x)が 存 在 し, そ れ に 比 例 した 確 率 分 布 か らの 乱 数 の 発 生 は 容 易 な 場 合 を 考 え る と
と な り,も
し,関 数 П(x)に
で 採 択 す れ ば,そ わ ち,次
比 例 す る 確 率 分 布 か ら の 乱 数 X を 確 率 π(x)/П(x)
の 乱 数 は π(x)か
のrejection samplingの
1)П(x)に
3)も し,「U〓
ア ル ゴ リ ズ ム が 成 立 す る.
ら の 乱 数 を U と す る.
π(X)/П(X)」
な らば X を π(x)か ら の 乱 数 と し て 採 用 す
用 さ れ な け れ ば 1)へ 戻 る(こ の ル ー プ を X が 採 用 され る まで
繰 り返 す). し か し,実
な
比 例 す る確 率 分 布 か らの 乱 数 を X とす る.
2)一 様 分 布 U(0,1)か
る.採
ら の 乱 数 と 一 致 す る こ と が わ か る.す
際 の 適 用 に あ た っ て は Π(x)を
Wild(1992)は
「secant method」
rejection samplingを
提 案 し た.そ
adaptive
求 め る 方 法 が 問 題 と な る.Gilks
を 利 用 し て 微 分 の 必 要 の な い 方 法adaptive
rejection
の 概 要 は 図10.6に
sampling
from
示 す と お り で あ る.
π(・)
1)π(x)を 評 価 す る た め の xの 初 期 値 の 集 合S={x1,...,xs}を
用
意す る.通 常 は 4点か ら6 点 前 後で十 分 であ る. 2)図10.6に
示 す よ う に,{x1,..,xs}に
基 づ い てsecant method
よ り Πs(x)(太 い折れ 線)を 構 築 する. 3)Πs(x)か
ら の 乱 数 を X と ず る.
4)一 様 分 布U(0,1)か
5)もし,「U〓
ら の 乱 数 をU と す る.
π(X)/Πs(X)」 なら ぼ X を π(x)か らの 乱数 として
採用 し 終 了.採 用 され なけ れば,X を集 合 S に加 え,2)へ 戻 る (この ループ を X が 採用 さ れ るまで繰 り返 す) .
図10.6
adaptive
[例題10.7]式(10.37)の グ ラ ム を 作 成 し,そ
rejection
samplingのsecant
methodの
概 要 図
α の フ ル 条 件 付 き分 布 か ら乱 数 を発 生 させ る プ ロ の 試 行 例 を 示 せ.
[解 答]S‐Plusで
作 成 し た プ ロ グ ラ ム を 付 録B.7に
10.7に 示 した.こ
の 例 で は まず 集 合 S の 初 期 値 と して,
示 し,そ
の試 行例 を図
S={-0.5,0,0.5,1,1.5,2.0} パ ラ メー タの 初 期 値 と し て, α(0)=2,β(0)=2.5,σ2α=1.0
と 設 定 し た も の で あ る.こ 0.7463」
の 試 行 で は 3 回 の 繰 り返 し で,一
を 発 生 さ せ て い る.図10.7の
関 数 を そ の つ どsimulateし
て い る 図 で,右
数 が 増 え る に つ れ て Пs(x)は
[例 題10.8]例
題10.6をGibbs
[解 答]S‐Plusで の でFortran,C samplingを
左 の 図 は Пs(x)に
つ の 乱 数 「X= 比例 す る確率 分布
の 図 は ПS(x)で
あ る.繰
り返 し
π(x)に 近 づ い て い る こ と が 理 解 で き よ う.
samplingを
利 用 し て 解 析 せ よ.
作 成 し た プ ロ グ ラ ム を 付 録B.8に
示 す が,計
等 の 言 語 で 作 成 す る こ と を 薦 め る.ま
算 時 間が 遅 い
ず,adaptive
利 用 す る た め の 集 合 S の 設 定 を 次 の よ う に 設 定 す る. Sα={-1.0,0.0,1.0,2.0}
Sβ={0.0,1.0,2.0,3.0,4.0}
rejection
図10.7
例 題10.7のadaptive る 確 率 分 布 関 数,右
rejection は Πs(x)で
表10.2
さ て,こ う.結
こ で は パ ラ メ ー タ の(初 果 は 表10.2に
さ て,最
例 題10.8の
期 値 の)設
ま と め,「run1
後 にover‐dispersionを mκ
∼Binomial(θ
samplingの
試 行 例:左
は Πs(x)に
比 例 す
あ る
推 定結果
定 を 2通 り変 え て 計 算 し て み よ
」 の 結 果 を 図10.8に
示 す.
考 慮 し た ロ ジ ス テ ィッ ク 回 帰 モ デ ル κ,nκ),κ=1,...,K
(10.39)
図10.8
例 題10.8の
「run
1」 の 長 さ2000の
乱 数 列 と 最 後1500個
の 乱数 列 の ヒ ス トグ ラム
(10.40) p1(α)=N(0,σ2a)
(10.41)
p2(β)=N(0,σ2β)
(10.42)
(10.43) p4(〓)=Ga(a,b)
(10.44)
の フ ル 条 件 付 き分 布 を 求 め て み る と,
(10.45) (10.46) (10.47)
表10.3
例 題10.8のover‐dispersionを
考 慮 した 推 定 結 果
(10.48) と な る.つ
ま り,〓
だ け はadaptive
rejection samplingを
適用 す る必 要は な
い こ と に な る. [例 題10.9] plingを
本 章 の 冒 頭 のBayesianロ
ジ ス テ ィッ ク 回 帰 モ デ ル をGibbs
sam
利 用 し て 解 析 せ よ.
[解 答]S‐Plusで
作 成 し た プ ロ グ ラ ム は 省 略 す る が , や は り,計
が 遅 い の でFortran,C rejection samplingを
等 の 言 語 で 作 成 す る こ と を 薦 め る.ま
算 時 間
ず,adaptive
利 用 す る た め の 集 合 S の 設 定 は 前 と 同 様 に 設 定 し よ う.
ま た,
a=b=0.01 と設 定 した.さ
て,こ
こ で は パ ラ メー タの(初
と 設 定 し て み た.2000回 て 推 定 し た,そ
の 繰 り 返 し でburn‐in sample数
れ ぞ れ の パ ラ メ ー タ のGibbs
の ヒ ス ト グ ラ ム は 図10.9に [例 題10.10]表10.4,図10.10は
示 し た.推
定を
をM=500と
し
samplingの
乱 数 列 と事 後 分 布
定 結 果 は 表10.3に
示 す と お り で あ る.
あ る 処 理 を 施 し た30匹
体 重 を 測 定 し た 実 験 デ ー タ で あ る.こ 推 定 す る こ と に あ る,こ
期 値 の)設
のratの
5週 間 の
の実験 で の興味 は 出生時点 で の体 重 を
の デ ー タ に 対 し て,次
の変量 モデ ルの線 形 成長 モデ
図10.9
例 題10.9の
長 さ2000の
乱 数 列 と最後1500個
の 乱 数 列 の ヒ ス トグ ラ ム
ル を 適 用 せ よ. yij=α
i+βi(xj-x)+〓
ij,
i=1,...,n(=30);
j=1,...,」(=5)
(10.49) 2
〓 ∼N(0,σ αi∼N(μ
E)
(10.50)
2
α,σa )
(10.51)
2
βi∼N(μ こ こ で,パ
ラ メ ー タ(μ
α,μβ,1/σ2E,1/σ2
β,σ β) α,1/σ2β)に
分 布 と し て
μα ∼N(0,10,000) μβ ∼N(0,10,000) T=1/σ2∼Ga(0.001,0.001)
は
「noninformative」
(10.52) 事 前
表10.4
あ る 処 理 を 施 した30匹
〓α=1/σ 〓β=1/σ
のratの
5週 間 の 体 重 の デ ー タ
2 a
∼Ga(0.001,0.001)
2 β
∼Ga(0.001,0.001)
を仮 定 し よ う. [解答]こ
の モ デ ル で の 同 時 分 布 は,図9.4に p(α,β,x,Y,μ
と な る.し
た が っ て,そ
α,μ β,〓α,〓β,〓)=P(〓)p(μ
示 すDAGを
参 考 に して
α)p(〓 α)p(μ β)p(〓 β)
れ ぞ れ の フ ル 条 件 付 き 分 布 は,υ=1/10,000と
し て,
図10.10
あ る 処 理 を し たrats 30匹 の 体 重 の 成 長 デ ー タ
以 上 の よ う に,誤 差 に 正 規 分 布 を 仮 定 す る線 形 モ デ ル で は,位 タの 事 前 分 布 に 正 規 分 布,分
置 パ ラ メー
散 パ ラ メー タの そ れ に 逆 ガ ン マ 分 布 を仮 定 す る
こ と に よ り,す べ て の パ ラ メ ー タの フル 条 件 付 き分 布 は 正 規 分 布 ま た は ガ ン マ 分 布 とな り,Gibbs samplingが
きわ め て 容 易 で あ る.こ の ケ ー ス で は,次
の ア ル ゴ リズ ム が 可 能 で あ る.
1)Step0:パ
ラ メ ー タ の初 期 値
か ら求 め る .
2)Step1: 3)Step2:κ
を設 定 す る.
←
κ+1
4)Step3: 5)Step4: 6)Step5: 7)Step6: 8)Step7: 9)Step8:
i=1,...,n
10)Step9:i=1,...,n 1 1)Step10:goto
出生時 の体 重 は
Step2(必
要 な 回 数 だ け繰 り返 す )
図10.11
例 題10.10の ス ト グ ラ ム.上
各 パ ラ メ ー タ の 長 さ2000の か ら 順 に μα,μ β,μo,σ
μ0=μ
で あ る.結 に,推
定 結 果 を 下 に ま と め た.出
トBUGS,
samplingを
WinBUGSな
数 列 を 図10.11に
生 時 体 重 は106.3±3.775と
利 用 し たBayes推
ど がSpiegelhalter
の 乱 数 列 の ヒ
β x
果 の 一 部(μ α,μβ,μ0,σE)のMC乱
最 後 に,Gibbs
い る.
α-μ
乱 数 列 と 最 後1500個 で あ る.
示 す と とも
推 定 さ れ た.
測 の ため の便利 な統計 ソ フ et αl.(1995)に
よ り公 開 さ れ て
11 トピ ックス Ⅲ: 多 施 設 共 同 臨床 試 験 にお け る施 設 間差
表11.1は
肝 疾 患 治 療 薬 で あ る 強 力 ネ オ ミ ノ フ ァー ゲ ン C の 「増 量 投 与 」
の 効 果 をGPT値
の 改 善(logス
ケ ー ル)で 検 証 す る た め の 多 施 設 共 同 二 重 盲
験 無 作 為 化 平 行 群 間 比 較 臨 床 試 験 の 結 果 を試 験 に 参 加 した 施 設(center)毎 示 し た もの で あ る(lino et al.,2000).試 で あ り,試 験 開 始 か ら 2週 後 のGPT値
表11.1
験 デ ザ イ ン は 図11.1に か ら判 断 して,改
る ため の 多施 設 共 同 二重 盲 験 無 作 為 化平 行 群 間比 較 臨 床試 験 cndpoint 後)か
GPT値(log変
価 変 数は 投 与 6週 間後 のprimary 換 後)の ベ ー ス ラ イン値(2 週 間
らの 差
Student's Wilcoxon
t-test:p=0.013
rank‐sum
test:p=0.0053
示 す とお り
善が 認 め られ な い
強 力 ネ オ ミノ フ ァー ゲ ン C の 「増 量 投 与」 の 効 果 を 検証 す 結 果 の 施 設 毎 の 要約.評
に
図11.1
患 者 を 対 象 と し て,「40ml継 群 」 そ れ ぞ れ,50症 は
「100ml増
続 投 与 群 」 と 「40mlか
ら100mlへ
の増 量投 与
例 ず つ 無 作 為 に 割 り付 け ら れ た も の で あ る.そ
量投 与群 」が
る(p=0.0053,Wilcoxon 例 に し て,施
「増 量 効 果 」 を検 証 す る 試験 デ ザ イ ン
設 間 差,す
Treatment×Center交
「40ml継
続 群 」 に 比 し てGPT値
rank‐slum tcst)こ な わ ち,治
と が 示 さ れ た が,こ
施 設 毎 に 試 験 に 登 録 され,決
を有意 に下 げ のデ ー タを
療 効 果 が 施 設 に よ って 変 化 す る か と い う
互 作 用(interaction)を
11.1
の結 果
考 え て み よ う.
治療 効 果の モデ ル
め られ た 複 数 の 治 療 の 一 つ に無 作 為 に 割 り付
け られ る多 施 設 平 行 群 間比 較 臨床 試 験 に お い て,治
療 効 果 が ど う も,施 設 に
よ っ て 異 な る か も しれ な い と い う 「治 療 と施 設 との 交 互 作 用 」 を 検 討 す る 統 計 モ デ ル は 次 の よ うに 表 現 され る.施 設 iで,治 κ の 反 応yijκ(表11.1の
療 j を割 り付 け られ た 患 者
例 で は 6週 後-2週 後)は
yijκ=μ+αi+βj+γij+〓ijκ
(11.1)
μ:全
体 の平均
αi:施
設
βj:治
療 j の 効 果,j=1,2
γij:施 〓ijκ:個
iの 効 果
i=1,...,I
設 と治 療 の 交 互 作 用 効 果 体 差
∼ N(0,σ2E),
κ=1,...,nij
と い う分 散 分 析 モ デ ル で 表 現 で き る.ま ず,各
施 設 に 同 じ症 例 数 を期 待 す る
の は 現 実 的 で は な く,し た が って,解 析 対 象 症 例 の デ ー タ構 造 はunbalanced data(nijが
異 な る)と な る の が 通 例 で あ る.ま
録 され た と し て も,症 例 検 討 の 結 果,中
た,仮
止,脱
に 全 く同 じ症 例 数 が 登
落 な ど に よ りunbalancedと
な る の は 避 け ら れ な い. さ て,施
設 の 主 効 果 αiに は,primary
で あ れ ば,各
endpointが
施 設 で 登 録 され た 患 者 の 個 体 差,主
客観 的 な生体 反 応指標
観 的 要 素 も加 味 され る よ う
だ と医 師 の 技 量 の 差 な ど が 含 ま れ る.一
方,治
療 と施 設 と の 交 互 作 用 項 γij
に は 患 者 の 個 体 差 も含 ま れ る も の の,そ
れ 以 上 に 各 施 設 の 医 師 の 技 量,プ
トコ ー ル の 理 解 度,試
験 へ の 熱 心 度(日 本 な ら で は の 要 素 か も しれ な い)な
ど の 差 が 含 まれ る.さ
て,交
ロ
互 作 用 を 考 え る た め に,各
施設 で観 測 され る治
療効 果 の差 は
(11.2) で あ る.こ
の 値 が 施 設 間 で 0 を ま た い で 大 き く変 化 した り,あ る 特 定 の 施 設
の 結 果 が 他 の 施 設 の 結 果 と大 き く異 な り,か つ そ れ が 全 体 の 治 療 効 果 に 大 き な 影 響 力 を も っ て い る 場 合 に は 結 果 の 解 釈 が 難 し くな る.こ の 検 討 は 重 要 な 意 味 を も っ て くる.図11.2に Box‐Whisker plotを 示 し た.40ml継 間 差 は み ら れ な い が,100ml増 え る.ま
た,図11.3に
の意 味で 施設 毎
は 施 設 ・治 療 別 の 評 価 変 数 の
続 投 与 群 の 治 療 効 果 に は さほ ど の 施 設
量 投 与 群 に は 結 構 な 施 設 間 差 が あ る よ うに み
は 治 療 効 果 の 差diと
そ の 1標 準 誤 差 を 示 した.12施
設 中 7施 設 で 負 の 改 善 効 果 が 示 され て い るが,5 施 設 で は わ ず か な が ら正 の 改 善 が み られ な い 結 果 と な っ て い る.も
ち ろ ん,こ
の 症 例 数 が 少 な く,ば らつ い て い る の で,図
の試 験 にお いて は施設 毎
の 印 象 は か な ら ず し も正 し くな
図11.2
い.さ
施 設 ・ 治 療 群 別 治 療 効 果 のBox‐Whisker
plot
て,「許 容 で き る 交 互 作 用 か 否 か 」 と は 次 の よ うに 考 え る こ とが で き る
だ ろ う. 1)図11.4の
A に 示 す よ う に 明 ら か な 「交 互 作 用 」 が あ っ て も,そ
は 異 な ら な い 場 合,つ
ま り,δi=E(di),δ=(δ1,...,δI),と
の 方向 し て,
Ω+={(δ1,...,δI):δ1>0,...,δI>0}
Ω-={(δ1,...,δI):δ1<0,...,δI<0}
と お く と, δ 〓 Ω+∪
の 場 合 で あ る.観 測 値 か ら み れ ば,例 示 し,少
Ω-
え ば,大
半 の施 設が 正 の効 果 を
数 の 施 設 が 小 さ な 負 の 効 果 を 示 し た も の の,全
正 の 効 果 が 認 め ら れ た 場 合 で,こ (qualitative interaction)と 2)一 方,図11.4の
体 とし て は
の よ う な 交 互 作 用 を量 的 交 互 作 用
よび,一
般 に は 許 容 され る.
B の よ う に 正 の 効 果 が 観 測 され た 施 設 と 負 の 効 果 が
図11.3
施設 別 の 投 与群 別 治 療効 果(左 図,C:40ml, ±SD)を
N:100mL)と
治療 効 果 の差(mean
大 き い順 に 並 べ た もの(右 図)
図11.4
量 的交互作用 と質的交互作用の模式図
観 測 され た 施 設 の 数 が 接 近 して お り,そ の 微 妙 な 差 で 全 体 の 試 験 結 果 が 正 と も負 と も な り得 る よ うな 状 況 で あ っ た場 合,こ な い 」 と 判 断 す る.こ interaction)と
よぶ.つ
の よ う な 交 互 作 用 を 質 的 交 互 作 用(qualitative ま り, δ 〓 Ω-(Ω+∪
と な る場 合 で あ る.も
れ は 「許 容 で き
ち ろ ん,こ
果 が 有 意 に は な りに くいが,問
Ω-)
の よ う な 場 合 に は 全 体 と して 治 療 効
題 は 有 意 とな っ た 場 合 で あ り,推 定 さ
れ た 治 療 効 果 は 施 設 のselection biasを 受 け て い る と 解 釈 せ ざ る を 得 な い. Gail and Simon(1985)は
そ の 区 別 を 検 定 す る 尤 度 比 検 定 を,di∼
N(δi,σ2i)
と 仮 定 し て 提 案 し て い る:
(11.3) こ こ に,σ2 iに り,I(・)は()内 あ る.こ
は 標 本 分 散 を 代 入 し(large sample必 が 正 し い 場 合 に 1,正
要), c=-21og(κ)で
し く な い 場 合 に0を
あ
とる指示 関 数で
の 制 約 条 件 付 き の 尤 度 比 検 定 は も は や 漸 近 的 な χ2分 布 近 似 は 利 用
で き な い,定
数 c に 興 味 あ る 方 は 論 文 を 参 照 さ れ た い.Gail
and Simonは
cの 数 表 を 与 え て い る.
さ て,許 容 で き る 交 互 作 用 効 果 の 存 在 の 下 で,全 体 と し て の 治 療 効 果(over all effect)△ を 考 え て み よ う.全 体 と して の 治 療 効 果 は 各 施 設 で の 治 療 効 果
diを 適 当 に 定 義 さ れ た 施 設 の 重 み ωi
(11.4) に よる重 み付 け平 均
(11.5) (11.6) で 推 定 で き る.重 な わ ち,こ
み は,推
定 値 の 分 散 の 逆 数 とす る の が 一 般 原 則 で あ る.す
こで は,
(11.7) と な る.そ
こ で,式(11.2)で
与 え られ る各 施 設 で の 治 療 効 果 の 差 を 線 形 モ デ
ル(11.1)の
成分 で 表現 してみ る と
di=yi1-yi2=(β1-β2)+(γi1-γi2)+(〓i1.− と な る.こ
こ で,記
号
で,で
あ る(以
用効 果
〓i2.) (11.8)
「.」の 意 味 は 当 該 添 字 の 項 で 平 均 を と る と い う 意 味 下 同 様).さ
て,施
設 効 果 αi,交
互作
γijに つ い て 次 の 2通 り の 考 え 方 が 可 能 で あ る.
1)母 数 効 果 モ デ ル(flxed‐effects)
臨 床 試 験 に 参 加 す る 施 設 が 当 該 の 患 者 を 多 く も っ て い る特 定 の 医 療 機 関 か ら選 ば れ た も の で あ っ て,全
国 の 医 療 機 関 を代 表 す る(無
抽 出 の 意 味)も
た は,比
の で は な い場 合,ま
行 う場 合 な ど に 適 用 で き る.こ
較 的少 数の施 設 で試験 を
の 意 味 で は,こ
た 結 果 は 不 偏 性 が な い と もい え る,し
作為
の 臨 床 試 験 か ら得 られ
か し,日 本 の 新 薬 品 の 大 多 数 の
多 施 設 共 同試 験 は こ の 形 式 で 実 施 され,承
認 を受 け てい るのが 現実 で
あ る. 2)変
量 効 果(random‐effects)
臨 床 試 験 に 参 加 す る 施 設 は,全
国 か ら無 作 為 と まで は い か な く と も
選 ば れ た 代 表 的 な 施 設 で あ り,し たが っ て,施
設 自体 が 無 作 為 標 本 に
近 い 確 率 変 数 と 考 え られ る.し
た が っ て,こ
の 結 果 は 不 偏 性 ・一 般 化
可 能 性 が あ る と い え る. 治 療 効 果 は 母 数 効 果 と考 え る の が 自 然 で あ ろ う.す べ て の 効 果 が 母 数 効 果 で あ る モ デ ル を 母 数 効 果 モ デ ル(fixed‐effects model),一
部 の変 数 に変 量効
果 が あ る モ デ ル を 混 合 効 果 モ デ ル(mixed‐effects model)と て,施
設 効 果 が 母 数 効 果 と 考 え る モ デ ル は 母 数 効 果 モ デ ル,変
よぶ.し
たが っ
量 効 果 と考 え
る モ デ ル で は 混 合 効 果 モ デ ル と な り,後 者 の 変 量 効 果 に 関 す る 推 測 で は 分 散 成 分 の 推 定 に 関 心 が あ る. さ て,母
数 効 果 モ デ ル の 立 場 で 考 え れ ば,誤
差 成 分 だ けが 確 率 変 動 す る項
で あ り,
(11.9) で あ る か ら,
(11.10) と な る.つ
ま り,こ
の場 合 の重 み は
(11.11) と な る.も
し,ni1=ni2=niで
あ れ ば,重
み は 単 純 に,
(11.12) と な り,さ
ら に,ni=n(balanced
design)で
あ れ ば,
(11.13) つ ま り,各 施 設 毎 の 治 療 効 果 の 単 純 平 均 値 と な る.
したが って,全 体 と して の治 療効 果 の期 待値 と標 準誤 差の 推 定値 は
(11.14) (11.15)
と な り,そ の95%信
頼 区 間は △
で 計 算 で き る.こ dfの
こ に,dfは
t分 布 の 上 側2.5%点
次 に,混
±tdf(0.025)SE(△)
誤 差 分 散 σ2Eの 自 由 度 で,tdf(0.025)は
(11.16) 自由度
で あ る.
合 効 果 モ デ ル の 立 場 に た て ば, αi∼N(0,σ2α) γij∼N(0,σ2γ)
と 考 え る の が 通 常 で あ る,そ
(11.17) (11.18)
うす る と,
(11.19) と な る.し
た が っ て,混
合 効 果モ デ ルの場 合 の重 みは
(11.20) で あ る.混 合効 果モ デ ルの 下で の 治療効 果 の期待 値 と標 準誤 差 の推 定値 は △=β1-β2
(11.21)
(11.22)
と な る. さ て,こ
れ ま で は,式(11.1)の
モ デ ル に つ い て 説 明 し て き た.し
単 純 な線 形 モ デ ル で 他 の 共 変 量 を含 ま な い か し,共
変 量(x1,...,xp)を
含 むモデ ル
(11.23) で も 同 様 で あ り,こ
れ ま で の 議 論 の 中 のyijκ
を 共 変 量 で 調 整 され た 値 に 変
換 す れ ば よ い.こ
の モ デ ル は 一 般 に 共 分 散 分 析(analysis
ル と よ ば れ る.す
な わ ち,
of covariance)モ
デ
(11.24)
とす れ ば よい.表11.1に
示 す 臨 床 試 験 で はGPT値
な 共 変 量(交
あ る の で 調 整 が 必 要 で あ る.
絡 因 子)で
11.2
unbalanced
dataの
1992)に
の 推 測
dataの
dataに
場合 の比 較 的 簡 単 な問 題 で解 説 す る こ とに し
基 づ く 推 測 の 詳 細 は 他 の テ キ ス ト(例:Searl
et al.,
譲 る.
ま ず,推 す る.つ
dataで
場 合 の 推 定 は 問 題 の 本 質 を 理 解 す る うえ で きわ め て 不
透 明 な の でbalanced て,unbalanced
Balanced
の ベ ー ス ラ イ ン値 も 重 要
定 の 構 造 を 理 解 す る た め に,よ ま り,j=1,...,J
り一 般 的 な 母 数 効 果 モ デ ル で 出 発
と し て 考 え る. nij=nと
い うbalanced
dataの
場 合に は それぞ れ の効 果 としては 施 設 の 効 果:αi=yi...-y...
治 療 効 果:βj=y.j.-y...
交 互 作 用:γij=yij.-yi...-y.j.+y...
(11.25)
(11.26) (11.27)
と な る. yijκ-y...=(yi...-y...)+(y.j.-y...)
+(yij.-yi...-y.j.+y...)+(yijκ-yij.)
と 分 解 す る と,平
方 和(sum
of squares)が
(11.28)
そ れぞ れの平 方和 の和 に直 交分解
で き る.
し た が っ て,こ
の 場 合 に は 表11.2の
母 数 効 果 モ デ ル の 場 合 に は,平
よ う な 分 散 分 析 表 で 整 理 で き る.
均 平 方 和 の 期 待 値 が 表11.3の
よ うに 整 理
で き, σ2E=MSE
(11.29)
で あ り,そ れ ぞ れ の 効 果 の 有 意 性 は 次 の F 検 定 で 評 価 で き る.
表11.2
二元 配 置 分 散 分 析:balanced
dataで
交 互 作 用 項 を 含 ん だ モ デ ル.
i=1,...,I;j=1,...,J;κ=1,...,n
表11.3
母 数 効 果 モ デ ル で の 二 元 配 置 分 散 分 析 に お け る 平 均 平 方 和 の 期 待 値:balanced
表11.4
data,交
互 作 用 項 を 含 ん だ モ デ ル.i=1,...I;j=1,...,J;κ=1,...n
混 合 効 果 モ デ ル で の 二 元 配 置 分 散 分 析 に お け る 平 均 平 方 和 の 期 待 値:balanced
data,交
互 作 用 項 を 含 ん だ モ デ ル.i=1,...1;j=1,...,J;κ=1,...,n
FA=MSA/MSE∼FI-1
,IJ(n-1)
FB=MSB/MSE∼FJ-1
,IJ(n-1)
(11.30)
FAB=MSAB/MSE∼F(I-1)(J-1),IJ(n-1) こ こ にFυ1
一 方,混
,υ2は
自 由 度(υl,υ2)の
(11.31) (11.32)
F 分 布 で あ る.
合 効 果 モ デ ル の 場 合 に は 平 均 平 方 和 の 期 待 値 が 表11.4の
整 理 で き る.し
た が って,混
合効 果モ デ ルで の治 療効 果 は
FB=MSB/MSAB∼FJ
と 交 互 作 用 項 の 分 散 を 基 準 に 検 定 す る.こ の 場 合 に は,母
よ うに
-1 ,(I-1)(J-1)
こ で,balanced
数 効 果 モ デ ル で,式(11.14‐15)と
式(11.31),混
(11.33)
dataで,J=2 合効 果 モ デ
ル で,式(11.21‐22)と
式(11.33)が
対 応 す る,つ
ま り,
(11.34) と な る こ とに 注 意 し よ う. と こ ろ で,混
合 効 果 モ デ ル で の 分 散 成 分 の 推 定 法 と し て は,1)分
(ANOVA)法,2)最 的 な 方法 で あ る.
11.2.1
尤(ML)法,3)制
限付 き最 尤(REML)法
散 分析
の三 つが代 表
分 散 分 析(ANOVA)法
モ ー メン ト法 と も よば れ,計
算 され た 平 均 平 方 和 をそ の 期 待 値 に 等 しい と
して 推 定 す る 方 法 で あ る.表11.2と
表11.4の
分 散 分 析 表 か ら モ ー メ ン ト法
を利 用 して
(11.35) (11.36) (11.37) と 推 定 で き る.こ
の 推 定 量 は 「不 偏 最 小 分 散 」 とい う性 質 が あ る が,分
推 定 量 が 「負 」 と な る 可 能 性 が 排 除 で きな い.そ き換 え て,そ
こでML,REML法
な い こ と,ま た,REML法 る(た だ,ANOVA法 ANOVA法
11.2.2
の 場 合 に は 通 常 「0」 に 置
の 分 散 は きわ め て 小 さい と評 価 す る が,実
に 困 る 問 題 で あ る.そ
散
務 家 に とって は解釈
が 登 場 す るが,ML法
はbalance dataの 場 合 に はANOVA法
は不 偏 で は に 一致す
で 負 と な る分 散 成 分 は 0と推 定 され る)の で 実 質 的 に
が 利 用 さ れ る こ とが 多 い.
最
尤(ML)法
尤 度 を構 築 す る た め に,式(11.1)を
ベ ク トル 表 現 に す る と便 利 で あ る.つ
ま り, y=Xθ+Z1α+Z2γ
E(y)=Xθ
γ+e
(11.38)
(11.39)
(11.40) と な る.こ
こ で, θ=(μ,β1,...,βJ)t
で あ り,X,Z1,Z2は
そ れ ぞ れ のdesign行
あ る 正 方 行 列 で あ る.す
列 で,J
る と最 尤 推 定 量 はN=nIJと
(11.41)
はすべ て の要素が 1 で し て,次
の 尤度 を最
大 に す る こ と に よ り求 め られ る.
(11.42) 対 数尤 度 は
(11.43) で あ る か ら,次
の 尤度 連 立方 程式 を
(11.44) の 条 件 の 下 に 解 く こ と に な る.
(11.45)
(11.46)
(11.47) (11.48) 少 々 厄 介 な 計 算 が 必 要 と な る が,balanced のclosed formで
dataの
場 合 の最 尤推 定 量 は次
与 え ら れ る. 2
σE
= MSE
(11.49)
(11.50) (11.51)
σ
2 E
を 除 い て 明 らか に 不 偏 で は な い.
11.2.3
制 限 付 き 最 尤(REML)法
REMLと
は 「モ デ ル の 母 数 効 果 の パ ラ メ ー タ に 関 す る 尤 度 を 除 い た 部 分
の 尤 度 を 最 大 に す る最 尤 法 」 でrestricted ML,residual な ど と よ ば れ る.言
い 換 え れ ば,母
た 推 定 法 と い え る.例
え ば,最
ML,marginal
数 効 果 の 推 定 に必 要 な 自 由度 を考 慮 し
も簡 単 な 例 と し て(Y1,...,Yn)∼N(μ,σ2)
の 場 合 の 分 散 σ2の 推 定 の 問 題 を 考 え て み る の が わ か りや す い.最 は
ML
で あ り不 偏 で は な い.そ
こ で,尤
尤推 定量
度 を変 形 して み
る と,
(11.52) と な る.つ
ま り,平 均 値 μ に 関 す る 尤 度 と分 散 に 関 す る 尤 度 に 分 解 で き る こ
とが わ か る.こ の ケ ー スで は,REML法
は 平 均 値 に 関 す る尤 度 は 無 視 し,分
散 に 関 す る 尤 度 を最 大 に す る方 法 と な る.全 体 の 尤 度 と分 散 の 尤 度 を比 較 す れ ば,計
算 を す る ま で も な く,分 散 のREML推
と不 偏 分 散 と な る こ とが わ か る.と
こ ろ で,尤
定値は
度 の変 形 の過程 をみ る と
yi-μ=(y-μ)+(yi-y)
と に 分 解 し て 後 者 の 残 差(residual)の こ と が で き る.こ ぶ こ と も で き る.さ
部 分 の 尤 度 を最 大 に し た 方 法 と考 え る
の 意 味 で 残 差 最 尤 法(residual
maximum
likelihood)と
ら に.式(11.52)は L(σ2│SS)=∫L(μ,σ2│y)dμ
(11.53)
よ
と 表 現 で き る こ と か ら,REMLは hood)と
周 辺 最 尤 法(marginal
maximum
likeli
も い え る.
さ て,式(11.38)か
ら母 数 効 果 の 部 分 を 除 去 す る ため に 次 の 分 解 を 考 え よ う.
yijk-μ-βj=(y...-μ)+(y.j.-y...-βj)+(yi...-y...)
(yij.-yi...-y.j.+y...)+(yijκ-yij.)
(11.54)
最 初 の 2項 は 母 数 効 果 の 部 分 で あ る か ら,残 差 は 残 り三 つ の 項 か ら な る.つ ま り,式(11.42)の
尤 度 を 残 差 の 三 つ だ け の 二 次 形 式 に 分 解 し て 変 形 して い く
とMSE,MSA,MSABの
関 数 で 表 現 で き,尤 度 方 程 式 を 解 くと式(11.35)
-(11.37)のANOVA法
と 同 じ推 定 量 が 得 られ る.
こ の こ と を 統 一 的 に 解 説 す る た め に,ベ
ク トル ・行 列 を利 用 して み よ う.
残 差 だ け を 考 え る とい う こ と は 母 数 効 果 の パ ラ メ ー タ を 消 す 変 換 ベ ク トル αtyを 探 す こ と に ほ か な ら な い.つ
ま り,
αty=αtXθ+αt(Z1α+Z2γ+e)
(11.55)
に おい て αtXθ=0,任
意 の θ に 対 し て (11.56)
つ ま り, αtX=0 (11.57) と な る コ ン ト ラ ス ト(contrast)で
あ る.こ
の よ う な コ ン トラ ス ト α は 次 の
形で 与 え られ る. αt=ct[I-X(XtX)-Xt] こ こ にX-は
(cは
X の 一 般 化 逆 行 列(generalized
コ ン ト ラ ス ト α は γ=rank(X)個
inverse)で
の よ うな
れ らを利用 して
γ)
(11.59)
め る残差 の 尤度 は Aty∼N(0,AtΣA)
で 構 成 され る.尤 行 列Atが
あ る.こ
独 立 に 存 在 す る か ら,そ
A=(α1,...,α
と お け ば,求
任 意) (11.58)
度 方 程 式 はML法
(11.60)
と 同様 で あ る.た だ し,す べ て の 行 列 は
左 か ら 施 さ れ て い る こ と に 注 意 す る.
11.3
ま ず,母
Unbalanced
dataで
の推 測 の 留 意 点
数 効 果 モ デ ル の 場 合 を 考 え よ う,balanced
で は 各 要 因 が 「直 交 」 し,そ
が 一 意 に 決 ま っ た が,unbalanced 要 因 が 直 交 せ ず,平
dataで
はunbalance
方 和 が 一 意 に 定 ま ら な い.言
ト さ れ た 順 番 に よ っ て,変
dataの
分散分 析モ デル
れ ぞ れ の 要 因 が 寄 与 す る 平 方 和(sum ゆ え に,そ
い 換 え れ ば,モ
わ っ て く る の で あ る.例
of squares) れぞれ の
デ ル に フ イッ
え ば,
Y=A+B+TREATMENT Y=TREATMENT+B+A で は 三 つ の 要 因 そ れ ぞ れ の 効 果 の 平 方 和 が 変 化 す る.し
た が っ て,注
目 した
い 要 因 効 果 を検 討 す る と きに は他 の 変 数 と の あ て は め る順 番 を考 え る必 要 が あ る.一
般 的 に 認 め られ て い る ル ー ル は Y=X1+…+Xp+TREATMENT
の よ う に,他 の す べ て の 変 数 を先 に フ イッ トさせ て か ら注 目す る 変 数TREAT MENを
フ イッ ト させ る こ とで あ る.た
だ し,例 外 が あ っ て,注
目す べ き変
数 が 含 ま れ て い る 交 互 作 用 項 は後 に フ イッ トさせ な け れ ば な ら な い. Y=X1+…+Xp+TREATMENT
もち ろ ん,母
+TREATMENT*X1
数 効 果 の パ ラ メ ー タ推 定 は ダ ミー 変 数 を適 当 に 定 義 して 一 般 正
規 線 形 モ デ ル を利 用 す る. [例題11.1]式(11.14)-(11.16)の
交 互 作 用 効 果 の 重 み 付 き平 均 を とっ た推
定 値 は 通 常 の 一 般 正 規 線 形 モ デ ル を利 用 し,交 互 作 用 項 の な い モ デ ル OUTCOME=CENTER+TREATMENT
のTREATMENT効 [解答]省
果 の 推 定 値 に一 致 す る こ と を証 明 せ よ.
略 す る が,こ
最 後 に,unbalanced てREML法
(11.61)
の 問 題 は重 要 で あ る. dataで
の 分 散 成 分 の推 定 に は,ANOVA法
を 利 用 す る こ とが 多 い.そ
1)unbalance ゆ え に,ANOVA法 良 い とは 一 概 に い え な い.ま 良 く な い.
に代 わ っ
の 理 由 の い くつ か を列 挙 し よ う. に も数 種 類 の 方 法 が あ り,ど の 方 法 が
た,最
尤 法 に比 して 不 偏 性 以 外 の 性 質 は
2)ML法 3)し
は 漸 近 的 で あ る もの も推 定 量 と して 漸 近 的 に は 最 良 の 性 質 を もつ.
か し,ML法
4)REML法 に,母
は 不 偏 で は な い.
は 最 尤 法 の 漸 近 的 な性 質 を もつ と 同 時 に,ANOVA法
の よう
数 効 果 を推 定 す る の に 必 要 な 自 由 度 を 考 慮 し て 分 散 成 分 の 推 定
量 を 導 出 し て くれ る.特 に,balanced dataの 場 合 に はANOVA法 と 一 致 し た不 偏 推 定 量 と な る .こ の 性 質 は,ANOVAに 慣 れ てい る実務 家 に と っ て は 解 釈 が 容 易 で あ る.
11.4解
さて,表
析
例
に 示 したデ ー タの統計 モデ ル は
log(GPT6week/GPT2week)ijκ=μ+θ1GPT2week
図11.5
GPTの
ベ ー ス ラ イン 値 とGPT値
の 減 少 量(log変
換)
+Centeri+Treatmentj +(Center×Treatment)ij+〓ijκ
と 表 現 で き る,図11.5に 間 後)は
示 す よ う に,GPTの
ベ ー ス ラ イ ン 値(投
与 後 2週
改 善 と は き わ め て 高 度 の 負 の 相 関(γ=-0.388,p<0.0001)が
さ れ て い る の で 調 整 変 数 と し て 必 要 で あ る.こ
の モ デ ル はS‐Plusで
観 察 は
S‐Plus program:表11.5-11.7 lgdif←log(gpt6)-log(gpt2) aov(lgdif∼gpt2+center+treatment+center*treatment) glm(lgdif∼gpt2+center+treatment+center*treatment) aov(lgdif∼gpt2+center+treatment) glm(lgdif∼gpt2+center+treatment)
で 実 行 す る.そ
の 結 果 は 表11.5‐ 表11.7に
示 す と お り で あ る.
解析 結果 は 問題 とな る治療 と施設 との交互作 用効 果 の存在 は認 め られ て い ない.治 療 効 果 の推 定 値は 交互 作 用項 を含 め な いモデ ルか ら △=-0.2126(p=0.0142)
表11.5
表11.6
Treatmeat×Center交
Treatment×Center交
互 作 用 項 の な い 母 数効 果 モ デ ル の 分 散 分 析 表
互 作 用 項 を 入れ た 母 数 効 果 モ デ ル の 分 散 分 析 表
表11.7
Treatment×Center交
で あ り,そ の95%信 -0
で あ っ た.こ
互 作 用 項 の な い を母 数効 果 モデ ル の推 定 値
頼 区 間は
.2126±1.99×0.08479=(-0.0439∼-0.3813)
の 結 果 は 調 整 な し の モ デ ル “lgdif∼treatment"で
の p値0.0130
と ほ と ん ど 変 わ っ て い な い. 次 に 混 合 効 果 モ デ ル はS‐Plusの
「Varcoinp」
関 数 を 利 用 し,REMLを
利
用 し て 推 定 す る.
S‐Plus program:表11.8
sat.df←data,frame(treatment,center,gpt2,lgdif)
is.random(mino.df)←c(F,T) summary(varcomp(lgdif∼center+gpt2+treatment +center*treatment,data=sat.df,metnod=”reml”))
推 定 結 果 は 表11.8に 4203±10-11と
示 す と お りで,交
きわ め て 小 さ い.治
互 作 用 項 の 分 散 推 定 値 は σ2γ=
療 効 果 の 推 定 値 と標 準 誤 差 は
表11.8
で あ っ た.ま
混 合効 果 モ デ ル で の 推 定 結 果(S‐Plus)
た 漸 近 的 な95%信 -0
頼 区間 は
.2128±1.96*0.0841=(-0.0479∼-0.3777)
で あ っ た.
練 習 問 題 [問 題11.1]式(11.49)‐(11.51)の [問 題11.2]一
最 尤 推 定 値 が 導 か れ る こ と を 証 明 せ よ.
元 配置 変 量効 果モ デ ル yij=μ+αi+〓ij
αi∼N(0,σ
2 α),〓ij∼N(0,σ
2 E
)
i=1,...,α;j=1,...,γ
に お い て 次 の 命 題 を 証 明 せ よ. 1)尤 度 の 分 解 L(μ,σ2α,σ2E|y)=L(μ│y..)L(σ2α,σ2E│SSA,SSE) 2)尤
度 の 第 2項 を 最 大 化 す るREML推
定 値:
a)MSA>MSEで
あ る 場 合 に はANOVA推
MSE)/γ,σ2E=MSE,に b)MSA〓MSEで
定 値,σ2a=(MSA‐
一 致 す る. あ る 場 合 に は,ANOVA推
定 値 に 一 致 せ ず,
σ2E=MST,σ2a=0. [問 題11.3]式(11.1)の 場 合 のREML推 を 証 明 せ よ.
二 元 配 置 で 混 合 効 果 モ デ ル か つbalanced 定 値 が 式(11.35)-(11.37)のANOVA推
dataの
定 値 に一致 す るこ と
12 トピ ック ス Ⅳ: 疾 病 地 図 と疾 病 集 積 性
本 章 で は 統 計 モ デ ル の 応 用 例 と し て,疾 る 問 題 を 考 え る.図12.1はMissouri州(男
病 の 地 域 分 布,地
性,45‐64歳,1972‐1981年)の
胃が ん 死 亡 率 の 市 別 デ ー タで あ る.こ の 図 は,死
亡 率 が 人 口 に 反 比 例 し,人
口 が 減 る に つ れ て 死 亡 率 が 増 加 す る こ と を 示 し て い る,そ
12.1は
近 年,食
事,生
図12.1
活 習 慣,生
Missouri州
域 集積 性 に関す
じ
め
ん な ば か な!
に
活 環 境 中 の 環 境 汚 染 な ど に 起 因 す る 健康 影 響 へ
の 市 別 の 人 口 と 胃 が ん 死 亡中 率(男
性,45‐64歳,1972‐1981)
の 関 心 が 高 ま っ て い る.1998年
の所 沢 産 の野 菜 のダ イオキ シ ン騒動 はそ の
典 型 で あ ろ う.し か し,偏 っ た 生 活 習 慣,微
量 ・日常 量 程 度 の 環 境 汚 染 物 質,
な ど に 長 期 に 曝 露 す る こ と に よ り発 現 す る健 康 影 響 の 評 価 は 容 易 で は な い. 個 人 レ ベ ル の 曝 露 量 の 推 定 が 可 能 な 例 は き わ め て 稀 で あ り,曝 露 量 と相 関 す る代 替 指 標 を 上 手 に 利 用 せ ざ る を 得 な い.こ
の 意 味 で 地 域 に 偏 在(集
積)し
た健 康 影 響 を 早 期 に 発 見 す る こ と は 重 要 で あ る.公 衆 衛 生 分 野 で は,市 村 別 の 健康 状 況,疾 (有 病 率),標 図(disease
区町
病状 況 を比較 検討 す るた めにあ る疾患 の年齢 調 整死 亡率
準 化 死 亡 比 な ど を 数 区 分 に 色 分 け して 視 覚 的 に 表 示 した 疾 病 地 map)が
を被 説 明 変 数,市
よ く利 用 され て きた.ま
た,あ
区 町 村 毎 の 社 会 経 済 的 指 標,環
た 回 帰 分 析 な ど も よ く行 わ れ て き た.し
る疾 患 の 年 齢 調 整 死 亡 率
境変 数 など を説明 変数 と し
か し,こ れ らの 「日常 的 な 行 為 」 が
実 は 統 計 学 的 に 適 切 で な い こ とは ほ と ん ど 知 ら れ て い な い. 本 章 で は,い わ ゆ る小 地 域(small areas)に 対 す る 疾 病 地 図 の 問 題 点 と,そ の 解 決 に 向 け た 代 表 的 な 方 法 論 を紹 介 す る.
12.2問
図12.1に
示 した
題
「直 線 A 」 は 0/
0 y=
で あ り,図12.1の
の 所 在
/x=
=0 log10(人
口)
「曲 線 B」 は 関 数 1/ y=
log10(人
口)
を x軸 を 対 数 目盛 りで 描 い た もの で あ る.つ
ま り,単 純 な,誰
で も計 算 で き
る死 亡 率 γ=
d /n
×100,000.
d:死
亡 数, n:人
口
を そ の ま ま 使 用 し て い る点 が 実 は 大 き な 落 と し穴 で, 各 地 域 の 人 口 の 変 動 が 大 きい と,対 象 と し て い る κ個 の 地 域 毎 に 計 算 した 率(γ1,γ2,...,γк)が,地 域 間 の 死 亡 率 の 大 き さ を比 較 す る の に 適 切 な指 標 とな らな い
の で あ る.当
然 の こ と なが ら,死
亡 率 γiは,人
口 の 少 な い 地 域 で は,わ
か な 死 亡 数 の 増 減 の 影 響 が 大 き く反 映 され,不
ず
安 定 な 指 標 と な っ て し ま う.
人 口 の 大 き さ に 起 因 す る精 度 を 有 す る 死 亡 率 で 地 図 を 作 成 す る 「行 為 」 は, 「κ 種 類 の 精 度 の 異 な る 物 差 し の 測 定 結 果 を 同 じ レ ベ ル で 比 較 す る こ と 」 と 等 価 で あ り,サ
イエ ン ス の 世 界 で は 到 底 考 え ら れ な い,し
度 とい う と,次
の よ うな 反 論 が 出 る か も し れ な い.
か し,死 亡 率 の 精
疾 病 地 図 で 問 題 に して い る死 亡 率 は,通 常,各 地 域 毎 の 全 数調 査(人 口 動 態 統 計)で
「計 算 」 され た もの で あ り,標 本 調 査(random
に よ り 「推 定 」 され た 死 亡 率 で は な い.し
たが っ て,当
該地域 を母集 団
と し た 標 本 抽 出 に よ る サ ンプ リ ン グ 誤 差 は 考 え られ な い.つ され た 地 域 毎 の 死 亡 率 γi=di/niは,そ
sampling)
ま り,計 算
の 地 域 の 真 の 死 亡 率(母
数)と
考 え られ る. さ て,こ
の 反 論 に 対 して は 次 の よ う に 解 答 す る こ とが 可 能 で あ る.
1)あ る期 間 の あ る 地 域 に お け る 死 亡 率 がpで
あ る とは,こ
の地域 の中 一人
一 人 が こ の 期 間 で 死 亡 す る 平 均 的 確 率 が pで あ る と考 え ら れ る . 2)一 人 一人 の 死 亡 は 互 い に 独 立 な 確 率 現 象 と考 え る と,こ
の期 間での 死
亡 数 は 確 率 的 に 変 動 す る変 量 と な り,観 測 死 亡 数 は そ の 実 現 値 で あ る. 具 体 的 に は,人
口 n 人 の 地 域 で,こ
め て 小 さい の で,次
こ の と き,γ=d/nと SD(γ)=√p/nと
のPoisson分
の 期 間 に d人 死 亡 す る 確 率 は 1よ りき わ
布 に 近 似 され る.
計 算 さ れ る 死 亡 率 γの 期 待 値 と標 準 偏 差 はE(γ)=p,
な り,不 偏 推 定 量 で あ る も の の,そ
ズ の 平 方 根 に 逆 比 例 す る.す な わ ち,人
口 の 小 さい と こ ろ で は 指 標 の バ ラ ツ
キ が 大 きい とい う 「当 た り前 」 の こ とが わ か る.バ とは,本
当 は 全 国 平 均 と比 べ て 差 が な い の に,あ
き くな っ た り(危 険 地 域,赤
ラ ッ キが 大 きい とい うこ
る と きは 高 度 に 死 亡 率 が 大
で 表 示 さ れ る こ とが 多 い),あ
て 死 亡 率 が 低 くな る(安 全 地 域,青 れ る こ と に な る.現
のバ ラツキ は 人口サ イ
で 表 示)と
る と きは きわめ
い う見 か け 上 の 変 動 で 悩 ま さ
実 の 疾 病 地 図 を み る と この よ うな 現 象 は 少 な くな い.
12.3
も ち ろ ん,地
年 齢 調 整 で も不 十 分
域 間 比 較 に お い て は,単
純 な
「率 」 で は な く,年
の 分 布 の 違 い を 調 整 し た 指 標 が よ く 利 用 さ れ る.代 法 と し て 知 ら れ る 年 齢 調 整 死 亡 率DAR(dizectly
齢 ・性 な ど
表 的 な 指 標 と し て,直
接
age‐adjusted death rate)
(12.1) こ こ で,
dκj:κ
地 域,j年
齢 階級 の 観察 死 亡数
nκj:κ
地 域,j年
齢 階 級 の 人 口(正
Nj:標
準 人 口 のj年
確 に は 人 年)
齢 階級 の 人 口
N=N1+…+Nk が あ る.こ
の 指 標 は 直 接 に 観 測 死 亡 率dκj/nκjを 利 用 し て い る の で,す
でに
述 べ た 理 由 に 加 え て 年 齢 階 級 の 人 口 の 分 布 の 影 響 も あ り,「地 域 比 較 の 指 標 と し て は 不 適 当 な 指 標 」 で あ る.そ 後(1988)を
参 照 され た い.こ
SMR(standardized
の 異 常 な性 質の 具体 的例 に つい て は丹
れ に 対 し て,間
接 法 と よば れ る標 準 化 死 亡 比
mortality ratio)
(12.2) Poj:標
準 人 口 に お け る 第j年
齢 階級 の死 亡 率
dκ:κ
地 域 の 観 測 総 死 亡 数(=dκ1+…+dкJ)
eκ:κ
地域 の期待 死亡 数
は 年齢 調 整死 亡 率 ほど は人 口 の変動 の影 響 は受 け に くいが,そ れで も
(12.3)
と 変 形 す れ ば わ か る よ うに,地
域 全 体 の 人 口 が 相 対 的 に 小 さけ れ ば や は り
粗 死 亡 率(crude mortality rate)dκ/nκ;の 関 数 で あ る か ら や は り人 口 の 影 響
は 大 きい.そ
の 例 と し て 図12.2(a)に 高 知 県 の53の
直 腸 が ん のSMR(1987‐1996)を 12.3(左)に は,人
口 を x軸(常
人 口 の 少 な い 市 町 村 でSMRが
利 用 し た 疾 病 地 図 を 示 す(今 用 対 数)にSMRを
井,1998).図
y軸 に し て プ ロ ッ トした.
高 低 に 激 し く変 動 して い る こ とが わ か る だ ろ
う.人 口 の最 大 は 高 知 市 の1,476,788人,最 の 比 は ほ ぼ430:1 で あ る.さ
市 町村 別 男性 の結 腸 ・
て,SMRの
小 は 大 川 村 の3440人
で あ り,そ
最 大 値 は 赤 岡 町 の250(死
人),最 小 値 は 死 亡 者 0の 5町 村 で あ っ た.こ
亡者 数 7
れ ら の デ ー タ は 表12.1に
示し
た.こ の よ うな 図 をみ る と,こ の よ うな 地 域 に対 し て 次 の よ うな 回 帰 分 析 が い か に 馬 鹿 げ て い るか 理 解 で き る だ ろ う. SMRκ=β0+β1x1κ+…+βmxmκ+誤
差
こ の よ うに,地
域 の 比 較 を行 うた め に は,「 人 口 の 大 き さ を 調 整 」 しな け れ
ば な ら な い.一
つ の 簡 単 な 方 法 は 重 み 付 き回 帰 分 析 logSMRκ=β0+β1x1κ+…+βmxmκ+誤
差
Var(logSMRκ)=1/dκ
図12.2
1987‐1996年
(12.5)
の 高 知 県 の 市 町村 別男 性 の 結 腸 ・直 腸 が ん の 疾 病 地 図(a)SMR,
(b)empirical Bayes SMR,(c)Tangoの (今 井,1998)
(12.4)
集 積 性 の 検 定 で 検 出 され た 市 町 村
図12.3
1987‐1996年
の 高 知 県 の 市 町村 別 男性 の結 腸 ・直 腸 が ん の 期 待 死 亡 数 とSMR
の関連
を 実 施 す る こ とで あ る.も
っ と も,現 在 の 行 政 区域 を 無 視 して で も,人 口 の
変 動 を 調 整 す る 一 番 簡 単 な方 法 は,各
地 域 の 人 口が ほ ぼ 等 し くな る よ うに 地
域 の 再 編 成 を し て か ら疾 病 地 図 を 描 くこ とで あ ろ う.例 え ば,日 比 較 に お い て は,二
本全 国での
次 医療 圏 の疾病 地 図であ れば 人口 の変動 は少 な いの で人
口 の 影 響 は 小 さ い.
12.4
と こ ろ で,死
Bayesian
approach
亡 率 に は 地 域 差 が あ り,全 体 と し て あ る滑 ら か な 連続 分 布 に
従 う と い う こ と は,決
し て 不 自然 な 考 え 方 で は な い だ ろ う.し た が っ て,地
域 毎 の 母 標 準 化 死 亡 比(θ1,...,θK)も,滑 う と考 え られ る.さ
て,こ
らか な 連 続 分 布(事
前 分 布)に
従
こ で,「 連 続 分 布 」 を事 前 分 布 と し て 仮 定 す る と
い う こ とは,「推 定 さ れ る 標 準 化 死 亡 比 θκが,極
端 に高 い ま た は 低 い 値 を も
表12.1
高 知 県 の 市 町 村 別 人 口,男 死 亡 数,SMR,empirical
性 の 結 腸 ・直 腸 が ん の 死 亡 数,期 Bayer SMR(今
井,1998)
待
た な い よ うに バ ラ ツ キ の 大 き さ を 制 御 す る 」 こ と を 意 味 す る.さ て,事 布 をg(θ│η)と
し よ う.こ
前分
こ に η は 分 布 を 規 定 す るパ ラ メ ー タで あ る.観
測 死 亡 数dκ は 期 待 死 亡 数eκ を もつPoisson分
布
(12.6) に 近 似 で き る か ら,θ κの 事 後 分 布 はBayesの
定理 よ り
(12.7) と計 算 で き る.し
た が っ て,SMR(=θ)の
推 測 は,事
後分 布 か らの期待 値
(12.8) (12.9) で 行 う(9.4節
12.4.1
参 照).
Empirical
さ て,Bayesian
Bayes
inferenceの
一 つ のア プ ローチ は
,死
問 題 は 事 前 分 布 の パ ラ メ ー タ η の 設 定 で あ る,
亡 数dκ
の 周辺尤 度
(12.10) に 基 づ く最 尤 推 定 法 で 推 定 す るempirical 簡 単 で,か
つ,解
Bayes推
釈 も 容 易 な 方 法 は,η=(α,β)と
定 で あ る.中
で も,最
も
したガ ンマ分 布
(12.11) (12.12) (12.13) を 仮 定 す る こ と で あ る.な
ぜ な ら,Bayesの
h(θ κ│eκ,dκ,α,β)=g(θ
定 理 よ り κ |α+eκ,β+dκ)
と事 後 分 布 も ガ ン マ 分 布 に 従 うか ら で あ る(ガ ン マ 分 布 はPoisson分
(12.14)
布 に対
し て 共 役 な 事 前 分 布).こ
の 場 合,死
亡 数dκ の 周 辺 尤 度 は 負 の 二 項 分 布(neg
ative binomial distribution)
(12.15) と な る の で,(α,β)の Newton‐Raphson法
結 局,Bayes推
最 尤 推 定 値 は,モ で 計 算 す る.必
ー メ ン ト推 定 値 を 初 期 値 と し た
要 な 項 は 下 に 整 理 す る.
定値 は
(12.16) と な る.こ 1)人
の 式 の 形 か ら θEB ,κは
口 が 大 き い 場 合 に は(eκ
→
大),通
常 の 標 準 化 死 亡 比 θκ=dκ/eκ
→
小),地
域 全 体 の 平 均 値 β/α に 近 づ く,
に 近 づ き, 2)人
口 が 少 な い 場 合 に は(eκ
と い う 性 質 を も つ こ と が わ か る. 図12.4に
は 図12.1のMissouri州
の デ ー タ のempirical
Bayes推
定 値 を示
し た.こ
の 場 合 はSMRで
は な く死 亡 率 γκ=dκ/nκ で あ る か ら,上 記 の 計
算を nκ ←eκ
と 置 き換 え た も の で あ る.人
口 の 少 な い と こ ろ は ほ と ん ど 一 定 で あ る こ とが
わ か る.高
知 県 の デ ー タ のempirical
で あ る.最
高 の 「120-」
し,empirical 最 低 の 「-80」 pirical Bayes推
Bayes推
Bayes推
定 値 が 図12.2(b),図12.3(右)
の 階 級 に 入 る 市 町 村 がSMRで
は10も
あ った の に 対
定 で は そ の よ う な 地 域 は 一 つ も な く な っ て い る.ま
の 階 級 に 属 す る 市 町 村 の 数 も 「25→0」 定 で は,室
戸 市(EBSMR=119.6),高
と 激 減 し て い る.em 知 市(EBSMR=114.7)
の 二 つ の 市 が 高 い が 他 は 一 塊 で 特 に 差 は み ら れ な い. [例 題12.1]式(12.14),(12.15)を [解 答 】 式(12.8)よ
と な る か ら,死
こ こ で,変
図12.4
導 出 せ よ.
り
亡 数dκ の 周 辺 尤 度(確
数 変 換(eκ+α)θ=yを
Missouri州
率 分 布)は
行 っ て,
の 市 別 の 人 口 と 胃 が ん 死 亡 率 のcmpirical
Bayes推
定 値(丹
後,1988)
た
す な わ ち,こ れ は 負 の 二 項 分 布 で あ る.そ
の 期 待 値 と分 散 は
eκβ/
E(dκ)=
(
12.17)
α
eκ(eκ+α)β Var(dκ)= / a
で 与 え られ る.そ
(12.18)
2
こ で,θ κの 事 後 分 布 は (12.19)
(12.20) こ こ で, α*=α
+eκ
β*=β+dκ
で あ る.つ
ま り,SMR(=θ
κ)の 事 後 分 布 も ま た パ ラ メ ー タ(α+eκ,β+dκ)
を も つ ガ ン マ 分 布 と な る.
12.4.2
Bayesian
前 項 のempirical
hierarchical
Bayes推
model
定 で は 人 口 の 調 整 だ け を 考 慮 に 入 れ た が,疾
病
指 標 に 基 づ い た 実 際 の 解 析 で は,地
域 毎 の 共 変 量 を 説 明 変 数 と し た 回 帰 分 析,
ま た,近
病 率)で
接 地 域 は 類 似 の 死 亡 率(有
あ る と仮 定 で きる 場 合 に は そ れ
を 考 慮 に 入 れ た 空 間 平 滑 化(spatial smoothing)の い ろ い ろ な 解 析 が 必 要 と な る こ と が あ る.こ Bayes推
モ デ ル を 導 入 し た り,と
の よ う な 場 合 に は,empirical
定 値 を 被 説 明 変 数 と し た 回 帰 分 析 が 可 能 で あ る が,9
Bayesian階 sion model)で
層 的Poisson回
帰 モ デ ル(Bayesian
議 論 す る の が よ り精 密 で あ る.例
に よ る 説 明 と,近
章で 説 明 した
hierarchical Poisson regres え ば,共
変 量(x1,...,xm)
接 地 域 の 類 似 性 を 考 慮 に 入 れ た モ デ ル の 一 つ と して 条 件 付
き 自 己 回 帰 モ デ ル(conditional
autoregressive
model)
(12.21) dκ ∼Poisson分
布(期
ηκ ∼N(0,σ2)(:標
待 値:μ) 準 化 死 亡 比 の 地 域 差) 空 間smoothing
nh∼ κ=地
が 考 え ら れ る.こ
域 κの 近 接 地 域 の 数
の モ デ ル で はSMRが
(12.22) と 推 定 さ れ る.こ Bayesモ
の モ デ ル は9.6節
デ ル の 統 計 解 析 に は10章
MCMC(Markov
の 例10で
で 解 説 し たGibbs
chain Monte Carlo)法
12.5
前 節 まで は,疾
紹 介 して い るが この 種 の
疾 病 の 集 積性
病 地 図 の 適 切 な 解 釈 に は 人 口 の サ イズ,他
ん な 推 定 値 で あ れ,小
し た が っ て,本
基づ く
を 利 用 す る と 便 利 で あ る.
す る 重 要 性 とそ の 方 法 論 と し て のBayesian approachを ろで,ど
samplingに
の共 変量 を調 整
議 論 し て き た.と
こ
さい 順 に 並 べ れ ば 必 ず 最 低 と最 高 が 存 在 す る.
当 に 健 康 状 況 が 思 わ し くな い 地 域 は ど の 辺 な の か?と
病 の 地 域 集 積 性(disease clustering)を 検 討 す る 必 要 が あ る.こ
い う疾
こで は,
1)focused test ご み 焼 却 ・危 険 物 廃 棄 ・原 子 力 発 電 施 設 な ど の 事 前 に 定 ま っ て い る 地 点 の 周 辺 に 居 住 す る 地 域 住 民 に 関 連 す る疾 病 の 集 積 性 が あ る か 否 か を 検 討 す る 方 法, 2)global test 対 象 地 域 に お け る疾 病 の 地 域 集 積 性
a)特 定 の 地 域(未
知)に
集 積 して い る
b)感 染 性 疾 患 の よ うに 特 定 の 地 域 に 集 積 し て い る の で な く,集 積
が い た る と こ ろ で 発 生 して い る
の 有 無 を 統 計 学 的 に 検 定 し,有 意 な 集 積 性 が 認 め ら れ た 場 合 に,上 の a)の検 討 が 目 的で あ れ ば,そ
の 二 つ に 分 け て 解 説 す る.ま ず,次 帰 無 仮 説H0:調 対 立 仮 説H1: 簡 単 の た め に,最 仮 説 は,各
記
の 地 域 は ど こ か?を 教 え て くれ る 方 法, のfocused testの 仮 説 を 考 え よ う.
査地 域 に集 積性 は な い 地 域 κ0の 周 辺 に 集 積 して い る
初 は 年 齢 な ど の 交 絡 因 子 は 無 視 し よ う.そ
うす る と,帰 無
地 域 の 死 亡 数dκ,は 人 口nκ に 比 例 す る 期 待 値 を もつPoisson分
布 に 従 う: H0:dκ
∼Poisson(E(dκ))
E(dκ)=〓nκ
帰 無 仮 説 の 下 で は,d=d1+…+dKが
, κ=1,...,K
(12.23)
未 知 の パ ラ メー タ 〓 の 十 分 統 計 量
で あ る か ら 〓 に依 存 し な い 検 定 統 計 量 は 観 測 さ れ た d の 条 件 付 き推 論 に よ り与 え ら れ る.つ
ま り,総 死 亡 数 d が 一 定 と い う条 件 の 下 で は
(d1,d2,...,dk) は多項 分 布
(12.24) に 従 うサ ン プ ル サ イ ズ d の 無 作 為 標 本 と 考 え ら れ る.し pκdと
な り,〓
た が っ て,EH0(dκ)=
の最 尤 推定 量 は
(12.25) で 与 え ら れ る.さ
て,「 地 域 κ0の 影 響 を 受 け て そ の 周 辺 に 疾 病 が 集 積 し て い
る 」 こ と を 表 現 す る 加 法 超 過 リ ス ク モ デ ル(additive H1:E(dκ)=〓nκ(1+ω
で あ る.こ
κ,κ0θ),
excess risk model)は
κ=1,...,K
(12.26)
こ に,ω κ,κ ο は 地 域 κ に お け る 地 域 κ0か ら の 汚 染 物 質 へ の 曝 露
量 で あ り,曝 露 量 に 比 例 し て 死 亡 が 増 加 す る モ デ ル で あ る.曝 露 量 に 関 す る 情 報 が ほ とん ど な い 場 合 に は,曝
露 量 の 代 替 変 数 で 置 き換 え ざ る を 得 な い.
中 心 地 点 か らの 距 離 に 反 比 例 し て 曝 露 量 が 減 衰 す る と仮 定 し て も不 自然 で は
な い 場 合 に は,対
立 仮 説H1は
H2:E(dκ)=〓nκ(1+α
と 置 き 換 え ら れ る.こ
κ,κ0θ), κ=1,...,K
こ に,α κ,hは
な 関 数 が 考 え ら れ る が,こ
2地 域 κ,hの
(12.27)
近 さ の 尺 度 で,い
ろい ろ
こ で は,
(12.28) dκh=2地
を考 え る.関
域(κ,h)間
数 ακh(λ)の形 状 は 図12.5に
の 距 離 (12.29)
示 す とお りで,ほ
内 部 が 集 積 地 域 を表 す モ デ ル とな っ て い る,二
ぼ 半 径 λの 円 の
つ の 仮 説H0,H2は
したが っ
て, H0:θ=0,
と再 表 現 で き る.帰
無 仮 説H0の
H2:θ
対 立 仮 説H2に
>0
(12.30)
対 す る エ フ ィシ ェ ン ト ・ス
コアは
(12.31) と な る.こ
こ で, γ=(d1>d2,...,dK)t/d
で あ る.帰 無 仮 説 の 下 で は,ス
コ アUκ0の
分 散 はFisher情
(12.32)
報 量 で あ るか ら ,
(12.33) と な る.し
た が っ て,ス
コ ア検 定 統 計 量 は
(12,34) と な る.こ
の 検 定 は 「Poisson trend検
利 用 す る と,次
定 」 と い わ れ て い る.こ
の ス コア を
の 2種 類 の 集 積 性 の 検 定 統 計 量 が 構 成 で き る(Tango,1995):
図12.5
近 さの 尺 度 を 表 す 関 数 ακh(λ)の 形状
(12.35) も し,事 前 に わ か っ て い る 危 険 地 域 が m 地 域 Ω={κ0,κ1,...,κm-1}
あ れ ば,そ
れ ぞ れ の 危 険 地 域 の 重 み(例
ら の 総 排 出 量 に 比 例 し た 量)を
え ば,ご
み 焼 却 施 設 で あ れ ば,煙
ω κ(κ ∈ Ω)と 設 定 し,そ
と す る と こ の 統 計 量 は 一 つ のfocuscd ω κ=γ
(12.36)
testと
κ-pκ,κ=1,...,K
突か
れ 以 外 は,ω
κ=0
な る . 一 方,
(12.37)
と観 測 相 対 度 数 と期 待 相 対 度 数 の 単 純 な 差 を と る と 一 つ のglobal test
(12.38) と な る.さ
て,こ
れ ら を 統 一 的 に ベ ク ト ル 表 現 で 整 理 し て み る と,次
に な る.そ
の 前 に, Aλ=(α
κ.h(λ))
の よ う
w=(wl,w2,...,wK)t
と お く.ま
ず,漸
(12.39)
近的 に
(12.40) と な る.こ
こ で,
vp=△(p)-ppt △(p):ベ
(12.41)
ク トル p を 対 角 成 分 とす る 対 角 行 列
が 成 立 す る. 1) focused
test
Cλ=wtAλ(r-p)
(12.42)
Var(Cλ)=wtAλVpAλw/d
(12.43)
Z=Cλ/Var(Cλ)∼N(0,1) 2) global
(12.44)
test
(12.45) p値 は 次 の 近 似 式 で 計 算 で き る(Tango,1990).
(12.46) こ こ に,χ2vは 自 由 度 vのx2分 E(dCλ)=
布 に 従 う確 率 変 数 で あ り,
tr(AλVp)
Var(dCλ)=2tr(AλVp)2
(12.47)
(12.48)
(12.49) (12.50) で あ る(Searle,1971).
こ こ まで は 年 齢 な ど の 交 絡 因子 は 無 視 して きた が,そ 記 の 式 で,次
の よ う に 置 き換 え れ ば よい.交
の 調 整 の た め に は,上
絡 因 子 の 第 j層 に お い て,
(12.51) κ=1,...,K;j=1,...,J
と し,次
(12.52)
の よ う に す れ ば よ い.
(12.53)
(12.54) こ こ で,パ
ラ メ ー タ λ は,ク
さ(ほ ぼ 最 大 距 離)の
ラ ス タ ー(集
積 が み られ る 地 域 群)の
大き
尺 度 で あ り,そ れ 以 上 の 距 離 に あ る 任 意 の 二 つ の 地 域
は ク ラ ス ター と は 考 え な い.し
た が って,λ
を小 さ く設 定 す れ ば 大 き な ク ラ
ス タ ー は 検 出 力 が 低 く,反 対 に λ を大 き く設 定 す れ ば 小 さ な ク ラ ス タ ー は 検 出 力 が 低 くな る.実 際,事
前 に 存 在 す る ク ラ ス タ ー の 大 き さ を予 想 で き る わ
け が な く(デ ー タを み た 後 で ク ラ ス ター の 大 き さ を 見 積 もっ て 検 定 を適 用 す る こ と は 事 前 の 選 択 バ イ ア ス に よ る 検 定 の 誤 用 で あ る),し 値 を い く通 りか に 変 え て 適 用 す る こ と に な るが,こ と な る.こ
たが っ て,λ
の
こに検定 の多重 性が 問題
の 問 題 を 回 避 す る た め に は λ を 連 続 的 に 動 か し て,λ
して の プ ロ フ ァ イル p値 の 曲 線 を 計 算 し そ の 最 小 値Pminを
の関 数 と
検 定 統 計 量 とす
る こ とが 考 え られ る(Tango,1999b):
(12.55) こ こ にcλ は あ る λ に 対 す る 統 計 量 の 実 現 値 で あ り,λ*が 最 小 値 を 達 成 す る 値 で あ る.実 際 の 計 算 に は λ を小 刻 み に 変 化 させ て 最 小 値 を探 す 一 次 元 探 索 法 で 簡 単 に 計 算 で き る.Pminの ミュ レ ー シ ョ ン に よ り計 算 す る.な
帰 無 仮 説 の 下 で の 分 布 はMonte Carloシ お,λ
(dmax=調
の値 は
査 地 域 間 の 最 大 距 離)
(12.56)
の 範 囲 で 変 化 させ れ ば 十 分 で あ ろ う. も し,global testで 有 意 な 集 積 性 が 認 め ら れ た 場 合 に は,ク 心 と し て(最
も)疑
われ る地域 は
ラス ターの 中
(12.57) ま た は,
κ地 域 の 寄 与 率 (12.58) の 値 が 他 に 比 べ て,大
き く飛 び 離 れ て い る こ とが 期 待 され る.
さて,global testを 高 知 県 の 表12.1の
デ ー タに 適 用 して み よ う.Windows
上 で 統 計 ソ フ トS‐Plusを 利 用 し て 解 析 し た 結 果 を 図12.6に
示 す.画
側 は コ マ ン ド の操 作 画 面 と計 算 結 果 の 表 示 画 面 で あ る が,画
面 の左側 に二つ
の 図 が 示 され て い る.左
図12.6
Tangoの
の 図 は x軸 を λ に し た プ ロ フ ァ イ ル p値 で あ り,λ
集積 性 の 検 定.Windows上
て い る 画 面.画
面 の右
で 統 計 ソ フ トS‐Plusを
利 用 して 解 析 し
面 の 右 側 は コ マ ン ドの 操 作 画 面 と計 算 結 果 の 表 示 画 面.画
左 側 に 二 つ の 図 が 示 され て い る.左 で あ り,右 の 図 は,各
地 域(region
面の
の 図 は x 軸 を λ に した プ ロ フ ァ イ ル p値 IDが
x 軸)の
寄 与 率(%)を
表示す る図
の 値 が 最 小 の と き に p 値 が 最 小 値 を と っ て い る.つ の 隣 接 地 域 で 発 生 し て い る の で は な く,散 し て い る.図
の 図 は,各
地 域(region
ID=1(高
知 市)が
あ り,高
IDが
x 軸)の
断 然 ト ッ プ で,次
ミュ レ ー シ ョン で 調
度 に 有 意 な 集 積 性 が み ら れ た.右 表 示 し て い る.region
にregion ID=2(室
の 結 果 は 図12.2(c)に
empirical Bayes推
定 の 結 果 と 一 致 し て い る.付
近 の 他 の 研 究 はLawson
Carloシ
寄 与 率(%)を
び 離 れ て い る.こ
き のglobal testのS‐Plusプ
ラ ス ターが 複 数
発 的 に発 生 し て い る 可 能 性 を 示 唆
上 に も 記 載 さ れ て い る が,Monte
整 さ れ た p 値 はPmin=0.006で
ま り,ク
戸 市)も
や は り飛
示 す と お り で あ り,図12.3(b)の 録B.9に
ロ グ ラ ム を 掲 載 し た.疾 et al.(1999)に
は λ を 固 定 した と
病 の 集 積 性 に 関 す る最
ま と め ら れ て い る.
練習問題 [問 題12.1]
式(12.5)を
導 け : Var(log SMRκ)=1/dκ
[問 題12.2]
式(12.30)の
仮 説H0のH2に
対 す る ス コ ア 検 定 が 式(12.34)で
与 え ら れ る こ と を 示 せ. [問 題12.3]
式(12.47)-(12.50)を
[問 題12.4]
式(12.45)のglobal
検 出 力 が 小 さ く,urban [問 題12.5]
導 け.
areaの
testの
testに
で 仮 定 し た 各 地 域 の 相 対 危 険 度(=1+ω す れ ば,帰
集積性 の
集 積 性 に は 検 出 力 が 大 き い こ と を 示 せ.
疾 病 集 積 性 のfocused
(λ11,...,λ1κ)と
検 定 統 計 量 はrural areaの
お い て,式(12.26)の κ,κ0θ)が,実
対 立 仮 説H1
は 既 知 で,そ
無 仮 説H0:λ01=...=λ0κ=1に
対 す る最強
力検 定 は
の 型 と な る こ と を 証 明 せ よ(ヒ
ン ト:Neyman‐Pearson
れ を,
lemma利
用).
付 録 A:最
A.1
尤
推
定
尤 度 に 基 づ くモ デ ル
尤 度 に 基 づ くモ デ ル とは,観 測 され る デ ー タの 同 時 確 率 密 度 関 数 が 指 定 され て い る統 計 モ デ ル を さ す.い ま,観 測 され た デ ー タ(確 率 変 数)yi,i=1,...,n は そ れ ぞ れ 独 立 で あ り,確 率 分 布(密 度 関 数)〓(yi;θ)が 仮 定 さ れ て い る と し よ う.こ れ は パ ラ メ ー タ θ=(θ1,...,θq)
を 固 定 し た 下 で の y の 関 数 と 考 え た も の で あ る.こ
の 関 係 を逆 に し て y を
固 定 し て パ ラ メ ー タ θ の 関 数 と 考 え た も の を 尤 度(likelihood),尤 (likelihood function)と ま ず,1
度 関数
よ び 一 般 に L(θ)と 表 す.
組 の 独 立 な デ ー タy=(y1,...,yn)が
与 え られ る 同 時 確 率 密 度 は
と な る か ら,尤 度 関 数 は
(A.1) と な る.こ imum
の 尤 度 関 数 を 最 大 に す る パ ラ メ ー タ θ の 値 θ は 最 尤 推 定 量(max-
likelihood estimator)と
よ ば れ る.
最 尤 推 定 量 を実 際 に 求 め る に は,尤 る た め,対
度 関 数 を直 接 取 り扱 う こ とが 面 倒 で あ
数 を と っ た 対 数 尤 度 関 数 の 最 大 値 を考 え る.
ι(θ)=logL(θ) 最 尤 推 定 量 は い わ ゆ る 正 則 条 件(regularity conditions)が に 漸 近 的 な 正 規 性,一 に 一 致 す る な ど,最
致 性 を 有 し,か つ,そ
(A.2)
満 た され る 場 合
の 分 散 がCramer-Raoの
下 限値
良 の 性 質 を もつ 推 定 量 と して よ く利 用 され る.主
な正則
条 件 を 以 下 に 示 す. 1)確 率 密 度 関 数 は 識 別 可 能 で あ る,す 〓(y│θ1)≠
な わ ち,θ1≠
θ2で あ れ ば,
〓(y│θ2)
で あ る.
2)パ ラ メ ー タ空 間 は 有 限 次 元,閉 換 え れ ば,境
集 合,か
つ,コ
ンパ ク トで あ る,言
い
界 上 で 起 こ る面 倒 な 問 題 を 除 外 す る 条 件 で あ る.
3)三 次 ま で の 対 数 尤 度 の 偏 微 分 は 連 続 で 有 界 で あ る. 4)尤 度 の偏 微 分 に お い て,微 分 と積 分 の 順 序 が 変 更 可 能 で あ る こ と.つ ま り,デ ー タ yが θ に 依 存 す る よ う な場 合 を 除 外 す る条 件 で あ る.デ ー タが パ ラ メー タ に 依 存 して い る 応 用 例 は 2章 で 議 論 され て い る. こ こで は,最
尤 推 定 値 θ が パ ラ メ ー タ空 間 の 内 点(interior point)で
境 界 上 に は な い 場 合 だ け を考 え る.そ
の 解 と し て 求 め られ る.こ
あ り,
の と き,そ れ は 次 の 連 立 偏 微 分 方 程 式
の 連 立 方 程 式 を ベ ク トル 表 示 で 表 現 す る と
(A.3) と な る.こ
こ に,∪(θ)は
最 尤 推 定 量 に は,上
エ フ ィ シ ェ ン ト ・ス コ ア(efficient score)と
記 の 正 則 条 件 の 下 で,真
い う.
の パ ラ メ ー タ θ0へ の 漸 近 正 規
性 か つ 一 致 性(consistency),
(A.4) が あ る.こ
こに
(A.5)
はFisher情
報 行 列(Fisher
information
の 一 致 推 定 量 が 必 要 と な る が,そ
matrix)と
い う.実
れ に は,
1)最 尤 推 定 値 θ で 評 価 し たFisher情
報 量IF(θ)
2)期 待 値 を外 し て 最 尤 推 定 値 θ で 評 価 したHessian推 の 二 つ が よ く利 用 され る.ま
際 の計 算 に は こ
た,連
立 方 程 式 の 解,す
定 量 H(θ)
な わ ち,最 尤 推 定 値 は
一 般 に は 非 線 形 方 程 式 と な る .そ の 場 合 に は,一 次 ま で のTaylor展 て 得 られ る反 復 計 算 の 分 散 推 定 にHessian推
開に よっ
定 量 を 用 い たNewton‐Raphson
法, θ(κ+1)=θ(κ)+H(θ(κ))-1U(θ(κ)) も し くは,Fisher情
報 量 を 用 い たFisherの
(A.6)
ス コ ア 法(score method),
θ(κ+1)=θ(κ)+IF(θ(κ))-1U(θ(κ))
(A.7)
で 求 め るの が 一 般 的 で あ る.
A.2 漸 近 的 に 同 等 な三 つの 検 定 統 計量
尤 度 に 基 づ くモ デ ル に 関 す る 仮 説 検 定 に 関 して は そ の 理 論 が よ く知 ら れ て い る.中
で も三 つ の 漸 近 的 に 同 等 な 検 定 法 「尤 度 比 検 定,Wald検
ア 検 定 」 は よ く利 用 され る.こ
こ で は,仮
定,ス
コ
説 を よ り一 般 化 して 次 の も の を 考
え よ う.
こ こ に,α
は γ ×1(γ
∂α(θ)/∂θtのrankは,帰
<q)の
H0:α(θ)=0
(A.8)
H1:α(θ)≠0
ベ ク ト ル で あ る.こ
こ で,γ
×q行
(A.9) 列 で あ る
無 仮 説 の パ ラ メ ー タ に課 せ られ た γ個 の 制 約 が 独
立 で あ る 必 要 か ら,
(A.10) で な け れ ば な ら な い.例
え ば,q=4.γ=2で, θ1=0,
θ3=0
と い う 2個 の 制 約 を 入 れ る 場 合 に は α(θ)=(θ1,θ3)t
と な る.こ
こ で,後
の 説 明 の た め に,
θγ: γ個 の 独 立 な 制 約 が 課 せ られ た 帰 無 仮 説 の 下 で の 最 尤 推 定 量 と し よ う. さて,以
下 に 説 明 す る 三 つ の 検 定 統 計 量 は い ず れ も漸 近 的 に 自 由 度 γの χ2
分 布 に 従 う. 1)尤 度 比 検 定(likelihood
ratio test)統
計 量
帰 無 仮 説 の 下 で の 尤 度 と対 立 仮 説 の 下 で の 尤 度(制
約 の な い)と
の
比 を 考 え る:
(A.11) 帰 無 仮 説 が 正 し け れ ば,こ
の 比 は ほ ぼ 1に 近 づ く.尤 度 比 検 定 統 計 量
と は こ の 比 の 対 数 を と っ て,(-2)倍 X2LR=-2(ι(θ 2)Wald検
定(Wald
test)統
し た 統 計 量 で あ る: γ)-ι(θ))
(A.12)
計量
この 統 計 量 は 帰 無 仮 説 が 正 しけ れ ば,対
立 仮 説 の 下 で(制 約 な し に)
推 定 され た α(θ)で も 0 に 近 くな る こ とが 期 待 され る 性 質 に 注 目 し た も の で あ る.つ
ま り,漸 近 的 に平 均 0 分 散 V(次 式 の{}の
中)の 正 規
分 布 に 従 う性 質 を 利 用 し た もの で あ る.
(A.13) モ デ ル に よ って は,分
散 推 定 のFisher情
量 H(θ)に 置 き換 え られ る.こ
報 量IF(θ)がHessian推
の統 計量 の 特徴 は 対 立仮 説の 下で の最
尤 推 定 量 だ け で 計 算 で き る 点 で あ る.つ の 最 尤 推 定 値 を 計 算 し て お け ば,い
ま り,最 大 モ デ ル の 制 約 な し
ろい ろ な検定 仮 説の計 算が 便 利で
あ る. 3)ス
コ ア 検 定(score test)統
こ の 統 計 量 は,制
定
計量
約 の ない最 尤推 定 量が
∪(θ)=0
を 満 た す の で あ れ ば,帰
無 仮 説 が 正 し い 場 合 に は,そ
の制 約付 きの最
尤 推 定 量 θγに お い て も上 の ス コ ア ・ベ ク トル は 0 に 近 くな る と期 待 さ れ る こ と に 注 目 し て い る.つ
ま り,∪(θ γ)が 漸 近 的 に 平 均 0,分 散
IF(θ γ)の正 規 分 布 に 従 う性 質 を 利 用 し た もの で あ る. -1
2
X SC=Ut(θ
γ)I F
(θγ)U(θ γ)
(A.14)
この統 計 量 の特徴 は帰 無仮 説 の下 の最 尤推 定量 だ けで計 算で きる点が 便 利で あ る. こ の 三 つ の 検 定 統 計 量 の 中 で は,帰
無仮 説 の下 で の推定量 だけで構 成で きる
ス コ ア 検 定 の 応 用 範 囲 は 実 に 広 く,多 Cochran‐Armitage検 例 で あ る.手 equivalence
く の 検 定 手 法 が 生 ま れ て い る.例
定,Mantel‐Haenszel検
前 み そ で は あ る が,薬
定 などはその一
剤 の 同 等 性 を 検 証 す る 臨 床 試 験(clinical
trial, non‐inferiority trial)が
シ ェ ン ト ・ス コ ア を 用 い て,同
定, log‐rank検
え ば,
最 近 話 題 と な っ て い る が,エ
フ ィ
等 性 を 検 証 す る 方 法 論 が 著 者 ら に よ って 最 近
提 案 さ れ て い る(Yanagawa,Tango
and Hiejima(1994),Tango(1998)).
A.3
信
頼
区
間
最 尤 法 に よ る信 頼 区 間(confidence interval)の 構成 法 は い くつ か 考 え られ るが,最
も 簡 単 な の が 最 尤 推 定 量 の 漸 近 正 規 性 を利 用 し たWaldの
り,例 え ば,母
数 θjの95%信
方 法で あ
頼 区 間が θj±1・96SE(θj)
(A.15)
で 推 定 で きる.対 数 尤 度 曲線 を直 接 用 い て 信 頼 区 間 を構 成 す る方 法 が 「profile 尤 度(profile likelihood)に 小 標 本 で 性 質 が よ い.こ
よ る信 頼 区 間 」 と よば れ る 方 法 で, Wald法
より
の 方 法 の 詳 細 と応 用 例 が 2章 で 紹 介 され て い る の で
参 照 され た い. こ の 他 の 方 法 と し て は,エ
フ ィシ ェ ン ト ・ス コ ア を 利 用 す る 方 法,局
対 す る 十 分 統 計 量 を 利 用 し た 条 件 付 き 尤 度 を 構 成 す る 方 法,bootstrapに 方 法 な ど が あ る.こ Efron(1987)な
れ ら は こ こ で は 省 略 す る.McCullagh
ど を 参 照 さ れ た い.
外母数 に よる
and Nelder(1989),
A.4
統 計 学 的 推 測 に お い て,あ 分 布,漸
デ
ル
タ
法
る推 定 値 の 関 数 と し て 定 義 され る統 計 量 の 漸 近
近 分 散 を 導 出 す る こ とは 重 要 で あ る.そ の ツ ー ル と し て デ ル タ法(δ
method)は
よ く利 用 され る.最
尤 推 定 値 に 限 る こ と な く,式(A.4)と
同様 な
漸 近正規 性
(A.16) が 成 立 す れ ば,微 対 し て,Taylor展
分 可 能 な 関 数(K×q行
列)〓(θ)=(〓1(θ),...,〓K(θ))tに
開 の 一 次 近 似 を 利 用 し て,次
の 漸近 正 規 性 が 成 立 す る こ
と を 利 用 す る も の で あ る.
(A.17)
付 録 B:S‐Plusプ
ロ グ ラ ム他
B.1
# appendix
B.1 (Figure 2.2,2.3)
# # Input:ts=data
vector
# sta=starting
date
#
xmin=min
of x-axix
#
xmax=max
of x-axis
#
dens=max
of y-axis
#
hh=width
adjustment
#
factor for line search
Example
# H8 Okayama
ken
ts<-c(rep(24,6),rep(25,43),rep(26,56),rep(27,87),rep(28,60),rep(29,50), rep(30,16),rep(31,31),rep(32,27),rep(33,11),rep(34,26),rep(35,5)) sta<-19;xmin<-20;xmax<-40;dens<-0.3;hh<-10
# par(mfrow=c(1,2)) jj<-floor(min(ts*hh))-1;st<-sta*hh:q<-st:jj ind<-(st:jj)/hh; for(s
n<-length(ts)
in st:jj){
ss<-s/hh;y<-log(ts-ss);m1<-mean(y);v<-var(y) q[s-st+1]<-n*(log(v)+2*m1)*(-1/2)
}
plot(ind,q,type="b",pch=1,xlab="gamma",
ylab="log
abline(h=max(q)-1.92);sol<-ind[q==max(q)]; x1<-st+(jj-st)/5*2;
L**(gamma)")
pos<-(max(q)+min(q))/2
x1<-x1/hh
x2<-st+(jj-st)/5*3.5;x2<-x2/hh text(x1,pos,"Exposure
time
low95<-min(
=");
ind[q>max(q)-1.92]
text(x2,pos,sol) );upp95<-max(
ind[q>max(q)-1.92]
w<-(max(q)-pos)/6 text(x1,pos-w,"95%
lower
text(x1,pos-w*2,"95% sk<-sum(
bound=");
upper
(ts-mean(ts))^3
text(x2,pos-w,low95)
bound=");
)/(sum(
text(x2,pos-w*2,upp95)
(ts-mean(ts))^2
mu<-mean(log(ts-sol)) sigma<-sgrt( linf<-
var(log(ts-sol))*(n-1)/n
-n/2*log(
var(ts)*(n-1)/n
lgn<-max(q)-n/2*(1+log(2*3.141593)) soln<-floor(sol*10)+1 #
) )
))^1.5*sqrt(n)
)
z<-(soln:(xmax*10))/10 plot(z,dlnorm(z-sol,mu,sigma),type="1",xlim=c(xmin,xmax),ylim=c(0,dens), ylab="relative
frequency(%)".xlab="date")
w<-(xmin:xmax)+0.5;h<-1 r<-hist(ts,breaks=w,plot=F);k<-xmax-xmin for(i
in 1:k)(
a<-c(w[i],w[i],w[i+1],w[i+1],w[i]) b<-c(0,r$count[i],r$count[i],0,0);lines(a,
b/n/h)
B.2
# appendix
B.2 (Table
4.1)
# CITY RAIN EDUC POPD NONW NOX SO2 MORT
akronOH albanyNY allenPA
36 11.4
3243
8.8
35 11.0
4281
3.5
44
9.8 4260
15 59
921.9
10 39 997.9
0.8
6 33
atlantGA
47 11.1
3125
27.1
8 24 982.3
baltimMD
43 9.6 6441
24.4
38 206 1071.0
birmhmAL
53 10.2
3325
38.5
32 72 1030.0
bostonMA
43 12.1
4679
3.5 32 62 934.7
bridgeCT
45 10.6
2140
5.3
4 4 899.5
bufaloNY
36 10.5
6582
8.1
12 37 1002.0
cantonOH
36 10.7
4213
chatagTN
52 9.6 2302
22.2
chicagIL
33 10.9
6122
16.3
cinnciOH
40 10.2
4101
13.0
26 146
clevelOH
35 11.1
3042
14.7
21 64 986.0
colombOH
37 11.9
4259
13.1
9 15 958.8
dallasTX
35 11.8
1441
14.8
1 1
daytonOH
36 11.4
4029
12.4
4 16 936.2
denverCO
15 12.2
4824
4.7
8 28
871.8
detrotMI
31 10.8
4834
15.8
35 124
959.2
flintMI
6.7 7 20
962.4
912.3
8 27 1018.0 63 278 1025.0 970.5
860.1
30 10.8
3694
13.1
4 11 941.2
ftwortTX
31 11.4
1844
11.5
1 1
891.7
grndraMI
31 10.9
3226
5.1 3 10
871.3
grnborNC
42 10.4
2269
22.7
971.1
hartfdCT
43 11.5
2909
7.2 3 10 887.5
houstnTX
46 11.4
2647
21.0
5 1
indianlN
39 11.4
4412
15.6
7 33 968.7
kansasMO
35 12.0
3262
12.6
4 4 919.7
lancasPA
43 9.5 3214
2.9 7 32
losangCA
11 12.1
7.8 319 130
861.8
louisvKY
30 9.9 4474
13.1
37 193
989.3
memphsTN
50 10.4
3497
36.7
18 34 1006.0
miamiFL
4700
3 5
952.5
844.1
60 11.5
4657
13.5
1 1
861.4
milwauWI
30 11.1
2934
5.8
23 125
929.2
minnplMN
25 12.1
2095
2.0
11
857.6
nashvlTN
45 10.1
2082
21.0
newhvnCT
46 11.3
3327
8.8 3 8
26
14 78 961.0 923.
)
neworlLA
54 9.7 3172 31.4
newyrkNY
42 10.7 7462 11.3 26 108 994.6
17 1 1113.0
philadPA
42 10.5 6092 17.5 32 161 1015.0
pittsbPA
36 10.6 3437 8.1 59 263 991.3
portldOR
37 12.0 3387 3.6 21 44 894.0
provdcRI readngPA
42 10.1 3508 2.2 4 18 938.5 41 9.6 4643 2.7 11 89 946.2
richmdVA
44 11.0 3768 28.6 9 48 1026.0
rochtrNY
32 11.1 4355 5.0 4 18 874.3
stlousMO
34 9.7 5160 17.2 15 68 953.6
sandigCA
10 12.1 3033 5.9 66 20 839.7
sanfrnCA
18 12.2 4253 13.7 171 86 911.7
sanjosCA
13 12.2 2702 3.0 32 3 790.7
seatleWA
35 12.2 3626 5.7 7 20 899.3
springMA
45 11.1 1883 3.4 4 20 904.2
syracuNY
38 11.4 4923 3.8 5 25 950.7
toledoOH
31 10.7 3249 9.5 7 25 972.5
uticaNY 40 10.3 1671 2.5 2 11 912.2 washDC
41 12.3 5308 25.9 28 102 968.8
wichtaKS
28 12.1 3665 7.5 2 1 823.8
wilmtnDE
45 11.3 3152 12.1 11 42 1004.0
worctrMA
45 11.1 3678 1.0 3 8 895.7
yorkPA 42 9.0 9699 4.8 8 49 911.8 youngsOH
38 10.7 3451 11.7 13 39 954.4
CITY:ア
メ リカ合衆国 60の 主要都市名
RAIN:年
平均降雨量
EDUC:25歳
以上の 人の学歴年 数の中央 値
POPD:人
口密度
NONW:人
口に占める非白人の割 合
NOX:平
均一、二酸化窒素濃度
SO2:平
均二酸 化硫 黄濃度
MORT:全
死 因年 齢調整死 亡率(/110,000人)
B.3
# appendix
B.3
( Figure
4.1 )
# par(mar=c(10,10,10,10)) # full
model
regression
n<-60 p<-6 out1<-glm(mort-rain+educ+popd+nonw+lnox+lso2) res<-Sum(
out1$residual^2
)
tau2<-res/(n-p-1) # # 3-independent-variables
regression
p<-3 out2<-glm(cp$mort-educ+nonw+lso2) mat<-cbind(edac,nonw,lso2) hate<-hat(
mat
)
# #residual res<-sum(
sum of squares out2$residuals^2
)
# unbiased
error
variance
s2<-res/(n-p-1) # standardized
residuals
stres<-out2$residuals/sqrt(s2) # plot:y
value
vs.fitted
y value
plot(mort,out2$fitted.value,xlim=c(800,1200), ylim=c(800,1200),pch=1, xlab=“MOST",ylab=“Fitted
value
of MOST")
abline(0,1) # Mallows's
Cp
xcp<-res/tau2+2*(p+1)-n #Akaike's
AIC
xaic<-n*log(res/n)+2*(p+1) #R^2 xr2<-1-res/var(mort)/(n-1) # adjusted
R^2
xrs2<-1-s2/var(mort) #Allen's
cross
validation
xcv<-sum(((mort-out2$fitted.value)/(1-hate))^2)/n #display
the results
on the plot
text(830,1180,“R"2=");text(880,1180,xr2) text(960,1180,“adjusted
R^2=”);text(1040,1180,xrs2)
text(830,1150,“Mallows
Cp=");text(900,1150,xcp)
text(970,1150,“Akaike
AIC=");text(1030,1150,xaic)
text(1100,1150,“Allen
CV=");text(1160,1150,xcv)
B.4
# appendix
B.4
(Figure
5.1,
5.2,
5.3)
#
kana<-scan(“hand.s",list(x=0,y=0)) par(mar=c(6,9,6,9)) infix <-1:20 sx2<-var(kana$x) sy2<-var(kana$y) sxy<-var(kana$x,kana$y) mx<-mean(kana$x) my<-mean(kana$y) beta0<-(sy2-sx2+sqrt((sy2-sx2)^2+4*sxy*sxy))/2/sxy alpha0<-my-mx*beta0 plot(kana$x,kana$y,pch=1,xlim=c(0,40),ylim=c(0,40), xlab=“Heelstick
Method",ylab="Umbilical
abline(alpha0,beta0,lty=1,col=2)
beta<-rep(0,nb) alpha<-rep(0,nb) for(i
in 1:nb){
ind<-sample(indx,replace=T) xx<-kana$x[ind] yy<-kana$y[ind]
Catheter
Method")
sx2<-var(xx) sy2<-var(yy) sxy<-var(xx,yy) mx<-mean(xx) my<-mean(yy) beta[i]<-(sy2-sx2+sqrt((sy2-sx2)^2
+4*sxy*Sxy))/2/sxy
alpha[i]<-my-mx*beta[i] abline(alpha[i],beta[i],lty=i,col=i) } cx<-qnorm(length(beta[beta<=beta0])/nb) p1<-pnorm(-1.96+2*cx) P2<-pnorm(1.96+2*cx) betaL<-quantile(beta,pl)
# confidence
limits
for beta
betaU<-quantile(beta,p2) # cx<-qnorm(length(alpha[alpha<=alpha0])/nb) p1<-pnorm(-1.96+2*cx) p2<-pnorm(1.96+2*cx) alphaL<-quantile(alpha,p1)
# confidence
limits
for
alpha
alphaU<-quantile(alpha,p2)
B.5
# appendix
B.5
(Figure8.3)
# # Newton
Raphson
method:Weibul
distribution
censored
# # u<-g(x):dLog(L)/d
beta
# v<-dg(x)/dx:d^2Log(L)/d^2beta # # Variables:cans(=c),eta # par(mar=c(7,10,7,10)) tt<-surv$day[surv$st==1]
# event
発生のケースの生存時間
zz<-surv$day;z<-zz # r<-length(tt);n0<-length(zz) eps<-0.0001;x0<-1;xl<-2;x<-x0 yy<-matrix(0,20,2);fpp<-matrix(0,2,2) i<-0 while(abs((x1-x0)/x0)>eps)( i<-i+1 a<-sum(zz^x);b<-sum(zz^x*log(zz));ap<-b bp<-sum(zz^x*log(zz)*log(zz)) h<-1/x+mean(log(tt))-b/a;hp<--1/x/x-
bp/a+(b/a)^2
# x0<-x;x<-x-h/hp;x1<-x e<-(sum(zz^x)/r)^(1/x) ff<-r*log(x/e)+(x-1)*sum( yy[i.1]<-x1;yy[i,2]<-ff
log(tt/e))-sum( }
# cans<-x;g<-x;eta<-(sum(zz^x)/r)^(1/x);e<-eta fpp[1,1]<--r/g/g-sum(
(z/e)^g*(log(z/e))^2)
(zz/e)^x)
case
fpp[1,2]<-
-r/e+sum((z/e)^g*(1/e+g/e*log(z/e)))
fpp[2,1]<-fpp[1,2] fpp[2,2]<-r*g/e/e-sum(g*(g+1)/e/e*(z/e)^g) v<-solve(-fpp);var<-c(v[1,1],v[2,2]) # se<-sgrt(var)
# s.e.of
estimates
ouf<-surv.fit(surv$day.sarv$st) plot.surv.fit(ouf,conf.int=F) li<-(1:195)*8/365 lines(li,exp(-(li/eta)^cans),lty=2) text(600/365,0.6,"Weibull
survival
text(300/365,0.35,"Kaplan‐Meier
curve") survival
curve")
B.6
# appendix
B.6
( Figure
8.4)
# # Newton
Raphson
# Weibul
method
proportional
hazard
model
# # u<-g(x)
:dLog(L)/d
# v<-dg(x)/dx
beta
:d^2Log(L)/d^2
beta
# #
Variables:g(=c),e(=eta),b(=beta)
# r<-length(surv$day[surv$st==1]) tj<-surv$day[surv$st==1] xj<-surv$grp[surv$st==1] x<-surv$grp;z<-surv$day # eps<-0.0001;nn<-150;fold<-c(0.5,2,0.2);fpp<-matrix(0,3,3) xx<-matrix(0,nn,4);fp<-1:3 for(i
in l:nn){
# g<-fold[1];e<-fold[2];b<ifold[3] fp[1]<-r/g+sum(log(tj/e))-sum(
exp(b*x)*(z/e)^g*log(z/e))
fp[2]<-
-r*g/e+sum(
exp(box)*g/e*(z/e)^g
fp[3]<-
sum(xj)-sum(x*exp(b*x>*(z/e)^g
fpp[1,1]<-
-r/g/g-
fpp[1,2]<-
-r/e+sum(
sum(
fpp[1,3]<-
-sum(
) )
exp(b*x)*(z/e)^g*(log(z/e))^2) exp(b*x)*(z/e)^g*(l/e+g/e*log(z/e)))
x*exp(b*x)*(z/e)^g*log(z/e))
fpp[2,1]<-fpp[1,2] fpp[2,2]<-r*g/e/e-sum( fpp[2,3]<- fpp[3,1〕
exp(b*x)*g*(g+1)/e/e*(z/e>^g)
-sum(x*exp(b*x)*(g/e)*(z/e)^g) <-fpp[1,3]
fpp[3,2]<-fpp[2,3] fpp[3,3]<- fnew
-sum(
x*x*exp(b*x)*(z/e)^g
)
<- fold-solve(fpp)%*%fp*0.2
ff<- r*log(g/e)+(g-1)*sum(
iog(tj/e)
)+sum(
xx[i,1]<-fnew[1]:xx[i,2]<-fnew[2];xx[1,3]<-fnew[3];xx[i,4]<-ff fold<-fnew } g<-fnew[1];e<-fnew[2];b<-fnew[3]
b*xj
)-sum(exp(b*x)*(z/e)^g)
ouf<-surv.fit(surv$day,surv$st,
surv$grp)
plot.surv.fit(ouf,conf.int=F) li<-(1:100)*8/365 lines(li,exp(-(li/e)^g).lty=2) li<-(1:195)*8/365 lines(li,(exp(-(li/e)^g))^exp(b),lty=2) text(3.4,0.5,“Treatment
Group")
text(3,0.2,“Placebo
Group")
B.7
# appendix
B.7
(Figure
10.6,10.7)
# # There
are
3 functions:lga(),lgb(),
arsal()
# par(mfrow=c(3.2)) #data
input
x<-c(1.691,1.724,1.755,1.784,1.811,1.837,1.861,1.884) z<-(x-mean(x))/sqrt(var(x)) n<-c(59,60,62,56,63,59,62,60) m<-c〈4,10,19,31,52,53,60,60) # FUNCTION:log‐likelihood
for
alpha
lga<-function(alp,bet,sda,z,n,m){ th<- alp+bet*z sum(
m*th-n*log(1+exp(th)))
-(alp^2)/2/sda/sda
} # FUNCTION:
log‐likelihood
for
beta
lgb<-function(alp,bet,sdb,z,n,m){ th<- alp+bet*z sum(
m*th-n*log(1+exp(th))
) -(bet^2)/2/sdb/sdb
} # FUNCTION
: adaptive
# initial
abscissae
rejection
sampling
: ( mu,xab(i),
for
i=1,...,mu
arsal<-function(mu,xab,pb,sd,z,n,m){ jk<-0;u2<-1;rat<-0 while(u2>rat){ jk<-jk+1;h<-1:mu st<-1:(mu-1)
;ss<-1:(2*mu-2);xc<-1:(2*mu-3)
yy<-1:(2*mu-3);cu<-1:(2*mu-2);ff<-1:(2*mu-2) # xx<-sort(xab) for(i
in l:mu){
h[i]<-lga(xx[i],pb,sd,z,n,m) for(i
)
in 1:(mu-1)){
st(i]<-(h[i]-h[i+1]}/(xx[i]-xx[i+1]) ss[1]<-st[1];ss[2]<-st[2] for(i
in 2:(mu-2)){ ss[2*i-1]<-
st[i-1]
ss[2*i]<-
st[i+1]
}
ss[2*mu-3]<-st[mu-2];ss[2*mu-2]<-st[mu-1] # xc[1]<-xx[1] for(i
in 2:(mu-2)){
xc{[2*i-2]<-xx[i] xc[2*i-1]<-(h[i+1]-h[i]+st[i-1]*xx[i]-st[i+1]*xx[i+1])/
}
alpha )
(st[i-1]-st[i+1])
}
xc[2*mu-4]<-xx[mu-1];xc[2*mu-3]<-xx[mu] # cu[1]<-h[1]-st[1]*xx[1];cu[2]<-h[2]-st[2]*xx[2] for
(i in 2:(mu-2)){
cu[2*i-1]<-h[i]-st[i-1]*xx[i] cu[2*i]
<-h[i+1]-st[i+1]*xx[i+1]
}
cu[2*mu-3]<-h[mu-1]-st[mu-2]*xx[mu-1] cu[2*mu-2]<-h[mu]-st[mu-1]*xx[mu] # yy[1]<-st[2]*xx[1]+cu[2] for
(i in 2:(mu-2)){
yy[2*i-2]<-h[i] yy[2*i-1]<-ss[2*i-1]*xc[2*i-1]+cu[2*i-1]} yy[2*mu-4]
<-h[mu-1]
yy[2*mu-3]<-ss[2*mu-3]*xx[mu]+cu[2*mu-3] # s<-0 ff[1]<-exp(ss[1]*xc[1]+cu[1])/ss[1] for
(i in 2:(2*mu-3)){
ff[i]<-
exp(cu[i])*(exp(ss[i]*xc[i])-exp(ss[i]*xc[i-1]))/ss[i]
s<-s+ff[i]] ff[2*mu-2]<-
-exp(ss[2*mu-2]*xc[2*mu-3]+cu[2*mu-2])/ss[2*mu-2]
s<-s+ff[1]+ff[2*mu-2] for
(i in 1:(2*mu-2)){
ff[i]<-ff[i]/s
}
fg<-rep(0.2*mu-2) for
(i in 1:(2*mu-2)){
for
(j in 1:i){
fg[i]<-fg[i]+ff[j]
)
} # u<-runif(1,0,1);
xprob<-0;
i<-O
while(u
{ i<-i+1;
xprob<-fg(i])
> xprob)
k<-i ud<-ifelse(k>1,
u-fg[k-1],u)
aaa<-ifelse(k>1,exp(ss[k]*xc[k-1]),0) xget<-log(aaa+s*ud*ss[k]/exp(cu[k]))/ss[k] u2<-runif(1,0,1) t1<-lga(xget,pb,sd,z,n,m) t2<-ss[k]*xget+cu[k] rat<-exp(t1-t2) # # plot
only
for Figare
10.7
# xid<-c(xc,1,5) plot(xid,fg,pch=1,type="b") text(1.0,0.5,"Uniform text(1.5,0.5, text(1.0,0.4,"
U
=")
u2) g/Env(g)
= ")
text(1.5,0.4,ratio) text(1.0,0.3,"Random
sample
text(1.5,0.3,xget) plot(xx,h,pch=1,type="b",ylim=c(-230,-150)) lines(xc,yy,pch=2) text(1.0,-220,jk,col=2) #
= ”)
xab<-c(xab,xget) mu<-mu+1 xget } }
# main
program
mu<-6;xab<-1:mu xab[1]<-
-0.5;xab[2]<-0.0;xab[3]<-0.5
xab[4]<-1.0;xab[5]<-1.5;xab[6]<-2.0 # initial
values
for alp,bet,sda(sd
of alpha)
sda<-1.0;alp<-2;bet<-2.5 # galp<-arsal(mu,xab,bet,sda,z,n,m)
B.8
# appendix
B.8
( Figure
10.8
)
# # input
(a0,sda,b0,sdb)
start<-date() niter<-2000;mg<-500;mgg<-1500 k<-25;batchs<-20;id<-1:niter fal<-matrix(0,k,batchs);fa2<-matrix(0,k,
batchs)
fbl<-matrix(0,k,batchs);fb2<-matrix(0,k,
batchs)
mfal<-rep(0,k);mfa2<-rep(0,k) mfbl<-rep(0,k);mfb2<-rep(0,k) a<-rep(0,niter);b<-rep(0,niter) a[1]<-a0;b[1]<-b0;alp<-a0;bet<-b0 x<-c(1.691,1.724,1.755,1.784,1.811,1.837,
1.861,1.884)
z<-(x-mean(x))/sqrt(var(x)) n<-c(59,60,62,56,63,59,62,60) m<-c(4,10,19,31,52,53,60,60) xab<-1:4;mua<-4;yab<-1:5;mub<-5 xab[1]<-
-1.0;xab[2]<-0.0;xab[3]<-1.0;
xab[4]<-
2.0
yab[1]<-0.0;yab[2]<-1.0;yab[3]<-2.0;yab[4]<-3.0;yab[5]<-4.0 # for
(i in 2:niter){
alp<-arsal(mua,xab,bet,sda,z,n,m) a[i]<-alp bet<-arsbe(mub,yab,alp,sdb,z,n,m) b[i]<-bet } par(mfrow=c(2,2)) plot{id,a,type="1",ylab="alpha",xlab="iteration") ga<-a[id>=mg+1];hist(ga,30) plot(id,b,type="1",ylab="beta",xlab="iteration") gb<-b[id>=mg+1];hist(gb,30) be<-mean(gb)/sqrt(var(x));al<-mean(ga)-be*mean(x) # for
(j in 1:k){
for
(s in 1;batchs){
fa1[j,s]<-a[s+(j-1)*batchs+mg];fa2[j,s]<-a[s+(j-1)*batchs+mgg] fb1[j,s]<-b[s+(j-1)*batchs+mg];
fb2[j,s]<-b[s+(j-1)*batchs+mgg]
}}
for
(j in 1:k)( mfa1[j]<-mean(fa1[j,]):
mfa2[j]<-mean(fa2[j,])
mfb1[j]<-mean(fb1[j,]);mfb2[j]<-mean(fb2[j.])} ea1<-mean(mfa1);va1<-var(mfa1);ea2<-mean(mfa2);va2<-var(mfa2) eb1<-mean(mfb1);vb1<-var(mfb1);eb2<-mean(mfb2);vb2<-var(mfb2) z1<-(ea1-ea2)/sqrt((va1+va2)/k);z2<-(eb1-eb2)/sqrt((vb1+vb2)/k) end<-date()
B.9
# appendix
B.9 ( This is a ‐Plus function
for disease clustering
)
# cluster.test<-function(freq,p,mc){ # # input=freq:Observed
frequency
#
For example,you
#
for time clustering.
can set:freq<-c(4,3,4,4,4,7,
# input=p:Multinomial
parameter
2,3,11,9,8,3)
vector under null hypothesis
# Default values are "equal probabilities". # input=mc:
User defined closeness
#
See paper (Tango, Statistics
#
Defaut values are set only for time clustering
# # #
-4 (dij/lambda)^2)
can be recommended
However,the
#
in Medicine
14, 2323‐2334, 1995). and they are
Exp(-| i-j |).
Usually,Exp(
#
measure A
or Exp( -dij/lambda
for spatial clustering
selection of "lambda"
)
problems.
is not so easy and depends
on the cluster size to be investigated.
# output variables
are as follows
# $c.stat C for temporal
clustering
(Tango,1984,1990)
# $c.pval Prob{C>c} # $g.stat
G for temporal
and spatial clustering
( Tango,1995
)
# $g.pval Prob(G>g)
# nn<-sum(freq);lenn<-length(freq) if (missing(p))
p<-rep(1/lenn,ienn)
if {missing(mc))( mc<-matrix(0,lenn,lenn) for
(i in 1:lenn)
mc[i,j]<-exp(
( for
(j in 1:lenn)
-abs(i-j) )
)
} ac<-mc;pp<-matrix(p);w<-diag(p)-pp%*%t(pp):q<-freq/nn # ... Tango(1984)+Tango(1990)....Test
for temporal
#
in homogeneous
clustering populations
g<-q%*%ac%*%t(q) eg<-p%*%ac%*%t(p)+sum(diag( vg<-(
ac%*%w
))/nn
4* p%*%ac%*%w%*%ac%*%t(p)+2/nn*sum(diag(
skew<-8*(
ac%*%w%*%ac%*%w
+ (1/nn)*sum(diag(ac%*%w%*%ac%*%w%*%ac%*%w))
) / sqrt(nn)
/ (nn*vg)**1.5
df<-8/skew**2 tc<-(g-eg)/sgrt(vg) pval<-1-pgamma((df+tc*sqrt(2*df))/2, # ....
)) )/nn
3* P%*%ac%*%w%*%ac%*%w%*%ac%*%t(p)+
Tango(1995)
# ......................
.....
df/2)
Test
for
temporal
in heterogeneous
and
spatial
populations
clustering
g2<-(q-p)%*%ac%*%(q-p) eg2<-
+sum(diag(
vg2<-2/nn*sum(diag(
ac%*%w
))/nn
ac%*%w%*%act*%w
))/nn
skew2-8*((1/nn)*sum(diag(ac%*%w%*%ac%*%w%*%ac%*%w)))/sqrt(nn)/(nn*vg2)**1.5 df2<-8/skew2**2 tc2<-(g2-eg2)/sgrt(vg2) pva12<-1-pgamma((df2+tc2*sqrt(2*df2))/2,
df2/2)
list(c.stat=tc,c.pval=peal,g.stat=tc2,
g.pval=pea12,p=p)
}
文
献
1) Agresti,A.Categorical
Data
2) Akaike,H.Information
theory
2nd INt.Symp.Information 3) Allen,D.M.Mean
Analysis,
John
Wiley
and an extension Theory,Akademia
square
& Sons,New
York(1990).
of the maximum
principle.Proc.
Kiado,Budapest,267‐281(1973).
error of prediction
as a criterion
of selecting
variables.
Technometrics,13,469‐475(1971). 4) De Boor,C.A
Practical
Guide
to Splines,Springer‐Verlag,New
5) Bishop,Y.M.M.,Fienberg,S.E.and MIT
York(1978).
Holland,P.W.Discrete
Multivariate
Analysis,
press,Cambridge,Mass.(1975).
6) Bowman,A.W.and Oxford
Azzalini,A.Applied Smoothing
Science
Techniques
for Data
Analysis,
Publications,London(1997).
7) Breiman,L.The
little bootstrap
regression:x‐fixed
prediction
8) Breslow,N.E.Covariance
and other methods
for dimensionality
selection
in
error.J.Amer.Statist.Assoc.,87,738‐754(1992).
analysis
of censored
survival
data.Biometrics,30,89‐99
(1974). 9) Breslow
N.E.and
Clayton
D.G. Approximate
inference
in gexieralized
linear mixed
models.J.Amer.Statist.Assoc.,88,9‐25(1993). 10)
Cleveland,W.S.Robust
locally‐weighted
regression
and smoothing
scatterplots.J.
Am.Statist.Assoc.,74,829‐836(1979). 11)
Cohen,A.C.Three‐parameter Applications,eds.E.L
Estimation.In Crow
Lognormal
and K.Shimizu,New
Distribution‐Theory
Ybrk,Marcel
and
Dekker,113‐137
(1988). 12)
Cook
R.D.Influential
observations
in linear regression.J.Amer.Statist.Assoc.,74,
169‐174(1979). 13)
Cox,D.R.Regression
models
and life tables(with
discussion).J.Roy.Statist.soc.,
B seraes,34,187‐220(1972). 14)
Cox,D.R.Partial
15)
Efron,B.Bootstrap
likelihood.Biometrika,62,269‐276(1975). methods:another
look at the jackknife.Ann.Statist.,7,1‐26,
1979. 16)
Efron,B.Better
bootstrap
confidence
intervals.(with
discussion).J.Amer.Stdtist.
Assoc.,82,171‐200,1987. 17)
Efron,B.and
Tibshirani,R.J.An
Introduction
to the Bootstrap,Chapman
& Hall,
London(1993). 18)
Fleeting,T.R.and Wiley
19)
Harrington,D.P.Counting
Process
and Suruival
Analysis,John
& Sons(1991).
Friedman,J.H.and
Stuetzle,W.Projection
pusuit
regression.J.Amer.Statist.
Assoc.,76,817‐823(1981). 20)
Gelman
A.and
Rubin,D.B.Inference
sequences.Statistical 21)
Gail,M.and
from
iterative
simulation
using
multiple
Science,7,457‐472(1992).
Simon,R.Testing
for qualitative
interactions
between
treatment
effects and patient 22)Gilks,
W.R.and
subsets.
Biometrics,41,361‐372(1985).
Wild,P.Adaptive
rejection
sampling
for gibbs sampling.Applied
Statistics,41,337‐348(1992). 23)Gilks,W.R.,Richardson,S.and Carlo
Spiegelhalter,D.J.(eds).Markov
in Practice,Chapman
24)Hardle,W.and
Bowman,A.W.Bootstrapping
adaptive
smoothing
Chain
Monte
& Hall, London(1996).
and
in nonparametric
confidence
bands.J.Arner.
regression:local
Statist.Assoc.,83,102‐110
(1988). 25)Hardle,W.and
Marron,J.S.Bootstrap
simultaneous
error bars for nonparametric
regression.Ann.Statist.,19,778‐796(1991).
26)Hastie,T.and
Tibshirani
R.Generalized
Additive
Models,Chapman
& Hall,Lon
don(1990). 27)Hastings,W.K.Monte
Calro
sampling
methods
using
Markov
Chains
and their
applications.Biometrika,57,97‐109(1970). 28)Hjorth,U.On
model
selection
in the computer
age.J.Statist.Pldnn.Inference,
23,101‐115(1989). 29)Hjorth,U.Model
selection
and forward
validation.Scarxd.J.Statist.,9,95‐105
(1982). 30)Iino,S.,Tango,T.,Matsushima,T.et
Neo‐Minophagen atology
C by different
Research,In
Wiley
Prentice & Sons,New
32)Kaplan,E.L.and
doses on chronic
on therapeutic hepatitis
effect of Stronger
and liver cirrhosis.
Hep
press(2000).
31)Kalbfleisch,J.D.and John
al. Study
R.L.The
Statistical
Analysis
of Faihcre
Time
Data,
York(1980).
Meier,P.Nonparametric
estimator
from incomplete
observations.
J.Amer.Statist.Assoc.,53,457‐481(1958). 33)Kulldorff,M.and Statistics
Nagarwalla,N.'Spatial
34)Lawson,A.et Wiley
clusters:detection
and inference',
al.Disease
Mappting
and Risk Assessment
for Public
Health,John
& Sons,London(1999)
35)McCullagh,P.and man
disease
in Medicine,14,799‐810(1995).
J.A.Nelder.Generalized
Linear
Models,Second
edition,Chap
and Hall,London(1989).
36)Mallows,C.L
Some
remarks
of Cp.Technometrics,15,661‐675(1973).
37)Metropolis,N.,Rosenbluth,A.W., Equations
Rosenbluth,M.N.,Teller,A.H.and
of state calculations
by fast computing
Teller E.
machine.J.Chem.Phys.,21,
1087‐1091(1953). 38)Nelder,J.A.and
Wedderburn
R.W.M.
Generaliyed
linear models.J.R.Statist.
Soc.,A.135,370‐384(1972).
39)Peto,R.and log rank
Pike
MC.Conservatism
test for survival
data
of the approximation(O-E)2/E on tumor
incidence
in the
data.Biometrics,29,579‐584
(1973). 40)Searle,S.R.,Casella,G.and & Sons,London(1992).
McCulloch,C.E.Variance
Components,John
Wiley
41)
Spiegelhalter,D.J.,Dawid,A.P.,Lauritzen,S.L.and in expert
42)
systems(with
Cowell,R.G.Bayesian
discussion).Statistical
Spiegelhalter,D.J.,Thomas,A.,Best,N.and ence
using
Gibbs
Unit,Institute Stone,M.Asymptotic
Akaike's
44)
Stone,R.A.Investigation
Gilks,W.R.BUGS:Bayesian
sampling,Version
of Public
43)
analysis
Science,8,219‐283(1993).
0.50,Medical
Health,Cambridge equivalence
Research
Infer
Council
Biostatistics
University(1995).
of choice
of models
by cross‐validation
and
criterion.J.Roy.Stdtist.Soc.B,39,44‐47(1977).
statistical
of excess
problems
and proposed
45)
Stuart,A.and
edition,Griffin,London(1987).
46)
Stuart,A.and
edition,Griffin,London(1991).
environmental
test,Statistics
Ord,K.Kendall's Advanced
Ord,K.Kendall's
47)
Tango,T.A
diseases,Statistics
48)
Tango,T.Comparison
and Risk Assessment
Advanced
risks around
putative
sources:
in Medicine,7,649‐660(1988).
Theory
of Statistics,Volume
1,Fifth
Theory
of Statistics,Volume
2,Fifth
class of tests for detecting'general'and'forcused'clustering
of rare
in Medicine,14,2323‐2334(1995). of general for Public
tests for disease Health,(Lawson
clustering,in
Disease
Mapping
et al.eds),111‐117,John
Wiley
&Sons,London(1999). 49)
Tango,T.A
test for spatial disease
clustering
adjusted
for multiple
testing.Statis
tics in Medicine,19,191‐204(2000). 50)
Tango,T.Equivalence
for the paired‐sample
51)
test and confidence design.Statistics
Yanagawa,T.,Tango,T.,and
equivalence
or more
interval
Hiejima,Y. than equivalence
for the difference
in proportions
in Medicine,17,891‐908(1998). Mantel‐Haenszel
in comparative
type tests for testing
clinical trials.Biometrics,50,
859‐864,(1994). 52)
丹 後 俊 郎.測
定 誤 差 を 考 慮 に い れ た 線 形 関 係 式 ― 測 定 法 の 比 較 の た め の 統 計 学 的 方 法 ―,
臨 床 病 理,36,1101‐1108(1988). 53)
丹 後 俊 郎.死
亡 指 標 の 経 験 的 ベ イ ズ 推 定 量 に つ い て ― 疾 病 地 図 へ の 適 用 ―.応
用 統 計 学,17,
81‐96(1988). 54)
丹 後 俊 郎,山
岡 和 枝,高
55)
宮 原 英 夫,丹
後 俊 郎 編.医
56)
丹 後 俊 郎.潜
木 晴 良.ロ
ジ ス テ ィッ ク 回 帰 分 析.朝
学 統 計 学 ハ ン ド ブ ッ ク,朝
倉 書 店,1996.
倉 書 店,1995.
伏 期 間 に 対 数 正 規 分 布 を 仮 定 し た 集 団 食 中 毒 の 曝 露 時 点 の 最 尤 推 定 法,日
本
公 衛 誌,45,129‐141(1998). 57)
今 井 淳.高 平 成10年
58)
知 県 に お け る 疾 病 の 地 域 集 積 性 に つ い て ‐ 死 亡 指 標 の 評 価 と 疾 病 地 図 へ の 応 用 ‐, 度 国 立 公 衆 衛 生 院 特 別 課 程 疫 学 統 計 コ ー ス ・調 査 研 究 報 告 書,57‐96(1998).
ダ イ オ キ シ ン 類 関 連 健 康 調 査 検 討 委 員 会,茨 イ オ キ シ ン 類 関 連 健 康 調 査 報 告 書,平
城 県 保 健 福 祉 部,城
成11年9月(1999).
取 清 掃 工 場 周 辺 住 民 の ダ
索 引
Box‐Cox変
A accelerated
換 79
burn‐in
bias corrected
method
sample
C
percentile
29
acceptance
probability
adaptive
rejection
adjusted
odds
159
sampling
ratio
AkaikeのAIC規
171
87
of covariance
analysis
of deviance
ANOVA法
link function data
central 189 83
115
conditional
68
換 79
autoregressive
model
225 likelihood
―bootstrap consistency data
balanced
design
bandwidth
190
constant
188
94
156,222
baseline
hazard
Bayesの
定 理 142,209
crude
Bayesモ
デ ル 155
cubic spline
Bayesian
126
error
63
モ デ ル 130
critical value function
11,225
26
systematic
Coxの
212
interval
―profile
balanced
20
log‐log変
―Wald法
B
78
limit theorem
confidence
factor
77
116
complementary
192,197
attenuation
parameter
canonical
censoring
準 50
analysis
canonical
censored
準 44
AllenのCV規
4
cross validation
50
mortality
rate
205
100
141,207
Bayesian階 BCパ
165,168
層 的Poisson回
D
帰 モ デ ル 212
ー セ ン タ イ ル 法 28
BCa法
29
bias corrected bootstrap bootstrap信
percentile
method
18,68,74,102
sample
bootstrap
simulation
DAG
146
DAR
205
deviance
頼 区 間 26
bootstrap
28
directed
21
directly 21
disease
82 acyclic graph age‐adjusted clustering
146 death
213
rate
205
disease
map
dispersion
203
parameter
I
77
E
improper
prior
independence efficient score empirical
average
error
143,209
interaction
158
interpolation
Bayes
ergodic
informative
132,222
expected
life
expected
residual
Fisher
182 99 158
J
life 117
Jackknife推
matrix
fixed‐effects(model) test
222 Kaplan‐Meier推
141,156,187,188
213,216
frequentist
140,156
full conditional
distribution
定 値 29
K
報 量 121,133,215,222,223 information
focused
116
117
F
Fisher情
161
censoring
irreducible
62
143
sampler
定 値 123
kernel
smoother
knots
99
94
167
L
G law of large numbers GAM
LD50
106,109
generalized
additive
model
generalized
inverse
generalized
linear model:GLIM
Gibbs
sampling
global test
195
169,175
213,216
Greenwoodの
light tailed
109
公 式 124
75
164
likelihood
8,221
likelihood
function
likelihood
ratio test
heavy
10,224
relationship
linear predictor
78
linear structural link function
hazard
221
linear functional
linear relationship
H
156
75
line
67
66
relationship
67
78
ratio
127
locally weighted
average
tailed
165
locally weighted
linear regression
Hessian推
loess
定 量 223
hierarchical model
conditional
independent
97
log‐normal log‐rank検
145
distribution 定 135,136
HjorthのCMV規
準 54,55
loss function
hyper
143
lowers
paremeter
94
97
145
8
96
Poisson分
M
布 204,209,214
Poisson
trend検
posterior MallowsのCp規
準 40
Mantel‐Haenzsel検 marginal
chain(連
Markov
chain Monte
maximum
鎖)
MCMC
159
mean
square
104 75
ML法
rate
ル ゴ
150,156,188
random‐ffects(model) random
walk
reference 93
N prior
144
distribution
Newton‐Raphson法
210
120,128,133,223
146
noninformative
censoring prior
nonparametric回 nuisance number
143
127
192,194,197
residual
194
residual
maximum
residual
sum
likelihood
of squares
(residual
running
mean
running
median
sum
194
39
of squres)
39
93 93
帰 モ デ ル 93
parameter
S
77,130
of patients
numerical
116
222 170
hazard
RSSp
non‐informative
86
sampling
REML法
binomial
162
conditions
relative
conjugate
141,156,187
sampler
category
regularity rejection
node
85
R
リ ズ ム 159
161
average
negative
184,186
approach
161
192,197
natural
interaction
150
sampler
moving
63
Q
9,221
quasi‐likelihood
mixed‐effects(model) mixing
error
136
159
qualitative
Metropolis‐Hastingsア Metropolis
10
systematic
proportionality
estimator
error
meta‐analysis
proportional
156
lethal dose
median
194
Carlo
likelihood
141
profile likelihood
likelihood
Markov
141
prior distribution
定 135
maximum
定 215
distribution
standard
at risk
118
errors
158
sampler
159,161
scaled
O
deviance
score method score test
over‐dispersion
85,152,167,173
secant
224
method
sensitivity
P
81 223
171
analysis
single‐component smoother
partial likelihood penalized
residual
Poisson回
帰 76,89
131 sum
― of squares
99
60 Metropolis‐Hastings
93
の 自 由 度 96
smoothing
93,152
smoothing
splines
98
167
疑 似 尤 度法 85
SMR
205
spatial
smoothing
standardized
mortality
standard
error
surrival
analysis
基 準 カテゴ リー 86
212 ratio
152,205
規 準 ハ ザ ー ド関 数 126 期 待 死 亡数 205
18
共 分 散 分析 189
116
共 変 量 189 T
局 所 重 み付 き線形 回帰 96 局 所 重 み付 き平均 94
tie
131
空 間smoothing
U
213
空 間 平 滑 化 212 ク ラ ス タ ー 218
unbalanced
data
183,190,196
ク ロ ス ・バ リ デ ー シ ョ ン 50,104 ク ロ ス ・モ デ ル ・バ リデ ー シ ョ ン 55
V 交 互 作 用 182,184,198 variance
function
交 絡 因 子 218
77
誤 差 62
W
50%致
死 量 75
混 合 効 果 モ デ ル 150,156,188 Wald
test(検
Weibull分
布
定)133,224
サ 行
17,119
ア 行
再 帰 的 158 採 択確 率 159
一 致 性 156 一 般 化 加 法 モ デ ル 106 一 般化
最 尤推 定 量 9,221 ,109
最 尤 法 192
逆 行 列 195
残 差 194 打 ち 切 りデ ー タ 116
残 差最 尤 法 194 残 差平 方 和 39
エ フ ィ シ ェ ン ト ・ス コ ア 132,134,215,222,
225 エ ル ゴ ー ド平 均 158
事後 分布 141,209 指 数分 布 119 施 設 間差 182
重 み 付 き回帰 分 析 206
自然 共役 144 事 前分 布 141,209
カ 行
質 的交 互 作 用 186 疾 病 地 図 203,204
階 層 的 条件 付 き独立 モ デ ル 145
疾 病 の地 域 集 積性 213
感 度 分 析 60
死 亡率 204
ガ ンマ 分布 209
自由 度調 整 寄 与率 45
自 由度 調 整 重相 関 係 数 45
ノ ー ド 146
周辺 最 尤 法 194 周辺 尤 度 209,211
ハ 行
条件 付 き 自己 回帰 モ デ ル 212 ハ ザ ー ド 関 数 116
信頼 区 間 11
ハ ザ ー ド比 127 ス コ ア 検 定 133,215,224 ス コ ア 法 80,223
標 準 化死 亡 比 152,205 標 準 誤差 18
制 限付 き最 尤法 194
比 例 ハザ ー ド回帰 モ デ ル 126
正準 母 数 77
比 例 ハザ ー ド性 136
正則 条 件 12,222
頻 度論 者 156
生存 関数 116 節 99
負 の 二項 分 布 210
線形 関係 66
フル 条件 付 き分布 167,177
線形 予 測 子 78 部 分 尤度 131 相対 ハ ザ ー ド 127
分 散 関数 77
粗死 亡 率 205
分 散 分析 191
損失 関数 144
分 散 分析 法 192 分 布 の裾 が 重 い 165
タ 行
分 布 の裾 が よ り軽 い 164
タ イ 131 対 称sampler
プ ロ ビ ッ ト変 換 79 161
対 数 正 規 分布 8
プ ロ フ ァ イル 対 数 尤 度 10 プ ロ フ ァ イ ル p 値 218
大 数 の 法 則 156 正 し くな い 事 前 分 布 143
平 均 2乗誤 差 103 平 均 寿命 117
中央 値 18 中心 極 限 定 理 20
平 均余 命 117 ペ ナ ル テ ィ付 き残 差 平方 和 99
調 整 オ ッズ比 87
変 量 効果 モ デ ル 141,156,187
超 パ ラ メー タ 143 散 らば りの 母数 77
補 間 99
治 療 と施 設 との 交 互作 用 182 母 数 効 果 モ デ ル 141,156,187 独 立sampler
162
ナ 行
マ 行
年 齢 調整 死亡 率 205
無 情 報事 前 分布 143
量 的 交互 作 用 184
ヤ 行 尤 度 8,221
臨床 試 験 181
ラ 行
尤 度 関 数 221 尤 度 比 検 定 10,133,186,224
離散分布 5
ロ ジ ス テ ィッ ク 回 帰 76,88,155,175
著 者 略歴
丹後俊郎 1950年 北 海道 に生 まれ る 1975年 東京 工業大 学大学 院理工 学研 究科修 了 現
在 国立保 健医療 科学 院 ・技術 評価 部部 医学博 士
医学統 計学 シリーズ 2
統 計 モ デ ル 入 門 2000年
定 価 はカバ ーに表示
2 月20日 初 版第 1刷
2008年10月10日
第 7刷
著 者
丹
発行者
朝
発行所
株式 会社
後
俊
郎
倉
邦
造
朝 倉
書 店
東 京都 新宿 区新小 川町 6‐29 郵 便 番 号162‐8707 電 話03(3260)0141
FAX03(3260)0180 http://www.asakura.co.jp
〈検 印 省 略 〉 C2000〈 ISBN978‐
無断 複写 ・転 載 を禁 ず 〉 4‐254‐12752‐
2 C3341
三 美印刷 ・渡辺 製本 Printed
in Japan