統計モデル入門 (医学統計学シリーズ)

序統計モデル(statistical model)は,見かけの変動を示すデータの中に埋没している本当の姿を把握する重要なツールであると考 ...

Author: 丹後俊郎

101 downloads 343 Views 8MB Size Report

This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!

Report copyright / DMCA form

DOWNLOAD PDF

序

統計モデル(statistical model)は,見

かけの変動を示すデータの中に埋

没している本当の姿を把握する重要なツールであると考えることができる. ここ20年

間の間に,実

際の問題解決をめざしたさまざまな新しい統計モデ

ルがコンピュータの進歩・普及とともに急速に進歩してきた. 伝統的な最尤法は依然としてその応用範囲は広いが,個

体差など考慮した

変量モデルが普及するにつれて登場する制限付き最尤法,理難な状況でも推測のバラツキを評価できるbootstrap,モするクロス・バリデーション・情報量規準,正分布に拡張した一般化線形モデル,パ

論的な展開が困

デルの良さを評価

規線形モデルをより広い確率

ラメトリックな関数を指定することな

く,データに語らせるノンパラメトリック回帰モデル,Gibbs samplingにづくMarkov chain Monte Carlo法を利用したBayesianモ

基

デル,個体毎にあ

るイベントの発生とその共変量を経時的に観測した回帰モデル(longitudinal data analysis)において個体内相関構造を特定する必要のない一般化推定方程式法,な

どコンピュータを駆使した新しい方法が続々と生まれてきている.

本書の主要な目的は,「統計モデルの面白さ」,「統計モデルの基礎」,「代表的な方法の原理」を具体的事例を通して解説することにあるが,そ同時に,読

者が「計算」できることを目指している.プ

ヒットを打つことが自信につながるのと同じように,自ことがわかると自信と興味につながるからである.ま

れと

ロ野球選手でもまず分で「計算できる」

た,本

書では,い

くつ

かのトピックスを交えながら,上記の新しいモデルを紹介し,なぜこのような「モデル」が必要なのか,ど

のようなアイデアの下に誕生してきたのかな

どについても入門的な解説を行う.ただ,longitudinal data analysisの統計モデルの詳細に関しては,そ

の内容の豊富さ,他の章とのバランス ,から残

念ながら本書では割愛した. また,具

体的事例の統計解析にはS‐Plusを

者はS‐Plusの

広報担当ではないけれども,新

利用させて頂いた.な

試行錯誤の道具として,ま

た,学

のソフトとしてもS‐Plusは

にも筆

会発表,論

しい方法論を創造するための文発表用の図表を作成するため

まことに便利であるからである.欧

米において,

S‐Plusを利用した研究論文・テキストが増加していることはその便利さを雄弁に物語っている. 本書はまた,こ

こ数年の慶應義塾大学理工学部での講義テキストをベース

に再構成したものであり,大学の学部・大学院における統計モデル,応計学に関する授業でのテキストとして利用できるよう,例題,練

用統

習問題を適

宜配備し,それなりの工夫を凝らしたつもりである. 本書によって「統計モデル」の面白さを実感し,統計学に興味を覚える読者が少しでも増えれば幸いである. 2000年

１月

丹後俊郎

S‐Plusに

日本では,デる.S‐Plusに

ついて

ータの統計解析のためのソフトとしてSAS,SPSSな

その特徴はなんといっても,統

計手法・統計モデルを芸術的な感覚でvisualに

作できる便利なツールといえることにある.問

(株)数

どが有名であ

も他のソフトに優るとも劣らない統計解析機能が備わっているが,

理システム,S‐PLUSグ

い合わせは下記へ.

ループ,Tel:(03)3358‐6681

創

目次

１. トピックス Ⅰ：新記録の誕生と競技水準の向上

１

1.1 考え方

１

1.2 新記録の数の確率分布

２

練習問題

３

２. トピックス Ⅱ ：病原性大腸菌O‐157に 2.1 は

じ

め

に

よる集団食中毒

６６

2.2 データをみる目

７

2.3 統

８

計

モ

デ

ル

2.4 尤度関数と最尤推定値

８

2.5 対数正規分布

９

2.6 最尤推定値は最小値?

12

2.7 適

13

用

例

2.8 なぜ対数正規分布

16

練習問題

16

３. Bootstrap― 3.1 は

じ

め

中央値の標準誤差を求める?

18

に

19

3.2 古典的な統計学的推測

19

3.3 Bootstrapに

よる推測

20

3.4 Bootstrap信

頼区間

26

3.4.1

パーセンタイル法

27

3.4.2

BC

法

3.4.3

BCa

法

27

28

練習問題

32

４. モデルを比較する 4.1

は

じ

め

35

に

36

4.2 MallowsのCp規

準

36

4.3 AkaikeのAIC規

準

40

4.4 自由度調整重相関係数

44

4.5 よく見かける変数選択法

46

4.6 AllenのCV規

49

4.7

準

モデル選択の例No.１

4.8 HjorthのCMV規 4.9

51

準

モデル選択の例No.２

54

56

練習問題

58

５. 測定誤差のある線形モデル― 5.1 誤

差

測定法の比較

61 62

5.2 正確度の評価の基本

63

5.3

63

測定法の比較

5.3.1 線形回帰式と線形関係式

65

5.3.2

68

Bootstrapに

よる推測

5.3.3 繰り返し測定のある場合

練習問題

72

６. 一般化線形モデル(GLIM) 6.1

は

じ

70

め

に

75 75

6.2 GLIMの

三つの特徴

77

6.3 最

推

79

尤

定

6.4 モデルの適合度の評価

81

6.5

Analysis

6.6

Over‐dispersion

84

6.7 回帰係数の解釈

86

6.8 適

of deviance

用

例

83

88

練習問題

91

７. ノンパラメトリック回帰モデル

92

7.1 基本的アイデア

93

7.2 局所重み付き平均 ―kernel

smoother

94

7.3 局所重み付き線形回帰 ―loess 7.4

スプライン関数の利用 ―smoothing

7.5 Smootherの

バラツキとsmoothingパ

96 splines ラメータ

98 102

7.6 一般化加法モデル ―GAM

106

練習問題

111

8. イベント発生までの時間の長さに関するモデル

114

8.1 生存時間の確率分布

116

8.2 生存関数の推定

118

8.2.1

パラメトリック法

119

8.2.2

ノンパラメトリック法

121

8.3

比例ハザード回帰モデル

126

8.3.1

パラメトリックモデル

128

8.3.2

Coxの

130

8.3.3

log‐rank検

９. Bayes推

モデル ―

測

定

伝統的統計学

140 141

9.3 無情報事前分布後

133

140

Bayesian

9.4 事

9.1 Frequentist― 9.2

セミパラメトリックモデル

分

布

142

144

9.5 階層的条件付き独立モデル

145

9.6 応

149

用

例

練習問題

10.

153

Markov

chain

Monte

Carlo法

155

10.1

期待値の計算

155

10.2

Markov連

156

10.3

Metropolis‐Hastingsア

10.4

２種類のsampler

10.5

収

10.6

Single‐component

10.7

Gibbs

鎖

束

診

ルゴリズム

159 161

断

165

MH法

166

sampling

169

11. トピックス Ⅲ:多

施設共同臨床試験における施設間差

181

11.1

治療効果のモデル

182

11.2

Balanced

190

dataで

の推測

11.2.1

分散分析(ANOVA)法

11.2.2

最

11.2.3

制限付き最尤(REML)法

尤(ML)法

11.3

Unbalanced

11.4

解

192

dataで

析

例

192

194

の推測の留意点

196

197

練習問題

200

12. トピックス Ⅳ:疾 12.1

は

じ

12.2

問題

めの所

病地図と疾病集積性に

在

202 202

203

12.3 年齢調整でも不十分

205

12.4

207

Bayesian

approach

12.4.1

Empirical

12.4.2

Bayesian

Bayes hierarchical

209 model

212

12.5 疾病の集積性

213

練習問題

220

付録Ａ:最

尤

推

定

221

A.1 尤度に基づくモデル

221

A.2 漸近的に同等な三つの検定統計量

223

A.3

信

頼

区

間

225

A.4

デ

ル

タ

法

付録Ｂ:S‐Plusプ

ログラム他

226

227

文

献

238

索

引

241

１トピックス Ⅰ: 新記録の誕生と競技水準の向上

世界大会,オ

リンピックなどで,多

で塗り変えられているが,こであろうか?

くの競技種目の記録が年々「新記録」

れは選手・競技の水準が向上している結果なの

水準に向上が全くなくとも,何

年かすると必ず更新される,

すなわち「新記録」が生まれることも確かのように思われる. そこで,こ

こでは,最近のスポーツの世界での新記録のデータから,本当

に競技水準が向上していると言えるのかどうか?を

統計学的に検討してみ

よう!

1.1考

まず,あ

え

方

る競技種目に関する毎年の最高記録を考える.その記録が初めて

とられた年を時点ｌとしよう.もちろん,最

表1.1

1975年

から1985年

初の年の最高記録は新記録であ

までの陸上競技における新記録の数

る.そ

こで,次

帰無仮説H0:競

の帰無仮説を考えよう: 技の水準に変化がなく,各年の最高記録が同じ分布に従う

この帰無仮説の下では,к 年目の最高記録が新記録となる確率は1/к となる. なぜなら,1,2,…

，κ年目のそれぞれの最高記録は同じ確率分布に従うので

あるから,どれが最大になるかはすべて,等確率であるからである.この現象を記述するために,次

Xκ=

の確率変数Ｘ

を導入しよう.

１,κ 年目の記録が新記録である

｛

０,κ 年目の記録が新記録でないこれらは,互

いに独立で, Pr{Xκ=1}=1/κ

Pr{Xκ=0}=(κ-1)/た

(1.1)

(1.2)

であり,それらの期待値と分散はそれぞれ,

(1.3)

(1.4)

1.2 新記録の数の確率分布

さて,以

上の準備より,ｎ年間の新記録の数Snは Sn=Xl+X2+…+Xn

であるから,そ

(1.5)

の期待値と分散が

(1.6)

(1.7) となる. さて,Ｓnの

確率分布は次のようにして求めることができる.い p(r,n)=Pr{Sn=r}

とおこう.{Sn=r}と

ま,

(1.8)

いう事象は

{Sn-1=γ-1か

つXn=1}U{Sn-1=rか

つXn=0}

という二つの排反な事象の和として表現されるから p(1,1)=1

(1.9)

(1.10) r=1,...,n;n=2,3,... という関係が成立する.た

だし,

p(0,n)=p(n+1,n)=0, とする.こ

こで,r=1と

n=1,2,...

(1.11)

すると,

(1.12) が得られる．つまり,p(1,n)はを表す.さ

て,こ

最初の年の記録がｎ年間更新されない確率

れ以降は次の練習問題をやりながら考えてみよう.

練習問題 [問題1.1]次

式を証明せよ.

(1.13)

[問題1.2]p(r,n)を{p(r-1,j):j=r-1,r,…,n-1}を

利用して求め

よ.

[問題1.3]あ

る競技の記録はここ25年

間更新されていない.こ

準に関しては向上がみられないと評価してよいか?

の競技の水

有意水準5%で

検定せ

よ.

[問題1.4]p(r,11),r=1,2,…,11を側5%の

コンピュータを利用して計算

棄却限界点(critical

し,上

value)s*

離散分布の上側5%の棄却限界点s* Pr{sn〓s*｝

〓0.05

Pr{Sn〓s*-1}＞0.05

を求めよ.そ

の際,作

成したプログラムとoutputも

図1.1

S‐Plusで

作成したp(γ,20)の

添付せよ．なお,プ

分布

ロ

グラムチェックのために,図1.1にS‐Plusで [問題1.5]表1.1の,1975年

から1985年

技の新記録の回数の成績に基づいて,競

作成したp(r,20)のまでの11年

分布を示す.

間に生まれた陸上競

技水準の向上に関する解説を行え.

２トピックスII: 病原性大腸菌O‐157に

表2.1は,平

よる集団食中毒

成８年５月岡山県邑久町の小学校で発生したO‐157に

団食中毒における発症日別度数分布である.感

よる集

染源への曝露時点はいつと推

定できるだろうか? 表2.1

平成８年５月岡山県邑久町の小学校で発生したO‐157:H7ににおける発症日別度数分布(市場,日

2.1

平成８年,大

よる集団食中毒

本医事新報,No.3785,26‐30,1996)

はじめに

阪で勃発した病原性大腸菌O‐157：H7に

よる食中毒の集団発

生は食中毒の恐ろしさを再認識させるとともに,当時の管厚生大臣の「貝割れ大根が感染原因でないことが否定できない」旨の発言によるカイワレ・パ

ニックは食中毒の感染原因特定の重要性とその困難性を浮き彫りにした.一般に,集

団食中毒の感染源の調査は,過去に食べた食品の細菌検査,症

発現した人と発現しない人で比較する喫食調査などが実施される.し事件が起きてから後ろ向きに行う調査であるだけに,時て,曝

状のかし,

間が経過するにつれ

露時点と感染源の特定に必要な決め手となる食品に関するデータが入

手困難となる.さ

らに,感度の低いといわれる細菌検査,大

部分の人が同じ

食事をとるという集団食中毒の性格から感染源を同定することは容易ではない.も

っとも,感染源が体内に入ってから１日もたたないで症状が現れる食

中毒では感染菌の混入した食事を特定することは比較的容易である. ところが,病

原性大腸菌O‐157の

場合は潜伏期間が１週間以上にもなる

厄介な代物なのである.１週間前に食べた食事の内容を明確に回答できる読者はどのくらいいるだろうか? り向けられが,医

一般の関心と調査の目は食品のほうにばか

療機関が中心となって実施する初発症状の問診調査に貴重

な情報が隠されていることは意外と知られていない.そ

れは「症状が発現し

始めた時期」である.

2.2

具体例として表2.1の

データをみる目

データをみよう.これは平成８年５月に岡山県邑久

町の小学校で発生した学校給食が感染源とみられるO‐157:H7に中毒事件の発症日の度数分布である.こが死亡している.こ

よる集団食

の食中毒事件では,脳症で児童２名

の表をどうみるかが鍵となるが,こ

のデータにはわれわ

れが知りたい未知の曝露時点からの症状発現までの潜伏期間の個人差に関する貴重な情報が入っている.感染しても,健康度,免

疫力の違いから,外部

の侵入者にすぐ負けて早々に発症する者もいれば,最

初のうちは抵抗してそ

の拡大を阻止していたが力尽きて発症する者,逆

に侵入者が打ち負かされて

発症しない強い者などさまざまである.この貴重なデータを上手に解析すれば曝露時点の候補をかなり絞りきれるかもしれない.

2.3

統計モデル

さて,この観察された潜伏期間の個人差の分布からどのようにO‐157に

集

団曝露した時点を特定するかが問題となるが,「潜伏期間の個人差」が１)ある確率分布に従う確率変数であり,２)表2.1が

その実現値である発症日の分

布である,という統計モデルを考えることができる．つまり,一斉に曝露した時点を γ,ある個人の発症日をＸとすればX-γ(〓0)の義される確率分布を適用するのである.そ

うすれば,問

分布に正値で定題は適用した確率分

布が観察されたデータに最も適合するようにパラメータ(曝露時点 γ と確率分布がもっているパラメータ)を推定する統計学的推測に帰着する. 感染症の潜伏期間としては古くから対数正規分布(log‐normal distribution) が利用されているのでここでもそれを適用してみよう:

(2.1) つまり,対数をとったln(X-γ)が

平均 μ,分散 σ2の正規分布に従うと仮

定するのである.

2.4 尤度関数と最尤推定値一般に確率変数Ｘの確率分布f(x;θ)は θ=(θ1,...,θp)

パラメータ

(2.2)

を固定した下でのｘの関数と考えたものである.この関係を逆にして,ｘにデータを入れてｘを固定してパラメータ θの関数と考えたものを尤度(likelihood) , 尤度関数とよび一般にL(θ)と

表す．つまり,データに適合しているもっと

もらしさの度合いであり,この尤度が最大となるパラメータの値がデータに最も適合しているといえる.大

きさｎの１組の独立な標本x=(x1,...,xn)

が与えられる同時確率密度関数は

となるから,尤

度関数は

(2.3) となる.こ

の尤度関数を最大にするパラメータの値 θ は最尤推定量(maxi‐

mum likelihood estimator)と

よばれ,一

般にｎが大きくなるにつれて最良

の性質をもつ推定値であり実際問題の統計モデルによく登場する(付

録Ａ

参照). 最尤推定量を実際に求めるには,尤るため,対

度関数を直接取り扱うことが面倒であ

数をとった対数尤度関数の最大値を考える.こ

の対数尤度関数

l(θ)=log L(θ)

(2.4)

が上に凸な滑らかな関数であることが多いことから次の連立偏微分方程式

(2.5) の解として求めるのが通常である.この連立方程式は一般には非線形方程式となる.非

線形方程式を解くにはNewton‐Raphson法

を利用するのが一般

的であるが....

2.5

対数正規分布

まず,ｎ例の食中毒患者の症状の発生時点{Xi,i=1,...,n}の計算される尤度関数は,一

データから

斉曝露で症状が独立に発生するという条件の下で

となる.三つのパラメータ(γ,μ,σ2)の最尤推定量は,対数尤度関数の偏微分を計算して,連

立方程式

の解として求めるのが通常であると述べたが,こ

の非線形方程式には解が収

束しないケースが少なくないという計算上の問題点が知られている(Cohen, 1988).そ

のためいろいろな工夫がされているが,こ

こでは,簡

単でかつ収

束問題のない線形探索法を利用して解を計算する方法を紹介する,まず,γ を所与とすると,(μ,σ2)の最尤推定量は簡単に

(2.6) (2.7) と計算できる.し

たがって,最

大対数尤度は γ の関数として

(2.8) と計算できる.こ lihood)と

よぶ.つ

の最大対数尤度を γ のプロファイル対数尤度(profile likeまり,こ

める最尤推定量であり,そ {γ1〓

のプロファイル対数尤度を最大にする γ が,求れは適当に用意した γの数値列 γ2〓...〓

γM＜min

xi}

に対応したプロファイル対数尤度ι**(γj),j=1.....Mを

計算して最大値を

探す一次元数値探索法で簡単に求められる. さて,最

尤推定量の次に,プ

め方について説明しよう.そ test)を

知る必要がある.そ

ロファイル対数尤度を利用した信頼区間の求

のためには,まのために,次

H0:γ=γ0,

度比検定(likelihood ratio

の仮説検定を考えよう. H1:γ

帰無仮説の下での最大尤度L**(γ0.μ,σ2｜H0)と L**(γ,μ,σ2｜H1)の

ず,尤

≠ γ0

対立仮説の下での最大尤度

比を考える.

(2.9) ここに,「.」と「.」はそれぞれ帰無仮説,対す記号である.対

立仮説の下での最尤推定量を示

立仮説の下では γ は γ0に縛られることなく自由に動き回

れるので,分

母の尤度は分子のそれより小さくはならない.し

たがって,こ

の尤度比は１以下であり,尤度比が１から遠ざかるにつれて帰無仮説の信憑性は小さくなる,こ

の性質を利用した検定を尤度比検定とよび統計的検定の

中で重要な位置を占めている.漸

近的には

-2logλ

なる性質を利用する.こ

∼

X

2 1

分布 (2.10)

の χ2分布の自由度１は帰無仮説,対

自由に変化できるパラメータの数の差を意味する.い

立仮説の下で

まの場合,帰

無仮説で

の自由なパラメータ数は２,対立仮説の下では３であるからその差１が自由度となる.し

たがって, -2ι**(γ

であれば,帰

2

ο)+2ι**(γ)〓

χ1 (α)

無仮説を棄却して対立仮説を採択する.こ

(2.11)

こに,χ21(α)は自由

度１の χ2分布の上側100α パーセンタイルである. ところで,こ

の検定の裏返しを考えよう. -2ι**(γ

2

ο)+2ι**(γ)〓

χ1 (α)

(2.12)

となる γοの範囲は帰無仮説を棄却できない範囲であり,信頼区間と言い換えることができる．つまり,γ οを γ とおくと,γ の両側(1-α)水

準の信頼

区間が 1 {γ

：ι**(γ)〓

として定義できるのである.こ信頼区間(profile

なお,対が,観

ι**(γ)-

/2

2

χ1 (α)}

(2.13)

の信頼区間をプロファイル対数尤度に基づく

likelihood based confidence interval)と

よぶ.

数正規分布は一般に高値に裾を長く引く非対称な分布形状を示す

察されたデータによっては,正

すものも少なくない.こ

規分布のように対称性に近い分布を示

のような場合には,式(2.8)の

度関数が γ の単調減少関数となり γ →-∞

プロファイル対数尤

となることがある.したがって,

この場合には曝露日の推定はできないことに注意したい.正裾が −∞ へと伸びていることを考えれば,自

然である.

規分布の左側の

2.6 最尤推定値は最小値?

ところで,デ

ータの最小値をx(1)と

おくと

(2.14) となる.な

ぜならx(1)に

十分近い γに対して

となるから,

となる.こ

こで

である。ところが,limx→0H(x)=+∞ である.つ

であるから式(2.14)が

まり最尤推定値はデータの最小値となってしまう.し

事例でも示すように,通

常の精度で計算するかぎり,式(2.8)の

γ を過ぎると尤度関数L**(γ)はとしてlog10H(x)の

減少する.と

づくにつれて,log10(x）

る点より減少から増加に転じ,徐る.し

かし,後

たがって,式(2.8)の

この問題は,式(2.1)の

の

最大値をとる

ころが,図2.1にx=x(1)-γ

挙動を10-100〓x〓10-1,n=1(1)50の

たように驚くべき挙動を示すのである.小がx(1)に)近

成立するの

さいｎを除けば,ｘ

範囲で示しが０に(γ

も最初は減少して０に近づくが,あ

々に増加し ∞ へと無限に増加するのであ

最大値は極大値となってしまう.

条件「x＞ γ」により,最尤推定量の正則条件のひ

とつ「データの範囲がパラメータに依存しないこと」を満たしていないことが原因である.し

たがって,式(2.8)を

常識的範囲で最大にする推定量 γは

厳密にいえば最尤推定量とはよべないものの,実が示され,実

際には十分有効であること

用的な意味での最尤推定量とよべるものである.つ

条件を満足しない場合の最尤推定量x(1)が

まり,正則

実用上は正しくないことを示す

図2.1

範囲10-100〓x〓10-1and log10{｜Inx｜-ｎ

ｘ-1}の

ｎ=1(1)50でプロット,ｘ

興味深い例の一つである(computer

の関数log10H(x)＝

軸のスケールはlog10(x)

simulationで

2.7 適

用

確認してみよ).

例

平成８年５月岡山県邑久町の小学校で発生したO‐157ににおける発症日別度数分布のデータ(表2.1)に計算のため,4月30日午はx=24で

正午を原点x=0と

あり,６月１日はx=32で

よる集団食中毒

適用してみよう. しよう.例えば,５

ある.実

月24日

正

際の計算では,γ の数値

列を

として小数点以下１桁の精度でプロファイル対数尤度 ι**(γ)をS‐Plusを利用して計算した結果を図2.2に照).曝

示した(S‐Plusプ

ログラムは付録B.1参

露時点の最尤推定値はプロファイル対数尤度が最大となる γ の値で,

γ=21.9,最

大値は ι**(21,9)=-379.93で

給食が最も疑われる.図2.2に

となる線である.式(2.13)よ頼限界を与える.こ

であった.つ

1/ 2 χ1 2

のようにして求めた95%信曝露時点が5月20日

と23日

頼区間は(20.3,22.8) から5月23日

が最も疑われるとしているが,原

数正規分布の適合度を視覚的に検討するために,

表2.1の

までの学

お,学校給食の料理の調査からも

定は難航していると報告している.

図2.2

れは

(0.05)=-381.85

校給食のいずれかであると推測できる.な

さて,対

の

り,この水平線と ι**(γ)との曲線との交点が

まり,確率95%で

曝露日として5月22日

なわち,5月22日

はｘ軸に平行な線が描かれているが,こ

y=ι**(γ)-

95%信

あった.す

データのプロファイル対数尤度 ι**(γ)と推定値

因食品の特

図2.3 表2.1の

データについて(ａ)ヒ

ストグラムと対数正規分布の推定値,(ｂ)対

正規性の良さをチェックするためのlog(ｘ-γ)の

数

正規プロット

１)発症日の相対度数分布の図上に推定された対数正規分布を重ね合わせた図を図2.3(ａ), ２)推定された潜伏期間の対数変換値,log(x-γ),の

正規プロットを図

2.3(ｂ), にそれぞれ示した.図2.3(ａ)の

視覚的適合性と図2.3(ｂ)の

点の並びのほぼ

直線性により対数正規分布への適合度はまずまずということになる.区

間頻

度データに基づいているので正規プロットの点が階段関数となっていることに注意したい.他

のパラメータは=1.79,σ=0.41と

から潜伏期間の中央値はexp(μ)=5.99,95%点と推定される.

推定された,こはexp(μ+1.645σ)=11.73

れ

2.8

これまでは,対

なぜ対数正規分布

数正規分布を利用してO‐157へ

たが,「病原性大腸菌O‐157に,一

食中毒の潜伏期間が対数正規分布に従うか?」的根拠は希薄である.動

の曝露時点を追いつめてき

斉に曝露することによって発生する集団という本質的な仮定の生物学

物実験モデルなどで確認されているわけではなく,

O‐157とは異なる他の感染症の流行事例の潜伏期間の分布をよく記述できたという経験を利用しただけである.し

たがって,対

数正規分布の仮定の下で

は漸近的に最良の推定値を与える方法も,対数正規分布の仮定が正しくない場合には,推ので,対

定された曝露日が非現実的なものとなることも十分予想される

数正規分布の適合度を十分チェックする必要がある(本章で紹介した

方法は明らかに,robustでれるケースでは,まず,収

はない).も

し対数正規分布の妥当性が強く疑わ

集されたデータの信頼性を再検討する必要がある.

練習問題 [問題2.1]表2.2に

示す平成８年７月に石川県の中学校で発生した学校給

食が感染源とみられる集団食中毒事件に適用してみよう.この原因菌はO‐ 157:H7で

はなくO‐118:H2で

あった.使

用するデータは初発症状の日別推移

のデータである.

表2.2

平成８年７月石川県の中学校で発生したO‐118:H2にる発症日別度数分布(蓮井他,日

よる集団食中毒におけ

本医事新,No.3788,27‐29,1996)

[問題2.2]過

去のO‐157の

件のデータから,対

食中毒事件簿より,曝露時点が判明した事例Ｋ

数正規分布を仮定して推定された (η κ,μ

κ,σ

κ),

κ=1,...,K

のデータが利用可能である.このデータを利用すると,これから起きるO‐157 の食中毒の曝露時点の推定にどのようなモデル化が可能か? [問題2.3]式(2.1)の

対数正規分布について, E(X)=γ+exp(μ)ω1/2 Var(X)=exp(2μ)ω(ω-1) α3(X)=(ω+2)(ω-1)1/2

を示せ.こ

こに, ω=exp(σ2)

である.

[問題2.4]最

尤推定量 θ=(γ,μ,σ)tの漸近分散・共分散が次式で与えられ

ることを示せ.

ここに,

である.

[問題2.5]本表2.2に

章では,発症時点を連続変数として扱ったが,実

際には表2.1,

もみられるように日単位のように区間頻度データであることが多い.

区間頻度であることを積極的に利用するとどのようなモデル化が可能か? [問題2.6]HIVに

感染してからAIDSを

分布がよく仮定される.表2.1の布にWeibull分

布

を仮定するとどうなるか?

発症するまでの潜伏期間にWeibull

食中毒のデータについても,潜伏期間の分

３ Bootstrap―

「中央値の標準誤差?」うか?

中央値の標準誤差を求める?

と聞いて,はて?,と

思う人は多いのではないだろ

平均値の標準誤差(standard error)は,母

分散を σ2とすれば無作

為標本の背後の分布が何であれ,

(3.1) で計算できるのに,中

央値X0.5の

標準誤差は?

ではあまりなじみがないかもしれないが,も

一般の統計学のテキスト

う少し数理に詳しいテキストを

調べてみるとあるだろう.それは漸近的に

(3.2) で与えられる.し

かし,こ

こに〓(X0.5)は

ｘ=X0.5で

の密度関数.〓(ｘ)の値

であり確率分布Ｆが未知の場合には求められないのである. 表3.1

ある疾患患者11人

の血清酵素GPT値

のデータ

3.1は

じ

め

に

1979年にアメリカの数理統計学の雑誌Annals of Statisticsに,コ

ンピュー

タ時代の到来にふさわしい新しい方法論bootstrap methodがEfron(1979) によって提案された.こ

の方法はあるパラメータ推定における推定誤差,バ

イアスを表現する統計量をコンピュータ乱数を利用するだけで簡単に導ける方法論を示したものである.実

に簡単な方法であるにもかかわらず,理

論的

には構築不可能な困難な問題に対してエレガントな解答を与えてくれるため, その研究はそれ以来数理統計学者の一大テーマとなり,さまざまな問題に拡張され今日の統計学の発展の中核をなす方法論にまで成長している(Efron and Tibshirani,1993). ここで,議

論する問題は,未

知の確率分布Ｆからの無作為標本から分布

のあるパラメータ θを推定量 θで推定する場合の１)推定誤差の大きさ２)バイアスの大きさの推定,バ

イアスを修正した推定量の導出

３)信頼区間の構成に関するnonparametric はpararnetric

bootstrapの

bootstrapと

比較してbootstrap推

いう.こ

問題である.分こでは,古

布型を仮定した場合に

典的な統計学的推測の形式と

測の考え方を説明しよう.回

帰モデルへの適用は５章,

７章を参照のこと.

3.2 古典的な統計学的推測

まず,当

たり前のことを記述しよう,(x1,...,Xn)を

ある確率分布F(x)に

従うサイズｎの独立な無作為標本の実現値としよう.θ θ=θ(X1,...,xn)

を「標本の関数」

(3.3)

として推定したいパラメータとする.期待値は当然 EF(θ)=∫

となる.こ

こでEFは

… ∫ θ(x1,…,xn)〓(x1)…

〓(xn)dx1…dxn(3.4)

分布Ｆで期待値を計算するという意味である.こ

の推

定量のバイアスは Bias(θ)=EF(θ-θ) である.すいう.ま

(3.5)

べての θ に対して.EF(θ-θ)=0のた,そ

とき推定量 θは不偏であると

の分散は Var(θ)=EF{(θ-EF(θ))2}

であり,標準誤差SE(θ)は性質,例

えば,そ

れている,つ

その平方根である.さて,パ

の分布,期

待値,分

(3.6)

ラメータの推定量の

散などは未知の分布Ｆの関数で定義さ

まり θ=g(F)

したがって,Ｆ

(3.7)

が未知である以上これらの統計量を古典的な推測では正確

に計算することはまず不可能である.多

くの古典的な統計学的推測では,指

数型分布族に含まれる一つの分布型を仮定し,未

知のパラメータに依存し

ない統計量を構成することでこの問題を回避してきたともいえる.例

えば,

F(x;μ,σ2)が平均 μ,分散 σ2の正規分布であるとき,

が(μ,σ2)の値にかかわらず自由度n-1のいる.ま

た,(n-1)S2/σ2が

ｔ分布することはよく知られて

σ2の値にかかわらず自由度n-1の

χ2分布

をすることも.これらの性質を利用して μ,σ2それぞれの信頼区間が構成されてきたのである.また,標

本サイズｎが大きくなるにつれて正規分布へ収

束するという,便利な中心極限定理(central limit theorem)をざまな推定量の漸近分布を導いてきたのであるが,そ

利用してさま

の適用には多くの限界

がある.

3.3

さて,(nonparametric)bootstrap法関数Ｆ自身は経験分布関数

Bootstrapに

よる推測

の原点は経験分布関数である.分

布

(3.8)

により推定できることはよく知られている.つから観察された標本(x1,...,xn)を

まり,未

基にしてＦ(x)を

知の分布関数F(x)

経験分布関数Fn(x)に

置き換えて random ∼

(x1,...,xn)

F(x) (3.9)

というフレームを *

(x1 に置き換えて推測する,つ

* n

,...,x

)

random ∼

まり,式(3.9)で

(3.10)で

定義される「bootstrapの

strap法

の基本的アイデアである.こ

いう.し

きるというのがboot‐

こで *

*

sampleと

定義される「現実の世界」が式

世界」でsimulateで

(x1 ,...,x をbootstrap

Fn(x) (3.10)

)

n

たがって,式(3.7)で

与えられたパラメータ

の定義は θ=g(Fn)

(3.11)

に置き換えられる,標

本(x1,...,xn)が

つまり,bootstrapの

世界での母集団パラメータに相当する.分

うサイズｎのbootstrap

sampleと

得られている下ではFn(x),θ

は,標

した無作為抽出(with replacement)をられる標本を意味するので,コ実現できる.つ

本(x1,...,xn)の

は既知,

布Fnに

中から重複を許

独立にｎ回繰り返すことによって得

ンピュータ乱数を利用すればきわめて簡単に

まり.θ の推定が θ*=θ(x

とできることになる.こ

従

* 1 ,...,x

の操作bootstrap

* n.

)

simulationを

Bias*=E*(θ*)-θ

繰り返せば,

(3.13)

Var*(θ*) Pr*{θ*-θ

(3.12)

〓t}

などの推定量の近似値が簡単に得られる.実

はこれらの値が

Bias=E(θ)-θ Var(θ) Pr{θ-θ

をsimulateし

〓t}

ている点が重要である.こ

こでbootstrap

simulationの

繰り

返し数をＢとすると

(3.14) (3.15) で推定できる.た

とえば,バ

イアスBias*が

大きければ,バ

イアスが

Bias*=E*(θ*)-θ

で推定できるから,バ

イアス修正推定値が θc=θ-Bias*=θ+θ-E*(θ*)

で定義できる.も

ちろんBias*が

り返し数Ｂが必要である.興

(3.16)

十分に正確に推定できる程度の大きさの繰

味深いことはBias*が

いま手元にある一つの

標本だけから定義された経験分布関数の関数として構成できる点である.このような性質は古典的な統計学的推測では考えもしなかった新しい発見ではないだろうか? もちろん,こ

のような性質を利用できるのは,あ

る条件の下で次の性質

(概収束)

(3.17) を満たす推定量 θ でなければならない.さ

らに,中

央値については

(3.18) という法則収束が成立する.式(3.2)と [例題3.1]表3.1の

どこか似ているであろうか?

データにおける中央値 θについて

１)標準誤差２)バイアス３)バイアス修正推定値

をbootstrap法

で計算してみよう,

[解答] まず,実

世界では,通

常の推定値 θ=x(6)=129

(3.19)

を利用しよう.経験分布関数からは中央値の定義から θ=x(6)=129

が導かれる.こ

の場合は θ=θ となった.実

ることは少なくないが,異る.し

かし,bootstrap法

いま,一

際には,同

なった(間違った)推

(3.20)

じ推定量が利用され

定量が利用されることもあ

では後でみるようにそれはあまり問題ではない.

つのbootstrap

sampleを

コンピュータ乱数で抽出してみると

41,41,57,124,193,215,215,215,280,280,363 となった.式(3.19)よ

り θ*=x*(6)=215

と推定される.B=100と

したbootstrap

simulationをS‐Plusで

つの結果は次に示すとおりである.

平均

E*(θ*)=152.7

標準偏差バ

イアス Bias*=23.8

S‐Plus

g←rep(0,nb)#nb

program:表3.2

is a value of Ｂ

x←c(16,41,57,76,124,129,193,215,280,363,914)

med←x[6] for(i in １:nb{ y←sort(sample(x,replace=T)) g[i]←

y[6]}

g mean←mean(g);gsd←sqrt(var(g)) gbias←gmean‐med;gmod←med-gbias

行った一

バイアス修正推定値 θc=129-23

繰り返し数をB=200,500,1000,2000と表3.2に

示した.1000を

増加させていったときの結果を

越えるとそれぞれの推定量がほぼ一定の値に収束

していることがわかる.表3.2に (例題3.2)の

.8=105.23

はB=∞

とした,つ

まり,理論的な計算

結果も示した.理論値にほぼ近い結果が得られているだろう.

次に,bootstrapの

面白さを味わっていただくために,平

均値で中央値を

推定しようとするとどうなるかを見てみよう.この場合,式(3.19)が θ=x=218.91

となる.つ

まり

と変更される.B=100の

結果は

平均 E*(θ*)=228.4

標準偏差バイアス Bias*=99.4 バイアス修正推定値 θc=218.9-99.4=119.5

となる.表3.3に

は繰り返し数をB=200,500,1000,2000と

たときの結果を示した,同

様に,1000を

理論値に収束していることがわかる.こ

増加させていっ

越えるとそれぞれの推定量がほぼこで興味深い結果は,「平均値を中

表3.2

表3.1の

データの中央値に関するbootstrap

simulationの

結果と理論値

表3.3

表3.1の

データの中央値に関するbootstrap

simulationの

結果と理論値

央値の推定値」として利用したbootstrapで

あるが,そ

のバイアス修正推定

値が理論的には中央値そのものとなったということである.なぜだろうか? そこで,理

論的にこれらの値を計算してみよう.

つまり,バ

イアスは式(3.13)か

ら,も

とのデータの平均値と中央値との差で

あり

Bias*=218.9-129=89.9 したがって,バ

イアス修正推定値は平均値からバイアスを引くので中央値に

一致するわけである

.一

般には,式(3.16)よ

り,た

とえ,実

世界で使用して

いるパラメータの推定値が誤っていても(mis‐specified) θ=E*(θ*)

であればbootstrapに

より正しい推定値 θがバイアス修正推定値として推定

される. [例題3.2]表3.2の [解答]理

理論値を導け.

論的な計算には,bootstrap

大きい観測値x

個以上のX*iがx(κ)を

たがって,

ず,x(κ)よ

第 κ番目にり大きくな

越えない確率に等しいので

ると, Pr*{X*(6)=x(κ)}=α

となる,し

中央値X*(6)が

（ κ)に等しい確率を計算すればよい.ま

らない確率は,６

とおく.す

sampleの

κ-α

κ-1=pκ

と計算できる.こ

れを実際に計算すると表3.2の

3.4

Bootstrap信

理論値となる.

頼区間

信頼区間の構成法については少々議論の多いところである.ま

た,分

布の

裾を推定するわけであるからバラツキも大きく,精度よく推定しようとすれば,繰

り返し数Ｂも必然的に1000,2000と

B=1000個

のbootstrap sampleか

大きさが要求される.例

ら計算されたbootstrap推

えば,

定値を小さい

順に並べて θ*(1)〓

とすると,θ

の90%信

を θ-θ

-θ

parametric推け(推

θ*(1000)

＜ θ*-θ

世界での関係

＜ θ

-θ}=0

*

.90

(3.21)

に置き換えることにより θ-θ*(951)

し,θ=θ 2θ-θ

となる.し

〓

(951)

θ+

と推定できる.も

…

頼区間はbootstrapの

Pr*{θ*(50)

の θ*-θ

θ*(2)〓

＜ θ ＜ θ+θ-θ

* （951）

＜ θ ＜2θ

-θ*(50)

sample自

(3.23)

身の分布に基づくnon

Ｆとある程度ずれているのでその安定性に欠

定のバラツキが大きい)あ

まり推奨できるものではない.実

タ解析でも正規分布に近づける変数変換をよく行うように,推ある単調増加関数hに

(3.22)

であれば,式(3.18)は

かし,式(3.23)はbootstrap 定であり,Fnは

＊(50)

定値の分布を

より正規分布に変換することを考えよう.こ θ=θ

というより一般的な場合を考える.

際のデー

こでは

(3.24)

3.4.1

パーセンタイル法

まず,任

意の θに対して h(θ)-h(θ)

が達成できたとしよう.bootstrapの

∼ N(0,1)

(3.25)

世界でも同様の正規性が期待されるか

ら Pr*{h(θ*)-h(θ)〓+zα}=Pr*{ となる.こ

こで,zα

はN(0,1)の

θ*〓h-1(h,(θ)+zα)}=α

下側 α パーセント点とする.θ*のbootstrap

分布の下側 α 点を θ*αとすると, *

h-1(h(θ)+zα)=θ と推定できる．一方,式(3.25)の

(3.26)

a

実世界と式(3.26)か

α=Pr{h(θ)-h(θ)＜zα}

となる.つ

まり,両

=Pr{θ

〓h-1(h(θ)-zα)}

=Pr{θ

〓h-1(h,(θ)+z1

=Pr{θ

〓 θ*1 -α}

側100(1-α)%信

ら (3,27) (3.28)

-α)}

(3.29) (3.30)

頼区間は単純に *

θ*α/2〓 θ 〓 θ1-α/2

で計算できることになる.こ

3.4.2

BC

満たすよい変換はそうそう存在しない.よ

原点調整の定数ｃを加えて,次 h(θ)-h(θ)+c

ｃは原点修正のための定数である.こ

り現実的に

のように変形するほうがよい.

∼ N(0,1)

(3.32)

うすると,式(3.26)は

h-1(h(θ)+zα-c)=θ

となり,式(3.27)に

（3.31)

パーセンタイル法とよばれている.

法

しかし,式(3.25)をは式(3.25)に

れはEfronの

*

α

(3.33)

相当する式は α=Pr{h(θ)-h(θ)+c＜zα}

=Pr｛

となるから β を

θ 〓h-1(h(θ)-zα+c)}

(3.34)

zβ-c=-zα+c

となる,す

なわち, β=Φ(2c+z1-a)

(3.35)

と設定すれば, α=Pr{θ となる,こ

こに,Φ(.)はN(0,1)の

〓 θ*β}

分布関数である.さ

らに,hは

(3.36) 単調増加

関数であ,るから Pr*{θ*〓

θ}=Pr*{h(θ*)-h(θ)〓0}

=Pr*{h(θ*)-h(θ)+c〓c}

=Φ(c)

(3.37)

となるから,

(3.38) となる.し

たがって,両

側100(1-α)%信

頼区間は

βL=Φ(2c+zα/2)

(3.39)

βU=Φ(2c+z1-α/2)

(3.40)

とおくことにより θ*βL〓 θ 〓 θ＊ βU で計算できることになる.こ

れはEfronのBCパ

rected

よばれている.

percelltile

3.4.3

Efronは

BCa

method)と

(3.41)

ーセンタイル法(bias

cor

法

正規変換を考えるとき,推定すべきパラメータ θの大きさによっ

て分散が変化する,というより現実的なモデルも提案している.分散として平均の二次関数 Var(h(θ))=(1+ah(θ))2 を考え,

(3.42)

というモデルを提案した.こ centile method)と (3.40)が

れはBCa法(accelerated

よばれる.こ

の場合もBC法

bias corrected per

と同様に展開すると式(3.39),

次のように変更される.

(3.43) (3.44) ここに,aは

推定値 θ の分布の正規分布からの歪みの度合(skewness)を

価したもので,詳

細は省略するが,Efronは

１)κ 番目のデータxκ を除いた(n-1)個 (Jackknife推

評

次式を提案している. のデータから θ(-κ)を計算する

定値とよばれている).

２)θ( .)=Σnκ=1θ(-κ)/nと

する.

３)次式で計算する.

(3.45) 推定値 θの分布が正規分布に近い場合にはa=0に

近づきBC法

と同じに

なる. [例題3.3]表3.1の

データについて中央値の90%信

頼区間をbootstrap法

により, １)パ

ーセンタイル法

２)BC法３)BCa法

で推定せよ. [解答]表3.2のB=2000の

データを利用すると θ*=x*(6)の

に示すようになる.そ

の詳しい頻度表は表3.4の

パーセンタイル法による90%信

頼区間(対

分布は図3.1

ようである.し

たがって,

称)は

(θ*100,θ*1901)=(x(3),x(9))=(57,280)

と推定される.さ要となる.こ定は

て,BC法

で求める場合には式(3.38)に

よる原点修正が必

のデータの場合は θ*の分布は離散分布であるため定数ｃの推

図3.1

表3.1の

表3.4

表3.1の

データの中央値のB＝2000のbootstrap推

定値の分布

データの中央値のB=2000のbootstrapの

したがって,式(3.39),(3.40)よ

頻度表

り

βL=Φ(2×-0.0226-1.645)=0.0455 βU=Φ(2×-0.0226+1.645）=0.9452 となる.つ

まり, 2000×0.0455=91,

であるから求める90%の * (θ91

2000×0.9452=1890

対称な信頼区間は ,θ*1890 ) =(x(3)

,ｘ(9))=(57,280)

と離中散分布よりパーセンタイル法と同じ信頼区間となった. 次に,BCa法

で計算すると,(θ(-1),...,θ(-n))は,10個

のデータの中央

値は

５番目と６番目のデータの平均値であるから, (161,161,161,161,161,158.5,126.5,126.5,126.5,126.5,126.5)

と計算され, θ(.)=149.09

となる.式(3.45)よ

り α=0.00893

と計算される.こ

の値はきわめて小さくその影響は少ないが,試

てみると,式(3.43),(3.44)よ

であるから求める90%の

しに計算し

り

対称な信頼区間は

(θ*96,θ*1896)=(x(3),x(9))=(57,280)

とこれまた同じ結果が得られている. [例題3.4】

表3.1の

データの中央値の90%信

頼区間をnonparametric法

で

理論的に導け.

[解答]理

論的には対称な順序統計量のペアを(X(γ),X(n-γ+1))と

すると,

この範囲に中央値が含まれる確率は

(3.46) で与えられる.し

たがって,信

頼係数(1-α)の

信頼区間は

(3.47) を満たす最大の γで推定される.n=11のようになるから,90%信

場合の計算をしてみると表3.5の

頼区間は,式(3.47)よ

り γ=３となるから理論的には

(x(3),x(9))=(57,280) と推定される.こ

の結果は例題3.3のbootstrap推

定値と同じであった.

表3.5

式(3,47)の

γ とＱ

との関係

練習問題 [問題3.1】

未知の分布Ｆ(平均 μ,分

(x1,...,xn)と

し,そ

を問題にしよう.いしてbootstrap推

散 σ2)か

らの無作為標本の実現値を

の平均値

ま,こ

の標本からのbootstrap

sampleを(x*i,...,x*n)と

定値

についてＢ →

∞,つ

まり, E*(μ*)=x

Bias*=0

(3.48)

(3.49)

(3.50) となることを示せ.こ

こに

である. [問題3.2]い

ま,手

元にある標本(x1,...,xn)は,次

の式で定義される確

率変数のｎ回の独立試行の実現値であるとする: Pr{X=1}=p,

Pr{X=0}=1-p

ｐの推定値は通常不偏推定値

で与えられ,そ

であった.さ

の分散推定値は

て,こ

の標本からのbootstrap推

定を考えよう.経験分布関数は

0,

{

Fn(x)=

x＜0

1-p,0〓x＜1 1,

1〓

ｘ

であるから, p=p となる.こ

のとき,bootstrap推

定値

について E*(p)=p

Bias*=0

(3.51)

(3.52)

Var*{p*}=Var(p)

(3.53)

となることを示せ. [問題3.3]次

の命題を証明せよ.

１)ある連続分布Ｆから抽出したサイズｎの独立な無作為標本において, 「(k-1)個

がｘ未満,１個がX=x,残

りがｘを越える」確率は

g(F)=F(x)k-1(1-F(x))n-kdF(x) に比例する.ｎ → ∞ のとき,この確率を最大にする値ｘは F(x)=p,

で与えられる.つ

２)Xpの

まり,分

k=np

布のｐパーセンタイルXpで

付近の確率分布g(x)(定

数は省略)を調べるために δ=F(x)‐p

とおこう.そ従う.(ヒ

うすると,δ

ある.

の確率分布は漸近的にN{0,p(1-p)/n}に

ント: 9(F)→(δ+p)np(1-p-δ)n(1-p),

となるので,対

数変換した後にTaylor展

３)式(3.54)のTaylor展

開を行う)

開の一次近似を利用して, Var(δ)=(〓(x))2Var(x)

となる。つまり,

ｎ → ∞

(3.54)

(3.55) となる. ４)式(3.2)を [問題3.4]あ X(n))と

示せ. る分布Ｆからの無作為標本での順序統計量を(X(1)〓

しよう.こ

…

〓

のとき,

１)

(3.56) ２)

とするとき,

(3.57) ３)分

布ＦのｐパーセンタイルをXpと Pr{X(γ)〓Xp〓X(s)}=I1-P(n-s+1,s)-I1-p(n-γ

する.こ

のとき, 十1,γ)

(3.58) ４)式(3.46),(3.47)を

示せ.

４モデルを比較する

表4.1は,1960年

代後半のアメリカ合衆国の60の

主要な都市における大

気汚染の健康影響を検討するためのデータの一部である(デ録B.2).全

死因の年齢調整死亡率(MORT)の

六つ上げてある.年 (EDUC),人

平均降雨量(RAIN),25歳

口密度(POPD),人

ータの全貌は付

変動を説明するための変数が以上のメディアン就学年数

口に占める非白人の割合(NONW),一

酸化+二酸化窒素濃度(NOX,oxides

of nitrogen),二

suifur dioxide)で

データは対数変換(log10)し

ある.NOx,SO2の

酸化硫黄濃度(SO2, て使用す

るものとして, MORT=β0+β1RAIN+β2EDUC+β3POPD+β4NONW +β5log10(NOX)+β6log10(SO2)+誤

差

を最大の回帰モデルとして最適な変数の組み合せからなる最適回帰モデルを検討してみよう. 表4.1

アメリカ合衆国の60の

主要都市における大気汚染の健康影響を検討する

ためのデータセットの一部

4.1

まず,線

はじめに

形回帰モデル y=β0+β1x1+…+βpxp+〓

の良さを評価する,比

(4.1)

較するとはどういうことかを考えよう.ｎ組の観測値

{yκ;xκ1,xκ2，

を用いて,式(4.1)を

…,xκp},

κ=1,2,...,n

ベクトルと行列表現に変えておこう.

y=(y1,...,yn)t β=(β0,β1,...,βp)t

X=(xκi),κ=1,...,n;ｉ=0,...,p

Xt=(x1,x2,...,xn) xκ

＝(xκ0,xκ1,…,xκp)t，xκ0=1

〓＝（〓1,...,〓n)t とすれば,式(4.1)は y=Xβ+〓

(4.2)

となる.

4.2

もともと,モぎない.回

MallowsのCp規

デル自体は真ではなく,ある現象を記述するための近似にす

帰モデルでいえば,真 E(y)=θ

実は

Var(y)=T2In,Inはn×nの

であるのに,わる.こ

準

れわれは式(4.2)の

(4.3)

単位行列 (4.4)

回帰モデルで近似しようとするわけであ

の場合, E(〓)=0,0はn×1の

Var(〓)=σ2In

ゼロベクトル (4.5)

(4.6)

を通常仮定する(等

分散性はかならずしも必要はない).最

小２乗法を適用

してβ を推定すると

となるので βで偏微分して０とおくと -2Xty+2XtXβ=0 つまり,

(4.7) (4.8) が得られる.ま

た,そ

の期待値は,仮

定(4.5),(4.6)の

下では

E(β)=(XtX)-1XtE(y)

=(XtX)-1XtXβ=β

(:不

偏推定量)

であり,分散は Var(β)=σ2(XtX)-1 となる.な

(4.9)

ぜなら, β=(XtX)-1Xty =(XtX)-1Xt(Xβ+〓) =β+(XtX)-1Xt〓

であるから Var(β)=E(β-E(β))(β-E(β))t

=E((XtX)-1Xt〓)((XtX)-1Xt〓)t

=(XtX)-1XtE(〓

=E(〓

となるからである.さ

〓ｔ)X(XtX)-1

〓ｔ)(XtX)-1

=σ2(XtX)-1

て,わ

れわれのモデルでは θの推定値として

y=θ=X(XtX)-1Xty=Hy を考えていることになる.こ

こで,

H=X(XtX)-1Xt=(hij) はハット行列とよばれる.こ

(4.10)

こで,

Ht=H H2=H trH=trX(XtX)-1Xt =tr(XtX)-1XtX =trIp+1=p+1

が成立することに注意しよう.つまり,われわれのモデルを真の世界で評価すると E(θ)=Hθ

となっていることに注意しよう.さて,真

≠ θ (4.11)

の世界では不偏ではない推定値の

良さを評価する尺度としては θ-θ=(θ-E(θ))+(E(θ)-θ) に注意すると,分

=(偏

差)+(バ

イアス)

散とバイアスのバランスを考慮した平均２乗誤差(mean

square error.) △p=E‖

を考えるのが自然である.つ

θ-θ ‖2=E(θ-θ)t(θ-θ)

(4.12)

まり,△ ｐが最小となるモデルが最も良いこと

になる.実際のデータからモデルを評価するのであるから,問題は △ｐの不偏推定量を求めることに帰着される. さて,△ ｐを変形していくと △p=E‖Hy-Hθ-θ+Hθ =E‖H(y-θ)‖2+‖(I-H)θ =E{(y-θ)tH(y-θ)}+θt{1-H)θ =E{tr(y-θ)tH(y-θ)}+θt(1-H)θ

‖2 ‖2, H(I-H)=0

(4.13) となることがわかる.第

１項はモデルに入っている変数(独

の数に対するペナルティであり,第きさを表現している.と

立なパラメータ)

２項はバイアスの２乗和でバイアスの大

ころで,式(4.2)の

回帰の残差平方和RSSp(residual

sum of squares)は

(4.14) である.仮

定(4.5)(4.6)の

下でRSSpの

期待値を考えると

(4.15) となり,誤差分散 σ2の不偏推定値は

(4.16) で与えられる.と

ころが,真

の世界では,

(4.17) となる.つ

まり,真

の分散〓2を既知とすれば

が最小２乗誤差 △pの不偏推定量となることがわかる.したがって,この値が小さいモデルほど式(4.2)の

回帰モデルは望ましいことになる.Mallows(1973)

はこの式を〓2(の推定量〓2)で

割って,

MallowsのCp規

準

Cp=RSSp/〓2+2(p+1)-n

=RSSp/ 〓2+2×(モ

デルに含まれる独立なパラメータ数)-n

(4.18) をモデル選択の規準とすることを提案した.〓2のがあるわけではないが,一多い)モ

デル(フ

般には,い

決め方に特別に良い方法

ま考えている最も複雑な(変

数の最も

ルモデルという)の誤差分散の不偏推定量を〓2に置き換

えることがよく行われる.つ

まり,フルモデルの変数の数をpmaxと

すると,

(4.19) と設定し,Cpの selectioｎら,最

値が最も小さくなる最適な変数の組み合せを選ぶ(subset

規準としてよく利用される.こ

の場合Cp

max=pmax+1で

あるか

適モデルでは Cp〓pｍax+1

(4.20)

となる.

4.3

式(4.2)に

AkaikeのAIC規

準

対して〓 ∼N(0,σ2I)

(4.21)

という正規性を仮定しよう.このとき明らかにｙは y∼N(Xtβ,σ2I)

(4.22)

に従う. このように,回帰モデルに限らず,一〓(ω ｜β)を仮定できる場合,真

般に観測値Ｗにある確率密度関数

の未知の確率密度g(ω)を

モデル〓(ω￨β)

で近似する場合を考えよう.こ Kullback‐Leibler情

のモデル間の距離を計る尺度の一つとして

報量

(4.23) を導入しよう.モデルの相対的な比較を考えるときこの距離が小さいほど良いモデルということになる.言

い換えれば

L(β)=Eω(log〓(ω￨β))=∫g(ω)log〓(ω￨β)dω(4.24)

が最大となるモデルが良いモデルということになる.さて,確られた場合のパラメータ β の推定は,漸

率分布が与え

近的に最良な最尤推定量 β を計算

するから,われわれは最大尤度をもつモデル〓(ω￨β)で真のモデルg(.)を近似することになり, L(β)=Eω(log〓(ω￨β))=∫g(ω)log〓(ω￨β)dω(4.25)

を最大にするモデルが良いモデルということになる.し推定量 β=β(y)の

かしながら,これは

関数としての確率変数であるから,ｙで期待値を計算す

ることにより Λp=Ey{L(β(y))}=∫g(y)Eω(log〓(ω￨β))dy(4.26)

でそのモデルの評価が可能となる.つ

まり,ここでは,規準 Λpを最大にする

モデルが最良となるので,問題はその不偏推定量を求めることに帰着される. さて,一

般に確率変数Ｘの関数ん(Ｘ)における期待値Ｅ(h(x))の

不偏推定量は,ｎ個の独立な確率標本を(X1,...Xn)と

自然な

すれば

1 /n

(h(X1)+…+h(Xn))

であることに注意すれば,式(4.26)の

「自然な不偏推定量」は最大対数尤度

の平均値

(4.27)

で与えられる.問

題はこの最大対数尤度 ι(β)の平均が式(4.26)の

偏推定量となっているか否かである.も良となる.そ

こで,そ

し不偏であれば尤度最大モデルが最

の関係を検討するために,こ g(ω)=〓(ω￨β*)

で表現できると仮定しよう(一般論では,こいが簡単のため).ま

ず,式(4.25)の

メータ β*の近傍でTaylor展

Λpの不

こでは,真

のモデルは

(4.28)

の仮定はかならずしも必要はな

漸近的分布を検討するために真のパラ

開してみると

(4.29) となる.と

ころで,最

尤推定量はある正則条件の下で漸近的に

(4.30) が成立する.こ

こに,I*FはFisher情

報行列といい,そ

れは

(4.31) で定義される.し

たがって,式(4.29)の

次元数の自由度(こ

こでは,p+1)を L(β)=L(β*)-

第２項は０,第

３項の2n倍

は β の

もつ χ2分布に従うことがわかる: 1 /2n

χ2p+1

したがって, Λp=Ey{L(β(y))}=L(β*)-

一方

,式(4.27)の

1 /2n

(p+1)

(4.32)

対数尤度 ι(β)の平均について最尤推定量 β の近傍でTaylor

展開すると

(4.33)

となる.と

ころで,対

数の法則により

(4.34) となる,し

たがって,式(4.33)で

β → β*と置き換え

ι(β*)=ι(β)-

ば

1 /2

χ2p+1

(4.35)

つまり 1 Ey{ι(β*)}=Ey{ι(β)}が成立する.と

/2

(p+1)

(4.36)

ころで,

(4.37) が成立するから

(4.38) となる.つ

まり,

1 /n

{ι(β)-(p+1)}

が Λpの不偏推定量となることがわかる.つ

(4.39)

まり,この値が大きいモデルほ

ど良いモデルということがわかる.Akaike(1973)は

この式を変形して

AkaikeのAIC規

準

AIC=-2ι(β)+2(p+1) =-2(最

大対数尤度)+2(モデルに含まれる独立をパラメーダ数)

(4.40) をモデル選択の規準とすることを提案した.式(4.39)と

は符合が逆であるか

ら当然この値が小さいほど良いモデルということになる.式(4.18)でれているMallowsのCp規うか?

定義さ

準ときわめて形が似ていることが理解できるだろ

モデルの次元数(パ

ラメータの数)に

関するペナルティは全く同じ

２倍である. さて,式(4.21)の

回帰モデルの話しに戻ろう.定

数項を除くと,

(4.41)

(4.42) となる.こ

こで,s2は

誤差分散の不偏推定量である.つ

き,AIC規

準は近似的に

まり, n≫pの

と

(4.43) と等価であることに注意したい.

4.4 自由度調整重相関係数

さて,式(4.2)の

回帰分析の結果は表4.2に

示すような分散分析表にまと

められることをここで思い出してみよう.式(4.21)の

下では,仮

説検定

表4.2

回帰分析における分散分析

H0:β1=…=βp=0

(4.44)

には次のＦ検定が有名である.

(4.45) さて,回

帰分析の有意性の指標として重相関係数Ｒ,寄与率(決

定係数)

R2

(4.46) がよく利用されるが,モなら,変

デル選択にはこの重相関係数は適用できない.なぜ

数を増加させればいくらでも1.00に

この回帰分析の自由度は０,RSSp=0と

近くなり,p=n-1と

なるのだからR=1と

すればなってしま

う.ｙを説明するのに全く情報がない変数を選んでも数学的にR=1と

なる

のである.この自由度によるいたずらを除去するために,次

の自由度調整重

相関係数R*が

自由度調整寄与

モデル選択に利用されることも多い.R*2は

率とよばれ

(4.47) (4.48) と計算される.さ

て,い

ままでに紹介した統計量をここで整理してみよう

不偏誤差分散:s2

寄与率:

自由度調整寄与率: Cp:

(4.49)

AIC: となる.つ

(4.50)

まり,ｐが一定であれば,こ

で同等である.例

えば,10の

れらの規準はs2だ

けの関数であるの

変数群の中から五つの変数からなるモデル群

(10 5)=252個を考えたとき,ことになる.し

の中から最適モデルを選ぶ規準は単純にs2だ

けで良いこ

たがって,これらの規準の違いが出てくるのは,明

らかに,「変

数の数が変化するモデル選択」である.そ

こで次節ではその挙動の違いを,

よく統計パッケージで使われるＦ‐to‐enter(〓)Ｆ‐to‐removeのＦ検定統計量との関連でみてみよう.

4.5

変数選択,つ

よく見かける変数選択法

まり,各変数の有意性(寄

要な点は絶対的評価はできず,あある.式(4.1)の

与の度合い)を

議論する場合,重

くまで相対的評価でしかないということで

回帰モデルでいえば,ｐ個の変数(x1,...,xp)の

「組み」の

線形結合 β0+β1x1+…+βpxp

でｙの変動を説明しようというモデルであるから,あ

る変数「xκ」の有

意性はあくまでこのｐ個の変数群の中での相対的なものである.して,も

し,新

xj(1〓j〓p;j≠

しい変数xp+1を

たがっ

モデルに加えたり,既存の変数の中から変数

κ)を削除したりすると,変

数xκ の有意性が変化してし

まう. さて,フた数は

ルモデルのサイズがｐであるとき,すべてのサブモデルを合わせ

(p 1)+(p 2)+…+(p となる.こ

p)=2p-1

のすべての組み合せの中から最適なモデルを選択する方法を総

当たり法(best subset regression)というが,ｐが大きくなるにつれて組み合せの総数は天文学的な数字となりスーパーコンピュータでも実用上計算不可能となる.し

たがって,実用上は逐次的に変数を選択していく逐次選択法

(stepwise regression)が利用される.簡

単にその概略を説明すると,

〓変数増加法(forward)

まず,ｙ

と相関の最も高い変数x(1)を

選ぶ.次

x(1)と組み合わせたとき最大の寄与率R2(最

に,残

小のs2)を

りの変数からもつ変数x(2)

を追加する...このように変数の数を一つずつ追加していく方法で,指定されたモデル選択の規準でこのプロセスを継続するか終了するかを決める. 〓変数減少法(backward)

まず,フ

ルモデルでの寄与率を計算する.次

たときの寄与率の減少量が最小の変数x(p)を残りの変数からさらに１個除いて,寄

に,一選ぶ.こ

つの変数を削除しの変数を除いた

与率の減少量の最小の変数を除く

...このように変数の数をフルモデルから一つずつ削除していく方法で, 指定されたモデル選択の規準でこのプロセスを継続するか終了するかを決める. 〓変数増減法(stepwise

forward)

変数増加法の各ステップですでに取り込まれた変数の中に相対的に寄与率の小さくなってしまった変数を削除する方法. 〓変数減増法(stepwise

backward)

変数減少法の各ステップですでに落とされた変数の中に相対的に寄与率の大きくなった復活すべき変数を追加する方法. ただ,解

析の目的によっては,必ずモデルの中に入れるべき変数があり,全

くの自動選択の結果とその解釈には注意が必要である. さて,逐

次変数選択のstopping

(4.1)の残差平方和RSSpと

変数xκ

ruleを

考えるために,ま

ず,回

を除いた残差平方和RSSp-1(-xκ)の

帰モデル差

を考えてみよう.つねに,前

者のほうが小さいわけで,

△(xκ)=RSSp-1(-xκ)-RSSp =SS(R2-R2(-xk))

(4.51)

がｐ個の変数群の中における変数xκ の寄与の度合いを表現していると考えられる.こ

こに,R2(-xκ)は

変数xκ を除いた残りのp-1個

る回帰モデルの寄与率である.こ

の差が大きければ ,変数の寄与は大きいの

で回帰モデルから除く(に入れる)こことを意味するだろう.も

し,小

の変数からな

とはモデル寄与率が減少(増

加)す

る

さい差であれば変数xκ があってもなくて

もモデルの寄与率には影響がない,必

要ないと考えるのが自然である.代表

的なモデル選択規準によるstopping ruleを比較してみよう. (１)Ｆ検定もし,正規性の条件,式(4.21),を

満足するならば次の検

定仮説 H0:β

κ=0

(△(xκ)=0)

(4.52)

に対しては次のＦ検定が知られている.

(4.53) ここで, F1 ,∞(0.05)=3.84, F1 ,∞(0.15)=2.07

Ｆ1,∞(0.10)=2.71

Ｆ1,∞(0.30)=1.07

(4.54)

(4.55)

となることをよく覚えておこう. (２)自由度調整寄与率自由度調整寄与率の大小で変数選択を考えてみよう.式(4.47)か

であるから

ら

R*2〓R*2(-xκ)⇔F(-xκ)〓1 となる.つ

まり,式(4.55)よ

り,有

意水準30%前

(4.56)

後のＦ検定を実施してい

ることになる. (３)MallowsCp規

準式(4.18),(4.19)よ

り,

であるから, Cp-1(-xκ)〓Cp⇔F(-xκ)〓2.00

となる.つ

まり,ほぼ15%の

(４)AIC規

準

式(4.50)よ

(4.57)

有意水準のＦ検定と等価である, り

であるから

(4.58) となる.こは,Cp規

の規準は漸近的にはMallowsのCp規準より条件が緩い.MallowsのCp規

準と等価となるが,一準, AIC規

般に

準から判断する

と,統計パッケージの変数選択の規準のオプションとして

F‐to‐enter=2.01＞F‐to‐remove=2.00(有

と設定するのは,モこの規準(有

後)

デル選択の観点から一見合理的のようにみえるだろう.

意水準15∼20%)は

ク回帰分析,Coxの

意水準15∼20%前

他の多変量解析,た

とえば,ロ

ジスティッ

比例ハザードモデルなどでも採用されているようである.

4.6

AllenのCV規

これまでのモデル選択の議論,特

準

に,MallowのCp規

準, AkaikeのAIC

規準においては,

「データへの適合度+モ

デルの複雑さへのペナルティ」

をバランスさせた内容であった.これを言い換えると,変数を多く取り込んだ複雑なモデルになればなるほど,現

在のデータには適合度が良くなるが,

将来のデータに対する予測の精度は悪くなる,つ

まり

「予測誤差を最小」を目的としたモデル選択の規準も考えられる.しかし,現在のｎ組のデータから選ばれたモデルの予測誤差を評価することは理論的には簡単ではない. しかし,昔

から,直感的にナイーブな方法として,現

在のｎ組のデータを

１回帰モデル推定のためのデータセットDEST ２予測の良さを検証するためのデータセットDPRED に分割する方法が考えられてきた.こ (cross validation)と

よばれている.Allen(1971)はDPRED=(yi;xi)と

のデータに限定し,こ提案した.こ

の方法はクロス・バリデーション法

れを繰り返す,効

こではこの方法をAllenのCV規

AllenのCV規

１組

率的なクロス・バリデーション法を準とよぶ.

準のアルゴリズム

１)Step１:i←1.

２)Step２:第

ｉ組目のyiを

り(n-1)組 D

予測するのにｉ組目のデータを除いた残

みのデータ

EST,i={yκ;xκ1,xκ2,…,xκp},κ=1.2,...,n;κ

から推定された式(4.1)の

≠i

回帰モデルで推定値yi(DEST,i)を

計算

する. ３)Step３:i←i+1;Go

４)Step４:最

後に,予

to step

2.

測平方和(prediction

sum of squares)の

平均

として予測誤差を計算する. (4.59)

この規準は,特

に難しい理論を必要とせず,論

理も明快であるため,さ

ざまな統計モデルの検証によく利用されている方法である.た

だ,こ

ま

の計算

は一見すると回帰式の推定をｎ回繰り返す必要性があり,計算時間がｎ倍か

かるかのように思われるが,実

は

(4.60) と計算できるので１回の推定ですむのである.実にAICと

等価な式(4.43)に

漸近的にある種のCV規

近いことが示される.さ

準とAICは

4.7

さて,こ

こでは表4.1の

は,こ

の予測誤差が漸近的らに,Stone(1977)は

等価であることを示した.

モデル選択の例No.１

データの回帰分析を行ってみよう.使用した変数

全体の基礎統計量と相関行列をそれぞれ,表4.3,表4.4に回帰モデル MORT=β0+β1EDUC+β2NONW+β3LSO2+〓表4.3

各変数の要約統計量

表4.4

各変数間の相関係数

示した.例

えば,

図4.1

表4.1の

データの回帰モデルにおける４種類のモデルの選択規準(R*2,Cp,

AIC,CV)で

は,例 CV規

えば,統

選ばれた最適モデル(p=4)

計ソフトS‐Plusを利用すると,線形回帰モデルに関数glm,

準の計算に必要なハット行列は関数hatを

ようなプログラムで計算できる.そさて,最

の結果は図4.1で

ると,変数増加法,減

少法,増

減法,総

示す

ある.

大６個の説明変数からなるモデルの数は26-1=63通

最適なモデルの選択を実施してみよう.S‐Plusで

ば,総

利用すると付録B.3に

りである.

は関数stepwiseを

利用す

当たり法などが簡単にできる.例

え

当たり法は S‐Plus

program:表4.5

ｘ ←cbind(rain,educ,popd,nonw,lnox,lso2)

ｙ←mort stepwise(ｘ,ｙ,intercept="Ｔ",method="exhaustive")

と指定する.増

加法ではmethod="forward"と

の関数からはR*2,MallowsのCp,AICは

録B.3に

指定すればよい.た簡単に計算できるが,

示すように別に計算しなければならない.

だ,こ S2 CV

は付

表4.5

subset

selectionに

準じた回帰モデルのさまざまな選択規準の値.同

サイズでのモデルの多い場合にはAllenのCV規

さて,総

当たり法で計算した結果を表4.5に

R*2,Cp,AIC,

2 s CV

示す.最

適なモデルとして

いずれも

p=4:{RAIN,EDUC,NONW,LSO2},s2=1315.1, を選択している.推

じモデル

準によるベスト５のモデル

定された回帰モデルは表4.6に

はモデル選択規準にかかわらず同じ結果であった.

R=0.683 示すとおりで,こ

の結果

表4.6

モデル選択規準により選択された最適回帰モデル

4.8

HjorthのCMV規

準

これまで議論してきたモデル選択の規準は,もを評価するためのものであるが,実

ちろん,あ

るモデルの良さ

は,現在のデータに基づいて,多

くのモ

デルの中から最適なモデルを一つ選ぶという「モデル選択それ自身の不確定性」を考慮していないのである.例

えば,あ

るモデル選択規準としてAIC

を考えてみよう.もちろん,MallowsのCp,s2,R2,R*2,s2CVでい.い

も何でもよ

ま,候補となるモデルが全部でＫ個あり

{M1,M2,...,MK} としよう.それぞれのモデルのAICをAICκ に,そ

れぞれのモデルのAICは

タをとって,そ

れぞれのAICを

とすると,1.2節

式(4.26)の

で示したよう

不偏推定量であった.い

まデー

計算して最小のモデルがモデルMjで

たとしよう.とすると,つねにモデルMjが

あっ

選ばれることがなければ,す

わち Pr{min AICi=AICj}＜1

であれば,期

(4.61)

待値は積分であることを考えて AICj=min

AICi〓AICi

⇒ E(min AICi)＜E(AICi)

つまり,

E(min AICi＜E(AICj)

となる.つ

まり,モデル選択という行為によりモデルMjの

(4.62)

本来のAICが

な

小さめに推定されてしまうというバイアスをもつことになるのである.も自由度調整重相関係数を利用したとしたら,最

し,

適なモデルの重相関係数は本

来の重相関係数を大きめに推定するバイアスを示すことになる. この種類の欠点は,現

在のデータだけに最もよくフイットした回帰モデル

から推定された誤差分散s2がる.こ

の意味で,変

過小評価されている点にきわめて類似してい

数選択に伴う変動を評価する,つ

まり,モデルのクロス

バリデーションを目的としたクロス・モデル・バリデーション(cross model validation)と

いう方法がHjorth(1982)に

より提案された.モ

デル選択の不

確定性は残念ながら理論的には評価できないのでクロス・バリデーションで評価しようというものである.こされていないという点で,ま

るが,そ

販の統計ソフトにも導入

だ市民権を得るほどには至っていないが,コ

ピュータ時代にふさわしい,利法をHjorthのCMV規

の方法は,市

用価値の高い手法である.こ

準とよぶ.さ

て,そ

こでは,こ

ンの方

の方法は以下に示すとおりであ

の中で使用されるモデル選択規準はすでに述べた中の何でもよいが

一つ決める必要がある. HjorthのCMV規

準のアルゴリズム

１)Step１:i←1.

２)Step２:第

ｉ組目のyiを

り(n-１)組

予測するのにｉ組目のデータを除いた残

のデータ

DEST,i={yκ;xκ1,xκ2,…,xκp},κ=1,2,...,n;κ

≠i

を推定用データセットとする. ３)Step３:事

前に決めた選択規準に従って,す

q(q=1,2,...,p)毎

に最適モデルを決定する.総当たり法が利用

できない場合は,stepwise法 M(q,DEST,i):モ

とし,こ

を利用参る.こ

こで,

デルサイズがｑの最適モデル

の最適モデルによる第ｉ組のyiの yi(q)=yi(M(q,DEST,i)),q=1,2,...,p

と定義する.

べてのモデルサイズ

予測値を (4.63)

３)Step４:i←i+1;Go ４)Step５:予

to step 2.

測誤差分散を

で計算する. ５)Step６:最を

後に,予

測誤差分散が最小となるモデルの変数の数q*

決定する.

６)Step７:モデルサイズq*の中からデータ全部を利用しそ最適モデル(変数の最適な組み合せ〉を事前に決めた選択規準により決定する。

上記のStep３

において,変数の数がある程度小さければ(p＜20程

度),すべ

ての組み合せの中から最適なモデルを選択する方法(best subset regression) が利用できるが,大

きければ変数増加法,減

少法,増

減法,減

増法を利用す

ればよいだろう.また,観測値の組み数ｎが大きくなると時間がそれだけかかるが,DESTを

データの100(1-α)%,DPREDを100α%等

工夫も有効である.例

えば,n=1000の

り返しが必要であるが,デれば,計100回

場合,上

ータの最初から10個

とするなどの

記の方法では1000回毎にDPREDと

の繰り返しで済む.この場合は式(4.64)の

の繰

して定義す

予測誤差の分散は

で計算する.

4.9

さて,CV規表4.1の

モデル選択の例No.2

準をモデル選択規準として利用したHjorthのCMV規

データに適用してみよう.その結果は表4.7に

準を

示すように,CV規

準による最適モデルよりはモデルサイズが一つ小さいモデルが選ばれた,最

表4.7

モデル選択の変動を考慮しないAllenのCV規考慮したHjorthのCMV規

表4.8

適モデルは表4.8に

HjorthのCMV規

準と

準の比較

準により選択された最適回帰モデル

示したように,

p=3:{RAIN,NONW,LSO2},s2=1387.0,R=0.660 の組み合せが選ばれた.ま

ず,表4.7か s2CMV(q)〓

ら s

2 CV

(q)

となっていることが理解できるであろう.モデル選択の変動の影響が出ており,式(4.62)で

示したように,通常のモデル選択規準が低めに推定するバイ

アスの実例である.p=6の

ときとp=3の

ときが両者が一致している.前

者の場合は最も大きいモデルの場合であるから,比較するモデル(つ選択による変動)が

まり,

ないので一致して当然である.後者の場合に一致したこ

との意味は,式(4.61)の

確率がつねに１であることを意味するのである.つ

まり,このケースでは

Pr{M(q=3,DEST,i)={RAIN,NONW,LSO2}}=1, で,DEST

,iにかかわらず,つ

ねに組み合せ{RAIN,NONW,LSO2}が

最適

モデルであったことを示し,それだけこの組み合せが強いモデルであることを意味するのである.つ

まり,(１)降雨量が多く(天候条件),(２)白

の人種が多く(低所得者階級を表現),し

人以外

かも,(３)工場を固定発生源とした

大気汚染物質の代表である二酸化硫黄に汚染されている程度が高いほど全死

因の死亡率が高くなるという,reasonableな

モデルである.

モデル選択の変動を考慮をせずに選ばれた最適モデルとCMVでモデルの(１)予測値のプロットの比較,CMVでロットを図4 .2,図4.3に Orleansが

の最適モデルの(２)残差プ

示した.残差プロットでみるとLouisiana州

のNew

若干高値(推定値が低値)に飛び離れている.

なお,表4.1の

ような死亡率を取り扱うときは,各

を考慮にいれた重み付き回帰モデル,死化線形モデル(generalized 式(4.1)の

の最適

linear model)な

都市の「人口」の大きさ

亡数にPoisson分

布を仮定した一般

どを利用するのがbetterで

ある.

単純な「正規線形」モデルでは人口が大きく異なるとmisleading

な結果につながる危険性が大きい(12章

参照).

練習問題 [問題4.1]y=Xβ+〓,z=Xβ+δ

図4.2

CVで

の最適モデル(p=4)とCMVで

プロットの比較

とし,〓,δ

は独立にN(0,σ2I)に

の最適モデル(p=3)と

の予測値の

従

図4.3 CMVで

うとする.β

の最適モデルの残差プロット

はｙから推定し β=(XtX)-1Xtyと

しよう.そのとき,こ

の推定値を利用して同じ説明変数の値でｚの予測に利用するとき次式を証明せよ.

(4.65) この推定値は式(4.43)に

等しい,つ

[問題4.2]AllenのCV規

準のs

2 CV

まりAIC規

準と漸近的に等価である.

が,式(4.60)の

ようにハット行列を利

用して１回の推定で計算可能となることを次のステップで証明せよ, １)式(4.10)の

ハット行列のｉ番目の対角成分はhii=xi(XtX)-1xtiで

あることに注意して次式が成り立つことを示せ.

２)XtX=

n

Σi=1

xixtiで

あることに注意してDEST

定値 β(-i)は β(-i)=(XtX-xixti)-1(Xty-xiyi) ３)１),２)か

ら

,iから推定された推

-yi-yi

β(-i)=β ここに,yi=xtiβ

４)結局,次

(XtX)-1xi

/1-hii

式が成立する.

なお,式(4,66)は

analysis)に

△β=β-β(-i)

[問題4.3]モ

yi-yi

/1-hii

第ｉ組目のデータが回帰係数の推定値 β に与える影響の度

合を検討する感度分析(sensitivity

た,そ

(4.66)

である.

yi-yi(DEST,i)=

が,ま

の関数であるCook(1979)の

デル選択規準にAllenのCV規

利用してHjorthのCMV規結果を再現せよ.

(4.67)

距離は有名である.

準,変

数選択に総当たり法,を

準アルゴリズムのプログラムを作成し,表4.7の

５測定誤差のある線形モデル―

ここでは,説

測定法の比較

明変数に測定誤差のある場合の回帰モデルの例として測定法

の比較を取り上げる.表5.1は

未熟児20例

の検体から血清Kanamycinの

をheelstick法(Ｘ),umbilical

catheter法(Ｙ)の

２種類の検査法で測定した

ものである.２種類の測定法の比較を統計学的に推論せよ. 表5.1

未熟児20検

値

体から測定した.血清Kanamycin値

5.1

測定には誤差(error)が

誤

差

つきものである.真

値が θである物質の測定値を

ｘとすると誤差〓は〓=x-θ

で定義される.こ

(5.1)

の誤差の中身は大きく分けて

１)分析操作の誤り２)精

密度(precision)ま

３)偏

り(bias),正

たは,偶

然誤差(random

確度(accuracy),ま

の三つに分解できる.す

たは系統誤差(systematic

error)

なわち,

〓=(x-y)+(y-μ)+(μ-θ)

となる.こ

error)

(5.2)

こに,ｙは操作誤りのない場合の測定値である.操作誤りがない

と仮定すれば真値 θをもつ試料をｎ回「繰り返し測定」したときの第ｊ回目の測定値xjは

母平均 μ,母分散 σ2eの正規分布に従う変量と考えられる(誤

差の法則).さ

て,平

均値ｘを利用すると,第

ｊ回目の誤差は

〓j=(xj-x)+(x-θ)

と分解される.こ

こで,第

１項は偏差(deviation)と

推定値である平均値ｘのまわりのバラツキ,つする.そ

よばれ,母

(5.3)

平均 μの

まり測定法の精密度を意味

の平均的な大きさは母標準偏差 σEの推定値としての標準偏差SD

(standard deviation)

(5.4) で推定できる.一表す.言

方,第

２項(x-θ)は

真値からの偏り(μ-θ)の

推定値を

い換えれば測定法の正確度を表すと考えられる,さて,精

密度と正

確度を含めた誤差の総合的指標としての測定精度 σ〓は

(5.5) で与えられる.こ

の精度 σTが臨床においてどの程度まで許容されるかとい

う精度の目標として許容誤差(tolerance

limit)が

よく用いられる.

ところで,測

定誤差の大きさに関しては,現実に測定される値の全域での

評価が必要不可欠となる.しかし,標準試料の値を連続的に動かすのも現実的ではなく,実際には低値,中評価を行う.この場合,真

値,高

値,な

ど数点適宜選定して測定誤差の

値 θ と測定値ｘとの間に x=μ+〓=α+β

という線形関係が成立することが多い.こ

θ+〓 (5.6) こで,α

は一定系統誤差(constant

systematic

error),β

は比例系統誤差(proportional

systematic error)と

よ

ばれる.正

確度の評価ではこの２種類の誤差は区別して評価しなければなら

ない.

5.2 正確度の評価の基本

さて,最

も基本的な正確度の評価方法は標準試料を利用して,２

系統誤差の大きさを検討することである.す異なる標準試料を α 個用意し,そる.測

なわち,真(表

種類の

示)値

θiの

れぞれｂ回繰り返し測定する実験を考え

定順序に関してはなんらかの適当なrandomizationを

{xij:i=1,...,a;j=1,...,b;N=ab}と

し,一

施す.測

定値を

定系統誤差を α,比

例系

統誤差を β とすると xij=α+β

θi+〓ij,

という回帰分析で α と β を推定する,こ

〓ij∼N(0.σ2e)

(5.7)

こでの統計学的推測の興味は,そ

れぞれの信頼区間と１)H0:β=1の

検定

２)H0:α=0の

検定

等であろう.

5.3

測定法の比較

近年の臨床検査技術の進歩はめざましく,新しい測定法が次々と開発されている.測

定法の取り換えに際しては,従

来法と新しい方法の比較検討が

重要となる.こ

の際,日

に示す例では,図5.1に

常遭遇する患者検体を利用する場合が多い.表5.1 示すように,ｘ軸に従来法であるheelstick法,ｙ

に新しい方法であるumbilical catheter法

の測定値をプロットして回帰直線

を計算して...という誘惑に駆られそうであるが,実んでいるのである.表5.2に

は1986年

軸

はここに落とし穴が潜

の雑誌「臨床病理」に掲載された臨

床検査法の比較に関する論文の中で使用されていた回帰直線の例を示す.なお,以

下の議論は,臨

床検査を例にあげるものの,測定法一般について適用

図5.1

表5.2

1986年

表5.1の

の臨床病理(Vol.34)に

主要な結果(丹

後,1988)

データの線形回帰式

掲載された測定法の比較に関する主な論文での

できる.

5.3.1 線形回帰式と線形関係式従来法の測定値をｘ,新しい方法のそれをｙとしよう.同一試料を二分して測定値{(xi,yi),i=1,2,...,n}を

測定する場合を考えよう.測定法を比

較する場合,まず精度が悪ければお話にならない.あ法の精密度を検討して.測

らかじめ２種類の測定

定誤差の分散比 σ2y/

λ= σ2x

(5.8)

を推定し,λ が許容される限界を越えれば新しい測定法には交換できないと判断するのが順当であろう. さて正確度の比較の基本モデルは,ｉ番目の試料の真値を θiとすると,次の線形モデル xi=θi+δi,

yi=α+β であり,通

δi∼N(0,σ2x)

θi+〓

常の線形回帰式(linear

ｉ，〓i∼N(0,σ2y)

regression

(5.9)

(5.10)

line)

yi=α+βxi+〓i

ではないことにまず注意したい.期

待値で表現すれば線形回帰式は

E(y)=α+βx であるのに対して,こ

の場合のモデルは E(y)=α+βE(x)

という違いがある.線形回帰式では,xiに

(5.11)

誤差は許されていない,も

しくは

ｘ軸の測定誤差がｙ軸に比較して無視できる場合を想定しており,パラメータ推定値は最小２乗法(最

尤推定法)に

より

Sxy

β=

/ S2x

α=y-βx で与えられることはよく知られている.し最小２乗法またはモーメント法により,

(5.12)

(5.13) かし,式(5.10)の

α,β

は後述の

(5.14) α=y-βx で推定される.こ (検体間)の

こで,S2x,S2y,Sxyは

標本分散,共

(5.15)

分散である.も

し,θi間

バラツキに正規分布が仮定できる場合にはこの推定値は最尤推定

値に一致する.こ [例題5.1]線

の関係式を線形関係式(linear

形関係式は観測点Ｐ(xi,yi)か

でのｘ軸方向,ｙ

relationship line)と

いう.

ら直線上の点Ｑ(θi,α+β

θi)ま

軸方向の距離をそれぞれの測定誤差 σ2x,σ2yで規準化した距

離の平方和

(5.16) を最小にする,最

小２乗法で導かれることを示せ.こ

こで θi,i=1,2,...,n

は未知である. [解答]線

形モデル(5.9),(5.10)よ

はそれぞれ直線上の点(θi,α+β ると考えられる,し

り,測

定値のペア(xi,yｉ),i=1,2,...,n

θi)を中心に二次元正規分布(無

たがって,パ

相関)を

ラメータの最尤推定値を考えると,測

差で規準化された距離D2(Mahalanobis

す定誤

distance)

(5.17) を最小化する問題に還元される.も

し,ｘ軸方向の測定誤差がなければｘ軸

方向にデータのバラツキはないので, θi=xi,

i=1,2,...,n

であるから,ｙ軸方向の誤差だけを考慮に入れればよく,それは通常の最小２乗法に一致する. まず点 θiを推定するのに偏微分

となる.こ

れをD2に

代入すると

∂D2/ ∂θi

=0を

計算すると,

(5.18) となる,こ

のD2に

関する連立偏微分方程式

を解くと βに関する二次方程式 Sxyβ2-(S2y-λS2x)β-λSxy=0 が導かれる.こを満たす.こ

れを解けば,式(5.14)が

得られる,も

(5.19)

ちろん α は式(5.15)

の方法はそれぞれの真値 θiが固定されている(fixed)と

linear functional relationshipと [例題5.2]モ

考えた

よばれる*1).

ーメント法によっても式(5.14),(5.15)で

与えられる推定値が

導かれることを示せ. [解答]検

体の真値

(5.9),(5,10)よ

θiの期待値と分散を μ,σ2と

すると,線

り E(Xi)=μ

E(yi)=α

σ2x

Var(yi)=β2σ2+σ2y Cov(xi,yi)=β

(5.19)の

(5.20)

＋ βμ (5.21)

Var(Xi)=σ2＋

が成立する.こ

形モデル

σ2

れらの式に標本平均,標

本分散,標

二次方程式が得られ式(5.14),(5.15)の

(5.22) (5.23) (5.24)

本共分散を代入すると式

線形関係式が推定される.こ

の方法はそれぞれの真値 θiがある分布に従う変量(random

variable)で

と考えたlinear structural relationshipと

定誤差を考慮し

よばれている.測

ある

た統計学的推測はこの考え方が利用される. さて,式(5.12),(5.22),(5.24)よ

り

(5.25) *１) なお

,こ

n＋2で

の方法では推定すべきパラメータが

α,β,θi(i=1,2,...,n)と

あるため統計学推測一般には適さない.

データ数より２個多い

が導かれる.つ

まり測定誤差 σ2xを無視して回帰直線を推定すると真の傾き

β より小さめに推定されてしまう(attenuated to zero)ことがわかる.測

定

誤差 σ2xが大きいほど小さくなる.

をattenuation

factorと

よぶ.

5.3.2 Bootstrapに

よる推測

推定値 α,βの標準誤差,帰

無仮説「H0:β=1,α=0」

の検定,信

頼区間

の計算などの推測は通常の回帰モデルと異なり容易ではない.日常遭遇する患者検体の中から選ばれる検体(真

値)の

分布が正規分布する仮定も不自然

であるし,そのように仮定しても理論的な推測は容易ではない.しここでは分布型に依存しないbootstrap法(３的でもあり便利であろう.例

えば,勾

章参照)を

の問題点は問題5.6参

１)ωi=(xi,yi),i=1,2,...,nと

ンプルをbootstrap ３)こ

のbootstrap

４)Step２-３

中から重複を許して無作為に(コ

組のサンプル(ω*1,...,ω*n)を sampleと

sampleを

信頼区間はEfronのBC法(3.4.2項)まのが簡単である.

抽出する.こ

のサ

代入して β*を計算する. 得る.信

頼区間を計算する

が必要である.

推定値 β の標準誤差のbootstrap推

こに,β*=

ンピュー

よぶ.

式(5.14)に

のが最終目的の場合はB=2000位

で与えられる.こ

以下に示

照).

をＢ回繰り返し,{β*1,...,β*B}を

５)式(5.14)の

bootstrap)は

かし,

する.

２)ｎ組の測定値(ωi,...,ωn)のタ乱数を利用して)ｎ

利用するのが実際

配 β に関する一つの簡単な,し

少々過大評価ぎみのアルゴリズム(nonparametric すとおりである(そ

たがって,

ΣB1β*j/Bで

定値は

ある.

たは,BCa法(3.4.3項)を

利用する

[例題5.3]表5.1の [解答]こ

未熟児のデータについて解析してみよう.

こでは測定誤差の分散比は λ=1と

S‐Plusで行い,そ

のプログラムは付録B.4に

仮定できるとしよう.計算は示す.推定された線形関係式は

E(y)=-1.16+1.07E(x) であった.ま

たB=2000と

してbootstrap法

形関係式y=α*j+β*jx,j=1,...,Ｂを図5.3に

示した.ま

を図5.2,ま

た,BC法

により,α,β

β: 0,72∼1.53,

た,α*jと

の線

β*jの散布図

の信頼区間は

SE=0.222

α:-10.70∼5.20,

と推定された.こ

により推定した2000本

SE=4.279

の結果より,帰無仮説H0:α=0,β=1を

積極的に否定

できず,２種類の測定方法の差異認める十分な証拠はないと推測できる.また,二

つの回帰直線は y =2

図5.2

表5.1の

.786＋0.881x

データの線形関係式のB=2000回

のbootstrap推

定

図5.3

表5.1のbootstrap

sample(α*j,β*j,j=1,...,B)の

散布図

x=-5.350+1.271y であった.こ

れらの３種類の直線を図5.4に

は定点(x,y)=(20.86,21.15)を

5.3.3

示した.も

つの直線

通る.

繰り返し測定のある場合

繰り返しデータがない場合には,あおく必要があったが,も

し,同

らかじめ測定誤差の分散比を推定して

一試料を４等分してそれぞれ２回繰り返して

測定したデータ{(xij,yij),i=1,2,...,n;j=1,2}がはなく,か１)精

ちろん,三

つ,よ

得られれば,そ

の必要

り完全な解析が一挙に可能となる.

密度の比較まず,そ

れぞれの精密度,例

えば,

(5.26)

図5.4

を計算して,分

表5.1の

データの線形関係式

散比を

(5.27) と推定するとともに信頼区間を計算することができる.帰無仮説 H0:σ

の下では,式(5.27)は

2

自由度(n,n)の

x=σ

2 y

(5.28)

Ｆ分布に従うので,検定により

新しい方法の精密度を検討することが可能である. ２)正確度の比較基本モデルは,式(5.9),(5.10)と

同様で,真

値を θiとすると,次の

線形モデルで与えられる. xij=θi+δij,

δij∼N(0,

2 σx

) (5.29) 2

yij＝

α+β

θｉ+〓ij,

〓ij∼N(0,

σy

)

(5.30)

このモデルでは α,βの推定が,

(5,31)

と変換することにより,式(5.14),(5.15)が

利用できる.λ

は式(5.27)

の推定値が利用できるのである. ３)患

者試料の大きさ

さらに,新

しい測定法の精度が従来法に比較して,許

容できない精

度をもつものを検定で排除するために最低限必要な標本サイズを考えることが可能である.そ

れには,まず,測

定誤差の分散比(＝

変動係

数の比の２乗)

(5.32) の許容限界 λ0を設定することである.そ

うすると,式(5.28)の

仮説の下での等分散のＦ検定において,Ｆn,n(α)を側100α%点

帰無

自由度(n,n)の

とすると有意水準 α で有意差が出る(設定した λ0を検出

する)確率,す

なわち「検出力1-β 1-β=Pr{F＞Fn

したがって,標

本サイズnと

」が次式で計算できる. ,n(α)/λ0} (5.33)

λ0の値(CVの

比の２乗)の

組み合せ

に関する検出力を計算し,必要なｎの値を検討する.表5.3に値を示す.現

実には,少

なくとも,検出力80%は

一部の

ほしい.

練習問題 [問題5.1] 線形関係式の傾き β に関して次の命題を証明せよ. １

上

λ → ∞ のとき β=βy￨ｘ=Sｘ

２

λ →0の

とき β=β

３

βx｜y〓 β 〓 βylx

４

λ=1の

ｘ￨y=Sxy/

2

ｙ/S x

S

2 y

(式(5.12))

(ｘのｙに対する回帰式の傾き)

とき β は２変数ｘ,ｙの主成分分析(principal

表5.3

有意水準5%で

の検出力(%)の

表

component

analysis)を [問題5.2]

適用したときの第１主成分の傾きに等しい.

例題5.1で,T(xｉ,α+βxｉ)と

すると

tan∠QPT=β/λ

であることを証明せよ. [問題5.3]

式(5.18)を

変形すると

となる.これから類推して,線形関係式のモデルの検証のための残差統計量は

表5.4

患者検体48例

から２種類の方法で測定したある臨床検査値

(5.34) であり,モ

デル(5.9),(5.10)が

に,約99.7%が

正しければ,残

区間(-3,3)に

差の約95%が

入ると推測できそうであるが,こ

区間(-2,2) のことを説

明せよ. [問題5.4]

表5.1の

データの残差プロットを行え.

[問題5.5]

表5.4は

ある検査に関する標準法(reference

提案された方法(proposed

method)に

よる48検

方法で２回繰り返して測定したデータである.線

method)と

新しく

体を利用してそれぞれの形関係式を推定せよ(答:

E(y)=−6.629+0.991E(x)). [問題5.6] に,計

5.3.2項

で解説した線形関係式でのbootstrap

画行列が変化し,計

されている.そ

こで,例

画行列のsamplingの題5.1を

sampleで

はつね

影響で分散推定が大きめに

参考にして

δi=xｉ-θi〓

ｉ=ｙi-ａ-β

とした誤差(δi,〓i),i=1,....nかルゴリズムが考えられるか? [問題5.7]

らのbootstrapを

考えたらどのようなア

またその結果を比較してみよ.

式(5.9),(5.10)で θi∼N(μ,σ2)

と仮定できる場合,α,β を示せ.

θi

(5.35)

の最尤推定値は式(5.14),(5.15)に

一致すること

６一般化線形モデル(GLIM)

表6.1は,あ

る薬剤の50%致

死量(LD50,median

ことを目的とした毒性試験のデータである.ロ

lethal dose)を

推定する

ジスティック回帰モデルで推

定してみよう.

6.1

Nelder and generalized

は

Wedderburn(1972)に linear

model)は

じめに

より提案された一般化線形モデル(GLIM, 今日の医学分野における統計学的推測の根幹を

なす基本モデルである(McCullagh

and

Nclder,1989).そ

れは,古

典的な線

形モデルにおける誤差項に仮定されていた正規分布の枠組みを外し,正

規分

布になじまない確率変数に対しても統一的な線形推測が可能となるようにしたものである.い

くつかの例を紹介しよう.

１)正規線形モデル表6.1

毒性試験データ

４章で例題として利用した大気汚染の健康影響に関するデータの線形回帰モデルは,誤

２)ロ

差に正規分布を仮定すると,次のように表現できる. yi∼Normal(μi,σ2)≡N(μi,σ2)

(6.1)

μi=β0+β1xi1+…+βpxip

(6.2)

ジスティック回帰モデル

表6.1に

示す動物を利用した毒性試験のデータにおける解析の一つ

の方法は,各用量群の標本サイズmiの

中の観測死亡数diが

piを母数にもつ二項分布Binomial(pi,mi)に

死亡確率

従う確率変数で,用

量反

応曲線がロジスティック曲線に従うモデルを導入することである. di∼Binomial(pi,mi）

(6.3)

(6.4) ３)ロ

ジスティック回帰モデル

アメリカのフラミンガムで開始された冠状動脈性疾患のリスクファクターに関する大規模コホート研究では,調するリスクファクターxi=(xi1,...,xip)を

査対象者ｉ毎に(１)検討追跡開始時点で観測,(２)

12年間の追跡期間での当該疾患の発生の有無di=0(無),１(有)を

観測

した.当該疾患の発生確率piに影響を与えるリスクファクターを検討する一つのモデルは次のように表現できる. di∼Binomial(pi,１)

(6.5)

(6.6) ４)Poisson回

帰モデル

ある県内の市町村毎の死亡率の比較に標準化死亡比(SMR,standard mortality

ratio)がよく用いられる.そ

れは観測死亡数diを(県

または国全体の年齢階級死亡率に基づいて計算される)ベ期待死亡数E0iで

除した比である.死

社会経済的要因xi=(xi1,...,xip)をデルは,死

全体

ースライン

亡率の地域差を説明するために説明変数として行われる回帰モ

亡数が期待死亡数 μiをもつPoissozi分

布Poisson(μi)に

従う確率変数と考えた次の対数線形モデル(log‐linear model)が

標準的

な統計モデルである. di∼Poisson(μi)

(6.7)

logμi=logEoi+β1xi1+…+βpxip

この線形モデルから,説

(6.8)

明変数で調整されたSMRの

推定値が

(6.9) として求められる.

6.2

GLIMは

GLIMの

次の三つの成分で規定されるモデルである.

(１)ランダム成分(random 規分布,二

三つの特徴

component)

項分布,Poisson分

確率変数Yiの

従う分布は,正

布などを含む指数型分布族

(6.10) である.こ

こに θiは正準母数(canonical

数(dispersion れる.Yiの

parameter),ま

parameter),φ

たは局外母数(nuisance

は散らばりの母 parameter)と

よば

期待値と分散は μi=E(Yi)=b(θi)

(6.11)

Var(Yi)=ai(φ)b(θi)

で与えられる.こ

こで,b(θ)は

ance function)と

期待値 μ だけの関数であり,分

よばれる,こ

(6.12)

散関数(vari

の意味で, V(μi)=b(θi)

としておく.ま

(6.13)

た,ai(・)は ai(φ)=φ/ui,(uiは

の形に特定する．さて,指

(6.14)

数型分布族の例を典型的な分布で調べてみると次

のとおりである. １)正規分布:Ｙ

既知)

∼ Ｎ(μ,σ2) α(φ)=φ;ui=1

b(θ)=θ2/2 μ=θ V(μ)=1

２)二

項分布:Y=d/m,d∼Binomial(μ,m),μ=p α(φ)=1/m,φ=1,ui=mi b(θ)=log(1+exp(θ)) μ=1/(1+exp(-θ)) V(μ)=μ(1-μ)

３)Poisson分

布:Y∼Poisson(μ) α(φ)=1,φ=1,ui=1 b(θ)=exp(θ)

μ=exp(θ) V(μ)=μ

(２)系統的成分(systematic

component)

明変数，共変量の線形結合をGLIMでとよび,η

通常の線形モデルで考える説

は改めて線形予測子(linear predictor)

で表す:

(6.15) (３)連結関数(link function)

期待値 μiと線形予測子 ηiとを連結する

関数g(・): g(μi)=ηi=xtiβ を連結関数とよぶ.連

結関数の中で,特

のが正準連結関数(canonical

(6.16)

別な,し

かし,標

準的に利用される

link function)

g(μi)=θi=ηi=xtiβ

(6.17)

である.この連結関数による推測は θの十分統計量が利用できるので,他連結関数より特に小標本で望ましい性質がある.例えば,その正準連結関数は次のとおりである.

の

れぞれの分布で

１)正規分布:μ=η(正

規線形モデル)

２)二項分布:log{μ/(1-μ)}=η(ロ３)Poisson分

ジスティック回帰モデル)

布:logμ=η(Poisson回

帰モデル)

これ以外の連結関数としては１)プ

ロビット変換

Φ-1(μ)=η (6.18) ２)complementary

log-log変

換

log{-log(1-μ)}=η ３)Box-Cox変

(6.19)

換

(6.20) などが利用される,

6.3最

さて,母

尤

推

定

数の推定は最尤推定が用いられる.最

尤推定量 β は対数尤度

(6.21) を最大にする,つ

まり,βs,s=0,1,...,pで

偏微分して

(6.22) を満たす.こ

こに

(6.23) である.さ

て,正

準連結関数を考えれば,

となることに注意しよう. 次に,式(6.22)を

βtで偏微分すると

(6.24) となる.そ

の期待値をとると

(6.25) ここに,

(6.26) である.し

たがって,Fisherの

スコア法を利用すれば,ベ

クトル表示で,

(6.27)

を解けばよい.最

尤推定値の漸近分散はFisherの

情報行列の逆行列

(6.28) で与えられる. ここでは,式(6.27)を

さらに変形してみよう.

となる.こ

れは

という回帰モデルの最小２乗解の反復計算となることがわかる.言い換えれば,β

の最尤推定の反復計算の各過程は,

〓重み:ωi=1/{αi(φ)b(θi)(g(μi))2} 〓従属変数:ηi+g(μi)(yi-μi) 〓説明変数:xi

と設定した通常の重み付き線形回帰モデルで最小２乗解と同値となることがわかる.例

えば,正

規分布のケースであれば,重

明変数はそれぞれyi,xiと一致する. ところで,式(6.29)の値が必要になるが,一のが通常である.してはy=0,1で

なり,繰

みは ωi=1,従

属変数,説

り返しなしの通常の線形回帰モデルに

重み付き最小２乗解の反復計算には従属変数の初期般にはデータ自身yiを

かし,二

μiに代入した η(yｉ)を用いる

項分布の場合の η(y)=log{y/(1-y)}に

発散しまうので,そ

おい

のような場合には微調整した η(yi+〓

と設定する必要がある.

6.4

モデルの適合度の評価

一般化線形モデルのデータに対する適合度を評価する方法としては,尤度比検定規準の考え方を利用した"scaled deviance"を

利用する.それは,デー

タ自身を代入した full model

の対数尤度 ι 〓とp+1個(interceptを

〓:θ=θ(yi)

考慮しての「+1」)の母数をもつモ

デルの最大対数尤度 ιpとの差の２倍で定義される:

(6.30) ここで,D(p,〓)を

“deviance”

とよぶ.“scaled

ルが正しいという帰無仮説の下で漸近的に(正由度n-p-1の

χ2分布に従う.例

deviance”

は,現

在のモデ

規線形モデルでは正確に)自

えば,

１)正規線形モデルこの場合には

(6.31) とよく知られた性質が導かれる. ２)二項分布モデルこの場合には,

であることに注意して式を変形していくと

(6.32) が得られる. ３)Poissonモ

デル

(6.33) が得られる.

二項モデル,Poissonモ

デルでは,deviance統

計量以外にPearsori

χ2適

合度統計量

(6.34) が利用できる.ま

た,そ

の成分のPearson残

差

(6.35) である.正規線形モデルの残差はこのPearson残

差を散らばりのパラメータ

φ の推定値で規準化した残差

(6.36) を利用するのが通常である.二が適合していればX2の

値はdevianceと

E(X2)=n-P-1(現

かし,多

れらの漸近性がくずれ,特

6.5

くの観測度数miまにdevianceの

Analysis

たは,yiが

のよ

ある.

of deviance

局外母数 φ を含まない統計量であるため,こ

デルではanalysis

小さ

性質が悪くなる.こ

計量がbetterで

て正規線形モデルではいわゆる分散分析(analysis Poissonモ

在のモデル

同様

うな場合にはどちらかというとPearson統

さて,devianceは

デルで,現

在のモデルが正しいという条件で)(6.37)

の近くにあるはずである.しいと,こ

項モデル,Poissonモ

of devianceが

of variance),二

れを用い項モデル,

展開できる.

その準備として Mp=p+1個として,二

の母数を含むモデル

つのモデルMpとMq(P＞q)を

り,ここで,興

比較することを考えよう.つ

ま

味ある検定仮説は

H0:モ

デルMPか

ら除かれた(p-q)個

の母数の効果はない

H1:モ

デルMpか

ら除かれた(p-q)個

の母数の効果はある

(6.38)

である.まて,そ

ず,正

規線形モデルでは

のdeviance(=残

「最大モデルの母数の数をpmax」

差平方和)をD(pmax,〓),自

とし

由度をn-pmax-1と

すると,「最大モデルを前提にして」散らばりのパラメータ φ を,

(6.39) と推定しておく.そうすると,帰無仮説の検定統計量はＦ検定統計量となる:

(6.40) つまり,これにより,分散分析表が構築できる . 一方,二

項分布,Poisson分

布の場合にはscaled deviance=devianceで

あるので単純に,「devianceのまり,大

差として」尤度比検定統計量が定義できる.つ

きいモデルMpが

正しいという帰無仮説の下で

(6.41) が成立し,モ

デルMpか

ら除かれたp-q個

比検定により計算できる.こ deviance"が

の母数の有意性検定が尤度

れを繰り返し適用することにより"analysis of

できるのである.

6.6

Over-dispersion

正規線形モデルを除くと,確率変数Yiの分散が期待値の関数となっている, 二項分布:V(μ)=μ(1-μ) Poisson分

これは,同

布:V(μ)=μ

じ説明変数の値xiを

同じ期待値 μi,同じ分散V(μi)をいる.現

実には,全

もつ個体すべてが同じ確率分布 ,すなわち, もつというかなり強い条件が課せられて

く同じ年齢 ,同じ生活習慣を有していても個体差があ

り,観測・制御不可能な要因により期待値が変化する.こ

のような場合に

は観測値の分散が分布で規定されている分散より大きくなる.こ over‐dispersionといい,程

の現象を

よく適合しているモデルでもdeviance,Pearson

統計量がかなり大きくなり,有意に適合が悪いという答えを出してしまう. いま,二

項分布の例で,μiの

個体差が平均 μ,分散〓2を有する確率変数で

あるとすると E(yi)=Eμ(E(yi￨μi))=μ

(6.42)

(6.43)

となる.ベ

ータ二項分布はこの種のover‐dispersionを

るために利用されるが,一

積極的にモデル化す

般的に適用できるほどの柔軟性はない.そ

こで,

〓2=cμ(1-μ)

とおけば式(6.43)は (6.44)

と表現される.Poissonモ -likelihood approach)と

デルでも同様である.こいうつ

まり，分散関数を

V(μ)〓とする方法である.し

の方法を疑似尤度法(quasi

たがって,モ

σ2V(μ) (6.45) デルをフィットさせた後で,残

差などを

検討しても系統的な不適合がみられない場合には式(6.34)のPearson

χ2適

合度統計量で σ2=X2/(n-p-1)

と推定し,パ

ラメータ β の共分散行列を

(6.46)

表6.2

ダミー変数のつくり方の例

(6.47) と変更し,興味あるパラメータの検定,信

6.7

頼区間を計算する.

回帰係数の解釈

従来の線形モデル用いられる変数は基本的には間隔尺度である計量値,連続量であるが,名義尺度,順序尺度である κ個のカテゴリー(グループ)かなる変数を利用することが多い.その場合には,ダならない.そ

の代表的な方法の一つが,基

ミー変数を作成しなければ

準カテゴリー(reference category)

を定義してそれに対する「差」を表現する(κ-1)個ることである.例

えば,変

基準カテゴリーとし,第すると,表6.2の

数xjが

ら

のダミー変数を定義す

５カテゴリーの場合,第

１カテゴリーを

２カテゴリー以降のダミー変数を(xj2,...,xj5)と

ように作成することになる.ま

た,合成変量Ｚの中の変数

xiに対応する部分は βjxj⇒

βj2xj2+...+βjKxjK

と変更されることに注意したい.例

えば,式(6.6)に

おける冠状動脈性疾患

のリスクファクターに関する大規模コホート研究において,喫りの喫煙量)の {1:=喫

影響をみるために.ア

煙経験なし,2:=1箱

リーとして,喫

より多い}

の場合,｢喫煙経験なし｣を

煙の影響を考えてみよう.変数x1を

は連続変数として,式(6.6)の

日当た

ンケート調査において

未満,3:=1箱,4:=1箱

という質問票が作成されている.こ

煙(１

対数(ここでは,個

規準カテゴ

喫煙として,他

の変数

人を表す添え字ｉは繁雑に

なるので省略する)をとると, p

=exp(β0+β12x12+β13x13+β14x14+β2x2+…

/1-p

+βpxp)

(6.48)

となる.左

辺はリスクファクターｘをもつ個体の冠状動脈性疾患を発症す

る確率p(x)の

発症しない確率1-p(x)に

(incidence odds)で

ある,そ

対する比,す

なわち発症オッズ

こで,「喫煙経験のない人」の発症確率p(xA)と

「１日１箱より多く喫煙する」人の発症確率p(xB)を

比較してみよう.ここに

xA=(0,0,0,x2,x3,...,xp)

xB=(0,0,1,x2,x3,...,xp) である.ここで,あ

る因子の効果を比較できるということは,他のリスクファ

クターの値が同じという条件が必要である.そ

こで,そ

の条件の下で,そ

れ

ぞれの発症確率は

となり,そ

の比をとると,オ

ッズ比(odds

と計算できることがわかる.こ

ratio)が

のオッズ比を他の変数(交

た調整オッズ比(adjusted odds ratio)とよぶ.こ

絡因子)を

のようにして,疫

おけるロジスティック回帰モデルの適用結果の解釈では表6.3の毎に整理することが多い. 表6.3

回帰係数の解釈

調整し

学研究に

ように変数

一方,Poisson回

帰モデルにおいて同様な計算により導かれる指標は相対

リスク(relative risk)と

よばれる.

6.8 適

用

例

ここでは,２種類の適用例を紹介しよう. (１)量反応関係のロジスティック回帰モデル表6.1に

示す毒性データ

の量反応曲線にロジスティック回帰モデルを適用してみよう.表6.1のデータそのものを利用できるS‐Plusの

「glim関数」を利用したプログラム

は次に示した. S‐Plus

program:図6.1,表6.4,表6.5

xx←c(1.691,1.724,1.755,1.784,1.811,1.837,1.861,1.884) d←c(4,10,19,31,52,53,60,60) n←c(59,60,62,56,63,59,62,60) dose←glim(xx,d,n,error="binofmial",link="logit",resid="Pearson")

図6.1

表6.1の

頻度

ロジスティック回帰モデルによる死亡率の推定値と観測値

表6.4

表6.5

deviance分

析表

ロジスティック回帰モデルによるPearson残

差

推定結果は log

となった.推

p/

= -64

1-p

.77+36.53x

定誤差はSE(α)=5.51,SE(β)=3.10で

曲線は図6.1に

示した.し

ある.推

たがって,LD50はp=1/2つ

定された量反応

まり,α+βx=0な

る

xであり,ｘ軸は対数目盛りであることに注意して,x=1064.77/36.53=59.29 と推定される.ま

た,deviance表

は表6.4の

とおりである.モ

は尤度比検定で χ2=4.07,df=6,two-tailed

p=0.66と

デルによる推定値,Pearson残

示す.

差を表6.5に

デルの適合度

悪くない.ま

た,モ

特別に系統的な残差のパターンは観察されない. (２)放射線被曝従業員の追跡調査におけるPoisson回

帰モデルあるエ

ネルギー研究所での低濃度放射線の健康影響を調査するために実施された従業員7778名

の追跡調査(1943‐1977)の

た例を紹介しよう.説

解析にPoisson回

明変数としては

１)x1=累

積被曝線量(dose):４

２)x2=年

齢(age

３)x3=暦

年(year

４)x4=就

業期間(employment):４

５)x5=追

跡期間(follow‐up):４

at risk):９ at risk):４

カテゴリーカテゴリーカテゴリー

カテゴリーカテゴリー

帰モデルを適用し

を取り上げている.標

本は全体で,最

層別されるが,こ

の場合には390の

(person‐years)Ｎ

を集計して,期

大4×9×4×4×4=2304個層に層別された.層

の層に毎に死亡数ｄ,人年

待死亡数 μ のPoisson回

帰モデル

d∼Poisson(μ)

(6.49) を適用している.こ

こで,d/N=pは

観測死亡率である.その結果の一部と

して全死因に関する解析のプロセスと累積被曝線量の第１カテゴリーを規準とした各線量カテゴリーにおける死亡相対リスクの推定値を表6.6に線量だけを入れたモデルでは,線向がみられ,特

量の増大につれて相対リスクの増大の傾

に３番目の線量カテゴリーで相対リスクが1.47を

かし,モデルのdeviance=1699,

示す.

df=386で

示した.し

適合度がきわめて悪い。他の交

絡因子を説明変数に順々に入れていくとモデルの適合度が徐々によくなり, 全変数を入れた段階ではdeviance=369,df=369と表6.6

あるエネルギー研究所の低濃度放射線被曝に関する追跡調査の全死因に関する Poisson回

表6.7

きわめてよくなり,ま

帰モデルの適合度と相対リスク

あるエネルギー研究所の低濃度放射線被曝に関する追跡調査の全死因に関する Poissson回

帰モデル:各

変数の有意性検定

た,over‐dispersionも

みられない.そ

の傾向はみられない.まで行うと,表6.7に

の結果,線

た,式(6.41)に

量の増大と死亡との間に正

よる各変数の有意性を尤度比検定

示すごとくになる.年

齢効果がはるかに大きいことがわ

かる.

練習問題 [問題6.1]正

準連結関数を利用すれば,最

法とNewton‐Raphson法 [問題6.2]一

尤推定におけるFisherの

スコア

は同じとなることを示せ.

般化線形モデルでのAIC(Akaike's

information

criterion)は

どのように定義できるか? [問題6.3]帰

無仮説 H0:β1=…=βp=0

の下での最大尤度をL(0)と

すると、一般化線形モデルにおけるｐ個の説明

変数の「寄与率」は

(6.50) と定義できる.な

ぜなら,正

の寄与率の定義に一致し,一る.一

規線形モデルでは式(6.50)は

式(4.46)の

通常

般化線形モデルへの拡張と考えられるからであ

致することを示せ.

[問題6.4]式(6.27)を作成し,表6.1に

利用してロジスティック回帰モデルのプログラムを示す毒性データに適用し,S‐plusの

結果(表6.4‐5)を

再現

せよ. [問題6.5]平

均値を μ とするガンマ分布

もまた指数型分布族である.式(6.10)の

θ,α(φ),b(θ),c(y,φ)を

求めよ,

７ノンパラメトリック回帰モデル

図7.1は

茨城県龍ヶ崎地方城取清掃工場(以下,ご

の中から公募で選ばれた男性57名

み焼却施設)週辺の住民

の血液中のダイオキシン濃度(pg‐TEQ/g

脂肪)と住民の居住地の焼却施設からの距離との関係である.血

中濃度は焼

却施設周辺に高いといえるだろうか?

図7.1

茨城県龍ヶ崎地方城取清掃工場週辺の住民(男性)57名の血液中のダイオキシン濃度(pg‐TEQ/g脂肪)と焼却施設からの距離との関係である

7.1

まず,手

基本的アイデア

元にあるデータが (yi,xi),i=1,...,n

であるとし,ｙの変動をｘで説明したい状況を考える.さ

(7.1)

らに,神様だけが

ご存知のモデルが y=s(x)+〓,

E(〓)=0,Var(〓)=σ2e

と表現できる場合を考える.こる.未

こでs(･)は

未知の真の

(7.2)

「滑らかな」関数であ

知の関数をパラメトリックに仮定せず,「滑らかさ」だけを仮定して,

データ自身に語らせようというのがnonparametric回であり,そ

の推定値ｓをsmootherと

age,running

mean)が

いう.い

わゆる移動平均(moving

そのための最も基本的な方法であり,い

済の時系列データの処理によく利用されている.そ幅ｈの窓(window)の

帰モデル(smoothing)

れは,点

aver

までもよく経

ｘを中心として

中に入るデータの平均値を利用した方法で,

κ(xi-x￨h)= 0,その他 {1,xi〓[x-h,x+h]

(7.3)

とおいたとき,

(7.4) で表現できる.なぜならば,

(7.5) はwindow[x-h,x+h]の

中に入るデータの数であるからである.式(7.4)

の平均という操作を「中央値」に置き換えれば,移

median)と

なり,平

均値よりrobustなsmootherと

動メディアン(running なるが,等

れているようなデータ以外にはあまり有用ではないので,こ象外とする.

間隔で測定さこでは議論の対

7.2

式(7.3)を,よ

局所重み付き平均 ―kernel

smoother

り広い範囲の関数に拡張して,改

めて重み関数を

(7.6) とおくと,

(7.7) となるから,

(7.8) で定義された局所重み付き平均(locally weighted (kernel)に

もつkernel

メータとよぶ.一

smootherと

般に,ｈ

幅(width)を

behaviour)」

核

数のｈをsmoothingパ

ラ

ようにかならずしも利用するデータの

意味しない,し

表すのでbandwidthと

数ではwindow内

いう. Kernel関

は式(7.3)の

範囲を定義するwindowを

average)を,た(z￨h)を

かし,そ

よばれる.さ

れに似た範囲(band)のて,式(7.3)のkernel関

のデータの重みは等しく設定されているが,「局所性(local を考えれば, ｘの近くは重みを大きくし,遠

重みを小さくする方法が自然である.kernel関

くにいくに従って

数に要求される主な性質をま

とめると

となる.中

でも,平

均０,分散h2の

正規分布

(7.9) は代表的である. 図7.2に

は,図7.1の

データ(変

設からの距離をdistance)に

数名:ダ

対して,式(7.9)の

イオキシン濃度をdiox,焼

却施

正規分布をkernel関

数と

図7.2

bandwidth

ｈを1.0(0.5)5.0と

変化させていったときのkernel

smootherの

推定値の変化

して,bandwidth smootherを

ｈを1.0(0.5)5.0と

変化させていったときの九つのkernel

重ねて描いたものである.

S‐Plus program:図7.2

for(i in 2:10){

lines(ksｍooth(distance,diox,kernel=”normal”,

bandwidth=i*0.5),lty=l,col=i）

} データが粗(sparse)な

ところ(3km付

近)は, bandwidthの

変化しているのが理解できよう.bandwidthの凸な曲線を描いている.図7.2か

らの全体の印象としては,血

キシン濃度が焼却施設付近からわずかに減衰曲線(直れた地点ではだいたい1pg‐TEQ/(ｇ

値で大きく

値が小さいほど,大

線)を

脂肪)から1.5pg‐TEQ/(ｇ

きく下に

液中のダイオ描き,7km離脂肪)程度低

下していると解釈できよう. 次に,式(7.8)を

各データポイントxjで

考えると

(7.10) つまり,ベクトル・行列で表現すると y=s=Sy となる.こは,デ

の表現の意味は重要である,な

ータy=(y1,...,yn)tの

(7.11) ぜなら,後

述するすべてのsmoother

変換Ｓとして定義できるからである．一般

線形モデル

y=Xβ+〓

における推定量は

y=X(XtX)-1Xty=Hy とハット行列で変換され,そ

の自由度は

tr(H)=p+1,ｙであった.つ

まり,smootherの

切片を含むモデル (7.12) 自由度も

smootherのdf=tr(S)

で定義できる.例

えば,smootherの

(7.13)

自由度がほぼ２に等しければそれはほ

ぼ直線となっていることがわかる.

7.3 局所重み付き線形回帰 ―loess

式(7.8)のた次の

局所重み付き平均smootherに

「局所重み付き線形回帰(locally

比べるともう少々回帰を意識し weighted

linear regression)」

型の

smoother

(7.14) も自然である.つ

まり,

(7.15)

で与えられる.こ

こで

である.な

のsmootherは,式(7.8)の

お,こ

が上の回帰モデルで β(xi-x)の

局所重み付き平均のsmoother

項を除いた回帰モデルの解と一致するとい

う意味で拡張となっていることに注意しよう.kernel関ものが考えられる.また,式(7.14)の

数は前節と同様な

式を考えることが可能であるが,多

回帰モデルを二次,三くの場合,そ

次と高次の多項

のメリットは少なく線形回

帰で十分である. さて,Cleveland(1979)は

このsmootherの

した.最

どとよばれているsmootherで

近,lowess,loessな

１)デ

ータxjに

一つとして次のモデルを提案

近いデータのうち,κ

番目までのデータの集合(k

neighbors)をNp(xj),j=1,...,ｎとよばれ,こ

とする.こ

のsmootherのsmoothingパ

２)kernel関

数のbandwidth

３)kernel関

数

hの

ある. nearest

こで,p=κ/nはspan

ラメータである. 定義

(7.16) loessの

特徴は,局

所重み付き線形回帰に寄与する(正

タの割合を示すspanがsmoothingのため，bandwidth

hを

指定するより,理

離だけではなく,残

る工夫である.そ図7.3に

ー

程度を表現するパラメータとしている解しやすい,ま

は記述していない異常値に影響されにくいrobustなつまり,距

の重みをもつ)デ

た,「loess」には上に

方法も導入されている.

差の大きいデータに対しては重みを小さくす

の詳細は原文を参照したい.

は,図7.1の

データに対して,span

いったときの九つのloessを

ｐを0.2(0.1)1.0と

重ねて描いたものである.

変化させて

図7.3

span pを0.2(0.1)1.0と

変化させていったときのloessの

推定値の変化

S‐Plus program:図7.3

for(i in 2:10){

lines(loess.smoosth(distance,diox,span=i/10,col=i))

}

全体としての推定値は,kernel やはり,デ

ータが粗(sparse)な

るに従って,推

7.4

明確にkernel関 smootherと

smootherとところ(3km付

さほど違いはないようである. 近)は,spanの

値が変化す

定値も同様な変化をしている.

スプライン関数の利用 ―smoothing

数を指定しているわけではないが,近

同じような局所的性質をもつものにsmoothing

splines

似的にkernel型 splinesと

の

よばれ

るsmootherが

ある.そ

れは,三

次のスプライン関数s(x)を

利用して

(7.17) を最小にするs(x)でまず,ス

ある.

プライン関数とは,二

を含むある区間a＜t1＜

…

を通る滑らかなpiecewise多を補間(interpolation)す

次元の問題でいえば,ｘ

＜tκ ＜bで,観

測値のペア(tj,zj),j=1,...κ

項式関数であり,区るために使われる.そ

１)任意の区間(tj,tj+1)で

は,s(x)は

軸上のデータ点列

間上の任意の点ｘの値z(x) れは次の性質をもっている.

γ 次の多項式である,

２)s(x)は(γ-2)次

までの連続な導関数をもつ,

３)s(x)の(γ-1)次

導関数は,点t1,...,tκ

でjumpを

もつステップ関

数である.

実際の応用では三次のスプライン関数を利用することが多いので,cubic splineとよばれ,次

の多項式の形で表現できる:

(7.18) ここで,()+は()内

が正の部分だけを表し,点

いう.も

こで推定するスプライン関数はデータの補間ではなく,

ちろん,こ

式(7.17)の

関数を最小にするデータのsmoothingで

正のsmoothing span,に

parameterで

penalty)で

次微分=0)と

なり,変

数である.こ

の意味で,Ｐ

sum of squares)とさて,こ

数Ｐの λは

２項は「滑らかでない関数s(x)」あり,最

へのペ

も滑らかな「直線」の場合に０(二

動の激しい曲線になるほど大きくなるペナルティ関はペナルティ付き残差平方和(penalized

residual

よばれる.

のペナルティ付き残差平方和を最小にするスプライン関数は一意

に決まり,デ …

ある.関

を節(knots)と

ありkernel smootherのbandwidth,loessの

相当するものである.第

ナルティ(roughness

(x(1)＜

列t1,...tκ

ータポイント(x1,...,xn)を

＜x(m))を

小さい順に並べた相異なるデータ

節としたcubic splineと

なることが導かれる:

(7.19) もし,λ=0と

すれば,第

１項の残差平方和の最小化の問題となり,ｘのデー

タがすべて異なればスプライン関数の性質から,すべての点を通るデータ補間に対応し,すべての点の残差は０となってしまう.逆に λ→ ∞ とすると, 第２項がきわめて小さくなり,その結果,smootherは

直線となってしまう.

したがって,λ の値により,「適合度と滑らかさ」のバランスを図っていると考えることができる. さて,実

際の推定にあたっては式(7.19)の

多項式表現はデータによっては

きわめて大きな値となる可能性があり,それを避けるために,パ数に相当する(m+2)個(両る)の

方の端の境界条件のためm+4か

Ｂスプライン関数を基底(base)と

ラメータの

ら二つ減少す

した

(7.20) という形式で表現すると計算が容易となる.Ｂテキストを参照されたい(例,Boor.1978).そ Bij=Bj(x(i)):n×(m+2)行

スプライン関数の詳細は他のうすると,

列

(7.21)

(7.22) とおくと,ペ

ナルティ付き残差平方和は P=(y-Bθ)t(y-Bθ)+λ

θtΩθ

(7.23)

と表現できる：したがって,θ での微分を０とおいて (BtB+λ となる.こ

の推定値 θ を式(7,20)に

図7.4に

は,図7.1の

を2(0.5)6とものである.こ

Ω)θ=Bty 代入することによりs(x)が

データに対して,λ

の値ではなく,自

変化させて推定した九つのsmoothing こで,smoothingパ

(7.24)

由度df=tr(S)

splinesを

ラメータである λ の値は,ど

を動かせばよいかは一般にわからないので,S‐Plusに

推定される.

重ねて描いたの値の範囲

は自由度で指定でき

図7.4

自由度df=tr(S)を2(0.5)6と

変化させたときのsmoothing

splinesの

推定

値の変化

る機能が備わっている.自

由度２の場合には回帰直線を意味することは既述

した, S‐Plus program：

図7.4

for(iin4:12){ lines(smoo.spline(distance,diox,df=i/2）1ty=1col=i)

全体として,κernel いる.

smoother,loessと

類似の推定値のパターンを示して

7.5

Smootherの

これまで,解

バラツキとSmoothingパ

ラメータ

説してきたsmootherは

y=s=Sy と表現できる.こ

の場合には,そ

(7.25)

の分散が

Var(S)=SStσ2e

と計算できる.ま

た,誤

(7.26)

差分散 σ2eは

(7.27) と推定できるので,ポければ,近さらに,３

イントワイズの推定誤差,ま

のバイアスが小さ

似的な信頼区間などの計算ができる. 章で述べたbootstrapを

利用すると,smootherの

子が実際に推測できるので便利である.つ「残差」をbootstrapす

よるsmoother

１)残差〓i=yi-s(Xi)を２)残差を平均0に

のようになる.

s のバラツキの推定

計算する.

らのbootstrap

sampleを(〓*1,...,〓*n)と

おく. して, y*i=

おく.

４)(xi,y*i),i=1,...,nをsmoother

推定値s*(xi)を５)Step3)-4)を

図7.5にloess(span=0.7)のやはり,わ

バラツキの様

のアルゴリズムは回帰の

左規化して〓i=〓i-Σi〓i/nど

３)(〓l,...,〓n)か s(xi)+〓*1と

まり,そ

ることに注意すれば,次

bootstrapに

200)．

た,ｓ

求め,プ

s でsmoothingし

てbootstrap

ロヅトする.

Ｂ回繰り返す.

変動幅のbootstrap推

定値を示した(B=

ずかながら距離減衰しているパターンには変わりはない.

図7.5

loess(span=0.7)のbootstrap変

動幅(B=200)

S‐Plus program:図7.5

dd＜-loess.smooth(distance,diox,span=0.7) h＜-approx（dd$x，dd$y,distance)

lines(dd,lty=1,col=2) r＜-diox-h$y r＜-r-mean(r)

for(i in 1:B)｛ lines (loess.smooth(distance,h$y+sample(r,replace=Ｔ)),lty=4)

｝次に,smoothingの

程度をどの程度にすべきかというsmoothingパ

タの選択の問題はまじめに考え出すと,簡単なことではないが,通モデルの評価法と同様に,バ

ラメー常の線形

イアスと精度を考慮した平均２乗誤差(mean

squaxe

erxor)

(7.28) を最小にするのが好ましいモデルと考えることができる.こ

れは,

(7.29) と分散とバイアスの項に分解できる.こもつsmootherに

こで,κernel型

の重み関数 ω(・)を

ついて期待値と分散を考えると,近

似的に

(7.30) (7.31) となる(Bowman

and Azzalini,1997).

であり,ま

こではsmoothingパ

た,こ

れから,smoothingパ

はｘの未知の密度関数

ラメータをんで代表させている.こ

ラメータを大きくするとバイアスが増加し,分

少し,smoothingパきよう.し

dense(x)と

散が減

ラメータを小さくすると逆の現象が生じることが理解で

たがって,バ

イアスと分散のバランスを図る必要がある.こ

的のために一般によく利用される規準は,MSEのバリデーション(CV)平

の目

推定量としてのクロス・

方和の最小化である:smoothingパ

ラメータをんで

代表させると,

(7.32) である.こ

こに,S−i(xi)は,１

組のデータ(xi,yi)を

のデータで推定したｓに基づくyiのルと違って,S−i(Xi)は(n−1)個題となるので,ｎ

推定値である.し

除いた残り(n−1)個かし,一

般線形モデ

のデータから他のデータポイントの推定問

個のデータの関数として導かれたｓと異なり,一

定義の関数である.一

つの自然な考え方は,ち

ょうど(xi,yi)へ

般には未の重みSii

に相当する部分を0に

し,そ

の分だけ残りの重みSij,j=1,...,nを

引き

上げたｓによる推定値と定義することである.

(7.33) したがって,線

形モデルと同様にCVの

計算がわざわざ「除去」の計算を繰

り返すことなく,１回の計算で

(7.34) と計算できる.も

ちろん,smoothingパ

ラメータんを変化させて最小となる

ん*を選ぶ. S‐Plusに

はsmoothing

を選択できる(自てみたのが図7.6でのsmootherを

splinesに

だけ,CV規

準でsmoothingパ

由度や λ の指定をしない標準オプション)のある.ほ

ぼ,直

比較するために,代

図7.6

線が選ばれている.さ表的なsmoothingパ

CV 規準で推定したsmoothing

splines推

て,こ

ラメータで,実こで,三

行しつ

ラメータの値を選ん

定値

図7.7

で比較したのが図7.7でと,kernel る.こ

smoother,smoothing

れは,loessに

はrobustで近で20pgを

ある.傾

三つのsmootherの

比較

向は大差ないが,絶 splineが

約１pg程

は飛び離れた値にrobustで

対値がloessに

比べる

度高い値を維持してい

あるのに対して,他

ないことを示している可能性が高い.事

実,１km付

の二つ

近と６km付

越えた比較的飛び離れたデータが存在していることと,対

換後のデータに適用した結果,こ

数変

れほどの差はみられなかったことから,そ

の可能性が高いといえる.

7.6 一般化加法モデル―GAM

ここでは,こ

れまでのx-yの

関係に影響を与える共変量がある場合

(yi;x1i,x2i,...,xpi),i=1,...,n を考えよう.図7.1の

例では,血

中ダイオキシン濃度に関連が大きいと考え

られる年齢(age),曝

露年数(施

設が稼動してからの居住年数)の

二つを取

り上げる.例

えば,次

の一般線形モデル

yi=β0+β1x1i+β2x2i+〓i,i=1,...,n

(7.35)

において,もし線形性「β1x1」が疑わしければ,二次,三次の多項式(例えば, β12x21)を追加したり,または非線形の項に変形(例したり試行錯誤を繰り返すことになる.こ

えば,β11exp(β12x1))

のようなパラメトリックなアプ

ローチは結構大変でかつ不満足な結果に終わることも少なくない .この未知の「関数」をデータ自身に語らせる,つ

まり,smootherを

利用したノンパ

ラメトリック回帰モデル yi=β0+s1(x1i)+s2(x2i)+〓i,i=1,...,n

がFriedman 提案,開

(7.36)

and Stuetzle(1981),Hastie 発された.こ

and Tibshirani(1990)ら

こで,各smootherが

によって

一意解を得るために

(7.37)

の条件がある.この条件は,分散分析における各要因効果の一意解のために , パラメータに課せられた条件と同一である .ただ,そ sj(ｘ)に適用するsmootherは

なんでもよいし,変数毎に変えてもかまわな

い.さ

て,推

次,残

差にフィットさせる」ということである.

１)まず,各

れぞれの変数の関数

定の基本的な考え方は,additive modelの

変数の一意解の条件式(7.37)を

特徴を利用して「順

生かすために,定

数項 βοの

推定値は全平均ｙとする. ２)次

に,残

差

「y-y」

に変数x1を

フィットさせる,つ

まり,smoother

の行列で表現すると

s1(x)=S1(y-y) ３)次

に,残

差

「y-y-s1」

に変数x2を s2(x)=S2(y-y-s1)

４)同様にして,s1が

(7.38)

更新される. s1(x)=S1(y-y-s2)

５)３),４)を

フィットさせる.

収束するまで繰り返す.

(7.39)

この方式は「backfitting」アルゴリズムとよばれている.こ

の方法は一般の

回帰モデルに容易に拡張できる.

(7.40) つまり,

(7.41) を繰り返せばよい.た

だ,理

リズムの「収束条件,そまた,こ

のbackfittingア

smoothingパ

論的には,３変数以上になると,こ

の性質」などに関してはまだよくわかっていない. ルゴリズムを利用するにしても,各smootherの

ラメータの選択は別の問題である.例

えば,各

スバリデーションを適用して自動選択は可能であるが,計なる可能性が高い.し

たがって,視

量毎の回帰モデルにCVを

のアルゴ

ステップでクロ

算時間がネックと

覚的判断によって主観的に選ぶか,１変

適用して得られたsmoothingパ

ラメータを参考

にすることが考えられよう. 次に,通

常の線形モデルと同様に,ノ

ても各変数の有意性の検討は,近

ンパラメトリック回帰モデルにおい

似的ではあるものの,残

差平方和

(7.42) を規準にすることが可能である.つ

まり,

１)最大モデルでの残差平方和をRSS1,自２)最大モデルから変数xjを

由度をdf1,

除いたモデルの残差平方和をRSS2,自

由

度をdf2,

とすると,誤差の正規性の下に導かれるＦ検定統計量

(7.43) による「近似的」な推論が可能である.こ

こで,変

の組み合せによって変化するものの式(7.27)よ

り

数ｊの自由度は,共

変量

tr(2Sj-SjStj) となるので,残

差平方和の自由度は

(7.44) となる.さ

らに,現実の解析では「線形性」を満たす変数もあるわけで,そ

のような変数までもノンパラメトリックに推測することはいたずらに推定精度と検出力を落とすことになる．したがって,よ

り興味あるモデルは

(7.45) というセミパラメトリック(semi‐parametric)モ数xjが

「線形」が良いか

１)変数xjは

デルである.こ

の場合,変

「曲線ｓ(xj)」が良いかについても,

曲線「s(x)」を仮定したモデルでの残差平方和をRSS1,自

由度をdf1, ２)変数xjは

線形「βjxj」を仮定したモデルでの残差平方和をRSS2,自

由度をdf2, とすると,式(7.43)と

同様のＦ検定を利用した推論が可能である.こ

df2-df1は

項をsmootherか

変数xjの

こで,

ら線形に変えたことによる残差平方

和の自由度の増加分に等しい. 本章では正規線形モデルの枠組みの下で,smoother,ノ回帰モデルを解説したが,全えば,ロ

ンパラメトリック

く同様の展開が一般化線形モデル(GLIM),例

ジスティック回帰モデル,Poisson回

ドモデルなどに対しても可能である.加

帰モデル,Coxの

比例ハザー

法モデルを一般化線形モデルに拡張

したモデルを特に一般化加法モデル(GAM,generalized

additive model)と

よんでいる.

さて,図7.1の

データに戻ろう.血液中のダイオキシン濃度(pg‐TEQ/g脂

肪)に関連が大きい項目として,年住年数)の

齢と曝露年数(施

設が稼動してからの居

二つの変数を加えて解析してみよう(変数名:年

年数=expyear).そ

れぞれの散布図は図7,8に

は正の相関がありそうである.一方,曝

齢=age,曝

示すとおりである.年

露齢と

露年数に関しては調査対象と選ばれ

図7.8 年齢,曝

露年数とダイオキシン濃度との相関

た住民が焼却施設が稼動する前(27年となっているため,あ

前)から住んでいたため,ほ

まり明確な関連が観察されていない.い

この二つの共変量を調整するための第１段階として,ましてみると表7.1に

とんど27

ずれにしても

ず線形モデルで解析

示す結果が得られた.

S‐Plus prograｍ:表7.1

model←glｍ(diox∼age+expyear+distance) summary(ｍodel)

年齢とは有意な関連が認められたが,距意ではない.次た結果を表7.2に

離と負の関連が認められるが,有

にノンパラメトリック回帰モデル(additive 示す.い

ずれも,loessを

使用し,span=0.7と

model)を

適用し設定した.

表7.1

血液中のダイオキシン濃度とごみ焼却施設からの距離:線

RSS=561.285,

表7.2

形モデルでの解析

df=53,σ2e=10.59

血液中のダイオキシン濃度とごみ焼却施設からの距離:ノラメトリック回帰モデルGAMで

RSS=525.863,

df=47.505.

ンパ

の解析

σ2e=11.0697

いずれの変数も「非線形部分」(Npar Df,Npar Ｆ,Pr(Ｆ))はここではそれぞれのsmootherに

有意でないが,

よる推定値を考えよう.図7.9に,そ

れぞ

れの変数の他の変数を調整したsmootherの

推定値と推定誤差を示す.こ

で,特

ある.も

に興味深いのは,距

離のsmootherで

ちろん,有

こ

意ではない

ものの,焼却施設付近がわずかに高く,徐々に減少し,２ ∼３km以

降はほぼ

直線となっている点である.

S‐Plus program:表7.2

m odel←gaｍ

図7.8

（diox∼lo(age,span=0.7)+lo(expyear,span=0.7

) +lo(distance,span=0.7))

plot(ｍodel,se=T）

練習問題 [問題7.1]式(7.25)で

表現できるsmootherSは

そのように表現できないものは非線形smootherとン(running [問題7.2]一

median)は

線形smootherといわれる.移

いわれる. 動メディア

線形か非線形か?

つの局所重み付き線形smootherが

式(7.15)で

与えられるこ

図7.9

年齢,曝

露年数,距

離それぞれに,他

の変数を調整したsmootherの

推定値と

推定誤差

とを示せ.

[問題7.3]式(7.18)の

多項式がその上の三つの性質を満足することを証明

せよ. [問題7.4]Taylor展

開の一次近似を利用して,式(7.30),(7.31)を

[問題7.5]式(7.33)で smoother,smoothing

新しく定義したs-i(xi)は,式(7.6)の splinesで

は,線

導出せよ. 型のkernel

形回帰モデルと同様に,smoother自

体の定義から導かれることを示せ. [問題7.6]式(7.27)を [問題7.7]線

線形回帰モデルでの式(4.17)のanalogyか

形smootherの

自由度を式(7.13)でtr(S)と

れ以外にも二つの自由度,tr(2S-SSt)(式(7.27)ののための自由度)とtr(SSt)(式(7.29)のが定義されている.も

し,Ｓ

ら導け. 定義したが,こ

意味で、残差平方和意味で,分

が対称行列であれば,線

散のための自由度), 形回帰モデルのように

これらの三つは一致することを示せ.

８イベント発生までの時間の長さに関するモデル

がんの臨床における治療効果の判定の物差しとして,治療後から死亡までの時間の長さ,つ

まり,生存時間,を評価することが多い.し

間の大小を単純に比較することはできない.な

かし,生存時

ぜなら,図8.1,図8.2に

図8.1 臨床試験における登録された患者の動向

図8.2

図8.1の

５名の患者の追跡期間の長さと追跡終了時点での患者の転帰

示

表8.1

すように,治

療中止,転

肝硬変患者に対する臨床試験データ

院などで追跡不能が生じたり,研究の終了時点では

多くの対象患者が生存するなどの理由から死亡時点のデータが入手できないことが当然起こり得るからである.例ことが確認されているが,そカ月」とはできない.正

えば,「３年２カ月までは生存していた

の後は不明」である場合,生

存時間は「３年２

しくは「３年２カ月以上」であり,このような状況

を「打ち切りが生じた(censoring)」,こ

のようなデータを「打ち切りデー

タ」(censored data)と

いい,表8.1の

ように整理される.し

ち切りデータがある以上,「死亡までの時間の長さの平均値,中

たがって,打央値」,また

は,「５年生存率」といった頻度なども単純には計算できないのである . そこで,打

ち切りの可能性があり,興味あるイベント(event)が

発生す

るまでの時間の長さを評価するために登場する統計手法が「イベント発生までの時間を生存」とする生存時間分析(survival analysis)でトは死亡だけでなく,脳卒中,心筋梗塞などの発生,あであったりする.た

だし,こ

こで注意したいのは,い

ある．イベン

る病気の再発,寛

解

くら打ち切りデータが

解析できるといっても「イベント発生と関連している打ち切り(informative censoring)」は解析できないことである.例えば,患者の状態が悪化してきたため担当医への信頼に疑問をもち転院してしまった場合のcensoringがである.こ

の場合は,生

そう

存時間が長くなるほうへバイアスが生じる.解析に

正しく利用できる打ち切りデータは,不

慮の事故,引

っ越しなどのイベント

の発生とは無関係に起こる原因で打ち切られた(non‐informative censoring) データである.

8.1 生存時間の確率分布

一般に生存時間Ｔが連続な生存関数(累積生存率曲線ともよばれる)S(t), 確率密度関数〓(t)をもつ確率変数であるとき, S(t)=Pr{T〓t},

0＜t＜

∞

(8.1)

(8.2) と定義される.生存時間分析で重要な関数であるハザード関数(瞬瞬間故障率)は

間死亡率,

次の条件付き確率で定義される.

(8.3) この式から

dlogS(t)/ λ(t)=-

であり,S(0)=1か

ら,

dt

(8.4) (8.5) と書ける.ま

た,生

存時間ｔでの平均余命(expected

residual life)は

(8.6)

(8.7) で与えられる.こ

れからt=0と

した平均寿命(expected

life)は

(8.8) (8.9) で与えられる. 次に,生数,す

存時間Ｔが,0＜t1＜t2＜

…

の離散値(discrete)を

とる確率変

なわち, pj=〓(tj)=Pr{Ｔ=tj},

j=1,2,...

(8.10)

であるとき,生存関数は

(8.11) であり,ハ

ザード関数は

(8.12) で与えられる,最みると,条

後に確率分布pj,生

存関数S(t)を

件付き確率の性質とPr{T＞0}=1か

〓(tj)=Pr{T=tj}

=Pr{T=tj￨T＞tj-1}Pr{T＞tj-1}

ら

ハザード関数で表して

(8.13) となる.し

たがって,

(8.14) となる.

8.2

まず,生

生存関数の推定

存時間分析の対象となるデータの構造を整理しよう.ある一定の

研究期間にエントリーした患者総数をn0と

しよう.この期間にイベントが

確認された相異なる生存時間(イベント発生までの時間)を小さいほうから順に並べて t1＜t2＜であったとしよう.こしてお

…

＜tj＜

…

＜tm

の場合,j=0,1,2,...,ｍ

として,以

(8.15)

下の項目を定義

く.

１)dj(〓1)例こで,イ

が同じ生存時間tjを

記録した.こ

こで,d0=0と

する.こ

ベントの総数を

(8.16)

２)左

閉右開区間[tj,tj+1)に

ωj例がなんらかの理由で追跡不能となり,

それぞれの打ち切られた時間(censored {tj1,tj2,…,tjωj}

であったとしよう.こ

３)つ

まり,時

点tjの

こで,t0=0,tm+1=∞

直前tj-0に

time)は

(8.17)

とする.

は

nj=(dj+ωj)+(dj+1+ωj+1)+…+(dm+ωm)

例の患者がまだなる.こ

「生存」(number

の患者全体を時点tjで

(8.18)

of patients at risk)しのリスクセットR(tj)と

ていることにいう.

R(tj)={時４)最

後に,エ

点tj以

後に観測されたnj例

ントリーした患者全体の打ち切

{tj,tjκ},j=0,...,m;κ=1,...,wj,を

z(1)〓z(2)〓

小

…

の患者全体} (8.19) りデータを含めたデータ

さい順に並べて

〓z(no) (8.20)

と定義しておく.

8.2.1 パラメトリック法生存時間分析でよく利用される連続な確率分布は次の２通りである.

１)指数分布

(8.21) (8.22) (8.23) ２)Weibull分

布

(8.24) (8.25) (8.26) Weibull分

布でc=1の

Weibull分

布の場合の最尤推定法を考えよう.尤度は二つのパラメータ(η,c)

の関数として

ケースでは指数分布に一致するので,こ

こでは

(8.27) となる.し

たがって,対

となる.そ

こで,パ

数尤度 ι(η,c)は

(8.28) ラメータ(η,c)で

偏微分すると

(8.29) (8.30) となる.

∂ ι/

∂c

=∂ι /∂η=

0の

尤度方程式を解くと,２変数のNewton‐Raphson法

(8.31) を利用するまでもなくｃは

(8.32) の解として得られ,１

変数のNewton‐Raphson法

(8.33) で計算できる.こ

である.結

局,η

こに

は

(8.34)

で計算できる.最尤推定値(ｃ,η の漸近的な分散共分散行列はFisher情

報行

列の逆行列であるから

(8.35) と計算できる.しかし,実際の生存時間データの解析では次節のノンパラメトリック法が利用されることが多い.

8.2.2

ノンパラメトリック法

最尤推定法で推定すべき生存関数を S(t)とおこう.時点tjで

イベントが

発生する確率は

(8.36) となるので,S(t)の

関数として尤度は

(8.37) となる.さ

て,も

し推定値s(t)が

が明らかに０となるので,S(t)はを最大にするのであるから,第

連続関数とすれば,上

記の尤度の第１項

離散分布でなければならない.また,尤

度

２項目は

S(tjκ+0)=S(tj+0),j=1,...,m,κ=1,...,ωj S(t0κ+0)=S(0)=1,κ=1,...,ω0

とすることにより最大化されることが容易にわかる.したがって,尤度関数は

(8.38)

となり,式(8.14)か

ら生存関数S(t)は

次の式で推定される.

(8.39)

(8.40) (8.41) ここに λjは時点tjで

のハザード関数の推定値で,そ

した尤度Ｌを最大化することにより得られる.つ

れはこれらの式を代入

まり,

(8.42) となる.最

後は ωm=nm-dmに

注意する.こ

の尤度関数は明らかに二項

分布のそれに等しいから最尤推定値 λjは dj/ λj= nj

で与えられる.し

たがって,生

,

j=1,...,m

存関数の最尤推定値は式(8.39)に

(8.43)

代入して

(8.44) で与えられる.こ

れがいわゆる,「累積生存率曲線のKaplan‐Meier推

とよばれるものである.も

し,ωm＞0で

あれば,S(t)は

決して,０

定値」になら

ないので, S(t)=定

義されない,for

t＞tmωm(ωm＞0)

(8.45)

となる.

さて,次

に,生

存関数の推定誤差を計算してみよう.最尤法と同様に式

(8.39)の対数をとって考えると,

(8.46) この漸近的な分散推定量は,

(8.47) の性質を利用すれば,

(8.48) と計算できる.今

度は,式(8.47)で

Var(logS(t))= であるから,

θ=S(t)と 1/

おくことにより

vas(S(t)) S(t)2

(8.49) と計算できる.この式がGreenwoodのの式を利用して,例

えば,あ

公式とよばれるものである.ただ,こ

る生存時間ｔでの95%信

頼区間を

で計算すると,信頼区間の限界値が範囲[0,1]をはみだしてしまうことがある.こ

れを避けるため,範

は次のlog(-log)変

囲[0,1]の範囲で定義される推定量の信頼区間に

換がよく利用される. y(t)=log(-logS(t))

もう一度,式(8.47)を

利用して,y(t)の

(8.50)

分散 υ(t)を計算すると

(8.51) と計算できる.こ

うすれば,

S(t)=exp(-exp(y(t))) であるから,S(t)の95%信

頼区間は

(8.52) と計算される. [例題8.1]

表8.1の

データを利用して

１)データ全体の生存率曲線の推定を,(１)Weibull分

布,(２)Kaplan‐Meier

法の両方で推定せよ.

２)治療群別にも上と同様に２種類の方法で推定せよ. [解答] １)データ全体

図8.3

表8.1の

データ全体における生存率曲線のWelbull分

リック推定値とKaplan‐Meier推

式(8.33)-(8.35)を

布を仮定したパラメト

定値

利用すると,そ

0.690±0.136,η=2.09±0.730)と

れぞれの推定値と標準誤差は(c= 推定され,最

大対数尤度は式(8.28)

より ι(c,η)=-27.905

であった.Kaplan‐Meier法こでは,S‐Plusの体のS‐Plusプ

は式(8.44)を

計算することになるが,こ

プログラム「surv.f it」を利用する.こログラムは付録B.5に

示した.結

れらの計算全

果は図8.3に

示すとお

りである.

２)治療群別 Weibull分

布のパラメータは,

と推定された.治療群別の生存曲線の推定結果は,Kaplan‐Meier法

の

図8.4

表8.1の

データの治療群毎の生存率曲線のWeibull分

トリック推定値(Weibull比 Kaplan‐Meier推

布を仮定したパラメ

例ハザードモデルによる推定値とほぼ同じ)と

定値

結果と一緒に図8.4に

示す.

8.3 比例ハザード回帰モデル

生存時間分析における回帰分析は比例ハザードモデルがよく利用される. それは,ハ

ザード関数と共変量x=(x1,...,xp)tと λ(t;x)=λ0(t)exp(xtβ)

=λ0(t)exp(β1x1+…+βpxp)

で表現されるモデルである.こ ‐ard function)でデルの下では

あり,xtβ=0の

の関係が線形対数モデル (8.53)

(8.54)

こに λ0(t)は規準ハザード関数(baseline 場合のハザード関数と考えられる.こ

haz のモ

(8.55) となる.こ

こにS0(t)は

規準生存関数である.

さて,共

変量がそれぞれxA,xBと

相異なる２群のハザード関数を比較し

てみると

(8.56) と生存時間に無関係に一定となる.こ

の比例定数をハザード比(hazard ra

‐tio),相対ハザード(relative hazard)な

どとよび共変量の評価指標として推

定される. 例えば,２種類の治療Ａ(新治療),Ｂ(標準治療)の効果を,予

後因子を調整

して比較する

H0:SA(t)=SB(t) H1:SA(t)≠SB(t)

には,共

変量x1を

治療群を表す変数として x1=1(A群)，

とし,予

(8.57)

後因子を{x2,...,xp}と

x2=0(B群) した,変

数x1の

係数の有意性検定

H0:β1=0

H1:β1≠0

(8.58)

を行えばよい.なぜなら,共変量を調整するということは治療群を表す変量 x1以外の他の変量は同じ値をもつ群を比較することを意味するので,

(8.59) から,標

準治療に対する新治療のハザード比はexp(β1)で

与えられ,

(8.60) となり,仮

説(8.57)と(8.58)が

一致するからである.

さて,次

の項から比例ハザードモデルに関する推測方式の解説を行うが,

1.2節で定義した用語:式(8.15)-(8.20)を

ここでも利用する.

8.3.1

パラメトリックモデル

規準ハザード関数 λ0にある確率分布を仮定する方法で,中でも,式(8.24) -(8.26)のWeibull分

布を仮定することが少なくない.ま

ず,尤

度関数は,式

(8.27)を参考にして

(8.61) となる.共

変量に関する記号の意味は後述のp.131を

参照のこと.対数尤度

関数は

(8.62)

となる.偏

微分は

(8.63) (8.64) (8.65) となる.し

たがって,

(8.66) とおけば,最

尤推定値 θ はNewton‐Raphson法

(8.67) で計算できる. [例題8.2]表8.1の

データを利用して,次

λ(t;x)=λ0(t)exp(βx)

x=0(プ

のWeibull比

ラセボ),x=1(プ

例ハザードモデルレドニソン)

により治療効果を推定せよ. [解答]S‐Plusで録B.6に

のNewton‐Raphson法

示した.推

したがって,プ 95%信

等,す

べての計算のプログラムは付

定結果は

ラセボに対するプレドニソン治療のハザード比の推定値と

頼区間は最尤推定値:exp(-0.735)=0.480 95%CI:exp(-0.735±1.94・0.519)=0.177-1.300

と計算される.ま

た,帰

無仮説H0:β=0に

対するWald検

定の自由度１

の χ2検定統計量は β2/SE(β)2=2.085,

となる.ま =0に

た,ι(c,η,0)=-27.905(例

p=0.149

題8.1)で

あるので,帰

対する尤度比検定の自由度１の χ2検定統計量は -2(ι(c

,η,0)-ι(c,η,β))=2.256,

p=0.133

と計算できる. さらに,式(8.55)よ

り生存関数は

プラセボ群:S0(t),プ

レドニソン群:S0(t)exp(β)

無仮説H0:β

である.治療群別の推定値は図8.4のあった.比

8.3.2

群別に推定した生存関数とほぼ同じで

例ハザードモデルの適合度が程よいことを示す傍証である.

Coxの

モデル―

セミパラメトリックモデル

ここでの推定の最も重要な点は,パ

ラメトリック法と異なり,規準ハザー

ド関数 λ0(t)は未知のままにしておいて,β したがって,統

に関する推測を行うことにある.

計学的にはなんらかの意味での条件付き推測により,局外母

数(nuisance parameter)と

もいえる規準ハザード関数を推定方程式から除か

ねばならない. さて,い

ま,２

種類の事象Ａ,Ｂの列 {A1,A2,…,Am},

{B0,B1,...,Bm}

を考え, 事象Aj:時

点tjで

事象Bj:区

間[tj,tj+1)で

と定義しよう.す

ると,デ

のイベントの発生の打ち切りの発生

ータ全体の尤度(確

率)は

Pr{B0A1B1A2,...,Bm-1AmBm}

で与えられる.条

となる.8.2節

(8.68)

件付き確率を順に計算していくと

でも解説したように,censored

関数の推定にほとんど情報をもっていない.し

timesで

ある事象Bjは

たがって,回

生存

帰のパラメータ

である β にもほとんど情報がないと考えてもほとんど間違いはないだろう. したがって,β

に関する尤度を考えるには,尤

度全体から事象Aκ

に関する

「部分」尤度(partial likelihood)

(8.69) だけを考えればよいことになる. さて,こ

の部分尤度を考えるのに,ま

ない,つ

ず,生

まり,dj=1(j=1,...,m)でり,dj=1(j=1,...,ｍ)で

リーしたn0例

存時間にタイ(tie,同

ある場合を考えよう.研

時間)が

究にエント

の患者について

１)共

変量:xi=(x1i,x2i,...,Xpi)t,i=1,...,n0 量:xi=(x1ｉ,x2i,...,xpi)t,i=1,...,n0

２)生

存時間tjを

記録した患者の共変量をx(j)

すると,

(8.70) となる.し

たがって,式(8.69)よ

り β の部分尤度は

(8.71) となる.次

に,タ

イがある場合(dj〓1),を

考えよう.そ

こで次の用語を用

意しておこう. １)タ１)タ

イでイでああっったdj例たdj例

…+x(j …+x(j ２)R(tj,dj):リ２)R(tj,dj):リ

dj)と dj)と

のの共共変変量量を(x(j1),...,x(jd を(x(j1),...,x(jd

ススククセセッットR(tj)のトR(tj)の

このこの場場合合はは式(8.70)の式(8.70)の

j))と j))と

しし,s(j)=x(j1)+ ，s(j)=x(j1)+

すする. る.

展展開開がが

Pr{Aj￨B0A1…Bj-2Aj-1Bj-1}

中か中からdj例らdj例

のの添添字字のの組組みみ合合せせのの集集合. 合.

(8.72) となる．したがって,求

める正確な部分尤度は

(8.73) となる. しかし,タ

イの数が多いと上記の尤度の計算は膨大な組み合せ nj

( dj ) の計算を必要とするので計算が困難である.そ考える必要がある.njがdjに

こで,一

般的にはその近似を

比べて大きい場合には

(8.74) と近似できる.これがBreslow(1974)の

近似部分尤度とよばれるもので, S‐

Plus等の代表的な統計パッケージに利用されている. さて,一般にはこの部分尤度関数が利用されているので,こ

れを用いて β

の最尤推定値を求めてみよう.対数部分尤度は

(8.75) となるから,最

尤推定値 β は β で偏微分した式,エ

フィシェント・スコア

(efficient score) U(β)=

∂logPL(β) /∂β

(8.76)

の各成分を０としたｐ個の連立方程式の解である.そ

の第ｉ成分は

(8.77)

ここで,

(s1(j),

s(j)=

s2(j), ...,sp(j) )t

(8.78)

(8.79) である.さ

らに,β

に関するFisher情

報量I(β)の

第(ih)成

分は

(8.80) ここに,

(8.81) で与えられる.通

常,最

尤推定値はNewton‐Raphson法,ベ (κ+1)

β

=β(κ)+

の繰り返し計算で求める.推

I(β(κ))-1U(β

クトル表記では (κ))

(8 .82)

定値 β の分散共分散行列はもちろん,I(β)-1

である.

8.3.3

さて,比

log‐rank検

定

例ハザードモデルでの部分尤度に基づくパラメータの検定にも通

常のように,漸１)Wald検

近的に同等な三つの方法定

２)尤度比検定３)スコア検定が利用できる.こ

こでは,次

の治療変数以外に共変量のないモデル

λ(t;x)=λ0(t)exp(βx), x=1(新

治療),x=0(標

(8.83) 準治療)

での仮説 H0:β=0, にスコア検定を考えよう.ま

H1:β

ず,式(8.73)に

≠0

(8.84)

基づく正確な部分尤度で考えて

みると，エフィシェント・スコアは

(8.85) ここで

,

(8.86) である.さ

らに,β

に関するFisher情

報量I(β)は

(8.87) ここに,

(8.88) で与えられる.そ

こで,帰

無仮説の下でのエフィシェント・スコアU(0)を

考えてみると,超

幾何分布に関する推論で {(新治療群における時点tjで

のイベントの観測数)

-(新治療群における ,時点tjで

のイベントの期待数)}

(8.89) となっていることが理解できるだろう.つ

まり,表8.2の

ような分割表を考

えると,

(8.90)

表8.2

イベント発生時点tjで

の「治療群」 × 「イベント発生の有無」の分割表

であり,

(8.91)

(8.92) (8.93) となる.し

たがって,ス

コア検定は

(8.94) となり,いれは,オ

わゆるlog‐rank検

定といわれる検定統計量が導かれる .ま

ッズ比の層別解析で有名なMantel‐Haenzsel検

ところが,式(8.74)の

た,こ

定と同一である.

近似部分尤度で計算すると超幾何分布ではなく幾

何分布での推論に変換されていることに注意して,近似式(8.74)-(8.81)か

ら

(ここでは近似を意識して記号に添字「approx」をつける),

(8.95)

(8.96) となる.式(8.93)と

式(8.96)と

にのみ両者は一致するが,一

を比べると,明らかにタイがない場合dj=1

般には近似尤度の分散が過大推定:

djRapprox,j(0)〓Rj(0) Iapprox(0)〓I(0) となっており,近

(8.97)

(8.98)

似部分尤度に基づくスコア検定は少々検出力が小さくなる

傾向(conservative)がして,n1j/nj＜

ある.Peto

＜1で

and Pike(1973)は

さらに分散を過大評価

あれば近似的に成立する分散: n1j/

Vj=

dj

=Ej(期

待値)

nj

を利用した簡便な(し

を提案している.コ本章では,比

かし,conservativeな)log‐rank検

ンピュータの普及していなかった時代の産物であろう.

例ハザードモデルの基本的な考え方に重点をおいたので,他

のトピックは省略した.中 tionality)の

定

でも,そ

の応用上,重

要な比例ハザード性(propor

チェックの考え方については他のテキスト,例

and Prentice(1980),Fleming

and Harrington(1991)な

えば,Kalbfleisch

どに進んでいただき

たい. [例題8.3]下

の架空の生存時間データにCoxの

し治療効果の推定,検

定の計算を行え.な

比例ハザードモデルを適用

お,20+,35+はcensored

timeを

表す.

[解答］まず,こ

のデータに適用するCoxの

比例ハザードモデルは

λ(t;x)=λ0(t)exp(βx)

である.必

要なデータは表8.3の

似尤度式(8.74)を

ようにまとめられる.そ

利用している.こ

こでの尤度は,近

の表から部分尤度は

(8.99) となる.し

たがって,

ι(β)=logPL(β)

表8.3

生存時間分析のための架空データ.共変量は１個ｘで,治で,x=1(新

治療),=0(標

を示す変数で,δ=1(イ (8.74)を

となり,最

準治療),で

ある.また,δ

ベント発生),=0(censored)で

療の種類を表す変数

はイベント発生の有無ある.尤

度は近似式

利用して計算している,

尤推定値 β は次のNewton‐Raphson反

復収束法

の解となる.そ

の結果,

となる.

したがって,標

準治療に対する新治療のハザード比の推定値と95%信

頼区

間は最尤推定値:exp(-1.380)=0252

95%CI:eXp(-1.380±1.96･1.157)=0.026-2.431

と計算される.また,帰

無仮説H0:β=0に

対するWald検

定の自由度１の

x2検定統計量は β2I(β)=1.422 となる.ま

た,U(0)=-1.271,I(0)=0.975で

あるので,帰

無仮説H0:β=0

に対する有効スコア検定の自由度１のX2検

となる.ま β=0に

定統計量は

た,ι(0)=-7.937,ι(β)=-7.098で

あるので,帰

対する尤度比検定の自由度１のx2検 -2(ι(0)-ι(β))=1

無仮説H0:

定統計量は .678

と計算できる. さて,次

に,式(8.73)の

正確な部分尤度に基づく推定値を求めてみよう.

近似尤度との違いはt4=25,d4=2,n4=5に

対する尤度が近似部分尤度

から,正確な部分尤度

eβ/{(2 2)+(2 と変化するだけである.こみ合せが,二

1)(3 1)eβ+(3 2)e2β}

こで,リ

スクセットR(t4)の

(8.100)

中から２人を選ぶ組

つの治療群からの組み合せを考えて (2

2 1)

(5 2)=

2)+(

となっていることに注意したい.さ

て,こ

2) (3 1)+(3 の正確な部分尤度により推定す

ると β=-1.606,

SE(β)=1.245

ハザード比=0.201,95%CI:0.017-2.304

であり,帰無仮説H0;β=0に

対するそれぞれの検定統計量は Wald検

定統計量=1.663

スコア検定統計量=1.891 尤度比検定統計量=1.947

となる,こ

の結果は,近

似尤度が少々控え目であることを示す一例である.

[例題8.4] １)例題8.2の

モデルにCoxの

λ(t;x)=λ0(t)exp(βx),x=0(プ

比例ハザードモデルを適用せよ. ラセボ),x=1(プ

レドニソン)

表8.4

２)表8.1全

表8.1の

データに対するCoxの

体のデータにCoxの

比例ハザードモデルの適用結果

比例ハザードモデルを適用して治療効果

を推論せよ. [解答]い

ずれも近似尤度(8.74)に

利用する.変法),alb(ア

数は,day(生

基づくS‐Plusプ

存日数),event(イ

ルブミン),sake(飲

酒の有無)で

S‐Plus program:例

ログラム

「coxreg」

ベント発生の有無),treat(治

を療

ある.

題8.4,表8.4

coxreg(day,event,treat) coxreg(day,event,cbind(treat,alb,sake))

１) 例題8.2

推定結果は

であった.ま定,ス

た,帰無仮説H0:β=0に

対するWald検

定,尤

度比検

コア検定の χ21検定統計量はいずれも1.2と計算された.Weibull

比例ハザードモデルでの推定結果と比較してみよう. ２)全体推定結果は表8.4にずかに及ばない0.067で

示すとおりである.治あった.

療効果のp値

は5%に

わ

９ Bayes推

9.1

Frequentist―

伝統的統計学

これまで解説してきた推測方式の多くは,原可能な実験(標

本抽出)か

測

則として,何

度も繰り返しが

ら得られる標本Ｘに対して,未

知母数 θを含む

確率分布〓(x｜ θ)を考えるという意味で頻度論者(frequentist)のるといえる.す [例１]あ

立場であ

でに解説してある事柄もあるがここで整理しておく.

る母集団から無作為に選んだ１組の標本

(X1,X2,...,Xn) に対して,正

規分布N(μ,σ2E)を

考え,未

知母数(μ,σ2E)を推定しようとす

るのは頻度論者での統計モデルである. [例２]ｎタXijに

人の患者について,そついて,統

れぞれ γ回繰り返し測定した一元配置デー

計モデル Xij=μ+αi+〓ij,

を考え,母

数 αi,i=1,...,nを

〓ij∼N(0,σ2E)

(9.1)

推定しようというのは頻度論者のモデルで

ある.

[例３】例２のモデルの中で,αiは場合には,母

対象とする集団から “random” に選んだ

数ではなく,確率変数であると考えることもできる.つ

まり,

選ばれた患者の効果には興味がなく,そのバラツキに興味がある場合である. したがって,αiに αi∼N(0,σ2B)

(9.2)

というモデルを導入し,σ2Bを推定しようというモデルも頻度論者のモデル

であるが,変て,例

量効果モデル(random‐effects

model)と

よばれる.こ

１,２は母数効果モデル(fixed‐effects model)と

よばれる.

[例４] ある条件下におかれた動物の成長を観察するために,ｎの体重を γ 回の測定時(t1,...,tr)でて,母

れに対し

例のマウス

測定した二元配置データXijに

対し

数効果の線形モデル Xij=α+βtj+〓ij,〓ij∼N(0,σ2E)

(9.3)

を考えてみよう.データをグラフにプロットして観察してみればわかるように,個

体差が大きくて一つの線形モデルで表現できるケースは少ない,こ

ような場合には,個 Xij=(μ

の

体差を表現するための変量効果モデル α+αi)+(μ

2

β+βi)tj+〓ij,〓ij∼N(0,

(αi,βi)∼N(0,Σ)

σE

)

(9.4)

(9.5)

を考えることができる.

9.2

Bayesian

これに対して,Bayes推測の立場(Bayesian)では,頻度論の立場に立たないため,どのようなものにも確率(分布)を考えることができる .例えば,次のような推測?で

ある. 「あいつが彼を殺した確率は0.9以

上だ!」

頻度論者はこの推測はナンセンスであり,まさに,げ

す(guess)の

かんぐり

であると非難する, さて,Bayes推

測では

〓問題にする未知パラメータ(母数とはいわない)θ 布p(θ)と

して表現し,θ

は確率変数と考える.こ

観測する前に設定されるか,後 distribution),事

の不確実性を確率分の確率分布をデータを

に設定されるかによって事前分布(prior

後分布(posterior

distribution)と

いわれる.

〓データＸも頻度論者と同様に確率変数であり,確率分布〓(x｜θ)をもつ,し

たがって,

〓未知パラメータとデータの同時確率分布を考えることができる. p(θ,x)=p(θ)〓(x｜

θ)

(9.6)

さて,Bayes推

測で推測の対象となる未知パラメータ θ はなにも確率分布

〓(x￨θ)に含まれるものに限らない.応〓欠損値(missing

用上で重要なものとして

value)

〓測定誤差に隠れている真の値

なども対象となる.さて,Bayes推

測では θの不確実性,す

率分布に推測の興味があるわけで,デ

なわち,その確

ータが観測されていれば,デ

ータで条

件付けすることにより(データの情報が付加された)θ に関する条件付き確率分布p(θ￨x)を Bayesの

求めようとするのは自然であろう.そ

して,そ

の方法は,

定理が教えてくれるのである.

Bayes

theorem

(事後分布の「核」とよぶ)

(9.7)

事後分布＝事前分布 х 尤度(データが.given)(9.8)

9.3 無情報事前分布

さて,Bayes推

測の最大の問題は事前分布の設定法である.

〓最も極端なBayes推

測は「主観確率」で推測する立場である.主観確率

の選び方により事後確率が大きく異なり,この意味で頻度論者から非難されてきた歴史的背景がある. 〓専門家の考えを事前確率に取り入れることが容易という点で,Bayes流意思決定の分野では応用上重要であると考えられている. 〓しかし,実

際の統計的推測において,未

知パラメータの不確実性を規定

する事前分布の選び方により結果が変わってしまっては困るわけで,この意味で,実

際のBayes推

試みることが多い.な

測では「客観的」に事前分布を設定しようと

かでも,

‐ モデルの未知パラメータの事前分布に含まれるパラメータ(超パラメータ,hyper tive prior)」

paremeter)に

さらに「無情報事前分布(noninforma

を仮定したfull Bayes法

‐ 超パラメータの事前分布は未知と考え,そ法で推定するempricial

Bayes法(具

れを観測データから最尤

体例は12.4.1項

参照)

の二つがよく利用される.

ここで,無

情報事前分布とは.未

知パラメータに関して事前の知識が欠けて

いる状況を表す事前分布をさす.「未知」ということはもともと「知識が欠けている」ことを意味するのであるから,頻度論者からみればなんとも変なことをしているものだ!とであるから,そ

一蹴されかねない.と

はp(θ)∝C(定

「-∞

〓 θ 〓 ∞ 」の値をとり得るときその事前分布

「0＜

θ 〓 ∞ 」の値をとり得るときその事前分布は

数).

〓未知パラメータが p(logθ)∝C(定

数),す

なわち,p(θ)∝1/θ

と考えるのが自然であろう,し

こで,応

前情報がないの

れを表す確率分布としては「一様分布」が自然であろう.

〓未知パラメータが

しまい,確

もあれ,事

かし,前

となる.

者の場合,積

分すると ∞

率分布としては正しくない事前分布(improper 用上は,観

prior)と

なる.そ

測データの適当なスケーリングにより

〓未知パラメータが,平

均値のように,「-∞

ときその事前分布は,正

〓未知パラメータが,分その事前分布は,逆

〓 θ〓 ∞ 」の値をとり得る

規分布,

p(θ)=N(0,σ2),σ=100程

散のように,「0＜

度 (9.9)

θ 〓 ∞ 」の値をとり得るとき

ガンマ分布,

p(1/θ)=Gα(α,α),α=0.001程

とすることが多い.こ

こに,Gα(α,b)は

度 (9.10)

ガンマ分布でその確率密度関数は

α/

ｂ〓(x｜

となって

α,b)=

α-1

x

Ｔ(α)

exp(-bx)∝x

α-1

exp(-bx)

図9.1

α/

E(X)= である.こ

,

b

無情報事前分布の例

Var(X)=

α/

(9.12)

b2

の二つの事前分布の「無情報ぶり」は図9.1に

示すとおりである.

また,このように無情報事前分布を設定する他の理由としては,後

で示すよ

うに,事前分布と事後分布が同じ分布属に属する解析上のメリットがあるからである.こ

の種の事前分布を自然共役(natural conjugate prior)という.

9.4

さて,Bayes推

事

分

布

測では事後分布に興味が集中するわけであるが実際の統計

的推定問題への適用に際しては,事である.も

後

ちろん,未

後分布から点推定値を求めることが必要

知パラメータは確率変数であるから,頻度論的立場に

おけるような未知母数の「不偏推定」という概念はないものの,推さの基準が必要になる.そ

の一つが損失関数(loss function)と

定値の良

いわれるもの

である.い

ま,θ が真のときに推定値ｔをとるときの損失関数をL(t,θ)と

しよう.すると,事

後分布に基づく期待損失は E(L(t￨θ)｜x)=∫L(t・

θ)p(θ ｜x)dθ

(9・13)

となり,この期待損失を最小にする推定量ｔを選ぶのが自然であろう.もちろん,用

いる損失関数に依存して変化する.表9.1に

は代表的な損失関数と

それから導かれる推定量との関係を示した. 一般的には,期待損失関数を平均２乗誤差でとらえることが多いので,したがって「事後分布の期待値をBayes推 9.1の(３)になるが,こらば,事

定値」とすることが多い.ま

示す損失関数を利用すると事後分布のモードがBayes推

た,表定値と

れは頻度論者での最尤法を特別な場合として含んでいる.なぜな

前分布にきわめて範囲の広い一様分布p(θ)=Cを

仮定すれば,式

(9.7)より p(θ￨x)∝

〓(x｜ θ)

となり,事後分布最大は尤度最大を意味するからである.

9.5 階層的条件付き独立モデル

ここでは,full Bayes法

のなかでも,複

雑なモデルが階層構造を有するい

くつかの独立なサブモデルに分解できる(確条件付き独立モデル(hierarchical

率計算が簡単にできる)階

conditional independent

model)を

層的紹介

しよう. まず,例

１の問題で,二

分布p(μ,σ2E)を

導入し,事

しようとするのがBayes推

表9.1

Bayes推

つの未知パラメータ(μ,σ2E)に後分布p1(μ

｜x)とp2(σ2E｜x)を

測である.式(9.6)で

ある２変量の事前それぞれ,推

定

示される同時分布がこの例

定における損失関数とそれに対応した推定量

では

(9.14) となり,例えば,平

均値に関する事後分布は

(9.15) と計算する. この場合,図9.2に

示すように,μ,σ2Eそ

れぞれ独立に,事

前分布として,

(9.16) ガンマ分布 (9.17) を「独立に」仮定してみよう. さて,こ dency)」

の図は,各

ノードを矢印で結び,矢

を表し,そ

acyclic graph)と

印の方向に「依存性(depen-

の反対方向には進まないという意味で, DAG(directed

よばれる.「 ○ 」で囲まれた変数は未知パラメータで,「 □ 」

で囲まれた変数はデータである. 〓それぞれの,○,□

〓例えば,○

→

をノード(node)と

○ の場合に,矢

いう

印を出しているノードを「親」,受けて

いるノードを「子」とすると,それぞれのノードは親(複数ある場合も) のみに依存し,親の先祖には依存せず独立である.ただし,この独立性はデータをとる前に仮定されているのであって,デ

ータで条件付けられ

た後ではその独立性はかならずしも保持されない．〓矢印が実線であれば「確率的依存性」を表現し,「点線」であれば「関数的依存性」を表現する.

図9.2

2

正規分布Ｎ(μ,σ E,)のBayes推

定におけるDAGの

例

と仮定する階層的条件付き独立モデルである.しかに独立と仮定しているが,デ

ータをとった(条件付けした)後

はかならずしも保存されない.つフは階層的Bayesモ

たがって,μ

では独立性

まり,推定値間の相関が生じる.こ

のグラ

デルの同時分布を考えるうえできわめて有用である.こ

のモデルの特徴の詳細はSpiegelhalter et al.(1993)をさて,こ

と σ2Eは明ら

のモデルの特徴は,式(9.6)の

参照されたい.

同時分布が,

(9.18) と書けることである.こ v={モ

こに

デルに含まれるすべてのノード υ の集合}(9.19)

である.図9.2のDAGよ

り, P(μ,〓,x)=p(μ)p(〓)〓(ｘ

と書ける.も

ちろん,こ

｜μ,〓)

の単純な例では明らかであり,このような表現はつ

まらない例かもしれないが,後ルで発揮される.さて,そ

でみるように,こ

の表現の良さは複雑なモデ

れぞれの事後分布を計算してみると,以下のよう

になる.

(9.20) (9.21) であり,ま

た,

(9.22) となる.し

たがって,(μ,〓)のBayes推

定値はそれぞれの事後分布の期待値

であるから

(9.23) (9.24) の連立方程式を解くことになる.この例でみるように,事後分布もそれぞれ正規分布,逆

ガンマ分布となり,式(9.16),(9.17)の

事前分布が自然共役で

あることがわかる.解析が容易となることから共役な事前分布がよく利用されてきたが,10章

でみるように,最

近の計算技術の進歩により共役な事前

分布はかならずしも必要ではなくなってきている. [例題9.1]下

のDAGに

[解答］式(9.18)よ

り,同

対する式(9.7)で

与えられる事後分布の核を導け.

時分布は

p(α,β,γ,x,y)=p(γ￨α)p(β￨α)p(y￨β,x)p(α).p(x)

となるから,事

後分布は

p(α,β,γ￨x,y)∝p(γ￨α)p(β￨α)p(y￨β,x)p(α)

となる.

9.6応

用

例

以下にいろいろな応用例をあげる.それぞれのDAGよ

り事後分布の核を

求めよ. [例５]一元配置分散分析例３の変量効果モデルを階層的Bayesモ

デルで考えてみよう.式(9.1),

(9.2)は Xij∼N(μi,σ2E)

μi∼N(μ0,σ2B)

となり,超

パラメータのnon‐informative事

前分布の例は

μ0∼N(0,σ2),σ=100 1/σ2E∼Gα(α,α),α=0.001 1/σ2B∼Gα(α,α),α=0.001

となる.こ

のモデルのDAGは

図9.3に

示すとおりである.

[例６]成長曲線モデル例４の体重の成長曲線の変量効果モデルを階層的Bayesモ

デルで考えてみ

よう.式(9.4)は Xij∼N(μij,σ2E) μij=αi+βitj

と再表現できる.変量効果モデルでは,(μi,βi)に式(9.5)のを仮定していたが,階

層Bayesモ

デルでは,独

２変量正規分布

立にそれぞれの事前分布を

仮定

することに注意したい,五例は

αi∼N(μ

α,σ2α)

βi∼N(μ

β,σ2β)

つの超パラメータのnon‐informative事

前分布の

図9.3

Bayesian一モデルのDAGの

元配置分散分析例

図9.4 Bayesian成

μα ∼N(0,σ2α),σ

α=100

μβ ∼N(0,σ2β),σ

β=100

長曲線モデルのDAGの

例

1/σ2E∼Gα(α,α),α=0.001 1/σ2α ∼Gα(α,α),α=0.001 1/σ2β ∼Gα(α,α),α=0.001

となる.こ [例７]混

のモデルのDAGは

図9.4に

合効果(mixed‐effects)モ

示すとおりである.

デルのロジスティック回帰分析

五つの超パラメータの事前分布の例は β0,β1,β2,β12∼N(0,100) 1/σ2∼Gα(0.001,0.001)

とおける.こ [例８]臨

の場合のDAGは

図9.5で

ある.

床試験のメタ・アナリシス(meta‐analysis)

第i(=1,...,K)臨

床試験の対照群の症例数とevent発

新治療群のそれを(ni2,γi2)と

しよう.そ

うすると,可

生数を(nil,ril), 能なモデルは

図9.5

図9.6

混合効果モデルのロジスティック回帰モデルにおけるBayes推

定のDAGの

Bayesianメ

タ・アナリシス

におけるDAGの

例

例

γij∼Binomial(Pij,ηij)

log

pij

=αi+βixj, xj=0(control);=1(new

treatment)

/1-pij

βi∼N(μ,σ2)

ここに,βiは

真の効果の対数オッズである,三

つの超パラメータの事前分布

の例は αi∼N(0,100) μ ∼N(0,100) 1/σ2∼Gα(0.001,0.001)

とおける・図9.6にDAGを

[例９]測

示す.

定誤差のあるロジスティック回帰モデル

生活環境中のNO2へ

の曝露ｘと呼吸器系症状の発生率ｐとの関連をロジ

スティック回帰モデルで検討したい.し NO2曝

露濃度の真の測定(例,パ

かし,疫

ーソナルサンプラー)は困難で,家

濃度を簡易測定法で測定(ｚ)する以外にない.たは双方の測定を行い,ｘ

学調査ですべての対象者の

だ,少

の中の

数の対象者に対して

とｚとの関係式を推定することは可能である.こ

ような状況でのモデルは以下のとおりである. dj∼Binomial(pj,nj) log

pj/ 1-Pj

=θ1+θ2xj

(9.25) (9.26)

の

図9.7

測定誤差を考慮したBayesianロ

ジスティック回帰モデルでのDAGの

μj=α+bzj

xj=N(μj,σ2)

ここで,(α,b,σ)は

少数の対象者での推定値である.二

例

(9.27) (9.28)

つの超パラメータの

事前分布の例は θ1,θ2∼N(0,100)

とおける.図9.7にDAGを [例10]市

示す.

町村単位の死亡率の標準化死亡比(SMR,

ratio)のsmoothing(12章

参照)

１)over‐dispersionモ

デル

超パラメータの事前分布は β0,...,βp∼N(0,100) 1/σ20ti Ga(0.001,0.001)

とおける. ２)空間smoothingモ

デル di∼Poisson(μ logμ

ｉ)

ｉ=logEi+β1x1+...+βpxp+αi+θi

standardized

mortality

超パラメータの事前分布は β0,...,βp∼N(0,100) 1/σ20,1/σ21∼Ga(0.001,0.001)

とおける, さて,こ

れまで,Bayesモ

デルの柔軟性を解説してきたが,実

メータ推定の計算になると,次 Carlo)法

の章に解説するMCMC(Markov

が重要な武器となる.頻

関しては,Breslow

度論者の立場での変量モデルでの推測法に

and Clayton(1993)が

参考になる.

練習問題 [問題9.1】

[問題9.2]下

下のDAGに

対する事後分布の核を導け,

のDAGに

対する事後分布の核を導け,

[問題9.3]Bayesian線

形モデル

際のパラ

chain Monte

yi∼N(α+βzi,σ21),

において,真してxiが

i=1,...,n

α ∼N(μ1,φ21),

(non‐informative)

β ∼N(μ2,φ22),

(non‐informative)

の共変量の値ziは

測定できず,そ

れに代わって,代

替変数と

測定される状況を考える. xi∼N(zi,σ22)

もちろん,ziの

分布(non‐informative)を

１)DAGを

指定する必要がある.こ

のとき,

描け.

２)同

時分布を導け.

３)未

知パラメータ α,β,zの

事後分布を導け.

[問題9.4] mi∼Poisson(μ),

i=1,...,n

μ ∼Gamma(γ,λ)

とするとき,次

の問いに答えよ.

１)μ の事後分布,平

均,分

散を求めよ.

２)ｎが大きくなると事後分布はどうなるか? [問題9.5]表9.1に [問題9.6]例10のルのDAGを

描け.

示す損失関数と推定量との関係を導け. 死亡率の標準化死亡比のsmoothingに

関する二つのモデ

10 Markov

６章の表6.1に

Monte

Carlo

法

示した毒性データのロジスティック回帰分析(6.8節(１))に

個体差を考慮したBayesモ mκ

chain

∼Binomial(θ

デル κ,nκ),κ=1,...,K

(10.1)

(10.2) ｐ(α,β):ある事前分布に従う

(10.3)

〓κ:個体差等により,二項分布で説明できない変動(10.4) を適用してみよう.問

を推定し,Bayes推

題は,(α,β)の

事後分布,例

えば,

定値(事後分布の期待値) β=∫

βp(β￨x,m,n)dβ

(10.5)

を求めることである,

10.1

期待値の計算

確率変数Ｘが密度関数 π(ｘ)をもつとき,関数〓(ｘ)の期待値は Eπ(〓(x))=∫ である.し

かし,

〓積分が複雑

〓(x)π(x)dx

(10.6)

〓高次元〓解析解が得られない(no

closed form)

の場合には困ってしまう!最近の統計学の研究は,従者)の

立場の母数効果モデル(fixed‐effects)か

effects),混

合効果モデル(mixed‐effects),さ

ら,変

来のfrequentist(頻

量効果モデル(random‐

らには, Bayesian推

方法論が盛んになってきている.そ

の計算にはこれらの期待値(積

要となる.解

たは不可能な場合,も

析的に計算が困難,ま

立な標本がsimulateで

度論

論などの分)が

し,π(x)か

必

らの独

きる

x(1),x(2),...,x(N)∼

π(x),x(i)⊥x(j)

(10.7)

ならば

(10.8) で近似できる.こ

れがMonte

large numbers)に

Carlo(MC)積

分であり,大

数の法則(law of

より一致性(consistency)

(10.9) が成立する.し π(x)か

らの

実は,独 ulateす

かし,既

知の確率分布なら問題はないが,一

「独立」なrandom

立ではないが,あ

sampleのsimulationも

る「Markov連

鎖(MC,

般には複雑な

また困難である. Markov

chain)」

でsim

れば一致性が成立するのである,

10.2

推移確率p(･￨･)を

Markov連

もつMarkov連

鎖から乱数を発生させるとは,

x(i+1)∼p(x￨x(i)),i=1,2,... ということである.つ

まり,x(i+1)はx(i)に

とは独立である.

[例題10.1]Markov連

鎖

鎖 x(i+1)∼N(0.5x(i),1.0)

(10.10) は依存するが,x(0),x(1),...,x(i-1)

について１)初期値を適当に変えて300個２)x(i)の

定常分布 π(x)を

の乱数を図示せよ.

求めよ.

[解答] １)S‐Plusを

利用し,初

に示す.す

期値を２通りx(0)=5,-4,に

でに,100番

ことがわかる.101番

変えた結果を図10.1

目前後からデータのバラツキは類似している目からのデータのヒストグラムをみると,正

分布に類似した形状を示し,そ

の平均値と分散は,前

1.416),後

あった.

者は(0.139,1.270)で

規

者は(-0.0014,

２)定常分布 Markov連

鎖を書き換えれば x(i+1)=0.5x(i)+〓,〓

となる,ま

図10.1

ず,定

∼N(0,1)

常分布は正規分布であることは明らかであろう.そ

例題10.1のMarkov連

鎖の初期値を変えた２種類の300の

個の乱数列のヒストグラム

乱数列と最後200

こでその定常分布を N(μ,σ2)

としよう.定常であれば,期

待値の関係から

μ=E(x(i+1))=E(x(i))

より μ=0と

なる.ま

E(x(i+1))=0.5E(x(i))

た,分

散の関係より

Var(x(i+1))=0.52Var(x(i))+1 つまり,

σ2

=σ2 /4

から σ2=4/3と

なる.結

しかし,すべてのMarkov連性質として,Markov連

局,定

常分布はN(0,4/3)と

要な

鎖が「再帰的(irreducible)」である場合に,定

常分

こに,再帰的とは,任意のある状態から他

限回の推移で推移できるMarkov連

は,式(10.9)と

なる.

鎖が定常分布をもつとはかぎらない.重

布は一意に定まることである.この状態へ,有

+1

鎖を意味する.そ

の場合に

同じ等式

(10.11) が成立する.たさて,そ

だし,こ

の場合は,エ

の推定誤差(NSE,

ルゴード平均(ergodic

numerical

average)と

standard errors)は,理

よぶ.

論は省略す

ると,

(10.12) ここに ρj(〓)は長さjのある.こ

間隔(lag)を

おいた数値列{〓(x(i))}の

相関係数で

の推定誤差に関しては

〓Ｎを大きくすることにより小さくすることができる〓独立なsamplingで

あれば相関の項はゼロである

〓相関の項は推定誤差を小さくする方向に働くこともあるが,通くする方向に作用する

常は大き

などがいえる(Gilks

et al.,1996参

10.3

さて,問

照).

Metropolis‐Hastingsア

ルゴ

リズム

題は,式(10.10)の Markov連

を利用して,目

鎖:p(･￨･)

標である式(10.6)の

期待値を計算するための

定常分布:π(x) をどのように構成すればよいのか,での方法を提示し,Hastings(1970)に MCMC(Markov

ある.Metropolis

よりアルゴリズムが完成した.こ

chain Monte Carlo)法

(i+1)

∼ p

アル

設定する.

y∼q(x￨x(i))

３)Step２.x(i+1)のまず,ｙ

ゴリズム

(x￨x(i))

１)あゐ条件付き分布(a sampler)をq(･｜･)と２)Step１.sample

れを

という.

Metropolis‐Hastings

x

et al.(1953)が,そ

値として,次

の確率的選択を行う.

を採択するかどうかの採択確率(acceptance

probabil‐

ity)と定義する: (10.13)

ぞこで,次の決定を行う. x(i+1)=y,

with probability α(x(i),y)

x(i+1)=x(i),

さて,上

のMHア

ルゴリズムで得られる定常分布が,条

にかかわらず,π(x)で [例題10.2]対

with probability 1-α(x(i),y) (10.14)

件付き分布q(･￨･)

あることを以下の例題を通して考えてみよう.

称な条件付き分布, q(x￨y)=q(y￨x)

(10.15)

である場合の採択確率 α(x,y)はどうなるか? [解答】

(10.16) [例題10.3] π(x)P(y￨x)=π(y)p(x￨y)

(10.17)

であることを示せ. [解答] 1)Case

1.y≠x

2)Case

2.y=x

明らか.

[例題10.4]定

常分布が π(y)となる,す

なわち

∫(x)p(y￨x)ax=π(y)

(10.18

）

となることを示せ.

[解答1定

常状態で,時

点ｉに状態yに

いて,推

移確率p(y￨x)で

状態yに

いる確率は,時

点i-1に

推移する確率をｘで合計(積

ものであるから

∫ π(x)p(y￨x)dx となる.例

題10.3の

結果を利用すると,次

∫ π(x)p(y￨x)dx=∫

式が展開できる.

π(y)p(x￨y)dx

=π(y)∫p(x￨y)dx

状態ｘに分)し

た

=π(y)

10.4

さて,前 Markov連

節でsampler

２種類のsampler

q(･￨･)の

選び方にかぎらず,MH法

で構成される

鎖により望みの定常分布 π(x)が得られることがわかった.し

〓sampler q(･￨･)の

かし,

候補はたくさんある

〓その選び方は? 〓早く収束する(rapid ら,定

mixing)も

のが良いが,そ

れは,当

然のことなが

常分布 π(･)との関係に大きく依存する

〓mixing rate=「れば,NSEは〓しかし,あ

過去を忘れる速度」と定義すると,mixing

rateが

速け

小さくなるるMarkov連

鎖がどのようなmixing

rateを

もつかを事前に

予測することは困難

などという問題がある, ここでは,条

件付き確率として２種類の

「common

choices」

の例をあげ

よう. １)対

称sampler(Metropolis

sampler)

q(y｜x)=q(x｜y) Metropolis(1953)が (10.16)で

(10.19)

提案したものである.こ

与えられる.応

用では,正

規分布

q(Y￨X)=N(X,σ2) とすることが少なくない.そ

の,特

の場合の採択確率は式

(10.20)

殊な場合として,random

walkモ

デル q(y￨x)=q(｜y-x｜)

が考えられる.後

の例でも示すように,分

散 σ2の大きさの選び方に

注意が必要である. ２)独

立sampler(independence

sampler)

q(y｜x)≡q(y)

ただ,独

立samplerは,後

の例で示すように,非

(10.21)

常に良いか非常に悪

いかのどちらかであることが多いことに注意!こ

の場合の採択確率は

(10.22) ここに,ω(･)=π(･)/q(･)で

ある.

[例題10.5] π(x)=N(0,1) q(y￨x)=N(ax+b,σ2) において, １) a Metropolis

sampler

２) an independence

を求めよ.次

に,こ

sampler

れらの２種類のsamplerに

ついて,σ2を

適当に変えて,

その収束状況を観察せよ.

[解答] １) Metropolis

sampler

q(y￨x)=q(x￨y),で

あるから

(y-αx-b)2=(x-αy-b)2 〓

0={(1-α)(y+x)-2b}(1+α)(y-x)

つまり, (α=1,b=0),ま

となる.特

と,random ２)independence

たは,(α=-1,b:任

に,(α=1,b=0)の

walk samplerと

意)

場合は

なる.

sampler

この場合は明らかに(α=0,b:任

さて,(α=1,b=0)のMetropolis

意)と samplerで,初

σ2=0.1.0.5.10

なる. 期値x(0)=-4と

して,

図10.2

例題10.5のMetropolis

samplerで,分

の乱数列と最後500個

と変えて,1000回

の繰り返したMH乱

乱数のヒストグラムを図10.2に

数列と501回

れる採択確率が高くなるが,変

ため,採

れに,対

場合はy-xの

変動幅

１に近くなり,式(10.16)で

与えら

たがって,mixing

設定すると,y-xの

択確率は小さくなり,し

になる.σ2=0.5の

目までの

動は小さく,し

して,σ2=10と

から順に σ2=0.1,0.5,10

目から1000回

示した.σ2=0.1の

が小さく抑えられるため,π(y)/π(x)が

い.こ

散の初期値を変えた３種類の長さ1000

の乱数列のヒストグラム.上

rateは

遅

変動幅が大きすぎる

ばらく変動しないサイクルを繰り返すこと

ケースでは,こ

れらの両極端のパターンが生じることな

く比較的早く収束しているように思われる. 次に,independence

samplerの

挙動をみるために, b=0と

して,

σ2=0.5,1.5,5.0

の三つの場合を調べてみよう.図10.3に

示すように,σ2=0.5の

場合は初

図10.3

例題10.5のindependence 長さ1000の

samelerで,分

乱数列と最後500個

散の初期値を変えた

の乱数列のヒストグラム.上

３種類のから順に

σ2=0.5,1.5,5.0

期値x(0)=-4が

全く変化していない.し

れいに収束していることがわかる.こか?

かし,σ2=1.5の

場合はかなりき

の理由はなにが原因しているのだろう

採択確率,式(10.22)の

の部分を考えてみよう.q(･)の

分散が π(･)の分散より小さい,す

布の裾がより軽い(light tailed)場１)初期値が分布の裾x(0)=-4に２)q(x)が

π(x)に

合, 位置すると,

比してきわめて小さくなり,分

きわめて大きくなる

なわち,分

母,す

なわち,ω(x)が

３)それに対して,ｙの値はほとんど裾に位置しないことから採択確率はきわめて小さくなるのである.この場合はつねに採択されない極端な結果となったのである. ところが,σ2=1.5の

場合はq(･)は

のでこのようなことは避けられる.図いる例であり,こ

者のヒストグラムで示し

れぞれ,(-0.090,1.038)と

近づいていることがわかる.と

先ほどのMetroplois

samplerの

σ2=10の

なり,定

ころが,σ2=5と

例のようにしばらく変動しないどはmixing

れでも,後

散はそれぞれ,(0.165,1.116)と

のデータの平均,分

常分布すると,

サイクルを繰り返している.σ2=1.5ほ半500個

tailed)

に示した結果は非常にうまくいって

の二つは対照的な例である.前

た乱数列の平均値と分散は,そ π(･)=N(0,1)に

π(･)より裾が重くなる(heavy

rateは

早くないが,そ標

準正規分布に近づいている.

10.5

さて,図10.2,図10.3のあった.こ

収束診断

右側にはMH乱

の例では一律にM=500回

M+1=501回

目から1000回

数列のヒストグラムを示しての繰り返しは捨てて(burn‐in),

目までの500個

の乱数列を利用したので

あるが,「乱数列の最初の項は初期値に依存しているので,そ

の部分は捨て,

収束した(過去を忘れた)部分だけを利用」しようという自然な発想である. つまり,式(10.11)の

で置き換えられる.最とよぶ.Ｍ

期待値の計算は

初のＭ回の初期値に依存する部分をburn‐in sample

の決定を含めて,収

束しているかどうかを簡単にチェックする方

法の一つに,burn‐in sampleを

捨てた乱数列の前半部分と後半部分,そ

れの平均値と分散を計算し,次

の統計量を計算する方法がある.

れぞ

(10.24)

乱数列がほぼ収束していれば,こ

のＺ値が標準正規分布に従うことから収束

の状況をチェックできるという意味である.よ Rubin法(1992)を Markov連

り精度の高い方法はGelman‐

利用する．初期値を数種類変えてMCMCを

鎖の群内,群

行い,複

数の

間分散を計算する方法であるがここでは省略する.

いずれにしても,初期値を変えて収束状況をチェックすることは重要である.

10.6

これまでは,Markov連

Single‐component

MH法

鎖の推移確率

は１変量を暗黙のうちに仮定してきた.実

際には多変量

x=(x1,...,xp)

の場合がほとんどである.例

えば,表

のロジスティック回帰分析の例では

x=(α,β) の２変量である.こ

(10.25)

(10.26)

の多変量の場合には推移確率に多変量分布を設定して一

度に推移させる方法も考えられるが,そ sampler qj(・￨・)を設定し,そ

れよりも,そ

れぞれのiteration

に逐次推移させる方法が簡単であり,か

れぞれの変数xj毎

iで,変

数x1,x2,...の

ついろいろと便利である.つ

に順まり,

次のアルゴリズムがよく利用される:

(10.27) つまり,それぞれの変数の推移にあたっては,最

も新しいｘに基づく採択確

率を利用する.まず,iteration iからiteration i+1へ数xjが

の推移において,変

推移する直前の他の変数の状態を次式で定義する:

(10.28) つまり,こ

のアルゴリズムの下では,sampler,定

常分布 π(・￨・)とも,現

在

の状態の条件付き確率であるから,

(10.29) このアルゴリズムをsingle‐component

Metropolis‐Hastings法

とよび,

(10.30) で,フ

ル条件付き分布(full

[例題10.6]表6.1のいBayes流

conditional

distribution)と

毒性データにover‐dispersion(6.6節

よぶ.

参照)を

ロジスティック回帰モデルを適用しsingle‐component

考慮しな MH法

を

適用して推定せよ. [解答]ロ

ジスティック回帰モデル

(10.31) (10.32) の式(10.32)を,計

算を容易にするために,

と標準化しておこう.パ ρ1(α),ρ2(β)とすると,そ

ラメータ(α,β)の

事前分布をそれぞれ独立に

の事後分布は,図9.5のDAGを

参考にして

となり積分の項が含まれる．しかし,single‐component MH法確率を計算するときに分母の積分が消えてくれるので,こ

において採択

こでは,事

後分布

の核 p1(α)p2(β)〓(m￨x,n,α,β) だけがわかればよい.そ qβ(･￨･)を

こで,パ

ラメータ(α,β)にそれぞれ,sampler

適当に選んで,single‐component

MH法

qα(･￨･),

を適用すると,そ

れぞれ

の採択確率は次のとおりになる:

となる.こ

こで,samplerと

して, independence

samplerを

適用し,

qα(yα￨α(i,β(i)=qα(yα)=p1(α)=N(0,σ2α)

(10.33)

qβ(yβ￨β(i,α(i+1))=qp(yβ)=p2(β)=N(0,σ2β)

としてみよう.この場合,採

択確率は

ときわめて単純化される.さ

て,こ

(10.34)

んなに単純化されたMCMCの

挙動を次

の三つの場合について検討してみよう.

図10.4に

「run ２」の実行を,それぞれ2000回

タリングとburn‐in sampleと 1500回

して,最

初の500回

の数値列のヒストグラムを示した.初

まり変化はないが,分

繰り返した数値列のモニの繰り返しを捨てた残り

期値によって収束の仕方はあ

散が大きいとしばらく変動しないサイクルを繰り返す

図10.4

例題10.6の

「run ２」の長さ2000の

表10.1

例題10.6の

挙動を示すことがわかる.図10.5はである.収

式(10.29)の

３通りの実行を一つの図に示したもの

中のsampler

れいな乱数列とはいい

示すとおり,最尤推定値とあまり変わ

束診断のための式(10.24)の

10.7

の乱数列のヒストグラム

結果

束という点ではあまり問題は少ないが,き

がたい.しかし,推定結果は表10.1にらない.収

乱数列と最後1500個

Gibbs

Ｚ値も悪くない.

sampling

qj(・￨・,・)をフル条件付き分布(式(10.30))

(10.35) と設定したsamplerはGibbs 応用はこのGibbs

samplingを

samplerと

よばれる.今

利用している.そ

日のMCMCの

れは,求

多くの

めたい定常分布の

図10.5

例題10.6の

３種類の「run」の長さ2000の

フル条件付き分布からのsamplingとら独立samplerで

ある.こ

乱数列の重ねプロット

なっていて, x(i)jに依存しないことか

の式を式(10.29)に

代入してみると,

(10.36) となり,つ

ねに採択される独立samplerで

-(10,34)Bayes流

もある.と

ころが,式(10.31)

ロジスティック回帰モデルのフル条件付き分布を求めてみ

ると,

(10.37) (10.38) となり,こ

の複雑な分布から乱数を「直接」発生させるのは容易ではない.

しかし,次

に解説するrejection samplingと

いうアルゴリズムを利用するこ

とで多くの場合比較的簡単にコンピュータで乱数が発生できるのである. その論理は,すべてのｘについて П(x)〓 π(x)となる関数 П(x)が存在し, それに比例した確率分布からの乱数の発生は容易な場合を考えると

となり,も

し,関数 П(x)に

で採択すれば,そわち,次

比例する確率分布からの乱数Ｘを確率 π(x)/П(x)

の乱数は π(x)か

のrejection samplingの

１)П(x)に

３)もし,「U〓

アルゴリズムが成立する.

らの乱数をＵとする.

π(X)/П(X)」

ならばＸを π(x)からの乱数として採用す

用されなければ１)へ戻る(このループをＸが採用されるまで

繰り返す). しかし,実

な

比例する確率分布からの乱数をＸとする.

２)一様分布Ｕ(0,1)か

る.採

らの乱数と一致することがわかる.す

際の適用にあたっては Π(x)を

Wild(1992)は

「secant method」

rejection samplingを

提案した.そ

adaptive

求める方法が問題となる.Gilks

を利用して微分の必要のない方法adaptive

rejection

の概要は図10.6に

sampling

from

示すとおりである.

π(･)

１)π(x)を評価するためのｘの初期値の集合S={x1,...,xs}を

用

意する.通常は４点から６点前後で十分である. ２)図10.6に

示すように,{x1,..,xs}に

基づいてsecant method

より Πs(x)(太い折れ線)を構築する. ３)Πs(x)か

らの乱数をＸとずる.

４)一様分布Ｕ(0,1)か

５)もし,｢U〓

らの乱数をＵとする.

π(X)/Πs(X)」ならぼＸを π(x)からの乱数として

採用し終了.採用されなければ,Ｘを集合Ｓに加え,２)へ戻る (このループをＸが採用されるまで繰り返す) .

図10.6

adaptive

[例題10.7]式(10.37)のグラムを作成し,そ

rejection

samplingのsecant

methodの

概要図

α のフル条件付き分布から乱数を発生させるプロの試行例を示せ.

[解答]S‐Plusで

作成したプログラムを付録B.7に

10.7に示した.こ

の例ではまず集合Ｓの初期値として,

示し,そ

の試行例を図

S={-0.5,0,0.5,1,1.5,2.0} パラメータの初期値として, α(0)=2,β(0)=2.5,σ2α=1.0

と設定したものである.こ 0.7463」

の試行では３回の繰り返しで,一

を発生させている.図10.7の

関数をそのつどsimulateし

ている図で,右

数が増えるにつれて Пs(x)は

[例題10.8]例

題10.6をGibbs

[解答]S‐PlusでのでFortran,Ｃ samplingを

左の図は Пs(x)に

つの乱数「X= 比例する確率分布

の図は ПS(x)で

ある.繰

り返し

π(ｘ)に近づいていることが理解できよう.

samplingを

利用して解析せよ.

作成したプログラムを付録B.8に

示すが,計

等の言語で作成することを薦める.ま

算時間が遅い

ず,adaptive

利用するための集合Ｓの設定を次のように設定する. Sα={-1.0,0.0,1.0,2.0}

Sβ={0.0,1.0,2.0,3.0,4.0}

rejection

図10.7

例題10.7のadaptive る確率分布関数,右

rejection は Πs(x)で

表10.2

さて,こう.結

こではパラメータの(初果は表10.2に

さて,最

例題10.8の

期値の)設

まとめ,「run１

後にover‐dispersionを mκ

∼Binomial(θ

samplingの

試行例:左

は Πs(x)に

比例す

ある

推定結果

定を２通り変えて計算してみよ

」の結果を図10.8に

示す.

考慮したロジスティック回帰モデル κ,nκ),κ=1,...,K

(10.39)

図10.8

例題10.8の

「run

1」の長さ2000の

乱数列と最後1500個

の乱数列のヒストグラム

(10.40) p1(α)=N(0,σ2a)

(10.41)

p2(β)=N(0,σ2β)

(10.42)

(10.43) p4(〓)=Ga(a,b)

(10.44)

のフル条件付き分布を求めてみると,

(10.45) (10.46) (10.47)

表10.3

例題10.8のover‐dispersionを

考慮した推定結果

(10.48) となる.つ

まり,〓

だけはadaptive

rejection samplingを

適用する必要はな

いことになる. [例題10.9］ plingを

本章の冒頭のBayesianロ

ジスティック回帰モデルをGibbs

sam

利用して解析せよ.

[解答]S‐Plusで

作成したプログラムは省略するが，やはり,計

が遅いのでFortran,Ｃ rejection samplingを

等の言語で作成することを薦める.ま

算時間

ず,adaptive

利用するための集合Ｓの設定は前と同様に設定しよう.

また,

a=b=0.01 と設定した.さ

て,こ

こではパラメータの(初

と設定してみた.2000回て推定した,そ

の繰り返しでburn‐in sample数

れぞれのパラメータのGibbs

のヒストグラムは図10.9に [例題10.10]表10.4,図10.10は

示した.推

定を

をM=500と

し

samplingの

乱数列と事後分布

定結果は表10.3に

示すとおりである.

ある処理を施した30匹

体重を測定した実験データである.こ推定することにある,こ

期値の)設

のratの

５週間の

の実験での興味は出生時点での体重を

のデータに対して,次

の変量モデルの線形成長モデ

図10.9

例題10.9の

長さ2000の

乱数列と最後1500個

の乱数列のヒストグラム

ルを適用せよ. yij=α

ｉ+βi(xj-x)+〓

ｉj,

i=1,...,n(=30);

j=1,...,」(=5)

(10.49) 2

〓 ∼N(0,σ αi∼N(μ

E)

(10.50)

2

α,σa )

(10.51)

2

βｉ∼N(μ ここで,パ

ラメータ(μ

α,μβ,1/σ2E,1/σ2

β,σ β) α,1/σ2β)に

分布として

μα ∼N(0,10,000) μβ ∼N(0,10,000) T=1/σ2∼Ga(0.001,0.001)

は

「noninformative」

(10.52) 事前

表10.4

ある処理を施した30匹

〓α=1/σ 〓β=1/σ

のratの

５週間の体重のデータ

2 a

∼Ga(0.001,0.001)

2 β

∼Ga(0.001,0.001)

を仮定しよう. [解答]こ

のモデルでの同時分布は,図9.4に p(α,β,x,Ｙ,μ

となる.し

たがって,そ

α,μ β,〓α,〓β,〓)=P(〓)p(μ

示すDAGを

参考にして

α)p(〓 α)p(μ β)p(〓 β)

れぞれのフル条件付き分布は,υ=1/10,000と

して,

図10.10

ある処理をしたrats 30匹の体重の成長データ

以上のように,誤差に正規分布を仮定する線形モデルでは,位タの事前分布に正規分布,分

置パラメー

散パラメータのそれに逆ガンマ分布を仮定する

ことにより,すべてのパラメータのフル条件付き分布は正規分布またはガンマ分布となり,Gibbs samplingが

きわめて容易である.このケースでは,次

のアルゴリズムが可能である.

１)Step０:パ

ラメータの初期値

から求める．

２)Step１: ３)Step２:κ

を設定する．

←

κ+１

４)Step３: ５)Step４: ６)Step５: ７)Step６: ８)Step７: ９)Step８:

ｉ=1,...,ｎ

10)Step９:i=１,...,ｎ 1 1)Step10：goto

出生時の体重は

Step２(必

要な回数だけ繰り返す）

図10.11

例題10.10のストグラム.上

各パラメータの長さ2000のから順に μα,μ β,μo,σ

μ0=μ

である.結に,推

定結果を下にまとめた.出

トBUGS,

samplingを

WinBUGSな

数列を図10.11に

生時体重は106.3±3.775と

利用したBayes推

どがSpiegelhalter

の乱数列のヒ

β ｘ

果の一部(μ α,μβ,μ0,σE)のMC乱

最後に,Gibbs

いる.

α-μ

乱数列と最後1500個である.

示すととも

推定された.

測のための便利な統計ソフ et αl.(1995)に

より公開されて

11 トピックス Ⅲ: 多施設共同臨床試験における施設間差

表11.1は

肝疾患治療薬である強力ネオミノファーゲンＣの「増量投与」

の効果をGPT値

の改善(logス

ケール)で検証するための多施設共同二重盲

験無作為化平行群間比較臨床試験の結果を試験に参加した施設(center)毎示したものである(lino et al.,2000).試であり,試験開始から２週後のGPT値

表11.1

験デザインは図11.1にから判断して,改

るための多施設共同二重盲験無作為化平行群間比較臨床試験 cndpoint 後)か

GPT値(log変

価変数は投与６週間後のprimary 換後)のベースライン値(２週間

らの差

Student's Wilcoxon

t-test:p=0.013

rank‐sum

test:p=0.0053

示すとおり

善が認められない

強力ネオミノファーゲンＣの「増量投与」の効果を検証す結果の施設毎の要約.評

に

図11.1

患者を対象として,「40ml継群」それぞれ,50症は

「100ml増

続投与群」と「40mlか

ら100mlへ

の増量投与

例ずつ無作為に割り付けられたものである.そ

量投与群」が

る(p=0.0053,Wilcoxon 例にして,施

「増量効果」を検証する試験デザイン

設間差,す

Treatment×Center交

「40ml継

続群」に比してGPT値

rank‐slum tcst)こなわち,治

とが示されたが,こ

施設毎に試験に登録され,決

を有意に下げのデータを

療効果が施設によって変化するかという

互作用(interaction)を

11.1

の結果

考えてみよう.

治療効果のモデル

められた複数の治療の一つに無作為に割り付

けられる多施設平行群間比較臨床試験において,治

療効果がどうも,施設に

よって異なるかもしれないという「治療と施設との交互作用」を検討する統計モデルは次のように表現される.施設ｉで,治 κ の反応yijκ(表11.1の

療ｊを割り付けられた患者

例では６週後-2週後)は

yijκ=μ+αi+βj+γij+〓ijκ

(11.1)

μ:全

体の平均

αi:施

設

βj:治

療ｊの効果,j=1,2

γij:施〓ijκ:個

ｉの効果

i=1,...,I

設と治療の交互作用効果体差

∼ Ｎ(0,σ2E),

κ=1,...,nij

という分散分析モデルで表現できる.まず,各

施設に同じ症例数を期待する

のは現実的ではなく,したがって,解析対象症例のデータ構造はunbalanced data(nijが

異なる)となるのが通例である.ま

録されたとしても,症例検討の結果,中

た,仮

止,脱

に全く同じ症例数が登

落などによりunbalancedと

なるのは避けられない. さて,施

設の主効果 αiには,primary

であれば,各

endpointが

施設で登録された患者の個体差,主

客観的な生体反応指標

観的要素も加味されるよう

だと医師の技量の差などが含まれる.一

方,治

療と施設との交互作用項 γij

には患者の個体差も含まれるものの,そ

れ以上に各施設の医師の技量,プ

トコールの理解度,試

験への熱心度(日本ならではの要素かもしれない)な

どの差が含まれる.さ

て,交

ロ

互作用を考えるために,各

施設で観測される治

療効果の差は

(11.2) である.こ

の値が施設間で０をまたいで大きく変化したり,ある特定の施設

の結果が他の施設の結果と大きく異なり,かつそれが全体の治療効果に大きな影響力をもっている場合には結果の解釈が難しくなる.この検討は重要な意味をもってくる.図11.2に Box‐Whisker plotを示した.40ml継間差はみられないが,100ml増える.ま

た,図11.3に

の意味で施設毎

は施設・治療別の評価変数の

続投与群の治療効果にはさほどの施設

量投与群には結構な施設間差があるようにみ

は治療効果の差diと

その１標準誤差を示した.12施

設中７施設で負の改善効果が示されているが,５施設ではわずかながら正の改善がみられない結果となっている.も

ちろん,こ

の症例数が少なく,ばらついているので,図

の試験においては施設毎

の印象はかならずしも正しくな

図11.2

い.さ

施設・治療群別治療効果のBox‐Whisker

plot

て,「許容できる交互作用か否か」とは次のように考えることができる

だろう. １)図11.4の

Ａに示すように明らかな「交互作用」があっても,そ

は異ならない場合,つ

まり,δi=E(di),δ=(δ1,...,δI),と

の方向して,

Ω+={(δ1,...,δI):δ1＞0,...,δI＞0}

Ω-={(δ1,...,δI):δ1＜0,...,δI＜0}

とおくと, δ 〓 Ω+∪

の場合である.観測値からみれば,例示し,少

Ω-

えば,大

半の施設が正の効果を

数の施設が小さな負の効果を示したものの,全

正の効果が認められた場合で,こ (qualitative interaction)と２)一方,図11.4の

体としては

のような交互作用を量的交互作用

よび,一

般には許容される.

Ｂのように正の効果が観測された施設と負の効果が

図11.3

施設別の投与群別治療効果(左図,C:40ml, ±SD)を

N:100mL)と

治療効果の差(mean

大きい順に並べたもの(右図)

図11.4

量的交互作用と質的交互作用の模式図

観測された施設の数が接近しており,その微妙な差で全体の試験結果が正とも負ともなり得るような状況であった場合,こない」と判断する.こ interaction)と

よぶ.つ

のような交互作用を質的交互作用(qualitative まり, δ 〓 Ω-(Ω+∪

となる場合である.も

れは「許容でき

ちろん,こ

果が有意にはなりにくいが,問

Ω-)

のような場合には全体として治療効

題は有意となった場合であり,推定さ

れた治療効果は施設のselection biasを受けていると解釈せざるを得ない. Gail and Simon(1985)は

その区別を検定する尤度比検定を,di∼

Ｎ(δi,σ2i)

と仮定して提案している:

(11.3) ここに,σ2 iにり,Ｉ(・)は()内ある.こ

は標本分散を代入し(large sample必が正しい場合に１,正

要), c=-21og(κ)で

しくない場合に0を

あ

とる指示関数で

の制約条件付きの尤度比検定はもはや漸近的な χ2分布近似は利用

できない,定

数ｃに興味ある方は論文を参照されたい.Gail

and Simonは

ｃの数表を与えている.

さて,許容できる交互作用効果の存在の下で,全体としての治療効果(over all effect)△ を考えてみよう.全体としての治療効果は各施設での治療効果

diを適当に定義された施設の重み ωi

(11.4) による重み付け平均

(11.5) (11.6) で推定できる.重なわち,こ

みは,推

定値の分散の逆数とするのが一般原則である.す

こでは,

(11.7) となる.そ

こで,式(11.2)で

与えられる各施設での治療効果の差を線形モデ

ル(11.1)の

成分で表現してみると

di=ｙi1-yi2=(β1-β2)+(γi1-γi2)+(〓i1.− となる.こ

こで,記

号

で,で

ある(以

用効果

〓i2.) (11.8)

「.」の意味は当該添字の項で平均をとるという意味下同様).さ

て,施

設効果 αi,交

互作

γijについて次の２通りの考え方が可能である.

１)母数効果モデル(flxed‐effects)

臨床試験に参加する施設が当該の患者を多くもっている特定の医療機関から選ばれたものであって,全

国の医療機関を代表する(無

抽出の意味)も

たは,比

のではない場合,ま

行う場合などに適用できる.こ

較的少数の施設で試験を

の意味では,こ

た結果は不偏性がないともいえる,し

作為

の臨床試験から得られ

かし,日本の新薬品の大多数の

多施設共同試験はこの形式で実施され,承

認を受けているのが現実で

ある. ２)変

量効果(random‐effects)

臨床試験に参加する施設は,全

国から無作為とまではいかなくとも

選ばれた代表的な施設であり,したがって,施

設自体が無作為標本に

近い確率変数と考えられる.し

たがって,こ

の結果は不偏性・一般化

可能性があるといえる. 治療効果は母数効果と考えるのが自然であろう.すべての効果が母数効果であるモデルを母数効果モデル(fixed‐effects model),一

部の変数に変量効

果があるモデルを混合効果モデル(mixed‐effects model)とて,施

設効果が母数効果と考えるモデルは母数効果モデル,変

よぶ.し

たがっ

量効果と考え

るモデルでは混合効果モデルとなり,後者の変量効果に関する推測では分散成分の推定に関心がある. さて,母

数効果モデルの立場で考えれば,誤

差成分だけが確率変動する項

であり,

(11.9) であるから,

(11.10) となる.つ

まり,こ

の場合の重みは

(11.11) となる.も

し,ni1=ni2=niで

あれば,重

みは単純に,

(11.12) となり,さ

らに,ni=n(balanced

design)で

あれば,

(11.13) つまり,各施設毎の治療効果の単純平均値となる.

したがって,全体としての治療効果の期待値と標準誤差の推定値は

(11.14) (11.15)

となり,その95%信

頼区間は △

で計算できる.こ dfの

こに,dfは

ｔ分布の上側2.5%点

次に,混

±tdf(0.025)SE(△)

誤差分散 σ2Eの自由度で,tdf(0.025)は

(11.16) 自由度

である.

合効果モデルの立場にたてば, αi∼N(0,σ2α) γij∼N(0,σ2γ)

と考えるのが通常である,そ

(11.17) (11.18)

うすると,

(11.19) となる.し

たがって,混

合効果モデルの場合の重みは

(11.20) である.混合効果モデルの下での治療効果の期待値と標準誤差の推定値は △=β1-β2

(11.21)

(11.22)

となる. さて,こ

れまでは,式(11.1)の

モデルについて説明してきた.し

単純な線形モデルで他の共変量を含まないかし,共

変量(x1,...,xp)を

含むモデル

(11.23) でも同様であり,こ

れまでの議論の中のyijκ

を共変量で調整された値に変

換すればよい.こ

のモデルは一般に共分散分析(analysis

ルとよばれる.す

なわち,

of covariance)モ

デ

(11.24)

とすればよい.表11.1に

示す臨床試験ではGPT値

な共変量(交

あるので調整が必要である.

絡因子)で

11.2

unbalanced

dataの

1992)に

の推測

dataの

dataに

場合の比較的簡単な問題で解説することにし

基づく推測の詳細は他のテキスト(例:Searl

et al.,

譲る.

まず,推する.つ

dataで

場合の推定は問題の本質を理解するうえできわめて不

透明なのでbalanced て,unbalanced

Balanced

のベースライン値も重要

定の構造を理解するために,よまり,j=1,...,Ｊ

り一般的な母数効果モデルで出発

として考える. nij=nと

いうbalanced

dataの

場合にはそれぞれの効果としては施設の効果:αi=yi...-y...

治療効果:βj=y.j.-y...

交互作用:γij=yij.-yi...-y.j.+y...

(11.25)

(11.26) (11.27)

となる. yijκ-y...=(yi...-y...)+(y.j.-y...)

+(yij.-yi...-y.j.+y...)+(yijκ-yij.)

と分解すると,平

方和(sum

of squares)が

(11.28)

それぞれの平方和の和に直交分解

できる.

したがって,こ

の場合には表11.2の

母数効果モデルの場合には,平

ような分散分析表で整理できる.

均平方和の期待値が表11.3の

ように整理

でき, σ2E=MSE

(11.29)

であり,それぞれの効果の有意性は次のＦ検定で評価できる.

表11.2

二元配置分散分析:balanced

dataで

交互作用項を含んだモデル.

i=1,...,I;j=1,...,J;κ=1,...,n

表11.3

母数効果モデルでの二元配置分散分析における平均平方和の期待値:balanced

表11.4

data,交

互作用項を含んだモデル.i=1,...I;j=1,...,J;κ=1,...n

混合効果モデルでの二元配置分散分析における平均平方和の期待値:balanced

data,交

互作用項を含んだモデル.i=1,...1;j=1,...,J;κ=1,...,n

FA=MSA/MSE∼FI-1

,IJ(n-1)

FB=MSB/MSE∼FJ-1

,IJ(n-1)

(11.30)

FAB=MSAB/MSE∼F(I-1)(J-1),IJ(n-1) ここにFυ1

一方,混

,υ2は

自由度(υl,υ2)の

(11.31) (11.32)

Ｆ分布である.

合効果モデルの場合には平均平方和の期待値が表11.4の

整理できる.し

たがって,混

合効果モデルでの治療効果は

FB=MSB/MSAB∼FJ

と交互作用項の分散を基準に検定する.この場合には,母

ように

-1 ,(I-1)(J-1)

こで,balanced

数効果モデルで,式(11.14‐15)と

式(11.31),混

(11.33)

dataで,J=2 合効果モデ

ルで,式(11.21‐22)と

式(11.33)が

対応する,つ

まり,

(11.34) となることに注意しよう. ところで,混

合効果モデルでの分散成分の推定法としては,１)分

(ANOVA)法,２)最的な方法である.

11.2.1

尤(ML)法,３)制

限付き最尤(REML)法

散分析

の三つが代表

分散分析(ANOVA)法

モーメント法ともよばれ,計

算された平均平方和をその期待値に等しいと

して推定する方法である.表11.2と

表11.4の

分散分析表からモーメント法

を利用して

(11.35) (11.36) (11.37) と推定できる.こ

の推定量は「不偏最小分散」という性質があるが,分

推定量が「負」となる可能性が排除できない.そき換えて,そ

こでML,REML法

ないこと,また,REML法る(ただ,ANOVA法 ANOVA法

11.2.2

の場合には通常「０」に置

の分散はきわめて小さいと評価するが,実

に困る問題である.そ

散

務家にとっては解釈

が登場するが,ML法

はbalance dataの場合にはANOVA法

は不偏ではに一致す

で負となる分散成分は０と推定される)ので実質的に

が利用されることが多い.

最

尤(ML)法

尤度を構築するために,式(11.1)を

ベクトル表現にすると便利である.つ

まり, y=Xθ+Z1α+Z2γ

E(y)=Xθ

γ+e

(11.38)

(11.39)

(11.40) となる.こ

こで, θ=(μ,β1,...,βJ)t

であり,Ｘ,Z1,Z2は

それぞれのdesign行

ある正方行列である.す

列で,Ｊ

ると最尤推定量はN=nIJと

(11.41)

はすべての要素が１でして,次

の尤度を最

大にすることにより求められる.

(11.42) 対数尤度は

(11.43) であるから,次

の尤度連立方程式を

(11.44) の条件の下に解くことになる.

(11.45)

(11.46)

(11.47) (11.48) 少々厄介な計算が必要となるが,balanced のclosed formで

dataの

場合の最尤推定量は次

与えられる. 2

σE

= MSE

(11.49)

(11.50) (11.51)

σ

2 E

を除いて明らかに不偏ではない.

11.2.3

制限付き最尤(REML)法

REMLと

は「モデルの母数効果のパラメータに関する尤度を除いた部分

の尤度を最大にする最尤法」でrestricted ML,residual などとよばれる.言

い換えれば,母

た推定法といえる.例

えば,最

ML,marginal

数効果の推定に必要な自由度を考慮し

も簡単な例として(Y1,...,Yn)∼N(μ,σ2)

の場合の分散 σ2の推定の問題を考えてみるのがわかりやすい.最は

ML

であり不偏ではない.そ

こで,尤

尤推定量

度を変形してみ

ると,

(11.52) となる.つ

まり,平均値 μ に関する尤度と分散に関する尤度に分解できるこ

とがわかる.このケースでは,REML法

は平均値に関する尤度は無視し,分

散に関する尤度を最大にする方法となる.全体の尤度と分散の尤度を比較すれば,計

算をするまでもなく,分散のREML推

と不偏分散となることがわかる.と

ころで,尤

定値は

度の変形の過程をみると

yi-μ=(y-μ)+(yi-y)

とに分解して後者の残差(residual)のことができる.こぶこともできる.さ

部分の尤度を最大にした方法と考える

の意味で残差最尤法(residual

maximum

likelihood)と

らに.式(11.52)は L(σ2￨SS)=∫L(μ,σ2￨y)dμ

(11.53)

よ

と表現できることから,REMLは hood)と

周辺最尤法(marginal

maximum

likeli

もいえる.

さて,式(11.38)か

ら母数効果の部分を除去するために次の分解を考えよう.

yijk-μ-βj=(y...-μ)+(y.j.-y...-βj)+(yi...-y...)

(yij.-yi...-y.j.+y...)+(yijκ-yij.)

(11.54)

最初の２項は母数効果の部分であるから,残差は残り三つの項からなる.つまり,式(11.42)の

尤度を残差の三つだけの二次形式に分解して変形していく

とMSE,MSA,MSABの

関数で表現でき,尤度方程式を解くと式(11.35)

-(11.37)のANOVA法

と同じ推定量が得られる.

このことを統一的に解説するために,ベ

クトル・行列を利用してみよう.

残差だけを考えるということは母数効果のパラメータを消す変換ベクトル αtyを探すことにほかならない.つ

まり,

αty=αtXθ+αt(Z1α+Z2γ+e)

(11.55)

において αtXθ=0,任

意の θ に対して (11.56)

つまり, αtX=0 (11.57) となるコントラスト(contrast)で

ある.こ

のようなコントラスト α は次の

形で与えられる． αt=ct[I-X(XtX)-Xt] ここにX-は

(cは

Ｘの一般化逆行列(generalized

コントラスト α は γ=rank(X)個

inverse)で

のような

れらを利用して

γ)

(11.59)

める残差の尤度は Aty∼N(0,AtΣA)

で構成される.尤行列Atが

ある.こ

独立に存在するから,そ

A=(α1,...,α

とおけば,求

任意) (11.58)

度方程式はML法

(11.60)

と同様である.ただし,すべての行列は

左から施されていることに注意する.

11.3

まず,母

Unbalanced

dataで

の推測の留意点

数効果モデルの場合を考えよう,balanced

では各要因が「直交」し,そ

が一意に決まったが,unbalanced 要因が直交せず,平

dataで

はunbalance

方和が一意に定まらない.言

トされた順番によって,変

dataの

分散分析モデル

れぞれの要因が寄与する平方和(sum ゆえに,そ

い換えれば,モ

わってくるのである.例

of squares) れぞれの

デルにフイッ

えば,

Y=A+B+TREATMENT Y=TREATMENT+B+A では三つの要因それぞれの効果の平方和が変化する.し

たがって,注

目した

い要因効果を検討するときには他の変数とのあてはめる順番を考える必要がある.一

般的に認められているルールは Y=X1+…+Xp+TREATMENT

のように,他のすべての変数を先にフイットさせてから注目する変数TREAT MENを

フイットさせることである.た

だし,例外があって,注

目すべき変

数が含まれている交互作用項は後にフイットさせなければならない. Y=X1+…+Xp+TREATMENT

もちろん,母

+TREATMENT*X1

数効果のパラメータ推定はダミー変数を適当に定義して一般正

規線形モデルを利用する. [例題11.1]式(11.14)-(11.16)の

交互作用効果の重み付き平均をとった推

定値は通常の一般正規線形モデルを利用し,交互作用項のないモデル OUTCOME=CENTER+TREATMENT

のTREATMENT効 [解答]省

果の推定値に一致することを証明せよ.

略するが,こ

最後に,unbalanced てREML法

(11.61)

の問題は重要である. dataで

の分散成分の推定には,ANOVA法

を利用することが多い.そ

１)unbalance ゆえに,ANOVA法良いとは一概にいえない.ま良くない.

に代わっ

の理由のいくつかを列挙しよう. にも数種類の方法があり,どの方法が

た,最

尤法に比して不偏性以外の性質は

２)ML法３)し

は漸近的であるものも推定量として漸近的には最良の性質をもつ.

かし,ML法

４)REML法に,母

は不偏ではない.

は最尤法の漸近的な性質をもつと同時に,ANOVA法

のよう

数効果を推定するのに必要な自由度を考慮して分散成分の推定

量を導出してくれる.特に,balanced dataの場合にはANOVA法と一致した不偏推定量となる .この性質は,ANOVAに慣れている実務家にとっては解釈が容易である.

11.4解

さて,表

析

例

に示したデータの統計モデルは

log(GPT6week/GPT2week)ijκ=μ+θ1GPT2week

図11.5

GPTの

ベースライン値とGPT値

の減少量(log変

換)

+Centeri+Treatmentj +(Center×Treatment)ij+〓ijκ

と表現できる,図11.5に間後)は

示すように,GPTの

ベースライン値(投

与後２週

改善とはきわめて高度の負の相関(γ=-0.388,p＜0.0001)が

されているので調整変数として必要である.こ

のモデルはS‐Plusで

観察は

S‐Plus program:表11.5-11.7 lgdif←log(gpt6)-log(gpt2) aov(lgdif∼gpt2＋center+treatment+center*treatment) glm(lgdif∼gpt2+center+treatment+center*treatment) aov(lgdif∼gpt2+center+treatment) glm(lgdif∼gpt2+center+treatment)

で実行する.そ

の結果は表11.5‐ 表11.7に

示すとおりである.

解析結果は問題となる治療と施設との交互作用効果の存在は認められていない.治療効果の推定値は交互作用項を含めないモデルから △=-0.2126(p=0.0142)

表11.5

表11.6

Treatmeat×Center交

Treatment×Center交

互作用項のない母数効果モデルの分散分析表

互作用項を入れた母数効果モデルの分散分析表

表11.7

Treatment×Center交

であり,その95%信 -0

であった.こ

互作用項のないを母数効果モデルの推定値

頼区間は

.2126±1.99×0.08479=(-0.0439∼-0.3813)

の結果は調整なしのモデル “lgdif∼treatment"で

のｐ値0.0130

とほとんど変わっていない. 次に混合効果モデルはS‐Plusの

「Varcoinp」

関数を利用し,REMLを

利

用して推定する.

S‐Plus program:表11.8

sat.df←data,frame(treatment,center,gpt２,lgdif)

is.random(mino.df)←c(F,T) summary(varcomp(lgdif∼center+gpt２+treatment +center*treatment,data=sat.df,metnod=”reml”))

推定結果は表11.8に 4203±10-11と

示すとおりで,交

きわめて小さい.治

互作用項の分散推定値は σ2γ=

療効果の推定値と標準誤差は

表11.8

であった.ま

混合効果モデルでの推定結果(S‐Plus)

た漸近的な95%信 -0

頼区間は

.2128±1.96*0.0841=(-0.0479∼-0.3777)

であった.

練習問題 [問題11.1]式(11.49)‐(11.51)の [問題11.2]一

最尤推定値が導かれることを証明せよ.

元配置変量効果モデル yij=μ+αi+〓ij

αi∼N(0,σ

2 α),〓ij∼N(0,σ

2 E

)

i=1,...,α;j=1,...,γ

において次の命題を証明せよ. １)尤度の分解 L(μ,σ2α,σ2E｜y)=L(μ￨y..)L(σ2α,σ2E￨SSA,SSE) ２)尤

度の第２項を最大化するREML推

定値:

ａ)MSA＞MSEで

ある場合にはANOVA推

MSE)/γ,σ2E=MSE,にｂ)MSA〓MSEで

定値,σ2a=(MSA‐

一致する. ある場合には,ANOVA推

定値に一致せず,

σ2E=MST,σ2a=0. [問題11.3]式(11.1)の場合のREML推を証明せよ.

二元配置で混合効果モデルかつbalanced 定値が式(11.35)-(11.37)のANOVA推

dataの

定値に一致すること

12 トピックス Ⅳ: 疾病地図と疾病集積性

本章では統計モデルの応用例として,疾る問題を考える.図12.1はMissouri州(男

病の地域分布,地

性,45‐64歳,1972‐1981年)の

胃がん死亡率の市別データである.この図は,死

亡率が人口に反比例し,人

口が減るにつれて死亡率が増加することを示している,そ

12.1は

近年,食

事,生

図12.1

活習慣,生

Missouri州

域集積性に関す

じ

め

んなばかな!

に

活環境中の環境汚染などに起因する健康影響へ

の市別の人口と胃がん死亡中率(男

性,45‐64歳,1972‐1981)

の関心が高まっている.1998年

の所沢産の野菜のダイオキシン騒動はその

典型であろう.しかし,偏った生活習慣,微

量・日常量程度の環境汚染物質,

などに長期に曝露することにより発現する健康影響の評価は容易ではない. 個人レベルの曝露量の推定が可能な例はきわめて稀であり,曝露量と相関する代替指標を上手に利用せざるを得ない.こ

の意味で地域に偏在(集

積)し

た健康影響を早期に発見することは重要である.公衆衛生分野では,市村別の健康状況,疾 (有病率),標図(disease

区町

病状況を比較検討するためにある疾患の年齢調整死亡率

準化死亡比などを数区分に色分けして視覚的に表示した疾病地 map)が

を被説明変数,市

よく利用されてきた.ま

た,あ

区町村毎の社会経済的指標,環

た回帰分析などもよく行われてきた.し

る疾患の年齢調整死亡率

境変数などを説明変数とし

かし,これらの「日常的な行為」が

実は統計学的に適切でないことはほとんど知られていない. 本章では,いわゆる小地域(small areas)に対する疾病地図の問題点と,その解決に向けた代表的な方法論を紹介する.

12.2問

図12.1に

示した

題

「直線Ａ」は 0/

0 y=

であり,図12.1の

の所在

/x=

=0 log10(人

口)

「曲線Ｂ」は関数 1/ y=

log10(人

口)

をｘ軸を対数目盛りで描いたものである.つ

まり,単純な,誰

でも計算でき

る死亡率 γ=

d /n

×100,000.

d:死

亡数, n:人

口

をそのまま使用している点が実は大きな落とし穴で, 各地域の人口の変動が大きいと,対象としている κ個の地域毎に計算した率(γ1,γ2,...,γк)が,地域間の死亡率の大きさを比較するのに適切な指標とならない

のである.当

然のことながら,死

亡率 γｉは,人

口の少ない地域では,わ

かな死亡数の増減の影響が大きく反映され,不

ず

安定な指標となってしまう.

人口の大きさに起因する精度を有する死亡率で地図を作成する「行為」は, ｢κ 種類の精度の異なる物差しの測定結果を同じレベルで比較すること」と等価であり,サ

イエンスの世界では到底考えられない,し

度というと,次

のような反論が出るかもしれない.

かし,死亡率の精

疾病地図で問題にしている死亡率は,通常,各地域毎の全数調査(人口動態統計)で

「計算」されたものであり,標本調査(random

により「推定」された死亡率ではない.し

たがって,当

該地域を母集団

とした標本抽出によるサンプリング誤差は考えられない.つされた地域毎の死亡率 γi=di/niは,そ

sampling)

まり,計算

の地域の真の死亡率(母

数)と

考えられる. さて,こ

の反論に対しては次のように解答することが可能である.

１)ある期間のある地域における死亡率がpで

あるとは,こ

の地域の中一人

一人がこの期間で死亡する平均的確率がｐであると考えられる . ２)一人一人の死亡は互いに独立な確率現象と考えると,こ

の期間での死

亡数は確率的に変動する変量となり,観測死亡数はその実現値である. 具体的には,人

口ｎ人の地域で,こ

めて小さいので,次

このとき,γ=d/nと SD(γ)=√p/nと

のPoisson分

の期間にｄ人死亡する確率は１よりきわ

布に近似される.

計算される死亡率 γの期待値と標準偏差はE(γ)=p,

なり,不偏推定量であるものの,そ

ズの平方根に逆比例する.すなわち,人

口の小さいところでは指標のバラツ

キが大きいという「当たり前」のことがわかる.バとは,本

当は全国平均と比べて差がないのに,あ

きくなったり(危険地域,赤

ラッキが大きいというこ

るときは高度に死亡率が大

で表示されることが多い),あ

て死亡率が低くなる(安全地域,青れることになる.現

のバラツキは人口サイ

で表示)と

るときはきわめ

いう見かけ上の変動で悩まさ

実の疾病地図をみるとこのような現象は少なくない.

12.3

もちろん,地

年齢調整でも不十分

域間比較においては,単

純な

「率」ではなく,年

の分布の違いを調整した指標がよく利用される.代法として知られる年齢調整死亡率DAR(dizectly

齢・性など

表的な指標として,直

接

age‐adjusted death rate)

(12.1) ここで,

dκj:κ

地域,j年

齢階級の観察死亡数

nκj:κ

地域,j年

齢階級の人口(正

Nj:標

準人口のj年

確には人年)

齢階級の人口

N=N1+…+Nｋがある.こ

の指標は直接に観測死亡率dκj/nκjを利用しているので,す

でに

述べた理由に加えて年齢階級の人口の分布の影響もあり,「地域比較の指標としては不適当な指標」である.そ後(1988)を

参照されたい.こ

SMR(standardized

の異常な性質の具体的例については丹

れに対して,間

接法とよばれる標準化死亡比

mortality ratio)

(12.2) Poj:標

準人口における第j年

齢階級の死亡率

dκ:κ

地域の観測総死亡数(=dκ1+…+dкJ)

eκ:κ

地域の期待死亡数

は年齢調整死亡率ほどは人口の変動の影響は受けにくいが,それでも

(12.3)

と変形すればわかるように,地

域全体の人口が相対的に小さければやはり

粗死亡率(crude mortality rate)dκ/nκ;の関数であるからやはり人口の影響

は大きい.そ

の例として図12.2(ａ)に高知県の53の

直腸がんのSMR(1987‐1996)を 12.3(左)には,人

口をｘ軸(常

人口の少ない市町村でSMRが

利用した疾病地図を示す(今用対数)にSMRを

井,1998).図

ｙ軸にしてプロットした.

高低に激しく変動していることがわかるだろ

う.人口の最大は高知市の1,476,788人,最の比はほぼ430:１である.さ

市町村別男性の結腸・

て,SMRの

小は大川村の3440人

であり,そ

最大値は赤岡町の250(死

人),最小値は死亡者０の５町村であった.こ

亡者数７

れらのデータは表12.1に

示し

た.このような図をみると,このような地域に対して次のような回帰分析がいかに馬鹿げているか理解できるだろう. SMRκ=β0+β1x1κ+…+βmxmκ+誤

差

このように,地

域の比較を行うためには,「人口の大きさを調整」しなけれ

ばならない.一

つの簡単な方法は重み付き回帰分析 logSMRκ=β0+β1x1κ+…+βmxmκ+誤

差

Var(logSMRκ)=1/dκ

図12.2

1987‐1996年

(12.5)

の高知県の市町村別男性の結腸・直腸がんの疾病地図(ａ)SMR,

(ｂ)empirical Bayes SMR,(ｃ)Tangoの (今井,1998)

(12.4)

集積性の検定で検出された市町村

図12.3

1987‐1996年

の高知県の市町村別男性の結腸・直腸がんの期待死亡数とSMR

の関連

を実施することである.も

っとも,現在の行政区域を無視してでも,人口の

変動を調整する一番簡単な方法は,各

地域の人口がほぼ等しくなるように地

域の再編成をしてから疾病地図を描くことであろう.例えば,日比較においては,二

本全国での

次医療圏の疾病地図であれば人口の変動は少ないので人

口の影響は小さい.

12.4

ところで,死

Bayesian

approach

亡率には地域差があり,全体としてある滑らかな連続分布に

従うということは,決

して不自然な考え方ではないだろう.したがって,地

域毎の母標準化死亡比(θ1,...,θK)も,滑うと考えられる.さ

て,こ

らかな連続分布(事

前分布)に

従

こで,「連続分布」を事前分布として仮定すると

いうことは,「推定される標準化死亡比 θκが,極

端に高いまたは低い値をも

表12.1

高知県の市町村別人口,男死亡数,SMR,empirical

性の結腸・直腸がんの死亡数,期 Bayer SMR(今

井,1998)

待

たないようにバラツキの大きさを制御する」ことを意味する.さて,事布をg(θ￨η)と

しよう.こ

前分

こに η は分布を規定するパラメータである.観

測死亡数dκ は期待死亡数eκ をもつPoisson分

布

(12.6) に近似できるから,θ κの事後分布はBayesの

定理より

(12.7) と計算できる.し

たがって,SMR(=θ)の

推測は,事

後分布からの期待値

(12.8) (12.9) で行う(9.4節

12.4.1

参照).

Empirical

さて,Bayesian

Bayes

inferenceの

一つのアプローチは

,死

問題は事前分布のパラメータ η の設定である,

亡数dκ

の周辺尤度

(12.10) に基づく最尤推定法で推定するempirical 簡単で,か

つ,解

Bayes推

釈も容易な方法は,η=(α,β)と

定である.中

でも,最

も

したガンマ分布

(12.11) (12.12) (12.13) を仮定することである.な

ぜなら,Bayesの

h(θ κ￨eκ,dκ,α,β)=g(θ

定理より κ ｜α+eκ,β+dκ)

と事後分布もガンマ分布に従うからである(ガンマ分布はPoisson分

(12.14)

布に対

して共役な事前分布).こ

の場合,死

亡数dκ の周辺尤度は負の二項分布(neg

ative binomial distribution)

(12.15) となるので,(α,β)の Newton‐Raphson法

結局,Bayes推

最尤推定値は,モで計算する.必

ーメント推定値を初期値とした

要な項は下に整理する.

定値は

(12.16) となる.こ１)人

の式の形から θEB ,κは

口が大きい場合には(eκ

→

大),通

常の標準化死亡比 θκ=dκ/eκ

→

小),地

域全体の平均値 β/α に近づく,

に近づき, ２)人

口が少ない場合には(eκ

という性質をもつことがわかる. 図12.4に

は図12.1のMissouri州

のデータのempirical

Bayes推

定値を示

した.こ

の場合はSMRで

はなく死亡率 γκ=dκ/nκ であるから,上記の計

算を nκ ←eκ

と置き換えたものである.人

口の少ないところはほとんど一定であることが

わかる.高

知県のデータのempirical

である.最

高の「120-」

し,empirical 最低の「-80」 pirical Bayes推

Bayes推

Bayes推

定値が図12.2(b),図12.3(右)

の階級に入る市町村がSMRで

は10も

あったのに対

定ではそのような地域は一つもなくなっている.ま

の階級に属する市町村の数も「25→0」定では,室

戸市(EBSMR=119.6),高

と激減している.em 知市(EBSMR=114.7)

の二つの市が高いが他は一塊で特に差はみられない. [例題12.1]式(12.14),(12.15)を [解答】式(12.8)よ

となるから,死

ここで,変

図12.4

導出せよ.

り

亡数dκ の周辺尤度(確

数変換(eκ+α)θ=yを

Missouri州

率分布)は

行って,

の市別の人口と胃がん死亡率のcmpirical

Bayes推

定値(丹

後,1988)

た

すなわち,これは負の二項分布である.そ

の期待値と分散は

eκβ/

E(dκ)=

(

12.17)

α

eκ(eκ+α)β Var(dκ)= / a

で与えられる.そ

(12.18)

2

こで,θ κの事後分布は (12.19)

(12.20) ここで, α*=α

＋eκ

β*=β+dκ

である.つ

まり,SMR(=θ

κ)の事後分布もまたパラメータ(α+eκ,β+dκ)

をもつガンマ分布となる.

12.4.2

Bayesian

前項のempirical

hierarchical

Bayes推

model

定では人口の調整だけを考慮に入れたが,疾

病

指標に基づいた実際の解析では,地

域毎の共変量を説明変数とした回帰分析,

また,近

病率)で

接地域は類似の死亡率(有

あると仮定できる場合にはそれ

を考慮に入れた空間平滑化(spatial smoothing)のいろいろな解析が必要となることがある.こ Bayes推

モデルを導入したり,と

のような場合には,empirical

定値を被説明変数とした回帰分析が可能であるが,９

Bayesian階 sion model)で

層的Poisson回

帰モデル(Bayesian

議論するのがより精密である.例

による説明と,近

章で説明した

hierarchical Poisson regres えば,共

変量(ｘ1,...,xm)

接地域の類似性を考慮に入れたモデルの一つとして条件付

き自己回帰モデル(conditional

autoregressive

model)

(12.21) dκ ∼Poisson分

布(期

ηκ ∼N(0,σ2)(:標

待値:μ) 準化死亡比の地域差) 空間smoothing

nh∼ κ=地

が考えられる.こ

域 κの近接地域の数

のモデルではSMRが

(12.22) と推定される.こ Bayesモ

のモデルは9.6節

デルの統計解析には10章

MCMC(Markov

の例10で

で解説したGibbs

chain Monte Carlo)法

12.5

前節までは,疾

紹介しているがこの種の

疾病の集積性

病地図の適切な解釈には人口のサイズ,他

んな推定値であれ,小

したがって,本

基づく

を利用すると便利である.

する重要性とその方法論としてのBayesian approachをろで,ど

samplingに

の共変量を調整

議論してきた.と

こ

さい順に並べれば必ず最低と最高が存在する.

当に健康状況が思わしくない地域はどの辺なのか?と

病の地域集積性(disease clustering)を検討する必要がある.こ

いう疾

こでは,

1)focused test ごみ焼却・危険物廃棄・原子力発電施設などの事前に定まっている地点の周辺に居住する地域住民に関連する疾病の集積性があるか否かを検討する方法, ２)global test 対象地域における疾病の地域集積性

ａ)特定の地域(未

知)に

集積している

ｂ)感染性疾患のように特定の地域に集積しているのでなく,集積

がいたるところで発生している

の有無を統計学的に検定し,有意な集積性が認められた場合に,上のａ)の検討が目的であれば,そ

の二つに分けて解説する.まず,次帰無仮説H0:調対立仮説H1：簡単のために,最仮説は,各

記

の地域はどこか?を教えてくれる方法, のfocused testの仮説を考えよう.

査地域に集積性はない地域 κ0の周辺に集積している

初は年齢などの交絡因子は無視しよう.そ

うすると,帰無

地域の死亡数dκ,は人口nκ に比例する期待値をもつPoisson分

布に従う: H0:dκ

∼Poisson(E(dκ))

E(dκ)=〓nκ

帰無仮説の下では,d=d1+…+dKが

， κ=1,...,K

(12.23)

未知のパラメータ〓の十分統計量

であるから〓に依存しない検定統計量は観測されたｄの条件付き推論により与えられる.つ

まり,総死亡数ｄが一定という条件の下では

(d1,d2,...,dk) は多項分布

(12.24) に従うサンプルサイズｄの無作為標本と考えられる.し pκdと

なり,〓

たがって,EH0(dκ)=

の最尤推定量は

(12.25) で与えられる.さ

て,「地域 κ0の影響を受けてその周辺に疾病が集積してい

る」ことを表現する加法超過リスクモデル(additive H1:E(dκ)=〓nκ(1+ω

である.こ

κ,κ0θ),

excess risk model)は

κ=1,...,K

(12.26)

こに,ω κ,κ ο は地域 κ における地域 κ0からの汚染物質への曝露

量であり,曝露量に比例して死亡が増加するモデルである.曝露量に関する情報がほとんどない場合には,曝

露量の代替変数で置き換えざるを得ない.

中心地点からの距離に反比例して曝露量が減衰すると仮定しても不自然では

ない場合には,対

立仮説H1は

H2:E(dκ)=〓nκ(1+α

と置き換えられる.こ

κ,κ0θ), κ=1,...,K

こに,α κ,hは

な関数が考えられるが,こ

２地域 κ,hの

(12.27)

近さの尺度で,い

ろいろ

こでは,

(12.28) dκh=2地

を考える.関

域(κ,h)間

数 ακh(λ)の形状は図12.5に

の距離 (12.29)

示すとおりで,ほ

内部が集積地域を表すモデルとなっている,二

ぼ半径 λの円の

つの仮説H0,H2は

したがっ

て, H0:θ=0,

と再表現できる.帰

無仮説H0の

H2:θ

対立仮説H2に

＞0

(12.30)

対するエフィシェント・ス

コアは

(12.31) となる.こ

こで, γ=(d1＞d2,...,dK)t/d

である.帰無仮説の下では,ス

コアUκ0の

分散はFisher情

(12.32)

報量であるから ,

(12.33) となる.し

たがって,ス

コア検定統計量は

(12,34) となる.こ

の検定は「Poisson trend検

利用すると,次

定」といわれている.こ

のスコアを

の２種類の集積性の検定統計量が構成できる(Tango,1995)：

図12.5

近さの尺度を表す関数 ακh(λ)の形状

(12.35) もし,事前にわかっている危険地域がｍ地域 Ω={κ0,κ1,...,κm-1}

あれば,そ

れぞれの危険地域の重み(例

らの総排出量に比例した量)を

えば,ご

み焼却施設であれば,煙

ω κ(κ ∈ Ω)と設定し,そ

とするとこの統計量は一つのfocuscd ω κ=γ

(12.36)

testと

κ-pκ,κ=1,...,K

突か

れ以外は,ω

κ=0

なる．一方,

(12.37)

と観測相対度数と期待相対度数の単純な差をとると一つのglobal test

(12.38) となる.さ

て,こ

れらを統一的にベクトル表現で整理してみると,次

になる.そ

の前に, Aλ=(α

κ.h(λ))

のよう

w=(wl,w2,...,wK)t

とおく.ま

ず,漸

(12.39)

近的に

(12.40) となる.こ

こで,

vp=△(p)-ppt △(ｐ):ベ

(12.41)

クトルｐを対角成分とする対角行列

が成立する. １) focused

test

Cλ=wtAλ(r-p)

(12.42)

Var(Cλ)=wtAλVpAλw/d

(12.43)

Z=Cλ/Var(Cλ)∼N(0,1) ２) global

(12.44)

test

(12.45) ｐ値は次の近似式で計算できる(Tango,1990).

(12.46) ここに,χ2vは自由度ｖのx2分 E(dCλ)=

布に従う確率変数であり,

tr(AλVp)

Var(dCλ)=2tr(AλVp)2

(12.47)

(12.48)

(12.49) (12.50) である(Searle,1971).

ここまでは年齢などの交絡因子は無視してきたが,そ記の式で,次

のように置き換えればよい.交

の調整のためには,上

絡因子の第ｊ層において,

(12.51) κ=1,...,K;j=1,...,J

とし,次

(12.52)

のようにすればよい.

(12.53)

(12.54) ここで,パ

ラメータ λ は,ク

さ(ほぼ最大距離)の

ラスター(集

積がみられる地域群)の

大き

尺度であり,それ以上の距離にある任意の二つの地域

はクラスターとは考えない.し

たがって,λ

を小さく設定すれば大きなクラ

スターは検出力が低く,反対に λ を大きく設定すれば小さなクラスターは検出力が低くなる.実際,事

前に存在するクラスターの大きさを予想できるわ

けがなく(データをみた後でクラスターの大きさを見積もって検定を適用することは事前の選択バイアスによる検定の誤用である),し値をいく通りかに変えて適用することになるが,ことなる.こ

たがって,λ

の

こに検定の多重性が問題

の問題を回避するためには λ を連続的に動かして,λ

してのプロファイルｐ値の曲線を計算しその最小値Pminを

の関数と

検定統計量とす

ることが考えられる(Tango,1999b):

(12.55) ここにcλ はある λ に対する統計量の実現値であり,λ*が最小値を達成する値である.実際の計算には λ を小刻みに変化させて最小値を探す一次元探索法で簡単に計算できる.Pminのミュレーションにより計算する.な

帰無仮説の下での分布はMonte Carloシお,λ

(dmax=調

の値は

査地域間の最大距離)

(12.56)

の範囲で変化させれば十分であろう. もし,global testで有意な集積性が認められた場合には,ク心として(最

も)疑

われる地域は

ラスターの中

(12.57) または,

κ地域の寄与率 (12.58) の値が他に比べて,大

きく飛び離れていることが期待される.

さて,global testを高知県の表12.1の

データに適用してみよう.Windows

上で統計ソフトS‐Plusを利用して解析した結果を図12.6に

示す.画

側はコマンドの操作画面と計算結果の表示画面であるが,画

面の左側に二つ

の図が示されている.左

図12.6

Tangoの

の図はｘ軸を λ にしたプロファイルｐ値であり,λ

集積性の検定.Windows上

ている画面.画

面の右

で統計ソフトS‐Plusを

利用して解析し

面の右側はコマンドの操作画面と計算結果の表示画面.画

左側に二つの図が示されている.左であり,右の図は,各

地域(region

面の

の図はｘ軸を λ にしたプロファイルｐ値 IDが

ｘ軸)の

寄与率(％)を

表示する図

の値が最小のときにｐ値が最小値をとっている.つの隣接地域で発生しているのではなく,散している.図

の図は,各

地域(region

ID=1(高

知市)が

あり,高

IDが

ｘ軸)の

断然トップで,次

ミュレーションで調

度に有意な集積性がみられた.右表示している.region

にregion ID=2(室

の結果は図12.2(ｃ)に

empirical Bayes推

定の結果と一致している.付

近の他の研究はLawson

Carloシ

寄与率(％)を

び離れている.こ

きのglobal testのS‐Plusプ

ラスターが複数

発的に発生している可能性を示唆

上にも記載されているが,Monte

整されたｐ値はPmin=0.006で

まり,ク

戸市)も

やはり飛

示すとおりであり,図12.3(ｂ)の録B.9に

ログラムを掲載した.疾 et al.(1999)に

は λ を固定したと

病の集積性に関する最

まとめられている.

練習問題 [問題12.1]

式(12.5)を

導け： Var(log SMRκ)=1/dκ

[問題12.2]

式(12.30)の

仮説H0のH2に

対するスコア検定が式(12.34)で

与えられることを示せ. [問題12.3]

式(12.47)-(12.50)を

[問題12.4]

式(12.45)のglobal

検出力が小さく,urban [問題12.5]

導け.

areaの

testの

testに

で仮定した各地域の相対危険度(=1+ω すれば,帰

集積性の

集積性には検出力が大きいことを示せ.

疾病集積性のfocused

(λ11,...,λ1κ)と

検定統計量はrural areaの

おいて,式(12.26)の κ,κ0θ)が,実

対立仮説H1

は既知で,そ

無仮説H0:λ01=...=λ0κ=1に

対する最強

力検定は

の型となることを証明せよ(ヒ

ント:Neyman‐Pearson

れを,

lemma利

用).

付録Ａ:最

A.1

尤

推

定

尤度に基づくモデル

尤度に基づくモデルとは,観測されるデータの同時確率密度関数が指定されている統計モデルをさす.いま,観測されたデータ(確率変数)yi,i=1,...,n はそれぞれ独立であり,確率分布(密度関数)〓(yi;θ)が仮定されているとしよう.これはパラメータ θ=(θ1,...,θq)

を固定した下でのｙの関数と考えたものである.こ

の関係を逆にしてｙを

固定してパラメータ θ の関数と考えたものを尤度(likelihood),尤 (likelihood function)とまず,１

度関数

よび一般にＬ(θ)と表す.

組の独立なデータy=(y1,...,yn)が

与えられる同時確率密度は

となるから,尤度関数は

(A.1) となる.こ imum

の尤度関数を最大にするパラメータ θ の値 θ は最尤推定量(max-

likelihood estimator)と

よばれる.

最尤推定量を実際に求めるには,尤るため,対

度関数を直接取り扱うことが面倒であ

数をとった対数尤度関数の最大値を考える.

ι(θ)=logL(θ) 最尤推定量はいわゆる正則条件(regularity conditions)がに漸近的な正規性,一に一致するなど,最

致性を有し,かつ,そ

(A.2)

満たされる場合

の分散がCramer-Raoの

下限値

良の性質をもつ推定量としてよく利用される.主

な正則

条件を以下に示す. １)確率密度関数は識別可能である,す〓(y￨θ1)≠

なわち,θ1≠

θ2であれば,

〓(y￨θ2)

である.

２)パラメータ空間は有限次元,閉換えれば,境

集合,か

つ,コ

ンパクトである,言

い

界上で起こる面倒な問題を除外する条件である.

３)三次までの対数尤度の偏微分は連続で有界である. ４)尤度の偏微分において,微分と積分の順序が変更可能であること.つまり,データｙが θ に依存するような場合を除外する条件である.データがパラメータに依存している応用例は２章で議論されている. ここでは,最

尤推定値 θ がパラメータ空間の内点(interior point)で

境界上にはない場合だけを考える.そ

の解として求められる.こ

あり,

のとき,それは次の連立偏微分方程式

の連立方程式をベクトル表示で表現すると

(A.3) となる.こ

こに,∪(θ)は

最尤推定量には,上

エフィシェント・スコア(efficient score)と

記の正則条件の下で,真

いう.

のパラメータ θ0への漸近正規

性かつ一致性(consistency),

(A.4) がある.こ

こに

(A.5)

はFisher情

報行列(Fisher

information

の一致推定量が必要となるが,そ

matrix)と

いう.実

れには,

１)最尤推定値 θ で評価したFisher情

報量IF(θ)

２)期待値を外して最尤推定値 θ で評価したHessian推の二つがよく利用される.ま

際の計算にはこ

た,連

立方程式の解,す

定量Ｈ(θ)

なわち,最尤推定値は

一般には非線形方程式となる .その場合には,一次までのTaylor展て得られる反復計算の分散推定にHessian推

開によっ

定量を用いたNewton‐Raphson

法, θ(κ+1)=θ(κ)+H(θ(κ))-1U(θ(κ)) もしくは,Fisher情

報量を用いたFisherの

(A.6)

スコア法(score method),

θ(κ+1)=θ(κ)+IF(θ(κ))-1U(θ(κ))

(A.7)

で求めるのが一般的である.

A.2 漸近的に同等な三つの検定統計量

尤度に基づくモデルに関する仮説検定に関してはその理論がよく知られている.中

でも三つの漸近的に同等な検定法「尤度比検定,Wald検

ア検定」はよく利用される.こ

こでは,仮

定,ス

コ

説をより一般化して次のものを考

えよう.

ここに,α

は γ ×1(γ

∂α(θ)/∂θtのrankは,帰

＜q)の

H0:α(θ)=0

(A.8)

H1:α(θ)≠0

ベクトルである.こ

こで,γ

×q行

(A.9) 列である

無仮説のパラメータに課せられた γ個の制約が独

立である必要から,

(A.10) でなければならない.例

えば,q=4.γ=2で, θ1=0,

θ3=0

という２個の制約を入れる場合には α(θ)=(θ1,θ3)t

となる.こ

こで,後

の説明のために,

θγ: γ個の独立な制約が課せられた帰無仮説の下での最尤推定量としよう. さて,以

下に説明する三つの検定統計量はいずれも漸近的に自由度 γの χ2

分布に従う. １)尤度比検定(likelihood

ratio test)統

計量

帰無仮説の下での尤度と対立仮説の下での尤度(制

約のない)と

の

比を考える:

(A.11) 帰無仮説が正しければ,こ

の比はほぼ１に近づく.尤度比検定統計量

とはこの比の対数をとって,(-2)倍 X2LR=-2(ι(θ ２)Wald検

定(Wald

test)統

した統計量である: γ)-ι(θ))

(A.12)

計量

この統計量は帰無仮説が正しければ,対

立仮説の下で(制約なしに)

推定された α(θ)でも０に近くなることが期待される性質に注目したものである.つ

まり,漸近的に平均０分散Ｖ(次式の{}の

中)の正規

分布に従う性質を利用したものである.

(A.13) モデルによっては,分

散推定のFisher情

量Ｈ(θ)に置き換えられる.こ

報量IF(θ)がHessian推

の統計量の特徴は対立仮説の下での最

尤推定量だけで計算できる点である.つの最尤推定値を計算しておけば,い

まり,最大モデルの制約なし

ろいろな検定仮説の計算が便利で

ある. ３)ス

コア検定(score test)統

この統計量は,制

定

計量

約のない最尤推定量が

∪(θ)=0

を満たすのであれば,帰

無仮説が正しい場合には,そ

の制約付きの最

尤推定量 θγにおいても上のスコア・ベクトルは０に近くなると期待されることに注目している.つ

まり,∪(θ γ)が漸近的に平均０,分散

IF(θ γ)の正規分布に従う性質を利用したものである. -1

2

X SC=Ut(θ

γ)I F

(θγ)U(θ γ)

(A.14)

この統計量の特徴は帰無仮説の下の最尤推定量だけで計算できる点が便利である. この三つの検定統計量の中では,帰

無仮説の下での推定量だけで構成できる

スコア検定の応用範囲は実に広く,多 Cochran‐Armitage検例である.手 equivalence

くの検定手法が生まれている.例

定,Mantel‐Haenszel検

前みそではあるが,薬

定などはその一

剤の同等性を検証する臨床試験(clinical

trial, non‐inferiority trial)が

シェント・スコアを用いて,同

定, log‐rank検

えば,

最近話題となっているが,エ

フィ

等性を検証する方法論が著者らによって最近

提案されている(Yanagawa,Tango

and Hiejima(1994),Tango(1998)).

A.3

信

頼

区

間

最尤法による信頼区間(confidence interval)の構成法はいくつか考えられるが,最

も簡単なのが最尤推定量の漸近正規性を利用したWaldの

り,例えば,母

数 θjの95%信

方法であ

頼区間が θj±1・96SE(θj)

(A.15)

で推定できる.対数尤度曲線を直接用いて信頼区間を構成する方法が「profile 尤度(profile likelihood)に小標本で性質がよい.こ

よる信頼区間」とよばれる方法で, Wald法

より

の方法の詳細と応用例が２章で紹介されているので

参照されたい. この他の方法としては,エ

フィシェント・スコアを利用する方法,局

対する十分統計量を利用した条件付き尤度を構成する方法,bootstrapに方法などがある.こ Efron(1987)な

れらはここでは省略する.McCullagh

どを参照されたい.

外母数による

and Nelder(1989),

A.4

統計学的推測において,あ分布,漸

デ

ル

タ

法

る推定値の関数として定義される統計量の漸近

近分散を導出することは重要である.そのツールとしてデルタ法(δ

method)は

よく利用される.最

尤推定値に限ることなく,式(A.4)と

同様な

漸近正規性

(A.16) が成立すれば,微対して,Taylor展

分可能な関数(K×q行

列)〓(θ)=(〓1(θ),...,〓K(θ))tに

開の一次近似を利用して,次

の漸近正規性が成立するこ

とを利用するものである.

(A.17)

付録Ｂ:S‐Plusプ

ログラム他

B.1

# appendix

B.1 (Figure 2.2,2.3)

# # Input:ts=data

vector

# sta=starting

date

#

xmin=min

of x-axix

#

xmax=max

of x-axis

#

dens=max

of y-axis

#

hh=width

adjustment

#

factor for line search

Example

# H8 Okayama

ken

ts＜-c(rep(24,6),rep(25,43),rep(26,56),rep(27,87),rep(28,60),rep(29,50), rep(30,16),rep(31,31),rep(32,27),rep(33,11),rep(34,26),rep(35,5)) sta＜-19;xmin＜-20;xmax＜-40;dens＜-0.3;hh＜-10

# par(mfrow=c(1,2)) jj＜-floor(min(ts*hh))-1;st＜-sta*hh:q＜-st:jj ind＜-(st:jj)/hh; for(s

n＜-length(ts)

in st:jj){

ss＜-s/hh;y＜-log(ts-ss);m1＜-mean(y);v＜-var(y) q[s-st+1]＜-n*(log(v)+2*m1)*(-1/2)

}

plot(ind,q,type="b",pch=1,xlab="gamma",

ylab="log

abline(h=max(q)-1.92);sol＜-ind[q==max(q)]; x1＜-st+(jj-st)/5*2;

L**(gamma)")

pos＜-(max(q)+min(q))/2

x1＜-x1/hh

x2＜-st+(jj-st)/5*3.5;x2＜-x2/hh text(x1,pos,"Exposure

time

low95＜-min(

=");

ind[q＞max(q)-1.92]

text(x2,pos,sol) );upp95＜-max(

ind[q＞max(q)-1.92]

w＜-(max(q)-pos)/6 text(x1,pos-w,"95%

lower

text(x1,pos-w*2,"95% sk＜-sum(

bound=");

upper

(ts-mean(ts))^3

text(x2,pos-w,low95)

bound=");

)/(sum(

text(x2,pos-w*2,upp95)

(ts-mean(ts))^2

mu＜-mean(log(ts-sol)) sigma＜-sgrt( linf＜-

var(log(ts-sol))*(n-1)/n

-n/2*log(

var(ts)*(n-1)/n

lgn＜-max(q)-n/2*(1+log(2*3.141593)) soln＜-floor(sol*10)+1 #

) )

))^1.5*sqrt(n)

)

z＜-(soln:(xmax*10))/10 plot(z,dlnorm(z-sol,mu,sigma),type="1",xlim=c(xmin,xmax),ylim=c(0,dens), ylab="relative

frequency(%)".xlab="date")

w＜-(xmin:xmax)+0.5;h＜-１ r＜-hist(ts,breaks=w,plot=F);k＜-xmax-xmin for(i

in 1:k)（

a＜-c(w[i],w[i],w[i+1],w[i+1],w[i]) b＜-c(0,r$count[i],r$count[i],0,0);lines(a,

b/n/h)

B.2

# appendix

B.2 (Table

4.1)

# CITY RAIN EDUC POPD NONW NOX SO2 MORT

akronOH albanyNY allenPA

36 11.4

3243

8.8

35 11.0

4281

3.5

44

9.8 4260

15 59

921.9

10 39 997.9

0.8

6 33

atlantGA

47 11.1

3125

27.1

8 24 982.3

baltimMD

43 9.6 6441

24.4

38 206 1071.0

birmhmAL

53 10.2

3325

38.5

32 72 1030.0

bostonMA

43 12.1

4679

3.5 32 62 934.7

bridgeCT

45 10.6

2140

5.3

4 4 899.5

bufaloNY

36 10.5

6582

8.1

12 37 1002.0

cantonOH

36 10.7

4213

chatagTN

52 9.6 2302

22.2

chicagIL

33 10.9

6122

16.3

cinnciOH

40 10.2

4101

13.0

26 146

clevelOH

35 11.1

3042

14.7

21 64 986.0

colombOH

37 11.9

4259

13.1

9 15 958.8

dallasTX

35 11.8

1441

14.8

1 1

daytonOH

36 11.4

4029

12.4

4 16 936.2

denverCO

15 12.2

4824

4.7

8 28

871.8

detrotMI

31 10.8

4834

15.8

35 124

959.2

flintMI

6.7 7 20

962.4

912.3

8 27 1018.0 63 278 1025.0 970.5

860.1

30 10.8

3694

13.1

4 11 941.2

ftwortTX

31 11.4

1844

11.5

1 1

891.7

grndraMI

31 10.9

3226

5.1 3 10

871.3

grnborNC

42 10.4

2269

22.7

971.1

hartfdCT

43 11.5

2909

7.2 3 10 887.5

houstnTX

46 11.4

2647

21.0

5 1

indianlN

39 11.4

4412

15.6

7 33 968.7

kansasMO

35 12.0

3262

12.6

4 4 919.7

lancasPA

43 9.5 3214

2.9 7 32

losangCA

11 12.1

7.8 319 130

861.8

louisvKY

30 9.9 4474

13.1

37 193

989.3

memphsTN

50 10.4

3497

36.7

18 34 1006.0

miamiFL

4700

3 5

952.5

844.1

60 11.5

4657

13.5

1 1

861.4

milwauWI

30 11.1

2934

5.8

23 125

929.2

minnplMN

25 12.1

2095

2.0

11

857.6

nashvlTN

45 10.1

2082

21.0

newhvnCT

46 11.3

3327

8.8 3 8

26

14 78 961.0 923.

）

neworlLA

54 9.7 3172 31.4

newyrkNY

42 10.7 7462 11.3 26 108 994.6

17 1 1113.0

philadPA

42 10.5 6092 17.5 32 161 1015.0

pittsbPA

36 10.6 3437 8.1 59 263 991.3

portldOR

37 12.0 3387 3.6 21 44 894.0

provdcRI readngPA

42 10.1 3508 2.2 4 18 938.5 41 9.6 4643 2.7 11 89 946.2

richmdVA

44 11.0 3768 28.6 9 48 1026.0

rochtrNY

32 11.1 4355 5.0 4 18 874.3

stlousMO

34 9.7 5160 17.2 15 68 953.6

sandigCA

10 12.1 3033 5.9 66 20 839.7

sanfrnCA

18 12.2 4253 13.7 171 86 911.7

sanjosCA

13 12.2 2702 3.0 32 3 790.7

seatleWA

35 12.2 3626 5.7 7 20 899.3

springMA

45 11.1 1883 3.4 4 20 904.2

syracuNY

38 11.4 4923 3.8 5 25 950.7

toledoOH

31 10.7 3249 9.5 7 25 972.5

uticaNY 40 10.3 1671 2.5 2 11 912.2 washDC

41 12.3 5308 25.9 28 102 968.8

wichtaKS

28 12.1 3665 7.5 2 1 823.8

wilmtnDE

45 11.3 3152 12.1 11 42 1004.0

worctrMA

45 11.1 3678 1.0 3 8 895.7

yorkPA 42 9.0 9699 4.8 8 49 911.8 youngsOH

38 10.7 3451 11.7 13 39 954.4

CITY:ア

メリカ合衆国 60の主要都市名

RAIN:年

平均降雨量

EDUC:25歳

以上の人の学歴年数の中央値

POPD:人

口密度

NONW:人

口に占める非白人の割合

NOX:平

均一、二酸化窒素濃度

SO2:平

均二酸化硫黄濃度

MORT:全

死因年齢調整死亡率(/110,000人)

B.3

# appendix

B.3

( Figure

4.1 )

# par(mar=c(10,10,10,10)) # full

model

regression

n＜-60 p＜-6 out1＜-glm(mort-rain+educ+popd+nonw+lnox+lso2) res＜-Sum(

out1$residual^2

)

tau2＜-res/(n-p-1) # # 3-independent-variables

regression

p＜-3 out2＜-glm(cp$mort-educ+nonw+lso2) mat＜-cbind(edac,nonw,lso2) hate＜-hat(

mat

)

# #residual res＜-sum(

sum of squares out2$residuals^2

)

# unbiased

error

variance

s2＜-res/(n-p-1) # standardized

residuals

stres＜-out2$residuals/sqrt(s2) # plot:y

value

vs.fitted

y value

plot(mort,out2$fitted.value,xlim=c(800,1200), ylim=c(800,1200),pch=1, xlab=“MOST",ylab=“Fitted

value

of MOST")

abline(0,1) # Mallows's

Cp

xcp＜-res/tau2+2*(p+1)-n #Akaike's

AIC

xaic＜-n*log(res/n)+2*(p+1) #R^2 xr2＜-1-res/var(mort)/(n-1) # adjusted

R^2

xrs2＜-1-s2/var(mort) #Allen's

cross

validation

xcv＜-sum(((mort-out2$fitted.value)/(1-hate))^2)/n #display

the results

on the plot

text(830,1180,“R"2=");text(880,1180,xr2) text(960,1180,“adjusted

R^2=”);text(1040,1180,xrs2)

text(830,1150,“Mallows

Cp=");text(900,1150,xcp)

text(970,1150,“Akaike

AIC=");text(1030,1150,xaic)

text(1100,1150,“Allen

CV=");text(1160,1150,xcv)

B.4

# appendix

B.4

(Figure

5.1,

5.2,

5.3)

#

kana＜-scan(“hand.s",list(x=0,y=0)) par(mar=c(6,9,6,9)) infix ＜-1:20 sx2＜-var(kana$x) sy2＜-var(kana$y) sxy＜-var(kana$x,kana$y) mx＜-mean(kana$x) my＜-mean(kana$y) beta0＜-(sy2-sx2+sqrt((sy2-sx2)^2+4*sxy*sxy))/2/sxy alpha0＜-my-mx*beta0 plot(kana$x,kana$y,pch=1,xlim=c(0,40),ylim=c(0,40), xlab=“Heelstick

Method",ylab="Umbilical

abline(alpha0,beta0,lty=1,coｌ=2)

beta＜-rep(0,nb) alpha＜-rep(0,nb) for(i

in 1:nb)｛

ind＜-sample(indx,replace=T) xx＜-kana$x[ind] yy＜-kana$y[ind]

Catheter

Method")

sx2＜-var(xx) sy2＜-var(yy) sxy＜-var(xx,yy) mx＜-mean(xx) my＜-mean(yy) beta[i]＜-(sy2-sx2+sqrt((sy2-sx2)^2

+4*sxy*Sxy))/2/sxy

alpha[i]＜-my-mx*beta[i] abline(alpha[i],beta[i],lty=i,col=i) } cx＜-qnorm(length(beta[beta＜=beta0])/nb) p1＜-pnorm(-1.96+2*cx) P2＜-pnorm(1.96+2*cx) betaL＜-quantile(beta,pl)

# confidence

limits

for beta

betaU＜-quantile(beta,p2) # cx＜-qnorm(length(alpha[alpha＜=alpha0])/nb) p1＜-pnorm(-1.96+2*cx) p2＜-pnorm(1.96+2*cx) alphaL＜-quantile(alpha,p1)

# confidence

limits

for

alpha

alphaU＜-quantile(alpha,p2)

B.5

# appendix

B.5

(Figure8.3)

# # Newton

Raphson

method：Weibul

distribution

censored

# # u＜-g(x)：dLog(L)/d

beta

# v＜-dg(x)/dx：d^2Log(L)/d^2beta # # Variables:cans(=c),eta # par(mar=c(7,10,7,10)) tt＜-surv$day[surv$st==1]

# event

発生のケースの生存時間

zz＜-surv$day;z＜-zz # r＜-length(tt);n0＜-length(zz) eps＜-0.0001;x0＜-1;xl＜-2;x＜-x0 yy<-matrix(0,20,2);fpp＜-matrix(0,2,2) i＜-0 while(abs((x1-x0)/x0)＞eps)（ i＜-i+1 a＜-sum(zz^x);b＜-sum(zz^x*log(zz));ap＜-b bp＜-sum(zz^x*log(zz)*log(zz)) h＜-1/x+mean(log(tt))-b/a;hp<--1/x/x-

bp/a+(b/a)^2

# x0＜-x;x＜-x-h/hp;x1＜-x e＜-(sum(zz^x)/r)^(1/x) ff＜-r*log(x/e)+(x-1)*sum( yy[i.1]＜-x1;yy[i,2]＜-ff

log(tt/e))-sum( ｝

# cans＜-x;g＜-x;eta＜-(sum(zz^x)/r)^(1/x);e＜-eta fpp[1,1]＜--r/g/g-sum(

(z/e)^g*(log(z/e))^2)

(zz/e)^x)

case

fpp[1,2]＜-

-r/e+sum((z/e)^g*(1/e+g/e*log(z/e)))

fpp[2,1]＜-fpp[1,2] fpp[2,2]＜-r*g/e/e-sum(g*(g+1)/e/e*(z/e)^g) v＜-solve(-fpp);var＜-c(v[1,1],v[2,2]) # se＜-sgrt(var)

# s.e.of

estimates

ouf＜-surv.fit(surv$day.sarv$st) plot.surv.fit(ouf,conf.int=F) li＜-(1:195)*8/365 lines(li,exp(-(li/eta)^cans),lty=2) text(600/365,0.6,"Weibull

survival

text(300/365,0.35,"Kaplan‐Meier

curve") survival

curve")

B.6

# appendix

B.6

( Figure

8.4)

# # Newton

Raphson

# Weibul

method

proportional

hazard

model

# # u＜-g(x)

:dLog(L)/d

# v＜-dg(x)/dx

beta

:d^2Log(L)/d^2

beta

# #

Variables:g(=c),e(=eta),b(=beta)

# r＜-length(surv$day[surv$st==1]) tj＜-surv$day[surv$st==1] xj＜-surv$grp[surv$st==1] x＜-surv$grp;z＜-surv$day # eps＜-0.0001;nn＜-150;fold＜-c(0.5,2,0.2);fpp＜-matrix(0,3,3) xx＜-matrix(0,nn,4);fp<-1:3 for(i

in l:nn){

# g＜-fold[1];e＜-fold[2];b＜ifold[3] fp[1]＜-r/g+sum(log(tj/e))-sum(

exp(b*x)*(z/e)^g*log(z/e))

fp[2]＜-

-r*g/e+sum(

exp(box)*g/e*(z/e)^g

fp[3]＜-

sum(xj)-sum(x*exp(b*x>*(z/e)^g

fpp[1,1]＜-

-r/g/g-

fpp[1,2]＜-

-r/e+sum(

sum(

fpp[1,3]＜-

-sum(

) )

exp(b*x)*(z/e)^g*(log(z/e))^2) exp(b*x)*(z/e)^g*(l/e+g/e*log(z/e)))

x*exp(b*x)*(z/e)^g*log(z/e))

fpp[2,1]＜-fpp[1,2] fpp[2,2]＜-r*g/e/e-sum( fpp[2,3]＜- fpp[3,1〕

exp(b*x)*g*(g+1)/e/e*(z/e>^g)

-sum(x*exp(b*x)*(g/e)*(z/e)^g) ＜-fpp[1,3]

fpp[3,2]＜-fpp[2,3] fpp[3,3]＜- fnew

-sum(

x*x*exp(b*x)*(z/e)^g

)

＜- fold-solve(fpp)%*%fp*0.2

ff＜- r*log(g/e)+(g-1)*sum(

iog(tj/e)

)+sum(

xx[i,1]＜-fnew[1]:xx[i,2]＜-fnew[2];xx[1,3]＜-fnew[3];xx[i,4]＜-ff fold＜-fnew } g＜-fnew[1];e＜-fnew[2];b＜-fnew[3]

b*xj

)-sum(exp(b*x)*(z/e)^g)

ouf＜-surv.fit(surv$day,surv$st,

surv$grp)

plot.surv.fit(ouf,conf.int=F) li＜-(1:100)*8/365 lines(li,exp(-(li/e)^g).lty=2) li＜-(1:195)*8/365 lines(li,(exp(-(li/e)^g))^exp(b),lty=2) text(3.4,0.5,“Treatment

Group")

text(3,0.2,“Placebo

Group")

B.7

# appendix

B.7

(Figure

10.6,10.7)

# # There

are

３ functions:lga(),lgb(),

arsal()

# par(mfrow=c(3.2)) #data

input

x＜-c(1.691,1.724,1.755,1.784,1.811,1.837,1.861,1.884) z＜-(x-mean(x))/sqrt(var(x)) n＜-c(59,60,62,56,63,59,62,60) m＜-c〈4,10,19,31,52,53,60,60) # FUNCTION:log‐likelihood

for

alpha

lga＜-function(alp,bet,sda,z,n,m){ th＜- alp+bet*z sum(

m*th-n*log(1+exp(th)))

-(alp^2)/2/sda/sda

} # FUNCTION:

log‐likelihood

for

beta

lgb＜-function(alp,bet,sdb,z,n,m){ th＜- alp+bet*z sum(

m*th-n*log(1+exp(th))

) -(bet^2)/2/sdb/sdb

} # FUNCTION

: adaptive

# initial

abscissae

rejection

sampling

: ( mu,xab(i),

for

i=1,...,mu

arsal＜-function(mu,xab,pb,sd,z,n,m){ jk＜-0;u2＜-1;rat＜-0 while(u2＞rat){ jk＜-jk+1;h＜-1:mu st＜-1:(mu-1)

;ss＜-1:(2*mu-2);xc＜-1:(2*mu-3)

yy＜-1:(2*mu-3);cu＜-1:(2*mu-2);ff＜-1:(2*mu-2) # xx＜-sort(xab) for(i

in l:mu){

h[i]＜-lga(xx[i],pb,sd,z,n,m) for(i

)

in 1:(mu-1)){

st(i]＜-(h[i]-h[i+1]}/(xx[i]-xx[i+1]) ss[1]＜-st[1];ss[2]＜-st[2] for(i

in 2:(mu-2)){ ss[2*i-1]＜-

st[i-1]

ss[2*i]＜-

st[i+1]

}

ss[2*mu-3]＜-st[mu-2];ss[2*mu-2]＜-st[mu-1] # xc[1]＜-xx[1] for(i

in 2:(mu-2)){

xc{[2*i-2]＜-xx[i] xc[2*i-1]＜-(h[i+1]-h[i]+st[i-1]*xx[i]-st[i+1]*xx[i+1])/

}

alpha )

(st[i-1]-st[i+1])

｝

xc[2*mu-4]＜-xx[mu-1];xc[2*mu-3]＜-xx[mu] # cu[1]＜-h[1]-st[1]*xx[1];cu[2]＜-h[2]-st[2]*xx[2] for

(i in 2:(mu-2)){

cu[2*i-1]＜-h[i]-st[i-1]*xx[i] cu[2*i]

＜-h[i+1]-st[i+1]*xx[i+1]

}

cu[2*mu-3]＜-h[mu-1]-st[mu-2]*xx[mu-1] cu[2*mu-2]＜-h[mu]-st[mu-1]*xx[mu] # yy[1]＜-st[2]*xx[1]+cu[2] for

(i in 2:(mu-2))｛

yy[2*i-2]＜-h[i］ yy[2*i-1]＜-ss[2*i-1]*xc[2*i-1]+cu[2*i-1]} yy[2*mu-4］

＜-h[mu-1]

yy[2*mu-3]＜-ss[2*mu-3]*xx[mu]+cu[2*mu-3] # s＜-0 ff[1]＜-exp(ss[1]*xc[1]+cu[1])/ss[1] for

(i in 2:(2*mu-3)){

ff[i]＜-

exp(cu[i])*(exp(ss[i]*xc[i])-exp(ss[i]*xc[i-1]))/ss[i]

s＜-s＋ff[i]］ ff[2*mu-2]＜-

-exp(ss[2*mu-2]*xc[2*mu-3]+cu[2*mu-2])/ss[2*mu-2]

s＜-s+ff[1]+ff[2*mu-2] for

(i in 1:(2*mu-2)){

ff[i]＜-ff[i]/s

}

fg＜-rep(0.2*mu-2) for

(i in 1:(2*mu-2)){

for

(j in 1:i){

fg[i]＜-fg[i]+ff[j]

)

} # u＜-runif(1,0,1);

xprob＜-0;

i＜-O

while(u

{ i＜-i+1;

xprob＜-fg(i])

＞ xprob)

k＜-i ud＜-ifelse(k＞1,

u-fg[k-1],u)

aaa＜-ifelse(k＞1,exp(ss[k]*xc[k-1]),0) xget＜-log(aaa+s*ud*ss[k]/exp(cu[k]))/ss[k] u2＜-runif(1,0,1) t1＜-ｌga(xget,pb,sd,z,n,m) t2＜-ss[k]*xget+cu[k] rat＜-exp(t1-t2) # # plot

only

for Figare

10.7

# xid＜-c(xc,1,5) plot(xid,fg,pch=1,type="b") text(1.0,0.5,"Uniform text(1.5,0.5, text(1.0,0.4,"

U

=")

u2) g/Env(g)

= ")

text(1.5,0.4,ratio) text(1.0,0.3,"Random

sample

text(1.5,0.3,xget) plot(xx,h,pch=1,type="b",ylim=c(-230,-150)) lines(xc,yy,pch=2) text(1.0,-220,jk,col=2) #

= ”)

xab＜-c(xab,xget) mu＜-mu+1 xget } }

# main

program

mu＜-6;xab＜-1:mu xab[1]＜-

-0.5;xab[2]＜-0.0;xab[3]＜-0.5

xab[4]＜-1.0;xab[5]＜-1.5;xab[6]＜-2.0 # initial

values

for alp,bet,sda(sd

of alpha)

sda＜-1.0;alp＜-2;bet＜-2.5 # galp＜-arsal(mu,xab,bet,sda,z,n,m)

B.8

# appendix

B.8

( Figure

10.8

)

# # input

(a0,sda,b0,sdb)

start＜-date() niter＜-2000;mg＜-500;mgg＜-1500 k＜-25;batchs＜-20;id＜-1:niter fal＜-matrix(0,k,batchs);fa2＜-matrix(0,k,

batchs)

fbl＜-matrix(0,k,batchs);fb2＜-matrix(0,k,

batchs)

mfal＜-rep(0,k);mfa2＜-rep(0,k) mfbl＜-rep(0,k);mfb2＜-rep(0,k) a＜-rep(0,niter);b＜-rep(0,niter) a[1]＜-a0;b[1]＜-b0;alp＜-a0;bet＜-b0 x＜-c(1.691,1.724,1.755,1.784,1.811,1.837,

1.861,1.884)

z＜-(x-mean(x))/sqrt(var(x)) n＜-c(59,60,62,56,63,59,62,60) m＜-c(4,10,19,31,52,53,60,60) xab＜-1:4;mua＜-4;yab＜-1:5;mub＜-5 xab[1]＜-

-1.0;xab[2]＜-0.0;xab[3]＜-1.0;

xab[4]＜-

2.0

yab[1]＜-0.0;yab[2]＜-1.0;yab[3]＜-2.0;yab[4]＜-3.0;yab[5]＜-4.0 ＃ for

(i in ２:niter)｛

alp＜-arsal(mua,xab,bet,sda,z,n,m) a[i]＜-alp bet＜-arsbe(mub,yab,alp,sdb,z,n,m) b[i]＜-bet } par(mfrow=c(2,2)) plot{id,a,type="１",ylab="alpha",xlab="iteration") ga＜-a[id＞=mg+1];hist(ga,30) plot(id,b,type="１",ylab="beta",xlab="iteration") gb＜-b[id＞=mg+1];hist(gb,30) be＜-mean(gb)/sqrt(var(x));al＜-mean(ga)-be*mean(x) # for

(j in 1:k){

for

(s in 1;batchs){

fa1[j,s]＜-a[s+(j-1)*batchs+mg];fa2[j,s]＜-a[s+(j-1)*batchs+mgg] fb1[j,s]＜-b[s+(j-1)*batchs+mg];

fb2[j,s]＜-b[s+(j-1)*batchs+mgg]

}｝

for

(j in 1:k)( mfa1[j]＜-mean(fa1[j,]):

mfa2[j]＜-mean(fa2[j,])

mfb1[j]＜-mean(fb1[j,]);mfb2[j]＜-mean(fb2[j.])} ea1＜-mean(mfa１);va1＜-var(mfa1);ea2＜-mean(mfa2);va2＜-var(mfa2) eb1＜-mean(mfb1);vb1＜-var(mfb1);eb2＜-mean(mfb2);vb2＜-var(mfb2) z1＜-(ea1-ea2)/sqrt((va1+va2)/k);z2＜-(eb1-eb2)/sqrt((vb1+vb2)/k) end＜-date()

B.9

# appendix

B.9 ( This is a ‐Plus function

for disease clustering

)

# cluster.test＜-function(freq,p,mc){ # # input=freq:Observed

frequency

#

For example,you

#

for time clustering.

can set:freq＜-c(4,3,4,4,4,7,

# input=p:Multinomial

parameter

2,3,11,9,8,3)

vector under null hypothesis

# Default values are "equal probabilities". # input=mc:

User defined closeness

#

See paper (Tango, Statistics

#

Defaut values are set only for time clustering

# # #

-4 (dij/lambda)＾2)

can be recommended

However,the

#

in Medicine

14, 2323‐2334, 1995). and they are

Exp(-｜ i-j ｜).

Usually,Exp(

#

measure A

or Exp( -dij/lambda

for spatial clustering

selection of "lambda"

)

problems.

is not so easy and depends

on the cluster size to be investigated.

# output variables

are as follows

# $c.stat C for temporal

clustering

(Tango,1984,1990)

# $c.pval Prob{C＞c} # $g.stat

G for temporal

and spatial clustering

( Tango,1995

)

# $g.pval Prob(G＞g)

# nn＜-sum(freq);lenn＜-length(freq) if (missing(p))

p＜-rep(1/lenn,ienn)

if ｛missing(mc))( mc＜-matrix(0,lenn,lenn) for

(i in 1:lenn)

mc[i,j]＜-exp(

( for

(j in 1:lenn)

-abs(i-j) )

)

｝ ac＜-mc;pp＜-matrix(p);w＜-diag(p)-pp%*%t(pp):q＜-freq/nn # ... Tango(1984)+Tango(1990)....Test

for temporal

#

in homogeneous

clustering populations

g＜-q%*%ac%*%t(q) eg＜-p%*%ac%*%t(p)+sum(diag( vg＜-(

ac%*%w

))/nn

4* p%*%ac%*%w%*%ac%*%t(p)+2/nn*sum(diag(

skew＜-8*(

ac%*%w%*%ac%*%w

+ (1/nn)*sum(diag(ac%*%w%*%ac%*%w%*%ac%*%w))

) / sqrt(nn)

/ (nn*vg)**1.5

df＜-8/skew**2 tc＜-(g-eg)/sgrt(vg) pval＜-1-pgamma((df+tc*sqrt(2*df))/2, # ....

)) )/nn

3* P%*%ac%*%w%*%ac%*%w%*%ac%*%t(p）+

Tango(1995)

# ......................

.....

df/2)

Test

for

temporal

in heterogeneous

and

spatial

populations

clustering

g2＜-(q-p)%*%ac%*%(q-p) eg2＜-

+sum(diag(

vg2＜-2/nn*sum(diag(

ac%*%w

))/nn

ac%*%w%*%act*%w

))/nn

skew2-8*((1/nn)*sum(diag(ac%*%w%*%ac%*%w%*%ac%*%w)))/sqrt(nn)/(nn*vg2)**1.5 df2＜-8/skew2**2 tc2＜-(g2-eg2)/sgrt(vg2) pva12＜-1-pgamma((df2+tc2*sqrt(2*df2))/2,

df2/2)

list(c.stat=tc,c.pval=peal,g.stat=tc2,

g.pval=pea12,p=p)

}

文

献

１) Agresti,Ａ.Categorical

Data

２) Akaike,Ｈ.Information

theory

2nd INt.Symp.Information ３) Allen,Ｄ.Ｍ.Mean

Analysis,

John

Wiley

and an extension Theory,Akademia

square

& Sons,New

York(1990).

of the maximum

principle.Proc.

Kiado,Budapest,267‐281(1973).

error of prediction

as ａ criterion

of selecting

variables.

Technometrics,13,469‐475(1971). ４) De Boor,Ｃ.Ａ

Practical

Guide

to Splines,Springer‐Verlag,New

５) Bishop,Ｙ.Ｍ.Ｍ.,Fienberg,Ｓ.Ｅ.and MIT

York(1978).

Holland,Ｐ.Ｗ.Discrete

Multivariate

Analysis,

press,Cambridge,Mass.(1975).

６) Bowman,Ａ.Ｗ.and Oxford

Azzalini,Ａ.Applied Smoothing

Science

Techniques

for Data

Analysis,

Publications,London(1997).

７) Breiman,Ｌ.The

little bootstrap

regression:x‐fixed

prediction

８) Breslow,Ｎ.Ｅ.Covariance

and other methods

for dimensionality

selection

in

error.Ｊ.Amer.Statist.Assoc.,87,738‐754(1992).

analysis

of censored

survival

data.Biometrics,30,89‐99

(1974). ９) Breslow

Ｎ.Ｅ.and

Clayton

Ｄ.Ｇ. Approximate

inference

in gexieralized

linear mixed

models.Ｊ.Amer.Statist.Assoc.,88,9‐25(1993). 10)

Cleveland,Ｗ.Ｓ.Robust

locally‐weighted

regression

and smoothing

scatterplots.Ｊ.

Am.Statist.Assoc.,74,829‐836(1979). 11)

Cohen,Ａ.Ｃ.Three‐parameter Applications,eds.Ｅ.Ｌ

Estimation.In Crow

Lognormal

and Ｋ.Shimizu,New

Distribution‐Theory

Ybrk,Marcel

and

Dekker,113‐137

(1988)． 12)

Cook

Ｒ.Ｄ.Influential

observations

in linear regression.Ｊ.Amer.Statist.Assoc.,74,

169‐174(1979). 13)

Cox,Ｄ.Ｒ.Regression

models

and life tables(with

discussion).Ｊ.Roy.Statist.soc.,

B seraes,34,187‐220(1972). 14)

Cox,Ｄ.Ｒ.Partial

15)

Efron,Ｂ.Bootstrap

likelihood.Biometrika,62,269‐276(1975). methods:another

look at the jackknife.Ann.Statist.,7,1‐26,

1979. 16)

Efron,Ｂ.Better

bootstrap

confidence

intervals.(with

discussion).Ｊ.Amer.Stdtist.

Assoc.,82,171‐200,1987. 17)

Efron,B.and

Tibshirani,Ｒ.Ｊ.An

Introduction

to the Bootstrap,Chapman

& Hall,

London(1993). 18)

Fleeting,Ｔ.Ｒ.and Wiley

19)

Harrington,Ｄ.Ｐ.Counting

Process

and Suruival

Analysis,John

& Sons(1991).

Friedman,Ｊ.Ｈ.and

Stuetzle,Ｗ.Projection

pusuit

regression.Ｊ.Amer.Statist.

Assoc.,76,817‐823(1981). 20)

Gelman

Ａ.and

Rubin,Ｄ.Ｂ.Inference

sequences.Statistical 21)

Gail,Ｍ.and

from

iterative

simulation

using

multiple

Science,7,457‐472(1992).

Simon,Ｒ.Testing

for qualitative

interactions

between

treatment

effects and patient 22)Gilks,

Ｗ.Ｒ.and

subsets.

Biometrics,41,361‐372(1985).

Wild,Ｐ.Adaptive

rejection

sampling

for gibbs sampling．Applied

Statistics,41,337‐348(1992). 23)Gilks,Ｗ.Ｒ.,Richardson,Ｓ.and Carlo

Spiegelhalter,Ｄ.Ｊ.(eds).Markov

in Practice,Chapman

24)Hardle,Ｗ.and

Bowman,Ａ.Ｗ.Bootstrapping

adaptive

smoothing

Chain

Monte

＆ Hall, London(1996).

and

in nonparametric

confidence

bands.Ｊ.Arner.

regression:local

Statist.Assoc.,83,102‐110

(1988). 25)Hardle,Ｗ.and

Marron,Ｊ.Ｓ.Bootstrap

simultaneous

error bars for nonparametric

regression.Ann.Statist.,19,778‐796(1991).

26)Hastie,Ｔ.and

Tibshirani

Ｒ.Generalized

Additive

Models,Chapman

＆ Hall,Lon

don(1990). 27)Hastings,Ｗ.Ｋ.Monte

Calro

sampling

methods

using

Markov

Chains

and their

applications.Biometrika,57，97‐109(1970). 28)Hjorth,Ｕ.On

model

selection

in the computer

age.Ｊ.Statist.Pldnn.Inference,

23,101‐115(1989). 29)Hjorth,Ｕ.Model

selection

and forward

validation.Scarxd.Ｊ.Statist.,9,95‐105

(1982). 30)Iino,Ｓ.,Tango,Ｔ.,Matsushima,Ｔ.et

Neo‐Minophagen atology

Ｃ by different

Research,In

Wiley

Prentice ＆ Sons,New

32)Kaplan,Ｅ.Ｌ.and

doses on chronic

on therapeutic hepatitis

effect of Stronger

and liver cirrhosis.

Hep

press(2000).

31)Kalbfleisch,Ｊ.Ｄ.and John

al. Study

Ｒ.Ｌ.The

Statistical

Analysis

of Faihcre

Time

Data,

York(1980).

Meier,Ｐ.Nonparametric

estimator

from incomplete

observations.

Ｊ.Amer.Statist.Assoc.,53,457‐481(1958). 33)Kulldorff,Ｍ.and Statistics

Nagarwalla,Ｎ.'Spatial

34)Lawson,Ａ.et Wiley

clusters:detection

and inference',

al.Disease

Mappting

and Risk Assessment

for Public

Health,John

& Sons,London(1999)

35)McCullagh,Ｐ.and man

disease

in Medicine,14,799‐810(1995).

Ｊ.Ａ.Nelder.Generalized

Linear

Models,Second

edition,Chap

and Hall,London(1989).

36)Mallows,Ｃ.Ｌ

Some

remarks

of Cp.Technometrics,15,661‐675(1973).

37)Metropolis,Ｎ.,Rosenbluth,Ａ.Ｗ., Equations

Rosenbluth,Ｍ.Ｎ.,Teller,Ａ.Ｈ.and

of state calculations

by fast computing

Teller Ｅ.

machine.Ｊ.Chem.Phys.,21,

1087‐1091(1953). 38)Nelder,Ｊ.Ａ.and

Wedderburn

Ｒ.Ｗ.Ｍ.

Generaliyed

linear models.Ｊ.Ｒ.Statist.

Soc.,Ａ.135,370‐384(1972).

39)Peto,Ｒ.and log rank

Pike

MC.Conservatism

test for survival

data

of the approximation(O-E)2/E on tumor

incidence

in the

data.Biometrics,29,579‐584

(1973). 40)Searle,Ｓ.Ｒ.,Casella,Ｇ.and ＆ Sons,London(1992).

McCulloch,Ｃ.Ｅ.Variance

Components,John

Wiley

41)

Spiegelhalter,Ｄ.Ｊ.,Dawid,A.P.,Lauritzen,Ｓ.Ｌ.and in expert

42)

systems(with

Cowell,Ｒ.Ｇ.Bayesian

discussion).Statistical

Spiegelhalter,Ｄ.Ｊ.,Thomas,Ａ.,Best,Ｎ.and ence

using

Gibbs

Unit,Institute Stone,Ｍ.Asymptotic

Akaike's

44)

Stone,Ｒ.Ａ.Investigation

Gilks,Ｗ.Ｒ.BUGS:Bayesian

sampling,Version

of Public

43)

analysis

Science,8,219‐283(1993).

0.50,Medical

Health,Cambridge equivalence

Research

Infer

Council

Biostatistics

University(1995).

of choice

of models

by cross‐validation

and

criterion.Ｊ.Roy.Stdtist.Soc.Ｂ,39,44‐47(1977).

statistical

of excess

problems

and proposed

45)

Stuart,Ａ.and

edition,Griffin,London(1987).

46)

Stuart,Ａ.and

edition,Griffin,London(1991).

environmental

test,Statistics

Ord,Ｋ.Kendall's Advanced

Ord,Ｋ.Kendall's

47)

Tango,Ｔ.Ａ

diseases,Statistics

48)

Tango,Ｔ.Comparison

and Risk Assessment

Advanced

risks around

putative

sources:

in Medicine,7,649‐660(1988).

Theory

of Statistics,Volume

１,Fifth

Theory

of Statistics,Volume

２,Fifth

class of tests for detecting'general'and'forcused'clustering

of rare

in Medicine,14,2323‐2334(1995). of general for Public

tests for disease Health,(Lawson

clustering,in

Disease

Mapping

et al.eds),111‐117,John

Wiley

&Sons,London(1999). 49)

Tango,Ｔ.Ａ

test for spatial disease

clustering

adjusted

for multiple

testing.Statis

tics in Medicine,19,191‐204(2000). 50)

Tango,Ｔ.Equivalence

for the paired‐sample

51)

test and confidence design.Statistics

Yanagawa,Ｔ.,Tango,Ｔ.,and

equivalence

or more

interval

Hiejima,Ｙ. than equivalence

for the difference

in proportions

in Medicine,17,891‐908(1998). Mantel‐Haenszel

in comparative

type tests for testing

clinical trials.Biometrics,50,

859‐864,(1994). 52)

丹後俊郎.測

定誤差を考慮にいれた線形関係式 ― 測定法の比較のための統計学的方法 ―,

臨床病理,36,1101‐1108(1988). 53)

丹後俊郎.死

亡指標の経験的ベイズ推定量について ― 疾病地図への適用 ―.応

用統計学,17,

81‐96(1988). 54)

丹後俊郎,山

岡和枝,高

55)

宮原英夫,丹

後俊郎編.医

56)

丹後俊郎.潜

木晴良.ロ

ジスティック回帰分析.朝

学統計学ハンドブック,朝

倉書店,1996.

倉書店,1995.

伏期間に対数正規分布を仮定した集団食中毒の曝露時点の最尤推定法,日

本

公衛誌,45,129‐141(1998). 57)

今井淳.高平成10年

58)

知県における疾病の地域集積性について ‐ 死亡指標の評価と疾病地図への応用 ‐, 度国立公衆衛生院特別課程疫学統計コース・調査研究報告書,57‐96(1998).

ダイオキシン類関連健康調査検討委員会,茨イオキシン類関連健康調査報告書,平

城県保健福祉部,城

成11年9月(1999).

取清掃工場周辺住民のダ

索引

Box‐Cox変

Ａ accelerated

換 79

burn‐in

bias corrected

method

sample

Ｃ

percentile

29

acceptance

probability

adaptive

rejection

adjusted

odds

159

sampling

ratio

AkaikeのAIC規

171

87

of covariance

analysis

of deviance

ANOVA法

link function data

central 189 83

115

conditional

68

換 79

autoregressive

model

225 likelihood

―bootstrap consistency data

balanced

design

bandwidth

190

constant

188

94

156,222

baseline

hazard

Bayesの

定理 142,209

crude

Bayesモ

デル 155

cubic spline

Bayesian

126

error

63

モデル 130

critical value function

11,225

26

systematic

Coxの

212

interval

―profile

balanced

20

log‐log変

―Wald法

Ｂ

78

limit theorem

confidence

factor

77

116

complementary

192,197

attenuation

parameter

canonical

censoring

準 50

analysis

canonical

censored

準 44

AllenのCV規

4

cross validation

50

mortality

rate

205

100

141,207

Bayesian階 BCパ

165,168

層的Poisson回

Ｄ

帰モデル 212

ーセンタイル法 28

BCa法

29

bias corrected bootstrap bootstrap信

percentile

method

18,68,74,102

sample

bootstrap

simulation

DAG

146

DAR

205

deviance

頼区間 26

bootstrap

28

directed

21

directly 21

disease

82 acyclic graph age‐adjusted clustering

146 death

213

rate

205

disease

map

dispersion

203

parameter

Ｉ

77

Ｅ

improper

prior

independence efficient score empirical

average

error

143,209

interaction

158

interpolation

Bayes

ergodic

informative

132,222

expected

life

expected

residual

Fisher

182 99 158

Ｊ

life 117

Jackknife推

matrix

fixed‐effects(model) test

222 Kaplan‐Meier推

141,156,187,188

213,216

frequentist

140,156

full conditional

distribution

定値 29

Ｋ

報量 121,133,215,222,223 information

focused

116

117

Ｆ

Fisher情

161

censoring

irreducible

62

143

sampler

定値 123

kernel

smoother

knots

99

94

167

Ｌ

Ｇ law of large numbers GAM

LD50

106,109

generalized

additive

model

generalized

inverse

generalized

linear model:GLIM

Gibbs

sampling

global test

195

169,175

213,216

Greenwoodの

light tailed

109

公式 124

75

164

likelihood

８,221

likelihood

function

likelihood

ratio test

heavy

10,224

relationship

linear predictor

78

linear structural link function

hazard

221

linear functional

linear relationship

Ｈ

156

75

line

67

66

relationship

67

78

ratio

127

locally weighted

average

tailed

165

locally weighted

linear regression

Hessian推

loess

定量 223

hierarchical model

conditional

independent

97

log‐normal log‐rank検

145

distribution 定 135,136

HjorthのCMV規

準 54,55

loss function

hyper

143

lowers

paremeter

94

97

145

８

96

Poisson分

Ｍ

布 204,209,214

Poisson

trend検

posterior MallowsのCp規

準 40

Mantel‐Haenzsel検 marginal

chain(連

Markov

chain Monte

maximum

鎖)

MCMC

159

mean

square

104 75

ML法

rate

ルゴ

150,156,188

random‐ffects(model) random

walk

reference 93

Ｎ prior

144

distribution

Newton‐Raphson法

210

120,128,133,223

146

noninformative

censoring prior

nonparametric回 nuisance number

143

127

192,194,197

residual

194

residual

maximum

residual

sum

likelihood

of squares

(residual

running

mean

running

median

sum

194

39

of squres)

39

93 93

帰モデル 93

parameter

Ｓ

77,130

of patients

numerical

116

222 170

hazard

RSSp

non‐informative

86

sampling

REML法

binomial

162

conditions

relative

conjugate

141,156,187

sampler

category

regularity rejection

node

85

Ｒ

リズム 159

161

average

negative

184,186

approach

161

192,197

natural

interaction

150

sampler

moving

63

Ｑ

9,221

quasi‐likelihood

mixed‐effects(model) mixing

error

136

159

qualitative

Metropolis‐Hastingsア Metropolis

10

systematic

proportionality

estimator

error

meta‐analysis

proportional

156

lethal dose

median

194

Carlo

likelihood

141

profile likelihood

likelihood

Markov

141

prior distribution

定 135

maximum

定 215

distribution

standard

at risk

118

errors

158

sampler

159,161

scaled

Ｏ

deviance

score method score test

over‐dispersion

85,152,167,173

secant

224

method

sensitivity

Ｐ

81 223

171

analysis

single‐component smoother

partial likelihood penalized

residual

Poisson回

帰 76,89

131 sum

― of squares

99

60 Metropolis‐Hastings

93

の自由度 96

smoothing

93,152

smoothing

splines

98

167

疑似尤度法 85

SMR

205

spatial

smoothing

standardized

mortality

standard

error

surrival

analysis

基準カテゴリー 86

212 ratio

152,205

規準ハザード関数 126 期待死亡数 205

18

共分散分析 189

116

共変量 189 Ｔ

局所重み付き線形回帰 96 局所重み付き平均 94

tie

131

空間smoothing

Ｕ

213

空間平滑化 212 クラスター 218

unbalanced

data

183,190,196

クロス・バリデーション 50,104 クロス・モデル・バリデーション 55

Ｖ交互作用 182,184,198 variance

function

交絡因子 218

77

誤差 62

Ｗ

50%致

死量 75

混合効果モデル 150,156,188 Wald

test(検

Weibull分

布

定)133,224

サ行

17,119

ア行

再帰的 158 採択確率 159

一致性 156 一般化加法モデル 106 一般化

最尤推定量 9,221 ,109

最尤法 192

逆行列 195

残差 194 打ち切りデータ 116

残差最尤法 194 残差平方和 39

エフィシェント・スコア 132,134,215,222,

225 エルゴード平均 158

事後分布 141,209 指数分布 119 施設間差 182

重み付き回帰分析 206

自然共役 144 事前分布 141,209

カ行

質的交互作用 186 疾病地図 203,204

階層的条件付き独立モデル 145

疾病の地域集積性 213

感度分析 60

死亡率 204

ガンマ分布 209

自由度調整寄与率 45

自由度調整重相関係数 45

ノード 146

周辺最尤法 194 周辺尤度 209,211

ハ行

条件付き自己回帰モデル 212 ハザード関数 116

信頼区間 11

ハザード比 127 スコア検定 133,215,224 スコア法 80,223

標準化死亡比 152,205 標準誤差 18

制限付き最尤法 194

比例ハザード回帰モデル 126

正準母数 77

比例ハザード性 136

正則条件 12,222

頻度論者 156

生存関数 116 節 99

負の二項分布 210

線形関係 66

フル条件付き分布 167,177

線形予測子 78 部分尤度 131 相対ハザード 127

分散関数 77

粗死亡率 205

分散分析 191

損失関数 144

分散分析法 192 分布の裾が重い 165

タ行

分布の裾がより軽い 164

タイ 131 対称sampler

プロビット変換 79 161

対数正規分布８

プロファイル対数尤度 10 プロファイルｐ値 218

大数の法則 156 正しくない事前分布 143

平均２乗誤差 103 平均寿命 117

中央値 18 中心極限定理 20

平均余命 117 ペナルティ付き残差平方和 99

調整オッズ比 87

変量効果モデル 141,156,187

超パラメータ 143 散らばりの母数 77

補間 99

治療と施設との交互作用 182 母数効果モデル 141,156,187 独立sampler

162

ナ行

マ行

年齢調整死亡率 205

無情報事前分布 143

量的交互作用 184

ヤ行尤度 8,221

臨床試験 181

ラ行

尤度関数 221 尤度比検定 10,133,186,224

離散分布５

ロジスティック回帰 76,88,155,175

著者略歴

丹後俊郎 1950年北海道に生まれる 1975年東京工業大学大学院理工学研究科修了現

在国立保健医療科学院・技術評価部部医学博士

医学統計学シリーズ２

統計モデル入門 2000年

定価はカバーに表示

２月20日初版第１刷

2008年10月10日

第７刷

著者

丹

発行者

朝

発行所

株式会社

後

俊

郎

倉

邦

造

朝倉

書店

東京都新宿区新小川町６‐29 郵便番号162‐8707 電話03(3260)0141

FAX03(3260)0180 http://www.asakura.co.jp

〈検印省略〉Ｃ2000〈 ISBN978‐

無断複写・転載を禁ず〉４‐254‐12752‐

２ C3341

三美印刷・渡辺製本 Printed

in Japan

統計モデル入門 (医学統計学シリーズ)

Recommend Documents