今回はカプラン・マイヤー推定値の信頼区間を知るための分散の求め方をやってみようと思います。この分散の式はGreenwoodの公式と呼ばれています。
統計検定1級の教本にも紹介されていますし、導出の過程はほどほどの難しさなので、出題されてもおかしくはないのかなと思っています。
カプランマイヤー推定値と関連する内容なので、わからない人はこちらの記事も参考ください。
目次:
Greenwoodの公式とは
グリーンウッドの公式は以下の式のことを指します。カプランマイヤー推定値の分散、あるいは標準誤差を求めるための式です。
ある時点におけるリスク集合を, その時点でイベント発生があった人をとすると
あるいは
(推定量の分散なので標準誤差です)
となります。
Greenwoodの公式の導出
導出過程について丁寧に見ていきます。
①生存関数の対数を取る
まず、知りたいのは生存関数の分散です。
生存関数のカプランマイヤー推定値は
でした。
これの分散を両辺でとると
となりますが、積の分散を計算するのは容易ではありません。
そこで、和の分散に変えるために両辺の対数をとってから分散を見ていきます。
こうするとの分散を求める方向にいきますが、デルタ法を使えば最終的に対数を外した生存関数の分散が求められるので、問題はありません。この後でデルタ法が2回ほど使われるのでわからない人はこちらもご参考ください。
②二項分布に置き換えて考える
さて続いては先程の式の右辺である
を求めていきますが、直接対数にしたものを求めるのは難しいので、ここもデルタ法を使う前提で
をまず求めます。
この式においてとすると
はある時点においてイベントが発生しない確率の推定値であると言えます。
ここで、真の確率をとすると、は二項分布に従います。
よって分散は
となります。(は定数という扱いです)
ここから
となるためを使って推定すると
と言えます。
なお、後で必要になるのですが平均はとなります。
③デルタ法を使う
あとはひたすらデルタ法の出番です。
確率変数Xとその平均μ、ある関数g(X)に関して以下の式が成り立ちます。
たとえば、今回の例のようにg(X)=log Xとすれば
となります。
これをまずに適用して
となります。
を代入して
となります。
よって①の最後の式に戻ると
となります。
求めたいのはS(t)だったので再度デルタ法を適用します。
すると
となるので
となり、最初の式が導出されます。
デルタ法(というかテイラー展開)の威力を改めて思い知らされますね。
(2021.11.22 一部に誤りがあったため変更しました)
コメントを残す