引き続き
実際の論文をみつつ統計の学習してみます。
使用している論文がこちら
“Neck weakness is a potent prognostic factor in sporadic amyotrophic lateral sclerosis patients”
(, et al
前回記事はこちら
実際の論文から統計を学んでみる②-ログランク検定とは- – 脳内ライブラリアン
実際の論文から統計を学んでみる③-ログランク検定は何をしているのか-カプランマイヤー曲線 – 脳内ライブラリアン
ログランク検定は何をしているか
でようやく本題に戻りまして
ログランク検定の話です。
前回示した説明でいくと、①が終わりました。
①2群にわけてカプランマイヤー曲線に必要なデータを出す
(被験者の死亡時点毎に死亡者数、生存者、死亡が出る前の生存者数)
次は
②被験者の死亡時点から次の被験者の死亡時点までの
区間について死亡者数、生存者数、死亡が出る前の生存者数を
クロス表にする
です。
2群の比較を例に出します。
群1と群2でそれぞれ死亡時点が出るごとに区切って
生存者数、死亡者数、死亡者が出る前の生存者数(瞬間死亡率の影響を
受けるのでリスク集合と言われます)を計測します。
先ほど示したイメージである時点t(j)について
計測したとしてみましょう。
t(j)時点で死亡した群1の被験者をd1
t(j)時点で死亡した群2の被験者をd2
合計をd
t(j)を超えたあとの群1の生存者数をn1-d1
t(j)を超えたあとの群2の生存者数をn2-d2
合計をn-d
t(j)の前の群1のリスク集合をn1
t(j)の前の群2のリスク集合をn2
合計をn
として表にまとめると
こうなります。これがクロス表です。
よく見てみると
d1+d2=d, n1+n2=nなので
実は変数はd1だけになることが分かります。
ここから前回提示した
③②について期待値を出し、実際の数値との差を求める
分散も出す
④それぞれの時点については独立なのでの
すべてを足し合わせた統計検定量を出す
⑤これがχ2乗検定に従うので、確率を出すことができる
をやっていきます。
まずはこの確率変数d1がどのような分布に従うか
分かれば良さそうです。
ここで周辺和(表の外側の数字)を固定して考えると
変数d1は超幾何分布に従います。
超幾何分布とは
超幾何分布ってなんやねんとなるかもしれませんが
数学の問題でよく見る
「白いボールと赤いボールが入った袋があり
それぞれからランダムにある数のボールを取ったら
赤いボールがx個ある確率はいくつでしょう」
というやつです。
この確率変数Xは超幾何分布に従います。
今回の例で図にするとこうなります。
上述のように確率変数d1の動きに着目したいので
n-d個の白いボールとd個の赤いボールが入った袋から
個取り出して、そのうちの赤いボールの数をd1としています。
するとは超幾何分布に従うので
平均となります。
この平均と計測されたの差(この差の平均は0になる)を
各時点毎に足し合わせると(ある時点jでの死亡者数を, 1 ≦ j ≦ rとします)
となります。
超幾何分布の分散は
なのでこれも各時点毎に和をとってとします。
すると
なので
となるためχ2乗検定にかけることができます。
長い旅路でしたが結局ログランク検定は
時点毎にクロス表を作って
χ2乗検定にかける、というもの、ということでした。
肝心の論文に戻りますと
figure1ではログランク検定を用いて
「すべてのカプランマイヤー曲線が同じである」という仮説に対して
検定をかけていました。
残るはCoxハザード回帰についてです。
(追記 2020.06.10)
足し合わせた検定統計量がなぜ正規分布に従うのかという点について追記します。
通常の中心極限定理は「同一の確率分布に従う、互いに独立した確率変数がn→∞のときに正規分布に従う」というもので、今回の死亡者が出た時点での超幾何分布は同じ超幾何分布ではあるものの、それぞれの値が徐々に減っていくことから、数値が異なるため分布が微妙に異なってしまいます。
明確な回答のある文献がみつからなかったのですが、中心極限定理をより一般化したリンデベルグ・フェラーの定理に従うためと思われます。
これはリンデベルグ条件を満たせば、確率変数は同一分布でなくても互いに独立であればn→∞のときに正規分布に従うというものです。
定理を記載すると
を独立な確率変数の列とし、の平均を、分散をとし、分散の存在を仮定する。と置くと
すべてので
(リンデベルグ条件)が成立するとき
が成り立つ
(現代数理統計学の基礎 p.109より引用)
さらにリンデベルグ条件を変形するとであれば成立するので(これもまた現代数理統計学の基礎 p.111からですが)今回の超幾何分布についてもですし、分散の和を無限に飛ばしたら増えていくので、リンデベルグ・フェラーの定理が成立すると思われます。
検定統計量が正規分布に従う他の理由があったら誰か教えてください、、、。
UL(統計量)の部分、おそらく中心極限定理を用いていると思ったのですが、死亡者数は時刻によって変化するため、同一の超幾何分布とはならず、中心極限定理の前提が満たされないのでは?と考えましたがどのように考えればよいでしょうか?
1さん>
コメントありがとうございます。自分は全く気にしておりませんでしたが確かにご指摘いただいている通りですね。参考文献(医薬統計のための生存時間データ解析)を見直しましたが、さらっと飛ばされて「nが大きければ近似的に正規分布に従う」とされているのみでした。インターネットでみられる記事(日本語英語含めて)でも当然のように正規分布もしくは2乗値がχ二乗分布に従うと書いてあるものがほとんどだったので、確証は持てませんが恐らく一般化された中心極限定理(確率変数が同一の分布でなくても独立ならばOK)である、リンデベルグ・フェラーの定理に従うからだと思われます。本文内に追記しておきます。もし他にそれらしい説明がありましたが、すみませんが教えてください。
ありがとうございます。
調べてみたところ、
http://ogyahogya.hatenablog.com/entry/2014/10/23
のサイトにも詳しい説明がありました。
測度論等にもつっこんでおり、やや専門的すぎる内容であるとも言えますが。
ご報告ありがとうございます。パワポスライドっぽいですが、解説しっかりあって分かりやすいですね。勉強になりました。