統計数理もだいぶ勉強は進んできたのでぼちぼち統計応用の分野の勉強も進めようかと思っています。
そこで2018−2019年の過去問をようやく買ってみて統計応用・医薬生物学分野をみてみたのですが、思った以上に難しそうでした、、、。自分の知識のばらつきかもしれませんが、2016−2017年は背景の深いことがわからなくてもできそうな感じでしたが、2018−2019年の問題は解答の道筋が分からなくて困りました。
これはやばいと思ったので、統計応用・医薬生物学分野の対策を考えるというニッチすぎる記事を書いていきます。統計検定1級自体でもニッチな気がしますがね。
実際の臨床研究と結びつく部分が多いので、数理よりは現実での応用に近いとは思います。
まずは、生存時間解析から頑張っていきます。
最初は初歩の初歩でハザード関数と生存関数の関係性から見ていきます。
目次:
生存している確率を確率分布で表す
まず被験者の生存時間がt未満となるような確率を確率分布関数F(t)で表します。要するに時間tまでに何らかイベントが起きてしまっている状態です。
\[
F(t) = P(T < t)
\]
となります。確率密度関数 \( f(t) \) との関係は
\[
F(t) = \int_0^t f(u) \, du
\]
となります。
ある時間 \( t \) において生存している確率を 生存関数 \( S(t) \) と定義します。これは「イベントが起きていない」という確率になるので
\[
S(t) = P(T > t) = 1 – F(t)
\]
となります。
これが
「ある時間tまでにイベントが起きる確率」=分布関数F(t)
と
「ある時間tまでにイベントが起きていない確率」=生存関数S(t)
の定義になります。
ハザード関数の定義
ハザード関数というのは瞬間死亡率、ハザード率(比ではない)とも言われたりしますが「ある極限に短い時間δtにおいてイベントが発生する確率」と定義されます。
式にするとこうなります。
\[
h(t) = \lim_{\delta t \to 0} \frac{P(t \leq T < t + \delta t | t \leq T)}{\delta t}
\]
ハザード関数と生存関数の関係性
先程の生存関数との関係性を式で見ていきます。
条件付き確率の公式 \( P(A|B) = \frac{P(AB)}{P(B)} \) を用いると
\[
h(t) = \lim_{\delta t \to 0} \frac{P(t \leq T < t + \delta t | t \leq T)}{\delta t}
= \lim_{\delta t \to 0} \frac{P(t \leq T < t + \delta t)}{\delta t} \frac{1}{S(t)}
= \frac{f(t)}{S(t)}
\]
となります。
よって
\[
h(t) = \frac{f(t)}{S(t)}
\]
となります。
両辺を積分すると
S'(t)=-f(t)であることからh(t)を積分したものをH(t)とすれば
\[
H(t) = -\log S(t)
\]
変形すると
\[
\exp(-H(t)) = S(t)
\]
と言えます。
なお、このH(t)は累積ハザード関数と呼ばれます。
統計数理でも出うるような問題なので、この辺の関係性は必ず知っておいた方が良さそうです。
参考文献
『医薬統計のための生存時間データ解析』
お値段が高いですけど式の導出や実例の解説が丁寧で理解に役立ちます。
コメントを残す