さて、過去問解きつつも、全くもって受かる気がしてこない統計検定1級ですが、引き続きあがいていこうと思います。というかコロナの影響で6月の検定やられてないのですが、果たして11月はやるんでしょうか。
今回はt分布の確率密度関数とt検定のやり方について、数式を整理してみます。
目次:
t分布と不偏分散の関係
以前の記事で書いたようにt分布は「母分散が分からない」という極めてよくあるシチュエーションで役に立ちます。
ここで用いられるのが、以前の記事で紹介した不偏分散とχ二乗分布の関係性です。
標本平均と不偏分散、カイ2乗分布の関係性を整理【統計検定1級対策】
\frac{(n-1)V^2}{\sigma^2}\sim\chi_{n-1}^2
上記の式の関係性からカイ二乗分布に従う確率変数をUとすると以下の式が導出できます。
\frac{(n-1)V^2}{\sigma^2}=U \\ V=\sigma\sqrt{\frac{U}{n-1}}
これをあとで使っていきます。
まず、標準正規分布に従う確率変数Zは以下の式で表現されます。
Z=\frac{\sqrt{n}(X-\mu)}{\sigma}
これの分母を不偏分散Vにすり替えてみます。
\frac{\sqrt{n}(X-\mu)}{V}
この式の分布が特定できれば、不偏分散を使った確率変数の分布が分かるので、いろいろと便利そうです。ここで、最初につくった式を入れてみます。
\frac{\sqrt{n}(X-\mu)}{V}=\sqrt{n}(X-\mu)×\frac{1}{\sigma\sqrt{\frac{U}{n-1}}} \\ =\frac{Z}{\sqrt{\frac{U}{n-1}}}=T
この確率変数Tが自由度n-1のt分布に従います。
ちなみに自由度に応じてt分布は変形していきますが、自由度1の時はコーシー分布という分布に従い、∞のときは標準正規分布になっていきます。
確率密度関数とその導出は正直書くのが大変なので省略します。すみません。
t検定の種類
t分布の話から一番基本的なstudentのt検定について説明します。
一口にt検定といっても色々な種類がありますが、studentのt検定は2標本の比較で、母集団が正規分布、母分散が等しい、標本における対応なし(同じ被験者・被験体ではない)ということが前提となります。
統計検定1級の教本をみると、「一般な条件 \sigma_1^2\neq\sigma_2^2 の場合の理論的な結果(いわゆるベーレンス-フィッシャー問題)は本書の程度を超えるので・・・(統計検定1級対応 統計学 p.106第4章仮説検定より引用)」とあるので、一応今回説明するstudentのt検定が分かっていればカバー範囲としては問題ないのかなと思ってます。
混乱しがちなので(自分が)、他のt検定と合わせて一度図にまとめておきます。
studentのt検定
さて、studentのt検定ですが、X_1, X_2,…, X_m\sim N(\mu_1, \sigma^2) と Y_1, Y_2,…, Y_n\sim N(\mu_2, \sigma^2) という2標本のデータが得られた場合に二つの平均に差があるかどうかの検定を考えてみます。
帰無仮説を \mu_1=\mu_2 とおき、対立仮説を \mu_1\neq\mu_2 とします。
まずこの2標本から推定される分散の値は、各標本の不偏分散をそれぞれ V_1, V_2 としたとき
\hat{\sigma}^2=\frac{1}{m+n-2}\{(m-1)V_1^2+(n-1)V_2^2\}\\ =\frac{1}{m+n-2}\{\sum_{i=1}^m(X_i-\bar X)^2+\sum_{i=1}^n(Y_i-\bar Y)^2\}
となります。
この分散は (m+n-2)\frac{\hat{\sigma}^2}{\sigma^2}\sim \chi^2_{m+n-2} となります。
また、ここで二つの標本平均について \bar{X}\sim N(\mu_1, \frac{\sigma^2}{m}) であり、 \bar{Y}\sim N(\mu_2, \frac{\sigma^2}{n}) となります。
帰無仮説が正しい時、正規分布の和(差)の再生性を活かすと
\bar{X}-\bar{Y} \sim N(0, \frac{\sigma^2(m+n)}{mn})
となります。
よって
\frac{\frac{(\bar X-\bar Y)\sqrt{mn}}{\sigma\sqrt{m+n}}}{\frac{\hat{\sigma}^2}{\sigma^2}}=\frac{Z}{\sqrt\frac{U}{m+n-2}}=T
となります。最初の式の母分散は分母と分子で打ち消しあうため、計算する必要がありません。
これで分散が分からなくても、2標本の平均の差を検定にかけることができます。
以上がstudentのt検定です。
コメントを残す