統計検定1級の統計応用で時折出題されるt検定について、数式がたまにこんがらがるのでまとめ直してみます。
目次:
t分布とは
t検定がt分布に基づくものなので、まずはこちらを簡単に。
t分布は標本平均と標本分散(不偏分散)、真の平均値から導き出される分布です。
分布の式としては、標本平均を\(\bar{X}\)、標本分散を\(V^2\)、真の平均値を\(\mu\)、標本のサイズをnとして、以下のようになります。
\( \frac{\sqrt{n}(\bar{X}-\mu)}{V} \)「標本分散のみで導き出せる分布」というのがこの分布の素晴らしい点なのでまずはこれを覚えるのが良いのかなと個人的には思います。
ここで分子を、母分散\(\sigma^2\)を使って、標準正規分布に変換してみます。
\( \frac{\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma}}{\frac{V}{\sigma}} = \frac{N(0,1)}{\frac{V}{\sigma}} \)さて、ここで母分散と標本分散の比がカイ二乗分布に従うことを使います。
\( \chi^2_{n-1} = \frac{(n-1)V^2}{\sigma^2} \)などは以前にも記事を書きました。
この関係性を利用するとt分布は結局のところ、正規分布とカイ二乗分布(を自由度で割ったもののルート)で表されることがわかります。
\( \frac{\sqrt{n}(\bar{X}-\mu)}{V} = \frac{\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma}}{\frac{V}{\sigma}} = \frac{N(0,1)}{\frac{V}{\sigma}} = \frac{N(0,1)}{\sqrt{\frac{\chi^2_{n-1}}{n-1}}} \)この式が自由度n-1のt分布を表します。
t検定とは
t検定は検定統計量がt分布に従うことを利用した仮説検定の方法です。
上述の式からわかるように、標本分散があればt分布を表すことができるので、母分散がわからない場合に重宝されます。真の平均値は帰無仮説として設定されます。
ただし、大事な前提条件として「計測される標本の母集団が正規分布に従う」ということがあります。
統計検定1級2019年の統計応用問4では成立条件を説明することが問題となっており、他の過去問でもこのへんはたまに聞かれるので説明できるように覚えておいた方が良さそうです。
1標本のt検定
1標本のt検定では、ある標本の平均値が仮説として設定された平均値と等しいかそうでないかを検定します。
帰無仮説を\( H_0: \mu=\mu_0 \)、対立仮説を\( H_1: \mu≠\mu_0 \)とすると
\( \frac{\sqrt{n}(\bar{X}-\mu_0)}{V} \sim t_{n-1} \)と標本平均と標本分散から求められる値(検定統計量)が自由度n-1のt分布に従います。
検定統計量の実際の値を計算し、自由度n-1のt分布におけるα%分位点を超えるかどうかを検定します。両側検定であれば
\( \frac{\sqrt{n}(\bar{X}-\mu_0)}{V} > t_{n-1, \frac{\alpha}{2}} \)が示されれば、帰無仮説は棄却されます。
対応のある2標本のt検定
いわゆるstudentのt検定と呼ばれるものです。
「対応のある」というのはつまり、比べる2つの集団の母分散が等しいことを意味します。この検定が成立するための前提条件は過去問で出ていましたので改めて確認すると
1、母分布が正規分布に従う(t検定全体の成立条件)
2、2つの標本の母集団の分散が等しい
3、それぞれの標本の測定値は互いに独立である
の3つになります。
式は1標本に比べると煩雑です。
まず、それぞれの標本のデータをそれぞれ
\( X_1, X_2,…,X_n \sim N(\mu_X, \sigma^2) \) \( Y_1, Y_2,…,Y_m \sim N(\mu_Y, \sigma^2) \)とします。標本平均は\(\bar{X}, \bar{Y}\)としましょう。
帰無仮説は2つの標本間の平均が等しい、ということになるので、
\( H_0: \mu_1=\mu_2 \)となります。
さて、ここで検定統計量として\(\bar{X}-\bar{Y}\)を使えないか考えていきます。
まず、\(\bar{X}-\bar{Y}\)の分散は標本平均の分布がそれぞれ
\( \bar{X} \sim N(\mu_X, \frac{\sigma^2}{n}) \) \( \bar{Y} \sim N(\mu_Y, \frac{\sigma^2}{m}) \)であることから分散は2つの和になることと、帰無仮説では\(\mu_X=\mu_Y\)であることを利用して
\( \bar{X}-\bar{Y} \sim N(0, \frac{(m+n)\sigma^2}{mn}) \)となることがわかります。
よって
\( \frac{(\bar{X}-\bar{Y})\sqrt{mn}}{\sigma\sqrt{m+n}} \sim N(0,1) \)となります。
そして\(\bar{X}-\bar{Y}\)の標本分散は「プールされた分散」を用いるため、以下の式で計算されます。
\( V^2 = \frac{1}{m+n-2}\left\{\sum(X_i-\bar{X})^2 + \sum(Y_i-\bar{Y})^2\right\} \)ここで、最初に述べたように母分散と標本分散の比がカイ二乗分布で表されることを利用すると
\( \frac{V^2}{\sigma^2} = \frac{\chi^2_{m+n-2}}{m+n-2} \)となります。
最初に述べたように、t分布は標準正規分布を分子に置き、カイ二乗分布を自由度で割ったもののルートを分母に置いたものですので、これらをドッキングすれば
\( \frac{\frac{|\bar{X}-\bar{Y}|\sqrt{mn}}{\sigma\sqrt{m+n}}}{\frac{V}{\sigma}} = \frac{\frac{|\bar{X}-\bar{Y}|\sqrt{mn}}{\sqrt{m+n}}}{V} \sim t_{m+n-2} \)\( \frac{\frac{(\bar{X}-\bar{Y})\sqrt{mn}}{\sigma\sqrt{m+n}}}{\frac{V}{\sigma}} = \frac{\frac{(\bar{X}-\bar{Y})\sqrt{mn}}{\sqrt{m+n}}}{V} \sim t_{m+n-2} \)
となります。
あとは同様にして算出しα%分位点と比較すれば検定ができます。
コメントを残す