前回はt分布についてやりましたので、今回はF分布とそれに関連したF検定についてやっていきます。
目次:
F分布とは
F分布というのは、分母も分子もカイ二乗分布に従う分数の分布です。具体的には自由度mのカイ二乗分布
\[
\chi_m^2
\]
と自由度nのカイ二乗分布
\[
\chi_n^2
\]
とするとF分布が従う確率変数Fは以下のように表現されます。
\[
F\sim\frac{\chi_m^2}{\chi_n^2}
\]
これを自由度(m, n)のF分布と呼びます。
例によって導出の過程と確率密度関数は結構大変なので省略します。
F分布の使い道
以前の記事で書いたように不偏分散と母分散の比はχ二乗分布に従います。
標本平均と不偏分散、カイ2乗分布の関係性を整理【統計検定1級対策】
そうすると分散に関連した式がχ二乗分布で表されるため、ここに使い道のポイントがあります。
そこで実際使われるのがF検定や分散分析です。
F検定とは
F検定は二つの集団からなるデータを比較する際に分散が一緒なのか異なるのかをみる方法です。
例として、ある母集団Aから集めたデータ
\[
X_1, X_2, X_3, …, X_m
\]
と母集団Bから集めたデータ
\[
Y_1, Y_2, Y_3, …,Y_n
\]
について考えてみましょう。
帰無仮説を二つの母集団が同じ分散
\[
\sigma^2
\]
に従うとします。母集団Aの推測される分散は
\[
\hat\sigma_A^2=\frac{1}{m-1}\sum(X_i-\bar X)^2
\]
であり、Bは
\[
\hat\sigma_B^2=\frac{1}{n-1}\sum(Y_i-\bar Y)^2
\]
となります。
するとこの二つの分散の比は帰無仮説下において
\[
\frac{\hat\sigma_A^2}{\hat\sigma_B^2}=\frac{\frac{\hat\sigma_A^2}{\sigma^2}}{\frac{\hat\sigma_B^2}{\sigma^2}}=\frac{\chi_{m-1}^2}{\chi_{n-1}^2}
\]
となり、最初の式でみたように自由度(m-1, n-1)のF分布に従うことが分かります。
あとはこれを両側検定で考えれば、「分散が等しいかどうか」という仮説を検定にかけることができます。
この検定は以前紹介したt検定を使う際に、「分散が等しいかどうか」でstudentのt検定なのかWelchのt検定なのか使うものが変わってくるので必要とされます。
ただし、最近ではこのF検定→t検定をする流れは、多重検定の問題(2回検定をやると1回以上αエラーが起こる確率が、1-{(1-0.05)×(1-0.05)}=0.0975と上がってしまう)に引っかかる可能性があるので、初めからWelchのt検定をやれ、という話もあったりするようです。
参考文献
分散分析などの話が分かりやすいのでお勧めです。
コメントを残す