「2つのデータの95%信頼区間と2標本両側t検定の有意差の関係性を調べよ」
これって医療統計本の中では屈指の出来である(と個人的に思っている)「今日から使える医療統計(新谷歩著)」*1に出てきた話で、「95%信頼区間のエラーバーが重ならないこととp値(=有意差)がどう関係するか」ということですね。
一応答えとしては
95%信頼区間が重ならない→有意差あり
95%信頼区間が重なる→有意差あるかないかは不明
となります。
図で書くとこんな感じ。
つまり、「95%信頼区間が重ならない」ことは「有意差がある」ことの十分条件ですね。ただ、必要条件ではない。
で、これが本当なのかどうかと思ってしまいますが、それを過去問と同じような例に沿いつつ、数学的にみてみようと思います。
問題設定
それぞれ独立した被験者をn人ずつ集め、AとBのそれぞれの処置を行います。結果は連続変数のデータでグループAのデータはとなり、グループBのデータはとなりました。
各グループの平均を、不偏分散による標本標準偏差をそれぞれとします。
5%の両側t検定を考えてみましょう。
実際に計算してみる
さて、まずは95%信頼区間が重ならないとはどういう状況かを数学的に表現します。
ここでとしても一般性を失わないので、こう仮定します。
するとxの平均値+95%CIとyの平均値-95%CIが重ならないわけなので、自由度n-1, 2.5%分位点の値をとすると
となります。
さて、次にt検定の検定統計量を考えてみると、サンプルサイズが同じという前提であるためプールされた分散は比較的小さくなり
となります。
ここで先程の95%CIの不等式を当てはめると
(T=\frac{\bar y-\bar x}{\sqrt{\frac{S_x^2+S_y^2}{n}}}\\gt \frac{t_{0.025,n-1}\frac{S_x}{\sqrt n}+t_{0.025,n-1}\frac{S_y}{\sqrt n}}{\sqrt{\frac{S_x^2+S_y^2}{n}}}\=\frac{t_{0.025, n-1}(S_x+S_y)}{\sqrt{S_x^2+S_y^2}})
「有意差あり」となる場合は
ですので
と大小比較してみます。
t分布のパーセント表をみるとわかりますが、自由度は高ければ高いほど、同じパーセントでも値は小さくなっていきます。
よって
(t_{0.025,n-1}\gt t_{0.025,2n-2})
ですね。
さらに
については、より
が成り立ちます。
よって
ですね。
以上のことから
が成立し、95%信頼区間が重ならなければ、2標本両側t検定の有意差ありになることが示せました。
参考文献:
*1「今日から使える医療統計」
コメントを残す