仮説検定とp値の定義式【統計検定1級対策】

今は過去問を地道に解いているところですが、P値と仮説検定の問題をやっていたら、式だけ見ていると混乱してくるので一度まとめてみます。P値の意味はある程度わかるけど、数式になると混乱しちゃうよっていう人向けです。

P値の定義について分かり易く説明しているページは結構あるのですが、実際の式を立てて計算となるとあんまり解説してるとこないんですよね。

2015年の統計検定1級の問題2を例に進めてみます。

問題の概要としては

X_1, X_2, ..., X_n\sim N(\mu,1), \bar X=\frac{1}{n}\sum_{i=1}^nX_iとするとき

H_0:\mu=0, H_1:\mu\gt 0とする。

(2)に従って、このときの\bar X\gt\bar xのときのP値を標準正規分布の分布関数\Phiを使って表してみようと思います。

 目次:

検定統計量とP値の定義式

仮説検定では、まず、帰無仮説H_0のもとで、得られたデータの数値が起きる確率がどの程度になるのかを調べます。確率を出すために使われるデータの値を検定にかける統計量であるので、検定統計量といいます。今回の問題では\bar Xですね。

P値は得られたデータの観測値が、起きる確率のことを言います。

まずP値の定義式は

\(P(ある検定統計量\gt実際の検定統計量の観測値|帰無仮説の条件)\)

式で書くと、検定統計量をT(x)として、帰無仮説の条件を例えば\mu=\mu_0とする場合

P(T(X)\gt T(x)|\mu=\mu_0)となります。

問題に当てはめてみる

実際の先ほどの問題で考えてみます。

検定統計量は\bar Xだったので

\(P値=P(\bar X\gt\bar x|\mu=0)\)

となります。

ここで問題なのは、ここで求めたい確率が式とにらめっこしても出てこないことです。

\bar X確率の分かる分布に変えなければいけません

ここでよく使われるのが、標準正規分布やt分布です。

今回はそもそも元の確率変数の分布が正規分布に従い、分散もわかっているので、標準正規分布に変換します。

\bar Xの分布を考えてみると

帰無仮説の条件下では\mu=0であり、また分散は元の分布の1/nであるため

\bar X\sim N(0,\frac{1}{n})となります。こいつを標準化してやればいいわけです。

これを使って、さっきの式を変形します。

\(P値=P(\bar X\gt\bar x|\mu=0)=P(\sqrt n\bar X\gt\sqrt n\bar x|\mu=0)\)

この式の状況を図で表してみます。

まず\sqrt n\bar Xは標準正規分布に従うので確率密度関数は以下の図になります。

f:id:medibook:20200627062857p:image

久しぶりの汚い手書き図です(笑)PCで描く方が面倒くさいので、、、。

そして先ほどの式が表す確率(P値)はグラフのうち、斜線の面積を意味します。

f:id:medibook:20200627062904p:image

ということは問題であった標準正規分布の分布関数\Phiを用いると

\(P値=1-\Phi(\sqrt nx)\)

と表すことができます。

ついでに有意水準と上側100α%点の話

有意水準αはこのP値の数値の中で「有意な差がある」と考える基準となる値を言います。α=0.05が用いられることが多いですね。

この有意水準に当てはまるような観測値のことを、正の数で大きいほうであれば上側100α%点と言います。式ではz_\alphaと書かれることが多いです。

f:id:medibook:20200627062524p:image

再度図でみてみるとこうなります。

これがz_{0.05}(\alpha=0.05)であれば右側の斜線部の面積は5%となります。式だけみてるとやっぱりイメージがつきにくいので、(自分の汚い図はともかくとして)自分で一度図を書いてみるとすっきり整理できるかもしれませんね。

参考文献:

いつも愛用のこちらをみつつ、考えてます

現代数理統計学の基礎 (共立講座 数学の魅力)

 

現代数理統計学の基礎 (共立講座 数学の魅力)

 

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)