今は過去問を地道に解いているところですが、P値と仮説検定の問題をやっていたら、式だけ見ていると混乱してくるので一度まとめてみます。P値の意味はある程度わかるけど、数式になると混乱しちゃうよっていう人向けです。
P値の定義について分かり易く説明しているページは結構あるのですが、実際の式を立てて計算となるとあんまり解説してるとこないんですよね。
2015年の統計検定1級の問題2を例に進めてみます。
問題の概要としては
\[ X_1, X_2, …, X_n \sim N(\mu,1), \quad \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \] とするとき
\[ H_0: \mu = 0, \quad H_1: \mu > 0 \] とする。
(2)に従って、このときの
\[ P(\bar{X} > \bar{x}) \] のP値を標準正規分布の分布関数 \( \Phi \) を使って表してみようと思います。
検定統計量とP値の定義式
仮説検定では、まず、帰無仮説 \( H_0 \) のもとで、得られたデータの数値が起きる確率がどの程度になるのかを調べます。確率を出すために使われるデータの値を検定にかける統計量であるので、検定統計量といいます。今回の問題では \( \bar{X} \) ですね。
P値は得られたデータの観測値が、起きる確率のことを言います。
まずP値の定義式は
\[ P(ある検定統計量 > 実際の検定統計量の観測値 | 帰無仮説の条件) \]
式で書くと、検定統計量を \( T(X) \) として、帰無仮説の条件を例えば \( \mu = \mu_0 \) とする場合
\[ P(T(X) > T(x) | \mu = \mu_0) \] となります。
問題に当てはめてみる
実際の先ほどの問題で考えてみます。
検定統計量は \( \bar{X} \) だったので
\[ P値 = P(\bar{X} > \bar{x} | \mu = 0) \]
となります。
帰無仮説の条件下では \( \mu = 0 \) であり、また分散は元の分布の \( 1/n \) であるため
\[ \bar{X} \sim N(0, \frac{1}{n}) \]
となります。これを標準化してやればいいわけです。
\[ P値 = P(\bar{X} > \bar{x} | \mu = 0) = P(\sqrt{n} \bar{X} > \sqrt{n} \bar{x} | \mu = 0) \]
そして標準正規分布の分布関数 \( \Phi \) を用いると
\[ P値 = 1 – \Phi(\sqrt{n} x) \]
ついでに有意水準と上側100α%点の話
有意水準αはこのP値の数値の中で「有意な差がある」と考える基準となる値を言います。α=0.05が用いられることが多いですね。
この有意水準に当てはまるような観測値のことを、正の数で大きいほうであれば上側100α%点と言います。式では \( z_\alpha \) と書かれることが多いです。

再度図でみてみるとこうなります。
これが \( z_{0.05} (\alpha = 0.05) \) であれば右側の斜線部の面積は5%となります。式だけみてるとやっぱりイメージがつきにくいので、(自分の汚い図はともかくとして)自分で一度図を書いてみるとすっきり整理できるかもしれませんね。
参考文献:
いつも愛用のこちらをみつつ、考えてます
コメントを残す