今は過去問を地道に解いているところですが、P値と仮説検定の問題をやっていたら、式だけ見ていると混乱してくるので一度まとめてみます。P値の意味はある程度わかるけど、数式になると混乱しちゃうよっていう人向けです。
P値の定義について分かり易く説明しているページは結構あるのですが、実際の式を立てて計算となるとあんまり解説してるとこないんですよね。
2015年の統計検定1級の問題2を例に進めてみます。
問題の概要としては
とするとき
とする。
(2)に従って、このときののときのP値を標準正規分布の分布関数を使って表してみようと思います。
目次:
検定統計量とP値の定義式
仮説検定では、まず、帰無仮説のもとで、得られたデータの数値が起きる確率がどの程度になるのかを調べます。確率を出すために使われるデータの値を検定にかける統計量であるので、検定統計量といいます。今回の問題ではですね。
P値は得られたデータの観測値が、起きる確率のことを言います。
まずP値の定義式は
\(P(ある検定統計量\gt実際の検定統計量の観測値|帰無仮説の条件)\)
式で書くと、検定統計量をT(x)として、帰無仮説の条件を例えばとする場合
となります。
問題に当てはめてみる
実際の先ほどの問題で考えてみます。
検定統計量はだったので
\(P値=P(\bar X\gt\bar x|\mu=0)\)
となります。
ここで問題なのは、ここで求めたい確率が式とにらめっこしても出てこないことです。
を確率の分かる分布に変えなければいけません。
ここでよく使われるのが、標準正規分布やt分布です。
今回はそもそも元の確率変数の分布が正規分布に従い、分散もわかっているので、標準正規分布に変換します。
の分布を考えてみると
帰無仮説の条件下ではであり、また分散は元の分布の1/nであるため
となります。こいつを標準化してやればいいわけです。
これを使って、さっきの式を変形します。
\(P値=P(\bar X\gt\bar x|\mu=0)=P(\sqrt n\bar X\gt\sqrt n\bar x|\mu=0)\)
この式の状況を図で表してみます。
まずは標準正規分布に従うので確率密度関数は以下の図になります。
久しぶりの汚い手書き図です(笑)PCで描く方が面倒くさいので、、、。
そして先ほどの式が表す確率(P値)はグラフのうち、斜線の面積を意味します。
ということは問題であった標準正規分布の分布関数を用いると
\(P値=1-\Phi(\sqrt nx)\)
と表すことができます。
ついでに有意水準と上側100α%点の話
有意水準αはこのP値の数値の中で「有意な差がある」と考える基準となる値を言います。α=0.05が用いられることが多いですね。
この有意水準に当てはまるような観測値のことを、正の数で大きいほうであれば上側100α%点と言います。式ではと書かれることが多いです。
再度図でみてみるとこうなります。
これがであれば右側の斜線部の面積は5%となります。式だけみてるとやっぱりイメージがつきにくいので、(自分の汚い図はともかくとして)自分で一度図を書いてみるとすっきり整理できるかもしれませんね。
参考文献:
いつも愛用のこちらをみつつ、考えてます
コメントを残す