雨の日は車通勤にしていたのですが、長距離運転が眠くてしょうがないのでポンチョを買って、雨の日も電車+自転車通勤に切り替えました。快適です。
今回は標本平均と標本平均を使った不偏分散、χ二乗分布の関係性を整理していきます。t分布、F分布の導出に強く関連してくるテーマで、統計検定1級の問題にもよく必要とされる知識です。以下の定理を覚えつつ、証明を行ってみようと思います。
まず前提として
\[
X_1, X_2, …, X_n\sim N(\mu, \sigma^2)
\]
とします。標本平均
\[
\bar X=\frac{1}{n}\sum_{i=1}^nX_i
\]
と不偏分散
\[
\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2
\]
に対して以下が成り立ちます。
(1) \( \bar X \) と \( V^2 \) は独立に分布する。
(2) \( \bar X\sim N(\mu, \frac{\sigma^2}{n}) \)
(3) \( \frac{(n-1)V^2}{\sigma^2}\sim\chi_{n-1}^2 \)
(久保川達也著『現代数理統計学の基礎』より引用)
証明自体はトリッキーで難しいので多分統計検定には出ないと思いますが、中身まで知っておいた方が、覚えやすいですし、意味も理解しやすいのでやってみます。
いつもお世話になっている、ここのページが説明として分かりやすいですが、ここですらパッとみて理解できなかったので(行列が苦手すぎて)、まとめ直してみました。
不偏分散と自由度n-1のカイ二乗分布 | 高校数学の美しい物語
目次:
証明の手順①まず簡単のため標準正規分布にする
まず話を簡単にするために標準正規分布の確率変数 \( Z \) に変換をします。すると、上記の式はこのように変わります。
(1′) \( \bar Z \) と \( \sum(Z_i-\bar Z)^2 \) は独立に分布する。
(2′) \( \sqrt{n} \bar Z \sim N(0, 1) \)
(3′) \( \sum(Z_i-\bar Z)^2\sim\chi_{n-1}^2 \)
(久保川達也著『現代数理統計学の基礎』より引用)
証明の手順②直交行列を準備する
自力で思いつくには難しい点はここだと思いますが、ここで直交行列による変換を考えます。
ちなみに直交行列とは
\[
\mathbf{A^T} = \mathbf{A^{-1}}
\]
のように転置行列=逆行列となる行列のことを指します。
転置行列については昔の記事でも紹介しましたが、こちらのページをご参照ください。分かりやすいです。
転置行列の基本的な4つの性質と証明 | 高校数学の美しい物語
その性質から
\[
\mathbf{A^TA=AA^T=I}
\]
(\( I \) は単位行列)となります。さらに行列式について
\[
\mathbf{|A^TA|=|I|=|A|^2=1}
\]
となるため、
\[
|A|=1
\]
となることが分かります。
Aを1行目を \( \frac{1}{\sqrt{n}} \) となる(これは後で効いてきます)直交行列として先ほどのZを変数変換します。
\[ (Y_1, Y_2, …. ,Y_n)^T=\mathbf{A}(Z_1, Z_2,…, Z_n)^T \]
証明の手順③同時確率密度関数を実際に変換する
次に具体的な同時確率密度関数を出して、変換を行ってみます。
確率変数Zの同時確率密度関数は
\[ \frac{1}{(2\pi)^{\frac{n}{2}}}e^{-\sum\frac{z_i^2}{2}}=\frac{1}{(2\pi)^{\frac{n}{2}}}e^{-\mathbf{Z^TZ}} \]
となります。ここで行列を使った変数変換の場合、ヤコビアンは変換に用いられた行列の行列式、つまり \( |A|=1 \) となります。
また、最後の式の項の
\[ \mathbf{Z^TZ}=\mathbf{(AY)^TAY}=\mathbf{Y^TA^TAY}=\mathbf{Y^TIY}=\mathbf{Y^TY} \]
となるので、この2つを用いてYの同時確率密度関数を求めると
\[ f(\mathbf{y})=\frac{1}{(2\pi)^{\frac{n}{2}}}e^{-\mathbf{Y^TY}}|A| =\frac{1}{(2\pi)^{\frac{n}{2}}}e^{-\sum\frac{y_i^2}{2}} \]
となります。これは最初の \( Z \) の式と同じなので、つまり、
\[ (Y_1, Y_2, …, Y_n) \]
が独立に分布し、かつ標準正規分布に従うことが分かります。
結局示していたのは直交行列で変換すると同じ分布に戻るよっていうことですね。
で、それが何の役に立つかというと、証明したかった式を変形してみると分かります。
まず
\[ \sqrt{n}\bar{Z}=\frac{1}{\sqrt{n}}\sum Z_i=Y_1\sim N(0, 1) \]
となり、(2′)が証明できました。行列 \( A \) の1行目の成分は先に書きましたが全て \( \frac{1}{\sqrt{n}} \) なので、これが成り立ちます。
次に
\[ \sum(Z_i-\bar{Z})^2=\sum Z_i^2-2\sum Z_i\bar{Z}+n\bar{Z}^2 =\sum Z_i^2-n\bar{Z}^2 =\mathbf{Y^TY}-Y_1^2 =Y_2^2+Y_3^2+…+Y_n^2 \]
となります。
これはつまり
\[ \sqrt{n} \bar{Z} = Y_1 \] と
\[ \sum(Z_i-\bar{Z})^2=Y_2^2+Y_3^2+…+Y_n^2 \]
が互いに独立であるという(1′)を示しています。
また(3)についても
\[ \sum(Z_i-\bar{Z})^2=Y_2^2+Y_3^2+…+Y_n^2\sim\chi_{n-1}^2 \]
より示されました。(標準正規分布である \( Y \) 二乗の和はカイ二乗分布になるため)
標準正規分布の和とカイ二乗分布の関連についてはこちらの記事を参照ください。
標準正規分布とカイ2乗分布・ガンマ分布の関係について、整理と証明【統計検定1級対策】
今回示した性質は、母分散が分からない場合の検定に大変役立てられます。現実的によくあるシチュエーションですし、t分布、F分布と関連する話なので、ぜひこの性質は覚えておきたいところです。
(2)の別解
ちなみに、(2)については期待値と分散の性質に従えば簡単に出すこともできます。
\[ V(\bar{X}) = V\left(\frac{1}{n}\sum_{i=1}^{n}X_i\right) = \frac{1}{n^2}V\left(\sum_{i=1}^{n}X_i\right) = \frac{1}{n^2}n\sigma^2 = \frac{\sigma^2}{n} \]
参考文献:
行列が分からなさすぎて買ってしまいました。どこかのレビューにも書いてあったのですが、「統計のための」とあるものの、統計の話はほぼ全く出てきません。どっちかと言えば、統計に絡む可能性のある行列の話を書いている本、というところです。きっちり式を書いてある点では有難いのですが、ざっと読むには骨が5,6本折れます。
もうちょっとさっぱりとした行列の本です。こっちの方が読みやすいですが、細かな話は上の本を参考にします。
コメントを残す