【医療統計YouTube】標準誤差と標準偏差【第7回】

こちらの記事に書くのをしばらく忘れていましたが、Youtubeの動画を更新しました。

今回のテーマは『標準誤差』。

名前が標準偏差と似ていて本当に紛らわしいし、意味も初めのうちわかりづらいのですが、論文を読む上で理解が重要な概念です。なお、最初の小噺は大学院に行っている医師から聞いた実話です笑それで良いのかと思っちゃいますが、、、。

標本から母集団の推測で重要となる『中心極限定理』についても合わせて説明しており、今までの中でも最も盛り沢山の内容となっています。理解の一助となれば幸いです。

次回は標準誤差との関わりが深い『95%信頼区間』についてみていきます。

余談:中心極限定理の証明

動画内で触れている中心極限定理について、せっかくなので(?)本当に標本平均が正規分布に従うのかどうか、証明を見てみましょう。動画の対象とは全く異なるマニア向けです。

特性関数を用いた方法で証明していきます。

ある分布から抽出した互いに独立な確率変数を

X_1,X_2,...,i.i.d.\sim(\mu, \sigma^2)

とします。

この和が正規分布の特性関数である

e^-{\frac{t^2}{2}}

に一致することを目標にします。

大まかな流れとしては

①標準化する

②標準化した標本平均の特性関数を求める

③テイラー展開を用いて近似する

という感じです。

まず

Z_i=\frac{\bar X_i-\mu}{\sigma}

とおきます。いわゆる標準化ですね。

そうすると

E[Z_i]=0, V(Z_i)=1

となります。

またその標本平均である\bar Zについては

E[\bar Z]=0, V(\bar Z)=\frac{1}{n}

ですね。

ここで証明したいことは、標準正規分布の関数を\Phiで表すと

lim_{n\to\infty}P(\sqrt n\bar Z\leq z)=\Phi(z)

です。

なので、ここから標準化した標本平均の確率変数\sqrt n\bar Z

特性関数\phiについて計算していきます。

\phi_{\sqrt n\bar Z}(t)=E[e^{it\sqrt n\bar Z}]\\=E[e^{it(\frac{Z_1}{\sqrt n}+\frac{Z_2}{\sqrt n}+...+\frac{Z_n}{\sqrt n})}]\\=\{E[e^{it(\frac{Z_1}{\sqrt n})}]\}^n

となります。

最後の変形は

E[e^{it(\frac{Z_1}{\sqrt n})}]=E[e^{it(\frac{Z_2}{\sqrt n})}]=...=E[e^{it(\frac{Z_n}{\sqrt n})}]

であることを用いました。

ここからは

E[e^{it(\frac{Z_1}{\sqrt n})}]=\phi_{\sqrt n\bar Z}(\frac{t}{\sqrt n})

を求めていきます。

そこで使われるのがお馴染みテイラー展開です。

\phi_{\sqrt n\bar Z}(\frac{t}{\sqrt n})=\phi(0)+\frac{t}{\sqrt n}\phi'(0)+\frac{t^2}{2n}\phi''(0)+o(n^-1)

と書けます。

式の最後のオミクロンは分母にnがつくため、n→∞の時に0になるため無視できます。

また

\phi(0)=E[e^0]=1

であり、期待値の定義に戻って考えるとZの確率密度関数をf(z)として

\phi'(t)=\int iZ_ie^{itZ_i}f(z)dz\\\phi''(t)=\int i^2Z_i^2e^{itZ_i}f(z)dz

となるため

\phi'(0)=iE[Z_i]=0\\\phi''(0)=-E[Z_i^2]=-1

となります。

これを先程のテイラー展開の式に代入すれば

\phi_{\sqrt n\bar Z}(\frac{t}{\sqrt n})=1-\frac{t^2}{2n}+o(n^{-1}))

となります。

求めたい特性関数は

\phi_{\sqrt n\bar Z}(t)=\{1-\frac{t^2}{2n}+o(n^{-1})\}^n

となるのでn→∞のとき、e^-{\frac{t^2}{2}}に収束します。

これは標準正規分布の特性関数に一致していますので、証明できました。

動画内では標本の和も正規分布となることが述べられていますが、これは中心極限定理を考えればその通りです。

標本の和=標本平均のn倍ですので

\bar X\sim N(\mu, \sigma^2)

であれば

n\bar X\sim N(n\mu, n^2\sigma^2)

となります。

また動画内の例では

サイコロの目については一様分布

コイントスはベルヌーイ分布

血圧の数値は正規分布(という仮定)としており

いずれも中心極限定理を用いれば正規分布へと収束します。

特にコイントスの裏表の和については二項分布をとり、二項分布が試行回数を増やした時、正規化されるというのはドモアブル=ラプラスの定理として有名ですね。

ちょっと証明は大変なので興味があればこちらを参考にしてください。

De Moivre–Laplace theorem – Wikipedia

参考文献:『現代数理統計学の基礎』

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)