※ブログ記事の商品・サービスリンクにはアフィリエイトリンクが含まれます。

現代数理統計学の基礎 7章 問3 -フィッシャー情報行列-

問3は結構込み入った内容となってますので説明入れながらやっていきます。

目次:

(1)

まずは(1)から。

今回の問題は平均、分散ともに未知の状態で、平均を帰無仮説としてやっていきます。そこで、分散未知のため分散の推定量が必要となります。帰無仮説下での最尤推定量を\hat\sigma_0^2、対立仮説における最尤推定量を\hat\sigma^2とするとそれぞれ

\hat\sigma_0^2=\frac{1}{n}\sum(x_i-\mu_0)^2
\hat\sigma^2=\frac{1}{n}\sum(x_i-\hat\mu)^2

となります。

これを使って尤度比を計算すると

\(\lambda(x)=\frac{(2\pi\hat\sigma_0^2)^{-\frac{n}{2}}exp\{{-\frac{1}{2\hat\sigma_0^2}\sum(x_i-\mu_0)^2}\}}{(2\pi\hat\sigma^2)^{-\frac{n}{2}}exp\{{-\frac{1}{2\hat\sigma^2}\sum(x_i-\mu)^2}\}}=(\frac{\hat\sigma^2}{\hat\sigma_0^2})^{\frac{n}{2}}\)

となります。

よって尤度比検定は

(\frac{\hat\sigma_0^2}{\hat\sigma^2})^{\frac{n}{2}}\gt C

となりますが、左辺がどういう確率分布に従うかわからないといけません。

-2logをとってカイ二乗分布に従う方法は式の中身を考えると、問1(1)のようにexpの指数ではないため、うまくいかないので別の方向性で考えます。問2と同様に先程の尤度比検定の式を右辺が定数であることを利用して、左辺がいい感じの確率分布に従う式になるように変形していきます

ここで

\hat\sigma_0^2=\hat\sigma^2+(\bar X-\mu_0)^2

であること(展開すると分かります)を利用すると

(\frac{\hat\sigma_0^2}{\hat\sigma^2})^{\frac{n}{2}}\gt C\\\frac{(\bar X-\mu_0)^2}{\sigma^2}\gt C'と同値変形できることがわかります。

この形はよく見るとt分布の式に近いことがわかりますので、不偏分散であるV^2を用いて

V^2=\frac{n}{n-1}\hat\sigma^2となることから(おそらく公式の解答は分母と分子が逆?)先程の不等式をまた同値変形して

\frac{n(\bar X-\mu_0)^2}{V^2}\gt C''\\\frac{\sqrt n|\bar X-\mu_0|}{V}\gt C'''\\\frac{\sqrt n|\bar X-\mu_0|}{V}\gt t_{n-1,\frac{\alpha}{2}}

となることがわかります。

(2)

さて、(2)をやるには、(1)と同様に変化するパラメータ2種類あるため、フィッシャー情報行列の話が必要です。

 <捕捉>フィッシャー情報行列について

ワルド検定とスコア検定については以前書いた記事と同様にやっていくことができます。

過去記事はこちら

medibook.hatenablog.com

ただ、今回はパラメータが2種類あるため、ただのフィッシャー情報量ではなく、フィッシャー情報行列を使って計算する必要があります。 その方法は『現代数理統計学の基礎』の捕捉説明の資料に記載があります。

まず、フィッシャー情報行列がなんなのかといえば、パラメータが複数の場合に使われるフィッシャー情報量みたいなものです。 例えば今回のような2種類のパラメータの場合

f:id:medibook:20201117053448j:plain

と書きます。行列をlatexで書くのが面倒だったので、手書きですみません。ここで、行列のi, j成分は未知のパラメータのベクトルを

\theta=(\theta_1, \theta_2)^Tとした時

以下の式で計算できます。

I_{i,j}(\theta)=E[-\partial^2\partial\theta_i\partial\theta_jlogf(X_1|\theta)]

つまり、通常のフィッシャー情報量で計算するように、対数尤度関数を同じパラメータで2回微分して、負の期待値を取るものと、それぞれのパラメータで順番に微分するもので行列を作るわけです。

ちなみに今回の場合のフィッシャー情報行列は以下のようになります。

f:id:medibook:20201117054731j:plain

実際計算するとわかりますが、対角成分以外は0となっています。 ちなみにこのような場合を二つのパラメータが直交する、と言い、それぞれが独立であることを示します。 標本平均と標本分散が独立となることは以前の記事でも書きましたが、それを表しているといえます。

過去記事はこちら

medibook.hatenablog.com

Wikipedia曰く、このようなパラメータ設定ができることは良いことなようです。

ワルド検定

で、問題のワルド検定ですが、『現代数理統計学の基礎』の捕捉資料を参考にすると、フィッシャー情報行列を用いる場合、以下のような式となります。

n(\hat\mu-\mu_0)^T\{I^{11}(\hat\mu)\}^{-1}(\hat\mu-\mu_0)\gt\chi^2_{1,\alpha}

ここでI^{11}というのはフィッシャー情報行列の逆行列の1,1成分を指します。 今回これは\hat\sigma^2ですので、先程の式に代入すると、答えは

\frac{n(\bar X-\mu_0)^2}{\hat\sigma^2}\gt\chi^2_{1,\alpha}

となります。

スコア検定

スコア検定では2種のパラメータによるそれぞれのスコア関数とフィッシャー情報行列を丸ごと使って、以下の式で、検定の式を求めることができます。

\frac{1}{n}(S_{\mu}, S_{\sigma^2})I^{-1}(S_{\mu}, S_{\sigma^2})^T\sim\chi^2_2

(解答はSαになっていたり、逆行列になっていなかったりしますが、誤植だと思われます)

そこでまずは、それぞれのスコア関数を求めます。n個のデータの対数尤度関数をそれぞれのパラメータで微分すれば良いので

S_\mu=\frac{n}{\sigma^2}(\bar X-\mu)\\S_{\sigma^2}=-\frac{n}{\sigma^2}+\frac{1}{2\sigma^4}\sum(X_i-\mu)^2=\frac{n}{2\sigma^4}\{\frac{1}{n}\sum(X_i-\mu)^2-\sigma^2\}

となります。

これを先程の式に当てはめて、計算し、パラメータに\mu_0, \hat\sigma^2_0を代入すると

\frac{n}{\hat\sigma_0^2}(\bar X-\mu_0)^2+\frac{n}{2\hat\sigma_0^4}\{\frac{1}{n}\sum(X_i-\mu_0)^2-\hat\sigma_0^2\}^2=\frac{n}{\sigma^2}(\bar X-\mu)^2\gt\chi_{1,\alpha}

が求める式となります。上に書いた式ではカイ二乗分布の自由度は2でしたが、帰無仮説のパラメータを当てはめたことで自由度が1下がると解釈するようです。

(3)

(3)は複合仮説の場合の検定の問題ですね。 問2と同様にして、場合わけして進めます。

帰無仮説下の最尤推定量を\hat\mu_0とすると

\hat\mu_0=min(\mu_0, \hat\mu)となります。

\mu_0\geq\hat\muのとき

尤度比は1となってしまうため、検定の式は求められません

\mu_0\lt\hat\muのとき

\hat\mu_0=\mu_0となります。

公式の解答が実はよくわからないのですが、、、これは(1)と同じでは?

同様にすることで

\frac{\sqrt n(\bar X-\mu_0)}{V}\gt Cとなります。

あとは問2と同様で確率上界を示せば良いので

\(P(\frac{\sqrt n(\bar X-\mu_0)}{V}\gt t_{n-1, \alpha}\\=P(\frac{\sqrt n(\bar X-\mu)}{V}+\frac{\sqrt n\mu}{V}-\frac{\sqrt n\mu_0}{V}\gt t_{n-1, \alpha}\leq P(\frac{\sqrt n(\bar X-\mu)}{V}\gt t_(n-1, \alpha)(\mu_0\lt\hat\muのため)\)

となります。

5件のコメント

(1)のσとσ0で表された尤度比検定検定の棄却域の式ですが、不等号が反対になっていると思います

>nuka137さん
ご指摘ありがとうございます。分母分子を逆にして修正させていただきました。

(1)-2log をとるとなぜ都合が悪いのかよくわからないのですがそこでχ二乗分布に従うとしたらダメなのでしょうか

最尤推定量を使って分散を展開したらできるような気がするのですが、この場所が勉強不足な分理解できていないので説明していただけると幸いです

周りに統計勉強している人がいないもので

返信はなるべく早い方がうれしいです
試験が迫っているので

(1)-2log をとるとなぜ都合が悪いのかよくわからないのですがそこでχ二乗分布に従うとしたらダメなのでしょうか

最尤推定量を使って分散を展開したらできるような気がするのですが、この場所が勉強不足な分理解できていないので説明していただけると幸いです

周りに統計勉強している人がいないもので

返信はなるべく早い

>gambaboyさん
コメントありがとうございます。記事には上記のように書かせていただきましたが、-2logをとってカイ二乗分布に従うことを利用しても特に問題ないように思います。公式の解答で変形を進めたりしているのは、あくまで実際の計算がしやすいような対数を避けた計算式の形の提示と通常よくみられる統計量に変換できることを学習のために示したいからなのではないかと思っています。

tosuke へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)