分散分析モデルと書いてあった時点で試験当日は解かないことに決めましたが、誘導に従っていけばある程度解ける比較的シンプルな問題でした。
内容としては二元配置分散分析の問題となっています。
(1)
まずは正規分布に従う確率変数の差がどうなるかと言う問題。
正規分布は和の再生性があるので、同様に差についても正規分布となります。
よって期待値及び分散について計算します。
\(E[D_i]\\=E[Y_i-X_i]\\=\mu_i+\theta-\mu_i\\=\theta\)
分散はXおよびYがそれぞれ互いに独立なので
\(V(D_i)=V(Y_i-X_i)\\=V(Y_i)+V(X_i)\\=2\sigma^2\)
よって\(D_i\sim N(\theta, 2\sigma^2)\)
となります。
(2)
分散分析モデルについてパラメータを元のパラメータで書き直す問題です。
ここでまずX,Yについてどんなパラメータになるのか眺めてみます。
\(X_i=\nu+a_i+b_1+\epsilon_{i1}\\Y_i=\nu+a_i+b_2+\epsilon_{i2}\)
さて比べてみますと二つの確率変数の分散は基本的にイプシロンで表現されており、期待値の違いはbで表現されていることが分かります。両辺の期待値をとって引き算しますと
\(E[X_i]-E[Y_i]\\=b_1-b_2\\=\theta\)
となります。さらに条件より
\(b_1+b_2=0\)
ですので
\(b_1=-\frac{\theta}{2}, b_2=\frac{\theta}{2}\)
となります。
続いてiについて総和をとるとaやeを消すことができます。
Xの総和の平均を\(\frac{1}{n}\sum X_i=\bar\mu\)として
\(\sum X_i=\sum(\nu-\frac{\theta}{2})\\=n\bar\mu\)
\(\nu=\bar\mu+\frac{\theta}{2}\)
となります。最後にaについてはXの期待値をとることで
\(\mu_i=\nu+a_i+b_1\)
となるのでそれぞれの答えを代入して
\(a_i=\mu_i-\bar\mu\)
となります。
(3)
(a)
まず二元配置分散分析モデルでは以下のように総平方和(総平均と全データの平方和)が分解できることを思い出します。
(総平方和)=(水準A間の平方和)+(水準B間の平方和)+(残差平方和)
ここでまず\(b_j\)が0ということは水準j=1,2の間では違いがないということを意味します。
となると\(\frac{S_B}{\Phi_B}\)と\(\frac{S_E}{\Phi_E}\)はそれぞれ独立にカイ二乗分布に従います。ここで、水準Bの平方和が残差平方和に比べて小さければ帰無仮説が正しい(つまり、水準bでの変化はない)ということになりますので、検定統計量は
\(\frac{S_B}{\Phi_B}/\frac{S_E}{\Phi_E}\)
となります。これは自由度\(\Phi_B,\Phi_E\)のF分布に従います。
なお、今回問題では問われていませんが、実際の自由度は使用した平均値のパラメータ数を差し引くことで
\(\Phi_E=n-1, \Phi_B=1, \Phi_A=n-1\)
と求められます。
(b)
同様にしてすべてのμが等しいということは水準A間での変動が小さいことを示しますので、検定統計量は
\(\frac{S_A}{\Phi_A}/\frac{S_E}{\Phi_E}\)
これは自由度\(\Phi_A,\Phi_E\)のF分布に従います。
(4)
説明問題です。(a)の検定はパラメータΘの帰無仮説をたてて推測する問題でした。
\(X_1\)が欠測であるとすると\(\mu_1\)の情報は得られないため、\(Y_1\)はΘに関する情報を持たず、残りのn-1のデータから推測するしかできないため、n-1個のデータからの分散分析に基づく検定と同等となります。
(5)
(b)の検定はパラメータμに関する検定でした。
\(X_1\)が欠測だとしても、\(Y_1\)は\(\mu_1\)に関する情報を持っているため除外するべきではありません。解答文に例示されているように\(Y_1\)がほかのYに比べて明らかに大きいとき\(\mu_1\neq\mu_i(i=1,2,…,n)\)と考えられます。
さて後半二題が記述問題でしたので実は計算量がかなり少なく楽な問題だったのではないでしょうか。しかもF分布についても自分で平方和や自由度を計算する必要がないのでその点も手間がほとんどありません。こうした統計モデルの問題にも自信を持って取り組めるようになりたいところですね。
コメントを残す