尤度比検定、ワルド検定、スコア検定をできるだけ分かりやすくまとめる【統計検定1級対策】

本日は仮説検定の中で、用いられる尤度比検定、wald検定、score検定についてまとめてみます。対数尤度関数、最尤推定量やスコア関数のそれぞれについては分かるけれど、この検定の意味がわかりづらい、、という人向けに書きます。

目次:

尤度比検定/ワルド検定/スコア検定の意味

以前の記事で仮説検定とp値について書きました。

このような問題だと、パラメータμを求めるために検定統計量\bar Xが使われることは非常に分かりやすいのですが、場合によっては検定統計量を何にすればいいのか(=あるパラメータθを検定する際にどの値を使えば知っている確率分布「正規分布」「カイ二乗分布」に落とし込めるか)が分からないときがあります。

そんなときに役立つのが尤度比/ワルド/スコア検定の方法です。

最大対数尤度と対数尤度関数

この概念をつかむためによく使われるのが対数尤度関数のグラフです。

あるパラメータθに対して対数尤度をとります。すると、θが最尤推定量\hat\thetaをとるとき(logL'(θ)=0)に対数尤度は最大となるため下図のようなグラフが出来上がります。

f:id:medibook:20200705065258j:plain

横軸にパラメータθの値、縦軸は対数尤度ですね。これを用いて検定の意味を考えていきます。

尤度比検定

概念の説明

まず、尤度比検定では帰無仮説下での対数尤度と最大対数尤度の差を使っています。これは図で表すとここの部分になります。

f:id:medibook:20200705065328j:plain

つまり式としてはlogL(\hat\theta)-logL(\theta_0)になります。これを変形したものを検定統計量とするのが尤度比検定です。

差が0に近ければ近いほど\theta=\theta_0となる確率は高いわけで、帰無仮説が支持され、逆に0から離れるなら対立仮説が支持されます。

そこで大事なのはこの二つの差がどのような確率分布になるかということです。証明は結構大変なので省きますが(ここでもテーラー展開が出てくる)この二つの差は以下のような形でカイ二乗分布に従います。

2\{logL(\hat\theta)-logL(\theta_0)\}\sim\chi_1^2

そのため棄却域はαを有意水準とすると

2\{logL(\hat\theta)-logL(\theta_0)\}\gt\chi_{1,\alpha}^2

 となります。

例題

例題として下記を考えてみます。

X_1, X_2, ... , X_n\sim N(\mu,\sigma^2)とする。帰無仮説と対立仮説をそれぞれH_0:\mu=\mu_0, H_1:\mu\neq\mu_0とする。このときの尤度比検定の棄却域を求めよ。

これを解いてみましょう。

まず対数尤度関数を考えると

logL(\mu,x)=-\frac{n}{2}log2\pi\sigma^2-\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}

となります。

次に尤度比検定の考え方に従って、logL(\hat\mu)-logL(\mu_0)を考えてみましょう。\hat\mu=\bar Xとなるので

\(logL(\hat\mu)-logL(\mu_0)\\=-\sum_{i=1}^n\frac{(x_i-\hat\mu)^2}{2\sigma^2}+\sum_{i=1}^n\frac{(x_i-\mu_0)^2}{2\sigma^2}\\=-\frac{1}{2\sigma^2}{\sum_{i=1}^n(x_i-\bar X)^2-\sum_{i=1}^n(x_i-\mu_0)^2}\\=-\frac{1}{2\sigma^2}{-2\bar X\sum_{i=1}^nx_i+n\bar X^2+2\mu_0\sum_{i=1}^nx_i-n\mu_0^2}\)

ここで\sum_{i=1}^nx_i=n\bar Xなので

=-\frac{1}{2\sigma^2}\{-n\bar X^2+2n\mu_0\bar X-n\mu_0^2\}\\=-\frac{n}{2\sigma^2}(\bar X-\mu_0)^2

となります。

よって上述のようにこれを二倍するとχ二乗分布に従うので

-\frac{n}{\sigma^2}(\bar X-\mu_0)^2\gt\chi_{1,\alpha}^2

が棄却域となります。

ワルド検定

概念の説明

ワルド検定では帰無仮説下において、グラフの横軸であるパラメータ\hat\theta\theta_0の差をもとにして考えます。

f:id:medibook:20200705065418j:plain

この二つの差は\hat\theta-\theta_0という式で表されます。これを変形したものを検定統計量とするのがワルド検定です。

先ほどと同様に差が0に近ければ帰無仮説が支持されます。

ワルド検定で用いられるのは最尤推定量としての性質です。最尤推定量には漸近有効性という性質があり、フィッシャー情報量を用いると、n→∞のときパラメータθに対して以下の性質を持ちます。

\sqrt{nI_1(\hat\theta)}(\hat\theta-\theta)\sim N(0,1)

帰無仮説のもとでは

\sqrt{nI_1(\hat\theta)}(\hat\theta-\theta_0)\sim N(0,1)

となるためこれを利用して棄却域を求めます。

フィッシャー情報量については過去の記事でもまとめています。

例題

さきほどと同じ正規分布について考えてみます。最尤推定量は\bar Xなので、フィッシャー情報量を求めます。

対数をとった確率密度関数をパラメータで2回微分して負の期待値をとる方法が簡単なので行ってみます。まず1回微分すると

\frac{\mu}{d\mu}\{-\frac{1}{2}log2\pi\sigma-\frac{(x-\mu)^2}{2\sigma^2}\}\\=-\frac{\mu}{d\mu}\frac{(x^2-2\mu x+\mu^2)}{2\sigma^2}\\=-\frac{(-x+\mu)}{\sigma^2}

もう1回微分すると

-\frac{\mu}{d\mu}\frac{(-x+\mu)}{\sigma^2}=-\frac{1}{\sigma^2}

これの負の期待値をとるとデータ1個分のフィッシャー情報量となるので

I_1(\hat\mu)-E[-\frac{1}{\sigma^2}]=\frac{1}{\sigma^2}

よって先ほどのワルド検定の式で考えると

\sqrt\frac{n}{\sigma}(\bar X-\mu_0)\sim N(0,1)

となります。

これを二乗して棄却域を考えると、正規分布の二乗はχ二乗分布になることから

\frac{n}{\sigma^2}(\bar X-\mu_0)^2\gt\chi_{1,\alpha}^2

となり、尤度比検定とも一致することが分かりました。

正規分布の二乗がχ二乗分布になることについてはこちらに一度まとめてます。

スコア検定

概念の説明 

スコア検定では対数尤度関数の曲線の傾きに着目しています。スコア関数は対数尤度関数を微分したものでした。なので数値は対数尤度関数の傾きを意味します。

f:id:medibook:20200705071506j:plain

最尤推定値でのスコア関数は0となります。よってこれも0に近い方が確率が高くなるわけです。検定統計量として帰無仮説下でのスコア関数S(\theta_0)を考えるのがスコア検定です。

スコア関数の性質から期待値E[S(\theta_0)=0]であり、分散はnI_1(\theta_0)となるため、中心極限定理を用いるとn→∞のときに

\frac{S(\theta_0)}{\sqrt{nI_1(\theta_0)}}\sim N(0,1)

となります。

例題

さきほどの正規分布の例をまたみてみます。

フィッシャー情報量はすでに求めたので、スコア関数を求めます。とはいえ、和がつくだけなので先ほどの計算とほぼ一緒で

S(\mu)=\frac{\mu}{d\mu}\sum_{i=1}^{n}logf(x_i)\\=-\sum_{i=1}^{n}\frac{(-x_i+\mu)}{\sigma^2}\\=\frac{(n\mu+n\bar X)}{\sigma^2}

となります。1個のフィッシャー情報量は

\frac{1}{\sigma^2}

でした。

よって求める検定統計量は

\frac{(n\mu_0+\bar X)}{\sigma^2}・\sqrt\frac{\sigma^2}{n}\\=\sqrt\frac{n}{\sigma^2}(\mu_0-\bar X)\sim N(0,1)

となります。先ほどのワルド検定と±の符号が逆ですが、正規分布は原点を軸として左右対称なので特に問題はありません。二乗するとさきほどと同様にカイ二乗分布に従います。

データから得られた最尤推定値と帰無仮説の値を比較する、という点は全て同じです。図からイメージをつけておくと忘れにくいと思います。

参考文献: