本日は仮説検定の中で、用いられる尤度比検定、wald検定、score検定についてまとめてみます。対数尤度関数、最尤推定量やスコア関数のそれぞれについては分かるけれど、この検定の意味がわかりづらい、、という人向けに書きます。
目次:
統計学をどんどん自分で学んで深めたい、という方へのおすすめ書籍をこちらのページの下部にまとめております。初心者向けのものから応用まで幅広く読んでいますので参考にどうぞ。
尤度比検定/ワルド検定/スコア検定の意味
以前の記事で仮説検定とp値について書きました。
このような問題だと、パラメータμを求めるために検定統計量が使われることは非常に分かりやすいのですが、場合によっては検定統計量を何にすればいいのか(=あるパラメータθを検定する際にどの値を使えば知っている確率分布「正規分布」「カイ二乗分布」に落とし込めるか)が分からないときがあります。
そんなときに役立つのが尤度比/ワルド/スコア検定の方法です。
最大対数尤度と対数尤度関数
この概念をつかむためによく使われるのが対数尤度関数のグラフです。
あるパラメータθに対して対数尤度をとります。すると、θが最尤推定量をとるとき(logL'(θ)=0)に対数尤度は最大となるため下図のようなグラフが出来上がります。

横軸にパラメータ \( \theta \) の値、縦軸は対数尤度ですね。これを用いて
帰無仮説 \( H_0:\theta=\theta_0 \)
対立仮説 \( H_1:\theta\neq\theta_0 \)
となるような仮説検定の意味をそれぞれの検定について考えていきます。
(2024.03.24 コメント欄でご指摘いただき、検定する仮説について追記しました)
尤度比検定
概念の説明
まず、尤度比検定では帰無仮説下での対数尤度と最大対数尤度の差を使っています。これは図で表すとここの部分になります。

つまり式としては \( \log L(\hat{\theta}) – \log L(\theta_0) \) になります。これを変形したものを検定統計量とするのが尤度比検定です。
差が0に近ければ近いほど \( \theta = \theta_0 \) となる確率は高いわけで、帰無仮説が支持され、逆に0から離れるなら対立仮説が支持されます。
そこで大事なのはこの二つの差がどのような確率分布になるかということです。証明は結構大変なので省きますが(ここでもテーラー展開が出てくる)この二つの差は以下のような形でカイ二乗分布に従います。
\[ 2 \{ \log L(\hat{\theta}) – \log L(\theta_0) \} \sim \chi^2_1 \]
そのため棄却域は \( \alpha \) を有意水準とすると
\[ 2 \{ \log L(\hat{\theta}) – \log L(\theta_0) \} > \chi^2_{1,\alpha} \]
となります。
例題
例題として下記を考えてみます。
\[ X_1, X_2, \dots, X_n \sim N(\mu, \sigma^2) \]
とする。帰無仮説と対立仮説をそれぞれ
\[ H_0: \mu = \mu_0, \quad H_1: \mu \neq \mu_0 \]
とする。このときの尤度比検定の棄却域を求めよ。
これを解いてみましょう。
まず対数尤度関数を考えると
\[ \log L(\mu,x) = -\frac{n}{2} \log 2\pi\sigma^2 – \sum_{i=1}^{n} \frac{(x_i-\mu)^2}{2\sigma^2} \]
となります。
次に尤度比検定の考え方に従って、\( \log L(\hat{\mu}) – \log L(\mu_0) \) を考えてみましょう。\( \hat{\mu} = \bar{X} \) となるので
\[ \log L(\hat{\mu}) – \log L(\mu_0) = -\sum_{i=1}^{n} \frac{(x_i-\hat{\mu})^2}{2\sigma^2} + \sum_{i=1}^{n} \frac{(x_i-\mu_0)^2}{2\sigma^2} \]
\[ = -\frac{1}{2\sigma^2} \left( \sum_{i=1}^{n} (x_i-\bar{X})^2 – \sum_{i=1}^{n} (x_i-\mu_0)^2 \right) \]
\[ = -\frac{1}{2\sigma^2} \left( -2\bar{X}\sum_{i=1}^{n} x_i + n\bar{X}^2 + 2\mu_0\sum_{i=1}^{n} x_i – n\mu_0^2 \right) \]
ここで \( \sum_{i=1}^{n} x_i = n\bar{X} \) なので
\[ = -\frac{1}{2\sigma^2} \left( -n\bar{X}^2 + 2n\mu_0\bar{X} – n\mu_0^2 \right) = \frac{n}{2\sigma^2} (\bar{X} – \mu_0)^2 \]
となります。
よって上述のようにこれを二倍すると \( \chi^2 \) 分布に従うので
\[ \frac{n}{\sigma^2} (\bar{X} – \mu_0)^2 > \chi^2_{1,\alpha} \]
が棄却域となります。
(2023.05.12追記:コメントにて指摘いただき、式に誤りがありましたので修正しました。)
ワルド検定
概念の説明
ワルド検定では帰無仮説下において、グラフの横軸であるパラメータ \( \hat{\theta} \) と \( \theta_0 \) の差をもとにして考えます。

この二つの差は \( \hat{\theta} – \theta_0 \) という式で表されます。これを変形したものを検定統計量とするのがワルド検定です。
先ほどと同様に差が0に近ければ帰無仮説が支持されます。
ワルド検定で用いられるのは最尤推定量としての性質です。最尤推定量には漸近有効性という性質があり、フィッシャー情報量を用いると、\( n \to \infty \) のときパラメータ \( \theta \) に対して以下の性質を持ちます。
\[ \sqrt{nI_1(\hat{\theta})} (\hat{\theta} – \theta) \sim N(0,1) \]
帰無仮説のもとでは
\[ \sqrt{nI_1(\hat{\theta})} (\hat{\theta} – \theta_0) \sim N(0,1) \]
となるためこれを利用して棄却域を求めます。
フィッシャー情報量については過去の記事でもまとめています。
例題
さきほどと同じ正規分布について考えてみます。最尤推定量は \( \bar{X} \) なので、フィッシャー情報量を求めます。
対数をとった確率密度関数をパラメータで2回微分して負の期待値をとる方法が簡単なので行ってみます。まず1回微分すると
\[ \frac{d}{d\mu} \left\{ -\frac{1}{2} \log 2\pi\sigma – \frac{(x-\mu)^2}{2\sigma^2} \right\} = -\frac{(x-\mu)}{\sigma^2} \]
もう1回微分すると
\[ \frac{d}{d\mu} \left( -\frac{(x-\mu)}{\sigma^2} \right) = -\frac{1}{\sigma^2} \]
これの負の期待値をとるとデータ1個分のフィッシャー情報量となるので
\[ I_1(\hat\mu) = E \left[ -\frac{1}{\sigma^2} \right] = \frac{1}{\sigma^2} \]
よって先ほどのワルド検定の式で考えると
\[ \sqrt{\frac{n}{\sigma}} (\bar{X} – \mu_0) \sim N(0,1) \]
となります。
これを二乗して棄却域を考えると、正規分布の二乗はχ二乗分布になることから
\[ \frac{n}{\sigma^2} (\bar{X} – \mu_0)^2 > \chi^2_{1,\alpha} \]
となり、尤度比検定とも一致することが分かりました。
正規分布の二乗がχ二乗分布になることについてはこちらに一度まとめてます。
スコア検定
概念の説明
スコア検定では対数尤度関数の曲線の傾きに着目しています。スコア関数は対数尤度関数を微分したものでした。なので数値は対数尤度関数の傾きを意味します。

最尤推定値でのスコア関数は0となります。よってこれも0に近い方が確率が高くなるわけです。検定統計量として帰無仮説下でのスコア関数 \( S(\theta_0) \) を考えるのがスコア検定です。
スコア関数の性質から期待値 \( E[S(\theta_0)] = 0 \) であり、分散は \( nI_1(\theta_0) \) となるため、中心極限定理を用いると \( n \to \infty \) のときに
\[ \frac{S(\theta_0)}{\sqrt{nI_1(\theta_0)}} \sim N(0,1) \]
となります。
例題
さきほどの正規分布の例をまたみてみます。
フィッシャー情報量はすでに求めたので、スコア関数を求めます。とはいえ、和がつくだけなので先ほどの計算とほぼ一緒で
\[ S(\mu) = \frac{d}{d\mu} \sum_{i=1}^{n} \log f(x_i) = -\sum_{i=1}^{n} \frac{(-x_i+\mu)}{\sigma^2} = \frac{(n\mu+n\bar{X})}{\sigma^2} \]
となります。1個のフィッシャー情報量は
\[ \frac{1}{\sigma^2} \]
でした。
よって求める検定統計量は
\[ \frac{(n\mu_0+\bar{X})}{\sigma^2} \cdot \sqrt{\frac{\sigma^2}{n}} = \sqrt{\frac{n}{\sigma^2}} (\mu_0 – \bar{X}) \sim N(0,1) \]
となります。先ほどのワルド検定と±の符号が逆ですが、正規分布は原点を軸として左右対称なので特に問題はありません。二乗するとさきほどと同様にカイ二乗分布に従います。
データから得られた最尤推定値と帰無仮説の値を比較する、という点は全て同じです。図からイメージをつけておくと忘れにくいと思います。
参考文献:
大変わかりやすくて感動しました。
ありがとうございます。
(しかしながら尤度比の計算カッコ抜けてませんか?)
すみません、もう一つ。
尤度比とワルド検定各々の最後の式にマイナスがついていたりなかったり、がよく解りません。
解説頂ければ恐悦です_(._.)_
鴨川山椒さん>
コメント有難うございます。尤度比検定の式が途中計算で誤っていました。ブログの移行時に式を写し間違えたのではないかと思っています。長らくそのままになっていたようで誠に申し訳ありませんでした。ご指摘いただき大変助かりました。
()についても抜け落ちていましたので修正いたしました。
尤度比検定の概念の説明の部分で、
2{logL(θ_hat) – log(θ_0)} 〜 Χ^2_1
とありますが、
右辺の下付き添え字の1は、自由度1のカイ二乗分布に従うという意味だと思うのですが(もし、そうでないなら、添え字の説明が必要だと思います)、これは正しくないと思います。
ウィルクスの定理より、帰無仮説と対立仮説がどのように設定されているかによって、尤度比検定がどのようなカイ二乗分布に従うかは変わってきます。
このページの記載方法だと、尤度比検定が常に自由度1のカイ二乗分布に従うように記載されていて、誤解を生むと思います。
フリーランスデータサイエンティストさん>
ご指摘有難うございます。記載いただいた式の右辺は推察されている通り自由度1のカイ二乗分布です。
仮説の条件の記載が不十分でしたので、帰無仮説、対立仮説を1次元のパラメータとして追記させていただきました。
誤解を生む表現がそのままとなっており、申し訳ありませんでした。ご指摘いただき有難うございます。