カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略をわかりやすく④【統計検定1級対策】

今回でAICについては最後です。前回までの記事で、経験分布関数を用いて平均対数尤度を推定する話を書きました。ここからは推定した尤度と平均対数尤度の差を考えていきます。

前回までの記事はこちら

カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略③【統計検定1級対策】 – 脳内ライブラリアン

カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略②【統計検定1級対策】 – 脳内ライブラリアン

カルバックライブラー情報量〜赤池情報量規準(AIC)までの概略①【統計検定1級対策】 – 脳内ライブラリアン

目次：

ここまでの流れの確認
平均対数尤度と推定された尤度（＝対数尤度）の差
バイアスを近似する

ここまでの流れの確認

まず2番目の記事までの流れはこうでした。

「真の確率分布と統計モデルが最も近くなる」

⇔「カルバックライブラー情報量が最小になる」

⇔「平均対数尤度を最大にする」

3番目の記事では

「平均対数尤度を推定したい」

→「経験分布関数を使って推定する」

ということをやりました。

そこで今回の記事では

「経験分布関数で推定した尤度を使って、平均対数尤度を最大にする統計モデルを探す」

ということが目的になります。

平均対数尤度と推定された尤度（＝対数尤度）の差

前回の最後に書きましたが、経験分布関数から推定された尤度は、実は一般的な対数尤度×1/nとなります。

\[ \frac{1}{n}\sum_{i=1}^{n}\log p(x_i | \hat{\theta}) \]

n倍して考えると「対数尤度は n × 平均対数尤度の推定量」と言えるので、以降はこれを考えます。

対数尤度はデータから得られた最尤推定値で最大値をとります。一方、n × 平均対数尤度は真のパラメータで最大値をとります。

よって、差を図で表すとこうなります。

このうち、データから算出することができるのは、最尤推定によるパラメータの数値 \( \hat{\theta} \) のみです。これは統計モデルの作り方とデータに依存して変化します。

モデルを色々変えてみて、対数尤度の最尤推定値において、平均対数尤度が最大になりそうな値＝差がより小さい値を探していくことになります。

で、問題となるこの差は対数尤度を \( L(\theta) \) とすると、真の確率分布 \( Q \) を用いた平均対数尤度を使って

\[ 差 = L(\hat{\theta}) – nE_Q[\log(p(x_i | \hat{\theta}))] = L(\hat{\theta}) – nE_Q[L(\hat{\theta})] \]

となります。

データによってばらつきが出るので、さらにこの期待値をとると

\[ \text{bias} = E[L(\hat{\theta}) – nE_Q[L(\hat{\theta})]] \]

となり、これをバイアスと呼びます。

バイアスを近似する

さっきの図に基づいて考えると

最大対数尤度 – バイアス = n × 平均対数尤度

の式が成り立つので、変形して

-n × 平均対数尤度 = – 最大対数尤度 + バイアス

となります。

改めて係数も揃えつつ、AICの式と並べてみると

\[ -2n \times \text{平均対数尤度} = -2 \text{最大対数尤度} + 2 \text{バイアス} \]

AIC = -2 (最大対数尤度) + 2 (統計モデルの自由パラメータ数)

かなり似てきましたね。つまり右辺を最小とすれば、平均対数尤度は最大になるので条件を満たしているわけです。この2つの式を比べると最大対数尤度の部分は同じなので、あとはバイアス項が統計モデルの自由パラメータ数で近似できることを示せばOKです。

ここからの細かい導出は下で紹介している『統計思考の世界』が分かりやすいのでご参照ください。

補足して無茶苦茶大まかな変形を書いておくと、平均対数尤度を \( L^*(\theta) \)、自由パラメータ数を \( k \) とすると

\[ E[L(\hat{\theta})] \approx L^*(\theta_0) + \frac{k}{2} \]

\[ E[nE_Q[L(\hat{\theta})]] \approx L^*(\theta_0) – \frac{k}{2} \]

であるので、上手いことバイアス = パラメータ数となります。

テーラー展開などを使うことで導出します。

あとここのブログも大変しっかりまとめて頂いています。今回の記事については参考にしました。

閃き – blog

というわけでざっとAIC導出の流れを書いてみましたが、すごい話ですね。真の確率分布なるものを、データから導出できないのにうまく推定していく、というのはちょっと現実での経験から真理を導き出すという点で、哲学的ですらあり、面白い方法です。良くこれを推定しようと思ったな、と赤池博士の天才ぶりに頭が下がるものですね。

参考文献：

最初の記事で紹介しています。

リンク