カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略をわかりやすく④【統計検定1級対策】

今回でAICについては最後です。前回までの記事で、経験分布関数を用いて平均対数尤度を推定する話を書きました。ここからは推定した尤度と平均対数尤度の差を考えていきます。

前回までの記事はこちら

カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略③【統計検定1級対策】 – 脳内ライブラリアン

カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略②【統計検定1級対策】 – 脳内ライブラリアン

カルバックライブラー情報量〜赤池情報量規準(AIC)までの概略①【統計検定1級対策】 – 脳内ライブラリアン

目次:

ここまでの流れの確認

まず2番目の記事までの流れはこうでした。

「真の確率分布と統計モデルが最も近くなる」

⇔「カルバックライブラー情報量が最小になる」

⇔「平均対数尤度を最大にする」

3番目の記事では

「平均対数尤度を推定したい」

→「経験分布関数を使って推定する」

ということをやりました。

そこで今回の記事では

「経験分布関数で推定した尤度を使って、平均対数尤度を最大にする統計モデルを探す」

ということが目的になります。

平均対数尤度と推定された尤度(=対数尤度)の差

前回の最後に書きましたが、経験分布関数から推定された尤度は、実は一般的な対数尤度×1/nとなります。

\frac{1}{n}\sum_{i=1}^{n}logp(x_i|\hat\theta)

n倍して考えると「対数尤度はn×平均対数尤度の推定量」と言えるので、以降はこれを考えます。

対数尤度はデータから得られた最尤推定値で最大値をとります。一方、n×平均対数尤度は真のパラメータで最大値をとります。

よって、差を図で表すとこうなります。 

f:id:medibook:20200814053540j:plain

このうち、データから算出することができるのは、最尤推定によるパラメータの数値\hat\thetaのみです。これは統計モデルの作り方とデータに依存して変化します。

モデルを色々変えてみて、対数尤度の最尤推定値において、平均対数尤度が最大になりそうな値=差がより小さい値を探していくことになります。

 で、問題となるこの差は対数尤度をL(\theta)とすると、真の確率分布Qを用いた平均対数尤度を使って

\(差=L(\hat\theta)-nE_Q[log(p(x_i|\hat\theta))]=L(\hat\theta)-nE_Q[L(\hat\theta)]\)

となります。

データによってばらつきが出るので、さらにこの期待値をとると

bias=E[L(\hat\theta)-nE_Q[L(\hat\theta)]]

となり、これをバイアスと呼びます。

バイアスを近似する

さっきの図に基づいて考えると

最大対数尤度-バイアス=n×平均対数尤度

の式が成り立つので、変形して

-n×平均対数尤度=ー最大対数尤度+バイアス

となります。

改めて係数も揃えつつ、AICの式と並べてみると

-2n×平均対数尤度=ー2最大対数尤度+2バイアス 

AIC=-2(最大対数尤度)+2(統計モデルの自由パラメータ数)

かなり似てきましたね。つまり右辺を最小とすれば、平均対数尤度は最大になるので条件を満たしているわけです。 この2つの式を比べると最大対数尤度の部分は同じなので、あとはバイアス項が統計モデルの自由パラメータ数で近似できることを示せばOKです。

ここからの細かい導出は下で紹介しています『統計思考の世界』 が分かりやすいのでご参照ください。

補足して無茶苦茶大まかな変形を書いておくと、平均対数尤度をL*(θ)、自由パラメータ数をkとすると

E[L(\hat\theta)]\approx L*(\theta_0)+\frac{k}{2}
E[nE_Q[L(\hat\theta)]]\approx L*(\theta_0)-\frac{k}{2}

であるので、上手いことバイアス=パラメータ数となります。

テーラー展開などを使うことで導出します。

あとここのブログも大変しっかりまとめて頂いています。今回の記事については参考にしました。

閃き- blog

というわけでざっとAIC導出の流れを書いてみましたが、すごい話ですね。真の確率分布なるものを、データから導出できないのにうまく推定していく、というのはちょっと現実での経験から真理を導き出すという点で、哲学的ですらあり、面白い方法です。良くこれを推定しようと思ったな、と赤池博士の天才ぶりに頭が下がるものですね。

参考文献:

最初の記事で紹介してます

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)