今回でAICについては最後です。前回までの記事で、経験分布関数を用いて平均対数尤度を推定する話を書きました。ここからは推定した尤度と平均対数尤度の差を考えていきます。
前回までの記事はこちら
カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略③【統計検定1級対策】 – 脳内ライブラリアン
カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略②【統計検定1級対策】 – 脳内ライブラリアン
カルバックライブラー情報量〜赤池情報量規準(AIC)までの概略①【統計検定1級対策】 – 脳内ライブラリアン
目次:
ここまでの流れの確認
まず2番目の記事までの流れはこうでした。
「真の確率分布と統計モデルが最も近くなる」
⇔「カルバックライブラー情報量が最小になる」
⇔「平均対数尤度を最大にする」
3番目の記事では
「平均対数尤度を推定したい」
→「経験分布関数を使って推定する」
ということをやりました。
そこで今回の記事では
「経験分布関数で推定した尤度を使って、平均対数尤度を最大にする統計モデルを探す」
ということが目的になります。
平均対数尤度と推定された尤度(=対数尤度)の差
前回の最後に書きましたが、経験分布関数から推定された尤度は、実は一般的な対数尤度×1/nとなります。
n倍して考えると「対数尤度はn×平均対数尤度の推定量」と言えるので、以降はこれを考えます。
対数尤度はデータから得られた最尤推定値で最大値をとります。一方、n×平均対数尤度は真のパラメータで最大値をとります。
よって、差を図で表すとこうなります。
このうち、データから算出することができるのは、最尤推定によるパラメータの数値のみです。これは統計モデルの作り方とデータに依存して変化します。
モデルを色々変えてみて、対数尤度の最尤推定値において、平均対数尤度が最大になりそうな値=差がより小さい値を探していくことになります。
で、問題となるこの差は対数尤度をとすると、真の確率分布Qを用いた平均対数尤度を使って
\(差=L(\hat\theta)-nE_Q[log(p(x_i|\hat\theta))]=L(\hat\theta)-nE_Q[L(\hat\theta)]\)
となります。
データによってばらつきが出るので、さらにこの期待値をとると
となり、これをバイアスと呼びます。
バイアスを近似する
さっきの図に基づいて考えると
最大対数尤度-バイアス=n×平均対数尤度
の式が成り立つので、変形して
-n×平均対数尤度=ー最大対数尤度+バイアス
となります。
改めて係数も揃えつつ、AICの式と並べてみると
-2n×平均対数尤度=ー2最大対数尤度+2バイアス
AIC=-2(最大対数尤度)+2(統計モデルの自由パラメータ数)
かなり似てきましたね。つまり右辺を最小とすれば、平均対数尤度は最大になるので条件を満たしているわけです。 この2つの式を比べると最大対数尤度の部分は同じなので、あとはバイアス項が統計モデルの自由パラメータ数で近似できることを示せばOKです。
ここからの細かい導出は下で紹介しています『統計思考の世界』 が分かりやすいのでご参照ください。
補足して無茶苦茶大まかな変形を書いておくと、平均対数尤度をL*(θ)、自由パラメータ数をkとすると
であるので、上手いことバイアス=パラメータ数となります。
テーラー展開などを使うことで導出します。
あとここのブログも大変しっかりまとめて頂いています。今回の記事については参考にしました。
というわけでざっとAIC導出の流れを書いてみましたが、すごい話ですね。真の確率分布なるものを、データから導出できないのにうまく推定していく、というのはちょっと現実での経験から真理を導き出すという点で、哲学的ですらあり、面白い方法です。良くこれを推定しようと思ったな、と赤池博士の天才ぶりに頭が下がるものですね。
参考文献:
最初の記事で紹介してます
コメントを残す