引き続いて赤池情報量規準への道のりを進めていきます。続いてAICの意義は前回説明したので、カルバックライブラー情報量の説明をしながら、なぜAICの式が成り立つのかについて、迫ります。
前回の記事はこちら
カルバックライブラー情報量〜赤池情報量規準(AIC)までの概略をわかりやすく①【統計検定1級対策】 – 脳内ライブラリアン
目次:
カルバック-ライブラー情報量とは?
まず前提知識としてカルバック-ライブラー情報量について知っておかないといけません。K-L divergenceとか色々おしゃれな言い方もある指標です。
カルバック-ライブラー情報量とはある2つの確率分布がどれくらい似ているのかをみるための指標です。
例として2つの確率分布 ( p(x) ), ( q(x) ) を考えてみます。赤池情報量規準への流れを踏まえるなら、( p(x) ) を統計モデル、( q(x) ) を神のみぞ知る真の確率分布として考えてみましょう。
つまり、人間が想定した統計モデルと求めたい真の確率分布がどれくらい似ているかをみるわけです。
式としては求めたい情報量を ( K-L ) として
\[
K-L(q(x);p(x)) = \int q(x) \log \frac{q(x)}{p(x)}dx = E\left[ \log \frac{q(x)}{p(x)} \right]
\]
となります。この数値は何を意味しているかといえば、2つの分布の差の対数をとって、期待値をとっています。分布の差は図でいくとここです。

とった差を、真の確率分布である ( q(x) ) で重みをつけて表現しています。( q(x) ) が低いところは起こりにくい事象なので、そこで起きるような差は軽視しつつ、( q(x) ) が高いところはよく起こる事象であり、そこの差を重視する、というのは理にかなっている気がします。
ちなみにこのカルバック-ライブラー情報量は二つの分布が一致すると 0 になります。先ほどの式より
\[
K-L(q(x);p(x)) = E\left[ \log \frac{q(x)}{p(x)} \right] = E[\log 1] = 0
\]
ですね。
真の確率分布に近づくためには?
さて、ここで
「カルバック-ライブラー情報量が最小になるような統計モデル=真の確率分布に近い」
ということになるので、それを求めていきたいわけです。先ほどの式を再度変形すると
\[
K-L(q(x);p(x)) = E\left[ \log \frac{q(x)}{p(x)} \right] = E[\log(q(x))] – E[\log(p(x))]
\]
となりますが、このうち第1項は真の確率分布の対数を、真の確率分布で期待値をとったものなので、動きようがありません。決まってしまっている数値です。
これに対して第2項は統計モデルに依存して変動します。つまり、これを最大にすることができれば、カルバック-ライブラー情報量は最小へと近づくので、最も良い統計モデルが得られることになります。この第2項は対数尤度の平均をとっているため、平均対数尤度(あるいは期待対数尤度)と呼ばれます。
というわけで
「真の確率分布と統計モデルが最も近くなる」
⇔「カルバックライブラー情報量が最小になる」
⇔「平均対数尤度を最大にする」
と目的が少しずつ同値変形されてきました。
で、「平均対数尤度を最大にする」ための統計モデルとは、どうやって求めるのか。次回に続きます。
参考文献:
情報量規準の話から多項回帰の話まで幅広く載っています。カバー範囲が広いです。重回帰分析の記事でも使いました。
AICの導出に関して、式変形まで含めて載っています。言葉や概念図も使用しつつ統計の思考を説明しており、よくある統計学本より概念が理解しやすいので、とても好きです。数式と文章だけで理解するのはどうも苦手、、、という自分のような方にはお勧めです。
コメントを残す