今日は久々に統計の話です。今まで何度も本を読んだけれど、何回読んでも理解が届かない赤池情報量規準について、精一杯手の届く範囲で説明してみようと思います。
導出は統計検定1級の範囲外で、教本にも記載がないので、細かい導出はやりません。ただ、概念の理解は必要かと思われます。あと、検定関係なく興味深いので頑張って理解できる範囲で掘り下げてみます。
目次:
統計モデルの選択とは?
赤池情報量規準(Akaike Information Criterion; AIC)とは、ざっくり言えば統計モデルの選択に使われる便利な式です。
そもそも統計モデルを選択するとはどういうことか。多項式回帰をもとにして考えてみます。多項式回帰は説明変数の次数が色々な回帰式ですが、多分みていくと分かると思います。
例としてあるデータから得られた説明変数xと結果変数yの関係を回帰式で表そうとしている場合を考えてみます。εは誤差項(予測が的確でも偶然に誤差が出るので通常の回帰分析では加えます)とします。
\[
y=\beta_1 x_1+\epsilon
\]
という一次式で表した場合を図で示してみます。

ちなみにちゃんとしたデータに則ってないので回帰直線は適当です、すみません。
これをみるとある程度はデータを予測できていますが、十分ではないことが分かります。では、もう少し統計モデルを変えて、説明変数を増やしてxの二次式も加えてみましょう。
\[
y=\beta_1x_1+\beta_2x_2^2+\epsilon
\]
何となくデータを説明するには、いい感じになっている気がします。
では、さらにデータの予測を的確にするために、もっと説明変数を増やしてみましょう。3次式にしてみます。
\[
y=\beta_1x_1+\beta_2x_2^2+\beta_3x_3^3+\epsilon
\]
ほとんどデータの点が曲線に乗ってきており、「理想的な統計モデルができたぞー!」となります。
、、、いや、ちょっと待ってください。これはあくまで今回の調査で得られたデータに一致しているだけで今後出てくるようなデータに一致するような統計モデルでしょうか?
得られたデータを予測モデルの上に載せるだけであれば、(データ数-1)次曲線を使えば、確実にできます。ただそんなぐにゃぐにゃした曲線はとても今後出てくるデータの予測がうまくできるとは思えません。統計モデルを作る意味は今後出てくるデータの予測をすること、であるはずなのでこれでは役に立たないわけです。
そこで、「パラメータの次数は増やしすぎたらいかんのじゃないの?」と素朴に思うわけで、適度な調整が必要そうだな、というのが分かります。
赤池情報量規準とは?
そこで出てくるのが赤池情報量規準です。簡単に言えば、予測が適切にできるような、パラメータの次数を判断するための指標です。式としては
AIC=-2(最大対数尤度)+2(統計モデルの自由パラメータ数)
となり、このAICが最小となる統計モデルが最も良いと判断されます。
最大対数尤度は上記例の流れのように、パラメータの次数を増やせば増やすほど上がっていきます。それに対してパラメータ数も増やせば増やすほど、上がってしまいます。
つまり、パラメータを増やすことで第1項は小さくなるのでAIC最小に近づくのですが、ペナルティーとして第2項が上がっていくので、両者がうまくかみ合ったどこかのところでAICは最小となります。
これで無事、最も良い統計モデル選択ができたのでした。めでたしめでたし。
と、これで納得してAICを使っていく場合は全然良いのですが。
ここで「え、なんで自由パラメータ数なんて簡単なもの入れるだけで最良のモデルになるの?」と疑問をもつと修羅の道に入っていきます。
次の記事ではそこをカルバックライブラー情報量から、頑張って説明していきます。
ここ数日の間調べ続けたALCの概要が、手に取るように理解できました。
素晴らしい記事を執筆してくださり、ありがとうございます。
>マシマさん
大変恐縮です、ありがとうございます!今後もお役立ていただけますと幸いです。