【統計検定1級対策】指数型分布族についてまとめてみる

最近臨床論文でも時々見かけるGEEについて学んでみようと思ったらGLMの勉強しなおしが必要で、さらに指数型分布族について学びが必要と思われたので、今回まとめてみました。

指数型分布族(exponential family)というのは以下の様な式形式でまとめられる確率分布たちを指します。

\( f(x; \theta) = h(x) \exp \left[ \eta(\theta)^T T(x) – A(\theta) \right] \)

h(x): 基底測度（base measure）
T(x): 十分統計量（sufficient statistic）
η(Θ): 自然パラメータ（natural parameter）
A(Θ): 正規化項もしくは対数分配関数（normalization factorもしくはlog-partition）

式の形や文字の表し方は他にも色々ありますが本質的には一緒です。

ここには二項分布、正規分布、ポアソン分布、ガンマ分布、指数分布など汎用性が高い分布が含まれており、さらに一般化線形モデル（GLM）ではこの指数型分布族が使われますので重要な概念となっています。

今までこの式で表すことの意味が十分に把握できていなかったのですが、一般化して構造をみることで分布の特徴をつかむことができるようになっています。

この式の基本的な構造と特徴をみていきます。なお、自然パラメータは複数取りうるので上記式ではベクトルの転置記号を入れていますが、以下ではパラメータ一つとして省きます。

十分統計量 T(x)

まずT(x)が十分統計量であることを確認していきます。

十分統計量は因子分解定理によって

\[f(x;\theta)=g(T(x), \theta)・h(x)\]

のように分解できれば示すことができます。

Θに依存する部分をT(x)のみを通じて説明できればＯＫというわけです。きわめて単純ですが

\[ f(x; \theta) = h(x) \exp \left[ \eta(\theta)^T T(x) – A(\theta) \right] \\=g(T(x), \theta)・h(x)\]

と確認でき、パラメータΘに依存する部分がT(x)で説明できますので、十分統計量となっていることが分かります。

正規化項A(Θ)とその微分

次に正規化項A(Θ)についてですが、確率分布であることから

\[ \int f(x) dx = 1 \]

ですので

\[ \int h(x) \exp \left[ \eta(\theta) T(x) – A(\theta) \right] dx = 1 \]

\[ \exp[A(\theta)] = \int h(x) \exp \left[ \eta(\theta) T(x) \right] dx \]

と書いてみると全範囲で積分したときにexp[A(Θ)]が正規化するための項として働いていることが分かります。

\[ A(\theta) = \log \int h(x) \exp \left[ \eta(\theta) T(x) \right] dx \]

上記のようにA(Θ)は実際はその対数をとったもの、ということになりますので対数分配関数(log-partition function)と言われています。

A(Θ)についての重要な性質としてΘで微分すると十分統計量T(x)の期待値が出る、というものがあります。

これは先ほどのA(Θ)の式を使って微分してみると分かります。

\[
\frac{\partial A(\theta)}{\partial \theta} = \frac{\partial}{\partial \theta} \log \int h(x) \exp[\eta(\theta)T(x)] \, dx
\]

\[
= \frac{\int h(x) T(x) \eta'(\theta) \exp[\eta(\theta)T(x)] \, dx}{\int h(x) \exp[\eta(\theta)T(x)] \, dx}
\]

\[
= \eta'(\theta) \frac{\int h(x) T(x) \exp[\eta(\theta)T(x)] \, dx}{\exp A(\theta)}
\]

\[
= \eta'(\theta) E[T(x)]
\]

expに入っている部分が外に出てきますので、簡単に期待値を出すことができるわけですね。モーメント母関数と似たような感じです。

なお今回は自然パラメータにη(Θ)としているため、単純に期待値にはならずηの微分が含まれていますが、η(Θ)=Θである正準形（canonical form）となるようにパラメータを設定すると微分したときに１になりますので、期待値と合致するようになります。

また、二回微分で分散が出るという特徴もあります。

\[
A”(\theta) = \frac{\partial}{\partial \theta} \left( \eta'(\theta) \int h(x) T(x) \exp[\eta(\theta)T(x) – A(\theta)] \, dx \right)
\]

\[
= \eta”(\theta) \int h(x) T(x) \exp[\eta(\theta)T(x) – A(\theta)] \, dx + \eta'(\theta) \int h(x) T(x) \left( \eta'(\theta) T(x) – A'(\theta) \right) \exp[\eta(\theta)T(x) – A(\theta)] \, dx
\]

\[
= \eta”(\theta) E[T(x)] + (\eta'(\theta))^2 \mathrm{Var}(T(x)) \quad (\text{ここで } A'(\theta) = \eta'(\theta) E[T(x)])
\]

これも正準形であればηの２回微分は０、１回微分は１となりますので、分散と合致することが分かります。

正準形については指数型分布族の期待値、分散が関数をきれいに区分するだけで簡単に分かるというのが良いところですが、さらにT(x)=xという単純な形のものはNatural exponential familyと呼ばれ、扱いやすくなっています。

例としては

正規分布（分散既知）
ポアソン分布
ガンマ分布（α既知）
二項分布（nが既知）
負の二項分布（τが既知）

などがWikipediaに挙げられています。なじみのある分布ばかりですね。

指数型分布族の例

ここからはいくつかの分布で指数型分布族の一般式に当てはめたときにどうなるのか、本当にA(Θ)が期待値や分散になるのか、具体例を確認してみます。

まず分散が既知の正規分布の場合をみてみます。

\[ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left[ -\frac{(x – \mu)^2}{2\sigma^2} \right] \]

\[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp \left[ -\frac{x^2}{2\sigma^2} + \frac{\mu x}{\sigma^2} – \frac{\mu^2}{2\sigma^2}\right] \]

\[ = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left[ \left( \frac{\mu}{\sigma^2} – \frac{1}{2\sigma^2} \right)x – \frac{x^2}{2\sigma^2} – \frac{\mu^2}{2\sigma^2} \right] \]

\[
= \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left[ \frac{\mu}{\sigma^2}x – \frac{1}{2\sigma^2}x^2 – \frac{\mu^2}{2\sigma^2} \right]
\]

\[
h(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-x^2 / 2\sigma^2}
\]

\[
T(x) = \frac{x}{\sigma}
\]

\[
A(\mu) = \frac{\mu^2}{2\sigma^2}
\]

\[
\eta(\mu) = \frac{\mu}{\sigma}.
\]

σ＝１のとき正準形となっていることが分かります。このとき、A（μ）の微分が期待値、２回微分が分散となることも同様に確認できます。

続いて二項分布です。

\[
f(x; p) = _nC_x \, p^x (1-p)^{n-x}
\]

\[
f(x) = _nC_x \, \exp \left[ x \log p + (n-x) \log(1-p) \right]
\]

\[
= _nC_x \, \exp \left[ \left( \log p – \log(1-p) \right)x + n \log(1-p) \right]
\]

\[
\eta(p) = \log \frac{p}{1-p} \quad (\text{logit})
\]

\[
T(x) = x
\]