教科書を読みながらGLMについて勉強していきます。
前回はGLMの基本でしたが、今回からはついにグループ内で相関がある場合のGLMのモデルをみていきます。
今回の例ではパネルデータと呼ばれる同じ個体を何度か観測するような場合に使える手法をみていきます。
そこでみるのが固定効果モデルと混合効果モデルです。メタ解析等でもおなじみのモデルですが、パネルデータでのGLMにおいてどのように扱うかみてみます。
パネルデータにおけるGLM
1. 設定
記号 | 意味 |
---|---|
\(i = 1,\dots,n\) | 個体(グループ)インデックス |
\(t = 1,\dots,n_i\) | 各個体内の時点 |
\(x_{it}\in\mathbb{R}^p\) | 説明変数ベクトル |
\(\beta\in\mathbb{R}^p\) | 係数ベクトル |
\(\nu_i\) | 個体固有効果 |
モデル式を
\[
y_{it}=x_{it}^{\top}\beta+\nu_i
\]
とします。
このとき 固定効果モデル には
- 無条件固定効果モデル(unconditional fixed-effect model)
- 条件付き固定効果モデル(conditional fixed-effect model)
の2通りが存在しますので、順にみていきます。
2. 無条件固定効果モデル
2.1 スコア方程式
対数尤度 \(\ell\) の1次条件に基づくスコア方程式は前回のGLMの一般式を用いて(φはdispertion parameterとして追加してますが)
係数 \(\beta\) について:
\[
\frac{\partial\ell}{\partial\beta}
=\sum_{i=1}^{n}\sum_{t=1}^{n_i}
\frac{y_{it}-\mu_{it}}{\phi\,V(\mu_{it})}
\left(\frac{\partial\mu}{\partial\beta}\right)_{it}
=\mathbf{0}_p ,
\]
さらに個体の固定効果 \(\nu_i\) についてのスコア関数として
\[
\frac{\partial\ell}{\partial\nu_i}
=\sum_{t=1}^{n_i}
\frac{y_{it}-\mu_{it}}{\phi\,V(\mu_{it})}
\left(\frac{\partial\mu}{\partial\eta}\right)_{it}
=0_n \quad(i=1,\dots,n) .
\]
と書けます。これをそれぞれ解くことで係数と固定効果の両方の推定値が得られます。
前回と同じようにただ完全な尤度関数をとって計算しただけになります。
2.2 注意点
推定のための式をみてみますと以下の様な点が注意点として考えられます。
- \(\beta\) と \(\nu_i\) を同時に推定するため、共線性が生じやすい。説明変数に時間固定の変数があると固定効果\(\nu_i\)に吸収されてしまいうまく推定ができない。
- 各個体における観測時点\(j=1,…,n_i\)が少ないと固定効果\(\nu_i\)の推定がしにくく、βの推定誤差も大きくなってしまう。
3. 条件付き固定効果モデル
個体ごとの十分統計量を条件づけすることで \(\nu_i\) を消去する手法です。固定効果の推定はできませんがその分個体の観測時点が少なくても誤差が出にくいと言えます。
3.1 2項ロジスティック回帰の例
2項ロジスティック回帰の例でみてみます。
- 結果変数\(y_{it}\in{0,1}\)
- 固定効果を \(\gamma_i\) とおきます。
このとき平均は
\[
\mu_{it}
=\frac{\exp(\eta_{it}+\gamma_i)}{1+\exp(\eta_{it}+\gamma_i)} ,
\quad
\eta_{it}=x_{it}^{\top}\beta .
\]
となります。
(i) 個々の事象の確率
上記のロジットモデルに基づくと二項分布であるため
$$
P(Y_{it} = y_{it}) =\left( \frac{\exp(\eta_{it} + \gamma_i)}{1 + \exp(\eta_{it} + \gamma_i)} \right)^{y_{it}}\left( \frac{1}{1 + \exp(\eta_{it} + \gamma_i)} \right)^{1 – y_{it}}\\=\frac{\exp{y_{it}(\eta_{it}+\gamma_i)}}
{1+\exp(\eta_{it}+\gamma_i)}
$$
となります。
(ii) 個体 \(i\) の確率
ここで\(Y_i=(Y_{i1},\dots,Y_{in_i})\) とし、iにおけるtの総和を求めると
$$
P(Y_i = \mathbf{y}_i) = \\\prod_{t=1}^{n_i} P(Y_{it} = y_{it})
\\= \exp\left\{ \sum_{t=1}^{n_i} y_{it} \eta_{it} + \gamma_i \sum_{t=1}^{n_i} y_{it} – \sum_{t=1}^{n_i} \log(1 + \exp(\eta_{it} + \gamma_i)) \right\}
$$
となります。
このとき総和 \(S_i=\sum_{t}Y_{it}\) を十分統計量として条件づけると
\[ L_i(\beta \mid \sum_{t}y_{it}=s_i) = \frac{ \exp\{ \sum_{t}y_{it}\eta_{it} + \gamma_i s_i – \sum_{t}\log(1+\exp(\eta_{it}+\gamma_i) \} }{\sum_{\mathbf{y} \in \mathcal{Y}{s_i}}\{\exp\{ \sum_{t}y’_{it}\eta_{it} + \gamma_i s_i – \sum_{t}\log(1+\exp(\eta_{it}+\gamma_i)\}\}} \]
分母は「総和が \(s_i\) となる全ての組み合わせ」に対する総和とすると
\(\gamma_i\) を含む項が自然にキャンセルされるため \(\beta\) のみで推定 できます。
\[
L(\beta \mid y_{it} = si) = \prod_{i=1}^{n} \frac{\exp\left( \sum_{t=1}^{T} y_{it} \eta_{it} \right)}{\sum_{y_{it} \in y_{si}} \left[\exp\left( \sum_{t=1}^{T} y_{it} \eta_{it} \right) \right]}
\]
(上式の対数を取った対数尤度関数)
\[
\log L(\beta) = \sum_{i=1}^{n} \left[ \sum_{t=1}^{T} y_{it} \eta_{it} – \log \sum_{y_{it} \in y_{si}} \exp \left( \sum_{t=1}^{T} y_{it} \eta_{it} \right) \right]
\]
次にこれを微分して、
(パラメータ \(\beta\) に関する対数尤度の勾配)
\[
\frac{\partial \log L}{\partial \beta} = \sum_{i=1}^{n} \left[ \sum_{t=1}^{T} \frac{\partial y_{it}}{\partial \beta} \eta_{it} – \frac{\partial}{\partial \beta} \log \sum_{y_{it} \in y_{si}} \exp \left( \sum_{t=1}^{T} y_{it} \eta_{it} \right) \right]=0
\]
を解くことになります。
4. 混合効果(ランダム効果)モデル
(負の二項分布型の Poisson–Gamma モデル)
4.1 モデル式
- 平均 \(\mu_{it}=\exp(x_{it}^{\top}\beta)\)
- ランダム効果 \(nu_i\sim\textrm{Gamma}(\theta,\theta)\)
という例でみてみます。
パラメータの
Poisson-Gamma 混合として
\[
P(Y_{it}=y_{it}\mid nu_i)
=\frac{(\mu_{it}\nu_i)^{y_{it}}}{y_{it}!}\,
e^{-\mu_{it}\nu_i},
\quad
i=1,\dots,n,\;t=1,\dots,n_i .
\]
4.2 周辺尤度をとる(\(\nu_i\) を積分消去)
同時確率関数の式は
\[
f(\nu_i,\mu_{i1},\dots,\mu_{in_i})
=\frac{\theta^{\theta}}{\Gamma(\theta)}
\nu_i^{\theta-1}e^{-\theta v_i}
\prod_{t=1}^{n_i}
\frac{\mu_{it}^{y_{it}}}{y_{it}!}\,
e^{-\mu_{it}\nu_i}.
\]
ここから\(\nu_i\) を積分すると
\[
\begin{aligned}
L_i(\beta;\theta)
&=\frac{\theta^{\theta}}{\Gamma(\theta)}
\prod_{t=1}^{n_i}\frac{\mu_{it}^{y_{it}}}{y_{it}!}
\int_{0}^{\infty}
\nu_i^{\theta+\sum_t y_{it}-1}
e^{-v_i(\theta+\sum_t\mu_{it})}\,d\nu_i \
&\\=\frac{\theta^{\theta}}{\Gamma(\theta)}
\prod_{t=1}^{n_i}\frac{\mu_{it}^{y_{it}}}{y_{it}!}
\frac{\Gamma\left(\theta+\sum_t y_{it}\right)}
{\left(\theta+\sum_t\mu_{it}\right)^{\theta+\sum_t y_{it}}}.
\end{aligned}
\]
4.3 個体別ログ尤度
\[
\log L_i(\beta,\theta)
\\=\log\Gamma\left(\theta+\sum_t y_{it}\right)
-\log\Gamma(\theta)
-\sum_t\log(y_{it}+1)
+\theta\log\theta
+\sum_t y_{it}\log\mu_{it}
-\left(\theta+\sum_t y_{it}\right)
\log\left(\theta+\sum_t\mu_{it}\right).
\]
\(\beta,\theta\) は各個体のログ尤度を和して最大化する。
まとめ
- 無条件固定効果:\(\beta\) と \(\nu_i\) を同時に推定するため、データに十分な時系列幅が必要。
- 条件付き固定効果:十分統計量を条件に取ることで \(\nu_i\) を排除し、\(\beta\) を効率的に推定可能。
- 混合効果モデル:個体差を確率分布とみなし、周辺尤度を用いて推定。過分散がある場合に有効。
コメントを残す