Judea Pearlの入門統計学的因果推論を読んでみよう③

第3章の内容に入っていきたいと思います。

介入についてです。ここからが重要かつ複雑になってきます。

リンク

前回までの記事はこちら

Judea Pearlの入門統計学的因果推論を読んでみよう①

Judea Pearlの入門統計学的因果推論を読んでみよう②

目次：

介入と条件付けの違い
doオペレータを用いた修正後確率
平均因果効果と調整化公式

介入と条件付けの違い

さて、医学の臨床研究で知りたいことというのは多くの場合、ある介入を行うとどうなるかという点です。例えばある薬を飲むと、ある病気が治る確率が上がるのかどうか、ということでしょう。

それがわかるための最も確実な方法は質の良いランダム化比較試験ですが、費用や症例数の観点から難しい場合も多くみられます。そこで観察研究などが代わりとなれば良いわけですが、観察研究において薬を飲む飲まないを分けて評価した場合、さまざまなバイアスが入り込みます。

例えば、重症な人は薬を飲む確率が高いが、その分病気も治癒しにくいため、本当は有効であるが治る確率は低く見える。

DAGにするとこのような感じでしょうか。

そうした場合、重症度に応じて条件付けすることで疑似的に内服群・非内服群を同等とし、比較するという方法が考えられます。

ではこの時に、条件付けするべき因子はどういったものを選ぶべきなのでしょうか？そしてその因子で補正した効果が介入と同等と言える理論の背景は何なのでしょうか？

それを求めていくのが第3章の内容となります。

まず最初は

・観察研究において「薬を飲む人に限って条件付けした場合」

・ランダム化比較試験において「薬を飲む人と飲まない人を振り分けた場合」

ではそれぞれ疾患の治癒する確率が異なる、ということに着目します。

それぞれどう違うのか、どうすれば一致するのかを次に掘り下げていきます。

doオペレータを用いた修正後確率

ランダム化比較試験のような介入を行なった場合の確率と上記のような条件付けを行なった確率というのは基本的に異なります。

具体例として、先程のような病気の重症度、薬の内服(ありをX＝1、なしをX＝0)、病気の治癒（治った場合をY＝1、治らなかった場合をY＝0）の3つを取ったDAGで考えてみましょう。

この場合、観察研究における「薬を飲む人」というのは「より重症である」人たちになります。母集団が重症者にやや偏るわけです。

ところがランダム化比較試験のような強制的な介入を行う場合、疾患のある人たち全体が母集団となります。重症な人も軽症な人も全て一様に薬を内服するという介入をされるため、母集団は全ての人です。それぞれ母集団が異なるため治癒する確率も異なるものとなります。また、強制的な介入によってDAGも修正され、以下のような形となります。

この場合の確率はdoオペレータという表記を使って

$P(Y=y|do(X=x))$

と表され、通常の条件付き確率とは区別されます。

これに対して、ただ薬の内服の有無で条件付けされた場合に母集団となるのは実際に内服をした人たち、あるいはしなかった人たちとなります。例えば重症な人の方が内服しやすいのであれば、内服した人たちは重症者にやや偏った母集団なわけです。そのため先程の確率とは分布が異なると考えられます。

この場合の確率は単純に

$P(Y=y|X=x)$

と表されます。

平均因果効果と調整化公式

ここで我々が知りたいのは最初に述べたように介入の有無による効果の違いを知りたいわけです。これは平均因果効果(ACE: average causal effect)と呼ばれ、式としては

$P(Y=1|do(X=1))-P(Y=1|do(X=0))$

となります。

というわけでこのdoオペレータを使った式を求めていきたいわけですが、どうすれば良いのか。そこで登場するのが調整化公式です。

まず記号としてdoオペレータを使った式は上述のようにDAGそのものが変化してしまうわけでした。そこでそれを修正後確率として以下のように区別して用いることとします。

$P(Y=y|do(X=x))=P_m(Y=y|X=x)$

この時、実は

$P_m(Y=y|Z=z, X=x)=P(Y=y|Z=z,X=X)\\P_m(Z=z)=P(Z=z)$

となることがわかります。

これは以下の2つの状況を考えるとわかります。

①ZとXの両方で条件付けした場合の疾患の治癒率は変化しません。例えば、重症者かつ内服した場合に病気が治癒するかどうかということは強制的に内服させるかどうかとは関連しないことを考えればわかります。

②内服を強制的にしようが、自然に任せようが、疾患が重症となる確率は当然変化しません。ZはXの子ではないためdoオペレータだろうがどうだろうが、Zの確率自体は変化しません。

よってこれらを用いると

となり、doオペレータを使った確率と観察可能な条件付き確率を等式で結ぶことができました。（和の記号は全てのzの値について足し合わせています）

なお、式変形の途中でわかりづらい点がいくつかありますが、2-3行目の変形は、3変数の条件付き確率の場合

$\sum P(Y=y|X=x, Z=z)P(Z=z|X=x)=P(Y=y|X=x)$

となります。初項では両方の確率でXが条件付けされていないといけません。

また3-4行目の変形ではXとZが独立（前回紹介したd-分離）であることを用いています。条件付き確率では互いの変数が独立である場合

$P(Z=z|X=x)=P(Z=z), P(X=x|Z=z)=P(X=x)$

となります。

改めて先ほどの式の最初と最後を書き直しますと

$P(Y=y|do(X=x)=\sum P(Y=y|X=x, Z=z)P(Z=z)$

となります。この式は調整化公式と呼ばれています。ここからそれぞれのXの値についての確率を計算すれば先程のACEを求めることができるわけです。

なお、一般化して考える場合、今回のZのようにXの親となる変数について調整すれば良いので、Xの親をPAとして

$P(Y=y|do(X=x)=\sum P(Y=y|X=x, PA=z)P(PA=z)$

となります。

今回の例ではXの親について調整することで、観察データからdoオペレータを用いた修正後確率を計算することができましたが、Xの親が十分に観測できない場合も多数あると思われます。そこで実際どの変数について調整をすれば良いのか。それを求めるための基準がこれまた最近よく聞かれるバックドア基準となります。次回の記事で勉強していきます。