実臨床に役立てるメタアナリシスの読み方② -Background編〜Methods編前半

今回の記事ではBackgroundから順番に進めつつ、メタアナリシスの読み方を考えていきたいと思います。

前回の記事はこちら

実臨床に役立てるメタアナリシスの読み方① システマティックレビューとメタアナリシスの違い

メタアナリシスの読み方のまとめページはこちら

実臨床に役立てるメタアナリシスの読み方まとめ

今回は「その臨床的疑問には本当に意義があるかどうか」「各研究は統合可能なものか」という点に着目して、Background~Methodsの前半を中心にどう読むと良いか考えていきます。

目次：

その臨床的疑問は本当に意義があるか
各研究は統合可能なものか
まとめ

その臨床的疑問は本当に意義があるか

まず、Backgroundでは

「その文献が問うている臨床的疑問は何か、本当に重要なものなのか」

という点に着目します。これは「臨床への適用」に関して重要な話題です。

ご存知の方も多いかと思いますが、臨床的疑問を定式化する方法として「PICO(PECO)に沿って整理する」というやり方があります。

PICOとは

P (Patient, 被験者)

I (Intervention, 介入)

C (Control, 対照)

O (Outcome, 結果)

の略を指します。研究の方法によってはIがE (Exposure, 暴露)に変わり、PECOが用いられる場合もあります。

Backgroundにおいて、その疾患や治療・診断の重要性、また治療の機序などが論じられますが、大抵の場合終盤に対象としている臨床的疑問が書かれます。まずはそれをPICOに沿って整理してみましょう。

重要なのはそこで問いにしている臨床的疑問が「本当に役に立つ疑問かどうか」です。システマティックレビュー＆メタアナリシスの場合、幅広く文献を集めることになるため、臨床的疑問の対象を「どこまでの範囲にするか」といった点に着目する必要があります。

例えば、「全てのがん患者に対して(P)、全ての抗がん剤投与群(I)とプラセボ群(C)を比較した時、5年生存率(O)はどう変わるか」という臨床的疑問はどうでしょうか。

明らかに範囲が広すぎますね、、、。そもそも実際に治療をするのはある程度診断されて、種類の定まったがんです。抗がん剤もそのがんの種類に合わせて使うものであり、どれかを適当に使うわけではありません。そうなるとこの臨床的疑問は実際には役に立たない疑問と言えます。

では次の例はどうでしょうか。

「発症1週間以内の脳梗塞の患者で(P)、抗血小板剤投与群(I)とプラセボ群(C)を比較した時、1ヶ月後のADLはどう変わるか」

これならある程度絞られた患者層となっており、実臨床に沿った内容になっています。脳梗塞は通常発症早期に来院することが多いため、「発症1週間以内」という点も現実的ですし、症状が安定してくるのが1か月ほどであるため、「1か月後のADL」というアウトカムも臨床的には有用であると感じられます。

これらのように設定されている臨床的疑問の範囲が、実際の現場に役に立つものかどうかをまう確認することが必要です。

なお実際、メタアナリシスは前回の記事でも述べたように事後的な解析であるため、アウトカムが複数用意されていることは多くあります。

その場合は、それぞれのアウトカムに対して実際の現場で役に立つ臨床的疑問に沿うものかどうかを吟味しながら見ていく必要があります。

各研究は統合可能なものか

続いてMethodsで書かれる内容に進んでいきます。まずは統合する研究の基準となるinclusion/exclusion criteria, intervention, control, outcomeをチェックします。

この部分は「批判的吟味」と「臨床への適用」の二つの観点で読むことができます。今回の記事では「批判的吟味」の観点から見ていきます。読むときに注目すべき点は「各研究が統合できるような同質なものかどうか」です。

そもそも「なぜ各研究は同質でないといけないのか」を考えてみます。

リンゴとオレンジを比べられるか

同質でない研究を統合してはいけない理由として、よく「リンゴ」と「オレンジ」を一緒にして比べられるか、という例えが出てきます。

リンゴ同士であれば「色合い」「味」「大きさ」「重さ」などそれぞれを比べることは可能ですし、その順番に並べたり、数値の比較・要約も可能です。

ですが、リンゴとオレンジを混ぜ合わせてみたらどうでしょうか。

図：リンゴとオレンジを混ぜ合わせた数値の要約

どれが一番大きくて、二番目に大きいのはどれか、なんていうことは比べてもしょうがないですし、すべての重さの平均や大きさの中央値がどうか、ということも意味を感じません。

ですが、困ったことに種類が違う＝異質なものでも統合した数値を出すことはできます。なので、それらしい数値が出てくるわけですが、リンゴとオレンジが混ざった平均値を出されても役には立たないわけです。

研究の話に戻ってみます。例えば、ある研究における「脳梗塞の1週間以内の再発率」と別の研究における「脳梗塞の1か月以内の再発率」を混ぜて数値を出してはいけません。また、「脳卒中（脳出血＋くも膜下出血＋脳梗塞）の再発率」と「脳梗塞の再発率」も一緒にしてはいけません。当然すぎると思われますが、それは明らかに同質ではないからです。

「そんな全然違うものが混ざるなんてあるの？」と思うかもしれませんが、メタアナリシスのみのレビューなどではそういった杜撰なものも時折見受けられます。

では、リンゴとオレンジの違いは見てすぐわかりますが、研究においてはその同質性をどうやって考えるのか。次の内容で見ていきます。

各研究のPICOは同質か

繰り返しになりますが、Methodsには対象となる研究のinclusion/exclusion criteria, intervention, control, outcomeが記載されています。これら4つの要素が本当に統合しても良いと言えるくらい同質なものかどうかを考えながら読みます。それぞれ簡単に考えてみましょう。

inclusion/exclusion criteria (patients)

これらが全く異なるものだと、患者層が異なってしまうこととなり、その効果も変ってしまうこととなります。例えば若年者を対象にした研究と高齢を対象にした研究では同じ治療薬を使ったとしても、多くの場合高齢者で結果が悪くなることが想定されます。また病気の重症度が異なる場合も同様で重症例の方が治療でのアウトカムが悪く、軽症例の方が治療でのアウトカムが良いなどの問題が生じ得ます（その逆も起こり得ますがいずれにしても結果が異なるものを統合することが問題です）。

intervention, control

用量依存性に効果が高くなる治療薬であれば、試験ごとに用量が異なると、統合することでの問題が生じます。またコントロールについてはプラセボを使っているどうかの違いがあると、プラセボ効果分での差の違いが生じてしまい、両群のアウトカムの差は変わってしまうでしょう。さらに介入以外の治療がどうなっているのかも場合によってはアウトカムが変化する要因となり得ます。

outcome

統合の対象となる数値であるため、同じものでないと直接的に結果に影響が出ます。最も良いのは全く同じアウトカムですが、そうでない場合はある程度同等の変化を示すことが推測されなければいけません。

さらに内容が同じアウトカムだとしてもフォローアップの期間が異なると、当然発症率も異なります。その調整や区別がされているのかどうかも注意しなければいけません。

加えてアウトカムの判定がどう行われているのか。全例に検査がされているのか、それとも症状があったら検査しているのか、検査方法はどういったやり方なのか、こうしたことでも違いが生じます。

なお、連続変数のアウトカムで見たい内容は同じだけれど、計測の仕方のみが異なる場合にはstandardized mean difference(SMD)を算出するという方法で、数値を標準化して比較する場合もあります。SMDは以下の式で算出されます。

SMD=各群のアウトカムの平均の差/アウトカムの標準偏差

こうするとその試験におけるアウトカムの差が、参加者全体の集団において何SD分に当たるのかがわかります。テストにおける偏差値と似たような考え方ですね。同様の数値はeffect sizeと呼ばれていることもあります。

例えば、認知症のstudyではMoCA, MMSEといった認知機能について複数の計測方法が知られており、studyによってわかれます。同じものを評価するのに計測の仕方が違うのみで統合できないと勿体無い話です。そこでSMDを用いて統合してみるわけです。

認知症のスケールを統合した例としては降圧と認知機能の変化を調べたこちらの論文などがあります。

Association of Blood Pressure Lowering With Incident Dementia or Cognitive Impairment: A Systematic Review and Meta-analysis | Dementia and Cognitive Impairment | JAMA | JAMA Network

ただ、この考え方も一部問題はあって、同じ1SDと言っても、対象としている試験の集団のアウトカムの数値が大きく異なってしまうとそれぞれの試験で別物になってしまうため、被験者集団の均質性がなければ結局違うものを統合していることになることに注意が必要です。

図でまとめる

大まかに図でまとめ直すとこのようになります。

これらの４つの要素（inclusion/exclusion criteria, intervention, control, outcome）が全く同じは無理にしても「アウトカムがある程度同じ数字にはなるだろう」と納得できるだけの同質性は必要だと思われます。

なお、システマティックレビューでは実際に文献を集めて、これらの4つの要素がどのようなものが集まったかは”Results”に記載されます。「臨床への適用」という観点では、実際に治療をしようとする患者さんにその4要素が合致しているかどうかが大変重要です。このあたりは次回の記事で書いていきます。

同質性が妥当かどうかの決まった基準はない

ここがメタアナリシスの難しいところですが、これらの同質性がどこまでなら妥当かの明確な基準はありません。以後のResultsのところで”異質性(heterogeneity)”という数値が出てきますが、これはあくまで統計的な計算によって数値のばらつきがおかしいかどうかを見たものに過ぎず、上記のような各研究の中身が同質か異質かを検討できるものではありません。昔、自分はそういうことがわかるものだと思ってましたが、、、（汗

そのため読む側が各研究を統合しても良いのかどうか、吟味する必要があります。特に自分が臨床で実際出会う患者層や行っている治療法と大きく異なる研究が含まれる場合は、その結果が適用しにくくなるため、普段の臨床場面との違いに着目することも必要です。

ここで、統合して良いのかどうかを吟味する基準としてよく用いられるのは病態生理に基づいたものです。

例えば、脳梗塞のメタアナリシスを読むときに、介入に「アスピリン（抗血小板薬）」を用いた研究と「ワーファリン（抗凝固薬）」を用いた研究を統合することには違和感を感じますが、「アスピリン（抗血小板薬）」と「クロピドグレル（抗血小板薬）」ならば、ある程度納得できます。同じような理屈で「アテローム性」「心原性」の患者さんを一緒くたにするのは、納得できない点がありますね。

病態による同質性の推定はある程度は説得力のある方法であると言えます。多くの場合、Backgroundを読むと、薬剤の生理学的な機序や疾患の病態についても記載があるため、なぜ著者がその基準で研究を統合しようとしたのかが分かります。

また、過去のデータからそれぞれのアウトカムや介入方法において大きな差がみられなかったという経験的なデータも同質性を保証する一つの手段になると思われます。

ただ、こうした同質性の仮定はあくまで仮定に過ぎないため実際に同じような効果が得られるものかどうかは不明です。良いメタアナリシスではそれを踏まえて、サブグループ解析でさらに同種の薬に絞ったりして結果を出していることが多いので、さまざまな観点でみても一貫した結果が出ているかどうかも確認しておいた方が良さそうです。