※ブログ記事の商品・サービスリンクにはアフィリエイトリンクが含まれます。

診断研究を臨床に用いる際の注意点 -spectrum biasとverification bias-

臨床推論を考える上で欠かせないのが、感度・特異度/陽性尤度比・陰性尤度比を調べる診断研究です。そこに関わるspectrum bias(スペクトラムバイアス)とverification bias(検証バイアス)について、日本語で調べてもあまりネットにまとまって載っていなかったので、まとめてみます。診断研究が自分の患者にどこまで応用できるのか判断する際に必要な知識なので、臨床応用を前提としながら説明していきます。

 

目次:

 

診断研究の値は実際の臨床とどう解離するか

診断研究では感度・特異度と陽性尤度比・陰性尤度比が求められます。臨床推論では主に陽性尤度比・陰性尤度比を用いて、検査前確率から検査後確率を推定します。この辺は前にも記事にまとめました。 

medibook.hatenablog.com

 

では、診断研究で出てきた数値を自分の患者に当てはめて、そのまま使ってみても良いのでしょうか。

 

その際、何に注意をすべきかを知るためには、何によってそれらの尤度比が変わりうるかを知っている必要があります。以下ではバイアスなどを含めて、それぞれの場合にどう数値が変わるかを見ていきます。

 

そもそも陽性尤度比とは?

そもそも尤度比がどうなると変化しうるのか具体的な数値を見ながら考えてみます。陽性尤度比、陰性尤度比は裏表の概念なので、今回は分かりやすくするため陽性尤度比のみに話を絞って説明します。

 

感度・特異度の基本的な算出方法はこちらを参照ください。

1-1. 検査精度 | 統計学の時間 | 統計WEB

 

例えば以下のような数値の検査結果が“臨床現場に則した”診断研究から得られたと考えてみます。

f:id:medibook:20201214065050j:plain

1000人規模の診断研究の結果ですね。下の欄に着目するとこの疾患の有病率は100/1000=10%であることがわかります。

 

感度と陽性尤度比を計算してみると

 

感度=80/80+20=80%

陽性尤度比=80/100÷90/900=8

となります。

 

一般的な数値としては、なかなか優秀な検査と言えると思います。ここで当然のことながら感度の計算をみてみると大事なのは「疾患あり」の群の検査陽性・陰性比率であることが分かります。感度は陽性尤度比の分子であるため、陽性尤度比もその影響を受けます。

f:id:medibook:20201214065723j:plain

 

続いて、診断研究の内容によってこの数値がどう変化しうるかみていきます。

 

症例対照研究のように患者を集めてくるとどうなるか

まず、先程の疾患あり・なしの群をコホートではなく、症例対照研究のように、あらかじめ疾患ありとわかっている群と健常者の群の別々から持ってくるとどうなるでしょうか。

 

こうなると、あらかじめ疾患ありとわかっている人たちを集めてくるわけなので、当然ながら疾患ありの群における検査陽性者の数は上昇します(検査が少しでも意味のあるものであれば)。となると、例えば疾患あり群の検査陽性者数は以下のように変動する可能性があります。

f:id:medibook:20201214070718j:plain

計算をしてみると

感度=98/100=98%

陽性尤度比=98/100÷90/900=9.8

 

陽性尤度比は上昇します。なので、診断研究において患者を集める場合には全体を同じ患者層からとってくる必要があります。つまり、バラバラの患者層からとっている診断研究だった場合、実臨床に応用はできません

 

当たり前のことだと思いがちですが、意外と言葉にすると騙されがちで「この検査は疾患のある人では90%で陽性になります!健常者で陽性になる確率は5%です!」とかいうと、パッと聞いても対象となった患者群が一緒かどうかが分からないわけです。さもすごいように聞こえますが、両者を一緒の群からとってみると大して鑑別には使えないということも十分あり得ます。腫瘍マーカーなどがその好例でしょう。検診で患者を絞らずにむやみに測るのはやめて欲しいなあと思います。

 

『JAMA User’s Guides to Medical Literature』*1では、別の患者層からとってくることは臨床試験におけるphase 2 trialと似たようなもので、最低限この状態でも結果を示せなければそもそもその検査の意味がないに等しい、ということだと説明されています。

 

患者層の有病率が変わるとどうなるか

続いて、患者層の有病率が変わるとどうなるでしょうか。診断研究で用いられている患者層と実際の臨床の現場の患者層は異なる可能性が大いにあります。先程の表では有病率10%の疾患と仮定しましたが、20%に増やしてみます。

f:id:medibook:20201214072013j:plain

計算してみると

感度=160/200=80%

陽性尤度比=160/200÷89/711≒8

 

疾患ありの患者数は200人と増えましたが、黄色枠で囲まれた部分の比率は変化しません。よって感度は変わりません。特異度も表の縦軸で計算するため変化しません。

 

陽性尤度比は感度と特異度によって計算されるため、これも変化しません。

 

というわけで、患者の有病率が診断研究で用いられたものと臨床の現場が違っていても全く問題ないわけです。じゃあどんな診断研究でも応用できますね、、、というわけではなくて、やはり問題はあるんです。問題となるバイアスについて続けていきます。

 

重症な患者が多く含まれているとどうなるか-spectrum bias-

今までの流れから、基本的には表の縦軸の比率が重要であることが分かりました。つまり、疾患のある人たちで検査の陽性率がどの程度であるかが大事なわけです。

 

そこで検査が、患者が重症であればあるほど、陽性になりやすい場合(例えば、心不全におけるBNPなど)診断研究に用いられている患者層の重症度合いが、臨床現場の重症度合いと異なると問題となってきます。

 

例えば、救急現場での心不全患者においてBNPがカットオフ値以上となる陽性率と外来での心不全患者のBNPの陽性率はおそらく異なることが予想されます。救急現場であればより重症の心不全患者が多くやってくる(=陽性率が上がる)と思われるからです。

 

f:id:medibook:20201214080549j:plain
(※値は実際の陽性率とは関係なく適当です)

 

つまり、その検査が重症度に応じて陽性になりやすさが変わるものである場合、診断研究が対象にしている患者層と自分がみている患者層の重症度に違いがないかは注意が必要です。これによって生じる違いをspectrum bias(スペクトラムバイアス)と呼びます。

 

自分の患者の方が陽性率が低いと予想される場合は、感度を差し引いて、陽性尤度比を下げる必要がありますし、逆の場合は陽性尤度比を上げて考える必要があります。

 

ちなみにBNPのように重症度と関連して連続的に変化する検査値の場合は、陽性・陰性の2値ではなく、分かるのであれば数値ごとの尤度比(数値が大きければより尤度比は大きい)を用いる方が良いとされています。

 

疑わしい人のみが詳しい検査をされるとどうなるか-verification bias-

診断研究において、疾患あり・なしがどのように判断されているかは非常に重要な問題です。そこが一番の根幹となるので、あり・なしがきちんと判断されていないとそもそも数値が何も当てにならなくなります。

 

例えば、心筋梗塞の診断マーカーであるトロポニンTの診断研究を考えてみたときに、全員が診断のgold standardであるカテーテルによる検査を受けているかは重要になります。

 

なぜなら、全員ではなくて疑わしい人のみがカテーテル検査をされていると考えてみると、トロポニンTが陽性であれば当然検査を受けるでしょうが、陰性の場合検査を受けない可能性があります。そうなると、トロポニンTの陽性者は検査を受けるため診断される確率が上昇します。言い換えれば、診断ありの群における陽性率が上昇するわけです。逆に診断なしの群の陽性率は下がります。こうして生じるバイアスをverification bias(検証バイアス)と呼びます。

 

f:id:medibook:20201214075611j:plain

(※値は適当です)

 

縦軸でみてみると“疾患あり“、“疾患なし“の両群ともに影響を受けていることがわかります。それだけ問題点の大きいバイアスであると言えます。

 

ただ、検査の侵襲性が大きいとこうなる可能性は十分あるので、診断研究の限界として、結果を差し引いて考える必要があると思われます。

 

参考文献

*1『JAMA User’s Guides to Medical Literature』

いつも愛用の一冊です。日本語版は翻訳が時折イマイチと最近買った後輩から指摘いただきました。長い一文だと難しいところもあるようですね。それほど読みにくくないので、英語版おすすめです。

 

*2『今日から使える医療統計』

verification biasについて一部記載あります。新谷先生はYouTubeでの動画も結構充実されていて、参考にしてます。説明も分かりやすいです。