引き続きRCTの勉強を続けます。今回で最後になります。
前回記事はこちら
ここまでは知っておきたいランダム化比較試験の読み方① – 脳内ライブラリアン
ここまでは知っておきたいランダム化比較試験の読み方② – 脳内ライブラリアン
ここまでは知っておきたいランダム化比較試験の読み方③ – 脳内ライブラリアン
試験の早期中止とその問題点について書きます。
早期中止されるランダム化比較試験というと「治療効果にそんなに差があったんだ!」とか「有害事象がさぞ大きかったんだなあ、、、」としか思ってませんでしたが、これだけではいけないことがよくわかりました。 その辺りを掘り下げていきます。
目次:
ランダム化比較試験の早期中止とは?
ランダム化比較試験において、あまりにも介入群での治療効果や有害事象が大きい場合、被験者の利益や損益を考慮すると、倫理的に問題が生じるので、早期に試験が中止になる場合があります。予め中止基準をある程度決めておくのが通常です。基準に応じて試験の実施者あるいは国からストップがかかります。
実際の早期中止事例をみてみましょう。塞栓源不明の脳梗塞(Embolic Stroke of Undetermined Source: ESUS)のtrialです。DOACであるリバロキサバンとアスピリンを比較したNAVIGATE-ESUS trialというものがあります。
Rivaroxaban for Stroke Prevention after Embolic Stroke of Undetermined Source – PubMed
これはESUSの予防としてリバロキサバン(介入群)とアスピリン内服(コントロール群)を1:1でランダム化比較した試験です。
大出血の合併症がリバロキサバン1.8%/年 vs アスピリン 0.7%/年と介入群で増えていたことに加えて、Primary outcomeであった「脳卒中の再発もしくはその他の塞栓症」については5.1%/年 vs 4.8%/年と大した差を認めなかったため、早期終了となってしまいました。
当初の試験デザインでは7000人の被験者を2年間フォローする予定でしたが、早期終了時点で7213人の被験者を中央値11カ月フォローと追跡期間についてはかなり短くなってしまっています。またPrimary outcomeの人数も450名あれば、検出力が十分と見込んでいましたが、実際はその74%である314名に留まっています。
こうした当初の試験デザインとのずれは何が問題になってくるのでしょうか。
治療効果もしくは有害事象が過度に評価される可能性がある
まず、もともとの試験デザインに対して被験者・アウトカム数が減ると、治療効果もしくは有害事象の数にブレが生じやすくなり、過度に数値が高すぎたり低すぎたりする可能性があります。
統計学でいう”平均への回帰(regression to mean)”に似た現象で”regression to the truth”の問題と言われます。
”平均への回帰”はサンプルから得たデータが初め真の平均より高かった場合は、次はそれよりは低くなる可能性が高く、データの取得を繰り返すにつれて真の平均に近づいていくという現象です。
これと同様に真の治療効果の値に徐々に近づいていくため、初めのうちは大きく下回ったり、上回ったりしている可能性が高いということになります。図で見るとこのようなイメージです。
(『JAMA User’s Guide To Medical Literature: A Manual For Evidence-Based Clinical Practice 3rd edition』より引用)
またこれはサンプル数が少ないと数値のぶれが大きくなる”少数の法則”と言ってもいいかもしれません。
つまり、冒頭に書いたように「早期中止の試験=効果もしくは有害事象が大きい」というのは確かなのですが、そこで算出された数値は実臨床からズレてる可能性が高いということに注意しなければいけません。つまり、中止の原因となった効果/有害事象があることは信じてもいいですが、その大きさは信じ切っちゃいけないということです。
実際のそのズレの推移の例として出されるのが白血病の治療についてのstudyです。
Be skeptical about unexpected large apparent treatment effects: the case of an MRC AML12 randomization – PubMed(Control Clin Trials. 2003;24(1):66-70. doi:10.1016/s0197-2456(02)00273-8)
このstudyでは介入群の治療が最初のころ、非常に有効にみえていたのですが、試験が進むにつれて、徐々に有効性が下がり、最終的には有意差がなかったという結果になっています。
これを「介入群の治療が良く効いているから終了だ!」と早期中止していたら、意味のない治療が有効とされていた可能性もあります。
複合エンドポイントによる問題
初回の記事で書いていた複合エンドポイントによる問題点がここでも顔を出します。
複合エンドポイントにおいて介入群とコントロール群に大きく差が出た場合、それによって中止になってしまう可能性があります。
しかしながら、複合エンドポイントは重要なイベントとそうでないイベントを含んでいる可能性があるので、重要なイベントの差はどうであったかよく吟味しなければなりません。
早期中止によって重要なイベントに差が出ていないようであれば、その治療の効果は保留して考えるしかないでしょう。
早期中止された試験結果の解釈
というわけで、早期中止された試験の結果については上でも書いたように「結果は信じてもいいが、数値は信じすぎてはいけない」ということになります。
また、RCTはその信頼性の高さからメタアナリシスに組み込まれることは当然よくあります。メタアナリシスに含まれているRCTに早期中止の試験がある場合も解釈に注意が必要です。実際以上に数値差が大きく出ている可能性があるからです。
早期中止試験の信頼性について問題点ばかり挙げることになりましたが、そんなこと言っても倫理的に問題があって早期中止せざるを得ないものはどうしたらいいんだよ、、、と思ってしまいます。
参考にした『JAMA user’s guide to medical literature』では、早期中止でもアウトカムが200例以下のものは信頼性が低いが、500例以上なら望ましい結果になるのではないか、とされています。
早期中止の試験であっても数がある程度含まれていれば信頼性は担保されるとみて良いようです。
あとは早期中止のコントロール群/介入群の差の基準であるp値を最初のうちはかなり厳しめにする(p<0.0001とか)のも手でしょうか。
これでひとまずランダム化比較試験の話については終わりにします。意外と問題となりうる点が多くて設計する側はさぞ大変なんだろう、、、と感じ入ってしまう内容でした。良いエビデンスを作り出すというのは実に難しい話ですね。
(2021.06.28追記 医学論文の読み方関係の記事はこちらにまとめました)
参考文献:
週刊医学界新聞のこちらの連載は結構勉強になりました↓
医学書院/週刊医学界新聞(第2825号 2009年04月06日)
未読ですが本も出されているようです。
前回同様に主にはこれを参考にしています。お勧めです。
邦訳版はこちら
コメントを残す