実際の医学論文から統計を学んでみるⅤ -RMST法(Restrictive Mean Survival Time)-

昨年11月NEJM誌に出た「生体弁に対するDOAC vs ワーファリン」のランダム化比較試験を読みました。

Rivaroxaban in Patients with Atrial Fibrillation and a Bioprosthetic Mitral Valve

ここで使われていた生存時間解析の方法はいつものCox比例ハザード回帰ではなく、RMST法なる方法でした。

数年前から腫瘍や循環器系などの論文でも使われつつある方法なようで、今後も使われるものは増えていきそうです。ちょっと調べてみた内容をまとめてみます。

案の定素人なので疑問点や異なっている点があったら教えてください。

1、Cox比例ハザード性の問題点
- 問題点①比例ハザード性の仮定は成り立つか
- 問題点②ハザードの解釈がしにくい
2、RMST法(Restrictive Mean Survival Time)とは
3、なぜ曲線下の面積がRMST（ある期間における平均生存期間）になるのか
4、RMST法の特徴と注意点
5、実際の論文をみてみる
6、まとめ
7、参考文献

1、Cox比例ハザード性の問題点

生存時間解析といえば

①カプランマイヤー法で生存曲線を書き

②ログランク検定で仮設検定を行い

③Cox比例ハザード回帰でハザード比を出す

というのが王道な方法でした。

ところが、以前から指摘されているように、Cox比例ハザードモデルはそのモデルや解釈に色々問題点があります。

問題点①比例ハザード性の仮定は成り立つか

そもそも比例ハザード性とは「介入群の人のある瞬間のイベント発症率（ハザード）とコントロール群の人のある瞬間のイベント発症率が常に一定の比に保たれている。」という前提に立ちます。

このハザードは時間tに依存する関数であるため、刻一刻と変動します。介入群とコントロール群でその比が常に一定だと仮定するわけです。さて、こんなことはあり得るのでしょうか。

具体的な数値で考えてみると、このような例になります。例えば、2群における疾患の発症率が1年目と2年目で以下のような関係が成り立つわけです。

常に瞬間的な発症率が比例関係にある、というわけです。実際の臨床医学ではそうではない例が多く見受けられます。

例えば、脳梗塞に対するスタチンでの再発予防を考えてみましょう。おそらくは内服直後にはまだ有効性を発揮しないため、大きな効果が見られない可能性があり（急性期にも良いという説もある気はしますがそこはさておき）、後からじわじわ差が開いてくる可能性があります。

もしそうだとすると2群の1年目、2年目の発症率は以下のような違いを見せます。

こうなると、比例ハザード性は保たれていないわけです。このような比例ハザードが保たれない例はJAMAの統計コーナーでも取り上げられており、以前一度記事にまとめました。記事の終わりの方に書いてあります。

Cox比例ハザード回帰モデルについて数式ありで、できるだけわかりやすくまとめる – 脳内ライブラリアン

具体的には

①No immediate effect

薬がすぐに効かない場合、上のスタチンの例と同じ

②Immediate and Delayed Effects in Opposite Directions

介入が検査などの場合、検査が有効なら先にあらかた疾患が発見されるので、イベントは増えるが、残った人は見つかりにくくなるので、イベントが減る

③Variation in Disease Susceptibility

介入が効かないタイプの人は早期にイベントを起こし、残ったよく効く人たちはイベントをずっと起こさない

の三つが挙げられています。

問題点②ハザードの解釈がしにくい

各群で出てくる「ハザード」の解釈がしづらいのがもう一つの問題です。上で述べたようにハザードは時間に応じて変動するため、仮に比例ハザード性が成り立って、ハザード比が一定であったとしても、相対リスクは分かりますが、絶対リスクの差は分からないため、臨床的な意味が取りづらいです。

例えばハザード比が0.5と出ていたとしても、ハザード1％に対しての0.5％とハザード20％に対しての10％では全然意味合いが違ってきます。

また、他に解釈できる数値として生存時間中央値を得ることもできますが、これはイベントの発症が50％まで起こらないと得られないため、数値が得られない場合もあります。

以上のことがCox比例ハザード回帰で問題となっていたことでした。それに対してのRMST法という視点で見ていきます。

2、RMST法(Restrictive Mean Survival Time)とは

RMST法とは簡単にいえば、生存曲線の曲線下面積を比較する方法です。生存曲線の推定はいつものカプランマイヤー法などで行われます。

ある観察期間τ（これは試験デザインで恣意的に決める）までの生存曲線を確認し、介入群とコントロール群におけるこの面積の差を検定していくわけです。

確かに治療成績が良ければ、面積は大きくなるわけで、直感的にも納得できるなあと思います。しかも比例ハザード性のような無理のある仮定は不要です。

そして、解釈の面でも分かりやすいことがあります。この面積は実はある期間内τにおける平均生存期間を表しています。この理由は数式をみて後述しますが、数式みたくない人はスルーしてください。

例えば今回紹介する論文では365日の観察期間で、治療群の平均生存期間（平均的な患者がイベントを起こさない日数）は347.5日でした。つまり多分1年は大丈夫かギリギリぐらい、ということになります。

群比較がなくても、群ごとの結果の意味も分かりやすいのはCox比例ハザードと異なる点になります。前述のようにハザード比がわかっても、元のコントロール群のハザードが想定できなければ、具体的な治療効果は想定しにくいですし、介入群だけの数値を見てもどの程度大丈夫なのかは分かりません。

3、なぜ曲線下の面積がRMST（ある期間における平均生存期間）になるのか

この項目は数式を用いた話になるので、苦手な方は飛ばしてください。

曲線下の面積がなぜRMSTと一致するのでしょうか。日本製薬工業協会がRMST法について素晴らしい資料をまとめてくださっているのでそれを参考にします。（*1 p.79）ページ数多すぎて論文をどう読むかを知りたいだけの人には向かなさそうですが、、、。

まず「ある決められた観察期間のうちに観察された生存期間の期待値」（つまりRMSTそのものですね）を数式で定義します。イベントが起きた人の生存期間をT、決められた観察期間をτ（タウ）とすると、以下のようになります。

$E[min(T, \tau)]$

min(T, τ)というのはどちらか小さい方が採用されるよ、という意味ですね。

続いてはこれを積分で表します。min(T, τ)については場合わけをすることでうまく表現できます。

①T<τのとき

$E[min(T, \tau)]=\int_0^\tau tf(t)dt$

②T>τのとき

$E[min(T, \tau)]=\int_\tau^\infty \tau f(t)dt$

となります。なお、f(t)は生存時間Tの確率密度関数です。ハザード関数とはまた別物になります。f(t)と生存関数S(t)の関係性は以下のようになります。

$\int f(t)dt=F(t)\\1-F(t)=S(t)$

先程の①、②の場合をまとめると

$E[min(T, \tau)]=\int_0^\tau tf(t)dt+\int_\tau^\infty \tau f(t)dt\\=[tF(t)]_0^\tau-\int_0^\tau F(t)dt+[\tau F(t)]_\tau^\infty(第1項に部分積分を使った)\\=\tau F(t)-\int_0^\tau(1-S(t))dt+\tau(1-F(t))(先程の関係式を使った)\\=-\int_0^\tau1dt+\int_0^\tau S(t)dt+\tau\\=\int_0^\tau S(t)dt$

となります。なんとτから先の積分が消失している！というのは俄かに信じ難いですが、以上の式変形によって平均生存時間＝ある期間τ内の生存関数の曲線下面積ということが導き出せました。

4、RMST法の特徴と注意点

RMST法の特徴としては先に述べたように、群単体の結果でも理解しやすく、差もわかりやすい点です。差を見れば平均的にイベントの発生をどれだけ遅らせることができるのかが分かります。

ただここで出てくる数値は決められた観察期間の影響を受けるので、観察期間が臨床的に妥当な期間がどうかが重要となります。例えば脳梗塞の試験で観察期間1ヶ月だとか、あまりに期間が短いと差が当然出ないので、意味がなくなってしまいます。

また、同じ観察期間の研究であれば患者層も同じとすると、研究間での数値比較も容易であるため、なおさら観察期間の統一化が大事となります。

5、実際の論文をみてみる

さて、ようやく初めに戻って、NEJMに発表された研究を見てみます。

生体弁に対するDOACの使用効果を調べたRCTでRIVER trialとも呼ばれているようです。それなりの規模を集めてますが、それでもまだphase2 trialです。

リウマチ熱による弁置換の患者が多いという理由でブラジルで試験は行われています。COIには当然バイエル（リバロキサバンの会社）が絡んでます。

試験デザインは多施設ランダム化オープンラベル（アウトカムの判定は盲検化）試験です。そして非劣性試験です。ワーファリンを使用すると調整がいるのでどうしてもオープンラベルになりがちですね。

PICOを確認すると

P：心房細動＋生体弁で血栓塞栓症予防に抗凝固薬を使用していた（もしくは使用する予定の）18歳以上の成人　合計1005人

I：リバロキサバン 20mg/day(腎機能に応じて減量)

C：INR 2-3のワーファリン、INRは4週ごとに測定

O：複合アウトカム＜死亡、心血管イベント（脳卒中、TIA、valve thrombosis、全身塞栓症、心不全入院）、重大な出血＞

そしてこの複合アウトカムの評価をRMST法で行っています。観察期間は1年です。

結果としては

リバロキサバン群　347.5日vs ワーファリン群　340.1日

差は7.4日（95%CI -1.4~16.3; 非劣性の基準でp<0.001）

でした。こんな感じで日数で差がわかるのは分かりやすくて面白いところですね。1週間と言われると、まあ差があまりないのかなあという印象を持つかと思います。

で、ただこの試験で気になるのはやはり複合アウトカムの部分。アウトカムの中に効果と副作用がごちゃごちゃになっている（出血も含んでいる）点がまず気になります。phase 2 trialで参加者も少ないし、そういうものかなとも思わないでもないですが。

さらに気になるのはなぜ心不全入院がアウトカムの一つに入っているのか。プロトコールを見ても明確に書いていません。薬剤の直接的な効用として心不全を予防しうるのはvalve thrombosisが絡む場合ぐらいに見えるのですが、、、。しかも結果としては心不全入院のアウトカムが多いんです。全死亡（リバロキサバン17例、ワーファリン26例、以下同順）や大出血（7例、13例）と同等かそれ以上のアウトカム数（22例、19例）なんです。

流石に試験開始後に追加されたものではないですが、プロトコールをみると第5版→第6版で新たに追加されています。ううん、、、非劣性を確実にするために結果を水で薄めた（おそらく差がない心不全入院のイベントで数を稼ぐ）ように見えるのですが、、、。本文中にも記載がないのですが、ここに心不全入院が入る理由がわかる循環器内科に詳しい方がいらっしゃったら教えてください、、。

あとは観察期間の1年って妥当なのかどうなのかというところですね。心血管イベントに関してならこれぐらいなのかもしれません。脳梗塞の予防という点でいくと過去のリバロキサバンvsワーファリンの試験であるROCKET-Afなんかは中央値700日ほどは観察していたのでもう少し長くても良い気はします。

ただあくまで、phase 2なので、今後より詳しくちゃんとした効果はわかってくるのかもしれません。