実際の医学論文から統計を学んでみるⅥ -多重検定/ボンフェローニ法/ファミリーワイズエラー率-

最近読んでみた2016年のオピカポン（オンジェンティス）の第3相試験の研究で、多重検定が含まれてましたので、紹介しつつ学習してみようと思います。

元の論文はこちら。

Ferreira, Joaquim J., et al. “Opicapone as an adjunct to levodopa in patients with Parkinson’s disease and end-of-dose motor fluctuations: a randomised, double-blind, controlled trial.” The Lancet Neurology 15.2 (2016): 154-165.

目次：

BIPARK-1 studyの概要
- 試験デザイン
多重検定の話
ファミリーワイズエラー率とボンフェローニ法
論文の結果

BIPARK-1 studyの概要

この試験は別名BIPARK-1 studyと呼ばれており、ランダム化比較試験です。その後、open-labelとなったBIPARK-2 studyもすでに論文化されています。

パーキンソン病のCOMT阻害薬であるオピカポンの第3相試験となっています。

専門でない型のために概要を書いておくと、COMT阻害薬はパーキンソン病の主力薬であるレボドパの効果を持続させる効果をもつ薬で、現状はエンタカポンが日本ではよく使われています。半減期の問題から、エンタカポンは基本的にレボドパと同時に飲む必要があり、それによって、レボドパ効果を保つことができます。

パーキンソン病患者は発症から年数が経って進行すると、同じように薬を飲んでいてもon-off現象と呼ばれる薬の効き目が悪い時間（off状態）が出現するため、それをできるだけ防ぐため、レボドパの効き目を長引かせるように使われるのがエンタカポンなわけです。

そして、今回取り上げられているのが、半減期の問題を解消し、1日1回の内服で良いオピカポンという薬です。

試験デザイン

この試験は多施設三重盲検（被験者、治療者、アウトカムの評価者）のランダム化比較試験となっています。例によって、PICOに沿って論文の構造を見ていきます。

P：パーキンソン病患者、大まかなinclusion, exclusionは以下のようです。

Inclusion criteria

・30-83歳

・パーキンソン病と診断されたから3年以上経過

・Hoehn-Yahr分類 1-3（重症度分類です）

・1年以上はレボドパで臨床的な改善を認めている

・レボドパ3−8錠＋他のパーキンソン病薬で安定している

・end of dose motor fluctuationがある（内服して効果が切れかけた時にoff状態などが出ている）

・覚醒中のoff時間が平均して1.5時間以上

Exclusion criteria

・UPDRS scoreのジスキネジアの点数が3点以上

・off状態の予測がしにくい

・パーキンソン病の外科的治療をしている

・悪性症候群、非外傷性の横紋筋融解がある

・臨床的に問題となるような不安定な心血管疾患、精神疾患がある

被験者の評価は①スクリーニング、②ランダム化＋ベースラインのデータ収集、③ランダム化の2−3週間後、④③の4週間後ごとに3回、の計7回となっており、試験期間は大体14−15週間となっています。

I: intervention C:control

被験者グループは1：1：1：1：1に割り付けられた5群です。

①プラセボ群

②エンタカポン群（レボドパと一緒に内服）

③オピカポン 5mg

④オピカポン 25mg

⑤オピカポン 50mg

グループがたくさんありますね、、、。ここが多重検定に関係してくるわけですが、後でまた解説します。

O: outcome

Primary outcome

ベースラインと終了時を比較したoff状態の時間の差

Secondary outcome

・少なくともオフ状態の絶対時間が1時間以上ベースラインから減少した患者の割合

・ベースラインからのオフ時間の減少率

・オン状態についても同様

・オン状態におけるジスキネジアの時間/ジスキネジアのない時間

などなど、、、

かなりまだ沢山あるので省きます。疾患の話自体に興味がある方は是非論文をお読みください。

多重検定の話

さて、ここで問題となるのは５群に分けられた被験者グループをどう比較していくか、です。本研究では以下の順番で仮設検定が行われています。

①プラセボ群とオピカポン5mg、プラセボ群とオピカポン25mg、プラセボ群とオピカポン50mgの優越性試験

②①で優越性が得られたものについて、エンタカポンとの非劣性試験

①で勝ち抜いた薬剤が②で用いられるわけですが、これはgatekeeping procedureと呼ばれるようです、、、

がそこの解釈を説明するには難しすぎたので、ここでは主に①について見ていきます。

①ではプラセボとオピカポンは３回にわたって比較されています。こうした複数の仮説を検定する場合を多重検定と言います。

多重検定の問題点は繰り返していくうちに、有意差が出やすくなる（αエラーが起きる）ことにあります。以下の図の例を見ると理由は一目瞭然です。

20本に1本当たるクジは5％なので、①の場合はp値を0.05とした時に帰無仮説が誤って棄却される確率（つまり、αエラー）、ということになります。

そしてどう考えても②の方が確率は高くなりますよね。

実際確率としては

（全確率）ー（全部外れる確率）＝1-0.95×0.95×0.95=0.1426…となります。

15％近い数字になっているのがわかります。

例えばsecondary outcomeやサブグループ解析でp値がざっと並びますが、これは数が多ければ多いほど、どこかで偶然に差が出てしまう可能性は免れないわけですね。だからこそ予め一つに決められたprimary outcomeの方が重要性が高いわけです。

では今回のように複数回比較したい場合はどうするのか。その修正法の一つがボンフェローニ法です。

ファミリーワイズエラー率とボンフェローニ法

今回の試験ではまず３回の仮設検定を行いますが、そこでαエラーが起きる確率を通常の検定と同様に5％に抑えたいわけです。

このように複数回の仮説全体で少なくとも１回のαエラーが起きる確率のことをファミリーワイズエラー率（Family Wise Error Rate; FWER）と言います。

このFWERを抑える方法としてボンフェローニ法、ホルム法などがあります。

今回の論文ではボンフェローニ法が使用されています。これは非常に簡単な方法で、目標とするFWERを仮設検定を行う回数で割ると言うものです。

例えば先程のクジの例でいくと0.1426÷3＝0.0475…となっており、p=0.05に近いことがわかります。

今回の論文はプラセボに対する比較のため片側検定を行っており、2.5%が目標で３回の検定を行いますので、2.5÷3=0.0083が有意差の基準となっています。

なお、このボンフェローニ法は比較的保守的な修正法であることが知られており、有意差が出にくくなります。なので今回のような新薬の試験としては慎重で良い方法と言えます。

これに対して偽発見率（False Discovery Rate; FDR）と言うものを用いた有意差がより出やすい方法もあります。どう言った修正法が良いか、そもそも修正が必要なのか、というところはどうやら専門家の中でも意見が割れているようで、適切と言えるものはまだはっきりしていないようです。*