【統計応用・医薬生物学】Simonの2段階デザインについてわかりやすく【統計検定1級対策】

2017年の統計応用問3で出ていた問題が、サイモンの2段階デザイン（Simon’s two-stage design）と呼ばれる、早期中止を含めた2段階のランダム化比較試験デザインでした。

抗がん剤の第2相試験で使われたりしているようですが、神経内科領域ではどうにも馴染みがありません。ネット上にもあまりわかりやすい記事がなかったので、一度まとめてみます。

目次：

Simonの2段階デザインとは？
具体的な数式の背景
補足

Simonの2段階デザインとは？

具体的にどのような試験デザインになるかをまず文章で書いてみます。

①薬剤の真の奏功率を\(\pi\)とします

②帰無仮説として、臨床的に無意味な奏功率を想定し\(\pi=\pi_0\)とします。また、対立仮説として臨床的に有効な奏功率を想定し、\(\pi=\pi_1\)とします。

③まず1ステージ目では\(n_1\)人の被験者に薬剤を投与します。ここで、\(r_1+1\)名以上で有効であれば次のステージに進みます。この時点で\(r_1\)名以下にしか効果がなければ、試験は早期中止です。

④2ステージ目ではさらに\(n_2\)人の被験者に薬剤を投与します。これで全て合わせてr名以上で有効であれば、有効性が示すことができた、とします。それに満たない場合は無効と判断します。

図で表すとこんな感じですね。

このデザインで何がわかるかというと、αエラーとβエラーの数値を設定すれば、ここでそれぞれ文字でおいた\(n_1, n_2\)といった被験者数の内、最も少ないものを算出することができるという優れものなんですね。要はサンプルサイズの設計です。

被験者数の確保はランダム化比較試験において大変な問題なので、こうして目安となる数字が割り出せるのはありがたい話なわけです。

具体的な数式の背景

過去問に出ていたのは、Simonの2段階デザインが実際どのような数学的背景で動いているかという話。そのまま全部導出しろ、というわけではなく、小問の誘導に沿ってやっていけばなんとかできる形となっています、、、が、初見でこの誘導に沿ったとしても絶対間違えると思うんですよね。

というわけで簡単に流れを見ていきます。

①αエラーを起こす確率を調べる

②βエラーを起こす確率を調べる

③必要な被験者の期待値を求める（最適法 optimal design）

まずその前に出てくる文字の設定を確認します。

\(n_1\) ステージ1の被験者数

\(n_2\) ステージ2の被験者数

\(\pi_0\) 帰無仮説下の奏効率

\(\pi_1\) 対立仮説下の奏効率

\(r_1\) ステージ1で無効と判断される人数（これ以下で無効）

\(r\) 全部のステージを総合して無効と判断される人数

\(x_1\) ステージ1で有効であった被験者数（確率変数）

\(x_2\) ステージ2で有効であった被験者数（確率変数）

では順番にみていきます。

①αエラーを起こす確率を調べる

αエラーが起きるのは、帰無仮説下（本当は治療が無効）において誤って有効と判断する確率なので、それを求めます。

それぞれのステージで有効となる被験者数の確率変数は確率\(\pi\)となる二項分布に従うことが分かります。

有効となる被験者をｘ、確率を\(\pi\)、被験者の総数を\(n\)として\(b(x; \pi, n)\)という記号を用いて表すこととします。

するとαエラーは、ステージ1で有効と判断され、かつステージ2も有効と判断される確率なので

\(P(X_1\gt r_1\land X_2\gt r-X_1)=\sum_{x_1=r_1+1}^{n_1}b(x_1; \pi_0, n_1)\cdot \sum_{x_2=r-x_1+1}^{n_2}b(x_2; \pi_0, n_2)\)

となります。

②βエラーを起こす確率を調べる

βエラーが起きる確率というのは、対立仮説下（本当は治療が有効）において無効と判断してしまう確率なので、こっちの方が少し複雑です。

なぜなら、早期中止になる場合と早期中止にはならなかったけれど、2ステージ目で中止になる場合の2パターンを考えないといけないからですね。

まず早期中止になる確率は①と同様に二項分布を用いて以下で表されます。

続いて 1ステージ目は有効と判断されたけれど、2ステージ目では無効と判断される確率は以下になります。

\(P(X_1\gt r_1\land X_2\leq r-X_1)=\sum_{x_1=r_1+1}^{min(n_1, r)}b(x_1; \pi_1, n_1)\sum_{x_2=0}^{r-x_1}b(x_2, \pi_1, n_2)\)

補足ですが、\(n_1\)よりも\(r\)が大きい場合と小さい場合が考えられるので最初のシグマは\(\min(n_1, r)\)となっています。

\(r\)の方が小さい場合、すでに 1ステージ目で有効と判断されかねないので、そのギリギリまでいくということですね。

ということでそれぞれを足し合わせたものがβエラーを起こす確率になります。

\(\sum_{x_1=0}^{r_1}b(x_1; \pi_1, n_1) + \sum_{x_1=r_1+1}^{\min(n_1, r)}b(x_1; \pi_1, n_1)\sum_{x_2=0}^{r-x_1}b(x_2, \pi_1, n_2)\)

③必要な被験者の期待値を求める

①、②においてαエラーとβエラーを起こす確率を求めることができました。これを使って、\(n_1, n_2, r_1, r\)がどのような組み合わせであれば、αエラーとβエラーの想定値を満たすかがチェックできます。よくあるのはαエラー5％、βエラー20％（＝検出力80％）というものでしょうか。

条件を満たす組み合わせの中で、被験者の期待値が最小となるものを探します。

被験者の期待値ENは

\(EN = n_1 – \{1 – \sum_{x_1=0}^{r_1}b(x_1; \pi_0, n_1)\} \cdot n_2\)

となります。

2ステージ目に進めるのは早期中止とならない場合なので、2ステージ目の被験者数に早期中止とならない確率を掛ければ、上の式で算出できますね。

こうして得られた\(n_1, n_2\)名の被験者を用いれば、サンプルサイズをうまく推定することができるわけです。

これがSimonの最適法（optimal design）と呼ばれています。

補足

この他に、αエラーとβエラーの条件を満たす組み合わせのうち、nが最小になるものの中で、先程と同様に被験者数の期待値が最小となるものを使う方法がSimonのMinimax法(Minimax design)と呼ばれます。

また、他にもたくさん2段階デザインはありまして

Gehan法： 1ステージ目で効果が全く期待できない時に早期中止

Fleming法： 1ステージ目で有効もしくは無効の時に早期中止

後はベイズを使った方法などなど多数あるみたいですが、統計検定に出しやすそうな程よい難易度のものはSimonの2段階デザインかな、と思うので、今後は出ないような気もします（汗

参考文献：

Simon R. Optimal two-stage designs for phase II clinical trials. Control Clin Trials. 1989 Mar;10(1):1-10. doi: 10.1016/0197-2456(89)90015-9. PMID: 2702835.

pubmed.ncbi.nlm.nih.gov

Simonの元文献です。

https://www.sas.com/content/dam/SAS/ja_jp/doc/event/sas-user-groups/usergroups10-a-07.pdf

ネット上に落ちてましたがスライドの図の説明が大変わかりやすいです。

http://www.st.nanzan-u.ac.jp/info/gr-thesis/ms/2006/matsuda/03mm082.pdf

文章での補足程度に。

【統計応用・医薬生物学】Simonの2段階デザインについてわかりやすく【統計検定1級対策】

Simonの2段階デザインとは？