研修医の先生と抄読会をしていく中で、論文内の統計的な内容について批判的な話をしていると(例えばprimary outcomeがソフト/ハードエンドポイントがぐちゃぐちゃに混合されてるとか)こんな風に言われました。
「統計的に確実なものっていうのを考えていくと、なんか何を信じていいか分からなくなりますね」
うーん、まあ確かに。そもそも臨床試験でよく用いられるオーソドックスな仮設検定の話でいくとそもそも有意水準5%で、5%は間違えてしまう可能性があるわけだし、P値は使わないようにしようという動きもあるわけで*1数値の変化の程度で話をした方が良いのだろうけど、それもまた実際自分の診ている患者にどれくらい当てはまるかというと、差し引いて考えないといけない要素が多いわけで、、、。
ただ、一つの論文だけ見てるとそんな気分になったりもするわけですが、ここは落ち着いてもう少し離れた視点で考えてみようということで、医学において「より確実に正しい」とはどう言えば良さそうなのか、ちょっと考えてみました。
目次:
医学は仮説演繹法の積み重ね
医学的な疑問はまずどのように解決されていくのか、ということを考えると、多くは仮説演繹法と呼ばれる方法で行われます。仮説演繹法はよく使われる帰納法と演繹法の両方を組み合わせたような論証法です。
それはなんやねん、という人には19世紀の医師ゼンメルヴァイスの例が分かりやすいです。ゼンメルヴァイスは細菌という概念が確立されていなかった19世紀中頃に産褥熱を予防するための「手洗い」を普及させました。そのために取られた方法が仮説演繹法でした。*2
まず、ゼンメルヴァイスは産婆が立ち会っていた病棟より、医師が取り上げた病棟の方が、産褥熱による死亡率が高いことに気づきました。さらに、死体解剖中に刺し傷をつくった同僚の医師が産褥熱と同じ症状が出たことに気づきます。
そこで、「死体に含まれる何らかの物質が、産褥熱を引き起こすのでは?」という仮説を立てます。そこから演繹して「手についた物質を洗い落とせば死亡率が下がるのではないか?」という予言(prediction)を生み出します。そこで次に実験です。手洗いをして、産褥熱の発生率が低下したかどうかを検証します。発生率が低下したなら、予言と仮説が正しかったことが言えます。仮説を演繹した上で、その正しさを検証するので、仮説演繹法と呼ばれるわけです。
実は普段の診断推論で用いているのも常に同じ方法です。*3鑑別診断による仮説を立てて、その診断が正しいかどうか検査を行って検証し、結果をみて仮説の正しさを示そうとするわけです。
これを何度も繰り返して、正しい理論を積み重ねることで今の医学理論が形成されていきます。
一つ一つの論文は大きな理論の枝の先のようなもの
個々の論文で出されている研究はランダム化比較試験だろうが、メタアナリシスだろうが、いずれも一つの仮説を検証するためのものです。ある治療Aがある疾病に効くのかどうか、ある検査がある疾病の診断に有効なのかどうか。まとめていくつもの仮説を確実に検討するような手段はありません。
そう考えると、大元にある疾患の理論を木の幹とすると、新しい一つの論文の結果というのはその枝先のようなものではないでしょうか。統計学的な正しさというのはそれぞれの結果をいかに頑強に結びつけるか、という点で大事なのであって、大元の理論の正しさを確かめるためには十分な検証の数と時間を要すると思います。
研修医の先生の疑問はその通りで、一つの試験の内容が統計的に胡散臭かったり、あるいは正しかったりしてもあんまり強く物事は言えないんじゃないでしょうか。
正しく積み重ねられた理論を見つけ出す
じゃあ正しく積み重ねられた良い理論っていうのはどういうものなのか。そこで、ラカトシュ・イムレ(1922-1974)という数学・科学哲学者が提案した研究プログラム説というものを参考にしてみようと思います。*4
ラカトシュのいう研究プログラムというものは「堅い核」と呼ばれる命題を中心に、補助仮説が「防御帯」をつくり、実験で間違った反証事例が見つかった場合、その防御帯を修正することで核を守ります。
反証事例を受けて、防御帯を修正しながらも続いていく研究プログラムが「新しい予測を成功させる」ことができれば、科学的だと言えます。こうしたことができる研究プログラムを「前進的プログラム」、そうでないものは疑似科学的であるとして「退行的プログラム」と呼びます。「退行的プログラム」はどこかで「前進的プログラム」にその核ごと取って代わられます。それがトマス・クーンの言っていたような科学革命が起こる根拠だと、ラカトシュは主張します。
例えば、パーキンソン病の病態というもので考えると「黒質の変性によるドパミン作動性ニューロンの死」が病態の中心であるという仮説は十分な成果を挙げている前進的なプログラムだと言えます。レボドパ製剤やドパミンアゴニストなどドパミンを増加させる薬剤が次々と生みだされ、成果を上げているわけです。ただ、これが全ての病態の中心かというと、そうも言い切れず、まだまだこれからこの核も変わる可能性があるわけです。
そうした大きな視点を考えると、大事なのは論文で語られるような実証実験がどのような仮説をもとにしているかということです。「前進的プログラム」かどうかはしばらく検討されなければ十分に分かりません。
なので
・メタアナリシスだから正しい
・二重盲検ランダム化比較試験だから正しい
・Lancet, NEJM, BMJ, JAMAに載ってるから正しい
・最新だから正しい
とはどれも言い切れないことが分かります。どのような仮説に基づいた試験で、その仮説が現在どれだけ詳しく検討されているかが大事なのだと思います。もちろん一つ一つの統計的な誤りがないかは確認が必要ですが、あくまで一つの仮説の整合性であって、かなり広い視点で見ないと全体像はわからないことに注意しないといけません。
特にこの話でいくと、後付けになるような結果の解釈はあまり良くないと言えます。理論はあるものの、結果をうまく予測するものではなく、結果を受けてひたすら補助仮説が変わっていくような「退行的プログラム」です。
以前記事を書いたトルリシティと認知症の関連についての話ですが、これも結果から後付けに他ならないので、少なくとも大きな効果を謳ってはいけないと思います。
最近のSGLT2阻害薬と心不全や腎機能の関連のstudyも安全性をみるための非劣性試験だったはずが、いつの間にか後付けが見出されすぎな気がしていますが、、、。段々と日本の医学雑誌でも「SGLT2阻害薬は心不全やCKDの患者に良い」と過度に一般化されたタイトルで記事が載せられているのが気になるところです。例えば初期のEMPAREG trialに関してマッシー池田先生からは厳しい指摘がされています。(ちょっと文言は過激ですが)
直近のEMPEROR reduced trialも最近読んでみました。慢性心不全患者にSGLT2阻害薬を用いたstudyですが、心血管死+心不全入院の複合エンドポイントを減らしたというだけで、心血管死そのものは有意差つかず、結局のところ利尿剤だね、という以上のものではないように感じられます。
後付け感の強い研究プログラムに関しては、なぜこのような力が働くのか裏側で働く社会的な力関係に気を配らないといけません。最近だと明らかにエビデンスの不足しているアビガンが緊急承認されたのもその例でしょうか。臨床研究における製薬会社との力関係は注意しすぎてしすぎることはないと思います。
ある分野で「正しい」「正しくない」の議論をしようと思うと、相当数の広い視野で論文を読み込まないと何も言えないようにも思います。ただ、薬を使う対象が患者さんという人間である以上、科学的に正しいかどうか分からない「より良いかもしれない薬」を使うよりは、年月を経て科学的に正しいと分かっている「ある程度は良い薬」を使う方が良いのではないでしょうか。もちろん他の手を使い果たした時や、個人の病態から想定される正しさがあれば、積極的に良い可能性のある薬を使うのは良いと思いますが。
結局、各分野ごとに膨大な文献が必要となるわけで、冒頭の研修医の先生の問いに答えるには、「我々には簡単にはわからないねえ、、、」というしょっぱい答えになってしまいそうです。
参考文献:
*1
P値のみで議論すんなよ、って話です。安宅和人の『シン・ニホン』で引用されてました。
*2『科学哲学の冒険』
P.53あたりを参考。文系男子と理系女子の会話を通して対話形式で科学哲学とはどう言うものか学べる本です。自分たちが思うような疑問を疑似的に議論を通して学べるので、おすすめです。
*3
今月の主題 内科診断の本道―病歴と身体診察情報からどこまでわかるか?/medicina49/9
この先生の書かれた『誰も教えてくれなかった診断学』も読みました。診断ということを根本から教えるのは大学でも多少やったような気もしますが、一番必要な臨床が始まってからは誰も教えてくれないような気はします。良い研修病院だとこうした教育もきっちりやるんでしょうか。
*4『科学哲学講義』
P.133あたりを参考。研究プログラム説も決して完全な説ではなく、研究プログラムの枠組みが個人によって違ったり、曖昧さがあるところが批判されています。
コメントを残す