第9回：臨床試験という発明

Erwin Brunio
2021年10月14日
読了時間: 11分

更新日：2023年9月21日

2021年6月25日

“えきがくしゃ” 青木コトナリ　連載コラム

「疫学と算盤（ソロバン）」　第9回：臨床試験という発明

カフェオレとカフェラテの狭間に

コーヒーが好きだ。好きなのではあるがどうやら私の体質には合わないようで、カフェインの入っているコーヒーをブラックで飲むとほぼ確実に強い腹痛がくる。ところがここにミルク成分を加えることでその確率がかなり減弱することが経験則からわかっているため、常にカフェオレやカフェラテを求めて日々、暮らしている。ただ、コーヒーが好きだからといって味にうるさいかといえばそういうわけでもなく、コーヒー豆の産地を言い当てるなどといった芸当は持ち合わせていないし、それどころかカフェオレとカフェラテの区別すら心もとない。

統計学を生業にしている人たちの間では有名な「ミルクティ実験」という話がある。そこに出てくる婦人は、ミルクに紅茶を注いで作るミルクティと、その反対に紅茶にミルクを注いで作るミルクティとを味で判別出来るという達人である。これが作り話かどうかは定かではないが、パーティの席でその能力を豪語した婦人に挑戦したのが、統計学の父といわれる、かのロナルド・フィッシャーである。どちらの製法で作ったかを知らせずに、まずは1杯目を婦人に飲ませてみると、確かに婦人はズバリ正解を言い当てる。2杯目、3杯目もやはり正解する。この逸話は「Lady Tasting Tea（お茶を味わう女性）」として、ウィキペディアにも掲載されており、それによるとどうやらこの実験は8回行われたらしい。さすがに8回とも全て的中させたということになれば、周囲も婦人がミルクティの製法を判別できる能力を持っていると認めたことであろう。

このお話は今回取り上げる臨床試験という、人類の偉大な“発明”のコアな部分と直接つながっている。あまりに良く出来たお話であるが故に、ニュートンのリンゴの木の逸話よろしく私には作り話にも思えるのだが、それを確かめるというのも野暮だろうし確かめられる術も無い。それならばむしろそのミルクティ実験という逸話に今回は助けてもらいながら、前回のテーマであった「確かめること」、そして「医薬品と認可してよいことを確かめる手段」として確立した、臨床試験のお話を眺めてみることにしよう。

「あわて者の誤り」再び

前回、幾度も登場した「あわて者」に今回も登場してもらおう。せっかちなこのタイプの人ならば、もしかしたら1杯目のミルクティのテイスティングを的中させただけで、「おお、本当に味の違いを判別出来る人だ！」と確信するかもしれない。さすがに1杯だけでは偶然的中する可能性は50％あるので、ここまでの極度な「あわて者」はレアかもしれないが、それが3杯連続となったらどうだろうか。当てずっぽうで3杯連続的中する確率であれば、50％×50％×50％＝12.5％であって、ここまで偶然ということは少々考えにくくなってくるので、この段階で婦人が確実にテイスティング出来ることを確信するかもしれない。

皆さんならば何杯目の的中をもってしてこの婦人のテイスティング能力があることを確信するだろうか。もちろん、8杯連続で的中したからといって、100％、この婦人にテイスティング能力があると断定することが出来ないのは、前回みてきたところの帰納法と同様の限界があるところだ。何百万羽のスワンをみてそれが全て白色であったとしても、地球上のスワンが全て白色とは限らない。極めてわずかながらも「あてずっぽうである可能性」をゼロにすることは出来ないのである。

とはいえ8杯も連続的中したからといって、「いや、まだわからない」としたのでは、あまりにも「ぼんやり者」感が過ぎるというものだろう。あわて者の誤りと、ぼんやり者の誤りのバランスを最適化する方策、テストする回数。フィッシャーはこのロジックから、妥協できる適切な実験回数とは何回だろうかという合理的な方法論を提案した。これが統計学分野でいうところの「有意差検定」という方法論として、今でも医薬品の候補物質を医薬品として認可するかどうかの判定テスト、つまり臨床試験に使われているのである。

有意差検定とは

有意差検定のロジックをミルクティ実験のお話を例にとって整理してみよう。例えば3回テストして3回とも正解となったとすればその確率はどの程度だろうか。「いや、さっき12.5％という計算をしたでしょ」というのは早合点である。実は計算を成立させるには前提をおかなければならないことに気づく必要がある。

例えば「この婦人が100発100中で当てられるとしたら」という前提をおいたら、3回テストして3回とも正解する確率はどうだろう。そう、この前提ならば間違える筈はないので100％ということになる。12.5％とはならない。白い碁石しか入っていない箱から黒い碁石を取り出すことは出来ず、幾度取り出しても白色であることと違いがない。また、「この婦人が90％程度の確率で言い当てることが出来る」としたならばどうだろうか。今度は90％×90％×90％＝73％の確率で3回中3回正解となる。

つまりどのような前提とするかによって「3回中3回当たる確率」は変動するのだ。故に「この婦人にテイスティング能力があるとしたら」という前提を置くには、百発百中しかこれを認めない立場や、十中八九であってもテイスティング能力があるとする立場もあるので、前提を合意することにわざわざ議論が必要となってしまうのである。

有意差検定のロジックはその意味で“へそ曲がり”にならざるを得ない。具体的にはテイスティングであれば「的中させる能力」、クスリであれば「効く能力（薬効）」という方向にむしろ興味があるのに、その逆の方向の「的中させる能力がないとしたら」「全く効かないとしたら」を前提とした確率計算をするのである（これを「帰無仮説」という）。ミルクティ実験の例では3回テストして3回とも正解をした、その確率は「的中させる能力がない」、つまり「当てずっぽうだったとしたら」を前提として50％×50％×50％＝12.5％という計算を行い、この12.5％が珍しいことなのか、それともさほど珍しくないことなのかを論じるのが有意差検定の論理の骨格である。

P値

お気づきのことだと思うが、この3回とも正解、という段階で「テイスティング能力がある」と判断したことが裏目に出て、4回目、5回目を外し、とうとう当てずっぽうだったとなったときの誤り、エラーは「あわて者の誤り（第一種の過誤）」である。反対に「いや、まだわからない」としてしまったことはこのお話が最後には「婦人にはテイスティング能力がある」という結論になっているので、「ぼんやり者の誤り（第二種の過誤）」の類ということになる。

一般的な感覚でいえば「いやいや、さすがに“ぼんやり者”、“誤り”と断罪するのは厳しすぎないだろうか」と思われる人が多いかと考えるが、ビジネスシーンにあっては優秀な学生の青田買いや、建築前のマンションの購入など、ライバル（競合）がいる状況下にあっては「いやまだわからない」とすることが不適切ということはままある話でもある。

もう少し話を進めて、4回中4回的中、5回中5回的中した際の「当てずっぽうであったと仮定して」その珍しさを計算してみよう。4回中4回的中は50％×50％×50％×50％＝6.25%、5回中5回的中は50％×50％×50％×50％×50％＝3.125％と、3回的中時の12.5％と比べると随分とレアになってくることがわかる。このような確率のことをProbability(確率)の頭文字をとってP値（ピーチ）と呼称し、12.5％ならばP値はp=0.125、3.125%ならばP値はp=0.03125と表記する。

要するにP値とは「珍しさの度合い」を算出しているのであって、有り得るパーセントがP値と考えればよい。さて、5回中5回も的中させたのだから、この段階でも「いや、まだわからない」とするのは、ぼんやり者感が過ぎるのではないだろうか。フィッシャーは統計学者ではあるが、この最もコアな白黒判定の線引きのところを数理ではなくこの“人間的な感覚”を採用することを提案し、「有意水準」とした。

さすがに基準であるからしてテスト開始前にこの有意水準を決めないでやると、「あわて者」と「ぼんやり者」が全員合意できるとは思えない。そこでテスト、つまり医薬品として認めるかどうかを決める前の臨床試験を開始する前にその線引きの基準を決めておこうというのである。因みにこの有意水準は臨床試験においては5％とすることが標準であるが、他の用途や産業ではこれを1％としたり10％とすることもある。ただ、やはり5％とするのがつまり「4回中4回的中（6.25％）」では、「いや、まだわからない」とし、5％を切る「5回中5回的中（3.125％）」をもってして「婦人にはテイスティング能力がある」とするという感覚の人が多勢では無かろうかということから、有意差検定では有意水準に5％を採用しているケースが圧倒的である。何より、正しい有意水準は何かではなく、あらかじめ有意水準を決めておくことこそが、有意差検定を正しく行うための必要不可欠な流儀なのである。

テストの回数とヘルシンキ宣言

今度はテストの回数について考えてみよう。今、まさにワクチンやCovid-19治療薬の承認をする/しないという話が人類共通課題であり、テストをする人の数が少なくて済むならばいち早くその判定が可能、つまり私たちがワクチンや薬を接種できるようになる日が早く訪れるということになることは想像に難くないだろう。

ただ、一方でミルクティ実験の婦人に本当にテイスティング能力があるかどうかについては、やはり5回中5回的中よりも8回テストした方がより確証が持てるというものだ。実際に8回中8回的中というのは、これが当てずっぽうだとしたら50％×50％×50％×50％×50％×50％×50％×50％＝0.3901％（p=0.003901）であり、ほとんど信じられない「当てずっぽう力」である。

言い換えれば「当てずっぽうだとは到底、考えられない」ことがかなりの確証度をもって示される。その意味においてはこれがもしワクチンや医薬品の承認申請という場面ではなく、例えば企業ホームページのレイアウトをAにするか、それともBにするかといったビジネスシーンでテストしようとなれば、有意水準を5％ではなくとも1％あるいはさらに厳格に0.1％とするという立場も悪くないだろう。こうしたビジネスでの有意差検定を応用したテストは「A/Bテスト」と呼ばれる。

一方、臨床試験におけるテストの回数をどうするかという課題には、医薬品を市場に出す早さの問題とは別の側面として、倫理の問題がある。人でテストする前段階において、動物を使った毒性試験などを想像すればテストの回数を最小限にしようという努力の意義は理解出来るだろう。人でのテストも同様であり、前述したようなA/Bテストの論理だけでは実施が出来ないし、実際のところはAという治療が選ばれた人が途中でBの治療に変えて欲しい、となればテストの精度云々ではなく、その人の意向を尊重するべきであることは倫理的にみて疑いがない。

人類は過去の黒歴史の中でいわゆるこうした人権を無視してテスト計画を強行に続行するといった人体実験の反省があり、「テストより人権が優先」というアタリマエはヘルシンキ宣言によって人類の教訓、共通認識となっているのである。

課題山積

ここまで、臨床試験のコアとなる有意差検定のロジックと、一方で社会的にも倫理的にも大きな課題である「何人（ミルクティ実験であれば「何回」）でテストをするのか」を概観したところであるが、課題はこれだけでは済まない。そもそも「どれだけ珍しいか」の確率計算そのものが実践では結構複雑であって、たとえばミルクティ実験において「もし8回のテストで7回は正解し1回だけ間違ったとしたら、この婦人にテイスティング能力があるといえるか」としたらどうだろうか。

この計算は8回連続的中ほど簡単ではなく、しかもP値とは「珍しさの指標」なのだから「1回だけ間違う確率」をP値とするのは合理的ではない。1回のミスを許すとしても珍しさの方向性が同じ「間違いが1回以内となる確率」、つまり「間違いが0回」も仲間に入れてP値を計算する必要がある。計算式は省略するがこの確率は3.5156％（p=0.035156）であって、有意差検定でいうならば、「当てずっぽうであったとして1回以内（1回または0回）しかミスしない珍しさは5％未満であるので、やはり婦人にはテイスティング能力があるといえる」となる。

その意味において冒頭、「まず1回目で当てた。次に２，３回目も当てた」と表現していることを厳格な疫学専門家や生物統計専門家はスンナリとは読み流せないかもしれない。というのは「最初に婦人や周囲のギャラリーに対して8回テストをします、という合意がされているのかどうか」でこの実験計画、テストの設計は様相が随分と変わってくるからである。

具体的には、仮に婦人が実際のところ百発百中ではなく十中八九の的中力であったとして、運悪く最初のテストで外したケースを考えてみて頂くとイメージしやすいだろう。はじめにテストを何回行うかの宣言をしていなかったとしたら、ひょっとしてこの1回目の婦人の痛恨のミスが発生したらテストはそこで終了、婦人は不幸にも大ホラふきというレッテルを貼られてしまうかもしれないのである。

また、そもそも、ミルクティをテイスティング出来る能力というのは百発百中のことを指しているのか、それとも十中八九のことをいうのかという合意がなされていないという課題を軽視しているともいえるだろう。医薬品であれば「効く」とはどういうことなのか、100人中100人に効くということなのか、それとも100人中の２，３人に効けばそれでよいのか（他に全く治療方法がなければこれでも医薬品としての存在意義はある）。また、ミルクティ実験とは違い我々ヒトは々に違いがあるのにそれを同一人のようにしてテストすることに問題は無いのか等々。加えて「プラセボ効果」という言葉で有名な、思い込みという課題も大きい。有意差検定という、コアなところの武器は手に入れたものの、課題はまだ山積みだ。今回はここでコーヒーブレイクとし、このお話は次回に持ち越すことにしよう。

（了）　第10回につづく

第8回に戻る