第14回：「効く」を比べる

Erwin Brunio
2021年10月26日
読了時間: 11分

更新日：2021年12月6日

2021年10月26日

“えきがくしゃ” 青木コトナリ　連載コラム

「疫学と算盤（ソロバン）」　第14回：「効く」を比べる

最も価値のある選手

大谷翔平選手について名前も知らないという人を周囲で見つけることはかなり難しいミッションだ。彼の凄さはマスメディアにネットニュースに溢れ、それを素直に信じるなら世界で最も有名で最も影響力のある日本人である。また、彼がどれだけ凄いのかを的確に説明するというミッションもこれまた難しい。

野球のプロリーグでシーズン最後までホームラン王争いをしたピッチャーというのはそれが日本人であるかどうかは関係なく、彼が登場するまでは世界中の誰も見たことがなかったはずである。これがどれくらい凄いことなのか。比較するに相応しい選手はおらず、仕方なく担ぎ出されるのがベーブルースという“ありさま”であって、さすがに野球の創世記の選手を比較対照とすることには無理がある。

野球に限らず、その凄さ、偉大さを適切に語ろうとする際に私たちがよく使う技法は、他の誰かとの比較や過去の歴史との比較であり、「あの人を超えた」「全体で1位」「30年ぶり」といった表現となる。ただ、私たちやマスメディアが好んで使うこうした表現には公正なものかどうか疑わしいものも多い。

例えば大谷選手が今シーズン打った46本というホームランの数はメジャーリーグ全体としては3番目に多い数字ではあるものの、1位、2位の選手と比べれば打席数は1割ほども少ないし、そもそもホームランという指標自体が自軍の本拠地球場の広さに多大に影響するため公平な指標とは呼べない代物である。

今回は指標の話をしたいと思うのだが、大谷選手の凄さを1つの指標で語ることが難しいように、案外と指標などというものは公正な科学のような顔をしているが、実情は妥協の産物ということも多い。実際のところ、メジャーリーグの中で最も優れた選手に贈られるMVP（Most Valuable Player：最高殊勲選手）は種々の個人タイトルとは違って記者投票によるポイント獲得数という、極めて前近代的な指標で決定されることがその象徴ともいえるだろう。MVPを決める指標として「投票」よりもマシなものが無いというわけだ。

こうしたこともあってか、メジャーリーグにおける選手の能力を測る新たな指標の開発はめざましく、統計学的手法により近年開発された種々の指標をセイバーメトリクスと総称する。セイバーメトリクスの中でMVPの概念と相性が良さそうなのはWAR（Wins Above Replacement）といわれる指標で、これは当該選手が不在の際に他の標準的選手でどれだけ代替可能かという視点で計算される。

今はまだWARが洗練されているとは言えず専門誌間でもその算術式は異なるのだが、何れは記者投票からその権威を奪う日がくるかもしれない。因みにWARの1位を自動的にMVPとするならば大谷選手が獲得することになる。

効き目を比べる指標

先回は基本に立ち返って「クスリが効くとはどういうことか」、それが感染症や慢性治療、癌治療といった疾患領域の違いによって実は多様性があることを概観したところである。概念が違うが故に各々の領域において医薬品を承認して良いかどうかを既存の治療と比較するにしても用いる指標もまたそれぞれ違ってくることになる。

また、先回触れたように「効くかどうかではなく、有用かどうか」を比較する必要性が生じる場合もあり、この分野は野球のWAR同様、新たな指標の開発に最もホットな分野でもある。こうした疾患領域や概念領域の違いにおいて利用される指標は多種多様で到底説明しきれそうにないのだが、方向性としては大きく下記の2つに分類することが出来るように思える。

（１）アウトカムが起きたか、起きなかったか

（２）アウトカムがいつ起きた（起きる）か

アウトカム（outcome）という言葉を聞き慣れない人は、イベントと読み替えていただいても大きな問題は無いだろう。日本語訳すれば「結果」であり、当該の治療をした後におこる様々なイベント－副作用だったり、病状の回復だったり～の中で研究の主役を張るイベントといったところだろうか。

要するに治療の帰結的なものである。同じ分野であっても研究目的によってアウトカムはそれぞれ１つには定まるとは限らない。これは先回の「効くとはどういうことか」という議論と密接に関係しており、例えば感染症治療であれば「体内のウィルス消失」と「容態の解消」が、癌治療であれば「癌細胞の拡大（増悪）」と「死亡」といったところが、研究のアウトカム候補となる。

アウトカムは良いイベントも悪いイベントも有り得る。上述の通り癌治療は主に悪いイベントをアウトカムにしがちであるが、治療成績の良好な領域であれば「癌細胞の完全消失」もアウトカムに成り得る。一方、ワクチンや予防薬のアウトカムはベースが健常人という場合を想定するので、PCR検査陽性や疾病発生、入院（しないといけないほどの重篤化）など悪いアウトカムで比較するより仕方なさそうである。

また、有用性を比較する場合においてもアウトカムを基軸にした指標で比べることには変わりなく、「有用度が悪くなった/良くなった」といった容態変化の概念、例えば、「日常生活に支障が生じるようになった時点をアウトカムと定義する」といった具合である。

さて、そのアウトカムが起きたかどうかという頻度に着目して「効く」かどうかを調べたいという頻度論と、そうではなくそれがいつ起きたのかに着目して時間軸の違いで「効く」かどうか調べたい場合とがある。それぞれ概観してみよう。

（１）アウトカムが起きたか、起きなかったか

研究対象としてその土地に住む何百万人もの人を何世代にもわたって調べるといった、ごく一部の大がかりなコホート研究を除けば、病気の様子を観察出来る時間には限度があるのが常だ。ワクチンが「効いた」かどうかは、前述の通り「感染した」ことをもってアウトカムとすることが一般的であり、その観察期間を1ヶ月にするのか、あるいは3ヶ月にするのか、それとも半年みるべきかといったように大いに悩むことになる。

観察期間が短くて済むならば有益なワクチンを世に出せる日を早くすることが出来るが、かといって1週間程度で評価するのは無茶である。いずれにせよその当該の観察期間において対照群と比して「感染した」人の割合が有意に低いことを確認する。発生割合を指標とするというのは、「感染したかどうか」は気にしてもそれが「いつ起きたか」は効くかどうかの判定には使わないということでもある。

骨粗鬆症治療薬などもいわば”骨折予防薬”ともいえることから、「骨折」なるアウトカムが観察期間内に起きたかそれとも起きなかったかを気にする研究デザインとなる。また、骨折をアウトカムにするならば観察期間内に1人で何回も骨折するという、複数のアウトカム発生例も生じる。

治療目的にもよるのだが骨粗鬆症の領域では人年（person-years）を単位とした頻度論で比較することが多いようである。この人年法（じんねんほう）というのは平たくいえば人のあたま数と時間との掛け合わせを分母とする頻度論のことであり、つまり1人の人の2年間の観察と、2人の人の1年間の観察を同じものとして扱う。当然、この指標では半年後の骨折も1年後の骨折もその時期の違いは評価対象とならない。

（２）アウトカムがいつ起きたか

上記のように、起きたかどうかではなく、いつ起きたのかということが重要となる場合を代表するアウトカムは「死亡」だろう。骨折とは違いそれが半年後に起きるのかそれとも1年後に起きるのかを決して同じことには出来ない。半年の延命にしか寄与しない治療と比べたら、1年の延命に寄与する治療は極めて「効いた」ことになるだろう。

因みに、こうした時間軸を気にしたアウトカムの場合は同じ研究の帰結ではあっても、イベントの呼称をアウトカムとは言わず「エンドポイント」と呼称する方が一般的でもある。日本語ならば「終点」となろうか。癌の場合は前回も「無増悪」「生存」という、2大イベントの取扱いに触れたが、高血圧や糖尿病などは、さすがに「生存」、つまりいつ死亡したのかまで観察はしきれないことが多いので、「心血管イベント」「透析開始」などがエンドポイントとしてよく採用される。

頻度論の骨折イベントとは違って2回も3回も起きるものを「終点」とはせず、基本的に1度そのエンドポイントが訪れたら観察終了となる。ただし、「増悪→死亡」「心血管イベント→死亡」という順序は不変であり、死亡を主役としたデザインならば死亡をプライマリーエンドポイント、心血管イベントの方をセカンダリーエンドポイントといったように呼称し、同列ではないものの“準”終点として重要な参考情報としての指標の役割を果たすことはある。

既にお気づきになったかもしれないが、死因は多様であり、然るに「心血管イベント→死亡」と「癌の増悪→死亡」とでは求めている「死亡」は違うものである。慢性疾患の終点として「心血管イベント→死亡」を観察したい場合、死因が心血管イベントに直接関係したものでないと研究デザインとしては“困る”ことになる。

この場合、癌の増悪による死亡であったり、交通事故死であったりすると慢性疾患の観察としてはそこで観察が残念ながら打ち切られたことになる。こうした”邪魔”は競合リスクと呼ばれ、逆に癌の研究であれば心血管イベントによる死亡の方が競合リスクであり、そこで研究観察としては打ち切られてしまう。厄介なのは競合リスクなのか、エンドポイントなのか、何とも判断に困ることがあることだ。

例えば、慢性疾患の治療中の人が自動車を運転している際に心臓発作が起きてハンドル操作を誤っての交通事故死ということもあるわけで、後ろの座席に乗っていての交通事故死とは違い、もしそうだとしたらその死は打ち切りではなく「終点」が観察されたとしないと正しくない。

こうしたことから、競合リスクに該当するものは「その時点でエンドポイントが発生したとしたら」という前提で、主たる解析とは別に念のため補完的に解析することも多く、これを感度解析～条件を差し替えてみても結果が大きく揺らがないかどうかの“感度”を確かめる～という。

さて、（１）でみたような、起きたか起きなかったかという場合の解析は至ってシンプルである。２つの治療群別にアウトカムの有無で集計表を作り、有意差検定によって有意な差が生じたかどうかを確認する。これに対して、いつ起きたのかで話が全然違ってくるうえ、しかも途中で観察がしばしば打ち切られてしまうといった課題を取り扱う。

これは統計学分野の中でも特徴的なようで、こうした課題解決の解析を「生存時間解析」、そして医薬分野の統計学を「生物統計学」と呼ぶ。また、（１）のように頻度表ではうまく表現しにくいためもっぱらグラフ描写となる。

図のようなグラフを見たことがあると思うが、横軸を時間軸とし右に向かって時間が経過する中で、エンドポイントがまだ発生していない人の人数を数えて描写する。時点0では誰一人、エンドポイントが発生しておらず日が経つにつれて、1人、また1人とそれが発生していくのだが、「生存時間解析」という名前が付けられたように、そのエンドポイントが「死亡」のような「悪いアウトカム」を当初から想定していたせいか、徐々に右肩下がりになる（「良いアウトカム」等において右肩上がりで描写することもある）。

図のように２つの治療で下がり具合が大きく異なるならば、ゆっくりと右肩下がりしている方の治療が優れている、と解釈することができる。生存解析のグラフ描写や方法論の話は、またの機会としよう。

悲しき主観的指標

本コラム執筆時点では、まだ今年のメジャーリーグにおけるMVPが誰になるのかは発表されておらず、只今はアメリカン・リーグとナショナル・リーグの各地域で勝ち上がったチーム同士でNo.1を決めるポストシーズンの真っ只中である。“えきがく”的に好感が持てるのは、このポストシーズンに入る前に必ずMVPの記者投票が済まされる運用であることだ。

人間の認知はゆがみがちで、仮にレギュラーシーズンでは大活躍した選手であってもポストシーズンで極度の不調になると、レギュラーシーズンでの活躍に対する公正な比較に支障が出てくる。それどころかチームが弱いためにポストシーズンに進むことが出来なかっ

たチームの選手との比較においても中立性が損なわれる恐れがある。故にシーズンでの成績を純粋に比較するにはポストシーズンに入る前が最適であり、こうした科学的に公正さを保つ視点を日本でも見習ってもらえたらと思う。

それでもなお主観評価は悲喜こもごも、評価者間の意見の相違が折り合うことはなく、私にとっては空前絶後の活躍をした大谷選手がMVPとして選ばれなければおかしいと思いつつ、果たしてそれが記者投票の結果と一致するのかどうか一抹の不安もある。

話は違うのだが、つい先日、恒例の都道府県の魅力度ランキングが発表されたのであるが、例年通り1位：北海道、2位：京都府、3位：沖縄県、（以降、4位は東京都、5位は大阪府、6位は神奈川県と続く）といった順位となった。

割と納得感のある結果にも思えるのだが、下位に沈んだ県の知事より「（自身の県を）低く位置づけることは県民に対し失礼だし侮辱している」という発言があったそうである。これも主観的指標の“悲劇”といえるのかもしれないのだが、失礼ながら少し失笑しそうにもなる。でも待てよ、もし大谷選手がMVPに選ばれなかったとしたら心穏やかでいられるだろうか～。人のことを笑うものではないな。

第14回おわり。第15回につづく

第13回に戻る