第12回：エスティマンド（estimand）って何？

2021年8月30日

“えきがくしゃ” 青木コトナリ　連載コラム

「疫学と算盤（ソロバン）」　第12回：エスティマンド（estimand）って何？

東京オリンピック

　開催について賛否両論のあった東京オリンピックであったが、どうにか無事に閉幕したことについては開催国の国民の一人として、世界に対する責務を果たしたという意味において何故だかホッとしている。どの大会にあっても開催国は突如としてメダル数が増えるというのがオリンピックの特徴ではあるのだが、ほとんどの競技において無観客で行われるということになったと聞いて、「声援」という後押しが無くなれば地の利も大きくないので日本のメダル獲得数は予想よりは少なくなるのでは、なんてことを予想していたところである。

　フタを明けてみると全くもってその予想は良い意味で覆され、結果的には金メダル27個を含む58個となった。最近のオリンピックと比べてみると以下のような結果である。

開催国がいつもの大会よりもメダル獲得数が増える要因は競技種目の選択権にもある。今回久しぶりに競技種目として採用された野球やソフトボール、また新たに採用された空手、クライミング、スケボー、サーフィンなどはそもそも日本にとって“得意科目”であり、「声援」は聞こえなくても日本の好成績を後押ししたことは疑いの余地が無さそうではある。

　それにしても、私がメダルの獲得数を予想するというのは恐らく世の中にとってどうでもよいことである。自分でもどうして予想をするのかその心情はよくわかっていないのだが、このようにして私たちは日頃、色々と予想をする。コロナがいつ収束するのかとか、今日の天気予報がどうだという予想は我々の生活に直結するので重要であるが、クイズ番組の3択問題でAかBかCかを予測するなんて何も意味がないだろう。「いやいや、知識獲得のチャンスだ」なんていう反論もあるかもしれないが、サッカーや野球の先発メンバーや打順を誰に頼まれているわけでもなく勝手に予想することなど、さらに上（下？）を行くどうでもよさがあるのだが、ファンにとってはそれがどうにもそれが止められない。恐らく予測することそのものがエンターテイメントだからなのだろう。

情報の欠落

　先回、少しだけ紹介した「estimand」は何故だか未だに日本語訳もされなければカタカナ表記ですらない。日本語にすると「見積もり」ということになるようだが、恐らくそのまま「見積もり」とは翻訳できないニュアンスが含まれているからそのようには翻訳できないということの裏返しでもあろう。そもそも私たちは日本語の「見積もり」の正式な定義を知らないばかりか、「予測」「予想」「推定」「推測」といった言葉の違いすらニュアンス的な違いで使っている人がほとんどであろう。　ましてやそれが英語と完全に1対1に紐付けられているという期待は出来そうに無いのであるから、こうした概念的な言葉が“輸入”されようとする際は何かと苦労するところである。臨床試験の成否を決める、あるいは存在価値そのものを決めるキーとなるのが「欠落した情報をどのようにして処理するのか」である。ザックリとした解釈でいえば、estimandとはこのことだと理解しておけば困らないだろう。

　ただ、今度は「情報の欠落」という言葉が誤解を招く可能性がある。これまで触れてきた臨床試験の代表選手、無作為化二重盲検法の実施に際しては、データの獲得について綿密な管理が施され、データのねつ造が入り込む余地どころか、記載ミス、記載不備の心配も最小限に抑えられる運用がなされている。　臨床試験専門に臨床試験コーディネーター（CRC、Clinical research Coordinator）、臨床試験モニター（CRA、Clinical ResearchAssociate）、臨床試験医師なる専門の職業があり、こうした専門家は得られるデータに責任を背負う（日本では臨床試験専門の医師ではなく臨床医がこれにあたる）。これだけ莫大な手間ひまと専門性を導入しているのであるから、情報の欠落といっても、「あ、記入し忘れちゃった」というようなことが問題なのではない。具体的な課題となるのは（１）研究計画からの逸脱例（２）反事実（３）一般化、といった種の“高尚な情報欠落”なのである。今回は臨床試験におけるこうした「情報の欠落問題」とその対策を整理してみよう。

（１）「研究計画からの逸脱例」への対処策

　前回触れたように臨床試験で用いられる無作為化をすることでA案とB案と、どちらがよいのかを判定するA/Bテストなるものがビジネスでは用いられることがある。また、これを国や自治体による政策決定に用いようとするものは、EBPM（Evidence-Based PolicyMaking、科学的証拠に基づく政策決定）と呼称される。これらと無作為化二重盲検法との大きな違いは、盲検化の重要性と研究対象がモノ・サービス・政策ではなく、私たち人間そのものであるという点にある。

前者については以前コラムでも取り上げた通り、プラセボ効果を排除するために臨床試験では極めて重要である一方、A/BテストやEBPMではその必要性が高いことがあまりないためこのような違いが生じているのだが、後者は「人権」つまり倫理に基づくところの違いである。具体的には研究対象となった人たち（被験者）が、試験の途中で気が変わってしまい、被験者を辞めたいといえばいつでも辞めることが出来る。　この場合、より問題が複雑になるのは、当該の被験者は特に医薬品として承認する/しないのフェーズ（第三層臨床試験）であれば健常人であるということはなく、当該の治療薬候補が対象としている病気やケガをしているため、被験者を辞めるとしても以降、何の治療も施さないわけにはいかないところにある。およそ現代の臨床試験では、治療薬候補は現時点での標準治療と比べて優れるかどうかというデザインであるため、つまり単に被験者を降りるだけではなく、逆側の、つまり比較対照側の治療に切り替えたいということになることも多い（逆に標準治療薬群から新薬候補群に切り替えたいというニーズもある）。　さて、このような被験者を当該の臨床試験ではどう扱ったらいいだろうかというのが、ここで問題となる「情報の欠落」、つまり研究計画通りにその人が被験者であり続けていたらどういった治療成績になったかという情報が欠落するのである。　これは何もestimandという言葉が“輸入”されつつある今に始まった問題ではなく、古くからの問題であり、対策としてITT解析（Intention to treat analysis）という“妥協策”がとられる。具体的にいえば「途中で被験者から降りようが、対照群に切り替えようが、とにかくその人は最初に割り当てられた治療群の仲間として解析する」策だ。つまり「A薬とB薬を比べる試験なのに、途中でA薬群からB薬群に変わった人も全員A薬の治療効果として使う」のであって、恐らく多くの人にとってみれば直感とは合わない、違和感のある方法論だろう。A薬群の治療成績は表1でいうところの1行目、71％ではなく3行目の65％を使うのがITT解析である。

　何故このように直感とは違うことをすることが“正しい”のだろうか。それは「無作為化したときの情報が比較するうえでもっともフェアであるから」である。以前、本コラムでも100例中50例がヒドい副作用のため途中で治療を辞めてしまったとしたら残りの50例中40例が有効であったとして有効率80％（40/50例）というのがだとうだろうかという例を紹介したが、その場合を再考してみよう。

この場合、脱落した50例を分母に加えて100例中40例が有効ということで有効率40％（40/100例）とする立場もあろうことは了解頂けるのではないだろうか。何より脱落例というのは扱いが難しいのであって、ITT解析も“妥協策”であることから、表でいう30例を外した1行目の71％を使うといった解析も“参考までに”実施されることが常である。こちらはITT解析と対比してPer protocol解析（実施計画に適合した群の解析）と呼ばれるが、「研究計画からの逸脱例」対処策としては、ITT解析が主、Per protocol解析は“脇役”とすることが基本となる。（２）「反事実を観察出来ないこと」への対処策「反事実」などという表現は日常会話で出てくるものではなく、パラレルワールド、SFの世界や、あるいは哲学の世界の雰囲気があるのだが、何のことはない、表2でいえば「？」としているところが「情報の欠落」としてとらえる考え方のことである。

　この表では被験者01から04の4名がA薬（たとえば新しい治療薬候補の投与群）、被験者05から08の4名がB薬（たとえば標準治療群）として臨床試験が実施された想定である。当然のことながら被験者01から04の4名の方は「もしB薬が処方されていたらどうなっていたか」が不明であるし、被験者05から08の4名は「もしA薬が処方されていたらどうなっていたか」が不明である。

　「もしも」の世界、パラレルワールドがあるならば全く同じ時間にA薬を処方された被験者01と、B薬を処方された被験者01とが観察され、それであるならば何も無作為化などをすることなく、簡単にA薬とB薬の治療効果を比較することが出来る。私たちも人生の中では「もしも」の分岐点が幾つもあり、就学、就職、結婚、出産、引越し等々、「もし逆の選択をしていたら」と想像することもあろうが、それは叶わないことである。　臨床試験の「情報の欠落」問題として、研究デザインをこのようにして「反事実」としてとらえる考え方があり、この捉え方によるアプローチとしてのフェアな比較のための解析方法が提案されている。これについては何れまた触れたいと思う。

　（３）「研究結果の一般化」への対処策

人権、倫理の問題にも通ずるのであるが、臨床試験に超高齢者や乳幼児、妊婦、あるいは重い合併症を患っている人を入れるということは基本的に考えられないことである（もちろん、そのような人を対象とした病気の治療薬ならば別だが）。臨床試験の結果で医薬品として承認して良いかどうかを決めるに際して、5TOOsなる言葉が知られている。

　こうした限界のある臨床試験での成績をもってして医薬品やワクチンが承認されるということは、只今のCovid-19ワクチンも然りであるが、実際の世界で何が起こるのか、どうしても予測不可能なところが多々生じてしまう。　このような課題は「研究結果はリアルな臨床現場で本当に再現されるのか」という、結6果の一般化問題であり、これもまた重大な「情報の欠落」問題である。対処策として「全てがクリアになるまで医薬品もワクチンも承認してはならない」としたのでは恐らく世界中のワクチンも医薬品も二度と承認されなくなってしまう。販売された後に手厚い監視（ファーマコビジランス）をすることが最良の打ち手であることは疑問を挟む余地が無いだろう。

次のオリンピックへ

　オリンピックの最終日にはマラソン（男子）が開催されることは“お約束ごと”である。かつてはメダル争いをするレベルにあった日本の男子マラソンも今や昔、実業団や大学駅伝などをみてもアフリカ勢と競うことが出来る選手はもはや皆無であり、日本人のメダルを期待しながらオリンピックのマラソン競技を見ることはしなくなって久しい。それでも今大会での大迫選手の走りは素晴らしく、「ひょっとしてメダル争いも？」なんていう期待を持てるシーンがごくわずかな時間ではあったが、確かにあった。　大迫選手はこれにて引退ということで大変残念ではあるが6位という結果をもってして「次の世代につながるレースになった」というコメントをされていたのは印象的である。ただ、残念ながら他の日本代表選手2名は実力を発揮できずそれぞれ62位、73位という結果であったので、普通に考えれば大迫選手の引退によってむしろ次の世代につながらなくなるのではとも思える。　とはいえ、何れはまたマラソン競技でも日本がメダルを争ってくれる時代がやってくることを期待したい。ただ、それは大迫選手のいう「次の世代」ではなく、アフリカ出身の選手が日本に帰化するといったヒストリーではないかとも思う。・・・・。またどうでもいい予想をしてしまった。

（了）　第13回につづく

第11回に戻る

電子書籍『疫学と算盤』ダウンロードはこちら　　→