本ページの各項

有効な治療法を明らかにする方法

本章の目次

科学としての医学

執筆者：Brian F. Mandell, MD, PhD, Cleveland Clinic Lerner College of Medicine at Case Western Reserve University

レビュー/改訂 2024年 7月

プロフェッショナル版を見る

医師たちは、何千年にもわたって人々の治療を行ってきました。医学的な治療の最も古い記録は、3500年以上前の古代エジプトのものです。それ以前にも、ヒーラーやシャーマンと呼ばれる人たちが、病人やけが人に薬草などによる治療を提供していたと考えられています。一部の単純な骨折や軽いけがに用いられたものなど、いくつかの治療法は実際に効果があるものでした。しかし、最近になるまで、効果のない医学的治療が多く行われ、なかには有害なものもありました。

200年前には、幅広い病気に対する共通の治療法として、静脈を切開して500ミリリットル以上の血液を抜き取る治療や、様々な有害物質を投与して嘔吐や下痢を引き起こし体から病気を追い出す治療など、病人やけが人にとって危険な治療法が広く行われていました。本マニュアルのおよそ125年前の版には、アスピリンやジギタリスなどの有用ながら有害になる可能性がある薬剤とともに、コカインがアルコール使用症の治療薬として、ヒ素やタバコの煙が喘息の治療薬として、硫酸の鼻腔スプレーがかぜの治療薬として記載されていました。当時の医師たちは、これらが患者の助けになると考えていたのです。もちろん、当時の医師たちに現在私たちが知っている知識を期待するのは公平ではありませんが、なぜ医師たちはタバコの煙が喘息の人に有益だと考えたのでしょうか。

なぜ過去に医師たちはそのような効果のない（ときに有害な）治療法を勧め、患者はそれを受け入れたのか、それには以下のような多くの理由がありました。

一般的には、代わりとなる効果的な治療法がなかったため。
医師と患者は多くの場合、何もしないことよりも何かをすることを好むため。
患者は問題をその道の権威に委ねることで安心できるため。
医師は多くの場合、切望される支援と安心感を患者に与えようとするため。

しかし最も重要なことは、薬剤や手技が系統立った正式な臨床研究によって厳密に評価されていなかったために、医師がどの治療法が有効であるかを確信できなかったことです。

治療と回復：原因と結果

ある出来事が別の出来事の直前に起こった場合、人は普通、最初の出来事が次の出来事の原因であると考えます（これは因果関係と呼ばれます）。例えば、壁にある表示のないボタンを押したときに、そばにあるエレベータのドアが開けば、その人は普通、そのボタンでエレベータを操作できると考えてしまいます。このように複数の出来事を関連づける能力は、人間の知能の重要な部分であり、私たちの世界観の大部分に関わっています。しかし、人は何もないところに因果関係があると考えることがしばしばあります。これは、運動選手が大きな試合で勝ったときに着用していた「幸運の」ソックスを何度も履き続けたり、学生が試験で同じ「幸運の」鉛筆を使い続けるのにこだわったりすることの理由です。

この考え方は、効果のない治療法が効くと考えられていた理由でもあります。例えば、医師が500ミリリットルほど血液を抜き取った後やシャーマンが呪文を唱えた後に病人の熱が下がれば、人々はそれらの行為によって熱が下がったに違いないと自然に考えました。必死に救いを求めている人にとっては、よくなったという事実だけで完全な証明になっていたのです。残念なことに、初期の医術で観察された見かけ上の因果関係が正しいことはまれでしたが、そこにあった信念は、効果のない治療法を数世紀にわたって永続させるには十分でした。なぜこのようなことが起こりえたのでしょうか。

ときに、人の体は自然に回復に向かうものです。壊れた斧や破れたシャツなど「病める」無生物は誰かが修理しなければ壊れたままですが、これとは異なり、病気の人は体の自己治癒力や病気の自然経過により、しばしば自然に（主治医のケアに関係なく）回復に向かいます。通常、かぜは1週間で、片頭痛は典型的には1～2日間で、食中毒の症状は12時間で治まります。また、たとえ心臓発作や肺炎など生命を脅かす病気であっても、治療を受けることなく回復する人もいます。慢性疾患（喘息や鎌状赤血球症など）の症状は出現と消失を繰り返します。そのため、十分な時間さえあれば、多くの治療法が効果的に見える可能性があり、それが自然治癒の直前に行われれば、どのような治療法も劇的な効果があるように見えてしまいます。

プラセボ効果が関係する場合もあります。人は治療の効果を信じるだけで、体調がよくなったように感じることがしばしばあります。効果を信じることで骨折や糖尿病などの基礎疾患を消滅させることはできませんが、強力で効果的な治療を受けていると信じている人は、体調がよくなったと感じることが非常に多くあります。砂糖の錠剤のように、有効成分を何も含まず有益であるはずがない錠剤（これをプラセボといいます）でも、それを薬と思って飲むと、痛み、吐き気、脱力などの多くの症状が軽減する可能性があります。信じることの影響は大きいということです。プラセボ効果はときに逆効果となることがあり、臨床研究で薬剤の代わりに砂糖の錠剤を投与された人が、ときに研究で検討した薬剤に関連する副作用を発現することがあります（ノセボ効果）。

効果がない（または有害ですらある）治療でも、自信に満ちた医師が信頼と希望に満ちた患者に対して行えば、しばしば顕著な症状の改善につながります。このような改善はプラセボ効果と呼ばれています。このように、人はその疾患自体に対して明らかな効果が認められたことがない治療から実際に（そう見えるだけではない）有益な効果を体験することがあります。最新の研究では、一部の疾患においては、プラセボ効果が実際の疾患を標的とするものでないとしても、プラセボ効果に生物学的な基盤があることが示唆されています。

なぜそれが問題なのでしょうか。なかには、重要なのは治療を受けた人が体調がよくなったと感じるかどうかだけだと主張する人もいます。治療が実際に「効いている」かどうか、すなわち根底にある病気（基礎疾患）に作用しているかどうかは重要ではないという主張です。確かに、問題が日々生じる痛みのような症状や、かぜのように普通は自然に治る病気であるのなら、この主張も合理的と言えるかもしれません。このようなケースでは、医師はときに、その病気に対する効果はほとんどないものの、代わりにプラセボ効果により症状を少なくとも部分的に軽減できる可能性のある治療を処方することがあります。しかし、危険な病気や重篤化する可能性のある病気がある場合や、その治療自体が副作用を引き起こす可能性がある場合には、本当に効果のある治療だけを処方することが重要になります。治療の潜在的な有益性と潜在的な有害性との間でバランスをとる必要があります。例えば、多くの副作用がある薬剤は、がんなどの生命を脅かす病気の患者には服用する価値があるかもしれません。一部の抗がん剤は腎臓や心臓などに重篤な損傷を引き起こす可能性がありますが、薬剤によるそれらの副作用よりも代替策の結果（治療をしない場合のがんの影響）の方が悪くなる可能性が高いことから、これらのリスクはしばしば許容可能と判断されます。

有効な治療法を明らかにする方法

はるか昔のこと、多くの疾患が自然に回復に向かうということに気づいた一部の医師たちが、治療を受ける人と受けない人で同じ疾患の経過がどのように変わるかを比較するようになりました。しかし、19世紀の中頃になるまでは、このような比較は非常に困難なことでした。疾患全般に関する理解が進んでいなかったため、複数の人に同様の症状があっても、それらの人が本当に同じ疾患をもっているのか判断するのが難しかったのです。

医師たちは、しばしば1つの用語をまったく異なる複数の病気に対して使用していました。例えば、18世紀から19世紀には、脚に腫れがみられる人には画一的に「dropsy」という診断が下されていました。しかし現在では、脚の腫れ（浮腫）は心不全、腎不全、重度の肝疾患など、様々な病気によって起こり、それぞれの場合で効果的な治療法が異なることが知られています。同様に、発熱と同時に嘔吐がみられる多くの人に「bilious fever」という診断が下されていましたが、現在では、腸チフス、マラリア、虫垂炎、肝炎など、様々な病気で発熱と嘔吐が同時にみられることが知られています。

20世紀初頭あたりからは、科学的な知見に基づく正確な診断体系が期待されるようになり、その頃になって初めて、医師たちは治療法を効果的に評価できるようになりました。しかし、この時点でも、治療法を最も適切に評価する方法は明らかにされていませんでした。そのために医師と臨床科学者は、臨床試験を含む厳密な方法を開発し、特定の疾患をもつ比較的多くの患者を対象として特定の治療法の効果を検討しました。このプロセスは、ヒトや集団における健康と疾患の複雑な関係について理解を深めるための臨床研究の基盤となりました。

サンプルサイズ

医師たちはまず、治療に対する反応を複数の人で検討する必要があることに気づきました。1人や2人がよくなっても（または悪くなっても）、それは偶然の結果かもしれないからです。多くの人で良好な結果が得られれば、それが偶然の結果である可能性は低くなります。治療を受けた人の数（サンプルサイズ）が多いほど、観察された有益な効果（ベネフィット）や副作用が本当にそうである可能性が高くなります。まれな疾患では、研究が比較的小規模になることがあります。一般的な疾患を対象として、小さな改善を求める場合は、数千人の被験者に臨床試験に参加してもらうことがあります。

対照群

たとえ大勢の患者で新しい治療法に対して良好な反応が認められたとしても、同じ数（またはそれ以上）の患者が治療を受けなかった場合に自然によくなるかどうかや、別の治療法を受けてよくなるかどうかは、依然として分かりません。そのため、研究対象の治療を受けるグループ（治療群）と以下の治療を受けるグループ（対照群）との間で結果を比較するのが通例となっています。

既存の治療
にせの治療（砂糖の錠剤のようなプラセボ）
治療をしない

対照群を設ける研究を対照研究と呼びます。

期間

医師たちはまず、特定の病気をもつ患者全員に一律に新しい治療を施した上で、それらの結果を、過去に（同じ医師や他の医師が）別の治療を施した患者で構成される対照群の結果と比較するようになりました。過去に治療を受けた患者は既存対照群とみなされました。例えば、マラリア患者の生存率がそれまで60％であったのに対して、新しい治療を受けた患者の生存率が80％であることが分かれば、研究者は新しい治療薬の方がより効果的と結論づけるでしょう。

過去の結果と比較をする場合、治療成績の改善が観察されたとしても、それぞれの治療法が導入された時点の間に達成された医療全般の他の進歩が、その改善に寄与していた可能性を否定できないという限界があります。例えば、2021年に治療を受けた人たちの結果を1971年に治療を受けた人たちの結果と比較するのは、適切ではありません。一例を挙げると、消化性潰瘍という疾患は、最初は牛乳とクリームで構成される食事か手術によって治療されていましたが、その後、胃酸の分泌を抑える薬剤が使用されるようになり、より最近からは抗菌薬（胃のヘリコバクター・ピロリ感染症を治療するため）が使用されています。時間とともに変遷してきた治療法を比較する際には、その疾患に関する理解の変化を考慮に入れる必要があります。

前向き研究は、既存対照群が抱える問題を回避するのに役立つ可能性があります。前向き研究では、治療群と対照群で同時に治療を行い、全体の結果が明らかになってから、それらを観察するようにします。治療群と対照群は、対象者の重要な特徴を同程度にそろえるべきです。例えば、検討している評価項目ががんや心疾患に起因する死亡である場合には、両方の試験群で対象者の年齢およびその他の因子（喫煙歴、糖尿病の有無など）を同程度にするべきで、これはこれらの危険因子をもつ人で死亡が多くみられるためです。

リンゴをリンゴと比較する

後ろ向き研究を含めたあらゆる種類の医学研究における最大のポイントは、互いに類似した患者集団の間で比較を行うということです。

対照群の1つ目の例で考えると、マラリアに対する新しい治療を受けたグループ（治療群）が軽症の若者ばかりで構成され、一方で過去に既存の治療を受けたグループ（対照群）が重症の高齢者で構成されていたとすれば、治療群でよりよい結果が得られたとしても、単に治療群の方が患者が若く、症状が軽かったことが理由だったと考えるのが妥当でしょう。しかし、結果を見ると、新しい治療の方が有効と誤って判断してしまう可能性があります。

年齢や疾患の重症度のほかにも、以下のような多くの要因を考慮に入れる必要があります。

研究対象者の全体的な健康状態（糖尿病や腎不全などの慢性疾患をもつ人は健康な人より悪くなりやすい傾向があります）
実際に医療を提供する医師や病院（熟練した医師もいれば、設備が整った病院もあります）
各試験群の男女比（男女で治療に対する反応が異なる場合があります）
治療が特定の集団でより効果的に作用する可能性があるため、研究対象にする集団の多様性が十分だったかどうか（治療は民族、地域、社会経済的地位などの特徴が異なる多様な集団で安全かつ有効である必要があります）

医師たちは、比較する患者群ができるだけ同じ条件であることを保証するために多くの方法を試してきましたが、それには大きく分けて2つのアプローチがあります。

症例対照研究：できるだけ多くの要因（年齢、性別、健康など）に基づき、グループ間の比較可能性を保証するための統計学的手法を用いて綿密な検討を行い、新しい治療を受ける患者（症例）とその治療を受けない患者（対照）のペアを作ります。
ランダム化試験：被験者をそれぞれの試験群にランダムに割り当てます

症例対照研究は理にかなった方法に見えます。例えば、高血圧に対する新しい治療法を研究する場合、治療群の1人が42歳で糖尿病を患っていれば、対照群にも高血圧と糖尿病のある40歳前後の人を配置するようにします。しかし、個々の患者には、医師が思いもつかない違いを含めて、極めて多くの違いがあるため、研究の各被験者について意図的に完全な一致を作り出すのはまず不可能です。

ランダム化試験では、研究結果に影響を与えるような試験群間の差が生じるリスクを、まったく異なるアプローチで低減します。試験群間の一致を保証する最善の方法は、確率の法則を利用し、同じ疾患をもつ人たちを複数の試験群に（一般的にはコンピュータプログラムの助けを借りて）ランダムに割り当てます。年齢、性別、他の疾患の有無といった既知の変数を用いて試験群同士をマッチングすると、試験群間の比較可能性がより高くなります。しかし、ランダム化だけにある重要な利点の1つは、研究結果に影響を及ぼすものの未知の（したがって試験群間でのマッチングができない）要因が存在する場合に、それらが被験者間や試験群間でランダムに分布する可能性が高いということです。各試験群の人数が大きいほど、各試験群の被験者が全体として類似した集団になる可能性が高くなります。

確実に同等の試験群間で治療法や検査法の比較を行うためには、前向きのランダム化試験が最善の方法になります。

その他の要因を排除する

いったん同等の試験群ができたら、医師は唯一の違いが治療内容のみであることを確実にするよう努めます。そうすることで、いかなる結果の相違も治療法の違いによるものであって、治療終了後のケアの質や頻度など、その他の要因の違いによるものではないことを確信できるようになります。

プラセボ効果はもう1つの重要な要因です。実際に新しい治療を受けていることを知っている人は、多くの場合、何の治療も受けない人（または効果が小さいと考えられる既存の治療を受けている人）と比べて、自分の状態はよくなると予想します。一方で、新しい実験的治療は副作用が起こりやすいと予想する人もいます。いずれの場合も、それらの予想によって治療の効果や影響が誇張され、実際より大きな効果がある、あるいは合併症が多いように見える可能性があります。

盲検化は、遮蔽化とも呼ばれ、プラセボ（ノセボ）効果の問題を軽減するために用いられる方法です。主なものとして単盲検と二重盲検の2種類があります。

単盲検は、研究の参加者に新しい治療を受けているかどうかを知らせない場合です。つまり、被験者はこの情報について「盲検化」されます。盲検化は通常、対照群の被験者に見た目がまったく同じ物質（通常はプラセボ）を投与することによって達成されます。単盲検試験では、試験担当者は治療の割付けを知っていますが、被験者には知らされません。
二重盲検は、試験の被験者と試験担当者の双方に、どの被験者が新しい治療を受けていて、どの被検者がプラセボを受けているかを知らせない場合です。医師や看護師がうっかり治療内容を被験者に教えてしまうと、それにより盲検化が損なわれる可能性があるため、各被験者が受ける治療の内容はその試験に関与する医療専門職全員にも知らせないのが得策です。二重盲検にするもう1つの理由は、プラセボ効果が医師の判断にも影響を及ぼす可能性があるからです。医師もまた、治療を受けている被験者は治療を受けていない被験者よりよくなっていると（たとえ両方の被験者の状態がまったく同じであっても）無意識に思い込んでしまうことがあるのです。二重盲検では、通常はその試験と独立したスタッフ（薬剤師など）が、特別なコード番号でのみ識別される見た目の同じ薬剤を準備する必要があります。コード番号が示す内容は、試験が完了するまで明らかにされません。

ただし、すべての医学研究で二重盲検を採用できるわけではありません。例えば、ある手術の2つの方法（術式）を比較する場合、実際に手術を行う医師は当然ながらどちらの術式を用いるかを知っています（手術を受ける被験者に知らせないことは可能です）。このようなケースでは、手術の結果を評価する人については、どちらの術式を用いたかについて盲検化して、結果に対する無意識の先入観が働かないようにします。

対象の重篤な疾患に対してすでに効果的な治療薬が存在している場合には、対照群にプラセボだけを投与するのは倫理的に問題があります。そのような状況でも、以下の例に示すように、他の研究デザインを用いることで、しばしば治療の評価が可能になります。

新しい治療が標準治療の有効性を高めるかどうかを判断するには、標準治療に新しい試験治療とプラセボのいずれかを追加した場合の結果を比較することができます。
効果があることが知られている新しい治療を標準治療と比較するには、新しい治療を用いた場合と標準治療を用いた場合の結果を比較することができます。盲検を維持するために必要であれば、両方の治療群にプラセボを追加することができます。

いずれのアプローチでも、それぞれの治療を構成する物質は被験者に対して、また二重盲検試験の場合は試験担当者に対しても、まったく同じものに見えなければなりません。治療群の被験者に赤くて苦い液体を服用してもらう場合には、対照群の被験者にも赤くて苦い液体を服用してもらう必要があります。治療群の被験者が透明の液体の注射を受けるのなら、対照群の被験者にも同様の注射を行う必要があります。

臨床試験の結果を実際の診療に適用する際に考慮すべき重要な点は、臨床試験にボランティアとして参加する被験者は、診療所や病院で治療を受ける患者とまったく同じというわけではないということです。また、臨床試験で実施される極めて厳格に計画された医療と観察は、ルーチンの臨床診療とは異なる場合があります。

臨床試験のデザインを選択する

最良の臨床試験は、上記の要素をすべて取り入れたもので、具体的には以下のような特徴を備えています。

前向き：研究を開始する前に治療群と対照群を設定して、対象者をその後の時間経過とともに追跡していくことを意味します
ランダム化：試験の参加者が複数の治療群にランダムに割り振られることを意味します
プラセボ対照：試験に参加する人の一部がプラセボの投与（何の効果もない治療）を受けることを意味します
二重盲検：試験に参加する人と試験を実施する人のどちらにも、誰が治療を受け、誰がプラセボの投与を受けているかが知らされないことを意味します

このデザインを採用すれば、治療法の有効性を最も明確に判断することができます。しかし、状況によっては、この試験デザインを採用できないことがあります。例えば、非常にまれな疾患では、ランダム化試験を実施するのに十分な数の患者を探すのが困難であることがよくあります。そのような状況では、後ろ向きの症例対照研究が実施されることがあります。

多様性

臨床試験の結果を実際の臨床現場に適用できるようにするためには、試験の被験者が対象疾患をもつ集団全体を代表していなければならず、具体的には年齢、性別、人種、民族、社会経済的地位、生活習慣などの要因が考慮されます。より正確な比較は、研究の対象者を特定の集団に限定することによって、しばしば実現が容易になります。しかし、現実の集団全体への適用可能性が高い結果を得ようとする臨床試験では、全体として多様性の高い参加者を募集することになります。例えば、米国では人種的・民族的少数者が人口のほぼ40％を占めていますが、このような多様性を欠いた研究では、一部の重要な要因を見逃してしまう可能性があります。一部の薬剤では、個人の人種や遺伝的背景がその薬剤の有効性に影響を及ぼすことがあります。例えば、G6PDという酵素の欠乏はアフリカ系、アジア系、地中海系の男性でより多くみられ、G6PD欠乏症がある人では特定の薬剤が溶血性貧血の引き金になる可能性があります。多様な背景をもつ人々を臨床試験の対象に含めることにより、その治療が様々な集団に属する人たちにとって安全かつ有効であるかどうかを示すことが可能になります。それでもなお、社会経済的地位や教養レベル、交通手段へのアクセス、研究施設からの近さといった要因により、多様性を備えた十分な集団を募集することが困難になる可能性があります。

医学知識をチェックTake a Quiz!