Biomarkers and Surrogate Endpoints: Preferred Definitions and Conceptual Framework

著者: Biomarkers Definitions Working Group
Corresponding author: Gregory J. Downing, DO, PhD (Office of Science Policy, NIH, Bethesda, MD)
雑誌: Clinical Pharmacology and Therapeutics
発行年: 2001
Epub日: N/A
Article種別: Commentary
PMID: 11240971

背景

21世紀初頭、ヒトゲノム解読技術の急速な進歩とともに、薬物開発パイプラインに参入する分子標的薬の数が爆発的に増加した。コンビナトリアルケミストリー、マススペクトロメトリー、ハイスループットスクリーニング、DNAマイクロアレイ、プロテオミクスなどの創薬・スクリーニング技術の普及により、臨床試験への候補化合物数が増大し、開発効率の向上が喫緊の課題となっていた (Carr 1998)。特に、遺伝子ベースのアプローチ、例えば一塩基多型 (SNP) マップの開発は、治療に対する臨床反応の分子・細胞レベルでの変動を区別するために進められていた (Alizadeh et al. 2000)。

臨床試験の効率を高める重要な手法の一つとして、バイオマーカーの活用が注目されていた。バイオマーカーは治療介入の生物学的効果を客観的に測定する指標であり、臨床エンドポイント (生存、心筋梗塞、卒中、骨折、癌再発など) の代替として用いることで、長期臨床試験の期間短縮や症例数削減に貢献しうると期待されていた (Rolan 1997; Blue and Colburn 1996)。例えば、P-糖タンパク質 (P-gp) の基質である99mTc-セスタミビの迅速なクリアランスは、一部の乳がんにおける術後補助化学療法への腫瘍反応の欠如を予測することが示されている (Ciarmiello et al. 1998)。

しかし、バイオマーカーの活用拡大に伴い、用語の混乱が深刻な問題となっていた。「生物学的マーカー」「バイオマーカー」「サロゲートマーカー」「サロゲートエンドポイント」「中間エンドポイント」など、重複した意味を持つ多様な用語が、臨床試験者、統計家、規制当局、製薬企業開発者といった異なる専門領域の研究者によって混在して使用されていた (Boissel et al. 1992)。この用語の曖昧さは、異なる専門分野の関与と多様な臨床研究アプリケーションに起因すると考えられた。このような状況では、バイオマーカーの利用に関する議論や政策が、用語のコンセンサスによって最もよく促進されると認識された。用語の曖昧さが残された課題であり、知識ギャップとなっていた。

この状況を踏まえ、NIH (National Institutes of Health) はバイオマーカーとサロゲートエンドポイントに関するディレクター・イニシアティブとして専門家ワーキンググループを招集し、用語・定義・概念モデルの標準化を検討することを指示した。ワーキンググループには臨床薬理学、生物統計学、薬物開発、規制科学の分野から第一線の専門家12名が参加した。本論文はその成果報告であり、医薬品開発におけるこれらの用語の曖昧さを解消し、サロゲートエンドポイントの適切な評価と規制上の利用に関する枠組みを確立することが目的とされた。特に、サロゲートエンドポイントが臨床的利益を予測する「合理的な可能性」に基づくFDAの迅速承認制度との整合性も示されている。この取り組みは、安全で効果的な治療法を患者に提供するためのプロセスを合理化するための新しい技術と戦略の必要性に応えるものであった。

目的

本論文の目的は、バイオマーカー関連用語の統一された定義と概念モデルを提案し、薬物開発・臨床試験・規制申請における用語使用の標準化を図ることである。具体的には、「生物学的マーカー (バイオマーカー)」「臨床エンドポイント」「サロゲートエンドポイント」の3つの主要な概念について、明確な定義を確立することを目指した。さらに、これらの概念間の相互関係を視覚的に示す概念モデルを構築し、治療介入の評価におけるバイオマーカーの役割を明確にすることを意図した。これにより、医薬品開発プロセスにおけるコミュニケーションの改善と、サロゲートエンドポイントの適切な「評価 (evaluation)」基準の確立に貢献することを目的とした。最終的には、規制当局による承認プロセス、特に米国FDAの加速承認制度におけるサロゲートエンドポイントの利用に関する科学的厳密性を高めるための枠組みを提供することを目指した。

結果

バイオマーカーの定義と適用範囲: 本ワーキンググループは「生物学的マーカー (バイオマーカー)」を「正常な生物学的プロセス、病態生理学的プロセス、または治療介入に対する薬理学的応答の指標として客観的に測定・評価される特性」と定義した。バイオマーカーは、早期の有効性および安全性評価、例えばin vitro組織サンプル研究、動物モデルでのin vivo研究、および「概念実証 (proof of concept)」を確立するための早期臨床試験において特に価値が高いとされた。バイオマーカーには以下の4つの主要な用途がある。 (1) 疾患または異常状態の診断ツールとして使用される (例: 糖尿病診断のための高血糖値)。 (2) 疾患の病期分類 (例: 様々な癌におけるCEA-125の測定) または疾患の程度の分類ツールとして使用される (例: 腫瘍増殖および転移の程度を反映する血中PSA濃度)。 (3) 疾患予後の指標として使用される (例: 特定の癌における腫瘍縮小の解剖学的測定)。 (4) 介入に対する臨床反応の予測およびモニタリングに使用される (例: 心疾患リスクの決定のための血中コレステロール濃度)。これらの用途は、医薬品開発の様々な段階でバイオマーカーが果たす役割の多様性を示している。

臨床エンドポイントの定義: 「臨床エンドポイント」は「患者の感じ方、機能状態、または生存を反映する特性または変数」と定義された。これらは、研究または臨床試験で観察される疾患特性の明確な測定または分析であり、治療介入の効果を反映する。臨床エンドポイントは、ランダム化臨床試験において治療介入の利益とリスクを評価するために使用される最も信頼性の高い特性であると位置づけられた。例えば、生存期間の延長や特定の疾患イベント (心筋梗塞、脳卒中など) の発生率の低下は、直接的な臨床的利益を示す重要な臨床エンドポイントである。

サロゲートエンドポイントの定義と要件: 「サロゲートエンドポイント」は「臨床エンドポイントの代替として意図されたバイオマーカー」と定義された。サロゲートエンドポイントは、疫学的、治療的、病態生理学的、またはその他の科学的根拠に基づいて、臨床的利益 (または害、利益の欠如、害の欠如) を予測することが期待される。サロゲートエンドポイントはバイオマーカーの部分集合であり、すべてのサロゲートエンドポイントはバイオマーカーに該当するが、バイオマーカーのうちサロゲートエンドポイントの地位を獲得できるものは少数に限られる。重要な点として、「サロゲートマーカー」という用語は、マーカーではなく臨床エンドポイントの代替であることを明確にするため使用しないことが推奨された。サロゲートエンドポイントとしてバイオマーカーを使用するには、代替される臨床エンドポイント、適用される治療介入のクラス、および代替が行われる集団と疾患状態の特性を特定する必要がある。

概念モデルの構築と「説明できない部分」への注意: ワーキンググループはバイオマーカー、サロゲートエンドポイント、および臨床エンドポイントの相互関係を示す概念モデルを開発した (Figure 1)。このモデルは、バイオマーカーが有効性だけでなく安全性評価にも有用であることを示している。一部のバイオマーカー (例: 血圧) は、有効性と安全性の両方を評価する二重の機能を持つ場合がある。モデルの核心は、治療介入がバイオマーカーと臨床エンドポイントの両方に影響を及ぼすが、バイオマーカーが必ずしも臨床エンドポイントに対する治療効果全体を説明するわけではない点である (Figure 2)。バイオマーカーが捉えられない治療効果の部分 (独立した臨床的利益または害) が存在する場合、そのバイオマーカーはサロゲートエンドポイントの地位を得られない。単一バイオマーカーが治療効果のすべてを説明できるケースは稀であり、複雑な疾患では複数のバイオマーカーを組み合わせた複合型サロゲートエンドポイントがより包括的な治療効果評価を提供する可能性がある。治療介入の多くの効果が単一のバイオマーカーによって完全に説明されることはほとんどない。治療介入が臨床エンドポイントに影響を与えるが、その影響がバイオマーカーによる影響によって完全に説明されない場合がある。これは、単一のバイオマーカーが治療効果の一部しか捉えられない、または全く捉えられない複雑な疾患で発生する可能性が高い。介入はまた、意図された治療効果を減少させるか、完全に打ち消す予期せぬ有害な結果をもたらす可能性もある。これらの予期せぬ有益または有害な効果が臨床エンドポイントに与える独立した影響は、破線矢印で示されている。治療効果の十分な割合を説明しないバイオマーカーは、サロゲートエンドポイントの地位に進まない。比例的治療効果 (proportion of treatment effect) の推定という統計的手法が連関確認の定量的アプローチとして紹介された (Lin et al. 1997; Freedman et al. 1992)。

サロゲートエンドポイントとしての評価プロセス (“Evaluation”): 従来「validation (バリデーション)」と呼ばれてきたバイオマーカーと臨床エンドポイントの連関確認プロセスについて、ワーキンググループは「validation」という用語の使用を不適切と判断した。理由は3点ある。第一に、「valid」という宣言は有効性の一般化可能性 (他の治療・疾患への外挿) を示唆するが、実際には介入の種類・疾患・集団によって限界がある。第二に、「validation」は測定アッセイの性能特性 (感度、特異度、再現性) の確認にも用いられる用語であり、意味の混同が生じる。第三に、HIV RNAウイルス量のようにある程度の一般化が認められる場合もあれば、骨密度 (骨粗鬆症治療薬サロゲートエンドポイント) のように他クラスへの外挿に制限がある場合もある。これらの理由から、バイオマーカーと臨床エンドポイントの連関確認プロセスには「evaluation (評価)」という用語の使用を推奨した。この評価プロセスでは、サロゲートエンドポイントが治療効果のどの程度の割合を説明するかを推定するアプローチ (Lin et al. 1997; Freedman et al. 1992) が用いられる。

規制上の位置づけ (FDA加速承認との関連): 米国FDAの規制 (Title 21 Code of Federal Regulations Part 314 Subpart H) では、「臨床的利益を合理的に予測できるサロゲートエンドポイント、または生存・不可逆的罹患率以外の臨床エンドポイントに対する効果」を根拠として新薬の加速承認を認めている。この規制は、疫学的、治療的、病態生理学的、またはその他の証拠に基づいて、薬物製品が臨床的利益を合理的に予測する可能性のあるサロゲートエンドポイントに影響を与えることを確立する、適切に管理された臨床試験に基づいてマーケティング承認を付与できると述べている。ただしこの承認は条件付きであり、実際の臨床的利益の確認のためにポストマーケティング試験 (Phase 4) が求められる。本ワーキンググループの定義はこの規制における用語使用と整合するよう策定された。

サロゲートエンドポイントの歴史的成功例と失敗例: 成功例としては、HIV感染症患者における血漿ウイルス量 (HIV RNA) およびCD4細胞数が死亡や日和見感染症の代替として広く使用された事例が挙げられた (Lagakos and Hoth 1992; Deyton 1996; Pozniak 1997)。例えば、HIV血漿ウイルス量の低下は、臨床的イベントの発生率を約 50% 減少させることが示されている。降圧薬評価における動脈血圧低下は、脳卒中、うっ血性心不全、および心血管死のサブセットの発生率低下を反映するために数十年間使用されてきた (SHEP Cooperative Research Group 1991)。このプログラムでは、収縮期高血圧患者 n=4736 例において、降圧治療により脳卒中発生率が 36% 減少した (95% CI 22-48%, p<0.001)。スタチン評価における血清コレステロール値も、冠動脈疾患のリスクを軽減するために使用されるHMG-CoA還元酵素阻害剤の評価のためのバイオマーカーとして機能してきた (Scandinavian Simvastatin Survival Study Group 1994)。この研究では、シンバスタチン治療により総死亡率が 30% 減少した (HR 0.70, 95% CI 0.58-0.85, p<0.001)。一方、重大な失敗例として心室性不整脈抑制が心筋梗塞後の突然死の有効なサロゲートエンドポイントではなかったことを示したCAST (Cardiac Arrhythmia Suppression Trial) が取り上げられた (Echt et al. 1991)。この試験では、抗不整脈薬 (エンカイニド、フレカイニド) が心室性不整脈を有効に抑制したにもかかわらず、死亡率を増加させた (エンカイニド群の死亡率は 7.7% vs プラセボ群 3.0%)。また、慢性肉芽腫症患者における貪食機能指標インターフェロンγの有効性指標としての失敗例も挙げられ、臨床的利益 (重篤感染症の減少) はバイオマーカーでは検出されなかった (International Chronic Granulomatous Diseases Cooperative Study Group 1991)。この研究では、インターフェロンγ投与群 n=63 例において、重篤感染症の発生率がプラセボ群と比較して 72% 減少した (HR 0.28, 95% CI 0.11-0.70, p=0.008) が、貪食機能のバイオマーカーは変化を示さなかった。

考察/結論

本コンセンサス論文が確立した定義は、その後の臨床試験デザインおよび規制申請において標準的参照として広く利用された。特に「バイオマーカー」「サロゲートエンドポイント」「臨床エンドポイント」の三概念を明確に区分し、サロゲートエンドポイントとバイオマーカーの包含関係 (サロゲートエンドポイント⊂バイオマーカー) を明示した点は、後続の研究と規制科学に持続的な影響を与えた。本研究で初めて、これらの用語の曖昧さを解消し、医薬品開発におけるコミュニケーションを改善するための統一された枠組みが提供された。

先行研究との違い: 従来の議論では「サロゲートマーカー」といった曖昧な用語が混在していたのに対し、本ワーキンググループは「サロゲートエンドポイント」という用語を明確に定義し、臨床エンドポイントの代替であるというその本質を強調した点で、これまでのアプローチと異なる。また、バイオマーカーと臨床エンドポイントの連関確認プロセスを「validation」ではなく「evaluation」と呼ぶことを提唱した点は、その一般化可能性の限界を認識し、より慎重な科学的アプローチを促すものであり、これまでの慣習と対照的である。

新規性: 本研究で初めて、バイオマーカー、サロゲートエンドポイント、臨床エンドポイントの相互関係を視覚的に示す概念モデル (Figure 1, Figure 2) を提示した。このモデルは、治療介入がバイオマーカーと臨床エンドポイントの両方に影響を与えるが、バイオマーカーが必ずしも臨床エンドポイントに対する治療効果全体を説明するわけではないという重要な洞察を新規に提供した。この「説明できない部分」の存在を明示することで、サロゲートエンドポイントの限界と、臨床的利益の直接的評価の重要性を強調した。

臨床応用: 本知見は、医薬品開発の効率化と患者への安全で効果的な治療法の提供という臨床応用に直結する。バイオマーカーの活用目的 (早期有効性/安全性評価 vs. 規制承認の根拠) によって要求される科学的根拠の水準が大きく異なることが指摘された。早期開発段階での薬理活性確認や用量設定においてはバイオマーカーとの「堅固な連関」は必須ではない。しかし、サロゲートエンドポイントを規制承認の根拠とする場合は、誤った決定が広範な公衆衛生への影響を及ぼすため、高い科学的水準と適切なセーフガード (加速承認撤退手続き等) が不可欠となる。これは、臨床現場での意思決定において、バイオマーカーの役割を適切に理解することの重要性を示唆している。

残された課題: 今後の検討課題として、疾患と治療介入の種類によってサロゲートエンドポイントの評価基準が異なるため、一律の基準を策定することは困難であることが認められた。特定の疾患や治療法に特化した評価基準の開発が今後の研究で必要となる。また、サロゲートエンドポイントの利用はあくまでも「暫定的評価 (provisional evaluation)」であり、最終的には臨床的利益に関する直接的証拠によって補完される必要があることが強調された。このことは、ポストマーケティング試験 (Phase 4) の継続的な実施が不可欠であることを示している。Limitation として、本論文はコンセンサスに基づいたものであり、特定のデータセットを用いた実証的な分析を伴わないため、提案された概念モデルや定義の実際の適用における課題は今後の研究で明らかになる可能性がある。本論文の提言は、その後に制定されたICH E9ガイドラインや様々なFDA・EMAガイダンス文書のバイオマーカー関連記述の基盤となった。

方法

本稿はコンセンサス・コメンタリー論文であり、一次データ収集を伴う試験ではない。NIHディレクター・イニシアティブのもとに招集された12名の専門家ワーキンググループが、既存の文献、規制ガイダンス、および学術討議を踏まえて定義と概念モデルを協議・策定した。ワーキンググループのメンバーは、臨床薬理学、生物統計学、薬物開発、規制科学といった多様な専門分野から選出された。

本論文の基盤となったのは、2000年に開催されたバイオマーカーと代替エンドポイントに関するカンファレンスでの議論であり、その会議録はElsevier Scientificより先行発表されている (Downing 2000)。このカンファレンスでは、バイオマーカーの定義、サロゲートエンドポイントの評価、および臨床試験におけるその応用に関する広範な議論が行われた。ワーキンググループは、これらの議論の結果を精査し、用語の曖昧さを解消するための共通理解を形成することに注力した。

定義の策定にあたっては、各用語の既存の使用状況を考慮しつつ、その科学的厳密性と実用性を両立させることを目指した。特に、サロゲートエンドポイントの定義においては、疫学的、治療的、病態生理学的、またはその他の科学的根拠に基づいて臨床的利益を予測する「合理的な可能性」という米国FDAの規制要件 (Title 21 Code of Federal Regulations Part 314 Subpart H) との整合性が重視された。

概念モデルの構築においては、治療介入がバイオマーカーと臨床エンドポイントにどのように影響するか、そしてバイオマーカーが臨床エンドポイントに対する治療効果全体をどの程度説明できるかを図示することに重点が置かれた。また、バイオマーカーと臨床エンドポイントの連関を確認するプロセスについては、従来の「validation (バリデーション)」という用語が持つ意味の曖昧さや限界を考慮し、「evaluation (評価)」という新しい用語の使用が提案された。この変更は、バイオマーカーの有効性が特定の介入、疾患、集団に限定される可能性や、測定アッセイの性能特性の確認と混同されることを避けるために行われた。統計的手法としては、サロゲートエンドポイントによって説明される治療効果の割合を推定するアプローチ (Lin et al. 1997; Freedman et al. 1992) が議論の対象となった。

Research Wiki

エクスプローラー

Biomarkers and Surrogate Endpoints: Preferred Definitions and Conceptual Framework

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク