- 著者: A.F. Schott, C.M. Perou, D.F. Hayes
- Corresponding author: A.F. Schott (University of Michigan, Ann Arbor, MI)
- 雑誌: Cancer Research
- 発行年: 2015
- Epub日: 2015-04-28
- Article種別: Commentary
- PMID: 25920349
背景
次世代シーケンシング (NGS) 技術の急速な普及は、腫瘍学における「ゲノム医療」や「精密医療」という概念を大きく進展させた。The Cancer Genome Atlas (TCGA) プロジェクト (Weinstein et al. NatGenet 2013) は、複数の悪性腫瘍における包括的なゲノム異常のカタログを作成し、癌の分子異常に対する理解を深めた。これに伴い、FoundationOneなどの商業的腫瘍プロファイリング検査が300以上の遺伝子異常を同定可能となり、臨床応用への期待が高まった。しかし、この急速な進展の裏側で、「NGS」「バイオマーカー」「臨床的有用性」といった用語の不明確な使用や誤用が蔓延し、基礎研究者と臨床医の間の意思疎通を妨げる深刻な問題が生じていた。この用語の混乱は、未検証の仮説に基づくオフラベル処方が先行する状況を招き、患者に不確実な治療を提供するリスクを増大させていた。
先行研究として、Collisson ら (Collisson et al. NatRevClinOncol 2012) は癌ゲノム解析から得られた知見と課題を整理し、Frampton ら (Frampton et al. NatBiotechnol 2013) はFoundationOneの技術的分析妥当性を初めて実証した。これらの研究はゲノム医療の基盤を築いたが、多くの体細胞遺伝子異常の組織横断的な臨床的有用性は依然として未解明のままであった。商業的腫瘍プロファイリング結果に基づくオフラベル処方が根拠なく普及するというギャップが深刻化しており、この状況は患者の治療選択に大きな影響を与えかねないものであった。
当時、癌ゲノム医療が真に患者アウトカムを改善するためには、バイオマーカー検査の段階的検証と適切な臨床試験デザインによる仮説検証が不可欠であるという認識が広まりつつあった。特に、バイオマーカー検査の評価には、分析妥当性、臨床妥当性、臨床的有用性の3段階評価を区別する統一フレームワークが不足しており、それを検証するための適切な臨床試験デザインに関する共通言語も存在しなかった。TCGAによる大規模ゲノム解析で多くの癌種横断的な分子異常が明らかになったことで、組織型を超えたバイオマーカー駆動型治療という新概念が浮上したが、FoundationOneなど商業的腫瘍プロファイリング製品が前提とする「ある癌種で効く標的薬が別の癌種でも効く」という組織横断的一般化は、当時の時点では証明されていなかった。これらの背景から、著者らは、癌ゲノム医療の適切な臨床実装に向けた概念的整理と、検証プロセスの明確化が喫緊の課題であると認識し、本解説論文の執筆に至った。
目的
本論文の目的は、癌ゲノム医療における用語と概念を統一定義し、次世代シーケンシング (NGS) などの新技術によって同定されるバイオマーカーの臨床的有用性を評価するための体系的なフレームワークと適切な臨床試験デザインを整理することである。これにより、基礎研究者と臨床医の間のコミュニケーションを改善し、エビデンスに基づいた癌ゲノム医療の適切な臨床実装への道筋を示すことを目指す。具体的には、バイオマーカー検査の分析妥当性、臨床妥当性、臨床的有用性の3段階評価の重要性を強調し、臨床的有用性が未確立な腫瘍プロファイリングに基づくオフラベル処方の課題を明確にすること、そしてbasket試験やmaster protocolといった新しい臨床試験デザインの役割を提示することを目的とする。
結果
「オミクス」と用語の体系的整理: 著者らはまず、腫瘍学で混用されている重要用語を明確に定義した。NGSはテクノロジーであり、それ自体はバイオマーマーでも診断検査でもない。NGSプラットフォームは、大規模並列シーケンシングにより数百万のDNA断片を同時シーケンスし、従来のSangerシーケンシングに比べ格段に安価かつ迅速に実施できる。DNA変異、欠失/増幅、転座から、RNA発現、スプライスバリアント、タンパク質修飾 (リン酸化、糖化、脂質化など) まで多岐にわたる分子異常は「オミクス (-omics) 」異常と総称される (Fig. 1)。特定のオミクス異常が正常または異常な生物学的プロセスのシグナルであると判明したとき、それは「バイオマーカー」と呼ばれ、その特定の臨床目的 (診断、予後、治療反応予測、経時的モニタリング) のために構築・検証されたアッセイが「バイオマーカー検査」である。FoundationOneは>300の体細胞遺伝子異常を、Myriad myRiskは25の生殖細胞系列遺伝子をそれぞれパネル検査として提供する商業製品の代表例として紹介された。21遺伝子スコアのOncotypeDxや、ESR1陽性・節陰性乳癌患者に対する化学療法省略の適応判断を目的とするPAM50 (50-gene intrinsic subtype assay)/Prosigna・EndoPredictも多パラメーターシグネチャー検査の成功例として言及された。
バイオマーカー検査の3段階評価フレームワーク: CDCが招集したEGAPP (Evaluation of Genomic Applications in Practice and Prevention) イニシアチブが提唱した3段階の評価基準が体系的に提示された。第1段階は「分析妥当性 (analytical validity)」であり、アッセイが技術的に正確かつ再現性があるかどうかを評価する。米国ではCLIA (Clinical Laboratory Improvement Act) がCMS管轄下でこれを規制する。第2段階は「臨床妥当性 (clinical validity)」であり、アッセイが患者を異なる臨床アウトカムの群に分類できるかどうかを評価する。第3段階は「臨床的有用性 (clinical utility)」であり、アッセイを使用することによって、使用しない場合と比較して患者アウトカムが実際に改善されるかどうかを評価する。本稿が特に強調するのは、米国に臨床的有用性を管轄する規制機関が存在しないため、民間保険会社や公的保険機関が償還可否決定を通じてこの役割を事実上担っているという問題構造である (Fig. 1)。多くの商業的腫瘍プロファイリング製品は分析妥当性を持ちながら、臨床的有用性について十分な根拠を欠いたまま処方に使用されているのが当時の実情であった。
臨床的有用性が確立した成功事例と商業パネルの問題点: 単一因子バイオマーカー検査の成功例として、HER2増幅/過発現に対するトラスツズマブ (乳癌・胃癌)、BRAF V600E変異に対するベムラフェニブ (黒色腫)、ALK転座に対するクリゾチニブ (肺癌)、EGFR変異に対するエルロチニブ (肺癌、EURTAC試験 PFS HR 0.37 (95% CI 0.25-0.54), p<0.0001 vs カルボプラチン+ゲムシタビン) が挙げられた。多パラメーターシグネチャーの成功例として21遺伝子スコアのOncotypeDx、PAM50/Prosigna、EndoPredictがあり、いずれもER陽性・節陰性乳癌の補助化学療法省略可能集団を同定する臨床的有用性を確立している (n=3つの独立した検証コホート;OncotypeDx RS<18低リスク群の10年遠隔再発率 6.8% vs RS≥31高リスク群 30.5%)。これらの成功の鍵は、前向きランダム化試験で採取されたアーカイブ検体を用いた遡及的検証プロセス (Simon RM, J Natl Cancer Inst. 2009) にあった。FoundationOneはn=312遺伝子超の体細胞異常をカバーし、Myriad myRisk Hereditary Cancerはn=25の生殖細胞系列遺伝子を検査する。一方でBRCA1/2などの確立した生殖細胞系列遺伝子検査でさえ、家族歴のない患者への広域遺伝子パネルでの適用は臨床妥当性・有用性が検証されておらず、商業的腫瘍プロファイリング製品 (FoundationOneなど) が前提とする組織横断的一般化は現時点で証明されていないと著者らは明言した。OncotypeDxが示した臨床的有用性の確立に要した年数はシグネチャー開発から約10年であり、この事例が高いエビデンス基準の典型例として位置づけられた (Table 1)。
癌ゲノム医療の4種類の臨床試験デザイン: 著者らは仮説検証のための臨床試験デザインを4類型に整理した。第1は「Basket/bucket試験」で、特定のオミクス異常/薬剤ペアを複数の組織型にわたって検証する。imatinibがFDAに承認された際、慢性骨髄性白血病・消化管間質腫瘍に加え多様な希少腫瘍への適応拡大が行われたことが成功例である。NCI-MATCH (Molecular Analysis for Therapy Choice) はn=約3,000例を前向き登録し、1本以上の標準治療に不応となった多様な組織型の患者を対象に、研究目的のバイオプシーでNGS解析を行い、バイオマーカー誘導型の複数単アーム試験のいずれかに患者を割り付ける大規模basket試験の代表例として紹介された。各埋め込み試験は特定のオミクス異常を持つ患者の約2%未満が対象となる希少亜型の検証を可能にする設計であった。第2は「Master protocol」で、単一組織型内で複数のオミクス/薬剤マッチを並行して探索する。代表例はLUNG-MAP (Lung Master Protocol, S1400;肺扁平上皮癌一次治療後) で、ゲノムプロファイリングに基づき複数の埋め込み試験のいずれかに患者を振り分け、各試験が薬剤・バイオマーカーアッセイ両方の規制承認にまでたどり着けるよう設計されており、NCI・NCTN (National Clinical Trials Network)・患者支援団体・製薬企業が協働して開発した枠組みである。第3は「Strategy試験」で、腫瘍プロファイルに基づく治療割り当てと標準治療のランダム化比較を行う。NCI M-PACT (Molecular Profiling-based Assignment of Cancer Therapeutics) 試験ではn=20遺伝子をシーケンシングし、バイオマーカーを持つ180例を対応標的薬群vs非対応薬群に1:1でランダム化し、奏効率および4か月無増悪生存率を主要評価項目とした。ただしstrategy試験はオミクス/薬剤の個別マッチを検証するものでなく、「プロファイル誘導戦略腕」に含まれる対応薬のうち有効なものが全体の約10%程度にとどまれば、戦略全体が失敗するという問題がある。また、標的療法の有益性がすでに知られている患者に対してstrategy試験を行うことは倫理的に問題となりうる。第4は「Observational study」で、ASCOが提案したTAPUR (Targeted Agent and Profiling Utilization Registry) などのオフラベル使用レジストリとして追跡するアプローチであるが、臨床試験外でのデータ収集では毒性・ORR・増悪などの情報取得に困難を伴うという制約がある (Fig. 2)。
腫瘍プロファイリングの実態と「3つの役者」問題: 著者らは当時の臨床現場でいくつかの施設が大多数の患者で腫瘍プロファイリングを実施し、臨床試験のスクリーニングや製薬企業スポンサードの試験参加促進に活用していたと紹介した。Caris Molecular Intelligenceは免疫組織化学・FISH/CGH・NGS・PCRの複数技術を組み合わせた検査を提供し、FoundationOneは>300の遺伝子異常を報告する製品である。腫瘍プロファイリング結果に基づくオフラベル処方が急増しており、標準治療が存在する患者が実証された有益性を持つ治療の機会を逸するリスクが指摘された。保険支払者は費用対効果の視点から臨床的有用性の実証を求め、製品開発のビジネスモデルと臨床的検証の要求の間に緊張関係が生じていた。なお本論文の著者はHER2→トラスツズマブなどで成功した単一バイオマーカー検証モデルが多様なゲノム異常に無批判に拡大されることを「負のサイクル」と呼び (Hayes DF, Sci Transl Med. 2013)、これを断ち切ることが重要な課題だとした。2015年当時、EGFR・ALK・KRAS・BRAF・HER2・ESR1など>25の遺伝子が有望なバイオマーカー候補として臨床研究の対象となっており、各々の組織型横断的な有効性の証明が積み残し課題として存在した。
考察/結論
先行研究との違い: 本論文の核心的主張は「ゲノム医療は革新的な可能性を持つが、臨床的有用性の証明なしに広く採用されることには危険性が伴う」という警告である。先行のHER2、EGFR、ALK、BRAF系の成功は、明確な分子標的と組織特異的な臨床試験による検証があったからこそ実現しており、この成功が多様な遺伝子異常に無批判に拡大されることへの批判が本稿の独自性である。特に、単一バイオマーカー検証モデルの成功が「組織横断的に適用できる」という論理的飛躍を防ぐための概念的整理として本論文は機能している。個々のバイオマーカー成功例 (EGFR/肺癌、HER2/乳癌など) は広く周知されていたが、本論文はそれらの成功要因を体系的に分析し、3段階評価フレームワークとして整理した点で、これまでの報告と異なる。EGAPPフレームワークを腫瘍学に適用し、分析妥当性、臨床妥当性、臨床的有用性の区別を臨床医・研究者間で共有すべき共通言語として提示した意義は大きい。
新規性: 商業的腫瘍プロファイリング製品は分析妥当性の点では概して高品質 (CLIA認定ラボで実施) であるが、全体の80〜90%以上のバイオマーカーについて臨床的有用性の証明が存在しないという事実が、本論文執筆の動機となった。従来の個別バイオマーカー承認論文と異なる新規な貢献は、評価の段階的構造を体系化し「何が証明されていないか」を明示した概念整理にある。たとえば、Lopez-Chavez et al. JClinOncol 2015 や Meric-Bernstam et al. JClinOncol 2015 のようなバイオマーカー誘導型多腕試験や大規模ゲノム検査実現可能性研究と本論文の整理を合わせることで、genomically matched trial の実装に必要な基準が明確になる。
臨床応用: 本知見は、癌ゲノム医療の臨床応用において、以下の重要な含意を持つ。(1) 商業的腫瘍プロファイリング検査 (>300遺伝子パネルなど) の結果使用には検証段階に応じた慎重さが必要である。(2) Basket/master protocol試験を通じた仮説検証が組織横断的バイオマーカー開発の正道である。(3) 各バイオマーカー検査の分析妥当性、臨床妥当性、臨床的有用性を区別して評価する姿勢が重要である。(4) 標準治療が存在する患者へのオフラベル処方は、実証された治療機会を奪うリスクを伴う。(5) 多施設の研究と第三者支払者による臨床的有用性の評価基準整備が急務である。OncotypeDxはER陽性・節陰性乳癌においてrecurrence score <18の低リスク群 (約51%の患者に相当) への化学療法省略を実証した代表例であり、この成功モデルが今後のゲノム医療試験デザインの指針となる。
残された課題: 本論文はNCI-MATCH (n=3,000) やLUNG-MAPなど当時進行中の試験を紹介しながら「仮説に基づいて前進しつつ、客観的なアウトカム評価を怠らない」という姿勢の重要性を強調した。ゲノム医療の語彙・概念の統一が研究者と臨床家の共通言語形成に寄与し、ひいては患者アウトカムの改善につながるという論旨は、2015年時点でのprecision oncology実装における最重要課題を的確に捉えたものである。残された課題として、組織横断的バイオマーカー仮説の検証速度の向上、バイオマーカー開発における産学の利益相反管理 (著者自身も複数企業との関係を開示)、臨床的有用性評価基準の規制への組み込み、そしてobservational studyから信頼性の高いデータを収集するための設計改善が挙げられた。
方法
本論文はNarrative review / Expert commentary形式であり、事前に規定したシステマティックサーチプロトコルは設けていない。著者らは、癌ゲノム医療の概念と臨床応用に関する包括的な議論を展開するため、PubMed、ClinicalTrials.gov、NCI (National Cancer Institute) の公開データベース、ならびにASCO (American Society of Clinical Oncology) およびAACR (American Association for Cancer Research) 学術大会の資料を参照した。文献収集の対象は、主に以下の3つのカテゴリーに分類される。(1) 腫瘍バイオマーカーおよびNGSプラットフォームの分析妥当性、臨床妥当性、臨床的有用性に関する原著論文と系統的レビュー、(2) 組織横断的臨床試験 (basket試験、master protocol、strategy試験) の設計と実施に関する文献、(3) FDA (米国食品医薬品局)、CMS (Centers for Medicare & Medicaid Services)、CLIA (Clinical Laboratory Improvement Amendments) の規制文書である。
文献選択の基準は、peer-reviewed 原著論文、ガイドライン文書、および著者ら3名の臨床腫瘍学、分子病理学、バイオマーカー開発に関する専門的判断に基づいた。本論文はExpert Commentaryであるため、統計的解析は実施していない。バイオマーカー評価の参照枠として、Simon RM ら (J Natl Cancer Inst 2009) が提唱した後ろ向き検証手法と、CDC (Centers for Disease Control and Prevention) が招集したEGAPP (Evaluation of Genomic Applications in Practice and Prevention) イニシアチブの3段階評価基準 (分析妥当性、臨床妥当性、臨床的有用性) を援用した。これらのフレームワークを用いて、OncotypeDxなどの多パラメーターシグネチャー検査の臨床実装事例と、商業パネル検査 (FoundationOne: >300遺伝子、Myriad myRisk: 25遺伝子) との比較を通じ、どのような条件下で臨床的有用性の証明が可能かを考察した。また、NCI-MATCH (Molecular Analysis for Therapy Choice) やLUNG-MAP (Lung Master Protocol) といった当時進行中または計画中の大規模臨床試験の設計を詳細に分析し、ゲノム医療における新しい臨床試験デザインの可能性と課題を論じた。これらの情報源から得られた知見を統合し、癌ゲノム医療における用語の混乱を解消し、エビデンスに基づく臨床実践を促進するための提言をまとめた。