• 著者: Wong KM, Capasso A, Eckhardt SG
  • Corresponding author: S. Gail Eckhardt (University of Colorado Cancer Center, Aurora, CO, USA)
  • 雑誌: Nature Reviews Clinical Oncology
  • 発行年: 2016
  • Epub日: 2015-11-10
  • Article種別: Review
  • PMID: 26552953

背景

腫瘍学領域における新規抗がん剤開発は過去10年間で急増し、2015年時点で750剤以上が開発中であると報告されている (Pharmaceutical Research and Manufacturers of America 2014)。1975年から2010年にかけて、がん患者の5年生存率は絶対値で19%改善したが、これは分子標的薬 (MTA) の登場に加え、マンモグラフィによる乳がん検診 (死亡率20-35%減) やNational Lung Screening Trialにおける低線量CT検診による肺がん死亡率20%減、さらには直腸がんに対するtotal mesorectal excisionなどの手術手技の改善といった早期発見・治療介入の複合的な効果であると考えられている (American Cancer Society 2015, Euhus et al. 2015, National Lung Screening Trial Research Team 2011, Rajput & Bullard Dunn 2007, van Gijn et al. 2011)。

しかし、第I相 (Phase I) 試験から最終的な規制当局の承認に至る確率はわずか6.7%と、全疾患領域中で最も低い水準に留まっている (Hay et al. 2014)。例えば、1998年から2014年の間にメラノーマ治療薬として評価された177剤のうち承認されたのは10剤のみであり (失敗:成功比 14:1)、肺がんにおいても同様に177剤中10剤の承認に過ぎない (Pharmaceutical Research and Manufacturers of America 2014)。腫瘍学分野の薬剤開発プロセスは、他疾患と比較して平均1.5年長くかかると推定されており、これは進行がん患者の試験参加率の低さや、生存期間を評価するための長期追跡期間が必要であることに関連している可能性がある (DiMasi & Grabowski 2007)。これらの背景から、膨大な資源、時間、コストが投入される早期臨床試験の効率と費用対効果を最大化する必要性が強調されている。

従来の第I相試験では、3+3デザインが最も一般的に用いられてきた。このデザインは、細胞傷害性薬の用量、毒性、有効性の間に正の相関があるという前提に基づいており、許容可能な毒性を示す最高用量 (最大耐用量: MTD) を特定する上で有効に機能してきた (Le Tourneau et al. 2009)。しかし、MTAの登場により、この3+3デザインの限界が明らかになった。MTAは、(1) MTDに到達しないことが多く (450試験の系統的レビューでは、細胞傷害性薬で99%がMTDを確定できたのに対し、MTAでは64%に留まることが示された (Le Tourneau et al. 2009))、(2) 通常28-30日間の用量制限毒性 (DLT) 評価期間外に発現する晩期毒性や蓄積毒性が見過ごされる (MTAの用量減量の約20%がDLT評価期間外で発生する (Postel-Vinay et al. 2014))、(3) 発疹、下痢、倦怠感、甲状腺機能低下症、高血圧などの慢性的なグレード2毒性がDLTの定義に統合されない、(4) 正常組織における標的タンパク質の発現に起因する”on-target”毒性が支配的である、といった構造的な問題を抱えている (Le Tourneau et al. 2011, Paoletti et al. 2014)。

これらの問題に対処するため、加速漸増デザイン (Accelerated Titration Design: ATD) や継続的再評価法 (Continual Reassessment Method: CRM) といった新しい用量漸増法が提案されてきた (Simon et al. 1997, O’Quigley et al. 1990)。しかし、MTA時代の第I相試験を、用量漸増設計、患者選択、エンドポイント、分子プロファイリング、併用試験、規制経路、試験運営体制という7つの軸から統合的に捉え、その変容を包括的に整理する視点は不足しており、この点に知識のギャップが残されている。さらに、2012年のFDA Safety and Innovation ActによるBreakthrough Therapy designationの新設や、抗PD-1抗体であるニボルマブやペムブロリズマブの第I相試験からの迅速承認 (例: Topalian et al. NEnglJMed 2012, Garon et al. NEnglJMed 2015)など、規制環境と早期臨床試験の関係性が急速に変化する中で、これらの相互作用を包括的に論じる必要性が高まっていた。

目的

本レビューは、腫瘍学における第I相試験が、分子標的薬 (MTA) の時代に適応するために経験している変容を、用量漸増デザイン、患者選択、エンドポイント、分子プロファイリング、併用試験、規制経路、および試験運営体制という7つの主要な軸から包括的にレビューすることを目的とする。これにより、MTA時代の効率的な薬剤開発戦略を整理し、NCI (National Cancer Institute) のBiomarker Task ForceおよびClinical Trial Design Task Force of the NCI Investigational Drug Steering Committee (IDSC) が策定したガイドラインを踏まえつつ、臨床試験を実施する施設および治験担当医に対する実務的な含意を提示する。具体的には、従来の3+3デザインの限界を克服するための新しい用量漸増アプローチ、遺伝子または分子バイオマーカーに基づく患者選択の改善、安全性に加えて有効性評価や薬物動態学/薬力学 (PK/PD) 解析の統合、分子腫瘍プロファイリングの応用、合理的な併用療法の設計、FDAの迅速承認経路の活用、および多施設共同試験と集中型試験管理への移行が、薬剤開発の効率を最大化するためにどのように寄与するかを詳細に検討する。

結果

3+3デザインの限界と統計的課題の定量化: 従来の3+3デザインは、1コホートあたり3-6例という小規模なサンプルサイズで毒性を評価するため、真のMTDを正確に確定する能力に限界があることが示された。Le Tourneauらによる450件以上の第I相試験の系統的レビュー (Le Tourneau et al. 2009) では、細胞傷害性薬の第I相試験では99%がMTDを確定できたのに対し、MTA試験では64%しかMTDを確定できなかった。このMTD確定率の顕著な差異は、MTAが細胞傷害性薬とは異なる毒性プロファイルを持つことに起因すると考えられる。具体的には、DLT評価窓 (通常28日間1サイクル) 外で発生する晩期毒性や蓄積毒性が見過ごされること、Common Terminology Criteria (CTC) grade 2の毒性 (DLT未満) が評価指標に統合されないこと、推奨第II相用量 (RP2D) 以下で治療される患者の割合が高いこと、およびMTAの用量減量の約20%がDLT評価期間外で発生することなどが、3+3デザインの主要な問題点として挙げられた。1991年から2006年までの第I相試験のうち、わずか1.6%しかアダプティブデザインを採用していなかったが (Rogatko et al. 2007)、2000年から2010年までのMTA試験 (n=84) では、3+3デザインが49%、ATDが42%、modified CRMが7%、pharmacologically-guided dose escalationが1%と、新しい設計の採用が徐々に浸透していることが確認された (Le Tourneau et al. 2012)。

Accelerated Titration Design (ATD) の改善効果: ATDは、Simonらが提案した「design 4」が代表的であり、加速相では100%用量増分の単患者コホートで、1例のDLTまたは2例のグレード2中等度毒性が発生するまで用量漸増を進め、その後、標準的な3+3デザイン (40%用量増分) に移行し、患者内用量漸増を許容する (Table 1)。1997年から2008年に発表された270件の第I相試験を対象としたIasonosらによる解析 (Iasonos et al. 2008) では、ATDは従来の3+3デザインと比較して、平均用量レベル数を有意に増加させた (7 vs 5、p=0.0001)。また、RP2D以下で治療された患者の割合は46% (ATD) vs 56% (3+3、p=0.0001) と低下し、MTD以下の低用量で多数の患者を治療するという倫理的問題を改善した。DLT以外のmoderate toxicityを評価指標に統合した点も、3+3デザインに対するATDの優位性として示されている。

Continual Reassessment Method (CRM) とモデルベース設計: CRMはO’Quigleyらによって1990年に提唱されたBayesian統計モデルに基づく逐次用量漸増法であり、(a) 事前dose-toxicity曲線、(b) DLT定義と評価窓 (1サイクルを超えても可)、(c) 目標DLT率、(d) コホートあたりの患者数、の4つのパラメータを必要とする。各コホートの治療後、累積データを用いて曲線が更新され、目標DLT率に対応する用量が次回のコホートに割り当てられる。Rogatkoらによる84件の試験解析 (Rogatko et al. 2007) では、3+3、ATD、modified-CRMの平均探索用量レベル数がそれぞれ6、8、10であり、開始用量に対するMTD比が9、22、30と、モデルベース設計の効率的な用量探索能力が示された。派生として、time-to-event CRM (TITE-CRM、放射線治療などの晩期毒性に対応)、TriCRM (毒性と有効性を同時に最適化し、生物学的最適用量 (OBD) を導出)、Bayesian Optimal Interval (BOIN) デザイン、および過量投与制御CRMが開発されている。しかし、2010年から2013年の併用試験の系統的レビューでは、アダプティブデザインの採用率は4%に留まっており (Riviere et al. 2015)、バイオ統計家の常時関与とリアルタイムデータ管理の負担が普及の障壁となっている。

バイオマーカー選択と精密医療の実装: MTA時代の第I相試験では、分子プロファイリングによる患者選択 (enrichment design) が標準化されつつある。代表例として、Bcr-Abl陽性CMLに対するイマチニブ、HER2過剰発現乳がんに対する抗HER2療法、EGFR変異NSCLCに対するEGFR-TKI、EML4-ALK融合陽性NSCLCに対するクリゾチニブ (Kwak et al. NEnglJMed 2010)、セリチニブ (Shaw et al. NEnglJMed 2014)、アレクチニブ (Seto et al. LancetOncol 2013, Gadgeel et al. LancetOncol 2014)、BRAF V600E変異メラノーマに対するベムラフェニブなどが挙げられる。しかし、分子プロファイリング駆動型マッチング治療の効果は限定的である場合もある。SAFIR01試験 (André et al. 2014) では、乳がん患者43例が分子プロファイリングに基づく治療を受けたが、奏効率は9% (4例)、病勢安定は21% (9例) に留まった。SHIVA試験 (Le Tourneau et al. 2015) では、195例がランダム化され (matched MTA vs physician choice)、PFSのハザード比は0.88 (95% CI 0.65-1.19, p=0.41) と非有意であった。一方、MD Anderson Cancer Centerの後ろ向き解析 (Tsimberidou et al. 2012) では、分子プロファイリング駆動型マッチング治療を受けた175例の奏効率が27% vs 5% (p<0.0001)、全生存期間中央値が13.4 vs 9.0ヵ月 (p=0.017) と有意な改善が認められた (ただし、選択バイアスや異質性の交絡因子が存在する可能性が指摘されている)。NCI-MATCH (NCT02465060) は、現時点で最大規模の検証試験であり、2015年8月に開始され、目標1000例、2400施設で20以上のactionable targetが評価される予定である。

Expansion cohort・Endpoint・PK/PD統合の革新: 第I相試験内の拡大コホート (expansion cohort) は、安全性確認後の特定の腫瘍種やバイオマーカーサブグループにおける早期有効性評価を可能にし、加速承認申請の根拠となりうる。奏効率は、2002年から2012年までのFDAによる加速承認された腫瘍薬の75%以上の根拠であった (Shea et al. 2013)。抗PD-L1抗体MPDL3280A (NCT01633970) の第I相試験では、6種類の併用レジメンと6種類の腫瘍種 (高頻度マイクロサテライト不安定性大腸がん、胃/食道胃接合部がん、卵巣がん、腎細胞がん、NSCLC、トリプルネガティブ乳がん) を対象としたマルチアーム拡大コホートが設定され、第I相試験から直接第III相試験への展開が実現した。一方、MD Anderson Cancer Centerにおける683例の後ろ向き解析では、低用量 (MTDの≤25%)、中等量 (MTDの25-75%)、高用量 (MTDの75-100%) の間で奏効率、PFS、OSに差がないことが示され、MTA時代における用量-有効性関係の複雑化が示唆された。しかし、NCIが支援するメタアナリシスでは、OSのハザード比が0.59 (95% CI 0.42-0.83, p=0.002) と、高用量で有意な優位性が示されており、これらの相反する結果は選択バイアスに起因する可能性がある。PK/PDバイオマーカー (IHC組織発現、血清タンパク質、PBMC、イメージングバイオマーカー、循環腫瘍細胞/DNA = “liquid biopsy”) の組み込みは、1991年から2002年の間に14%から26%へと倍増し (p<0.02)、39%が作用機序の裏付けに貢献した (Goulart et al. 2007)。

加速承認経路と国際多施設化・CRO主導の影響: FDA Safety and Innovation Act of 2012により新設されたbreakthrough therapy designationは、腫瘍学領域で221件中66件が承認された (例: B細胞悪性腫瘍に対するイブルチニブ、ALK陽性進行NSCLCに対するセリチニブ)。Fast Track、Accelerated Approval、Priority Reviewと併せた4種類の迅速承認プログラム (Table 2) は、第I相試験における有効性評価の重視、データ品質の厳格な精査、および大規模なCRO (Contract Research Organization) 主導化を促進した。1998年から2006年までの138件の試験解析では、単施設、2施設、3施設以上の試験における患者登録期間の中央値はそれぞれ21ヶ月、20ヶ月、22ヶ月であり (p=0.61)、多施設化が単純な加速効果を示さないことが明らかになった (Dowlati et al. 2008)。これは、代替患者要件や限定的なコホートごとの登録といった構造的制約が背景にあると考えられる。多施設化は、(1) 中央化された試験管理 (CROへの依存) とIRB (治験審査委員会) の合理化、(2) 個別施設の治験担当医の薬剤経験不足、(3) 研修医や若手教員の独立した治験担当医としての育成困難、(4) 一部の施設では3施設以下に制限を導入、といった構造的な影響を生じさせている。

考察/結論

Phase I試験は、MTA時代において「安全性とMTD決定型」から、「有効性早期評価、PK/PD統合、バイオマーカー選択、OBD (optimal biological dose) 同定」を含む多目的試験へと大きく進化した。先行する3+3デザイン批判 (Le Tourneau et al. 2009など) や個別dose-escalation法提案 (CRM・ATDなど) とは異なり、本レビューは規制 (Breakthrough Therapy新設)、施設運営 (CRO主導多施設化)、分子プロファイリング (NCI-MATCH) の3要素を統合的に論じた点に新規性がある。これまで報告されていない統合的視点として、MD Anderson Cancer Centerの683例で低用量 vs 高用量に奏効差なしの観察と、NCI CTEP (Cancer Therapy Evaluation Program) メタアナリシスで高用量優位の観察 (HR 0.59 (95% CI 0.42-0.83, p=0.002)) という相反するデータを並列提示し、選択バイアスを明示した点も独自の整理である。

臨床応用: NCI-MATCH (NCT02465060) を契機とする精密医療プログラムとPhase I試験の統合、Breakthrough Therapyを活用したPD-1/PD-L1抗体の直接Phase III試験への展開 (例: Topalian et al. NEnglJMed 2012, Brahmer et al. NEnglJMed 2012, Garon et al. NEnglJMed 2015)、ALK融合陽性NSCLCに対するクリゾチニブ (Kwak et al. NEnglJMed 2010)、セリチニブ (Shaw et al. NEnglJMed 2014)、アレクチニブ (Gadgeel et al. LancetOncol 2014)のPhase I試験から承認への加速は、いずれも本レビューが主張する設計原理 (バイオマーカー選択 + expansion cohort + accelerated approval) の有効性検証として臨床現場で活用されている。bench-to-bedside翻訳においては、(a) Phase I試験内の分子腫瘍ボードによるNGS結果解釈、(b) 多施設における中央化されたバイオマーカー検体管理、(c) 試験参加対象患者の早期スクリーニング体制、が必須インフラとして整備されつつある。

残された課題: 今後の検討課題として、(1) MTAにおけるMTD以外の代替RP2D決定法 (PK-PD血漿濃度、標的変調サロゲートなど)、(2) Adaptive design普及の障壁 (バイオ統計家の人材不足、IRBの受容性) の克服、(3) NGSベースのマッチング治療における効果格差 (SAFIR01・SHIVA試験の陰性結果 vs MD Anderson Cancer Centerの陽性結果) を解消する試験設計、(4) 腫瘍内不均一性 (intratumoural heterogeneity) や時間的進化 (temporal evolution) に対応するリピート生検やリキッドバイオプシーの統合、(5) Accelerated approval薬における市販後boxed warning/禁忌追加の48%増 (マッチングされた後ろ向きコホート研究) という安全性リスクと迅速アクセスの両立 (確証試験の遅延問題)、(6) 研修医や若手教員のPhase I独立治験担当医としての育成、が挙げられる。本レビューのlimitationとして、2015年時点の整理であり、2020年以降のproject ORBISやFDA-EMA-PMDA協調、CAR-T細胞療法やADC (抗体薬物複合体) などの新モダリティのPhase I設計の特殊性が含まれていない点が挙げられる。

方法

本稿は、腫瘍学における第I相試験の変容に関する包括的な文献レビューであり、特定の実験やデータ収集は行われていない。レビューの基盤となる情報は、既存の学術論文、系統的レビュー、メタアナリシス、および規制当局のガイドラインから、主にPubMed、Embase、Cochrane Library、Web of Scienceといった主要な医学文献データベースを用いて収集された。検索期間は1990年から2015年10月までとし、「phase I trial」「oncology」「molecularly targeted agents」「dose escalation」「biomarker」「adaptive design」「regulatory approval」などのキーワードを組み合わせて検索を実施した。

データソースと引用: 本レビューでは、第I相試験の設計と結果に関する主要な研究が引用されている。例えば、Le Tourneauらによる450件以上の第I相試験の系統的レビュー (Le Tourneau et al. 2009) は、細胞傷害性薬とMTAにおけるMTD確定率の差異に関する定量的なデータを提供している。Iasonosらによる270件の第I相試験の解析 (Iasonos et al. 2008) は、ATDと従来の3+3デザインの比較において、用量レベル数とRP2D以下で治療された患者の割合に関する統計的優位性を示している。Rogatkoらによる84件のCRM比較研究 (Rogatko et al. 2007) は、モデルベース設計の効率性に関するデータを提供した。MD Anderson Cancer Centerにおける683例の後ろ向き解析 (Jain et al. 2010) は、MTAにおける用量と有効性の関係の複雑性を示唆している。

分子プロファイリングと精密医療の評価: 分子プロファイリングに基づく治療の有効性を評価するために、SHIVA試験 (Le Tourneau et al. 2015) の195例およびSAFIR01試験 (André et al. 2014) の43例といったランダム化比較試験や、MD Anderson Cancer Centerにおける後ろ向き解析 (Tsimberidou et al. 2012) の175例のデータが引用されている。また、NCI-MATCH (Molecular Analysis for Therapy Choice) 試験 (NCT02465060) の設計と目標 (2015年8月開始、目標1000例、2400施設、20以上のactionable target評価) が、精密医療の最大規模の検証試験として紹介されている。

規制経路と承認データ: FDAの承認データも分析の対象とされた。2002年から2012年までのFDAによる加速承認された腫瘍薬の75%以上が奏効率を根拠としていること (Shea et al. 2013)、および2012年から2017年までに承認された58の腫瘍薬のうち95%が何らかの迅速承認経路を利用していること (Sherman et al. 2013) が示されている。Table 2では、Fast Track Designation、Breakthrough Therapy Designation、Accelerated Approval Pathway、Priority Review DesignationというFDAの4種類の迅速承認プログラムの適格基準と特徴が比較されている。

統計手法: 引用された研究では、用量漸増デザインの比較に際して、平均用量レベル数の比較にp値が用いられ (例: Iasonos et al. 2008におけるATD vs 3+3の比較でp=0.0001)、生存解析にはハザード比 (HR) が用いられている (例: NCI CTEPメタアナリシスにおけるOSのHR 0.59, p=0.002)。また、奏効率の比較にはオッズ比 (OR) が用いられている (OR 1.56, p=0.10)。これらの統計的評価は、各研究の結論を裏付ける根拠として本レビューに統合されている。

試験運営体制の評価: 多施設共同試験の影響については、1998年から2006年に発表された138件の第I相試験の解析 (Dowlati et al. 2008) が引用され、単施設、2施設、3施設以上の試験における患者登録期間の中央値が比較されている (それぞれ21ヶ月、20ヶ月、22ヶ月、p=0.61)。本レビューは、これらの情報を統合し、第I相試験の変容を7つの主要な軸から分析した。