• 著者: René Bruno, Mathilde Marchand, Kenta Yoshida, Phyllis Chan, Haocheng Li, Wei Zou, Francois Mercier, Pascal Chanu, Benjamin Wu, Anthony Lee, Chunze Li, Jin Y. Jin, Michael L. Maitland, Martin Reck, Mark A. Socinski
  • Corresponding author: René Bruno (Clinical Pharmacology, Genentech-Roche, Marseille, France)
  • 雑誌: Clinical Cancer Research
  • 発行年: 2023
  • Epub日: 2023-01-03
  • Article種別: Original Article
  • PMID: 36595566

背景

新規のがん免疫療法における併用療法の開発が急速に進む中、バスケット試験、アンブレラ試験、プラットフォーム試験といった革新的な臨床試験デザインが、複数の腫瘍タイプにおける多様な治療法を効率的に評価するために利用されている。これらの試験は、マスタープロトコルに基づいて複数のサブスタディを並行して実施することで、有望な併用療法の効果量を早期に推定し、検証的臨床試験への移行を決定することを目的としている。例えば、MORPHEUS (Multiple Oncology Randomized Phase Ib/II Platform for Evaluation of Immunotherapy Combinations) 試験プラットフォームは、様々な腫瘍タイプにおけるがん免疫療法ベースの併用療法の安全性と有効性を評価しており、そのサブスタディであるMORPHEUS Lungは、転移性非小細胞肺がん (NSCLC) 患者を対象としている。これらのサブスタディでは、共通の対照群と複数の実験治療群が設定され、結果に応じて実験治療群の追加や削除が行われる。

早期臨床試験におけるGo/No-go意思決定は、一般的にRECIST (Response Evaluation Criteria in Solid Tumors) 基準に基づく客観的奏効率 (ORR) や無増悪生存期間 (PFS) といった評価項目に依存している。しかし、MORPHEUSのような少数患者かつ短期観察の試験では、ORRやPFSは情報量が不足しているという課題がある。腫瘍増殖抑制 (TGI; tumor growth inhibition) モデルに基づくメトリクス、特に腫瘍増殖速度 (KG) は、複数のがん種および治療設定において全生存期間 (OS) を予測し、TGI-OSモデルを通じてOSハザード比 (HR) を予測することが示されている。

しかし、TGIメトリクスがGo/No-go意思決定においてどれほど優れた操作特性 (正しいGo決定率と誤ったGo決定率) を持つかを定量的に評価し、実際の試験で使用するためのエビデンスは未解明であった。特に、先行研究である Socinski et al. NEnglJMed 2018Reck et al. LancetRespirMed 2019、さらに Mok et al. AnnOncol 2020 などの大規模臨床データが存在するものの、少数患者かつ限られた追跡期間の試験におけるTGIメトリクスの性能を、ORRやPFSと比較して包括的に評価するアプローチは不足していた。このように、早期試験の意思決定支援におけるTGIメトリクスの実用的な閾値や操作特性が不明であるという knowledge gap が残されており、この課題を解決するための検証が強く求められていた。

目的

本研究の目的は、成功したアテゾリズマブのPhase III試験であるIMpower150 (NCT02366143) のデータをリサンプリングすることにより、Phase Ib/II規模の小規模試験に相当するデータセットを模擬することであった。この模擬データセットを用いて、腫瘍増殖抑制 (TGI) メトリクスである腫瘍増殖速度 KG、腫瘍サイズ比 TR (tumor size ratio)、再増殖までの期間 TTG (time to regrowth) が、客観的奏効率 (ORR) および無増悪生存期間 (PFS) と比較して、Go/No-go意思決定においてどれほど優れた操作特性を持つかを後方視的に評価することを目指した。

具体的には、様々な患者数 (15、30、40例/群) と観察期間 (6、12、24週) のシナリオにおいて、TGIメトリクスが正しいGo決定率を最大化し、誤ったGo決定率 (Type I error) を最小化する能力を定量的に比較することを目的とした。さらに、TGI-OSモデルを用いて、これらの早期試験データからOSハザード比を予測する可能性も評価した。

結果

KG GMRの操作特性と主要設計における優位性: 主要設計シナリオ (n=40例/群、24週観察) において、ABCP対BCPの比較を行った結果、KG GMRの中央値は0.74 (95% CI 0.50-1.10) であり、ABCP群が93.0%の反復でBCP群よりも遅いKGを示した (Table 1)。prob(KG GMR < 0.90) に基づく正しいGo決定率は82.8%であり、誤ったGo決定率 (Type I error) は4.0%に抑えられた。これは、正しいGo決定率が70%を超え、誤ったGo決定率が20%未満という「スイートスポット」に到達したことを示している (Fig 3)。比較として、prob(dORR > 0.10) に基づく正しいGo決定率は69.4% (誤ったGo決定率12.4%)、prob(PFS HR < 0.70) に基づく正しいGo決定率は57.8% (誤ったGo決定率11.4%) であり、TGIメトリクスであるKG GMRがRECISTに基づく評価項目を明確に上回る性能を示した (Table 1)。特に、PFS HR < 0.80の基準では正しいGo決定率が72.4%に改善するものの、誤ったGo決定率は23.2%に増加し、許容範囲である20%を超過した。

観察期間と症例数によるTGIメトリクスの安定性: 全ての設計 (n=15〜40例/群、観察期間6〜24週) を通じて、TGIメトリクス (KG、TR、TTG) は一貫してORRおよびPFSを上回る操作特性を示した (Fig 4)。24週観察・15例/群の設計でも、prob(KG GMR < 0.90) は正しいGo決定率70%超、誤ったGo決定率20%未満の範囲内に収まり、小規模な設計でも実用的な操作特性を維持した。TR24は正しいGo決定率87.4% (誤ったGo決定率5.9%) と高性能であったが、観察期間を短縮すると性能が低下する傾向が見られた。一方、KGやTTGは観察期間の短縮に対して比較的安定した性能を維持した。特に、6週間の観察期間では、TRの性能が著しく低下したのに対し、KGとTTGは依然として実用的なGo/No-go決定を支援する能力を示した。

6週間観察の限界と24週観察の優位性: 6週間の観察設計では、KGを含む全てのTGIメトリクスの推定精度が低下し、最適なGo決定のための情報量が不十分となる傾向が示された。例えば、40例/群・6週観察のシナリオでは、prob(KG GMR < 0.90) の正しいGo決定率は約60%に低下した。これは、早期の腫瘍動態データが限られているため、治療効果の正確な評価が困難になることを示唆する。対照的に、24週間の観察期間を確保することで、TGIメトリクスの推定精度が安定し、Phase Ib/II規模の試験でも合理的なGo/No-go判断が可能となることが示された (Fig 4)。この結果は、Phase Ib併用療法試験のGo/No-go決定には、最低でも12〜24週間の観察期間が推奨されることを裏付けている。

TGI-OSモデルによるOS HR予測: 40例/群・24週観察の設計におけるOS HR予測は、中央値0.791 (95%予測区間 0.429-1.42) となり、実際のIMpower150試験全体の解析結果である OS HR 0.76 (95% CI 0.63-0.93, p<0.05) に極めて近い値を示した (Table 2)。ほとんどの設計シナリオで、予測HRは0.80以下であった。しかし、6週観察の設計では、推定精度が低下し、予測HRは0.846〜0.889と高くなる傾向が見られた。これは、限られた観察期間ではKG効果量が過小評価される可能性を示唆している。TGI-OSモデルは、小規模なサンプルサイズでは予測区間が広くなるものの、Phase III試験の設計に対する定量的な情報を提供できる可能性が示された。

BCP vs. BCP比較によるType I errorの抑制: 対照群同士のBCP対BCP比較における誤ったGo決定率 (Type I error) は、KG GMR < 0.90の基準で4.0% (n=40例/群・24週観察) と極めて低く、許容範囲内に制御できることが確認された (Table 1)。ORR (dORR > 0.10で12.4%) およびPFS (PFS HR < 0.70で11.4%) の誤ったGo決定率と比較して、TGIメトリクスの優位性が定量的に示された。これは、TGIメトリクスが、治療効果がない場合に誤ってGo決定を下すリスクを低減する上で、RECISTに基づく評価項目よりも優れていることを意味する。

考察/結論

本研究は、Phase III試験データのリサンプリングという新規の手法を用いて、腫瘍増殖抑制 (TGI) メトリクスの操作特性を定量的に評価し、腫瘍増殖速度 (KG) の幾何平均比 (GMR) が、客観的奏効率 (ORR) や無増悪生存期間 (PFS) と比較して、より少ない患者数と短い観察期間でGo/No-go決定の精度を高めることを示した。

先行研究との違い: 本研究は、従来のRECIST基準のみに依存するアプローチと異なり、IMpower150という成功したPhase III試験のデータをリサンプリングすることで、Phase Ib/II試験のGo/No-go決定におけるTGIメトリクスの操作特性を、ORRやPFSといったRECISTに基づく評価項目と直接比較し、その優位性を定量的に示した点で、これまでの意思決定フレームワークと異なる。

新規性: 本研究で初めて、TGIメトリクス、特にKG GMRが、Phase Ib/II規模の併用療法試験における早期のGo/No-go意思決定において、RECISTに基づく評価項目よりも優れた予測能と低いType I errorを持つことを、IMpower150のデータリサンプリング解析により新規に同定した。KGは腫瘍動態の速い変化を早期に捉えられるため、短い観察期間でも一定の性能を維持する。一方、腫瘍サイズ比 (TR) は観察期間に感度が高く、24週観察では優れた性能を示すが、観察期間を短縮すると性能が著しく低下することが明らかになった。

臨床応用: 本知見は、早期臨床試験における意思決定支援の改善に直結する臨床的有用性を持つ。TGIモデルに基づくKG GMRを探索的評価項目として採用することで、より少ない患者数と短い観察期間で、有望な併用療法を効率的に特定し、開発を加速できる可能性がある。これにより、患者への革新的な治療法の提供を早め、リソースの最適化に貢献することが期待される。

残された課題: 本解析の制約 (limitation) として、IMpower150の1つの設定 (未治療非扁平上皮NSCLCにおけるABCP治療) に限定されることが挙げられる。したがって、他のがん種や治療法への一般化には追加検証が必要である。また、TGI-OSモデルによる定量的OS予測は、小規模なサンプルサイズでは不確実性が大きいという課題がある。今後の検討課題として、TGI-OSモデルが様々な設定でアウトカムを予測できるか、また治療法に依存しないかという主要な仮定のさらなる検証が残されている。

方法

本後方視的解析では、非小細胞肺がん (NSCLC) 患者を対象とした無作為化Phase III試験であるIMpower150 (NCT02366143) のデータを使用した。IMpower150試験の主要な成果は、Socinski et al. NEnglJMed 2018 および Reck et al. LancetRespirMed 2019 により報告されている。アテゾリズマブ、ベバシズマブ、化学療法を併用したABCP (atezolizumab + bevacizumab + carboplatin + paclitaxel) 群 (n=392) およびベバシズマブと化学療法を併用した対照群であるBCP (bevacizumab + carboplatin + paclitaxel) 群 (n=393) から、ベースライン特性と縦断的な最長径合計であるSLD (sum of longest diameters; RECIST v1.1) データをリサンプリングした。

Phase Ib/II試験を模擬するため、各設計 (1群あたり15、30、40例、観察期間6、12、24週) ごとに500回の反復サブサンプルを生成した。リサンプリングは、月8例の募集率を仮定し、最終患者登録後24週でデータカットオフを行った。TGIメトリクスは、非線形混合効果モデル (NONMEM, version 7.3.0) を用いた二指数関数TGIモデルによって推定された。このモデルは、腫瘍増殖速度定数 (KG) と腫瘍縮小速度定数 (KS) を含む。主要なTGIメトリクスはKGであり、その他に推定KS、観察終了時のベースラインに対する腫瘍サイズ比であるTR、再増殖までの期間であるTTGも評価した。古典的な評価項目であるORRおよびPFSも、各サブサンプルからRECIST v1.1に従って導出した。

比較解析では、ABCP対BCPの比較 (正しいGo決定率の推定) と、BCP対BCPの比較 (誤ったGo決定率、すなわちType I errorの推定) を実施した。効果量は、TGIメトリクスについては幾何平均比であるGMR (geometric mean ratio)、ORRについては差であるdORR、PFSについてはハザード比 (PFS HR) として算出した。各設計における500回の反復サブサンプル全体で、所望の効果量を達成する確率を評価した。さらに、OSは、以前に発表されたTGI-OSモデルを用いてシミュレーションされた。このモデルは、アテゾリズマブの6つのPhase IIおよびPhase III無作為化試験 (3,800例以上のNSCLC患者データ) に基づいており、IMpower150のデータを除外して再推定された。統計解析には、主に確率論的アプローチが用いられ、各シナリオにおける効果量の分布から確率を算出した。生存時間解析の比較には、Cox proportional hazards モデルに基づくハザード比の推定を用いた。