- 著者: Blumenthal GM, Karuri SW, Zhang H, Zhang L, Khozin S, Kazandjian D, Tang S, Sridhara R, Keegan P, Pazdur R
- Corresponding author: Gideon M. Blumenthal, MD (US Food and Drug Administration, Office of Hematology and Oncology Products, Silver Spring, MD)
- 雑誌: Journal of Clinical Oncology
- 発行年: 2015
- Epub日: N/A
- Article種別: Original Article
- PMID: 25667291
背景
進行非小細胞肺がん (NSCLC) における新規治療薬の開発、評価、および規制承認のプロセスにおいて、どのエンドポイントが治療効果の適切な評価基準となるかは極めて重要な課題である。米国食品医薬品局 (FDA) は、薬剤承認に際して主に2つの経路を採用している。正規承認 (regular approval) は、全生存期間 (OS) の改善、または臨床的に意義のある無増悪生存期間 (PFS) の改善を根拠とする。一方、迅速承認 (accelerated approval) は、客観的奏効率 (ORR) のような、臨床的利益を合理的に予測できる代替エンドポイントの改善を根拠として付与される。この迅速承認制度は、未充足の医療ニーズが高い疾患領域において、患者が革新的な治療法に早期にアクセスできる機会を提供する重要な役割を担ってきた。特にNSCLCの分野では、過去10年間で上皮成長因子受容体チロシンキナーゼ阻害薬 (EGFR-TKI) や未分化リンパ腫キナーゼ (ALK) 阻害薬などの分子標的療法が導入され、特定の分子マーカーを有する患者集団におけるORRが劇的に向上したことが報告されている。
しかしながら、ORRがPFSやOSの「代替エンドポイント」として統計的に妥当であるか、すなわちORRの改善がPFSやOSの改善をどの程度予測しうるかについては、進行NSCLCを対象とした大規模かつ系統的な定量的評価がこれまで不足していた。代替エンドポイントの妥当性を評価するためには、試験レベルでの治療効果間の関連性 (例: ORRオッズ比とPFSハザード比 (HR) の相関) と、患者レベルでの個人内相関 (例: 奏効を達成した患者が非奏効患者と比較して長期生存するか) の両側面から検討する必要がある。特に、試験レベルでのORRとOSの相関が弱いという先行研究の報告もあり、このギャップを埋めるためのさらなるエビデンスが求められていた。例えば、Kris et al. JAMA 2014 や Sandler et al. NEnglJMed 2006 のような研究では、特定の治療法におけるORRと生存期間の関連性が示唆されているものの、進行NSCLC全体を網羅する大規模なメタアナリシスは未解明であった。また、Shaw et al. NEnglJMed 2013 など、分子標的薬の有効性を示す個別の試験は数多く報告されているが、それらの試験を横断的に統合し、ORRの代替エンドポイントとしての妥当性を多角的に評価した研究は手薄である。本研究は、FDAが保有する、新薬申請時に提出された臨床試験データという独自の包括的データソースを活用し、この重要な問いに初めて定量的に答えることを目的とした大規模なメタアナリシスである。これにより、進行NSCLCにおけるORRの代替エンドポイントとしての妥当性を多角的に評価し、規制科学的観点からの知見を提供することが期待された。
目的
本研究の目的は、2003年から2013年までの期間にFDAに提出された進行NSCLCを対象とした臨床試験のデータを統合し、試験レベルおよび患者レベルの両側面から、ORR、PFS、およびOSの治療効果間の関連性を定量的に評価することである。具体的には、以下の点を明らかにすることを目指した。第一に、試験レベルにおいて、治療によるORRの改善がPFSおよびOSの改善とどの程度の相関強度を示すかを評価する。第二に、患者レベルにおいて、客観的奏効 (ORR) を達成した患者が、非奏効患者と比較してPFSおよびOSにおいて統計的に有意な生存期間の延長を示すかを検討する。これらの解析を通じて、進行NSCLCにおけるFDAの迅速承認制度において、ORRが代替エンドポイントとして統計的に妥当であるか否かを判断するためのエビデンスを確立することを目的とした。特に、分子標的療法が導入され、ORRの治療効果が大きくなった近年の試験データを用いることで、従来の解析では困難であった相関の検出を目指した。
結果
対象試験の概要と患者背景: 本解析には、2003年から2013年にFDAに提出された14試験 (総患者数n=12,567) が含まれた。患者のベースライン特性は、中央値年齢60歳、男性64%、女性36%であった。人種の内訳は白人76%、アジア人20%、黒人2%、その他2%であった。米国におけるNSCLC患者の黒人の割合 (約17%) と比較して、本研究の対象試験における黒人患者の割合は著しく低かった。喫煙歴は現喫煙者または元喫煙者が75%、非喫煙者が25%であった。組織型は非扁平上皮がんが79%、扁平上皮がんが21%を占めた。病期はStage IVが77%、Stage IIIBが18%であった。前治療数は、初回治療 (0回) が56%、1回が38%、2回以上が6%であった (Table 2)。
分子標的療法試験と標準治療試験の比較: 分子マーカー選択集団 (EGFR変異陽性またはALK転座陽性) を対象とした3つの分子標的療法試験では、ORRが56%から65%と高く、中央値PFSは8ヶ月から11ヶ月、中央値OSは20ヶ月から28ヶ月と良好な有効性が示された。対照群と比較したORRの相対的改善率は79%から90%、PFSの相対的改善率は42%から66%と、大きな治療効果が認められた。一方、非選択集団を対象とした11の標準治療試験では、ORRが7%から37%、中央値PFSが2ヶ月から7ヶ月、中央値OSが7ヶ月から14ヶ月と、分子標的療法試験と比較して有効性は低かった。これらの試験における対照群と比較したORRの相対的改善率は0%から64%、PFSの相対的改善率は0%から34%であり、治療効果の規模は小さかった。
試験レベル解析:ORRとPFSの強い相関: ORRオッズ比とPFSハザード比の試験レベルでの関連性は、決定係数R²=0.89 (95%CI 0.80-0.98) と非常に強い相関を示した (Figure 2A)。全15比較をプロットした散布図では、ORRの改善度が大きい試験 (特に分子標的療法3試験を含む) において、PFSのHR改善も大きいという明確な線形傾向が観察された。分子標的療法3試験を除外した12試験においても、R²=0.77 (95%CI 0.58-0.96) と依然として強い相関が認められた。試験タイプ別のサブグループ解析では、head-to-head比較の試験でR²=0.94 (95%CI 0.88-1.00) とさらに強い相関が示された一方、add-on比較の試験ではR²=0.65 (95%CI 0.32-0.98) とやや弱い相関であった (Figure 2B)。
試験レベル解析:ORRとOS、PFSとOSの相関は弱い: ORRオッズ比とOSハザード比の試験レベルでの相関はR²=0.09 (95%CI 0-0.33) と非常に弱く、実質的な関連は認められなかった (Figure 3A)。分子標的療法3試験を除外した場合でも、R²=0.44 (95%CI 0.08-0.80) と相関は改善するものの、依然として弱い関連にとどまった。同様に、PFSハザード比とOSハザード比の試験レベルでの相関もR²=0.08 (95%CI 0-0.31) と弱かった (Figure 3B)。分子標的療法3試験を除外した場合、R²=0.35 (95%CI 0-0.72) となった。これらの結果は、進行NSCLCにおいて、試験レベルではPFSもORRもOSの強力な予測因子としては不十分であることを示唆している。
患者レベルレスポンダー解析:奏効者の顕著な生存優位: 14試験のプールデータ (奏効者n=2,694 patients、21% vs. 非奏効者n=9,873 patients、79%) を用いた患者レベルレスポンダー解析では、客観的奏効を達成した患者は、非奏効患者と比較してPFSおよびOSの両方で顕著な生存優位性を示した (Figure 4)。具体的には、奏効者は非奏効者と比較してPFSのハザード比が0.40 (95%CI 0.38-0.42) であり、OSのハザード比も0.40 (95%CI 0.38-0.43) であった。これは、奏効を達成した患者では死亡または増悪のリスクが約60%低減することを示している。この患者レベルでの強い関連性は、年齢、人種、喫煙歴、組織型、PS、前治療数などのベースライン因子を調整した多変量解析においても同様の結果であり、解析の頑健性が確認された。
Burzykowski法によるθ推定とランドマーク解析: 患者レベルの相関をより精密に定量化するため、Burzykowski法を用いてθ値が推定された。PFSとORR間のθは7.11 (95%CI 6.52-7.70) と算出され、OSとORR間のθは4.66 (95%CI 4.27-5.06) と算出された。これらの95%CIの下限値はいずれも1を大幅に上回っており、患者レベルでの個人内相関の存在が統計的に示された。さらに、2.5ヶ月、3ヶ月、4ヶ月、5ヶ月の各時点でのランドマーク解析でも、PFSとORR、OSとORRのいずれにおいてもθの95%CIの下限値が1を上回っており、長さバイアスを考慮しても患者レベルでの相関が頑健であることが確認された。
試験レベルと患者レベルの非対称的解離: 本研究の最も重要な知見の一つは、試験レベルではORRとOSの相関が弱い (R²=0.09) にもかかわらず、患者レベルでは奏効者が非奏効者と比較してOSで60%のリスク低減 (HR 0.40) という顕著な差を示すという非対称性が明らかになった点である。この試験レベルと患者レベルの乖離は、試験デザインにおける交差投与 (crossover)、進行後の多様な後方治療の実施、非奏効者の中にも一定期間生存する患者の存在、および後方治療の有効性などが、試験レベルでのOS相関を希釈する要因として作用している可能性が考えられる。
考察/結論
規制科学的意義:ORR迅速承認の根拠: 本研究の主要な規制科学的貢献は、進行NSCLCにおいてORRとPFSの試験レベル相関がR²=0.89 (95%CI 0.80-0.98) と統計的に強固であることを定量的に示した点にある。これは、臨床試験においてORRが大きく改善する治療薬は、PFSも大きく改善する傾向があることを意味する。この知見は、ORRに基づく迅速承認の合理的な根拠を提供するものであり、特に分子標的療法のように大きなORR改善を示す薬剤については、PFS改善という「臨床的利益を合理的に予測する代替エンドポイント」としてORRが機能する可能性が高いことが実証された。一方で、ORRとOSの試験レベル相関が弱いこと (R²=0.09; 95%CI 0-0.33) は、迅速承認後の正規承認においてOS改善の確認が依然として必要であるというFDAの制度上の要件を統計的に裏付けるものである。
先行研究との比較と新規性: 従来、非選択集団を対象としたNSCLC試験では、ORRとPFSの治療効果の規模が小さく、試験レベルでの明確な相関を評価することが困難であった。本研究では、EGFR-TKIやALK阻害薬といった分子標的療法の登場により、大きな治療効果を示す試験が解析に含まれたことで、R²=0.89という強力な相関を初めて検出できたと著者は述べている。この点は、これまでの多くの研究と異なり、分子標的薬の導入が代替エンドポイントの評価に与える影響を明確に示した点で新規性がある。患者レベルのレスポンダー解析で示されたHR 0.40 (95%CI 0.38-0.42) という結果は、EGFR-TKI治療において奏効者が非奏効者よりも延長された生存期間を示すことを報告した他の研究と整合する。例えば、Rosell et al. LancetOncol 2012 や Sequist et al. JClinOncol 2013 のような研究でも、奏効と生存期間の延長が関連することが示されている。
臨床応用: 本研究の知見は、進行NSCLC治療薬開発における迅速承認制度の臨床的意義を強化するものである。ORRとPFSの強い試験レベル相関は、特に分子標的薬のように高い奏効率を示す薬剤の場合、ORRの改善がPFSの改善を合理的に予測し、患者への早期アクセスを可能にする重要な根拠となる。これにより、未充足の医療ニーズが高い患者群に対して、より迅速に革新的な治療法を提供できる可能性が示唆される。
残された課題と研究の限界: 本研究のデータ収集期間は2003年から2013年であり、免疫チェックポイント阻害薬 (ICI) が本格的に普及する前の時代であったため、解析に含まれる試験には免疫療法試験が含まれていない。ICIでは、偽進行、遅発性奏効、長期生存例など、RECISTに基づくORRが腫瘍の活性を常に的確に捕捉しない場面が存在することが知られている。このため、免疫療法時代においては、ORRを迅速承認の代替エンドポイントとして用いる際の課題が浮上している。今後の検討課題として、免疫療法におけるORRの限界を補うために、PFS2、免疫関連奏効基準 (irRECIST/irRC) (例: Wolchok et al. ClinCancerRes 2009)、腫瘍縮小率 (depth of response)、腫瘍増大速度などの新規エンドポイントの評価が求められる。また、本解析の主要な限界として、対象がFDAに提出された試験に限定されており、出版バイアスや試験選択バイアスの影響を完全に排除できない点が挙げられる。ただし、含まれた試験の中には統計的または臨床的に陽性結果を得られなかったものや、承認につながらなかったものも含まれており、ポジティブ/ネガティブ試験のバランスは一定程度考慮されている。さらに、14試験中わずか3試験のみが分子マーカー選択集団を対象としており、全体の解析結果は依然として非選択集団試験に大きく依存している。女性 (36%) や黒人 (2%) といった一部の集団が米国NSCLC患者における疾患負担と比較して過小表現されており、多様な患者集団への一般化可能性に制限がある。今後の研究では、これらの限界を克服し、より多様な治療法や患者集団におけるエンドポイントの関連性を評価することが期待される。
方法
試験同定と選択基準: 2003年から2013年の間にFDAに初回または補足的新薬申請 (NDA) あるいは生物製剤承認申請 (BLA) として提出された進行NSCLC治療薬の臨床試験を対象とした。選択基準は、進行NSCLC患者を150例以上登録したランダム化、多施設共同、実薬対照 (head-to-head比較またはadd-on比較) の試験とした。これらの基準を満たした14試験 (総患者数n=12,567) が最終的に解析対象として選定された。なお、1つの3アーム試験に2つの比較アームが含まれていたため、試験レベル解析では合計15のランダム化比較が用いられた。対象となった14試験のうち、3試験は分子マーカー選択集団 (EGFR変異陽性2試験、ALK転座陽性1試験) を対象とした分子標的療法試験であり、残りの11試験は非選択集団を対象とした標準治療試験であった。主要エンドポイントは、9試験でPFS、5試験でOS、1試験でORRと設定されていた。対照薬との比較は、8試験がhead-to-head比較、7試験がadd-on比較であった。
エンドポイントの定義: OSはランダム化から死亡までの期間と定義され、データカットオフ時点で生存している患者は最終観察日で打ち切られた。PFSはランダム化から増悪または死亡 (先に発生した事象) までの期間と定義された。増悪が確認されず生存している患者は、最終疾患評価日で打ち切られた。PFSの評価には、大多数の試験でRECIST (Response Evaluation Criteria in Solid Tumors) が用いられ、3試験でRECIST version 1.1、残りの試験でRECIST version 1.0が適用された。また、3試験ではWHO基準が使用された。ORRは、RECISTまたはWHO基準に基づく完全奏効 (CR) および部分奏効 (PR) の合計割合と定義された。評価不能または不明な奏効ステータスの患者は、非奏効者として分類された。全ての解析は、ランダム化された全ての患者を含むITT (intent-to-treat) 集団で実施された。
試験レベル解析: ORR、PFS、およびOSの治療効果間の関連性を評価するため、加重線形回帰モデルが用いられた。解析は対数スケールで実施され、各ランダム化比較のサンプルサイズが重みとして適用された。治療効果間の相関の強さを定量化するため、決定係数 (R²) およびその95%信頼区間 (CI) が算出された。PFSおよびOSの治療効果は、Cox比例ハザードモデルから推定されたハザード比 (HR) として表された。ORRの治療効果は、ロジスティック回帰モデルから推定されたオッズ比 (OR) として表された。HRが1未満、またはORが1未満であることは、それぞれPFS、OS、ORRにおいて試験薬群の良好な結果を示す。サブグループ解析として、head-to-head比較とadd-on比較の試験タイプ別解析、および分子標的療法3試験を除外した感度分析も実施された。
患者レベルレスポンダー解析: 14試験のプールデータを用いて、奏効を達成した患者 (レスポンダー) と非奏効患者 (ノンレスポンダー) の間でPFSおよびOSを比較するレスポンダー解析が実施された。治療割り付けに関わらず、奏効の有無で層別化されたCox比例ハザードモデル (試験で層別化) を用いてPFSおよびOSのHRが推定され、カプラン・マイヤー曲線も作成された。さらに、年齢、人種、喫煙歴、組織型、パフォーマンスステータス (PS) スコア、前治療数などのベースライン因子を共変量として含む多変量Cox回帰モデルも実施され、奏効と予後との関連の頑健性が評価された。欠測値のある患者は多変量解析から除外された。また、Burzykowski法を用いて、PFS、OS、およびORR間の患者レベルの関連性をθ (任意時点tにおいて奏効者と非奏効者が生存するオッズ比の定数) によって推定した。θの95%CIの下限が1を上回る場合、患者レベルの関連性が存在すると判断される。さらに、レスポンダー解析における長さバイアスの影響を考慮するため、2.5ヶ月、3ヶ月、4ヶ月、5ヶ月の異なる時点でのランドマーク解析が支持的解析として実施された。