- 著者: Chibaudel B, Bonnetain F, Shi Q, Buyse M, Tournigand C, Sargent DJ, Allegra CJ, Goldberg RM, de Gramont A
- Corresponding author: de Gramont A (Division of Medical Oncology, Hôpital Saint-Antoine, Assistance Publique des Hôpitaux de Paris, Paris, France)
- 雑誌: Journal of Clinical Oncology
- 発行年: 2011
- Epub日: 2011-08-22
- Article種別: Original Article
- PMID: 21969501
背景
進行大腸癌 (ACRC: advanced colorectal cancer) の治療において、複数の有効な化学療法レジメンを順次投与する逐次治療戦略が確立されつつある。この複雑な治療戦略の最終的な評価指標は全生存期間 (OS: overall survival) であるが、OSは後続治療 (crossoverやsubsequent therapies) の影響を強く受けるため、個々の治療ラインの純粋な効果を評価することが困難である。さらに、OSを主要評価項目 (primary endpoint) とする臨床試験は大規模な患者数と長期の追跡期間を要し、試験コストと開発期間を増大させるという本質的な課題を抱えている。
この課題を解決するため、無増悪生存期間 (PFS: progression-free survival) が代替エンドポイントとして広く用いられてきた。しかし、PFSは最初の治療ラインにおける増悪までの期間 (single-sequence endpoint) しか測定できず、複数の治療ラインを組み合わせた治療戦略全体を評価するには不十分である。先行研究である Buyse et al. JClinOncol 2007 や Buyse et al. NatRevClinOncol 2010、および Dudley et al. JClinOncol 2008 において、後続治療が存在する場合のPFSとOSの相関性の低下や、代替エンドポイント評価における統計的検証の重要性が指摘されてきた。
しかし、これまで提案されてきた代替エンドポイントである、複数治療コースのPFSの合計値である病勢コントロール期間 (DDC: duration of disease control) や、治療戦略開始から戦略自体の破綻までの期間を示す治療戦略失敗時間 (TFS: time to failure of strategy) について、OSに対するサロゲート性 (代替可能性) を大規模な個別患者データ (IPD: individual patient data) を用いて体系的に検証した報告はなかった。特に、ACRCの治療戦略評価において、PFS、DDC、TFSのうちどれがOSの最良の代替指標であるか、また試験レベル (trial-level) と個人レベル (individual-level) の両軸でコプラ生存モデル (copula bivariate survival model) を用いた厳密な統計的検証を行うためのデータが不足していた。本研究は、これらの未解明な課題を解決するために計画された。
目的
本研究の目的は、進行大腸癌 (ACRC) に対する化学療法戦略を評価する臨床試験において、提案されている代替エンドポイント候補であるPFS、DDC、およびTFSのOSに対するサロゲート性 (代替妥当性) を定量的に検証することである。具体的には、3つのランダム化比較試験から得られた計1,042例の個別患者データ (IPD) を統合し、コプラ生存モデルを用いて試験レベルおよび個人レベルでの相関強度を算出・比較することで、DDCおよびTFSがACRC治療戦略評価における新たな主要評価項目として許容可能であるかを明らかにすることを目指す。
結果
患者レベルにおける代替エンドポイントの分布とイベント発生状況: 全1,042例のインテント・トゥ・トリート (ITT) 解析において、各エンドポイントにおける情報打ち切り (censoring) の割合は、PFSで10.2% (106例)、DDCで15.9% (166例)、TFSで14.1% (147例)、OSで22.7% (237例) であった。同一患者内におけるDDCとTFSの値を直接比較した結果、620例 (59.5%) においてDDCとTFSは完全に一致した (Table 1)。これは、休薬期間中の病勢進行に対して1ヶ月以内に化学療法が再開され、再開後に病勢コントロールが維持された症例や、病勢進行がないまま試験を終了した症例などが該当する (Figure 2)。一方で、405例 (38.9%) ではDDCがTFSよりも短く、17例 (1.6%) ではTFSがDDCよりも短かった。
試験レベルにおけるOS代替妥当性の検証 (DDCおよびTFSの優位性): コプラ生存モデルを用いた試験レベルの解析において、OSに対する代替エンドポイントとしての調整決定係数 (adjusted copula R²) は、DDCで R² = 0.72 (95% CI 0.135-1.00)、TFSで R² = 0.67 (95% CI 0.053-1.00) を示し、いずれも良好な相関基準とされる modest correlation (R² = 0.5-0.8) の範囲内であった (Table 2)。これに対し、従来のPFSにおける調整決定係数は R² = 0.47 (95% CI 0.00-1.00) にとどまり、OSに対するサロゲート性としては不十分であることが示された。DDCはPFSと比較して、決定係数において約1.5倍高い値を示した。また、治療効果のハザード比の相関を示すWLS R²においては、PFSで0.731 (95% CI 0.313-0.962)、DDCで0.763 (95% CI 0.349-0.953)、TFSで0.744 (95% CI 0.366-0.954) となり、3つの指標間で極端な差は認められなかった。個人レベルの相関 (individual-level R²) は、PFSで0.556 (95% CI 0.521-0.590)、DDCで0.583 (95% CI 0.550-0.616)、TFSで0.577 (95% CI 0.544-0.610) であり、いずれも中等度の相関を示した。各エンドポイントの中央値とOS中央値とのピアソン相関係数 (r) は、DDCで r = 0.62、TFSで r = 0.59、PFSで r = 0.45 であり、DDCおよびTFSがPFSを上回る相関性を示した (Figure 3)。
C97-3試験における各エンドポイントの治療成績: C97-3試験 (n=200) において、FOLFIRI先行群 (n=100) の治療成績は、PFS中央値が 8.5 months (95% CI 7.2-9.5)、DDC中央値が 11.4 months (95% CI 10.0-13.1)、TFS中央値が 14.2 months (95% CI 12.1-17.0)、OS中央値が 21.5 months (95% CI 16.7-25.6) であった。これに対し、FOLFOX6先行群 (n=100) では、PFS中央値が 8.1 months (95% CI 6.3-9.9)、DDC中央値が 10.1 months (95% CI 7.5-12.0)、TFS中央値が 11.0 months (95% CI 9.0-14.7)、OS中央値が 20.6 months (95% CI 17.3-25.0) であった。FOLFIRI先行群 vs FOLFOX6先行群における治療効果のハザード比について、主要評価項目であるPFSでは治療効果に有意差を認めなかった。
OPTIMOX1試験における各エンドポイントの治療成績: OPTIMOX1試験 (n=620) において、FOLFOX4持続投与群 (n=311) の成績は、PFS中央値が 9.2 months (95% CI 8.0-10.3) であったのに対し、オキサリプラチン・ストップ&ゴー (FOLFOX7) 群 (n=309) では、PFS中央値が 8.7 months (95% CI 8.3-9.4) であった。このPFSにおける両群の比較では、治療効果のハザード比は HR 0.99 (95% CI 0.84-1.16, p=0.88) と有意差を認めなかった。同様に、DDC中央値は 9.3 vs 9.9 months、TFS中央値は 9.5 vs 10.6 months、OS中央値は 19.2 vs 21.1 months であり、いずれも両群間で同等な治療成績を示した。
OPTIMOX2試験における各エンドポイントの治療成績: OPTIMOX2試験 (n=222) において、完全休薬を伴うストップ&ゴー群 (n=111) の成績は、PFS中央値が 6.5 months (95% CI 5.6-7.0) であった。これに対し、維持療法を挟むストップ&ゴー群 (n=111) では、PFS中央値が 8.7 months (95% CI 7.4-10.3) であった。このPFSにおける維持療法群 vs 完全休薬群の治療効果のハザード比は HR 0.76 (95% CI 0.58-0.99, p=0.04) であり、維持療法群で有意なPFS延長が認められた。また、DDC中央値は 12.5 vs 9.0 months と維持療法群で 3.5 months の有意な延長を示し、TFS中央値は 12.9 vs 9.9 months であった。さらに、OS中央値においても 24.5 vs 19.5 months と維持療法群で 5.0 months の有意な延長が示され、治療効果のハザード比は HR 0.78 (95% CI 0.58-1.05, p=0.10) であった。
必要サンプルサイズへの影響と臨床試験デザインの効率化: DDCおよびTFSは、OSと比較してイベント発生までの期間が約半分と短い (例えばOPTIMOX2試験におけるDDC中央値 12.5 vs OS中央値 24.5 months)。この特性に基づき、臨床試験の主要評価項目をOSからDDCまたはTFSに変更した場合の必要症例数を試算したところ、同一の統計学的検出力を維持したまま、必要な登録患者数を約50%削減できることが示された。これにより、臨床試験の期間短縮と開発コストの大幅な抑制が可能となる。
考察/結論
先行研究との違い: 従来の進行大腸癌における代替エンドポイント検証研究、例えば Buyse et al. JClinOncol 2007 や Buyse et al. NatRevClinOncol 2010 では、PFSのOSに対するサロゲート性が後続治療の有無によって影響を受ける限界を指摘するにとどまり、具体的な代替指標の統計的検証には踏み込んでいなかった。これら従来の報告と異なり、本研究はDDCおよびTFSという具体的な複合エンドポイントを提示し、個別患者データを用いたコプラ生存モデルにより、その妥当性を初めて定量的に実証した。
新規性: 本研究は、進行大腸癌の逐次治療戦略において、DDC (調整コプラ R² = 0.72) およびTFS (R² = 0.67) が、従来のPFS (R² = 0.47) よりも明らかに高いOS代替妥当性を示すことを本研究で初めて明らかにした。特に、ストップ&ゴー戦略や多剤併用逐次治療といった複雑な臨床試験デザインにおいて、DDCが治療効果を最も適切に反映する新規な評価指標として機能することを実証した点が極めて独創的である。
臨床応用: 本研究の成果は、進行大腸癌における新規治療戦略や薬剤開発の臨床試験デザインにおける translational なマイルストーンとなる。臨床的有用性として、主要評価項目をOSからDDCやTFSに置き換えることで、必要症例数を約50%削減し、試験期間を大幅に短縮できる。これにより、有望な治療戦略をより迅速に臨床現場へ届けることが可能となり、規制当局による承認プロセスの迅速化にも寄与する。
残された課題: 本研究の主な limitation として、解析対象が3つの臨床試験 (計1,042例) に限定されている点が挙げられる。より強固なサロゲート性を確立するためには、さらに多くの大規模臨床試験データを用いた外部検証が今後の検討課題である。また、本解析のデータセット (1997-2006年) は分子標的薬が標準導入される前の治療を主としており、現代の多剤併用標的治療戦略におけるDDCおよびTFSの妥当性検証が今後の研究方向性として残されている。
方法
試験設計と対象患者: 本研究は、フランスの臨床研究グループであるGERCORが実施した3つのランダム化比較試験であるC97-3試験、OPTIMOX1試験、OPTIMOX2試験の個別患者データ (IPD) を用いた統合解析である。対象は未治療の進行大腸癌 (ACRC) 患者計1,042例であり、1997年から2006年の間に登録された。全患者の生存追跡期間の中央値は39.8 months (95% CI 38.3-43.0) であった。導入化学療法として、109例 (10.5%) がイリノテカンベースの治療、933例 (89.5%) がオキサリプラチンベースの治療を受け、701例 (67%) が二次治療に進んだ。
エンドポイントの定義:
- PFS: ランダム化から最初の病勢進行 (PD: progressive disease) またはあらゆる原因による死亡までの期間。
- DDC: 各アクティブな治療コースにおけるPFSの合計値。治療増悪から次の治療再開までの期間や、治療再開後の最初の評価でPDとなった場合の無効な治療期間は除外する。
- TFS: 治療戦略開始から、死亡、予定された最終治療シーケンスでのPD、プロトコール外の新規治療薬の追加、または治療休止期間中のPDから1ヶ月以内に治療が再開されなかった場合のいずれか早い時点までの期間。
- OS: ランダム化からあらゆる原因による死亡までの期間。 なお、腫瘍縮小効果の判定には、C97-3試験およびOPTIMOX1試験ではWHO基準、OPTIMOX2試験では Eisenhauer et al. EurJCancer 2009 に基づくRECIST基準 (version 1.1) が用いられた。
統計解析手法: 生存曲線の推定には Kaplan-Meier 法を用い、追跡期間の算出には reverse Kaplan-Meier 法を適用した。治療効果のハザード比 (HR: hazard ratio) 推定にはコックス比例ハザードモデル (Cox proportional hazards model) を用いた。OSに対するサロゲート性の検証には、試験レベル (trial-level) および個人レベル (individual-level) の2段階モデルを構築した。試験レベルのサロゲート性指標として、重み付き最小二乗法 (WLS: weighted least-squares) に基づく決定係数 (WLS R²) と、コプラ生存モデルから得られる調整コプラ決定係数 (adjusted copula R²) を算出した。個人レベルの相関は、コプラモデルに基づく個体レベル決定係数 (individual-level R²) で評価した。解析対象の単位 (unit of analysis) として、3つの試験内に含まれる各施設を患者数に応じて12のセンターグループに分割して使用した。本解析では、主要評価項目 (primary endpoint) をOSからDDCまたはTFSに変更した場合の必要症例数 (sample size calculation) の試算も実施した。すべての統計解析は SAS 9.1 ソフトウェアを用いて実行された。