- 著者: Reitblat C, Fleishman A, Kaplan IA, Stensland KD, D’Amico AV, Olumi AF, Wagner AA, Chang PK, Kim SP, Korets R, Gershman B
- Corresponding author: Boris Gershman (Division of Urologic Surgery, Beth Israel Deaconess Medical Center, Boston, MA)
- 雑誌: Urologic Oncology: Seminars and Original Investigations
- 発行年: 2021
- Epub日: 2021-04-28
- Article種別: Original Article
- PMID: 33934965
背景
高悪性度前立腺癌 (Gleason score 8-10、Grade Group 4-5) の局所進行リスクと前立腺癌特異的死亡リスクは、低・中悪性度疾患と比較して著しく高い。PSAスクリーニング普及後の変化に伴い診断時高悪性度疾患の割合が増加しており、この集団に対する最適局所療法の選択は泌尿器腫瘍科において最重要かつ未解決な臨床的問いとして認識されてきた。根治的前立腺全摘除術 (radical prostatectomy: RP) と外部照射放射線療法 (external beam radiation therapy: EBRT) は限局性前立腺癌の標準局所療法として広く用いられているが、いずれが優れた生存アウトカムをもたらすかを直接検証したランダム化比較試験 (RCT) は、高悪性度疾患においては存在しない。
臨床的に限局した前立腺癌に対するRP対放射線療法の直接比較RCTは、英国のProtecT試験が世界で唯一存在するが、この試験は現在も追跡中であり成熟した腫瘍学的結果が得られていない Hamdy et al. NEnglJMed 2016。また ProtecT試験の対象は大多数が低・中リスク疾患であり、Gleason 8-10の高悪性度疾患に外挿できる根拠は乏しい。高リスク疾患を扱う前向きRCTとして唯一進行中のSPCG-15試験も、成熟した結果の提供には5-10年を要すると見込まれており、現時点での臨床判断に資するエビデンスとはなり得ない。
既存のエビデンスは観察研究のみで構成されており、その結果は相矛盾している。Wallis et al. のメタ解析 (19研究・118,830例) では高リスク疾患においてEBRTがRPと比較して癌特異的死亡 (HR 1.83、p=0.0001) および全死亡 (HR 1.88、p<0.00001) のリスクが高いことが示された Wallis et al. EurUrol 2016。同様に Petrelli et al. の17研究メタ解析でもRP優位のOS (pooled HR 0.51、p<0.00001) が報告されている。一方、Kishan et al. のGleason 9-10を対象とした多施設観察研究 (1,809例) では、RPとEBRT+ADTの間に前立腺癌特異的死亡率の統計的有意差は認められなかった Kishan et al. JAMA 2018。このように観察研究間の矛盾は顕著であり、方法論的厳密性の違い・適格基準の異質性・残余交絡が結果の不一致に大きく寄与していると考えられていた。従来の多くの研究は cT4疾患・PSA>20 ng/mL・高齢 (75歳超) 患者を含めており、選択バイアスおよび intractable confounding に対して脆弱であった。この gap in knowledge を埋めるために、より厳密な因果推論の枠組みが求められていた。
Hernán & Robins (2016) が提唱した目標臨床試験エミュレーション (target trial emulation) フレームワークは、RCTを実施できない状況での因果推論を強化する観察的手法として注目されている。このフレームワークは、適格基準・治療戦略・割付手順・フォローアップ・アウトカム・解析計画をa prioriに明示した仮想試験プロトコルを構築し、観察データをその試験として解析することで、伝統的観察研究に比べて交絡と選択バイアスをより体系的に制御する。しかし本研究以前に、このフレームワークを前立腺癌の局所療法比較に明示的に適用した研究は存在しなかった。
目的
National Cancer Database (NCDB) 2006-2015年のデータを用いて、Gleason 8-10の高悪性度限局性前立腺癌に対する目標臨床試験エミュレーション手法を適用し、RPとEBRT+ADTの全生存期間 (OS) への比較効果を安定化逆確率加重 (stabilized inverse probability weighting: sIPW) 調整Cox比例ハザードモデルにより因果推論的に推定すること。
結果
コホートの概要と治療前基準値: 最終コホートはn=26,806例で構成された (RP群: n=23,990、EBRT+ADT群: n=2,816) (Table 2)。診断時中央値年齢は63歳 (IQR 60-66)、PSA中央値は6.4 ng/mL (IQR 4.8-9.3)、全体フォローアップ期間中央値は48.4ヶ月 (IQR 25.5-76.2) であった。臨床T病期の内訳はcT1 60.2%・cT2 34.1%・cT3 5.8%、Gleason scoreの内訳はGleason 8が62.0%・Gleason 9が36.2%・Gleason 10が1.8%であった。フォローアップ期間中に合計2,272例が死亡した。
IPW調整前には治療群間でほぼすべての共変量に統計的有意差が認められた。RP群はEBRT+ADT群と比較して有意に若く (中央値63歳 vs 65歳、p<0.001)、PSAが低く (中央値6.3 vs 7.2 ng/mL、p<0.001)、cT1の割合が高かった (61.2% vs 51.5%、p<0.001)。なお、CCI 1の割合はRP群のほうがわずかに高く (18.8% vs 14.4%、p<0.001)、また黒人の割合はEBRT+ADT群で高かった (21.2% vs 11.2%)。RP施行例の病理学的T病期 (pT病期) はpT2が39.7%・pT3aが24.2%・pT3bが20.2%・pT4が0.7%で、pN1 (リンパ節転移陽性) は7.9%に認められた。
IPW調整後の主要エンドポイント (全生存): sIPW再重み付けにより、利用可能なすべての前治療患者・腫瘍特性においてSD<0.10の良好な共変量バランスが達成された (Table 3) (IPW後の有効サンプル数: RP群n=21,321、EBRT+ADT群n=2,478)。IPW再重み付けKaplan-Meier解析の結果を (Fig. 1) に示す。IPW調整Cox回帰において、RPはEBRT+ADTと比較してOSが有意に改善された (HR 0.54、95%CI 0.48-0.62、P<0.001)。5年OSはRP群93%対EBRT+ADT群87%、10年OSはRP群76%対EBRT+ADT群60%であった。参考として、IPW調整前 (粗解析) においても5年OS 93% vs 85%、10年OS 77% vs 55%とRP優位の傾向が認められており、IPW調整を経ても基本的な結論は変わらなかった。
サブグループ解析: 治療効果の不均一性: Gleason score・PSA・臨床T病期・年齢・CCIの各カテゴリについてForest plotを作成した (Fig. 2)。検討したすべてのカテゴリにおいてRPはEBRT+ADTと比較して一貫してOS改善と関連していた。Gleason score別のHRはGleason 8で0.76 (95%CI 0.66-0.87)、Gleason 9で0.46 (95%CI 0.39-0.54)、Gleason 10で0.42 (95%CI 0.37-0.47) であり、Gleason scoreが高いほどRPの優位性がより大きい傾向が認められた。PSA別ではPSA<10 ng/mL群でHR 0.56 (95%CI 0.49-0.63)、PSA 10-20 ng/mL群でHR 0.51 (95%CI 0.46-0.56)、臨床T病期別ではcT1でHR 0.55 (95%CI 0.48-0.64)、cT2でHR 0.54 (95%CI 0.48-0.61)、cT3でHR 0.54 (95%CI 0.45-0.64) であった。年齢別では65歳未満でHR 0.54 (95%CI 0.50-0.61)、65-69歳でHR 0.56 (95%CI 0.51-0.61)、CCI別ではCCI 0でHR 0.56 (95%CI 0.50-0.62)、CCI 1でHR 0.49 (95%CI 0.41-0.60) であった。交互作用解析では、Gleason scoreにおいてのみ有意な交互作用が認められた (p<0.001) が、すべてのカテゴリでRP優位の方向性は一致しており、定性的な効果修飾 (qualitative effect modification) は観察されなかった。
感度解析 (2010-2015年コホートによる追加調整): 2010-2015年診断例に限定した感度解析コホートでは、IPW調整前にも治療群間に有意な基準値の差が残存していた (EBRT+ADT群でcT2-3比率45.8% vs RP群37.4%、Gleason 9比率39.2% vs 32.8%、Gleason 10比率3.0% vs 1.7%、陽性コア数中央値6 vs 5、いずれもp<0.001)。このコホートの中央値フォローアップは39.4ヶ月 (IQR 22.3-59.8) で、計1,024例が死亡した。粗解析での5年OS: RP 93% vs EBRT+ADT 85%、7年OS: RP 87% vs EBRT+ADT 76%であった。IPW再重み付け後 (Fig. 3) においても、RPはEBRT+ADTと比較してOSが有意に改善された (HR 0.62、95%CI 0.49-0.78、P<0.001)。5年OSはRP群93%対EBRT+ADT群89%、7年OSはRP群86%対EBRT+ADT群81%であった。主解析と比較して治療効果量はHR 0.54から0.62へと減衰したものの、方向性と統計的有意性は完全に維持された。この減衰は生検特異的Gleason scoreおよび陽性コア割合といった case mix 変数による追加調整を反映している。
考察/結論
本研究は、目標臨床試験エミュレーションフレームワークを高悪性度限局性前立腺癌 (Gleason 8-10) の局所療法比較に本研究で初めて明示的に適用した、これまで報告されていない観察的比較有効性研究である。NCDB 2006-2015年の26,806例という大規模コホートにおいて、sIPW調整後もRPがEBRT+ADTと比較してOSを有意に改善することが示された (HR 0.54、95%CI 0.48-0.62)。この結果は検討したすべてのGleason score・PSA・cT病期・年齢・CCI カテゴリで一貫しており、感度解析においても方向性と統計的有意性が維持された。
既報との比較相違点: これまでの観察研究では相矛盾する結果が報告されており、本研究とは対照的に Kishan et al. はGleason 9-10を対象とした多施設研究でRP対EBRT+ADTの癌特異的死亡率に有意差を認めなかった。また既報の NCDB解析 (Ennis et al. JCO 2018) では質的には本研究と同方向の結果 (EBRT+ADTでOS劣位) が示されたが、その研究はcT4疾患・PSA>20 ng/mL・75歳超患者を含めており、治療均衡が成立しない集団を混在させることで intractable confounding に曝されていた点が本研究との大きな相違点である。本研究はこれらの既報と異なり、目標試験の適格基準をa prioriに設定することで選択バイアスを最小化し、実際にRPとEBRT+ADTのいずれも適応となりうる患者集団に絞って解析した。Hernán & Robins フレームワークの明示的適用により、study population・解析計画・感度解析をすべて事前に規定したことが方法論的な新規性として際立つ。
新規性: 本研究は高悪性度限局性前立腺癌に対する局所療法の比較有効性研究として、目標試験エミュレーションというフレームワークを新規に導入した点に独自の学術的価値がある。Hernan & Robins (Am J Epidemiol 2016) が提唱したこの枠組みは、RCTが存在しない状況における因果推論の体系的強化を目的としており、適格基準・治療定義・フォローアップ・アウトカム・解析計画のすべてをa prioriに明示することで、従来の観察研究に比べてより正確な causal inference を実現する。大規模行政データベース (NCDB) の活用と組み合わせることで、単一施設コホートでは得られない統計的検出力と外的妥当性が担保された。
臨床的意義: 本研究の結果が示す臨床的含意として、外科的切除の良適応となる高悪性度限局性前立腺癌患者 (年齢55-69歳・CCI 0-1・cT1-3) において、RPはEBRT+ADTと比較して生存の点で優位である可能性が示唆される。この臨床的意義は、泌尿器科・放射線腫瘍科・内科腫瘍科の集学的腫瘍委員会 (MDT) での治療方針決定において参照すべきエビデンスとして機能する。ただし観察研究の性格上、治療決定はこの結果のみに基づくのではなく、患者個人の合併症プロフィール・本人の価値観・施設の手術経験・EBRT実施体制を総合的に勘案して行うべきである。
残された課題: 本研究の最大のlimitationは非ランダム化デザインであり、NCDBで測定不能な交絡因子 (術前MRI所見・パフォーマンスステータス・施設の手術件数・患者の治療選好) の影響を除外できない点にある。NCDBはOSのみを捕捉するためのデータベースであり、生化学的再発・転移進行・前立腺癌特異的死亡などの腫瘍学的エンドポイントを評価できない。また、EBRT+ADTにおけるADT期間・種類や補助療法・救済療法の使用状況の詳細が把握できない。今後の検討として、SPCG-15試験の成熟した前向きランダム化データが高グレード前立腺癌の局所療法選択に明確な根拠を提供することが期待される。更なる検討として、ブラキセラピーブーストの追加 (EBRT+ADT+brachytherapy) を含めた3アーム比較、ならびに癌特異的生存を捕捉できるデータソースによる検証も重要な future research として位置付けられる。
方法
データソースと仮想試験プロトコルの設定: データソースとして National Cancer Database (NCDB) 2006-2015年を使用した。NCDBは米国外科学会 (CoC) と米国癌協会 (American Cancer Society: ACS) が共同運営する大規模データベースであり、米国全土の認定がん治療施設の症例情報を網羅している。仮想RCTのプロトコルをa prioriに規定し Table 1 に明示した。具体的な適格基準は: (1) 年齢55-69歳、(2) 臨床病期 cT1-3cN0cM0、(3) 前治療PSA<20 ng/mL、(4) Gleason score 8-10の前立腺腺癌、(5) CCI (Charlson Comorbidity Index) 0または1、とした。cT4疾患・PSA≥20 ng/mL・高齢者 (70歳以上) を除外することで、現実に両治療の選択肢を有し治療均衡 (equipoise) が成立する集団に限定した。
治療群の定義: 治療群はRP 対 EBRT 75-81 Gyおよびアンドロゲン除去療法 (androgen deprivation therapy: ADT) の2群とした。EBRT+ブラキセラピーはNCDB内での患者数が少なく観察的選択バイアスが大きいため、今回の仮想試験アームから除外した。主要アウトカムは全生存期間 (OS) とした (NCDBでは生化学的再発・転移データは利用不能)。
統計解析: 治療群間の非ランダム割付けに起因する共変量の不均衡を補正するため、傾向スコアベースアプローチを採用した。傾向スコアモデルには以下の共変量を投入した: 年齢、PSA、診断年、臨床T病期、Gleason score、CCI、人種、ヒスパニック系、保険状況、地理的位置、施設タイプ、病院までの距離、都市・農村分類、収入、高校非卒業率。これらをロジスティック回帰モデルに投入して各患者の治療割付け傾向スコアを算出し、安定化逆確率加重 (sIPW) を導出した。
治療群間のバランスは標準化差 (standardized difference: SD) で評価し、SD<0.10を「良好なバランス」と定義した (Table 3参照)。IPW再重み付け後のOSはKaplan-Meier法で推定し、治療とOSの関連はIPW再重み付けCox比例ハザードモデルにより95%信頼区間 (CI) 付きハザード比 (HR) として要約した。治療効果の不均一性評価のため、Gleason score・PSA・臨床T病期・年齢・CCIの各カテゴリを対象に交互作用を検定した。統計解析にはR version 3.6.3を使用し、両側検定でP<0.05を有意水準とした。
感度解析: 2010-2015年診断例に限定したコホートで感度解析を実施した。この期間に利用可能な Collaborative Staging (CS) Site-Specific Factors (SSFs) を活用して、傾向スコアモデルに生検特異的Gleason score (非特異的サマリーGleason scoreではなく)・生検コアサンプリング数・陽性コア割合を追加し、より精緻なcase mix調整を行った。