- 著者: Marchetti A, Barberis M, Franco R, De Luca G, Pace MV, Staibano S, Volante M, Buttitta F, Guerini-Rocco E, Righi L, D’antuono T, Scagliotti GV, Pinto C, De Rosa G, Papotti M
- Corresponding author: Antonio Marchetti (University of Chieti-Pescara, Italy)
- 雑誌: Journal of Thoracic Oncology
- 発行年: 2017
- Epub日: 2017-08-14
- Article種別: Original Article (Multicenter biomarker methodology study)
- PMID: 28818609
背景
NSCLC (non-small cell lung cancer) における免疫チェックポイント阻害薬 (ICI、immune checkpoint inhibitor) の適応判断には programmed death-ligand 1 (PD-L1) 免疫組織化学 (IHC、immunohistochemistry) が標準的に用いられているが、各薬剤承認時に異なる antibody clone と staining platform の組み合わせが採用された結果、臨床現場での解釈に複雑性が生じていた。FDA は pembrolizumab に対し PD-L1 IHC 22C3 PharmDx (Agilent、Dako Autostainer Link 48) を companion diagnostic として承認 (Garon et al. NEnglJMed 2015 KEYNOTE-001・Reck et al. NEnglJMed 2016 KEYNOTE-024・Herbst et al. Lancet 2016)。一方 nivolumab には PD-L1 IHC 28-8 PharmDx (Dako)、atezolizumab には Ventana PD-L1 (SP142)、durvalumab には Ventana PD-L1 (SP263) (Ventana BenchMark platform) が complementary diagnostic として位置づけられた。
各施設に Dako と Ventana の両 platform を保有することは経済的・運用面で困難であり、限られた platform 上で複数薬剤の biomarker 判定を可能にする interchangeability の検証は手薄でほとんど報告がなく、これが gap in knowledge として残されていた。先行研究は中央染色の小規模 phase 1 harmonization に留まり、(a) 多施設での独立染色データ、(b) 病理医 training 効果の定量化、(c) IVD 認可済 22C3 PharmDx と SP263 を pragmatic に直接比較するデータ、これらが不足していた。先行の Blueprint Phase 1 (Hirsch et al. JThoracOncol 2017) では中央染色 1 施設・少数の reader による 4 アッセイ比較が行われ、22C3・28-8・SP263 はおおむね一致 (cell stain prevalence は近似)、SP142 のみ陽性率が低いことが示された。しかし (1) 症例数 39 例で限定的、(2) 中央染色のみで preanalytical 多施設効果は未評価、(3) 病理医未トレーニングの実臨床的状況での外的妥当性が未検証であった。Neuman ら (JThoracOncol 2016) の 22C3 antibody を Ventana platform へ off-label に移植した harmonization では強陽性のみ 85-87% 一致で弱陽性 (TPS 1-49%) で discordant、IVD (in vitro diagnostics) 条件でないなど制約があった。これまで報告されていない論点として、(a) IVD 認可済みの 22C3 PharmDx と SP263 を同一 100 症例に対して各施設で独自に染色・判定した多施設実証データ、(b) trained vs untrained 病理医での agreement 差、が手薄であった。
目的
イタリア多施設 (4 施設) において、IVD 版 PD-L1 IHC 22C3 PharmDx (Dako Autostainer) と Ventana PD-L1 (SP263) (Ventana BenchMark) を、肺腺癌 (LADC) 100 連続切除症例から作成した tissue microarrays (TMAs) で independently に染色・判定し、(1) intra-assay の inter-rater (施設間) 一致、(2) 22C3 vs SP263 の inter-assay 一致 (cutoff ≥1% と ≥50%)、(3) PD-L1-specific training 受講の有無が一致度に与える影響、を評価する。
結果
Inter-rater 一致 (≥50% cutoff、4 施設全体、Fig 2): Fleiss’ κ は 22C3 で 0.931 (95% CI: 0.851-1.011)、SP263 で 0.942 (95% CI: 0.862-1.022)。3 trained centers (A, B, C) に限定すると 22C3 κ 0.946 (95% CI: 0.833-1.059)、SP263 κ 0.973 (95% CI: 0.860-1.087)。Connected scatter (Fig 2) で 4 施設の TPS 分布はほぼ重なり、≥50% カットオフは識別が容易であることが視覚的にも確認された (Fig 2 back-reference)。
Inter-rater 一致 (≥1% cutoff、Table 1): Fleiss’ κ は 22C3 で 0.754 (95% CI: 0.674-0.834)、SP263 で 0.798 (95% CI: 0.718-0.878)。Trained centers のみだと 22C3 κ 0.769 (95% CI: 0.655-0.882)、SP263 κ 0.82 (95% CI: 0.709-0.936) と僅かに改善するに留まり、cutoff ≥1% は trained center でも agreement ~80% に頭打ちであった (Table 1 back-reference)。
Intra-class correlation (連続 TPS 値、Fig 2): 4 施設全体で 22C3 ICC 0.973 (95% CI: 0.964-0.981)、SP263 ICC 0.968 (95% CI: 0.957-0.977)。3 trained centers のみで 22C3 ICC 0.976 (95% CI: 0.966-0.983)、SP263 ICC 0.977 (95% CI: 0.969-0.984)。連続 TPS 値ではほぼ ceiling (~0.97) の inter-rater 一致が両 assay で観察された。
22C3 vs SP263 inter-assay concordance (Fig 3, Table 2): n=100 症例の scatter plot (Fig 3 A-D) で各施設の concordance correlation coefficient (CCC) は 施設 A r=0.97 (95% CI: 0.95-0.98、n=100)、施設 B r=0.97 (95% CI: 0.96-0.98、n=100)、施設 C r=0.96 (95% CI: 0.94-0.97、n=100)、施設 D r=0.89 (95% CI: 0.84-0.92、n=100) (Table 2 back-reference)。Trained 3 施設では CCC r ≥ 0.96 と高い inter-assay 相関、untrained 施設 D のみ r=0.89 に低下。
Cutoff-based concordance — trained vs untrained (≥50%、Table 3): 22C3 vs SP263 の weighted κ (centerwise) は施設 A・B が 1.0 (完全一致)、施設 C が 0.96 (95% CI: 0.88-1)、untrained 施設 D が 0.844 (95% CI: 0.695-0.992)。Trained 3 施設の Light’s κ 平均 0.99 (95% CI: 0.96-1) は CAP guideline (≥90%) を満たし、durvalumab/pembrolizumab 選択における 22C3 ⇔ SP263 互換性を強く支持。施設 D では 4 cases (2E、3H、6D、1G) で discordant、特に case 2E (22C3 40% vs SP263 70%) と 3H (22C3 40% vs 他施設 ≥55%) は trained 施設で陽性とされた症例を陰性判定。
Cutoff-based concordance (≥1%、Table 1): 22C3 vs SP263 weighted κ は 施設 A 0.83 (95% CI: 0.75-0.88)、施設 B 0.80 (95% CI: 0.68-0.92)、施設 C 0.77 (95% CI: 0.64-0.89)、untrained 施設 D 0.62 (95% CI: 0.46-0.77)。Trained 平均 κ 0.80 (95% CI: 0.68-0.91) と中程度一致、untrained 施設 D で 0.62 と substantial agreement を下回り、低 cutoff での training 重要性を強調する結果となった。
PD-L1 発現の prevalence: 22C3・SP263 で ≥1% 陽性率はそれぞれ 37.3%・41.3%、≥50% 陽性率は 14.3%・14.7% と近似。Wu et al. (Oncotarget 2017) の resected LADC データと整合する。
考察/結論
本独立多施設研究は LADC 100 連続症例で 22C3 PharmDx と SP263 が ≥50% cutoff で trained 施設間 κ 0.99・ICC 0.973 と優秀な互換性を持ち、≥1% cutoff では trained 施設で κ 0.80・untrained 施設で κ 0.62 と段差があることを示した。
① 先行研究との違い: 本研究は先行の Blueprint Phase 1 (Hirsch et al. JThoracOncol 2017、39 症例・中央染色・3 reader、22C3/28-8/SP263 の prevalence が近似することを示した phase 1) と異なり、(a) 症例数を 100 例に拡大、(b) 中央染色でなく各施設で独立染色することで多施設の preanalytical effect を内包、(c) trained vs untrained の差を明示的に分離、という設計で外的妥当性を強化した。Neuman et al. (JThoracOncol 2016) の 22C3 on Ventana harmonization (off-label、強陽性のみ 85-87% 一致・弱陽性 discordant) とも対照的に、本研究は IVD 認可済みの 22C3 + SP263 をそれぞれの推奨 platformで運用した上で trained 施設間 ≥50% cutoff で κ 0.99 という高度な一致を確認した。これまでの harmonization 研究と相違して、untrained 病理医での agreement 低下 (κ 0.62) を直接定量化した点が独自である。
② 新規性: 本研究の novelty は (a) IVD 22C3 PharmDx (Dako Autostainer) と IVD SP263 (Ventana BenchMark) をそれぞれの専用 platform 上で運用する pragmatic な実臨床条件で直接比較した最初の多施設 100 症例 study、(b) ≥50% cutoff (pembrolizumab 1L 適応) において両 assay 互換(κ 0.99) を実証、(c) ≥1% cutoff (nivolumab/atezolizumab 補助診断) では trained 施設でも κ 0.80 まで低下し、untrained 病理医では κ 0.62 と更に低下するというtraining-dependent な agreement 階層を新規に定量化した点である。新規な臨床的示唆として、Ventana platform のみを保有する地方病院でも SP263 で pembrolizumab 1L 適応 (TPS ≥ 50%) 判定が安全に可能、という運用変更の根拠を提供する。
③ 臨床応用: 本研究の臨床応用は (a) Dako platform 非保有施設で SP263 を pembrolizumab biomarker test の代替として使用可能、(b) 同一施設で Ventana platform 上の SP142 (atezolizumab)・SP263 (durvalumab/pembrolizumab 代替) を集約運用することでコスト・turn-around time 改善、(c) 病理医の PD-L1 IHC training は ≥1% cutoff 適用 (nivolumab CheckMate-017/057 等の補助診断、atezolizumab 適応) の前提条件として制度化されるべき、という 3 点である。本データは ESMO・AMP/CAP/IASLC の PD-L1 testing guideline (2018-2020 改訂) で「単一施設で互換 assay の使用を容認」とする推奨の bench-to-bedside 根拠の 1 つとなった。臨床現場での示唆として、TPS 40-60% の境界症例 (本研究の case 2E・3H 等) には second-opinion staining や image review が望ましい。
④ 残された課題: 今後の検討として、(a) 本研究は trained 1 名 vs untrained 1 名と reader 数が限られ、PSP263 と 22C3 の training 効果を観察研究的に分離した点で因果推論に限界がある。Randomized training intervention の比較が今後の研究方向性、(b) 扁平上皮癌 (LUSC) と異なる histology subtype、small biopsy・cytology block (cell block)、neoadjuvant 治療後検体での再現性は本研究 (resected LADC のみ) では検証されておらず future research の対象、(c) 本データは durvalumab CASPIAN/PACIFIC 試験の SP263 ≥25% cutoff 判定への直接適用可能性を扱わず、これらの専用 cutoff 検証が limitation として残された、(d) 22C3 と SP263 以外の clone (28-8・SP142・E1L3N) との一連の互換性は本研究単独では網羅できず、Blueprint Phase 2 や Ratcliffe et al. ClinCancerRes 2017 との meta-comparison が今後の課題、(e) 機械学習 image analysis (AI-assisted scoring) の inter-rater 一致改善効果は本研究時点で未検証で、AI-pathology 統合は今後の研究方向性。
方法
研究デザイン: Italian Society of Anatomic Pathology and Cytopathology + Italian Association of Medical Oncology の共同 multicenter independent prospective comparability study (industry funding なし)。Trial registration 識別子は本研究が biomarker methodology study のため NCT 不要。
Tissue samples: 2014-2016 年に 3 施設で連続切除された肺腺癌 (LADC、lung adenocarcinoma) n=100 例の FFPE (formalin-fixed paraffin-embedded) 検体を使用。各 case あたり最も viable な腫瘍領域 2 か所を 2 mm core で抜き取り、8 つの tissue microarrays (TMA) block に整列 (合計 200 cores)。Human placenta core を positive control として配置。各 TMA block から 20 切片 (4 μm 厚) を作成し 4 施設 (A, B, C, D) に分配、各施設は連続切片を交互に受領して tumor morphology の施設間差を最小化。
IHC platforms と antibody clones: PD-L1 IHC 22C3 PharmDx (Agilent/Dako、22C3 mouse monoclonal、EnVision FLEX (envision flexible visualization system)、Autostainer Link 48 platform) と Ventana PD-L1 (SP263) (Ventana Medical Systems、rabbit monoclonal、Ventana BenchMark platform) を 4 施設でそれぞれ実施(中央染色ではなく各施設で独立染色することが novel な点)。各施設で同じ antibody batches を使用。Manufacturer 推奨プロトコルに従い、any membrane staining (partial or complete) を陽性、pure cytoplasmic と immune cell 染色を除外、stained tumor cells/viable tumor cells × 100% で tumor proportion score (TPS) を算出 (本研究は IHC methodology comparison のため cell line 不使用、IVD (in vitro diagnostics)-approved kit のみ使用)。
Reader 構成: 各施設 1 名の senior pathologist が判定。A・B・C 施設は international training workshops (Agilent/Ventana 主催の PD-L1 detection training) を受講済み (trained centers)、D 施設の pathologist は本研究時点で training 未受講 (untrained center)。Pre-analysis 段階で Agilent + Ventana 評価手順の miniguide を配布して標準化。
統計手法: 連続 TPS 値の inter-rater 一致は intraclass correlation coefficient (ICC、Shrout-Fleiss method) で評価。Clinical cutoff (≥1% および ≥50%) での agreement は Fleiss’ kappa (weighted κ) で評価。22C3 vs SP263 の concordance は concordance correlation coefficient (Lin) と Pearson の precision analysis、center-level の cutoff agreement は weighted κ または Light’s κ。IHC の within-assay agreement 標準は 90% 超 (Fitzgibbons CAP guideline 2014)。有意水準 p < 0.05、IBM SPSS Statistics v22 を使用。