- 著者: Tsao MS, Kerr KM, Kockx M, Beasley MB, Borczuk AC, Botling J, Bubendorf L, Chirieac L, Chen G, Chou TY, Chung JH, Dacic S, Lantuejoul S, Mino-Kenudson M, Moreira AL, Nicholson AG, Noguchi M, Pelosi G, Poleri C, Russell PA, Sauter J, Thunnissen E, Wistuba I, Yu H, Wynes MW, Pintilie M, Yatabe Y, Hirsch FR
- Corresponding author: Fred R. Hirsch (IASLC / University of Colorado, Denver, CO, USA)
- 雑誌: Journal of Thoracic Oncology
- 発行年: 2018
- Epub日: 2018-05-22
- Article種別: Original Article (Biomarker methodology study — Blueprint Phase 2)
- PMID: 29800747
背景
免疫チェックポイント阻害薬 (ICI、immune checkpoint inhibitor) は PD-1/PD-L1 (programmed death 1 / programmed death ligand 1) 経路を標的に NSCLC (non-small cell lung cancer) を含む複数がん種で標準治療化した。FDA・EMA は少なくとも 5 種類の inhibitor (nivolumab、pembrolizumab、atezolizumab、durvalumab、avelumab) を承認したが、それぞれ独立に開発された companion または complementary diagnostic として異なる PD-L1 IHC (immunohistochemistry) assay (22C3 PharmDx [Dako、pembrolizumab]、28-8 PharmDx [Dako、nivolumab]、Ventana SP142 [atezolizumab]、Ventana SP263 [durvalumab]、73-10 [avelumab]) が組み合わせられた (Garon et al. NEnglJMed 2015 KEYNOTE-001、Reck et al. NEnglJMed 2016 KEYNOTE-024、Herbst et al. Lancet 2016)。各 assay は異なる primary antibody clone + IHC platform/protocol/cutoff を採用しており、相互互換性の検証が gap in knowledge として残されていた。
Blueprint Phase 1 (Hirsch et al. JThoracOncol 2017) は商業ソースの n=39 検体・3 病理医での pilot 比較で 22C3・28-8・SP263 が close、SP142 は TC (tumor cell) staining が低感度、IC (immune cell) は assay 間で discordant という preliminary 結果を示したが、(1) 商業 source の serial section で real-life clinical samples を反映しない、(2) reader 3 名のみで一般化が限定的、(3) 73-10 (avelumab assay) が未収載、(4) cytological cell block (細胞診検体) と digital scoring の信頼性が未検証、という limitations が controversial で未解明な課題として残されていた。さらに Marchetti et al. JThoracOncol 2017 Italian harmonization (n=100 lung adenocarcinoma、22C3 vs SP263 のみ) と Ratcliffe et al. ClinCancerRes 2017 (4 assay multi-cutoff agreement) では一定範囲の互換性が示されたが、small biopsy・cytology・5 assay 同時比較・多施設多病理医での実証は未完であった。これまで報告されていない論点として、(a) 5 assay × resection + small biopsy + cytology 全 sample type × 24 国際病理医を統合した large-scale validation、(b) digital image scoring vs glass slide scoring の比較、(c) 73-10 assay の他 4 assay 比較での位置付け、これらが不足していた。
目的
Blueprint Phase 2 として (1) 実臨床由来 NSCLC 検体 (resection・small biopsy・lymph node biopsy・cytological cell block) と全 5 種類の trial-validated PD-L1 IHC assay (22C3、28-8、SP142、SP263、73-10) を用いた BP1 結果の validation、(2) Web-based digital image scoring の glass slide scoring に対する agreement の評価、(3) cytological cell block 検体での PD-L1 scoring 信頼性の評価、を多国際病理医 panel で実施する。
結果
TC scoring inter-rater reliability (Table 1、Fig 1): 全 24 病理医での Pearson ICC は glass slide で 0.88-0.93 (n=81、assay 別: 22C3 r=0.89・28-8 r=0.92・SP-142 r=0.88・SP-263 r=0.89・73-10 r=0.93)、digital image で 0.80-0.91 (n=81、22C3 r=0.91・28-8 r=0.86・SP-142 r=0.80・SP-263 r=0.90・73-10 r=0.91)、NSCLC のみ (cytology + small cell carcinoma 除外、n=49) では更に高い ICC 0.86-0.95 (Table 1 back-reference、Fig 1 back-reference)。
TC scoring categorical agreement (Fig 1): Fleiss kappa は cutoff ≥ 5%、≥ 10%、≥ 25%、≥ 50% で全 5 assay とも κ > 0.70 (moderate to strong agreement、n=81) が達成された。Cutoff ≥ 1% と ≥ 80% では FKS が低下し κ ≈ 0.50、digital image scoring で特に再現性が落ちた。Trainer reference との pathologist score 一致は強相関 (Supplementary Fig 3、Spearman r > 0.9、n=24 raters)。
Digital vs glass slide TC scoring 比較: Pearson correlation で digital vs glass slide TC TPS の agreement は assay 横断で r > 0.96 (n=81、Bland-Altman plot で系統誤差なし、Supplementary Figs 4-5)。両 method の data を pool して後続解析に使用することが正当化された。
5 assay 間 TC staining 比較性 (Fig 2A, Fig 2B): 全 reader の TC TPS 平均を sample 横断で plot した curve で 22C3・28-8・SP263 の best-fit curve が closely overlapping、SP142 は同じ sample で全 assay より低い TPS (lower sensitivity)、73-10 は高い TPS (greater sensitivity) を示した (Fig 2A)。Pairwise comparison で 22C3 と 28-8 が最も類似 (closest similarity)、73-10 は 22C3・28-8・SP263 全てに対し sensitivity が一貫して高い (Fig 2B back-reference)。SP263 は 22C3・28-8 と比較しても僅かに sensitivity が高い傾向。
IC scoring inter-rater reliability (Supplementary Fig 8): NSCLC tissue のみで IC categorical scoring の FKS は glass slide で 0.11-0.28、digital image で 0.08-0.27 と全体的に poor agreement。SP-142 で最高の FKS 0.27-0.28 (但し依然 weak)。IC0 vs IC1/2/3 の 2 値 dichotomy では SP142 で moderate to strong trainer 一致が得られたが、IC1/2/3 内部の categorization は更に低下。
Cytological cell block scoring 信頼性 (Supplementary Table 3、Fig 4): NSCLC cytological cell block n=22 例での ICC は全 reader 平均で glass slide 0.78・digital 0.85 (good agreement、但し NSCLC tissue-only ICC 0.89-0.93 より僅かに低い)。Categorical κ は全 cutoff で κ > 0.6 と中程度一致を維持し、cytological cell block でも PD-L1 scoring が臨床的に実施可能であることが示された。
Assay 間 IC staining 比較 (Supplementary Fig 9): IC scores の分布は 22C3・28-8・SP263 で comparable、73-10 が IC staining が greater、SP142 が IC staining が lesser という TC 傾向と異なるパターンを示し、SP142 の IC pattern scoring algorithm 独自の感度設計が確認された。
考察/結論
Blueprint Phase 2 は実臨床由来 NSCLC 81 例 + 5 IHC assay + 24 国際病理医という large-scale 設計で、TC PD-L1 scoring において 22C3・28-8・SP263 の互換性 (ICC 0.86-0.93・cutoff ≥ 50% κ > 0.70)、SP142 の low sensitivity、73-10 の high sensitivity、IC scoring の poor reliability (ICC 0.18-0.19)、cytological cell block での scoring 妥当性 (ICC 0.78-0.85) を validation した。
① 先行研究との違い: 本研究は Blueprint Phase 1 (BP1、Hirsch 2017) と異なり、(a) 商業 source ではなく 18 病理医提供の 実臨床診断 81 検体 を使用、(b) reader 3 名 → 24 国際病理医 に拡張、(c) 73-10 (avelumab) を 5 assay 比較に追加、(d) cytological cell block と digital image scoring を新規評価という設計変更を加えた。これまでの harmonization 研究 (Marchetti et al. JThoracOncol 2017 の 22C3 vs SP263 100 例・Ratcliffe et al. ClinCancerRes 2017 の 4 assay) と対照的に、本研究は 5 assay 全てを同一検体・同一 reader pool で直接比較した唯一の large-scale study である。さらに IC scoring の poor reliability (ICC 0.18-0.19) はこれまでの harmonization 研究で示唆されていたが、24 病理医の large panel で初めて統計的に明確化された相違点である。
② 新規性: 本研究の novelty は (a) 5 trial-validated PD-L1 assay の同時 5-way 比較を実臨床検体で初めて実施、(b) 73-10 (avelumab) assay の他 4 assay 比較での positioning (73-10 が高感度) を新規に確立、(c) digital image scoring (web-based) の glass slide に対する agreement (Pearson r > 0.96) を新規に validation し COVID-19 期以降の digital pathology 普及の根拠を提供、(d) cytological cell block での PD-L1 scoring 妥当性 (ICC 0.78-0.85) を新規に確認し、small biopsy で十分組織が取れない症例で cytology を biomarker test に使用できる根拠を提供、(e) IC scoring の poor reliability (ICC 0.18-0.19) を本研究で初めて 24 病理医・5 assay 横断で定量化、これまで報告されていない大規模 evidence である。
③ 臨床応用: 本研究の臨床応用は (a) 単一 IHC platform のみを保有する施設で 22C3・28-8・SP263 のいずれかを採用すれば pembrolizumab・nivolumab・durvalumab の biomarker test を集約運用可能 (cost/turn-around time 改善)、(b) SP142 (atezolizumab IMpower150 等の subgroup analysis 用) で TC 陰性とされた症例でも他 assay で陽性となりうるため clinical interpretation で SP142 TC を低感度として扱う、(c) 73-10 (avelumab) で陽性とされた症例は他 assay で陰性になりうるため biomarker selection で慎重な解釈が必要、(d) IC scoring の poor reliability から atezolizumab/durvalumab の IC-based 適応判定は再現性に注意が必要、(e) cytological cell block でも PD-L1 testing が許容され、small biopsy で組織量不足の症例で cytology block を biomarker test 検体として使用可能、(f) digital image scoring (telepathology) が glass slide と等価で COVID-19 期や中央集約 reading に応用可能。本データは IASLC・CAP (College of American Pathologists)・AMP (Association for Molecular Pathology) の PD-L1 testing guideline 策定 (2018-2020 改訂) で interchangeability を承認するbench-to-bedside の primary evidence として臨床応用された。
④ 残された課題: 今後の検討として、(a) IC scoring の reliability 改善方法 (digital image analysis・AI-assisted scoring・standardization training) が未解決の future research、(b) 73-10 assay の avelumab 臨床試験での実用 cutoff 検証 (JAVELIN Lung 100/Solid Tumor) は別途必要、(c) tumor heterogeneity による sampling bias (single small biopsy vs multi-region sampling) が PD-L1 scoring 一致に与える影響は本研究で未評価で limitation、(d) neoadjuvant ICI 治療後検体・driver mutation 陽性 NSCLC (EGFR/ALK/ROS1) における PD-L1 scoring 一致は本研究 cohort で評価されておらず今後の検討課題、(e) PD-L1 IHC を超えた tumor mutational burden (TMB)・gene expression signature との統合 biomarker 戦略が今後の研究方向性、(f) cutoff ≥ 1% での agreement 低下 (κ 0.23-0.50) は nivolumab CheckMate-017/057 の補助診断適用に limitation を与える可能性があり、より高 cutoff (≥ 50%) での運用を検討すべき、(g) 機械学習 image analysis (AI-assisted scoring) の inter-rater 一致改善効果は本研究時点で未検証で AI-pathology 統合は今後の研究方向性として残された。
方法
研究デザイン: IASLC (International Association for the Study of Lung Cancer) Pathology Committee 主導の academic/industrial collaboration による多国際 multicenter prospective biomarker comparability study (industry funding は Merck/Pfizer 系から 73-10 antibody 供与のみ、scoring 部分は IASLC independent)。Trial registration NCT 識別子は本研究が biomarker methodology study のため不要。
Tissue samples: 18 名の pathologist が自施設の routine clinical practice から提供した n=81 例の NSCLC 連続診断検体を使用。Histology 内訳: adenocarcinoma 39 例 (48%)・squamous cell carcinoma 26 例 (32%)・poorly differentiated non-small cell carcinoma 6 例 (7%)・small cell carcinoma 10 例 (12%) (Supplementary Table 1)。Sample type 内訳: resection 21 例・core needle/bronchial biopsy 20 例・tumor-positive lymph node excision biopsy/resection 18 例・cytological cell block 22 例。各 case あたり 8 連続切片 (5 assay 用 + H&E 用) を作成し HistoGeneX (Antwerp, Belgium、CLIA-approved IHC laboratory) で中央染色。
PD-L1 IHC platforms と protocols: PD-L1 IHC 22C3 PharmDx と 28-8 PharmDx (Dako Autostainer Link 48、FDA-approved)、Ventana PD-L1 SP142 と SP263 (Ventana BenchMark Ultra、FDA-approved)、73-10 antibody (Dako/Agilent protocol、avelumab 臨床試験用、EMD Serono/Merck KGaA/Pfizer 供与)。全 IHC stained slides と H&E sections は Pannoramic 250 Flash III digital scanner (3DHISTECH、Budapest) で ×20 magnification にスキャンし IASLC Denver server にアップロード、Pathomation Digital Pathology System (HistoGeneX) で web-based scoring 可能。Cell line は本研究では使用せず IVD (in vitro diagnostics) commercial kit のみ。
Reader 構成と training: 24 名の経験豊富な pulmonary pathologists (IASLC Pathology Committee、15 か国 5 大陸から参加)。Pre-study 1.5 日間の group training を 2 名の HistoGeneX trainer から受講 (TC scoring + IC scoring algorithm、SP142 用 IC scoring に重点)。Trainer score を reference set として使用。Glass slide reading 2 assay + digital image reading 3 assay にランダム割付。
Scoring 手法: TC (tumor cell) PD-L1 staining は tumor proportion score (TPS、0-100% 連続値) と 7 category (< 1%、1-4%、5-9%、10-24%、25-49%、50-79%、80-100%) で記録。IC (immune cell) は HistoGeneX 開発の pattern scoring method (SP142 brochure に準拠、IC0/1/2/3 の 4 段階)。
統計手法: 連続 TPS 値の inter-rater 一致は intraclass correlation coefficient (ICC) で評価 (ICC > 0.75 が good、> 0.9 が excellent reliability)。Categorical scores は Fleiss kappa statistic (FKS、≥ 0.9 が near perfect、0.80-0.89 が strong、0.70-0.79 が moderate、0.40-0.69 が weak)。Digital vs glass scoring の agreement は Pearson correlation と Bland-Altman plot で評価。データ解析時点で 114 dataset 完了 (glass slide 50 dataset + digital image 74 dataset)。