PD-L1 Immunohistochemistry Comparability Study in Real-Life Clinical Samples: Results of Blueprint Phase 2 Project

著者: Tsao MS, Kerr KM, Kockx M, Beasley MB, Borczuk AC, Botling J, Bubendorf L, Chirieac L, Chen G, Chou TY, Chung JH, Dacic S, Lantuejoul S, Mino-Kenudson M, Moreira AL, Nicholson AG, Noguchi M, Pelosi G, Poleri C, Russell PA, Sauter J, Thunnissen E, Wistuba I, Yu H, Wynes MW, Pintilie M, Yatabe Y, Hirsch FR
Corresponding author: Fred R. Hirsch (IASLC / University of Colorado, Denver, CO, USA)
雑誌: Journal of Thoracic Oncology
発行年: 2018
Epub日: 2018-05-22
Article種別: Original Article (Biomarker methodology study — Blueprint Phase 2)
PMID: 29800747

背景

免疫チェックポイント阻害薬 (ICI、immune checkpoint inhibitor) は PD-1/PD-L1 (programmed death 1 / programmed death ligand 1) 経路を標的に NSCLC (non-small cell lung cancer) を含む複数がん種で標準治療化した。FDA・EMA は少なくとも 5 種類の inhibitor (nivolumab、pembrolizumab、atezolizumab、durvalumab、avelumab) を承認したが、それぞれ独立に開発された companion または complementary diagnostic として異なる PD-L1 IHC (immunohistochemistry) assay (22C3 PharmDx [Dako、pembrolizumab]、28-8 PharmDx [Dako、nivolumab]、Ventana SP142 [atezolizumab]、Ventana SP263 [durvalumab]、73-10 [avelumab]) が組み合わせられた (Garon et al. NEnglJMed 2015 KEYNOTE-001、Reck et al. NEnglJMed 2016 KEYNOTE-024、Herbst et al. Lancet 2016)。各 assay は異なる primary antibody clone + IHC platform/protocol/cutoff を採用しており、相互互換性の検証が gap in knowledge として残されていた。

Blueprint Phase 1 (Hirsch et al. JThoracOncol 2017) は商業ソースの n=39 検体・3 病理医での pilot 比較で 22C3・28-8・SP263 が close、SP142 は TC (tumor cell) staining が低感度、IC (immune cell) は assay 間で discordant という preliminary 結果を示したが、(1) 商業 source の serial section で real-life clinical samples を反映しない、(2) reader 3 名のみで一般化が限定的、(3) 73-10 (avelumab assay) が未収載、(4) cytological cell block (細胞診検体) と digital scoring の信頼性が未検証、という limitations が controversial で未解明な課題として残されていた。さらに Marchetti et al. JThoracOncol 2017 Italian harmonization (n=100 lung adenocarcinoma、22C3 vs SP263 のみ) と Ratcliffe et al. ClinCancerRes 2017 (4 assay multi-cutoff agreement) では一定範囲の互換性が示されたが、small biopsy・cytology・5 assay 同時比較・多施設多病理医での実証は未完であった。これまで報告されていない論点として、(a) 5 assay × resection + small biopsy + cytology 全 sample type × 24 国際病理医を統合した large-scale validation、(b) digital image scoring vs glass slide scoring の比較、(c) 73-10 assay の他 4 assay 比較での位置付け、これらが不足していた。

目的

Blueprint Phase 2 として (1) 実臨床由来 NSCLC 検体 (resection・small biopsy・lymph node biopsy・cytological cell block) と全 5 種類の trial-validated PD-L1 IHC assay (22C3、28-8、SP142、SP263、73-10) を用いた BP1 結果の validation、(2) Web-based digital image scoring の glass slide scoring に対する agreement の評価、(3) cytological cell block 検体での PD-L1 scoring 信頼性の評価、を多国際病理医 panel で実施する。

結果

TC scoring inter-rater reliability (Table 1、Fig 1): 全 24 病理医での Pearson ICC は glass slide で 0.88-0.93 (n=81、assay 別: 22C3 r=0.89・28-8 r=0.92・SP-142 r=0.88・SP-263 r=0.89・73-10 r=0.93)、digital image で 0.80-0.91 (n=81、22C3 r=0.91・28-8 r=0.86・SP-142 r=0.80・SP-263 r=0.90・73-10 r=0.91)、NSCLC のみ (cytology + small cell carcinoma 除外、n=49) では更に高い ICC 0.86-0.95 (Table 1 back-reference、Fig 1 back-reference)。

TC scoring categorical agreement (Fig 1): Fleiss kappa は cutoff ≥ 5%、≥ 10%、≥ 25%、≥ 50% で全 5 assay とも κ > 0.70 (moderate to strong agreement、n=81) が達成された。Cutoff ≥ 1% と ≥ 80% では FKS が低下し κ ≈ 0.50、digital image scoring で特に再現性が落ちた。Trainer reference との pathologist score 一致は強相関 (Supplementary Fig 3、Spearman r > 0.9、n=24 raters)。

Digital vs glass slide TC scoring 比較: Pearson correlation で digital vs glass slide TC TPS の agreement は assay 横断で r > 0.96 (n=81、Bland-Altman plot で系統誤差なし、Supplementary Figs 4-5)。両 method の data を pool して後続解析に使用することが正当化された。

5 assay 間 TC staining 比較性 (Fig 2A, Fig 2B): 全 reader の TC TPS 平均を sample 横断で plot した curve で 22C3・28-8・SP263 の best-fit curve が closely overlapping、SP142 は同じ sample で全 assay より低い TPS (lower sensitivity)、73-10 は高い TPS (greater sensitivity) を示した (Fig 2A)。Pairwise comparison で 22C3 と 28-8 が最も類似 (closest similarity)、73-10 は 22C3・28-8・SP263 全てに対し sensitivity が一貫して高い (Fig 2B back-reference)。SP263 は 22C3・28-8 と比較しても僅かに sensitivity が高い傾向。

IC scoring inter-rater reliability (Supplementary Fig 8): NSCLC tissue のみで IC categorical scoring の FKS は glass slide で 0.11-0.28、digital image で 0.08-0.27 と全体的に poor agreement。SP-142 で最高の FKS 0.27-0.28 (但し依然 weak)。IC0 vs IC1/2/3 の 2 値 dichotomy では SP142 で moderate to strong trainer 一致が得られたが、IC1/2/3 内部の categorization は更に低下。

Cytological cell block scoring 信頼性 (Supplementary Table 3、Fig 4): NSCLC cytological cell block n=22 例での ICC は全 reader 平均で glass slide 0.78・digital 0.85 (good agreement、但し NSCLC tissue-only ICC 0.89-0.93 より僅かに低い)。Categorical κ は全 cutoff で κ > 0.6 と中程度一致を維持し、cytological cell block でも PD-L1 scoring が臨床的に実施可能であることが示された。

Assay 間 IC staining 比較 (Supplementary Fig 9): IC scores の分布は 22C3・28-8・SP263 で comparable、73-10 が IC staining が greater、SP142 が IC staining が lesser という TC 傾向と異なるパターンを示し、SP142 の IC pattern scoring algorithm 独自の感度設計が確認された。

考察/結論

Blueprint Phase 2 は実臨床由来 NSCLC 81 例 + 5 IHC assay + 24 国際病理医という large-scale 設計で、TC PD-L1 scoring において 22C3・28-8・SP263 の互換性 (ICC 0.86-0.93・cutoff ≥ 50% κ > 0.70)、SP142 の low sensitivity、73-10 の high sensitivity、IC scoring の poor reliability (ICC 0.18-0.19)、cytological cell block での scoring 妥当性 (ICC 0.78-0.85) を validation した。

① 先行研究との違い: 本研究は Blueprint Phase 1 (BP1、Hirsch 2017) と異なり、(a) 商業 source ではなく 18 病理医提供の 実臨床診断 81 検体 を使用、(b) reader 3 名 → 24 国際病理医 に拡張、(c) 73-10 (avelumab) を 5 assay 比較に追加、(d) cytological cell block と digital image scoring を新規評価という設計変更を加えた。これまでの harmonization 研究 (Marchetti et al. JThoracOncol 2017 の 22C3 vs SP263 100 例・Ratcliffe et al. ClinCancerRes 2017 の 4 assay) と対照的に、本研究は 5 assay 全てを同一検体・同一 reader pool で直接比較した唯一の large-scale study である。さらに IC scoring の poor reliability (ICC 0.18-0.19) はこれまでの harmonization 研究で示唆されていたが、24 病理医の large panel で初めて統計的に明確化された相違点である。

② 新規性: 本研究の novelty は (a) 5 trial-validated PD-L1 assay の同時 5-way 比較を実臨床検体で初めて実施、(b) 73-10 (avelumab) assay の他 4 assay 比較での positioning (73-10 が高感度) を新規に確立、(c) digital image scoring (web-based) の glass slide に対する agreement (Pearson r > 0.96) を新規に validation し COVID-19 期以降の digital pathology 普及の根拠を提供、(d) cytological cell block での PD-L1 scoring 妥当性 (ICC 0.78-0.85) を新規に確認し、small biopsy で十分組織が取れない症例で cytology を biomarker test に使用できる根拠を提供、(e) IC scoring の poor reliability (ICC 0.18-0.19) を本研究で初めて 24 病理医・5 assay 横断で定量化、これまで報告されていない大規模 evidence である。

③ 臨床応用: 本研究の臨床応用は (a) 単一 IHC platform のみを保有する施設で 22C3・28-8・SP263 のいずれかを採用すれば pembrolizumab・nivolumab・durvalumab の biomarker test を集約運用可能 (cost/turn-around time 改善)、(b) SP142 (atezolizumab IMpower150 等の subgroup analysis 用) で TC 陰性とされた症例でも他 assay で陽性となりうるため clinical interpretation で SP142 TC を低感度として扱う、(c) 73-10 (avelumab) で陽性とされた症例は他 assay で陰性になりうるため biomarker selection で慎重な解釈が必要、(d) IC scoring の poor reliability から atezolizumab/durvalumab の IC-based 適応判定は再現性に注意が必要、(e) cytological cell block でも PD-L1 testing が許容され、small biopsy で組織量不足の症例で cytology block を biomarker test 検体として使用可能、(f) digital image scoring (telepathology) が glass slide と等価で COVID-19 期や中央集約 reading に応用可能。本データは IASLC・CAP (College of American Pathologists)・AMP (Association for Molecular Pathology) の PD-L1 testing guideline 策定 (2018-2020 改訂) で interchangeability を承認するbench-to-bedside の primary evidence として臨床応用された。

④ 残された課題: 今後の検討として、(a) IC scoring の reliability 改善方法 (digital image analysis・AI-assisted scoring・standardization training) が未解決の future research、(b) 73-10 assay の avelumab 臨床試験での実用 cutoff 検証 (JAVELIN Lung 100/Solid Tumor) は別途必要、(c) tumor heterogeneity による sampling bias (single small biopsy vs multi-region sampling) が PD-L1 scoring 一致に与える影響は本研究で未評価で limitation、(d) neoadjuvant ICI 治療後検体・driver mutation 陽性 NSCLC (EGFR/ALK/ROS1) における PD-L1 scoring 一致は本研究 cohort で評価されておらず今後の検討課題、(e) PD-L1 IHC を超えた tumor mutational burden (TMB)・gene expression signature との統合 biomarker 戦略が今後の研究方向性、(f) cutoff ≥ 1% での agreement 低下 (κ 0.23-0.50) は nivolumab CheckMate-017/057 の補助診断適用に limitation を与える可能性があり、より高 cutoff (≥ 50%) での運用を検討すべき、(g) 機械学習 image analysis (AI-assisted scoring) の inter-rater 一致改善効果は本研究時点で未検証で AI-pathology 統合は今後の研究方向性として残された。

方法

研究デザイン: IASLC (International Association for the Study of Lung Cancer) Pathology Committee 主導の academic/industrial collaboration による多国際 multicenter prospective biomarker comparability study (industry funding は Merck/Pfizer 系から 73-10 antibody 供与のみ、scoring 部分は IASLC independent)。Trial registration NCT 識別子は本研究が biomarker methodology study のため不要。

Tissue samples: 18 名の pathologist が自施設の routine clinical practice から提供した n=81 例の NSCLC 連続診断検体を使用。Histology 内訳: adenocarcinoma 39 例 (48%)・squamous cell carcinoma 26 例 (32%)・poorly differentiated non-small cell carcinoma 6 例 (7%)・small cell carcinoma 10 例 (12%) (Supplementary Table 1)。Sample type 内訳: resection 21 例・core needle/bronchial biopsy 20 例・tumor-positive lymph node excision biopsy/resection 18 例・cytological cell block 22 例。各 case あたり 8 連続切片 (5 assay 用 + H&E 用) を作成し HistoGeneX (Antwerp, Belgium、CLIA-approved IHC laboratory) で中央染色。

PD-L1 IHC platforms と protocols: PD-L1 IHC 22C3 PharmDx と 28-8 PharmDx (Dako Autostainer Link 48、FDA-approved)、Ventana PD-L1 SP142 と SP263 (Ventana BenchMark Ultra、FDA-approved)、73-10 antibody (Dako/Agilent protocol、avelumab 臨床試験用、EMD Serono/Merck KGaA/Pfizer 供与)。全 IHC stained slides と H&E sections は Pannoramic 250 Flash III digital scanner (3DHISTECH、Budapest) で ×20 magnification にスキャンし IASLC Denver server にアップロード、Pathomation Digital Pathology System (HistoGeneX) で web-based scoring 可能。Cell line は本研究では使用せず IVD (in vitro diagnostics) commercial kit のみ。

Reader 構成と training: 24 名の経験豊富な pulmonary pathologists (IASLC Pathology Committee、15 か国 5 大陸から参加)。Pre-study 1.5 日間の group training を 2 名の HistoGeneX trainer から受講 (TC scoring + IC scoring algorithm、SP142 用 IC scoring に重点)。Trainer score を reference set として使用。Glass slide reading 2 assay + digital image reading 3 assay にランダム割付。

Scoring 手法: TC (tumor cell) PD-L1 staining は tumor proportion score (TPS、0-100% 連続値) と 7 category (< 1%、1-4%、5-9%、10-24%、25-49%、50-79%、80-100%) で記録。IC (immune cell) は HistoGeneX 開発の pattern scoring method (SP142 brochure に準拠、IC0/1/2/3 の 4 段階)。

統計手法: 連続 TPS 値の inter-rater 一致は intraclass correlation coefficient (ICC) で評価 (ICC > 0.75 が good、> 0.9 が excellent reliability)。Categorical scores は Fleiss kappa statistic (FKS、≥ 0.9 が near perfect、0.80-0.89 が strong、0.70-0.79 が moderate、0.40-0.69 が weak)。Digital vs glass scoring の agreement は Pearson correlation と Bland-Altman plot で評価。データ解析時点で 114 dataset 完了 (glass slide 50 dataset + digital image 74 dataset)。

Research Wiki

エクスプローラー

PD-L1 Immunohistochemistry Comparability Study in Real-Life Clinical Samples: Results of Blueprint Phase 2 Project

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク