The International Association for the Study of Lung Cancer Global Survey on Programmed Death-Ligand 1 Testing for NSCLC

著者: Mino-Kenudson M, Le Stang N, Daigneault JB, Nicholson AG, Cooper WA, Roden AC, Moreira AL, Thunnissen E, Papotti M, Pelosi G, et al.
Corresponding author: Mari Mino-Kenudson, MD (Department of Pathology, Massachusetts General Hospital and Harvard Medical School, Boston, MA, USA)
雑誌: Journal of Thoracic Oncology
発行年: 2021
Epub日: 2021-03-02
Article種別: Original Article
PMID: 33662578

背景

PD-1 (programmed cell death protein-1) / PD-L1 (programmed death-ligand 1) 軸を標的とする免疫チェックポイント阻害薬 (ICI) は、非小細胞肺がん (NSCLC) の治療体系を根本から書き換えた。特に、pembrolizumab単剤による1次治療は、PD-L1のTPS (tumor proportion score) が50%以上、または米国や日本においてはTPSが1%以上の患者を選択する基準として確立されている (Reck et al. NEnglJMed 2016)。これにより、PD-L1免疫組織化学染色 (IHC) 検査は、NSCLCにおける極めて重要なコンパニオン診断として臨床実装されるに至った (Mok et al. Lancet 2019、Gandhi et al. NEnglJMed 2018)。

臨床現場では、22C3、28-8、SP142、SP263という4種類の抗体クローンと、それぞれの承認アッセイプラットフォームが併存している。これらは設計プラットフォーム、カットオフ値、スコアリング規則が異なり、Blueprint Phase 1/2をはじめとする比較研究において、腫瘍細胞 (TC) スコアの一致度は概ね良好であるものの、免疫細胞 (IC) スコアや低発現領域における判定の乖離が報告されてきた (Tsao et al. JThoracOncol 2018)。さらに、各施設が商業用アッセイの導入コストや機器の制約から、独自の自施設開発検査であるLDT (laboratory-developed test) を立ち上げる選択肢を取るため、検査の標準化が世界的な課題となっている。

しかし、これまで世界規模でのPD-L1 IHC検査の実態を網羅的に調査したデータは不足しており、各地域における精度管理体制や病理医の研修状況、LDTの普及率に関する詳細な実態は未解明のままであった。特に、発展途上地域における検査の質や、preanalytical (分析前) 段階における標準化の遅れは、患者の治療機会を左右する重大な懸念事項である。これまでとは対照的に、本研究は国際肺がん研究学会 (IASLC) 病理委員会が主導し、世界規模で病理医のみを対象とした初の大規模実態調査を実施することで、検査標準化に向けた基礎データを提供し、グローバルな課題解決への直接的な回答を試みた。

目的

本研究の目的は、IASLC病理委員会のImmune Biomarker Working Groupが主導する国際オンライン調査を通じて、以下の点を明らかにすることである。

世界各地域におけるNSCLCに対するPD-L1 IHC検査の実施率および外部委託の実態把握。
検査のpreanalytical (分析前)、analytical (分析)、postanalytical (分析後) の各段階における地域差 (使用抗体クローン、プラットフォーム、検体種別、LDTの普及状況、外部精度管理プログラムへの参加状況、スコアリング研修の受講率、報告様式、およびターンアラウンドタイム) の詳細な記述。
臨床現場においてPD-L1 IHC検査の精度に影響を及ぼしうる課題と地域的格差を特定し、グローバルな標準化を推進するための優先課題を提示すること。

結果

PD-L1 IHC検査の実施状況と外部委託の実態: 回答した病理医のうち、臨床用PD-L1 IHC検査が自施設で実施可能であると回答したのは298名 (89%) であった。一方で、10名 (2.9%) は臨床および研究のいずれにおいてもPD-L1 IHCを実施しておらず、34名 (9.9%) は検査を他施設へ外部委託 (send-out) していた。この外部委託率には顕著な地域差が認められ、北米では25% (21/83)、中南米では15% (3/20) に達したのに対し、欧州では4% (5/139)、アジアでは5% (3/59)、オセアニアでは0% (0/13) と低値であった (p<0.0001) (Table 1)。また、自施設で検査を行う298名のうち、57% (171/298) は自施設検体と他施設からの紹介検体の両方を処理していた。週あたりの取扱検体数が3検体以上の施設は世界全体で73%であったが、中南米では20%にとどまり、地域的な偏りが示された (p<0.0001) (Table 1)。

使用検体種別と分析前条件の管理状況: 使用される検体種別は、生検が98% (324/332)、外科切除標本が92% (305/332) と高率であった。セルブロック (cell block) の使用率は世界全体で75% (249/332) であったが、オセアニアで92% (12/13)、北米で88% (73/83)、欧州で84% (116/138) と高かったのに対し、中南米では20% (4/20) と極めて低く、強い有意差を認めた (p<0.0001) (Table 1)。細胞診直接塗抹スライド (cytology smear) の使用は世界全体で11% (36/332) と限定的であった。分析前 (preanalytical) 条件のモニタリング状況については、回答した179名のうち、固定前遅延時間を記録しているのは42%、固定時間は47%、未染スライドの作製後経過期間は72%であったが、固定液の種類を記録している病理医はわずか3.4% (6/179) であった (Supplementary Table 1)。

抗体クローン、プラットフォーム、およびLDTの普及状況: 抗体クローンの使用状況 (複数選択可) では、22C3が69% (208/302) で最も多く、次いでSP263が51% (153/302)、SP142が31% (93/302)、28-8が21% (63/302)、E1L3Nが18% (53/302) であった (Table 2)。SP263の使用率はオセアニアで85% (11/13)、アジアで64% (35/55) と高かったが、北米では35% (23/66)、アフリカ・中東では29% (4/14) にとどまった (p=0.001) (Fig 1)。注目すべき点として、商業用アッセイキットではなく、自施設開発検査 (LDT) として抗体クローンを運用している割合が非常に高かった。22C3使用者におけるLDTの割合は40% (84/208) であり、SP263では30% (46/153)、28-8では33% (21/63)、SP142では39% (36/93) がLDTとして運用されていた (Table 2)。特にSP263の商業用アッセイ使用率は、欧州で86% (59/69)、アフリカ・中東で100% (4/4) であったのに対し、北米では35% (8/23) と低く、LDTとしての運用が65% (15/23) を占めた (p<0.0001) (Table 2)。染色プラットフォームは、Ventanaが68% (201/294) で最多であり、Dakoが45% (133/294)、Leicaが19% (56/294) であった。Dakoプラットフォームの普及率は、アジアで65% (35/54)、北米で51% (29/57) であったが、オセアニアではわずか8% (1/13) であった (p<0.0001) (Table 1)。

精度管理、病理医研修、およびターンアラウンドタイム: 外部精度管理 (EQA) に関しては、18% (52/296) の施設がEQAを全く実施していないと回答した。正式なEQAプログラムへの参加率は世界全体で63% (187/296) であり、オセアニアで77% (10/13)、欧州で72% (97/134) と高かった一方、中南米では44% (7/16)、アフリカ・中東では50% (9/18) にとどまり、地域格差が認められた (p=0.02) (Table 1)。病理医のスコアリング研修受講状況では、16% (52/329) が「研修未受講」と回答した。未受講率は中南米で36% (5/21)、アフリカ・中東で33% (7/21)、北米で31% (23/75) と高く、オセアニアの0% (0/13) や欧州の6% (9/139) と比較して有意に高かった (p<0.0001) (Table 1)。研修の主催者は、診断薬・製薬企業が69% (191/277) で最多であった。ターンアラウンドタイム (TAT) の中央値は世界全体で1-2日であったが、欧州、北米、オセアニアが1-2日であったのに対し、中南米およびアジアは2-3日、アフリカ・中東は3-4日と有意に延長していた (p=0.0002) (Table 1)。5日以上のTATを要する割合は、アジアで22%、中南米で21%、アフリカ・中東で30%に達した。結果報告における標準化報告書式の使用率は世界全体で86% (281/325) であり、アフリカ・中東では78% (14/18) と最も低かった (Table 1)。

臨床試験データとの関連性: 本調査の結果は、PD-L1 IHC検査の精度が治療選択に与える影響の大きさを浮き彫りにしている。例えば、先行臨床試験であるKEYNOTE-024試験 (Reck et al. NEnglJMed 2016) では、TPS 50%以上の患者群において、pembrolizumab群は化学療法群と比較して無増悪生存期間 (PFS) を有意に延長した。PFS中央値は 10.3 vs 6.0 months であり、ハザード比は HR 0.50 (95% CI 0.37-0.68, p<0.001) と極めて良好な治療効果を示した。また、全生存期間 (OS) においても、pembrolizumab群は化学療法群に対して有意な延長を示し、ハザード比は HR 0.60 (95% CI 0.41-0.89, p=0.005) であった。このように、TPS 50%というカットオフ値の正確な判定は、患者が受けるベネフィットを最大化するために必須であるが、本調査で示された病理医の研修未受講率 (16%) やEQA未実施率 (18%) は、実臨床におけるスコアリングの不均一性が不適切な治療選択を招くリスクを示唆している。

考察/結論

本研究は、IASLC病理委員会の主導により、世界64カ国・344名の病理医を対象として、NSCLCにおけるPD-L1 IHC検査の実態をpreanalytical、analytical、postanalyticalの全段階にわたり網羅した初の大規模国際実態調査である。

先行研究との違い: 本研究は、臨床医と病理医の両方を対象としたSmeltzerらの分子診断調査とは異なり、対象を病理医のみに厳格に限定した。これにより、臨床医の主観的認識を排除し、検査技術、LDTの運用実態、分析前条件の記録不備、精度管理体制といった病理ラボ内部の具体的な技術的課題を詳細に浮き彫りにした点で、これまでの調査報告と大きく異なる。

新規性: 本研究は、世界各国の病理ラボにおけるPD-L1 IHC検査の不均一性 (heterogeneity) を初めてグローバルな規模で定量化した。特に、回答者の76%が少なくとも1つの抗体クローンにおいてLDTを運用している実態や、22C3使用者の40%がLDTを選択しているという事実を新規に明らかにした。さらに、発展途上地域における正式なEQA参加率の低さ (44-50%) や、病理医の研修未受講率の高さ (16-36%)、TATの遅延 (5日以上が20-30%) を具体的な数値として初めて示した。

臨床応用: 本研究の知見は、がん免疫療法における患者選択の最適化という臨床応用に直結する。Blueprint Phase 2研究 (Tsao et al. JThoracOncol 2018) では、商業用アッセイ間の腫瘍細胞スコアの一致性は示されているものの、LDTでは染色強度や陽性判定の乖離が懸念されている。例えば、TPS 50%のカットオフ値付近における10-20%の判定乖離は、pembrolizumab単剤の過剰投与による副作用リスクの上昇、あるいは化学療法併用への不適切な変更による治療機会の損失を招く。したがって、本データは、College of American Pathologists (CAP) による技能試験やNordiQCの外部精度管理プログラムの拡大、およびIASLCによるWebベースの無料トレーニングプログラムの普及といった、臨床現場における検査標準化政策の必要性を強く裏付けるエビデンスとなる。

残された課題: 本研究の限界 (limitation) および今後の検討課題として、第一に、オンラインによる任意回答方式を採用したため、オセアニア (n=13) や中南米 (n=25) などの回答数が少なく、地域的なサンプリングバイアスが存在することが挙げられる。第二に、各ラボにおける個別アッセイとLDTの定量的合致度 (concordance) の直接的な比較データは収集されていない。第三に、生検と細胞診検体が同一患者でどのように併用されているか、また気管支生検の検体サイズがスコアリングに与える影響についての詳細なデータが不足している。今後は、より多くの地域から均等なサンプリングを行い、LDTのバリデーション基準に踏み込んだ詳細な追跡調査が必要である。

方法

調査設計と対象：本研究は、IASLCおよびPulmonary Pathology Society (肺病理学会) のウェブサイト、ならびに2019年United States and Canadian Association of Pathology (USCAP: 米国カナダ病理学会) 年次総会を通じて告知された国際オンライン横断調査である。調査期間は2019年2月1日から2019年5月31日までの4ヶ月間とした。回答者は病理医のみに限定し、臨床医を排除することで、検査技術および病理診断プロセスに特化した課題抽出を行った。本調査は匿名の任意回答による記述疫学調査であり、患者個人情報の取得を伴わないため、倫理委員会による承認は不要とされた。臨床試験登録番号 (NCT番号) は該当しない。

質問構成：質問票は20項目以上の設問から構成され、以下の3つのフェーズを網羅した。

Preanalytical段階：使用検体種別 (生検、外科切除標本、セルブロック、細胞診スライド)、組織処理条件 (固定遅延時間、固定時間、未染スライドの保管期間、固定液の種類) の記録状況。
Analytical段階：使用抗体クローン (22C3、28-8、SP142、SP263、E1L3N、QR1 [CE-IVD marked clone] など)、染色プラットフォーム (Ventana、Dako、Leica)、商業用アッセイとLDTの選択状況、外部コントロール組織 (扁桃、胎盤、肺がん組織、細胞株) の使用状況。
Postanalytical段階：外部精度管理 (EQA: external quality assessment) プログラムへの参加状況、施設間バリデーションの有無、正式なスコアリング研修の受講有無と主催団体、ガイドラインの参照状況、報告書の標準化、およびターンアラウンドタイム (TAT: turnaround time)。

統計解析：収集された定量データは頻度およびパーセンテージ (%) で記述した。地域間の比較には、カテゴリカル変数に対してchi-square test (カイ二乗検定) またはFisher’s exact test (フィッシャーの正確確率検定) を用いた。TATなどの順序尺度データの比較には、ノンパラメトリック検定であるMann-Whitney U検定を適用した。すべての統計解析はSAS (Statistical Analysis System) バージョン9.4 (SAS Institute, Cary, NC) を使用して実行し、p<0.05を有意水準とした。

回答者プロファイル：世界64カ国、310施設から計344名の病理医が回答した。地域別の内訳は、欧州140名 (41%)、北米83名 (24%)、アジア61名 (18%)、中南米25名 (7.3%)、アフリカ・中東22名 (6.4%)、オセアニア13名 (3.8%) であった。専門分野は、胸部病理専門が109名 (32%)、胸部病理および細胞診専門が102名 (30%)、一般病理が100名 (29%) であった。

Research Wiki

エクスプローラー

The International Association for the Study of Lung Cancer Global Survey on Programmed Death-Ligand 1 Testing for NSCLC

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク