• 著者: Joseph McLaughlin, Gang Han, Kurt A. Schalper, Daniel Carvajal-Hausdorf, Vasiliki Pelekanou, Jamaal Rehman, Vamsidhar Velcheti, Roy Herbst, Patricia LoRusso, David L. Rimm
  • Corresponding author: David L. Rimm (Department of Pathology, Yale University School of Medicine, New Haven, CT, USA)
  • 雑誌: JAMA Oncology
  • 発行年: 2016
  • Epub日: 2015-11-12
  • Article種別: Original Article
  • PMID: 26562159

背景

PD-1/PD-L1経路を標的とするモノクローナル抗体は、非小細胞肺癌 (NSCLC) を含む複数の進行癌において、持続的な臨床反応を示し、その結果、複数の薬剤が承認されている。例えば、pembrolizumab、nivolumab、atezolizumabといった薬剤は、PD-L1発現をコンパニオン診断薬として利用している。しかし、各製薬企業が独自の抗体(22C3、28-8、SP142、SP263など)とプラットフォームを使用しており、PD-L1発現のカットオフ値(1%、5%、50%)や陽性判定の対象(腫瘍細胞のみか免疫細胞も含むか)も異なるため、臨床試験間の結果比較や実臨床への応用が困難であるという問題が指摘されていた。この非標準化は、PD-L1発現の予後および/または予測的役割に関する現在の評価が、発現の量または分布に関して標準化されていないことに起因する。

PD-L1は誘導性かつ動的に発現するため、その発現は本質的に不均一 (heterogeneous) であることが知られている。この不均一性は、PD-L1が多様な細胞型で発現し、その発現が多様かつ完全に理解されていないメカニズムによって刺激されることに起因する可能性がある。また、リンパ球、マクロファージ、または樹状細胞によってもPD-L1が発現し、これが観察される間質における発現の局在を説明する可能性もある。さらに、PD-L1は、細胞が摂取された後にマクロファージで検出される可能性も指摘されている。このような背景から、同一症例であっても抗体、アッセイ、切片の位置によって判定が異なるという問題が指摘されており、PD-L1発現の評価における信頼性が懸念されていた。

先行研究では、PD-L1発現が抗PD-1/PD-L1抗体療法への反応を予測するのに役立つ可能性が示唆されているが、各治療研究は共通の標準を参照せずに独自のコンパニオン診断法と抗体を使用していた。例えば、Topalian et al. NEnglJMed 2012Brahmer et al. NEnglJMed 2012は、PD-L1発現と治療反応の関連性を示唆しているが、その評価方法は多様であった。また、Herbst et al. Nature 2014は、抗PD-L1抗体MPDL3280Aの反応予測因子を報告しているが、ここでも独自のPD-L1アッセイが用いられている。これらの研究は、PD-L1発現の重要性を示しつつも、その評価方法の標準化の不足が、臨床試験の結果解釈を複雑にしている。

PD-L1発現の予後および予測的役割が限定的であるのは、アッセイの困難な性質に起因する可能性が高い。矛盾する知見が発表されており、異なるアッセイ方法が不一致な結果を生むことが示唆されている。現在、免疫組織化学 (IHC) を用いたPD-L1陽性度の定義のほぼすべての側面が、標準化の欠如と主観的な解釈にさらされている。さらに、一部の臨床試験では、研究コミュニティではまだ利用できないPD-L1アッセイが使用されてきた。例えば、一部の試験では上皮細胞のみ、あるいは上皮細胞膜のみでPD-L1を測定したが、他の試験では腫瘍周囲間質の免疫細胞におけるPD-L1測定も含まれていた。アッセイの変動性は、PD-L1を測定するために使用される試薬の多様性によってさらに複雑化している。徹底的な検証なしに多様な市販の抗PD-L1抗体が使用されており、矛盾する文献につながっている。これは、PD-L1を認識しない抗体によるものではなく、PD-L1を認識し、交差反応性によって他の不明確なタンパク質も認識する抗体によるものであることが多い。この状況をさらに複雑にしているのは、コンパニオン診断薬を製造する企業が、米国食品医薬品局への提出に備えて、外部検証や査読なしに独自の抗体と検査プラットフォームを開発してきたことである。その結果、PD-L1の予測的価値に関する文献とデータの解釈は困難である。このような状況から、PD-L1発現の評価における客観性と標準化の必要性が強く認識されているが、その具体的な方法論には依然として多くの課題が残されている。PD-L1発現の不均一性に関する定量的な評価は未解明な点が多く、その臨床的意義を明確にするためには、より厳密な解析手法の導入が不足している。

目的

本研究は、非小細胞肺癌 (NSCLC) におけるPD-L1タンパク質の発現分布を、従来の免疫組織化学 (IHC) と自動定量的免疫蛍光 (QIF: quantitative immunofluorescence) の両方を用いて実証し、2種類の異なるPD-L1抗体(E1L3NとSP142)を用いて得られた結果を比較することを目的とする。具体的には、49例のNSCLC全組織切片 (WTS: whole-tissue sections) と対応する組織マイクロアレイ (TMA: tissue microarray) におけるPD-L1発現の再現性、抗体間の一致率、および腫瘍内不均一性 (heterogeneity) を定量的に評価する。

PD-L1発現の不均一性は、その予測的バイオマーカーとしての役割に矛盾が生じる一因となっている可能性がある。例えば、PD-L1陰性と判断された腫瘍が、生検部位では陰性であっても、別の部位では陽性である可能性も考えられる。この現象は、臨床試験で異なる腫瘍部位間で観察される「混合反応」の一部を説明する可能性もある。本研究では、この不均一性を客観的に評価し、その程度を定量化することで、PD-L1検査の信頼性向上に貢献することを目指す。

また、検証済みのPD-L1抗体間の固有の差異はこれまで報告されていなかった。多くの市販のPD-L1抗体は十分に検証されておらず、PD-L1発現と全生存期間および腫瘍浸潤リンパ球 (TIL: tumor-infiltrating lymphocyte) の存在との相関に関して矛盾する結果につながっている。本研究では、2つの異なる検証済みPD-L1抗体であるE1L3NとSP142を比較し、その一致率と差異を詳細に分析する。これにより、異なる抗体を使用するアッセイが不一致な結果を生む可能性を明らかにし、PD-L1検査の標準化に向けた重要な情報を提供することを目指す。

結果

PD-L1発現の不均一性: 2種類の抗体を用いたクロモジェニックIHC (DAB) および定量的免疫蛍光 (QIF) によるPD-L1タンパク質発現は、不均一性を示した。同一腫瘍の異なる部位(ヘマトキシリン・エオシン染色されたWTSで示される)の代表的な症例では、両抗体を用いたDAB染色で、腫瘍の一部領域では陽性染色が認められたが、他の領域では陰性であった (Figure 1)。発現分布は観察されたが、先端部または非先端部発現として明確かつ再現性よく定義することはできなかった。発現分布は、間質と腫瘍の境界付近で頻繁に認められた (eFigure 2)。QIFを用いた個々の症例におけるFOV間の変動係数 (CV) は、E1L3Nで6.75%から75.24%、SP142で12.17%から109.61%の範囲であった (eTable 1)。これは、PD-L1発現が腫瘍内で極めて不均一であることを示唆している。QIF解析では、588の連続切片FOVをE1L3NとSP142で比較した結果、26.6%のFOVで不一致が認められた。具体的には、51 FOV (8.6%) がSP142で陽性かつE1L3Nで陰性であり、106 FOV (18.0%) がE1L3Nで陽性かつSP142で陰性であった。これらのFOVには、上皮細胞と間質細胞の両方が含まれていた。この結果は、同一症例の同一FOVであっても、使用する抗体によってPD-L1発現の判定が大きく異なることを示している。

IHCにおける抗体間一致率: クロモジェニックIHCを用いた場合、E1L3NとSP142の両抗体は、Cohen κ係数が0.124から0.340の範囲であり、fairからpoorな一致率を示した (eTable 2)。この低い一致率は、1%、5%、50%の腫瘍細胞カットオフおよび5%の間質細胞カットオフのいずれを使用しても同様であった。この結果は、従来のIHC法では、異なるPD-L1抗体間でPD-L1陽性度を評価する際に大きな不一致が生じる可能性を示している。

QIFにおける抗体間不一致と腫瘍内不均一性: QIF解析では、588の連続切片FOVをE1L3NとSP142で比較した結果、26.6%のFOVで不一致が認められた。具体的には、51 FOV (8.6%) がSP142で陽性かつE1L3Nで陰性であり、106 FOV (18.0%) がE1L3Nで陽性かつSP142で陰性であった。これらのFOVには、上皮細胞と間質細胞の両方が含まれていた。この結果は、同一症例の同一FOVであっても、使用する抗体によってPD-L1発現の判定が大きく異なることを示している。また、各症例のQIFスコアの分布は、ほとんどの症例でQIFスコアに大きな変動があり、同一症例内でもPD-L1タンパク質発現に差異があることを示した (Figure 2)。

臨床病理学的特徴との関連: 患者の大多数は、早期 (stage I) のリンパ節陰性肺腺癌の女性喫煙者であった (Table)。PD-L1タンパク質QIFスコアは、性別、年齢、喫煙状況、組織型、病期、原発腫瘍径のいずれとも、いずれの抗体でも相関しなかった。しかし、SP142はリンパ節陽性患者でリンパ節陰性患者よりも有意に高いQIFスコアを示した (p=0.03)。E1L3Nでは、リンパ節陽性患者で高いQIFスコアの傾向が見られたが、統計的有意差には至らなかった (p=0.06)。

腫瘍浸潤リンパ球 (TIL) との相関: 大多数の腫瘍 (n=42) は低TIL (<60%) であった (Figure 2)。E1L3NとSP142の両抗体とも、高TILを有する腫瘍で有意に高いQIFスコアを示した (E1L3N: p=0.007、SP142: p=0.02) (Figure 3)。この結果は、PD-L1発現が活性化T細胞由来のIFN-γによって誘導される「適応抵抗性 (adaptive resistance)」仮説を支持するものである。PD-L1発現は腫瘍内で均一ではなく、局所的またはクラスター状に存在し、間質-腫瘍界面近くに集積する傾向が認められた(定量的には非有意)。これは、活性化TIL由来のIFN-γによる適応抵抗性機構と一致する。

QIF定量結果と統計解析: E1L3NとSP142の間のQIFスコアの相関を評価した。Pearson相関係数は、総スコアで0.81 (p<0.001)、平均で0.91 (p<0.001)、最大で0.83 (p<0.001) と高値を示した。しかし、これらのスコアは少数の高値によって駆動されており、見かけの相関である可能性が示唆された (eFigure 3)。一方、Spearman順位相関係数は、総スコアで0.21 (p<0.001)、平均で0.14 (p=0.34)、最大で0.13 (p=0.37) と低値であり、ランクベースでは有意な相関がないことを示した。これは、Pearson相関係数の有意性が主に外れ値によって駆動されていることを示唆している。2つの抗体からの測定値の大部分は、ランクベースの指標であるSpearman相関によれば有意に相関していなかった。2つの抗体からのペアになった平均、中央値、最大値について、符号検定とWilcoxon符号順位検定の両方で、総スコア、平均スコア、最大スコアのすべてでp値が0.001未満となり、2つの抗体からの測定値間に有意な不一致があることを示した。

TMAとWTSの比較: 各TMA症例のQIFスコアと、対応するWTSの平均QIFスコアを比較した (eFigure 4)。Pearson相関係数は、E1L3Nで0.75 (p<0.001)、SP142で0.98 (p<0.001) と計算されたが、これらも少数の高値によって駆動されていた。Spearman順位相関係数は、E1L3Nで0.20 (p=0.17)、SP142で0.52 (p<0.001) と推定された。この結果は、TMAの単一コアが不均一な全腫瘍を代表しない可能性を示唆している。特にE1L3Nでは、TMAとWTSの間に有意な順位相関が認められなかった。

考察/結論

先行研究との違い: 本研究は、非小細胞肺癌 (NSCLC) におけるPD-L1タンパク質発現が腫瘍内で不均一であり、異なる抗体アッセイ間で顕著な変動または不一致が存在することを初めて定量的に明らかにした点で、これまでの研究とは異なる。これまでの研究ではPD-L1発現の不均一性が指摘されてきたが、本研究はQIFという定量的な手法を用いることで、その不均一性と抗体間不一致の程度を客観的に測定した。例えば、Dong et al. NatMed 2002Chen et al. Immunity 2013はPD-L1の免疫抑制機構を解明したが、その発現の定量的な不均一性については言及がなかった。また、Schreiber et al. Science 2011は癌免疫編集の概念を提唱したが、PD-L1発現の測定における技術的な課題には触れていない。

新規性: 本研究で初めて、2つの厳密に検証されたPD-L1抗体(E1L3NとSP142)が、従来のIHC法ではCohen κ係数が0.124-0.340とfairからpoorな一致率を示し、QIF法では同一症例の同一FOVにおいて統計的に有意な不一致を示すことを定量的に実証した。この結果は、2つの抗体(E1L3NとSP142)がいずれもPD-L1細胞内ドメインを認識すると報告されているにもかかわらず、エピトープ、親和性、または干渉因子の違いにより、25%以上の症例で判定が逆転する可能性があるという新規な知見を提供する。この知見は、抗PD-1/PD-L1治療のコンパニオン診断薬としてのPD-L1検査の信頼性に重大な懸念を提起し、「ある薬剤のコンパニオン診断薬は他の薬剤の効果を予測しない」ことを示唆する。

臨床応用: 本知見は、PD-L1検査の臨床応用において重要な含意を持つ。第一に、標準化されたPD-L1検査プラットフォームの緊急の必要性が示唆される。第二に、少なくとも複数切片採取やTMAではなく、全組織切片解析が推奨される。TMA単一コアは不均一な全腫瘍を代表しない可能性が示唆されたため、より広範な組織評価が求められる。第三に、腫瘍浸潤リンパ球 (TIL) 評価との統合が重要である。本研究でPD-L1発現とTILsの間に有意な相関が示されたことは、PD-L1発現が活性化T細胞由来のIFN-γによって誘導される「適応抵抗性」仮説を支持しており、TILsの評価を組み合わせることで、より正確な予測が可能となるかもしれない。第四に、細胞表現型別(腫瘍細胞 vs 免疫細胞)の区別が重要である。これらの提言は、PD-L1検査の精度と信頼性を向上させ、患者選択の最適化に貢献する可能性がある。

残された課題: 今後の検討課題として、本研究がPD-L1軸療法未治療のコホートを対象としているため、抗PD-1/PD-L1治療を受けた患者集団での予測価値検証が必要である。また、mRNAや血清sPD-L1など代替バイオマーカーとの比較、PD-L1以外のバイオマーカー(TMB、MSI、遺伝子発現シグネチャー、CXCL9/CXCL10など)との統合、およびカットオフ値の最適化が挙げられる。これらのlimitationを克服することで、PD-L1検査の臨床的有用性をさらに高めることができるだろう。本論文はPD-L1 IHCの不均一性を世界で初めて定量化した重要な研究として、その後のPD-L1検査標準化に大きな影響を与えた。

方法

本研究では、Yale Thoracic Oncology Program Tissue Bankから2011年から2012年にかけて遡及的に収集された49例の非小細胞肺癌 (NSCLC) 全組織切片 (WTS) を対象とした。これらの検体は、PD-L1軸療法による治療歴のない切除標本であり、複数の抗体と検出システムを用いて発現の不均一性を定義するための代表的な肺癌症例として選択された。また、これらの症例は組織マイクロアレイ (TMA) YTMA246にも含まれていた。患者の臨床病理学的情報は、臨床記録および病理報告書から収集された。WTSおよびTMA標本は、組織ブロックから連続的に切断された。試薬の滴定、PD-L1アッセイの検証、および再現性評価のために、陽性および陰性対照検体を含む対照TMA YTMA245が作成された。すべての症例は、承認されたヒト研究委員会プロトコルに基づく組織使用の同意を得ており、本研究のIRB承認はイェール大学を通じて取得された。PD-L1抗体の検証には、PD-L1トランスフェクトMel 624細胞および親Mel 624細胞株が使用された。

PD-L1発現は、ホルマリン固定パラフィン包埋WTSおよびTMAにおいて、従来の免疫組織化学 (IHC) と自動定量的免疫蛍光 (QIF) の両方を用いて評価された。使用されたPD-L1抗体は、2種類の市販の検証済みウサギモノクローナル抗体であるE1L3N (Cell Signaling Technology; カタログNo. 13684S) とSP142 (Spring Bioscience; カタログNo. MM4420) であった。各抗体は、胎盤の合胞体栄養膜層では発現するが間質では発現しないこと、およびPD-L1トランスフェクトMel 624細胞では発現するが親Mel 624細胞株では発現しないことを示すことで、IHC分析用に検証された。

IHCでは、スライドは脱パラフィン化後、抗原賦活化処理(E1L3Nにはクエン酸ナトリウム緩衝液pH 6.0、SP142にはTris-EDTA (Tris-ethylenediaminetetraacetic acid) 緩衝液pH 8.0)が施された。その後、PD-L1抗体E1L3N (1:1600希釈) およびSP142 (1:500希釈) とともに4℃で一晩インキュベートされた。検出にはDako社のEnVision K4003ウサギ増幅試薬とDAB (diaminobenzidine) が使用され、ヘマトキシリンで対比染色された。PD-L1陽性度は、病理医 (K.A.S.) によって、腫瘍細胞における膜および細胞質染色を1%、5%、50%のカットオフで、または間質における染色を5%の閾値で評価された。

QIFは、AQUA (Automated Quantitative Analysis) 法を用いて実施された。QIF測定は、ユーザー定義の組織コンパートメント内で標的を客観的かつ高感度に測定することを可能にする。サイトケラチン (腫瘍細胞) とDAPI (核) を用いて組織コンパートメントを区画分けし、各区画におけるPD-L1シグナル強度を算出した。腫瘍浸潤リンパ球 (TIL) 間質は、DAPI染色陽性でサイトケラチン染色陰性の細胞として定義された。スコアは露光時間とビット深度で正規化された。各WTSから、腫瘍を代表する5〜24視野 (FOV: field of view) が選択され、2つのPD-L1抗体は各FOVの連続切片で検査された。各FOVは0.7 mm × 0.7 mmであった。すべてのFOVは目視で評価され、染色アーチファクトや腫瘍領域が2%未満のFOVは系統的に除外された。

腫瘍浸潤リンパ球 (TIL) のスコアリングは、ヘマトキシリン・エオシン染色されたWTSにおいて、2名の病理医 (D.C.H.とV.P.) によって独立して実施された。スコアリングは、乳癌におけるTILの標準化された評価に関する最近報告されたシステムに従って行われた。病理医間でTILスコアリングに不一致があったスポットは共同でレビューされ、単一の合意スコアが確立された。

統計解析では、各抗体について、PD-L1 QIFスコアは臨床病理学的特徴によって分割されたグループ間で2側t検定を用いて比較され、P値が0.05未満を統計的に有意とみなした。異なるPD-L1抗体と1%、5%、50%の腫瘍内カットオフおよび5%の間質内カットオフを用いたクロモジェニック染色によるPD-L1陽性度の一致は、重み付きCohen κ係数を用いて評価された。各個々の症例について、E1L3NとSP142の両方で変動係数 (CV: coefficient of variation) が計算された。各組織サンプルにおけるPD-L1スコアの合計、平均、最大値は、(1) PearsonおよびSpearman相関係数、(2) 符号検定およびWilcoxon符号順位検定を含むノンパラメトリック対応検定に基づいて、2つの抗体間で比較された。各抗体およびTILsのPD-L1 QIFスコアは、2側t検定を用いて比較され、P値が0.05未満を統計的に有意とみなした。統計分析はGraphPad Prism (バージョン6.03) およびSAS (バージョン9.4) を用いて実施された。