- 著者: Kosuke Yoshihara, Maria Shahmoradgoli, Emmanuel Martínez, Rahulsimham Vegesna, Hoon Kim, Wandaliz Torres-Garcia, Victor Treviño, Hui Shen, Peter W. Laird, Douglas A. Levine, Scott L. Carter, Gad Getz, Katherine Stemke-Hale, Gordon B. Mills, Roel G. W. Verhaak
- Corresponding author: Roel G. W. Verhaak (Department of Bioinformatics and Computational Biology, The University of Texas MD Anderson Cancer Center; rverhaak@mdanderson.org)
- 雑誌: Nature Communications
- 発行年: 2013
- Epub日: 2013-10-11
- Article種別: Original Article
- PMID: 24113773
背景
固形腫瘍組織は、腫瘍細胞だけでなく、間質細胞、免疫細胞、血管細胞、正常上皮細胞といった腫瘍関連正常細胞を含む複雑な混合組織である。これらの非腫瘍細胞の混入は、遺伝子発現プロファイリングやDNAコピー数解析の結果を撹乱し、分子サブタイプの同定、予後モデル構築、分子経路解析の精度を低下させる主要な要因となることが知られている de Ridder et al. Leukemia 2005。そのため、ゲノム・トランスクリプトーム研究において、腫瘍純度を正確に定量し、非腫瘍細胞の影響を補正することは、生物学的解釈の精度を向上させる上で不可欠な課題であった。
一方で、腫瘍微小環境 (TME) を構成する非腫瘍細胞は、腫瘍生物学において重要な役割を担っている。間質細胞は腫瘍の増殖、疾患の進展、薬剤耐性に関与することが報告されており Hanahan et al. Cell 2011、腫瘍浸潤リンパ球 (TIL) は、その文脈に応じて抗腫瘍効果(例えば卵巣癌や大腸癌における予後改善)または腫瘍促進効果(一部の大腸癌における浸潤・転移への関与)を持つことが示されていた Fridman et al. NatRevCancer 2012。したがって、TMEの正確な定量と補正は、ゲノム・トランスクリプトーム研究の生物学的解釈に不可欠であると認識されていた。
当時、腫瘍純度を推定する既存の方法は、主にDNAコピー数アレイデータを用いるABSOLUTE法 Carter et al. NatBiotechnol 2012 などが主流であり、コピー数プロファイルが利用可能なサンプルに限定されるという限界があった。また、遺伝子発現プロファイルから細胞タイプ別のデコンボリューションを行う手法は散在的に開発されていたものの、腫瘍組織に特化し、汎用的に間質細胞と免疫細胞の浸潤レベルを推定できる包括的な方法は未確立であった。このような背景から、遺伝子発現データのみを用いて、腫瘍組織における間質細胞と免疫細胞の混入レベルを正確に推定し、腫瘍純度を推測する新規アルゴリズムの開発が強く求められていた。特に、大規模な臨床コホートにおいて、DNAコピー数データが利用できない場合でもTMEの構成を評価できる汎用的なツールの開発は、がん研究における知識ギャップを埋める上で重要な課題であった。この知識ギャップを埋めるためのツールが不足しており、より広範なデータセットに適用可能な手法が求められていた。
目的
本研究の目的は、腫瘍サンプルの遺伝子発現データ(マイクロアレイおよびRNA-seqデータ双方)のみから、間質細胞浸潤と免疫細胞浸潤をそれぞれ定量的に推定する遺伝子シグネチャとスコアリング手法を構築することであった。この手法はESTIMATE (Estimation of STromal and Immune cells in MAlignant Tumours using Expression data) と命名された。具体的には、開発したESTIMATEアルゴリズムを、The Cancer Genome Atlas (TCGA) の大規模ながんゲノムデータセットを含む複数の独立したデータセットで検証し、その予測精度と汎用性を評価することを目的とした。これにより、DNAコピー数データが利用できない状況下でも、腫瘍組織の微小環境構成を正確に推測できる標準ツールの確立を目指した。最終的に、ESTIMATEがゲノム・トランスクリプトーム研究における腫瘍関連正常細胞の影響を考慮するための実用的なツールとして広く利用されることを意図した。
結果
1. シグネチャの妥当性検証:EpCAMベース細胞ソーティングとLCMサンプルでの確認: 卵巣癌3例のEpCAM抗体マイクロビーズソーティングにより、腫瘍細胞富化 (EpCAM+) 画分と非腫瘍細胞富化 (EpCAM-) 画分を分離し、転写プロファイルを取得した。EpCAM+画分(腫瘍細胞富化)では、間質スコア (paired t-test, P=0.0042) と免疫スコア (P=0.072) がいずれも有意またはほぼ有意に低下し、シグネチャが非上皮細胞量を正確に反映することが示された (Fig. 2a)。 また、シグネチャ構築に用いていない独立した3つのLCMデータセット(卵巣癌 GSE29156、乳癌 GSE10797、肺癌 GSE33363)でも同様の結果が再現された。腫瘍画分と間質富化画分の比較において、間質スコアはGSE29156 (P=2.5×10⁻⁵)、GSE10797 (P=1.9×10⁻⁷)、GSE33363 (P=5.7×10⁻⁵) のいずれにおいても腫瘍画分で有意に低値を示した。免疫スコアも同様の傾向を示し、GSE29156 (P=0.00030)、GSE10797 (P=3.2×10⁻⁷)、GSE33363 (P=0.0044) で有意な差が認められた (Fig. 2c, d)。これらの結果は、シグネチャの外的妥当性を確立するものであった。
2. TCGA 11がん種での腫瘍純度相関:固形がん10種で良好な負相関: ESTIMATEスコアは、ABSOLUTE法由来のDNAコピー数ベース腫瘍純度と、急性骨髄性白血病を除く10固形がん腫で良好な負の相関を示した。特に、卵巣漿液性腺癌 (n=417) ではPearson’s r = -0.69 (distance r = 0.69) と強い相関が確認された (Fig. 3c)。プラットフォーム間(Agilent 244K、Affymetrix HT-HG-U133A、Illumina RNA-seq)でも結果は安定しており、アレイ・シーケンスを問わず普遍的に適用可能であることが示された。急性骨髄性白血病での相関不良は、血液腫瘍固有のTME構造(固形間質がない)による生物学的差異として合理的に説明された。ROC曲線解析では、TCGA卵巣癌データセットにおいて、腫瘍純度0.7のカットオフでESTIMATEスコアのAUCは0.89に達し、高い予測精度を示した (Fig. 3f)。他のデータセットや腫瘍タイプでも同様のAUC値が観察された (Fig. 4a)。
3. Pan-cancerでの生物学的特徴:がん腫固有のTMEパターンの発見: 間質スコアと免疫スコアは、腫瘍内で互いに独立した分布を示し、がん腫ごとに特徴的なTMEパターンが確認された (Fig. 6)。例えば、膠芽腫は間質スコアと免疫スコアが共に高値を示す傾向があり、豊富な腫瘍間質反応と免疫浸潤を反映していると考えられた。卵巣漿液性腺癌は免疫スコアの分布が広く、免疫炎症の不均一性を示唆した。腎明細胞癌は比較的高い免疫スコアを示し、TIL浸潤と良好な予後の関連に整合する結果であった。乳癌では分子サブタイプと免疫スコアの明確な対応が確認され、basal-likeおよびHER2-enrichedサブタイプで免疫スコアが高値、luminal Aで低値という傾向が示された。膠芽腫のmesenchymalサブタイプは間質スコアと免疫スコアが共に有意に高く (p<0.001)、分子サブタイプとTME組成の交絡が生存解析に影響しうることが示唆された。
4. 独立検証データセットでの予測精度: ESTIMATEの腫瘍純度予測能力を検証するため、7つの公開データセットからなる独立検証セット (n=195 samples) を使用した。この独立検証セットにおいても、ESTIMATEベースの腫瘍純度はABSOLUTEベースの腫瘍純度と高い相関 (Pearson’s r = 0.87) を示した (Fig. 4b)。腫瘍純度のカットオフ値 (0.9, 0.8, 0.7, 0.6) を適用した場合の平均精度は0.87 ± 0.050であった。また、ESTIMATEは個々のサンプルに対して95%信頼区間付きで腫瘍純度予測を提供できることが示された (Fig. 4c)。がん細胞株サンプル (n=27 cell lines) では、ESTIMATEとABSOLUTEの二乗平均平方根誤差がそれぞれ0.006と0.051であり、免疫および間質シグナルの一貫した欠如を示した。
5. 遺伝子変異検出への影響: ESTIMATEスコアに基づいて低純度群(上位25%)と高純度群(下位25%)に分けた場合、頭頸部扁平上皮癌と腎明細胞癌の低純度群でメガベースあたりの変異数が減少する傾向が観察された (調整P=0.055)。しかし、他の腫瘍タイプでは有意な差は認められず、TCGAサンプルで用いられたシーケンスカバレッジが体細胞配列変異の検出に十分であることを示唆した。変異スペクトル解析では、頭頸部扁平上皮癌と肺扁平上皮癌の低純度群でT>A置換の割合が有意に減少していた (調整P=0.015)。これは、TMEが変異プロセスに影響を与える可能性、または腫瘍内の変異タイプが間質および免疫浸潤を変化させる可能性を示唆するものであった。
考察/結論
ESTIMATE法は、遺伝子発現データのみから間質細胞浸潤、免疫細胞浸潤、および腫瘍純度を頑健に推定できる汎用的な手法として開発された。この手法の最大の貢献は、DNAコピー数データが利用できないコホートにおいてもTME解析を可能にした点である。TCGAの11がん種、および計3,809サンプルを含む大規模な独立データセットでの検証により、マイクロアレイとRNA-seqの両プラットフォームを問わず、安定した推定精度が確認された。特に、卵巣癌におけるESTIMATEスコアとABSOLUTE法による腫瘍純度との高い負の相関 (Pearson’s r = -0.69) は、本手法の信頼性を裏付けるものである。
先行研究との違い: 従来の腫瘍純度推定法がDNAコピー数データに依存していたのに対し、ESTIMATEは遺伝子発現データのみを用いる点で大きく異なる。これにより、より広範な既存のトランスクリプトームデータセットへの適用が可能となり、TMEの構成を評価する新たな道を開いた。また、病理組織学的評価による腫瘍純度や細胞浸潤の推定値との相関が低いことは、病理医間の観察者間バイアスや組織切片の違いといった限界を克服する可能性を示唆しており、これまでの手法と比較して客観性と再現性に優れる。
新規性: 本研究で初めて、腫瘍組織における間質細胞と免疫細胞の浸潤レベルをそれぞれ独立した遺伝子シグネチャを用いて定量的に評価し、それらを統合して腫瘍純度を推定するアルゴリズムを開発した。このアプローチは、TMEの多様性をがん種横断的に比較する上で新規の枠組みを提供し、各がん腫に固有のTMEパターン(例えば膠芽腫の高間質・高免疫浸潤、腎明細胞癌の高免疫浸潤)を明らかにした。
臨床応用: 本論文発表後、ESTIMATEはTCGAの二次解析、免疫療法バイオマーカー研究、分子サブタイプ同定においてデファクトスタンダードツールとして広く採用されている。免疫スコアは、TIL関連シグネチャの比較対照として機能し、後続のCIBERSORT、xCell、TIMER、quanTIseqといった高解像度デコンボリューション法の発展に橋渡し的な役割を果たした。ESTIMATEスコアを腫瘍純度の代替指標として共変量に組み込む補正戦略は、がんゲノム研究の標準的実践として定着し、差次的発現解析や変異解析における系統的バイアスを低減する上で臨床的有用性を持つ。
残された課題: ESTIMATE法の主要な限界として、(1) ssGSEAに基づく相対スコアであり絶対細胞数は返さないこと、(2) 細胞タイプ解像度が「免疫細胞全体」「間質全体」に留まり、T細胞サブタイプ(CD8+ vs CD4+ T細胞)やマクロファージサブタイプ(M1 vs M2)といった詳細な細胞サブタイプを区別できないこと、(3) 腫瘍種依存的な相関の強さのばらつき、が挙げられる。特に、白血病や肉腫のような造血器腫瘍や間質性腫瘍では、間質・免疫関連遺伝子の腫瘍内在性発現が高いため、腫瘍細胞性を正確に推定できない可能性がある。今後の検討課題として、より高解像度の細胞タイプ特異的シグネチャの組み込みや、内皮細胞、腫瘍タイプ特異的正常上皮細胞のシグネチャを含めることで、ESTIMATEアルゴリズムをさらに最適化することが挙げられる。また、免疫浸潤と生存の関連は卵巣癌以外では一定ではなく、腫瘍種や文脈依存的な解釈が必要である。
方法
シグネチャ構築: ESTIMATEアルゴリズムは、間質シグネチャと免疫シグネチャの2つの遺伝子セットを用いて構築された (Fig. 1)。
- 免疫シグネチャ: 白血球メチル化スコアと相関する遺伝子を特定し、正常造血細胞の発現プロファイルと他の正常細胞タイプの発現プロファイルを比較することで、免疫細胞特異的遺伝子を選抜した。さらに、がん細胞株で高発現な遺伝子とグリオーマ幹様細胞で高発現な遺伝子を除外するフィルタリングを行い、最終的に141遺伝子からなる免疫シグネチャを確立した。
- 間質シグネチャ: 乳癌、大腸癌、卵巣癌におけるレーザーマイクロダイセクション (LCM) で分離された腫瘍画分と間質画分の発現比較により、非造血系間質遺伝子を選抜した。同様に、がん細胞株で高発現な遺伝子とグリオーマ幹様細胞で高発現な遺伝子を除外するフィルタリングを行い、141遺伝子からなる間質シグネチャを確立した。
スコアリング: 各サンプルに対して、single-sample GSEA (ssGSEA) を適用し、間質シグネチャと免疫シグネチャに基づいてそれぞれ間質スコア (stromal score) と免疫スコア (immune score) を算出した。これらのスコアは、各細胞タイプの浸潤レベルを反映する。両スコアの和を単調変換することで、ESTIMATEスコア(腫瘍純度の逆指標)を定義した。腫瘍純度の予測モデルは、TCGA Affymetrixデータ (n=995) を用いて非線形最小二乗法により開発され、以下の式で表される: Tumour purity = cos (0.6049872018 + 0.0001467884 × ESTIMATE score)。
検証データ: TCGAの11種類のがん種(急性骨髄性白血病、膠芽腫、卵巣漿液性腺癌、乳癌、大腸癌、腎細胞癌、肺腺癌、子宮内膜癌、頭頸部扁平上皮癌、前立腺癌、直腸癌)のデータを用いた。これらのデータはAgilent 244K、Affymetrix HT-HG-U133A、Illumina RNA-seqといった複数のプラットフォームでプロファイリングされた。さらに、公開データベースから3,809サンプルの転写プロファイルを収集し、独立検証に使用した。DNAコピー数ベースの腫瘍純度推定値(ABSOLUTE法由来)との相関をPearson相関係数およびSpearman相関係数で評価した。ROC曲線解析も実施し、ABSOLUTE法による腫瘍純度を基準としたESTIMATEスコアの予測精度を評価した。
細胞分離実験: 卵巣癌3例の新鮮凍結組織から、EpCAM抗体を用いたマイクロビーズベースの細胞ソーティングにより、腫瘍細胞富化画分 (EpCAM+) と非腫瘍細胞富化画分 (EpCAM-) を分離し、転写プロファイルを取得した。これにより、シグネチャが非上皮細胞量を正確に反映するかを検証した。この実験では、MDA Cancer Centerで培養されたグリオーマ幹様細胞 (glioma stem-like cells) の発現データも利用し、間質シグネチャの特異性を高めた。
統計解析: 全ての計算はR 2.13.2を用いて実施された。適切な標準統計検定が適用され、特にペアードt検定 (paired t-test) やピアソン相関係数 (Pearson correlation coefficient) が用いられた。多重検定補正にはBenjamini-Hochberg法による偽発見率 (FDR) 補正が用いられた。