• 著者: Aaron M. Newman, Chih Long Liu, Michael R. Green, Andrew J. Gentles, Weiguo Feng, Yue Xu, Chuong D. Hoang, Maximilian Diehn, Ash A. Alizadeh
  • Corresponding author: Ash A. Alizadeh (Stanford University, Institute for Stem Cell Biology and Regenerative Medicine; Department of Medicine, Division of Oncology and Hematology)
  • 雑誌: Nature Methods
  • 発行年: 2015
  • Epub日: 2015-03-30
  • Article種別: Original Article
  • PMID: 25822800

背景

腫瘍微小環境における浸潤免疫細胞の組成は、腫瘍の増殖、進行、および免疫療法への応答性を決定する重要な因子であると認識されている Hanahan et al. Cell 2011。組織の細胞組成を解析する既存の方法としては、免疫組織化学 (IHC) やフローサイトメトリーが広く用いられてきた。しかし、これらの手法にはいくつかの課題が存在する。第一に、利用可能な表現型マーカーが限定的であるため、詳細な細胞サブセットの識別が困難である。第二に、フローサイトメトリーの前処理として組織を解離する際に、細胞の損失や損傷が生じ、結果に影響を与える可能性がある。第三に、希少な細胞サブセットの正確な定量が困難であるという問題も指摘されている。

一方、近年大規模に蓄積されているバルクRNAシーケンスやマイクロアレイの遺伝子発現プロファイル (GEP) データ (例: TCGA、GEO) を活用し、計算論的に細胞タイプ組成をデコンボリューションできれば、既存の膨大なデータを再利用し、新たな生物学的知見を引き出すことが可能となる。これまでに、線形最小二乗回帰 (LLSR:linear least-squares regression) や、二次計画法 (QP:quadratic programming)、PERT (perturbation model for gene expression deconvolution)、ロバスト線形回帰 (RLR:robust linear regression)、MMAD (microarray microdissection with analysis of differences)、DSA (digital sorting algorithm) などの先行手法が開発されてきた。これらの手法は、理想的な血液混合物のような明確な組成を持つサンプルでは一定の性能を示すことが報告されている。

しかし、これらの先行手法には、実際の複雑な生体組織、特に固形腫瘍の解析においていくつかの限界が残されていた。具体的には、(i) 未知の混合物内容 (例えば、腫瘍細胞など、トレーニングデータに含まれない成分) が混入すると、推定精度が著しく低下する、(ii) 実際の検体由来の技術的変動や生物学的ノイズに対して脆弱である、(iii) 密接に関連する細胞タイプ (例えば、ナイーブB細胞とメモリーB細胞など) を正確に弁別することが困難である、といった課題が未解明なままであった。これらの課題により、既存手法では複雑な組織の細胞組成を網羅的かつ高精度に解析することが不足しており、より頑健で高解像度なデコンボリューション手法の開発が強く求められていた。特に、腫瘍微小環境の細胞組成を正確に推定することは、癌の予後予測や治療標的の同定において極めて重要であり、この領域における知識ギャップが残されている。

目的

本研究の目的は、遺伝子発現プロファイルから複雑な組織の細胞組成を特徴付けるための、線形ν-サポートベクター回帰 (ν-SVR:nu-support vector regression) に基づく新規デコンボリューション手法CIBERSORTを開発することである。CIBERSORTは、先行手法が抱える課題を克服し、以下の3つの主要な目標を達成することを目指した。(1) 未知の混合物内容やノイズに対して高い頑健性を持つこと、(2) 密接に関連する細胞タイプであっても正確に弁別できること、(3) デコンボリューション結果の信頼性を評価するためのグローバルなP値を算出できること。

さらに、本研究では、22種類のヒト造血細胞表現型を識別するための、キュレーションされた遺伝子シグネチャーマトリックスLM22 (leukocyte matrix 22) を設計し、その性能を検証する。LM22とCIBERSORTを組み合わせることで、バルク腫瘍検体を含む様々な組織における免疫細胞の構成を高精度に推定できる計算プラットフォームを確立し、これをオープンソースとして提供する (http://cibersort.stanford.edu/)。これにより、細胞バイオマーカーや治療標的の大規模解析を可能にし、腫瘍免疫学やその他の疾患における細胞組成解析の新たな基盤を提供することを目的とする。

結果

LM22シグネチャーマトリックスの検証: CIBERSORTを208の精製白血球アレイデータセットに適用した結果、93%のサンプルでCIBERSORTが推定した主要な細胞タイプが、既知のグラウンドトゥルース表現型と一致した (Fig 1b)。さらに、5例のヒト扁桃腺からフローサイトメトリーでソーティングされたT細胞およびB細胞の比率と比較しても、CIBERSORTの推定結果は実測値と高い整合性を示した。これらの結果は、LM22が多様な白血球サブセットを正確に識別する能力を持つことを裏付けている。

グローバルP値の評価: LM22を用いて3,061の多様なヒトトランスクリプトームをデコンボリューションし、CIBERSORTのP値メトリックの感度と特異度を評価した。P値閾値約0.01において、CIBERSORTは陽性サンプルと陰性サンプルを区別する上で、感度 ≥94%、特異度 ≥95%、曲線下面積 (AUC) ≥0.98という高い精度を達成した (Fig 1c)。これは、白血球含有量の有無を高精度に判別できることを示しており、独立して導出された別の白血球シグネチャーマトリックスを使用した場合でも同様の結果が得られた。

理想化された混合物における性能: 4種類の血液癌細胞株のみからなる理想化された混合物において、CIBERSORTはLLSR、QP、PERT、RLR、MMAD、DSAといった既存の6手法と同等の高い精度を示した。また、24検体の全血サンプルでは、CIBERSORTが推定したリンパ球、単球、好中球の割合が、Coulter counterによる実測値と高い相関 (リンパ球 R=0.93, 単球 R=0.85, 好中球 R=0.92) を示した (Fig 1d)。これらの結果は、CIBERSORTが明確な組成を持つ混合物に対して正確なデコンボリューション能力を持つことを示している。

固形腫瘍シミュレーションにおける頑健性: 大腸癌細胞株 HCT116 を「未知の混合物内容」として混合し、腫瘍含有量 (1~100%) とノイズ (0~70%) を系統的に変動させた合成固形腫瘍混合物を用いて、CIBERSORTの頑健性を評価した。他の6手法は、免疫細胞含有量が50%以下になると性能が大きく低下したのに対し、CIBERSORTは腫瘍含有量95%まで、ノイズ70%まで正確な細胞割合推定を維持した (Fig 2a)。特に、元の混合物からの逸脱が大きい (ピアソン R が約0.05まで低下する) 混合物においても、CIBERSORTは堅牢な性能を示した (Fig 2b)。多くの固形腫瘍が50%未満の浸潤免疫細胞で構成されていることを考慮すると、この結果はCIBERSORTの臨床的有用性が高い領域と一致する。CIBERSORTは、他の手法と比較して一貫して優れた性能を示した (Fig 2d)。

希少細胞タイプの検出限界: 1種類の血液細胞株 (Jurkat細胞) を他の3種類の血液細胞株のランダム混合物にスパイクインした実験において、CIBERSORTは、腫瘍含有量 ≤50%の混合物では0.5%まで、腫瘍含有量 >50%の混合物では1%までの希少細胞タイプを検出した (Fig 2c)。全てのデコンボリューション手法において、腫瘍含有量が高い場合にスパイクインされた細胞タイプを過大評価する傾向が見られたが、CIBERSORTではこの影響が最も小さかった。この実験では、各データポイントで n=5 replicates が使用された。

密接に関連する細胞タイプの弁別: ナイーブB細胞とメモリーB細胞、CD4ナイーブT細胞とCD4メモリーT細胞、休止NK細胞と活性化NK細胞など、遺伝子発現プロファイルが相関性の高い密接に関連する細胞タイプの弁別は、既存手法では困難であった。しかし、CIBERSORTはこれらの細胞タイプを93%以上の精度で正確に分離できることを示した。これは、CIBERSORTが細胞タイプ特異的な発現を全ての遺伝子に要求しないν-SVRの特性によるものであり、より深いデコンボリューション能力を示唆している。

未知の混合物内容またはノイズに対する一貫性: 全血を乳腺組織にスパイクインした実験において、CIBERSORTは他の手法と比較して有意に高いデコンボリューションの安定性を示した (p<0.02, n=9 samples) (Fig 2e)。また、独立した研究間で比較した場合、CIBERSORTによって推定された白血球分画は、癌種内での類似性が癌種間よりも高い傾向を示した (Fig 2f)。これらの結果は、未知の混合物内容や実験室特異的な要因がCIBERSORTの性能に与える影響が小さいことを示唆している。

FFPEサンプルにおける性能: 公開されているびまん性大細胞型B細胞リンパ腫 (DLBCL) のFFPE (formalin-fixed, paraffin-embedded) サンプルと凍結サンプルのペアのGEPデータを用いて、CIBERSORTが推定した白血球分画は、全腫瘍で有意に相関していた (Fig 2g)。これは他の手法よりも高い一致度を示し、FFPE検体における大規模な細胞組成解析への有用性を示唆する。

フローサイトメトリーとの比較: 固形組織における白血球含有量のグラウンドトゥルース測定として、フローサイトメトリーとの直接比較を行った。早期非小細胞肺癌の外科的切除検体から得られた正常肺組織 (n=11 donors) と、濾胞性リンパ腫 (FL) 患者のリンパ節生検組織 (n=14 donors) において、CIBERSORTによる推定結果はフローサイトメトリー測定値と有意に相関した (p≤0.005) (Fig 2h,i)。特に、末梢血単核球 (PBMC) における深層デコンボリューションでは、LM22に含まれる10種類の表現型 (うち半数はLM22内で相関性が高く、半数はPBMC中で頻度が5%未満) のうち、90%の異なる白血球サブセットがCIBERSORTとフローサイトメトリー間で有意に相関した (p≤0.02, n=20 donors) (Fig 3a)。これには、Tregsを含む5%未満の頻度のサブセットのうち4つが含まれる (Fig 3b)。FL腫瘍生検では、CD4 T細胞、CD8 T細胞、悪性B細胞がCIBERSORTとフローサイトメトリー間で有意に相関した (p≤0.02, n=14 donors) (Fig 3c)。他の発現ベースのデコンボリューション手法は、これらのデータセットにおいて一般的に精度が低く、解析された表現型の50%以上で有意な相関を示したものはなかった (Fig 3d)。

考察/結論

本研究で開発されたCIBERSORTは、遺伝子発現プロファイルから複雑な組織の細胞組成を特徴付けるための強力な計算手法である。CIBERSORTは、発表以降、バルク遺伝子発現デコンボリューションのデファクトスタンダードとして広く認知され、TCGA、ICGC、GTExを含む大規模な発現コホートで適用されてきた。これにより、腫瘍免疫浸潤の予後および予測バイオマーカーの同定、免疫チェックポイント阻害剤への応答性予測、癌サブタイプの階層化、自己免疫疾患や感染症における免疫プロファイリングなど、多岐にわたる研究分野で活用されている。

先行研究との違い: 本研究は、従来の線形最小二乗回帰 (LLSR) や二次計画法 (QP) などの先行手法と異なり、ν-SVRの持つ特徴選択機能により、シグネチャー遺伝子を適応的に選択し、ノイズに対して頑健な推定を可能にする。これは、ノイズや未知の混合物内容が存在する実検体において、他の既存手法を大きく上回る性能を示す主要な要因である。また、腫瘍純度の推定手法である ESTIMATE Yoshihara et al. NatCommun 2013 などのアプローチと比較しても、単なる免疫・間質スコアの算出にとどまらず、22種類に及ぶ詳細な免疫細胞サブセットの相対比率を同時に定量できる点で決定的に異なる。

新規性: 本研究で初めて、22種類のヒト造血細胞サブセットを識別するキュレーションされたシグネチャーマトリックスLM22を同時に公開したことで、研究間の再現性と比較可能性が大幅に向上した。さらに、未知の混合物内容や、ナイーブB細胞とメモリーB細胞のような密接に関連する細胞サブセットの弁別能力に優れている点も、本研究で初めて示された重要な特徴である。

臨床応用: CIBERSORTは非小細胞肺癌や悪性黒色腫における抗PD-1療法への応答性と、CIBERSORT由来の免疫シグネチャーとの関連性解析に貢献してきた。また、びまん性大細胞型B細胞リンパ腫 (DLBCL) の細胞起源の補完解析や、急性骨髄性白血病 (AML) および骨髄異形成症候群 (MDS) における骨髄細胞構成解析にも利用されている。さらに、癌関連線維芽細胞や内皮細胞を対象とする拡張シグネチャーと比較利用されることで、腫瘍微小環境のより包括的な理解に貢献している。後続として、同グループからCIBERSORTxが発表され、シングルセルRNAシーケンスデータからシグネチャーを抽出し、バルクデータにデコンボリューションする機能や、バッチ補正機能が拡張された。現在、CIBERSORT/CIBERSORTx系統は、腫瘍免疫学の臨床研究における中核ツールとして位置づけられている。

残された課題: 今後の検討課題として、いくつかの点が挙げられる。第一に、CIBERSORTはバルク組織の平均的な細胞組成を推定するため、組織内の空間的異質性を直接捕捉することはできない。この課題には、別途空間トランスクリプトミクスのような技術が必要となる。第二に、腫瘍細胞自体の詳細なサブタイプ解析には、LM22とは異なる特異的なシグネチャーマトリックスが必要である。第三に、リファレンスシグネチャーマトリックスは、その構築に用いられたトレーニングコホートに依存するため、特定の集団において検証が不足している場合、バイアスを持つ可能性がある。第四に、バルクデコンボリューションの分解能には限界があり、0.5%未満の希少な細胞サブセットの検出は依然として困難であり、細胞の状態遷移のような連続的な変化を捉えることも難しい。これらの限界は、現代ではシングルセルおよび空間オミクス技術の組み合わせによって補完されつつあるが、既存のTCGAなどの大規模バルクデータセットの再解析基盤として、CIBERSORTは依然として極めて重要なツールである。

方法

ν-SVRベースのデコンボリューション: CIBERSORTは、線形ν-サポートベクター回帰 (ν-SVR) を応用した新規の計算手法である。入力として、遺伝子と細胞タイプからなるリファレンスシグネチャーマトリックスと、解析対象の観測遺伝子発現プロファイル (GEP) を用いる。ν-SVRは、特徴選択 (情報量の高いシグネチャー遺伝子を適応的に選択する機能) と、各細胞タイプの相対的割合の推定を同時に実行する。これにより、ノイズやオーバーフィッティングに対する頑健性を高め、多重共線性 (密接に関連する細胞タイプ間の相関) の影響を軽減する。CIBERSORTは、Rパッケージe1071の「svm」関数を用いてν-SVRを実装し、νパラメータの3つの値 (0.25, 0.5, 0.75) のうち、最も低い二乗平均平方根誤差 (RMSE) を示す結果を採用する。回帰係数が負の値になった場合は0に設定し、残りの係数を合計が1になるように正規化することで、細胞タイプの相対的割合を推定する。解析の高速化と性能向上のため、シグネチャーマトリックスと混合物GEPの両方を、CIBERSORT実行前にゼロ平均・単位分散に正規化する。

グローバルP値の推定: CIBERSORTは、モンテカルロサンプリングを用いて、デコンボリューション結果の経験的なグローバルP値を算出する。これは、シグネチャーマトリックス中の細胞タイプが与えられたGEP混合物中に存在しないという帰無仮説を検定するために用いられる。テスト統計量としては、観測GEPと再構成されたGEP (推定された細胞割合とシグネチャーマトリックスの積) の間のピアソン積率相関係数 R を使用する。P値の導出には、500回のパーミュテーションテストにより帰無分布 R* を作成し、観測された R がこの帰無分布に対してどの程度有意であるかを評価する。

シグネチャーマトリックスLM22の設計と検証: LM22は、547個の遺伝子から構成され、22種類のヒト造血細胞表現型 (7種類のT細胞サブタイプ、ナイーブB細胞、メモリーB細胞、形質細胞、NK細胞、単球、M0/M1/M2マクロファージ、休止/活性化樹状細胞、休止/活性化肥満細胞、好酸球、好中球、濾胞性ヘルパーT細胞、γδT細胞、Treg) を識別する。LM22の構築には、HGU133A (Human Genome U133A) プラットフォームでプロファイルされた22種類の白血球サブセットのGEPデータを用いた。各細胞集団と他の全集団との間で有意に差次的に発現する遺伝子を、両側不等分散t検定とq値<0.3 (偽発見率) で特定した。各白血球サブセットにおいて、他の細胞サブセットと比較して最も高いフォールドチェンジを示す上位 G 個のマーカー遺伝子を抽出し、それらを組み合わせてシグネチャーマトリックスを構築した。G の値を50から200まで反復し、最も低い条件数 (condition number = 11.4、G = 102、547個の異なる遺伝子) を持つシグネチャーマトリックスをLM22として採用した。非造血細胞タイプに発現が豊富な遺伝子を排除するため、Gene Enrichment ProfilerとCancer Cell Line Encyclopedia (CCLE) データを用いて2段階の遺伝子フィルタリングを実施した。LM22は、共有する系統に基づいて11の主要な白血球タイプに集約することも可能である。

検証データセット: CIBERSORTの性能検証には、多岐にわたるデータセットが用いられた。これには、(i) 22の研究から得られた208の精製白血球サブセットのマイクロアレイデータ、(ii) 3,061の多様なヒトトランスクリプトーム (1,425の一次組織、376の陰性対照、118の形質転換細胞株、1,142の非造血細胞株)、(iii) 24例の全血検体におけるCoulter counterによる細胞数測定値との比較、(iv) 5例の扁桃腺からフローサイトメトリーでソーティングされたT細胞およびB細胞の比率、(v) リツキシマブ単剤療法前後の非ホジキンリンパ腫患者の末梢血単核球 (PBMC)、(vi) 4種類の血液癌細胞株 (Jurkat, Ramos, THP-1, HL-60) を大腸癌細胞株 (HCT116) に混合した合成固形腫瘍混合物 (腫瘍含有量1~100%、ノイズ0~70%で系統的に変動)、(vii) 血液細胞株のスパイクイン実験 (0.5~10%) が含まれる。さらに、LM22を用いてTCGA乳癌コホート3,154例の遺伝子発現プロファイルから免疫細胞組成を推定し、予後との関連を解析した。臨床試験データとして、濾胞性リンパ腫患者を対象とした第III相臨床試験 (NCT00017290) や、インフルエンザワクチン接種コホート (NCT01827462) のPBMCデータも活用した。

統計解析: 既知の細胞タイプ割合とCIBERSORTによる予測値との一致度は、ピアソン相関係数 (R) と二乗平均平方根誤差 (RMSE) を用いて評価した。群間比較には、適切なウィルコクソン検定 (対応ありまたはなし) を使用した。P値 < 0.05を統計的に有意と判断した。