- 著者: Lisa Sikkema, Ciro Ramírez-Suástegui, Daniel C. Strobl, Tessa E. Gillett, Luke Zappia, Elo Madissoon, Nikolay S. Markov, Laure-Emmanuelle Zaragosi, Yuge Ji, Meshal Ansari, Roland Eils, Malte D. Luecken, Fabian J. Theis, et al.
- Corresponding author: Malte D. Luecken (Helmholtz Munich); Fabian J. Theis (Helmholtz Munich)
- 雑誌: Nature Medicine
- 発行年: 2023
- Epub日: 2023-06-08
- Article種別: Original Article
- PMID: 37291214
背景
シングルセルRNAシーケンス (scRNA-seq) 技術の急速な発展により、肺組織の細胞多様性を高解像度で解明する研究が増加した。例えば、Vieira Braga et al. NatMed 2019やTravaglini et al. Nature 2020、Deprez et al. Am J Respir Crit Care Med 2020などの先行研究が、健康なヒト肺の細胞景観を詳細に記述している。しかし、これらの個々の研究は対象個体数、サンプリング部位、実験プロトコルが限られており、細胞型定義が研究間で不一致であるという課題が残されていた。Human Cell Atlas (HCA) プロジェクトは器官レベルの統合参照アトラスの構築を目指していたが、肺においては複数研究を統合した大規模統一アトラスが存在しなかった。
バッチ効果の除去、細胞型再アノテーション、希少細胞型の同定、疾患特異的細胞状態の発見には、多様な個体、プロトコル、疾患状態を網羅した大規模統合が不可欠であった。scARchesやscANVIなどの深層学習ベースの統合手法の開発により、異なるバッチ、プロトコル間でのデータ統合が実用的となった。しかし、これまでの統合アトラスは、ヒトサンプル数、データセット数、細胞型数、ドナーメタデータ(年齢、BMI、喫煙状態など)のいずれかにおいて限界があり、健康な臓器および個体間の細胞表現型の多様性を十分に表現できていないという課題が残されていた。また、既存のアトラスの多くはデータ統合の品質評価を行っていなかったことも、その信頼性を評価する上で不足している点であった。これらの背景から、健康と疾患における肺の細胞景観を包括的に理解するための統合リファレンスは未解明な部分が多く、その構築が強く求められていた。
目的
本研究の目的は、49の公開・未公開データセット (486個体、240万細胞超) を統合したHuman Lung Cell Atlas (HLCA) を構築し、肺の全細胞型の合意アノテーションと参照アトラスを確立することである。さらに、HLCAを用いて新規細胞型の同定、人口統計学的変数(年齢、性別、BMI、喫煙状態、解剖学的位置)が遺伝子発現に与える影響の解析、疾患特異的細胞状態の同定、およびGWAS (Genome-Wide Association Study) との統合を実現することを目指した。最終的には、HLCAが新規データの高速アノテーションと解釈を可能にし、疾患関連の細胞状態を特定するための包括的なリファレンスとして機能することを示す。
結果
HLCAコアの構築と合意アノテーション: 14データセット、107個体から584,444細胞を統合し、HLCAコアを構築した。データ統合手法のベンチマークでは、scANVIがバッチ補正と生物学的保存のバランスにおいて最優秀な性能を示したため、採用された。統合された94クラスターのうち61クラスターがデータセット間で低ラベルエントロピーを示し、コースな細胞型レベルでの合意が確認された。残り33クラスターは高エントロピーを示し、データセット間での誤アノテーション (例: DC2が単球・マクロファージとして誤記) を同定・修正した。最終的に61細胞型 (少なくとも4データセット以上で検出) を確立し、各細胞型の統一マーカー遺伝子セットを提供した (Fig. 3b, d)。この再アノテーションにより、細胞の41%が正しくラベル付けされ、28%が洗練され、31%が実質的に再アノテーションされた。
希少細胞型の同定と新規細胞型の発見: HLCAコアは、イオノサイト (全細胞の0.08%)、房状細胞 (0.01%)、神経内分泌細胞 (0.02%) など、他の統合手法 (Harmony、Seurat RPCA) では明確なクラスターとして同定できなかった極めて希少な細胞型を、scANVIが明確なクラスターとして同定することに成功した (Fig. 3f)。さらに、成人ヒト肺で既報告のない6種の細胞型を新規に発見した。これには、遊走性樹状細胞 (n=312細胞、CCR7+LAD1+COL19+を発現)、造血幹細胞 (n=60細胞、SPINK2+CD34+を発現)、Hillock様増殖上皮細胞 (n=4,600細胞、KRT6A+KRT13+KRT14+を発現)、AT0細胞 (n=1,440細胞)、前末梢気管支分泌細胞 (n=4,393細胞)、および新規平滑筋サブセット (n=335細胞、CNN1+MYH11+FAM83D+を発現) が含まれる (Fig. 3f, g)。これらの細胞型は、HLCAの統合された大規模データセットによって初めて頑健に同定された。
人口統計学的・解剖学的変数の影響: 解剖学的位置 (近位-遠位軸CCFスコア) が多くの細胞型で最大の転写変動因子であり、サンプル間の全分散の最大約30%を説明した (Fig. 4a)。性別はリンパ管内皮細胞での転写変動と最も相関し (特にIFNAR1の発現差が女性で減少)、BMIはB細胞・T細胞での変動と相関、喫煙は自然リンパ球/NK細胞と相関した。BMI増加ではAT2細胞・分泌細胞・肺胞マクロファージで細胞呼吸・分化・ペプチド合成の下方制御が認められた (Fig. 4d)。例えば、分泌細胞ではインスリン応答経路の下方制御が観察され、これは肥満におけるインスリン抵抗性と一致する。
GWASとの統合による疾患-細胞型関連: 4つのGWAS (FVC・喘息・肺腺癌・COPD) のSNPをHLCAコアの細胞型と統合した。FVC関連バリアントは平滑筋 (Padj=0.07) ・肺胞線維芽細胞 (Padj=0.07) と有意に関連し、喘息関連SNPはT細胞と有意に関連 (Padj=0.005)、COPD関連SNPは筋線維芽細胞と有意に関連 (Padj=0.04) した (Fig. 5d)。重症COPD (GOLD 3/4) では毛細血管内皮細胞の割合が有意に増加し (Padj=0.0004)、肺胞マクロファージ・AT2細胞・樹状細胞が減少した (Padj=0.0007-3.21×10⁻⁶) (Fig. 5e)。平滑筋細胞の割合は重症COPD患者で有意に増加し (p=1.85×10⁻⁶)、これは既存の知見と一致する。
疾患共通細胞状態の同定:SPP1+マクロファージ: HLCAに37データセット (多様な肺疾患) を投影して240万細胞の拡張HLCAを構築した。単球由来マクロファージ (MDM) のクラスタリングにより4つの主要MDMサブタイプを同定した。COVID-19・IPF (Idiopathic Pulmonary Fibrosis)・肺癌の3疾患横断的に共通してSPP1+線維促進性MDM状態が観察された (CCL2+・SPP1+・PLA2G7+・CCL18+を発現) (Fig. 6i, k)。特にIPF線維芽細胞では5つの独立データセット間で一致してIPF特異的クラスター (CCL2+・COL1A1+・CTHRC1+・MMP19+・SERPINE1+・HIF1A+を発現) への偏りが認められた (Fig. 6f, h)。COVID-19早期BALF (気管支肺胞洗浄液) では炎症性MDM (IL1RN+・S100A12+を発現) が優勢であった (Fig. 6j)。このSPP1+MDMサブセットは、IPFサンプルに加えて、COVID-19後期に死亡し肺線維症を発症した患者および肺癌患者の細胞でも濃縮されており、SPP1、LPL、CHIT1などの線維症関連マーカーを強く発現していた (log2FC > 1.5)。
考察/結論
HLCAは肺scRNA-seqデータの世界最大の統合参照アトラスであり、49データセット・486個体・240万細胞にわたる包括的な細胞型分類・マーカー遺伝子・疾患マッピング基盤を提供する。
先行研究との違い: 先行研究が個別データセット・限定的細胞型・少数個体での解析に留まっていたのに対し、本研究は多施設・多プロトコル・多疾患を統合した初の大規模参照アトラスを構築し、希少細胞型の頑健な同定と疾患横断的共通状態の発見を実現した点で、これまでの研究と異なり独自性がある。また、データ統合の品質を厳密に評価した点も先行研究と対照的である。
新規性: 本研究で初めて、成人ヒト肺における6種の新規細胞型を同定し、SPP1+線維促進性マクロファージがCOVID-19、特発性肺線維症 (IPF)、肺癌に共通する疾患横断的な細胞状態であることを新規に明らかにした。この共通細胞状態の発見は、これまで報告されていない重要な知見である。
臨床応用: GWAS-細胞型統合解析は肺疾患 (COPD・喘息・肺腺癌) の細胞生物学的メカニズム解明を加速し、新規治療標的 (筋線維芽細胞のCOPD関与等) の優先順位付けに貢献する。SPP1+線維促進性マクロファージの疾患横断的共通性は、COVID-19後の肺線維症・IPF・肺癌における共通治療標的としての可能性を示す。特にCHIT1はIPFの治療標的として現在研究されており、本研究の知見は臨床応用への道を開く。HLCAはオープンソースのインタラクティブポータル (GitHub: LungCellAtlas/HLCA) として公開されており、誰でも新規データを投影してアノテーションを転送できるため、臨床現場でのデータ解析を加速する。
残された課題: 今後の検討課題として、小児肺・疾患急性期サンプルへのカバレッジ拡大、空間トランスクリプトミクスとの統合、免疫細胞との相互作用の定量化が挙げられる。また、HLCAコアデータの65%がヨーロッパ系の個体由来であるため、多様な集団からのサンプルをさらに統合し、アトラスの遺伝的多様性を向上させる必要がある。SNPベースの遺伝的祖先推論は、自己申告に基づく民族性よりも客観的なアプローチであり、今後の研究で取り入れるべきである。
方法
本研究では、まず14データセット (107個体) からなるHLCAコアを構築した。データ統合手法の選定にあたり、12種のデータ統合手法を12データセットでベンチマーク比較した。この比較には、Korsunsky et al. NatMethods 2019で報告されたHarmonyや、Stuart et al. Cell 2019で報告されたSeurat RPCAなどの手法が含まれた。結果として、scANVIがバッチ補正と生物学的保存のバランスにおいて最高性能を示したため、これを統合手法として採用した。scANVIは2層のニューラルネットワーク、30の潜在次元、およびnb (negative binomial) 遺伝子尤度を用いて、2,000のHVG (Highly Variable Genes) を入力として統合を実行した。
細胞型アノテーションは、オリジナルのアノテーションと6名の専門家による合意再アノテーションに基づき、61の細胞型を確立した。このプロセスでは、細胞型ラベルのシャノンエントロピーを計算し、ラベルの不一致が高いクラスターを特定・修正した。その後、scArchesを用いてさらに37データセット (380個体、180万細胞) をHLCAコアに投影し、HLCA拡張版 (計240万細胞) を作成した。
GWAS統合解析では、FVC (Forced Vital Capacity)、喘息、肺腺癌、COPD (Chronic Obstructive Pulmonary Disease) の4疾患に関連するSNP (Single Nucleotide Polymorphism) をHLCAコアの細胞型と関連付けた。これは、各細胞型を特徴付ける遺伝子領域における疾患関連バリアントの有意な濃縮をテストすることで実施された。人口統計学的変数(年齢、性別、BMI、喫煙状態、解剖学的位置)の遺伝子発現への影響解析、バルクRNA-seqデータのデコンボリューション、疾患特異的細胞状態の解析も実施した。統計解析には、相関調整済み平均ランク遺伝子セットテスト (correlation-adjusted mean-rank gene set tests) とBenjamini-Hochberg法によるFDR (False Discovery Rate) 補正を用いた。細胞型組成の変化の評価には、Mann-Whitney U testが使用された。