Computational principles and challenges in single-cell data integration

著者: Ricard Argelaguet, Anna S.E. Cuomo, Oliver Stegle, John C. Marioni
Corresponding author: Ricard Argelaguet (EMBL-EBI), Anna S.E. Cuomo (Wellcome Sanger Institute), Oliver Stegle (DKFZ), John C. Marioni (EMBL-EBI)
雑誌: Nature Biotechnology
発行年: 2021
Epub日: N/A
Article種別: Review
PMID: 33941931

背景

単一細胞シークエンシング技術 (scRNA-seq、scATAC-seq、CITE-seqなど) の急速な発展により、個々の細胞において複数の分子次元 (転写産物、クロマチン状態、タンパク質発現など) を同時に測定するマルチモーダルアッセイが実現した。これらの技術は、早期哺乳類発生、組織恒常性、がんなどの疾患における細胞の不均一性、細胞分化の軌跡、遺伝子制御ネットワークの解明に革命をもたらしている (Navin 2015, Peng et al. 2020)。先行研究では、多様な単一細胞データの統合手法が個別に開発されてきたが、それらの概念的枠組みと手法の整理はこれまで十分に行われてこなかった。

しかし、異なるモダリティ、プロトコル、実験ロット、研究施設から生成された単一細胞データを統合する際に、バッチ効果、技術的ノイズ、モダリティ間のスケール差異などの計算的課題が生じる。データ統合の不適切な実施は、生物学的シグナルの消失 (過補正) または技術的変動の残存 (補正不足) を招く。既存の統合戦略は類似の数学的アイデアを利用しているものの、通常は異なる目的を持ち、異なる原理と仮定に依存するため、単一細胞データ統合の概念的枠組みと手法の整理が不足していた。特に、多様な統合手法を統一的に分類し、その原理と課題を包括的に評価する枠組みはこれまで十分に確立されておらず、この点が今後の研究における重要な課題として残されている。

目的

本レビューの目的は、単一細胞マルチモーダルデータ統合の概念と原理を定義し、統合タスクの分類体系を構築することである。また、主要な計算手法の比較と課題 (過補正、バッチ効果、高次元観測の歪み、生物学的変動とバッチ効果の分離など) を系統的にレビューし、時間分解能および空間分解能データ統合の将来的な展望についても考察することを目指す。

結果

統合タスクの概念的分類 (アンカーの選択): 本レビューはデータ統合タスクを「アンカー (データセット間の共通参照点) の選択」という概念で統一的に定義し、3つの統合タイプを提唱した (Fig. 1)。 (1) 水平統合 (Horizontal integration) は「ゲノム特徴をアンカー」として同一モダリティの複数バッチを統合するタスクである。例えば、複数バッチのscRNA-seqデータをバッチ補正して統合する際に、共通の遺伝子セットがアンカーとなる。 (2) 垂直統合 (Vertical integration) は「細胞をアンカー」として同一細胞に対して測定された複数のモダリティを統合するタスクである。例えば、CITE-seq (Cellular Indexing of Transcriptomes and Epitopes by sequencing) におけるRNAとタンパク質の発現データ統合がこれに該当する。 (3) 対角統合 (Diagonal integration) は細胞もゲノム特徴も異なるデータセット間を「高次元空間のアンカーなし」で統合するタスクである。例えば、別々の細胞群に対するscRNA-seqとscATAC-seqデータの統合が挙げられる。この3分類はその後の単一細胞解析コミュニティの標準的枠組みとなった。

水平統合の主要手法と課題: 水平統合の最も重要な用途はバッチ補正であり、FACS、細胞分離、ライブラリー調製などの技術因子に起因するバッチ間のRNA発現分布の偏りを除去しつつ、生物学的変動を保存する。Ritchie et al. NucleicAcidsRes 2015やComBatなどのバルクデータ向け線形バッチ補正法は、細胞タイプ組成がバッチ間で異なると仮定違反を起こすため不適切であることが示された。主要な非線形水平統合手法として以下が詳述された。MNN (Mutual Nearest Neighbors) は、共通低次元空間での相互最近傍マッチングによりバッチ補正を行う。Stuart et al. Cell 2019は、CCA (Canonical Correlation Analysis) と相互最近傍マッチングを組み合わせ、異なるバッチのアンカー細胞ペアを同定して補正ベクトルを算出するが、大規模データでの計算コストが課題である。Korsunsky et al. NatMethods 2019は、主成分空間でのk-meansクラスタリングの反復によりcell-specificな線形補正関数を学習する高速手法である。LIGER (Linked Inference of Genomic Experimental Relationships) は、積分的非負行列因子分解 (iNMF) によりデータセット共通因子とデータセット特異的因子を分離する。BBKNN (Batch Balanced k-Nearest Neighbors) は、隣接グラフ上でバッチ補正を行う最速の手法だが、単一細胞解像度が失われる。scVI (single-cell Variational Inference) は、VAE (Variational Autoencoder) を用いたベイズ生成モデルであり、バッチ効果を潜在表現に組み込んだ確率的フレームワークである。38種の水平統合手法を比較した大規模ベンチマーク (Luecken et al., 2020) では、手法の性能は使用する評価指標 (LISI (Local Inverse Simpson Index), kBET (k-nearest-neighbor Batch Effect Test), ARI (Adjusted Rand Index) など) によって大きく異なり、単一の「最良手法」は存在しないことが示された。

垂直統合：局所解析と大域解析: 垂直統合は局所 (local) 解析と大域 (global) 解析に細分類される。局所解析は特定の特徴ペア間の関連を検定するタスクであり、scRNA-seqと遺伝子型データを組み合わせたcis-eQTL (expression Quantitative Trait Loci) mapping (iPSC、PBMC、分化系列での解析) が代表例として詳述された (Fig. 2)。LMM (Linear Mixed Models) は、個体間の相関構造、技術的交絡因子 (バッチ、細胞数)、反復測定を考慮する標準的枠組みとして紹介された。van der Wijst et al. (2018) および Cuomo et al. (2020) によるeQTL mapping解析では、バルクRNA-seqでは検出できなかった希少細胞種特異的eQTLや分化軌跡に沿った動的eQTLが同定された。例えば、Cuomo et al. (2020) の研究では、36,044個のiPSC由来内胚葉細胞において、遺伝子発現に対する動的な遺伝的効果が示された。大域解析は、全モダリティの測定値を用いて細胞状態 (細胞周期、多能性、分化状態など) を同定するタスクであり、行列因子分解法 (CCA、MOFA/MOFA+、JIVE (Joint and Individual Variation Explained)、PLS (Partial Least Squares)、MCIA (Multiple Co-Inertia Analysis)、iNMF) が主要手法として挙げられた。MOFA (Multi-Omics Factor Analysis) は複数のモダリティを統一的に扱う潜在因子モデルであり、データセット共通因子とモダリティ特異因子を区別して抽出できる。マウス前埋植胚でのscCAT-seq (クロマチン+RNA) にiNMFを適用した事例では、胚盤胞期の細胞状態に関連する分子シグネチャーが抽出された。マウス後埋植胚でのscNMT-seq (RNA+DNAメチル化+ATAC) にMOFAを適用した事例では、胚葉系統決定に関連する系統特異的エンハンサーが同定された。Stuart et al. Cell 2019のWNN (Weighted Nearest Neighbor) 解析は、複数モダリティのデータを統合してcell typeを定義する近傍グラフベースの手法として紹介された。

対角統合の原理と限界: 対角統合は3タイプの中で最も困難であり、細胞もゲノム特徴も異なるデータセット (例: 別個体・別細胞群のscRNA-seqとscATAC-seq) を統合する。一般的なアプローチとして、(a) 細胞タイプによる粗い集計を経て垂直統合に帰着させる方法 (単一細胞解像度が失われる)、(b) gene body accessibilityとRNA発現の1対1対応を仮定してLIGER、Stuart et al. Cell 2019で水平統合に帰着させる方法 (早期発生期などではATACとRNAの相関が低く破綻する)、(c) 潜在多様体を技術非依存的に再構築するMATCHER (Gaussian process潜在変数モデル；1次元軌跡の仮定が強い)、MMD-MA (Maximum Mean Discrepancy-based Manifold Alignment)、SCIM (Single-Cell Integration Method)、UnionCom等の手法が詳述された。対角統合の成功の前提は、両モダリティが部分的に相関した共通生物学的多様体を持つことであり、この前提の成立を保証する方法はまだ確立されていないことが強調された。

モザイク統合と転移学習: 同一の生物学的サンプルから異なるモダリティを異なる細胞集団に対して測定した「不完全マルチモーダルデータ」の統合が次世代の課題として位置づけられた (Fig. 3)。モザイクデータでは細胞アンカー、特徴アンカー、アンカーなしの三種が混在し、単純な水平/垂直/対角統合の組み合わせでは対応できない。最善解として、全3種の統合を同時に処理するmultitask learning (多タスク学習) モデルが提案されているが、実装と評価の方法論はまだ発展途上である。Human White Blood Cells、Mouse Gastrulation、Human Brainなどの具体的なモザイク統合ベンチマークデータセットが紹介された (Table 2)。大規模な単一細胞アトラス (Human Cell Atlasなど) が参照データとして利用可能になるにつれ、参照データから学習した表現を新規クエリデータの解析に転用するtransfer learningが注目された。コンピュータービジョンや自然言語処理での革命的成功 (ImageNet事前学習モデルのfine-tuningなど) にならい、単一細胞ゲノミクスでもdenoising、cell type分類、shared embeddingなどのタスクでtransfer learningが有効であることが示された。例えば、Wang et al. (2019) は転移学習を用いたデータdenoisingで、従来のメソッドと比較して約1.5xの性能向上を報告している。

時空間データ統合: 時系列データの統合では、MNN等の水平統合手法を「下から上へ」 (近い時点から順番に) 適用する戦略が有効であることがマウス胚発生データ (n=116,312細胞、E6.5-E8.5) で示された。異種間での発生軌跡の整合にはDynamic Time Warping (DTW) が適用でき、チンパンジーとヒトの大脳オルガノイド発生を比較した事例では、ヒト特異的遺伝子発現プログラムが同定された (Fig. 4)。空間トランスクリプトミクスデータとの統合では、dissociated参照アトラスから空間データへの細胞タイプラベルの転移 (horizontal integration as transfer learning；SpiceMixなど) と、空間情報を組み込んだ局所垂直統合 (SpatialDE、SVCA (Spatial Variance Component Analysis)) の2つのアプローチが提示された (Fig. 5)。

統計的課題: Box 1として特記された主要な統計的課題として、(1) モダリティ間の異なる統計分布 (RNA: 負の二項分布；DNAメチル化: 二値分布) の統一的モデル化の困難さ、(2) over-fittingのリスク (大p小n問題)、(3) missing data (scRNA-seqでは0とmissing valueの区別不可)、(4) 生物学的変動vs技術的ノイズの分離、(5) スケーラビリティ (百万細胞スケールへの対応)、(6) アッセイノイズ (低インプット量による高ノイズ)、(7) モデル出力の検証 (ground truthが存在しない) が整理された。特に、数百細胞に対して数百万のCpGサイトのメチル化ステータスを測定するscM&T-seqのような実験では、p (特徴数) がn (観測数) よりはるかに大きい「large p, small n」問題に直面する。

考察/結論

先行研究との違い: 本レビューは、単一細胞データ統合の概念的枠組み (水平、垂直、対角、モザイクの分類) を初めて明示的に提唱した点で独自性があり、乱立する手法を「アンカーの選択」という共通の原理で整理した教育的価値が高い。先行レビューが特定の手法や特定のデータ種に特化していたのに対し、本論文は統合タスク自体の性質と原理から論じた点が異なり、その後の単一細胞解析コミュニティの標準的概念枠組みとして広く採用されている。

新規性: 本研究で初めて、マルチモーダルデータ統合におけるアンカーの選択という統一的な概念を導入し、これにより多様な統合タスクを系統的に分類する新規な枠組みを提供した。また、モザイク統合や転移学習といった新たな課題領域への適用可能性を提示した点も新規である。

臨床応用: 本知見は、腫瘍微小環境の多モダリティ解析 (RNA＋ATAC＋Protein) による細胞種同定、遺伝子制御ネットワーク解明、免疫細胞と腫瘍細胞の相互作用解析に直結する。217患者、13がん種の腫瘍免疫アトラス構築事例が引用されており、細胞タイプ組成に基づく患者層別化の実現可能性が示された。これは、個別化医療における疾患の病因と進行の理解、病理学的表現型の予測、そして個別化された介入を可能にするツールを提供する上で、臨床的意義が大きい。

残された課題: 今後の検討課題として、マルチモーダル統合における各モダリティの重み付けの最適化、空間トランスクリプトミクスとの統合、時系列データ (縦断的サンプリング) の統合、対角統合の根本的な課題 (生物学的多様体の整合性仮定の検証)、モザイク統合のための多タスク学習モデルの成熟、および計算コストと精度のトレードオフの解消が挙げられる。また、Travaglini et al. Nature 2020が示したような大規模アトラス構築における、解剖学的差異を考慮したアンカーの設計も残された課題である。

方法

本研究は総説であり、実験的な方法論は該当しない。単一細胞ゲノミクスおよび計算生物学の広範な文献を系統的に整理し、既存のデータ統合手法の理論的原理、限界、診断について議論した。文献検索は PubMed、Web of Science、およびbioRxivを含む複数のデータベースを用いて実施された。レビュー対象となる論文の選定においては、単一細胞マルチモーダルデータ統合に焦点を当てた原著論文、総説、およびベンチマーク研究を優先的に含めた。特に、データセット間の共通参照点となる「アンカーの選択」に基づいて、データ統合タスクを水平統合、垂直統合、対角統合の3つの主要なタイプに分類する概念的枠組みを提示した。さらに、各統合タイプにおける主要な計算手法 (例: MNN (Mutual Nearest Neighbors)、Stuart et al. Cell 2019、Korsunsky et al. NatMethods 2019、MOFA (Multi-Omics Factor Analysis)、scVI (single-cell Variational Inference) など) を詳細に解説し、その原理、適用範囲、および関連する統計的・計算的課題を分析した。また、線形混合モデル (LMM: Linear Mixed Models) などの統計手法が、細胞タイプ特異的eQTL (expression Quantitative Trait Loci) マッピングにおける交絡因子の調整にどのように用いられるかについても詳述した。時間分解能および空間分解能データ統合、転移学習、モザイク統合といった将来的な応用についても考察した。

Research Wiki

エクスプローラー

Computational principles and challenges in single-cell data integration

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク