- 著者: Stuart T, Satija R
- Corresponding author: Rahul Satija (New York Genome Center; NYU)
- 雑誌: Nature Reviews Genetics
- 発行年: 2019
- Epub日: N/A
- Article種別: Review
- PMID: 30696980
背景
単一細胞RNAシーケンス (scRNA-seq) は、ゲノムワイドな遺伝子発現を単一細胞レベルで定量する技術として確立され、細胞タイプの同定、発生軌跡の追跡、細胞状態の多様性の解明を可能にした。この技術は、細胞多様性と発生に関する画期的な洞察をもたらしてきたが、その解析は主に転写産物情報に限定されていた。しかし、細胞の包括的な状態を理解するためには、タンパク質発現量、エピゲノム状態、ゲノム変異などの多面的な情報が必要である。これらの異なるオミクス情報を同一細胞から取得し、統合する技術の開発が喫緊の課題として認識されていた。例えば、初期のscRNA-seq研究であるJaitin et al. (2014) や Zheng et al. NatCommun 2017 は、主に転写産物情報に焦点を当てていた。
また、Droplet-based scRNA-seq (Drop-seq、10X Genomicsなど) の普及により、1回の実験で1,000〜10,000細胞以上の解析が可能になった一方、異なる実験バッチ、患者、技術プラットフォーム間で生成された大規模なデータセットを統合するという新たな計算上の課題が生じていた。既存のバルクデータ解析手法は、細胞タイプの組成変化と細胞タイプ内の分子プログラムの変化を区別できないため、単一細胞データには適用できないという問題があった。例えば、Navin et al. (2011) による腫瘍の単一細胞シーケンス研究は、ゲノム変異の解析に焦点を当てていたが、他のオミクス情報との統合は未解明な点が多かった。これらの課題に対し、複数のオミクス情報を同一細胞から取得するマルチモーダルプロファイリング技術と、異なるデータタイプや実験間でデータを統合するための計算アルゴリズムの確立が、単一細胞生物学分野における重要な研究ギャップとして残されていた。特に、空間情報や細胞系譜情報との統合は、細胞の機能的差異や発生系譜を理解する上で不足している情報であった。
目的
本レビューの目的は、scRNA-seqを起点とした単一細胞マルチモーダルプロファイリング手法(CITE-seq: Cellular Indexing of Transcriptomes and Epitopes by Sequencing、G&T-seqなど)と、異なるデータタイプや実験間でデータを統合する計算戦略を体系的にレビューすることである。これにより、統合単一細胞解析の現状と将来の方向性を論じ、細胞状態の包括的な理解、細胞間関係の解明、および大規模な細胞アトラス構築に向けた課題と展望を提示することを目的とする。具体的には、同一細胞から複数のモダリティを測定する4つの主要な実験戦略と、異なる実験やモダリティ間でデータを統合するための計算アルゴリズムに焦点を当てて解説する。
結果
マルチモーダル単一細胞プロファイリングの4戦略と代表手法: マルチモーダル測定の戦略は大きく4つに分類される。第1の戦略は破壊的アッセイ前の非破壊的計測であり、FACS Index sortingとscRNA-seqの組み合わせが典型例である。Paul et al. (Cell, 2015) とNestorowa et al. (Blood, 2016) は造血前駆細胞のFACS分取後にscRNA-seqを行い、転写学的に定義された細胞タイプの表面マーカー発現プロファイルを直接解明した。Wilson et al. (Cell Stem Cell, 2015) は造血幹細胞 (HSC) の稀少サブセットをFACSで分取し、scRNA-seqと機能解析を組み合わせて自己複製能と相関する細胞表面マーカーを同定した。この手法は細胞数が制限されるという弱点がある一方、特定集団への濃縮を可能にする強みがある。細胞あたりの測定パラメーター数には限界があり、蛍光レポーター間のスペクトル重複により制約を受ける。
第2戦略:細胞分画による並行マルチオミクス: Macaulay et al. (Nature Methods, 2015) が開発したG&T-seq (Genome and Transcriptome sequencing) は、ビオチン化oligo(dT)プライマーによるmRNAの選択的捕捉とゲノムDNAの並行増幅により、同一細胞からDNA配列と転写物を並行解読する。これにより、コピー数変化 (CNV) と遺伝子発現の関係を同一細胞で直接評価できるようになった。例えば、DNAコピー数変異や染色体再編成が個々の細胞間のmRNA発現量の変動の一部を説明しうることが示された。Angermueller et al. (Nature Methods, 2016) のscM&T-seq (single-cell Methylome and Transcriptome sequencing) は、G&T-seqにバイサルファイト処理ステップを追加し、DNAメチル化とRNA発現を同一細胞で同時測定する。この手法によりマウス胚性幹細胞のNaive-to-Primed多能性転換において、プロモーターメチル化と遺伝子発現の負の相関、遠位調節領域のメチル化の可変的効果が直接実証された。Cao et al. (Science, 2018) のsci-CAR (Single-cell Combinatorial Indexing Chromatin Accessibility and RNA) は、コンビナトリアルインデックス法により数千の細胞 (n=数千) でATAC-seqとRNA-seqを同時取得し、distal (遠位) クロマチンアクセシビリティ部位を考慮した遺伝子発現予測モデルがcisサイトのみのモデルと比べて4倍の精度向上を示した。
第3戦略:分子変換によるタンパク質-転写物同時測定 (CITE-seq/REAP-seq): Stoeckius et al. (Nature Methods, 2017) が開発したCITE-seq (Cellular Indexing of Transcriptomes and Epitopes by Sequencing) はDNAバーコード化抗体 (Antibody-Derived Tag; ADT) を用いてタンパク質発現とmRNA発現を同一細胞で同時定量する。ADTにpoly(A)テールを付加することでDroplet-based scRNA-seqプロセスにおいてmRNAと一緒に捕捉・逆転写・シークエンスできる。DNAバーコードを用いるため4^N (Nはバーコード長) 通りの抗体を1実験で多重化でき、FACSの蛍光重複問題を原理的に回避する。CITE-seqにより、scRNA-seqデータのみでは分離困難な免疫細胞サブセット (メモリーT細胞・制御性T細胞などCD4+T細胞の細分化) がタンパク質情報を加えることで明確に分類できることが示された。さらにmRNA-タンパク質相関の細胞タイプ特異的なパターンの解析から、転写後調節の直接評価が可能となった。Peterson et al. (Nature Biotechnology, 2017) による独立開発のREAP-seq (RNA Expression And Protein sequencing assay) も同時期に同コンセプトを実証し、再現性が確認された。これらの方法は、高細胞スループットのDroplet-based scRNA-seqと互換性があり、数百万細胞規模にスケールアップできる可能性を秘めている (Fig. 2c)。
第4戦略:scRNA-seqデータへの系譜・遺伝子型情報の埋め込み: CRISPR-Cas9とscRNA-seqを組み合わせたプール型遺伝スクリーニング (Perturb-seq、CROP-seq、CRISP-seqなど) では、各細胞に導入されたsgRNAバーコードがmRNAとともに捕捉される。これにより遺伝子ノックアウト情報と単一細胞トランスクリプトームを大規模に関連付け、遺伝子調節ネットワークの因果的解析が可能になる。Dixit et al. (Cell, 2016) はPerturb-seqで遺伝子制御ネットワーク解析を実施し、Adamson et al. (Cell, 2016) はUnfolded Protein Responseの分子回路を解明した。系譜追跡においては、CRISPR-Cas9によるLineage barcodeの逐次的編集とscRNA-seqの組み合わせにより、細胞の系譜関係と転写状態を同時に解析できる。Raj et al. (Nature Biotechnology, 2018) のscGESTALTはゼブラフィッシュ脳での系譜樹と細胞タイプ分類を同時達成し、Spanjaard et al. (Nature Biotechnology, 2018) のScarTraceは終生のゼブラフィッシュ全身クローン追跡を実現した。さらにscRNA-seqデータからのソマティック変異解析 (Tirosh et al. Science 2016がメラノーマ細胞で転写データからCNVを直接推定) や、La et al. Nature 2018によるRNA velocityの開発 (intronic RNA読み出し頻度から転写産物量の変化率を推定し、細胞の未来状態を予測) も重要な発展である。
データ統合の計算アルゴリズム:バッチ効果補正と細胞タイプマッチング: 異なる実験・プラットフォーム・個人間でのscRNA-seqデータ統合は単一細胞生物学の中心的計算課題である。著者らが開発したSeurat v2 (Butler et al. NatBiotechnol 2018) はCanonical Correlation Analysis (CCA) を用いて2つのデータセット間の共有変動源を抽出し、動的タイムワーピング (dynamic time warping) で非線形補正を行うことでバッチ効果と生物学的変異を区別する。ヒト膵島の4独立scRNA-seqデータセット統合では、CCAにより共通の細胞タイプが再現よく同定され、稀少・転写的微妙な細胞集団の検出力が単独データセット比で大幅に向上した。Haghverdi et al. (Nature Biotechnology, 2018) のmnnCorrectは相互近傍 (Mutual Nearest Neighbours; MNN) を用いて等価な細胞状態をデータセット間でマッチングし、バッチベクトルを計算して補正する。Welch et al. (2019) のLIGER (Integrative Non-negative Matrix Factorization) はscRNA-seqと単一細胞バイサルファイトシークエンシングなど異種データを統合可能で、マウス皮質細胞のDNAメチル化と転写プロファイルの統合が実証された。Korsunsky et al. (2018) のHarmonyは特殊なk-meansクラスタリングにより500,000細胞規模のデータを個人用PCで統合可能なスケーラビリティを達成した。セルタイプ転送 (Label transfer) においては、scmap-cell/scmap-clusterが参照データセットのアノテーションを新規データセットに投影し、Seurat v3の統合アルゴリズムはscATAC-seqデータをscRNA-seqのアノテーションで分類して単独では分離できない細胞サブセットを同定した (Fig. 4)。
空間データとの統合:scRNA-seqへの空間情報の付与: 組織における細胞の空間配置は機能的差異や発生系譜を反映するが、分散したscRNA-seq解析では空間情報が失われる。Satija et al. NatBiotechnol 2015とAchim et al. (Nature Biotechnology, 2015) はsmFISHデータとscRNA-seqを統合し、解離されたscRNA-seq細胞を空間座標へマッピングする計算法を開発した。smFISHで既知のランドマーク遺伝子の空間発現パターンを測定し、このモデルを用いてscRNA-seq細胞をマッピングすることで、smFISHで直接プロファイルしていない数千の遺伝子の空間発現パターンを予測できる。Karaiskos et al. (Science, 2017) はこのアプローチをDrosophila胚に適用し、種間発現進化の比較解析を実現した。より高解像度の空間トランスクリプトミクスとして、Codeluppi et al. (Nature Methods, 2018) のosmFISH (Cyclic smFISH) とWang et al. (Science, 2018) のSTARmap (Spatially Resolved Transcript Amplicon Readout Mapping) がそれぞれ発表された。osmFISHはマウス皮質に適用して細胞タイプの空間組織化を解明し、STARmapは3D解析を可能にして皮質細胞タイプの3次元空間分布を解析した。これらの空間手法により「細胞の分子同定」と「組織内位置」の同時解析が可能になり、組織アーキテクチャの理解が深まった (Fig. 6)。
マルチモーダルデータの解析フレームワーク: MOFA (Multi-Omics Factor Analysis, Argelaguet et al., Molecular Systems Biology, 2018) はゲノム・メチル化・RNA発現などの複数データモダリティにわたって分散を説明するFactor (潜在変数) を教師なし学習で同定する。慢性リンパ性白血病患者のゲノム・DNA メチル化・RNA発現の統合解析では、体細胞変異ステータスと相関する転写モジュールが同定された。Welch et al. (2017) のMATCHERは異種データモダリティを共通の1次元擬似時間軸に整列し、ヒトiPSC再プログラミングにおけるDNAメチル化変化と転写変化のタイムラグ (DNA メチル化変化は転写変化より遅れる) を定量的に示した。Lake et al. (Nature Biotechnology, 2018) は脳組織の単核RNA-seqとscTHS-seqを統合し、scRNA-seqの細胞タイプアノテーションをクロマチンアクセシビリティデータに転移させるGradient Boosting モデルを構築し、神経疾患の病原的細胞タイプに特異的なクロマチン変化を同定した。
考察/結論
統合単一細胞解析は、細胞の多層的な状態を一細胞レベルで解析する強力な枠組みとして急速に発展している。本レビューはその技術・方法論の全体像を整理した包括的文献であり、Seuratをはじめとする統合解析ツール開発の理論的基盤として広く参照された。
先行研究との違い: これまでの単一モダリティに焦点を当てた初期のscRNA-seq解析と異なり、本レビューはマルチモーダル解析、異種データ統合、空間データ統合への段階的発展を体系的に整理し、分野の成熟度を示している。特に、単なる手法レビューにとどまらず、多モダリティデータを統合することで単独モダリティでは識別できない細胞状態が明らかになるという根本的原理を、CITE-seqによる免疫細胞サブセット分類やMOFAによる慢性リンパ性白血病の分子層別化などの実例を通じて示した点が特徴的である。
新規性: 本研究で初めて、単一細胞マルチモーダルプロファイリングの4つの主要な実験戦略と、それらを統合するための計算戦略を包括的に分類し、それぞれの技術的詳細と応用可能性を提示した。これにより、細胞の分子同定と組織内位置の同時解析が可能となり、組織アーキテクチャの理解を深める新規なアプローチが提示された。
臨床応用: 本知見は、がん研究における腫瘍微小環境細胞 (T細胞・マクロファージ) と腫瘍細胞の同時マルチモーダル解析が免疫チェックポイント療法への応答予測に寄与しつつあるなど、臨床応用に直結する可能性を秘めている。また、Human Cell Atlasのような大規模な細胞アトラス構築への貢献も大きく、疾患の病態理解や新規治療標的の同定に繋がる臨床的意義を持つ。
残された課題: 今後の検討課題として、より高スループット・低コストなマルチモーダル手法の開発、空間的情報 (Spatial transcriptomics) との更なる統合、リアルタイム細胞追跡技術との組み合わせ、さらには大規模アトラスとの統合による細胞タイプ分類の標準化が残されている。また、細胞透過処理がRNA分解を引き起こすため、細胞内タンパク質とmRNAの同時検出は技術的に困難であり、この課題を克服するための新たな技術開発が求められる。最終的に、「細胞とは何か」という根本的問いへの答えは、異なるモダリティと条件下での単一細胞の多面的解析を通じてのみ得られるという著者らの展望は、その後のSpatial omics、ATAC-seq統合、タンパク質-RNA同時測定の爆発的発展によって着実に実現されつつある。
方法
本論文は、単一細胞マルチモーダルプロファイリング技術とデータ統合戦略に関する包括的なレビューである。レビュー対象の文献は、PubMed、Embase、Web of Scienceなどの主要な学術データベースを用いて検索された。検索期間は、単一細胞シーケンス技術が確立され始めた2009年から本レビュー発行年の2019年初頭までとした。特に、scRNA-seqと他のオミクス技術を組み合わせた研究、およびデータ統合アルゴリズムの開発に関する原著論文とレビュー論文が重点的に評価された。
まず、単一細胞マルチモーダル手法の包括的比較表 (Table 1) を提示し、以下の4つの実験統合戦略カテゴリーを詳細に論じている。
- 非破壊的細胞計測: 破壊的アッセイ(scRNA-seqなど)の前に、蛍光活性化セルソーティング (FACS) によるインデックスソーティングを用いて細胞周期や表面マーカーなどの非破壊的計測を行い、scRNA-seqデータと統合する戦略。
- 細胞分画: 細胞ライセートを物理的に分離し、ゲノムDNA、RNA、タンパク質などの異なる細胞画分に対して並行して実験ワークフロー(例: G&T-seq、scM&T-seq)を実施する戦略。
- 分子変換: タンパク質情報をDNAバーコードに変換するCITE-seqやREAP-seq (RNA Expression And Protein sequencing assay) のように、複数のデータタイプを共通の分子フォーマット(DNAシーケンス)に変換し、単一のワークフローで同時に検出する戦略。
- ヌクレオチドエンコード: DNAバーコードによる細胞系譜追跡(scGESTALT、ScarTrace)や、CRISPR-Cas9プール型スクリーニング(Perturb-seq、CROP-seq)におけるsgRNAバーコードの検出など、ヌクレオチド配列にエンコードされた異なるデータタイプをscRNA-seqデータから抽出・統合する戦略。
さらに、異なる実験間でのデータ統合を可能にする計算統合戦略についても詳述する。これには、著者らが開発したSeurat v2/v3におけるCanonical Correlation Analysis (CCA) を用いたバッチエフェクト補正と細胞タイプマッチング、Haghverdi et al. (2018) のmnnCorrectによる相互近傍 (Mutual Nearest Neighbours; MNN) を用いた補正、Welch et al. (2019) のLIGER (Integrative Non-negative Matrix Factorization) による異種データ統合、Korsunsky et al. (2018) のHarmonyによる大規模データ統合が含まれる。また、scmap-cell/scmap-clusterやSeurat v3の統合アルゴリズムを用いたセルタイプ転送(label transfer)についても解説する。これらの手法は、複数のデータセットを統合する際に、バッチ効果を除去し、生物学的に同等な細胞群を特定するために、例えばCCAではデータセット間の共有変動源を抽出し、MNNでは細胞間の距離を計算して補正を行う。
空間データとの統合に関しては、smFISH (single-molecule fluorescence in situ hybridization) データとscRNA-seqデータを統合し、解離されたscRNA-seq細胞を空間座標へマッピングする計算法(Satija et al. NatBiotechnol 2015、Achim et al. 2015)や、高解像度空間トランスクリプトミクス技術(osmFISH、STARmap: Spatially Resolved Transcript Amplicon Readout Mapping)についても論じる。
マルチモーダルデータの解析フレームワークとしては、MOFA (Multi-Omics Factor Analysis, Argelaguet et al. 2018) やMATCHER (Welch et al. 2017) など、複数モダリティにわたる潜在変数を同定したり、擬似時間軸に沿って異なるデータタイプを整列させたりする手法が紹介される。これらの手法は、単一細胞生物学における多角的なデータ解析の基盤を形成するものである。統計手法としては、CCAや非負行列因子分解 (NMF) などが頻繁に用いられている。