Scaling single-cell genomics from phenomenology to mechanism

著者: Tanay A, Regev A
Corresponding author: Tanay A (Weizmann Institute of Science); Regev A (Broad Institute / MIT)
雑誌: Nature
発行年: 2017
Epub日: 2017-02-08
Article種別: Review
PMID: 28102262

背景

多細胞生物は単一のゲノムから多様な機能的細胞プログラムを生成する。従来の細胞分類はFACSや顕微鏡に依存し、既定マーカー数の限界から包括的細胞状態の記述が困難であった。Linnaean分類 (型分類) は発生的連続性、分化の分岐、形態素グラジエントなど連続的なプロセスには本質的に不十分であった。例えば、網膜や造血系のような特定の組織では成功を収めてきたものの、組織全体や生物全体に拡張する際には、物理的に分離できない複雑な分子挙動の混合物や、連続的な変化を伴うプロセス（発生的連続体、分化の分岐、細胞型間の可塑的遷移、モルフォゲン勾配の拡散、病理学的で不規則な細胞プログラムの劣化など）において曖昧さが生じることが指摘されている。さらに、細胞型の正確な定義自体も未確立であり、様々な分野でこの重要な概念が異なって記述されている。

近年の単一細胞RNAシーケンス (scRNA-seq) の進歩により、数万〜数十万の単一細胞を同時にプロファイリングできるようになったが、得られた大量データを現象記述から因果メカニズム理解へと昇格させる理論・計算的フレームワークの構築が次の課題となっていた。従来のバルク解析では細胞集団の平均値しか得られず、細胞の不均一性を直接的に捉えることができなかった。また、細胞選別による解析も既知の細胞集団に限定され、サンプル内の多様性を完全に把握することは困難であった。これらの先行研究の限界により、細胞の多様性を包括的かつ定量的に記述し、その動態や因果メカニズムを解明するための知識ギャップが残されている。例えば、Shalek et al. (2013) は免疫細胞における発現とスプライシングの二峰性を明らかにし、Jaitin et al. (2014) は大規模並列scRNA-seqを用いて組織の細胞型をマーカーフリーで分解することに成功した。しかし、これらの研究は主に現象論的な記述に留まり、細胞の動的な変化や因果関係の解明には至っていない。本レビューは、単一細胞ゲノミクスが提供する豊富な現象論的データから、細胞の動的・因果的メカニズムを理解するためのパラダイムシフトの必要性を強調し、そのための概念的・方法論的フレームワークを提示することを目的としている。

目的

本レビューの目的は、単一細胞ゲノミクス技術の現状（スループット、複雑性、ノイズ）と計算的課題を整理し、細胞の多様性を観察的に分類する現象論的アプローチから、細胞分化や組織機能の動的・因果的メカニズムを解明するための計算・実験的フレームワークへの移行の必要性を強調することである。特に、時間軸、空間軸、および遺伝子制御メカニズムの推論における単一細胞データの活用と、今後の統合的アプローチの展望について詳細に論じ、細胞のアイデンティティと機能を制御する主要な軸である時間ダイナミクス、空間組織、および分子メカニズムを再構築するための新たな概念的・方法論的フレームワークを提唱する。本稿は、PubMed、Embase、Web of Science を用いて2016年までの関連文献を検索し、細胞の不均一性の記述からメカニズム解明への移行における課題と機会を包括的に評価することを目的とした。

結果

技術的現状：scRNA-seqのスケールアップとエピゲノミクスの課題: scRNA-seqは初期の数十細胞（2012〜2013年）から現在では数万〜数十万細胞/実験へと拡張された。主要な推進力はロボット化 (Jaitin et al. Science 2014)、マイクロフルイディクス・液滴技術 (Macosko et al. Cell 2015; Klein et al. Cell 2015)、および10x Genomicsプラットフォームである。技術革新としてUMI (Unique Molecular Identifiers) の導入、3’末端バイアスライブラリ調製、細胞核単離 (Lake et al. Science 2016)、固定細胞への適用 (Thomsen et al. Nature Methods 2016) が挙げられる。全mRNA分子の一部しかサンプリングできない (予測細胞あたり10^5〜10^6 mRNA分子のうち一部) という複雑性 (complexity) の問題は、UMI・スパイクイン対照・エラー補正手法で技術的ノイズを低減しても根本的に解消されない。サンプリング戦略の最適化として、目的が細胞型の分類・同定であれば読み取り深度を下げて細胞数を増やす方が効率的であり、遺伝子間の調節関係解析には深い読み取り深度が必要であることが論じられている。単一細胞エピゲノミクス (scATAC-seq、scメチル化、scHistone、scHi-C) はRNA-seqより複雑性の課題が大きく、1細胞あたりの分子捕捉率が1〜10%にとどまる。2つの戦略として単一細胞プーリング (複数細胞の低カバレッジデータを統合) と同一関連座位のシグナルプーリング (同一転写因子に結合する複数座位の情報集約) が採用されている。

単一細胞エピゲノミクスが提供する独自情報: DNAメチル化、ヒストン修飾、クロマチンアクセシビリティ、3D染色体構造はRNA発現から得られない独自情報を持つ。特にクロマチン組成変化はRNA発現変化に先行して分化の方向性を反映する場合があり (Lavin et al. Cell 2014)、細胞型の安定性・分化ポテンシャルのより信頼性の高い指標となる。DNAメチル化ランドスケープは瞬間的RNA発現レベルから推測できない細胞の発生ポテンシャルや調節エレメント活性を反映する。同一細胞でのRNA＋DNA (G&T-seq, Macaulay et al. Nature Methods 2015; Dey et al. Nature Biotechnol 2015)、RNA＋DNAメチル化 (Angermueller et al. Nature Methods 2016)、RNA＋タンパク質 (Frei et al. Nature Methods 2016; Darmanis et al. Cell Rep 2016) の同時計測プロトコルが登場し、異なる情報レイヤーの関係を直接解析できるようになった。これらのマルチオミクスデータは、細胞の複雑な調節ネットワークをより包括的に理解するための基盤を提供する。

時間軸の問題：細胞動態推定と軌跡解析の数学的基礎: 生物学的プロセスは非同期的・非決定論的であり、細胞集団を固定時点でサンプリングして動態を推定する必要がある (Figure 1)。最大倹約性の原理 (最小転写変化モデル) に基づく軌跡推定アルゴリズムが多数開発された。Wanderlust (Bendall et al. Cell 2014) は質量サイトメトリーデータからB細胞分化軌跡を構築し、早期段階の希少集団 (全細胞の0.007%) をその後の遺伝子座状態 (免疫グロブリン重鎖遺伝子座の再編成状態) で検証するという手法が示された。Monocle (Trapnell et al. Nature Biotechnol 2014) は最小全域木を構築して細胞を時系列順に配置し、筋形成 (in vitro) ・神経形成 (in vivo) ・細胞老化などに適用された。Wishbone (Setty et al. Nature Biotechnol 2016) やDiffusion Pseudotime (Haghverdi et al. Nature Methods 2016) は分岐 (bifurcation) する軌跡を再構成するアルゴリズムを実装した。循環プロセス (細胞周期) についても単一細胞データから細胞周期位相を再構成することが可能になり (Kowalczyk et al. Genome Res 2015)、ヒト・マウス細胞株・組織間で細胞周期遺伝子の発現パターンが頑健に保存されることが確認された。著者らが指摘する軌跡推定の根本的課題は「最大倹約性が常に正しいわけではない」点である：トランス分化・可塑性・不完全なリネージソーティングが生じる場合や遷移状態が稀で過渡的な場合は、モデルがデータにより決定不足となる。解決策として、幹細胞状態や終末分化状態など既知の「アンカー点」の追加、クローン情報 (lineage tracing) との組み合わせが提案されている。がん研究への適用としては、Tirosh et al. Science 2016・グリオブラストーマ (Patel et al. Science 2014) ・乳がん (Gao et al. Nature Genet 2016) ・白血病 (Li et al. Nature Med 2016) など腫瘍微小環境の解析での有望性が提示された。これらの研究では、n=数千から数十万の細胞が解析され、腫瘍内不均一性の解明に貢献している。

空間軸の問題：組織内細胞の位置情報の計算的復元: 現行のscRNA-seqは組織解離が必要で空間情報が失われる。計算的空間復元アプローチとして「転写産物プロファイルが細胞の空間位置の刻印を持つ」という仮定のもと、少数のランドマーク遺伝子のin situ発現参照マップと組み合わせてscRNA-seqデータを空間位置に逆マッピングする手法がいくつか報告された (Figure 2)。ゼブラフィッシュ初期胚では、Satija et al. NatBiotechnol 2015 が参照マップとして数十のマーカー遺伝子のin situ発現データを利用し、細胞を空間「ビン」 (100細胞程度の解像度) に割り当て、空間勾配に強く結合した遺伝子発現シグネチャーと空間非依存的な細胞型特異化プロセスを識別した。線虫脳 (Achim et al. Nature Biotechnol 2015) ・マウス初期中胚葉 (Scialdone et al. Nature 2016) ・成体マウス海馬CA1領域 (Habib et al. Science 2016) でも同様の空間復元が実証された。しかし「正準組織構造」 (胚形成・器官形成の再現可能な空間構造) を前提とした計算的復元は、腫瘍など高度に不規則な構造には適用困難であるという根本的限界が指摘された。この限界を克服する実験的アプローチとしてMERFISH (Chen et al. Science 2015) によるin situ多重RNA-FISH (1000種類以上の転写産物を空間的に同時計測) ・in situシーケンシング (Lee et al. Science 2014; Ke et al. Nature Methods 2013) ・imaging mass cytometry (IMC: Giesen et al. Nature Methods 2014) ・MIBI (Angelo et al. Nature Med 2014) が並行して発展中である。著者らは「均一な計算的空間解析戦略を実現するため、複数スケールの空間的動機 (spatial motif) を識別できる柔軟な計算アプローチと実験的手法の統合が必要」と提言した。

分子メカニズムへの接近：相関・時間分解・エピゲノム・摂動の統合: 単一細胞データから遺伝子調節メカニズムへ接近する第一のアプローチは大規模単一細胞間の共変動 (相関) 解析である (Figure 3)。脱顆粒スタチアスター (LPS刺激15樹状細胞: Shalek et al. Nature 2013) でのIRF7・STAT2の抗ウイルス遺伝子モジュールの調節因子同定、in vivo樹状細胞亜型 (Jaitin et al. Science 2014: 大規模並列scRNA-seq) でのIRF7の共通調節因子としての検出、Th17細胞の病原性・自己免疫原性スペクトルに関連する遺伝子モジュール (Gaublomme et al. Cell 2015) などが実例として挙げられた。時間分解アプローチとして、B細胞分化軌跡から早期・後期調節因子の時間的ラグを検出してIL-7/STAT5経路をin vivoで予測・検証 (Bendall et al. Cell 2014)、筋芽細胞分化・神経形成での転写調節ネットワーク推定が実施された。エピゲノムデータによる制約：母集団・参照エピゲノムデータを用いた転写因子結合サイト・エンハンサーと標的遺伝子の連結が調節相互作用の生物学的妥当性を検証するフィルターとして機能する。単一細胞エピゲノミクスはRNA発現より高解像度の調節ランドスケープを提供し、特定の調節エレメントでのエピゲノム活性と他のエレメント活性・標的遺伝子RNA産出量との相関が因果的推論の基盤となりうる。因果的推論の最も直接的な経路として実験的摂動 (perturbation) との統合が提案された：クラシックなノックアウト/ノックインモデルとscRNA-seqの組み合わせ (C/EBPαとC/EBPεの骨髄細胞分化での役割を単一細胞で精密に検証: Paul et al. Cell 2015)、さらに高スループット摂動 (CRISPR-based pooled screen + single-cell readout) の実現可能性が論じられた。単一細胞での複数遺伝子の組み合わせ摂動と転写読み取りを同時に実施することで、調節ネットワークの因果的解析が前例のないスケールで可能になるという展望が提示された。

細胞アトラス構築と「化学」への展望：組織モジュールの概念: ヒト・モデル生物の包括的細胞状態アトラス構築 (Human Cell Atlasなど) が進む中、著者らは「アトラスは出発点であり到達点ではない」という重要な主張を展開した。元素の周期表 (細胞状態の「物理学」) が存在しても、それだけでは組織内での細胞間相互作用の「化学」は理解できないという比喩が用いられた。組織内の細胞状態を完全に理解するには3D空間での細胞配置・近接関係・細胞間シグナリング (代謝物・分泌シグナル分子・細胞外マトリックス成分の計測) の統合が必要である。著者らは「tissue module」の概念を提案：組織の機能的単位として補完的機能を持つ細胞 (コア特化細胞＋補助的支持細胞) の集合体を定義し、こうしたモジュールの特定と実験的研究を単一細胞ゲノミクスが可能にするという将来像を提示した。この概念的フレームワークはその後のニッチ解析・細胞間コミュニケーション推定アルゴリズム (CellChat、NicheNet等) の理論的基盤となった。

考察/結論

本レビューはscRNA-seqブームの頂点において、単なる細胞分類カタログ作成 (現象論) から「細胞がどのように機能するか」の動的メカニズム理解への転換を要求した先見的論文である。

先行研究との違い: これまでの単一細胞研究が「どのような細胞があるか」の記述に集中していたのに対し、本レビューは「なぜ・どのようにして細胞がその状態になるか」という因果的問いの重要性を提示した点で対照的である。特に、非同期集団の時系列再構成、エピゲノムと転写の統合、摂動実験との組み合わせという3つの戦略的方向性を示した点で、従来の記述的なアプローチとは一線を画している。

新規性: 本研究で初めて、単一細胞ゲノミクスが細胞の現象論的記述から動的・因果的メカニズム解明へのパラダイムシフトを可能にすることを示唆し、そのための具体的な計算・実験的フレームワークを新規に提唱した。このパラダイムシフトの議論は、その後のPerturbation-seq、CRISPR-based lineage tracing、multiome解析など実験と計算の統合を促進した。特に、時間軸、空間軸、および分子メカニズムの3つの主要な軸に沿って、細胞のアイデンティティと機能を制御する新たなフレームワークを提示した点は、これまで報告されていない。

臨床応用: 本知見は、がん研究において特に重要な臨床的含意を持つ。がん組織の単一細胞解析は、腫瘍微小環境の多様性、治療抵抗性クローンの同定、免疫療法の応答性予測に応用されており、本レビューの示した計算・実験的フレームワークはこれらの臨床応用の理論的基盤となっている。例えば、Navin et al. Nature 2011 や Tirosh et al. Science 2016 の研究は、単一細胞ゲノミクスが腫瘍の進化や不均一性を追跡する上で非常に有用であることを示している。これらのアプローチにより、個別化医療の実現に向けた新たな診断・治療戦略の開発が期待される。

残された課題: 今後の検討課題として、空間的・時間的情報の完全統合、大規模データの因果的解析手法の確立、そして単一細胞解析の臨床サンプル (FFPEなど固定検体) への適用拡大が残されている。特に、組織内の細胞間相互作用の「化学」を理解するためには、3D空間での細胞配置、近接関係、細胞間シグナリング（代謝物、分泌シグナル分子、細胞外マトリックス成分の計測）の統合が必要であり、これは依然として大きなlimitationである。また、単一細胞データのノイズ低減と、希少細胞集団のロバストな検出方法のさらなる開発も今後の研究方向性として重要である。

方法

本論文はレビュー記事であるため、特定の方法論的アプローチは採用されていない。代わりに、単一細胞ゲノミクス分野における既存の技術的進歩、計算的手法、および概念的フレームワークを包括的に分析し、統合している。具体的には、scRNA-seqや単一細胞エピゲノミクス技術の発展、データ解析における課題、および時間的・空間的・分子メカニズム的側面からの細胞動態の推論に関する主要な研究成果をレビューしている。

レビューの過程では、PubMed、Embase、Web of Science を用いて2016年までの関連文献を検索した。検索キーワードには「single-cell genomics」、「scRNA-seq」、「cell heterogeneity」、「cell differentiation」、「lineage tracing」、「epigenomics」などを含めた。文献の選定にあたっては、単一細胞ゲノミクス技術の進歩、計算的手法の開発、および生物学的メカニズム解明への応用に関する原著論文および総説論文を優先的に含めた。特に、細胞の多様性の記述からメカニズム解明への移行における課題と機会を包括的に評価した論文に焦点を当てた。

検討された主要な側面は以下の通りである。

技術的進歩の評価: scRNA-seqのスループット向上（ロボット化、マイクロフルイディクス、液滴技術、UMI (Unique Molecular Identifiers) の導入など）と、単一細胞エピゲノミクス（scATAC-seq、scメチル化、scHistone、scHi-Cなど）の現状と課題を分析した。特に、各技術の複雑性、ノイズ、および分子捕捉率に関する限界を評価した。例えば、UMIの導入によりPCR重複や細胞間汚染が大幅に減少したことが強調された。
計算的手法の分析: 単一細胞データから細胞動態を推論するためのアルゴリズム（最大倹約性の原理に基づく軌跡推定、Wanderlust、Monocle、Wishbone、Diffusion Pseudotimeなど）を詳細に検討した。また、細胞周期の再構成や分岐軌跡の解析における進歩と課題を評価した。これらの手法は、細胞の擬似時間順序付けによって分化経路を推定するために用いられる。
空間的情報の復元: 組織解離によって失われる空間情報を計算的に復元するアプローチ（ランドマーク遺伝子参照マップとの統合）と、in situ多重RNA-FISH（MERFISH）、in situシーケンシング、イメージング質量サイトメトリー（IMC）などの実験的手法を比較検討した。これらの技術は、細胞の空間的な文脈を維持したまま遺伝子発現を解析する上で重要である。
分子メカニズムの推論: 単一細胞間の共変動解析、時間分解アプローチ、エピゲノムデータによる制約、および実験的摂動（CRISPRベースのスクリーニングなど）との統合による遺伝子制御メカニズムの解明アプローチを分析した。これらの手法は、遺伝子発現の相関関係から因果関係を推論するための基盤を提供する。
概念的フレームワークの提案: 細胞アトラス構築の限界を指摘し、「組織モジュール」の概念を提唱することで、細胞の「物理学」から組織の「化学」への理解を深めるための将来的な方向性を示した。

本レビューは、これらの分析を通じて、単一細胞ゲノミクスが細胞の現象論的記述から動的・因果的メカニズム解明へのパラダイムシフトを可能にするための、理論的・計算的・実験的フレームワークの統合の必要性を強調している。統計手法としては、各研究で用いられた相関分析、主成分分析 (PCA)、および機械学習アルゴリズムの適用例を評価した。

Research Wiki

エクスプローラー

Scaling single-cell genomics from phenomenology to mechanism

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク