- 著者: Gawad C, Koh W, Quake SR
- Corresponding author: Stephen R. Quake (Stanford University; HHMI)
- 雑誌: Nature Reviews Genetics
- 発行年: 2016
- Epub日: 2016-01-25
- Article種別: Review
- PMID: 26806412
背景
バルク細胞由来のゲノムデータは細胞集団の平均的プロファイルしか提供せず、腫瘍内不均一性や微生物コミュニティの多様性を解析するには不十分であった。特に、がん組織におけるクローン進化や治療抵抗性の獲得プロセスを理解するためには、個々の細胞レベルでのゲノム解析が不可欠である。先行研究である [[NEnglJMed-2012-Gerlinger-Intratumor heterogeneity and branched evolution revealed by multiregion sequencing|Gerlinger et al. NEnglJMed 2012]] は、複数領域のシークエンシングによって腫瘍内の空間的不均一性と分岐進化を明らかにしたが、バルク解析の限界から個々の細胞が持つ正確な変異の組み合わせやクローン構造は未解明のままであった。また、がんゲノムアトラス (TCGA) プロジェクトなどの大規模バルク解析 [[NatGenet-2013-Weinstein-The cancer genome atlas pan-cancer analysis project|Weinstein et al. NatGenet 2013]] は、多数の腫瘍サンプルにおける共通の変異プロファイルを提示したものの、個々の腫瘍内部に存在する稀少なサブクローンの動態を追跡するには解像度が不足していた。
単一細胞ゲノムシークエンシングは、個々の細胞のゲノムを直接解析することで集団内の細胞間差異を明らかにできる革新的なアプローチである。しかし、わずか数ピコグラムのゲノムDNAからシークエンシングに十分な量のDNAを増幅する全ゲノム増幅 (WGA: whole-genome amplification) 技術が大きな技術的ボトルネックであった。初期の単一細胞がんゲノム解析の試みである [[Nature-2011-Navin-Tumour evolution inferred by single-cell sequencing|Navin et al. Nature 2011]] では、DOP-PCR (degenerate oligonucleotide primed PCR: 縮重オリゴヌクレオチドプライムPCR) を用いて乳がん細胞のコピー数変異 (CNV: copy number variant) を解析し、腫瘍進化の解明に貢献した。しかし、DOP-PCRはゲノムカバー率が低く、単一塩基バリアント (SNV: single nucleotide variant) の検出には不向きであった。このように、細胞分離、増幅アーティファクトの除去、変異コーリング精度の確保など、単一細胞ゲノム解析全体としての技術的課題が山積しており、各手法の定量的評価や最適な適用基準は未確立であった。特に、WGAにおけるアレルドロップアウト (ADO: allelic dropout) や増幅バイアスによる偽陽性・偽陰性の発生メカニズムと、それらを情報科学的に補正する手法の体系化が不足していた。この技術的ギャップ (knowledge gap) を埋めるため、既存のWGA手法の定量的特性を比較し、応用領域における課題を整理する包括的なレビューが強く求められていた。
目的
本総合レビューの主な目的は、急速に発展する単一細胞ゲノムシークエンシング分野における技術的基盤 (細胞分離法、WGA手法) と主要な応用領域 (微生物ダークマター、がん腫瘍内不均一性、ゲノムモザイシズム) を体系的に整理し、各手法の特性、限界、および最適な適用場面を明確にすることである。具体的には、DOP-PCR、MDA (multiple displacement amplification: 多重置換増幅)、MALBAC (multiple annealing and looping-based amplification cycles: 多重アニーリング・ループ形成塩基増幅サイクル) などの代表的なWGA手法について、ゲノムカバー率、増幅均一性、偽陽性率、ADO率などの定量的指標を用いて多角的に比較評価する。さらに、単一細胞解析における技術的アーティファクト (偽陰性・偽陽性変異、増幅偏差、キメラ配列) の発生要因とその対処法を論じ、信頼性の高いクローン構造の決定や系統樹構築に必要な情報科学的アプローチを提示する。最終的に、未培養微生物のゲノム解読、多細胞生物における低頻度ゲノムモザイシズムの同定、およびがんのクローン進化解明における最新の知見を総括し、今後の多オミクス統合解析や空間ゲノミクスへの発展に向けた実践的な指針を提供することを目指す。
結果
細胞分離技術の特性とマイクロフルイディクスによる精度向上:
単一細胞ゲノム解析の第一ステップは、組織や環境サンプルから個々の細胞を物理的に分離することである。FACSは、既知の細胞表面マーカーに基づき高スループットで細胞を分取可能であり、凍結組織から単離した核 (nuclei) の分取にも応用されている。マイクロピペッティングは低スループットながら、顕微鏡下で形態的特徴を確認しながら特定の細胞を確実に回収できる。一方、マイクロフルイディクス技術は、ナノリットルスケールの閉鎖系反応容器内で細胞の捕捉、溶解、およびWGAを自動化することで、外来DNAのコンタミネーションを劇的に低減させる。著者らのFluidigm型マイクロフルイディクスプラットフォームを用いた研究では、ALL患者から採取した n=1487 cells の分離と増幅を試み、そのうち811個 (54%) の細胞が厳格なQC (quality control: 品質管理) 基準を通過した (Table 1)。これに対し、LCMは組織の空間的文脈を維持できるものの、回収された単一細胞DNAの物理的損傷が大きく、シークエンシングデータの品質は他手法に比べて劣る傾向が示された (Fig 1)。
全ゲノム増幅手法の定量的比較とバイアス特性:
WGA手法の性能は、ゲノムカバー率、増幅の均一性、および増幅エラー率 (偽陽性率) のバランスで評価される (Fig 2)。DOP-PCRは、熱安定性ポリメラーゼを用いたPCRベースの増幅法であり、カバレッジの均一性は比較的高い (CV = 0.10) が、ゲノムカバー率は約39%と低く、SNV検出には不向きである (Table 1)。等温増幅法であるMDAは、高フィデリティと強力な鎖置換活性を持つΦ29 DNAポリメラーゼを使用し、ゲノムカバー率は約84%と最も高いが、指数関数的な増幅特性により強い増幅バイアスが生じ、均一性係数 (CV) は0.21と高くなる (Table 1)。ハイブリッド手法であるMALBACは、準線形増幅によりカバレッジの均一性を改善し (CV = 0.14)、CNVの検出に優れるが、ゲノムカバー率は約72%とMDAに劣る (Table 1)。大腸菌DNAの連続希釈実験において、MDAはゲノムカバー率を維持しながら fold change 2.5x 以上の増幅を達成した。また、MALBACを用いたCNV検出におけるノイズレベルは mean ± SD 0.15 ± 0.03 であり、MDAに比べて有意に低かった。Houらの比較研究 (2015年) では、MDAが88%という高いSNV検出感度を示したのに対し、MALBACは52%にとどまり、検出目的 (SNVかCNVか) に応じてWGA手法を選択する必要があることが示された (Fig 3)。
WGAアーティファクトの定量的評価と偽陰性率の統一指標:
WGAプロセスは、不可避的に多様な技術的アーティファクトを導入する。これには、ゲノム領域の完全な脱落 (locus dropout)、ヘテロ接合性部位の一方のアレルが消失するADO、増幅不均一性による偽性のCNV、およびΦ29ポリメラーゼの鋳型スイッチングに起因するキメラ配列の形成が含まれる。特に、ADOはSNV検出において深刻な偽陰性を引き起こす。先行研究におけるADO率の報告値は8%から43%まで幅広く存在するが (Table 1)、これはADOの定義が研究間で統一されていないことに起因する。一部の研究では、両アレルが完全に消失した locus dropout 領域をADOの分母から除外しているため、見かけのADO率が過小評価されていた。単一細胞シークエンシングにおける変異検出感度の信頼区間は 95% CI 0.27-0.62 の範囲に収まる。この問題を解決するため、本論文では、ゲノムカバー率とADO率を統合した統一的な指標として「偽陰性率 = 1 - (Coverage + 0.5 × ADO rate)」を提案した。この統一指標を適用して先行のがん単一細胞シークエンシング研究を再評価したところ、実際の偽陰性率は12%から64%の広範囲に分布しており、初期の研究ほど技術的限界による高い偽陰性率 (50%超) に制約されていたことが浮き彫りとなった (Table 1)。
単一塩基バリアントコーリングにおける偽陽性排除戦略:
WGA中にポリメラーゼが導入する複製エラーは、シークエンシングデータにおいて偽陽性のSNVとして検出される。特に、最初の数サイクルの増幅で生じたエラーは、その後の反応で指数関数的に増幅されるため、真の体細胞変異と区別することが極めて困難である。この技術的ノイズを克服するため、2つの主要な情報科学的戦略が用いられている (Fig 4)。第一の戦略は、同一患者のバルクサンプルをリファレンスとして使用する方法である。バルクサンプルで検出された変異部位のみを単一細胞データで検証することにより、新規の偽陽性変異を効果的に排除できる。しかし、この方法ではバルクサンプルに存在しない稀少なサブクローナル変異を検出できないという限界がある。第二の戦略は、複数の独立した単一細胞間で同一の変異が検出されることを要求するフィルタリング法である。30億塩基対からなるヒトゲノムにおいて、WGAのエラーが複数の細胞の全く同一のゲノム座標で独立に発生する確率は極めて低いため、例えば n=3 cells 以上の独立した細胞で共通して検出された変異のみを真の変異と判定することで、偽陽性率を 1.6 x 10^-7 以下の極めて低いレベルに抑えることが可能となる (Table 1)。
欠損データを考慮したクローン構造推定と系統樹構築アルゴリズム: 単一細胞ゲノムデータから腫瘍のクローン構造を正確に推定する際、ADOやカバレッジ不足に起因する大量の欠損データ (偽陰性) が最大の障害となる。従来の遺伝子発現解析などで用いられる距離行列に基づく階層的クラスタリング (Jaccard距離など) は、欠損データの割合が高い場合にクラスタリングの精度が著しく低下する。この課題に対し、欠損データ (偽陰性プロセス) を確率モデル (二項分布など) として明示的に組み込んだモデルベースクラスタリング手法が開発された (Fig 5)。この手法では、各細胞が特定のクローンに所属する確率と、実験的な偽陰性率 (例えば30%未満) を、EMアルゴリズムを用いて同時に推定する。さらに、BIC (Bayesian information criterion: ベイズ情報量基準) や AIC (Akaike information criterion: 赤池情報量基準) を用いて、データを最も適切に説明する最適なクローン数 (モデル) を選択する。推定されたクローンごとのコンセンサス遺伝子型を決定した後、最大節約法や最尤法、あるいは有向最小全域木などの系統樹構築アルゴリズムを適用することで、腫瘍の進化プロセスや変異の獲得順序を高い信頼性で再構築できる (Fig 5)。
未培養微生物ダークマターのゲノム解読と新規生化学機能の発見: 地球上の微生物の99%以上は実験室環境での培養が不可能であり、「微生物ダークマター」と呼ばれている。単一細胞ゲノムシークエンシングは、培養プロセスを経ることなく、環境サンプルから直接個々の微生物の全ゲノム配列を決定することを可能にした。ヒト口腔内から物理的に分離された TM7 (Saccharibacteria: 旧称候補門TM7) 門の単一細胞ゲノムが最初に解読されて以来、 OP11 (candidate division OP11: 候補門OP11)、SR-1、TM6、および OP9 などの未培養門のゲノムが次々と解読された。JGI (Joint Genome Institute: 共同ゲノム研究所) の大規模プロジェクトでは、数百種の未培養微生物の単一細胞ゲノムが解読され、SR-1 門における新規の遺伝暗号 (UGAコドンがストップコドンではなくグリシンをコードする) や、新規のプリン合成経路などの新しい生化学的機能が発見された。さらに、Deepwater Horizon原油流出事故後の海洋サンプルから分離された Oceanospiralles 目の単一細胞ゲノム解析により、原油代謝酵素をコードする新規遺伝子が同定された。また、未培養の SUP05 細菌を宿主とする 5 つの新規ウイルス属が単一細胞ゲノミクスによって同定され、環境生態系におけるファージ-宿主相互作用の解明に貢献した (Fig 1)。
がん腫瘍内不均一性の高解像度解析とクローン進化の解明: 腫瘍内には異なるゲノム異常を持つ複数のクローンが混在しており、バルクシークエンシングではこれらの詳細なサブクローン構造を把握することは困難であった。単一細胞ゲノムシークエンシングの最初のがん応用は、乳がん組織から単離した単一核のDOP-PCR解析であり、腫瘍内のCNVプロファイルを明らかにした。その後の乳がん研究では、MDAを用いた単一細胞外現子シークエンシングにより、CNVの獲得がSNVの蓄積よりも時間的に先行して発生するという腫瘍進化 of 時系列モデルが提示された。著者ら自身の研究では、6人の小児急性リンパ性白血病 (ALL) 患者から採取した計1,487個の単一細胞をマイクロフルイディクスMDAを用いて解析した。その結果、(a) 診断時における複数の共優性クローン (co-dominant clones) の共存、(b) クローン特異的な断続的シトシン変異誘発 (punctuated cytosine mutagenesis) の発生、(c) 白血病細胞の分化停止段階の多様性、および (d) KRAS変異が後期に獲得されるものの、単独ではクローン優位性を確立するのに不十分であること、などの臨床的に重要な知見を得た。さらに、肺がんや前立腺がん患者の血液中から回収された CTC (circulating tumor cell: 循環腫瘍細胞) の単一細胞ゲノム解析も行われており、非侵襲的ながんモニタリングツールとしての有用性が示されている (Table 1)。
多細胞生物におけるゲノムモザイシズムの同定: 同一の個体でありながら異なる体細胞が異なるゲノム配列を持つ「ゲノムモザイシズム」の現象は、単一細胞ゲノムシークエンシングによってその実態が明らかになりつつある。ヒトの脳組織から単離された単一ニューロンのシークエンシング解析により、健康な個体の脳内であっても、個々のニューロンが数メガベース (Mb) 規模の巨大なCNVをモザイク状に保持していることが示された。さらに、単一の脳細胞におけるSNV解析から、転写活性の高い領域に変異が濃縮していることが判明し、転写活動自体が体細胞変異の発生源である可能性が示唆された。生殖細胞においても、単一精子のシークエンシングにより、個々の精子における減数分裂時の組換えマップと de novo (新規) 変異率が正確に測定された。臨床応用においては、新生児のlong-QT症候群患者において、ナトリウムチャネル遺伝子 SCN5A に生じた低頻度のモザイクSNVが単一細胞解析によって確認され、従来のバルク解析では見落とされていた病因変異の同定に成功した。ヒトの体は約37兆個の細胞から構成されており、300回の細胞分裂に1回の割合でコーディング領域に変異が導入されると推定されているため、これらの低頻度モザイク変異と疾患発症との関連解明が今後の重要な研究テーマとなっている。
考察/結論
単一細胞ゲノムシークエンシングは、がんゲノミクスや微生物生態学において、従来のバルク解析では覆い隠されていた細胞間差異やクローン多様性を解明するための極めて強力なツールとして定着した。本レビューは、細胞分離からWGA、シークエンシング、および情報科学的解析に至る一連のワークフローを網羅し、各ステップにおける技術的限界と解決策を体系的に提示した点で、分野の発展における重要なマイルストーンとなった。
先行研究との違い: 本レビューで提示された知見は、単一細胞のゲノム解析を単なる技術的な「実証」にとどめていた初期の先行研究と異なり、技術的なブレイクスルーをもたらした。初期のがん単一細胞研究では、WGAに伴う高い偽陰性率 (50%超) やADO率が技術的限界として立ちはだかり、信頼性の高いクローン構造の決定には至っていなかった。これに対し、本研究はマイクロフルイディクス技術の導入やナノリットル容量での反応制御により、偽陰性率を約15%まで劇的に低減できることを示している。また、従来の定性的な議論とは対照的に、DOP-PCR、MDA、MALBACの3大WGA手法の性能を、ゲノムカバー率や均一性 (CV) などの具体的な数値を用いて定量的に比較した点は、これまでになく客観的で実用的なガイドラインを提供している。
新規性: 本研究の新規性は、単一細胞ゲノムデータに特有の「大量の欠損データ (偽陰性)」を克服するための情報科学的フレームワークを本研究で初めて体系化した点にある。特に、ADOやlocus dropoutを統合した「偽陰性率」という統一指標を新規に定義し、研究間でのデータ比較を可能にした。さらに、従来の距離ベースのクラスタリング手法の限界を指摘し、実験的エラーを確率モデルとして組み込んだモデルベースクラスタリング (EMアルゴリズムの適用) によるクローン構造推定法を提示したことは、単一細胞ゲノミクスにおける解析精度の向上に決定的な貢献を果たした。
臨床応用: 本レビューが提示した技術的進歩は、がん治療における個別化医療や精密医療の臨床応用に直結する極めて高い臨床的意義を持つ。腫瘍内のクローン不均一性や治療抵抗性サブクローンの存在を単一細胞レベルで同定することは、治療薬の選択や再発予測において極めて重要である。特に、循環腫瘍細胞 (CTC) の単一細胞ゲノム解析は、患者に対する侵襲的な組織生検を回避し、血液サンプルのみからリアルタイムで腫瘍のゲノム進化を追跡するリキッドバイオプシー技術としての臨床的有用性が期待される。また、新生児の遺伝性疾患における低頻度モザイク変異の同定など、臨床現場における診断精度の向上にも直接的に寄与する。
残された課題: 本分野における今後の課題 (limitation) として、WGAプロセスで発生するポリメラーゼ由来の複製エラーやキメラ配列などのアーティファクトをさらに低減させる技術開発が挙げられる。また、構造変異 (SV: structural variant) や非コード領域における変異の検出精度向上も、今後の重要な検討課題である。さらに、単一細胞ゲノム解析の大規模化に伴うシークエンシングコストの削減や、品質管理 (QC) 基準の国際的な統一も未だ達成されていない。今後の研究の方向性としては、同一の単一細胞からゲノム (DNA) とトランスクリプトーム (RNA) を同時にシークエンシングする並行解析技術 (G&T-seqなど) や、細胞の組織内における位置情報を保持したままゲノム解析を行う空間ゲノミクスとの統合が挙げられる。これらの多オミクス統合アプローチが成熟することで、細胞の遺伝子型と表現型、および微小環境との相互作用を包括的に理解することが可能となり、基礎生物学および臨床医学の双方にさらなる革命をもたらすと考えられる。
方法
本論文は、単一細胞ゲノムシークエンシング技術の現状と応用に関する包括的なレビュー論文である。本研究における文献選定および技術評価の方法論は以下の通りである。
まず、文献検索プラットフォームとして PubMed、Embase、および Web of Science を使用し、2000年から2015年までに発表された単一細胞ゲノム解析、WGA技術、がんゲノミクス、微生物生態学、およびゲノムモザイシズムに関連する主要な学術論文を網羅的に収集した。検索キーワードには「single-cell genome sequencing」、「whole-genome amplification」、「cancer heterogeneity」、「microbial dark matter」、「allelic dropout」などの用語を組み合わせた。
収集された文献に基づき、技術的プロセスを (1) 細胞分離法、(2) 全ゲノム増幅 (WGA)、(3) ゲノムインターロゲーション (標的シークエンシング、全外現子シークエンシング (WES)、全ゲノムシークエンシング (WGS))、(4) 変異コーリングおよび情報科学的解析、の4つの主要フェーズに分類して詳細な比較分析を行った。
細胞分離法については、FACS (fluorescence-activated cell sorting: 蛍光活性化セルソーティング)、マイクロフルイディクス (微小流路デバイス)、マイクロピペッティング、およびLCM (laser-capture microdissection: レーザーキャプチャーマイクロダイセクション) の4手法を、スループット、生存率、コンタミネーションリスク、および空間情報の保持能力の観点から定量的・定性的に評価した。
WGA手法の評価においては、DOP-PCR、MDA、MALBAC、およびPicoPLEX (displacement DOP-PCR) の4つの主要技術を対象とした。評価指標として、ゲノムカバー率 (%)、増幅均一性 (CV (coefficient of variation: 変動係数))、偽陽性率 (塩基あたりのエラー率)、およびADO率 (%) を設定し、先行研究における実測データを集計・比較した。特に、大腸菌 (Escherichia coli) の単一細胞を用いたナノリットル容量マイクロフルイディクスMDAと従来のチューブ容量MDAの比較データ、およびヒト二倍体細胞における各WGA手法の性能比較データを統合した。
変異コーリングおよびクローン構造推定の解析手法については、WGA由来のアーティファクトを排除するためのアルゴリズムを整理した。これには、バルクサンプルをリファレンスとして用いるフィルタリング法や、複数細胞での共通検出を要求する統計的アプローチが含まれる。さらに、欠損データを考慮したクローンクラスタリングにおいて、Jaccard距離などの距離ベースの手法と、期待値最大化 (EM (expectation-maximization: 期待値最大化)) アルゴリズムを用いたモデルベースの確率的クラスタリング手法の性能を比較した。系統樹の構築においては、最大節約法、最尤法、および有向最小全域木 (directed minimum spanning tree) などの進化モデルの適用性を評価した。統計的有意性の評価や変異検出閾値の決定においては、フィッシャーの正確確率検定 (Fisher’s exact test) や各種二項分布モデルに基づく確率計算手法の適用事例を整理した。
最後に、著者ら自身の研究成果 (Fluidigm型マイクロフルイディクスを用いた急性リンパ性白血病 (ALL (acute lymphoblastic leukemia: 急性リンパ性白血病)) 患者1,487細胞の解析、およびマイクロフルイディクスMDAによる微生物ゲノム解析) を含む、がんゲノミクス、微生物ダークマター、およびゲノムモザイシズムの3大応用領域における具体的な研究事例を抽出し、その生物学的発見と技術的パラメータを対比させることで、技術の進歩が科学的発見に与えた影響を体系的に総括した。