Massively parallel digital transcriptional profiling of single cells

著者: Grace X.Y. Zheng, Jessica M. Terry, Phillip Belgrader, Paul Ryvkin, Zachary W. Bent, Ryan Wilson, Solongo B. Ziraldo, Tobias D. Wheeler, Geoff P. McDermott, Junjie Zhu, Mark T. Gregory, Joe Shuga, Luz Montesclaros, Jason G. Underwood, Donald A. Masquelier, Stefanie Y. Nishimura, Michael Schnall-Levin, Paul W. Wyatt, Christopher M. Hindson, Rajiv Bharadwaj, Alexander Wong, Kevin D. Ness, Lan W. Beppu, H. Joachim Deeg, Christopher McFarland, Keith R. Loeb, William J. Valente, Nolan G. Ericson, Emily A. Stevens, Jerald P. Radich, Tarjei S. Mikkelsen, Benjamin J. Hindson, Jason H. Bielas
Corresponding author: Benjamin J. Hindson (10x Genomics, Pleasanton, CA); Jason H. Bielas (Fred Hutchinson Cancer Research Center, Seattle, WA)
雑誌: Nature Communications
発行年: 2017
Epub日: 2017-01-16
Article種別: Original Article
PMID: 28091601

背景

シングルセルRNAシーケンス (scRNA-seq: single-cell RNA sequencing) は、集団平均の解析では隠蔽されてしまう細胞間のトランスクリプトームの不均一性を明らかにする強力なツールとして、新規細胞型の同定や発生・分化における遺伝子制御ネットワークの解明に不可欠な基盤技術となっている。例えば、特定の組織における細胞多様性の解析や、腫瘍微小環境における細胞間相互作用の解明など、様々な生物学的システムへの応用が既報の先行研究において進められてきた。しかし、本研究発表当時、既存のscRNA-seq手法は数万細胞規模での解析への拡張に技術的な課題を抱えていた。例えば、Fluidigm C1のようなマイクロ流体デバイスに基づく手法は、一度に処理できる細胞数が約96細胞に制限されており、大規模な細胞集団の解析には不向きであった。また、SMART-seq2 (Single-Cell RNA-Seq Primer Activation and Sequencing 2) などのプレートベースの手法は、蛍光活性化セルソーティング (FACS: fluorescence-activated cell sorting) による細胞単離と、各プレートでの個別処理が必要であり、時間とコストの両面で律速段階となっていた。これらの手法は、限られた数の細胞から詳細な情報を得るには有用であったが、細胞集団全体の多様性を網羅的に捉えるには不十分であった。

一方、液滴ベースの技術であるDrop-seq (Macosko et al. Cell 2015) や inDrop (Klein et al. Cell 2015) は、数万細胞の処理を可能にしたものの、これらは研究室レベルでマイクロ流体デバイスや試薬を独自に構築する必要があり、その結果、再現性やスケーラビリティに課題が残されていた。特に、標準化されたプロトコルや解析パイプラインが不足しており、異なる研究室間でのデータ比較や大規模な共同研究を阻害する要因となっていた。さらに、希少な細胞集団の検出や、細胞間の微細なトランスクリプトームの違いを捉えるためには、より高感度で低ノイズのシステムが求められていた。これらの技術的ギャップが、scRNA-seqの広範な生物学的・臨床的応用を妨げる主要な課題として認識されていた。特に、骨髄移植後のキメリズム解析のような臨床応用においては、限られた細胞数から高感度かつ高精度に情報を取得する技術が未確立であり、その発展が強く望まれていた。本研究は、これらの課題を克服し、よりアクセスしやすく、高スループットで堅牢なscRNA-seqプラットフォームの確立を目指したものである。このように、大規模な単一細胞解析を容易にする標準化された商業的プラットフォームはこれまで存在せず、技術的な不足が研究の進展を阻んでいた。

目的

本研究の目的は、10x Genomics社が開発したGemCode技術を基盤とする液滴型scRNA-seqシステムを詳細に記述し、その技術的性能を包括的に検証することである。具体的には、細胞捕捉効率、感度、マルチプレット率、および細胞間クロストークといった主要な性能指標を、ヒトHEK293T細胞、マウス3T3細胞、Jurkat細胞といった細胞株および外部RNAコントロールコンソーシアム (ERCC: External RNA Controls Consortium) 合成メッセンジャーRNA (mRNA: messenger RNA) スパイクインを用いて評価する。さらに、本システムの応用可能性を実証するため、68,000個 of 新鮮な末梢血単核細胞 (PBMC: peripheral blood mononuclear cell) のトランスクリプトームをプロファイリングし、大規模な免疫細胞集団の網羅的な特性評価能力を示す。最終的に、骨髄移植後の急性骨髄性白血病 (AML: acute myeloid leukemia) 患者検体において、scRNA-seqデータから得られる一塩基バリアント (SNV: single nucleotide variant) 情報に基づき、宿主とドナーのキメリズムを単一細胞解像度で解析する計算手法を開発し、その臨床的有用性を提示する。これにより、移植後の細胞動態を細胞型特異的に追跡し、疾患の再発モニタリングへの応用可能性を探る。

結果

プラットフォームの基本性能と高い細胞捕捉効率: 本システムは、8チャンネルチップを用いて約6分間のランで1チャンネルあたり約100,000個のGEMを生成した。細胞捕捉効率は、負荷した細胞のうちシーケンスで検出された割合として約50%であり、細胞負荷量1,000～23,000個の範囲で安定した性能を示した (Table 2)。n=1,200 human cells (HEK293T) とn=1,200 mouse cells (3T3) の混合サンプルにおいて、1細胞あたり100,000リードのシーケンス深度で、中央値で約4,500遺伝子と約27,000 UMIカウントを検出し、既存の液滴型scRNA-seq法と同等の感度を達成した (Fig. 2b,c)。ERCC合成RNAスパイクインを用いた実験では、平均UMIカウントとERCC分子の期待値との間に高い相関 (r=0.96) が認められ、cDNA変換効率は6.7〜8.1%と推定された (Fig. 2d)。Jurkat細胞を用いたddPCRによる細胞内RNAのcDNA変換効率は2.5〜25.5%の範囲であった。技術的変動は全変動の約50%を占め、これは他の液滴ベースの報告と一致する。

極めて低いマルチプレット率と細胞間クロストーク: ヒトHEK293T細胞とマウス3T3細胞의混合実験において、マルチプレット率 (1つのGEMに複数の細胞が封入される割合) は、1,012細胞回収時に1.6%と低く抑えられた (Fig. 2a)。細胞負荷量を1,200個から9,500個まで変化させた細胞滴定実験では、マルチプレット率はPoisson分布に従い線形に上昇する傾向が示された。また、ヒト/マウスGEM間のUMIクロストークは両方向で約0.9%と極めて低く、細胞バーコード間の混入が最小限に抑えられていることが示された。これは、希少な細胞集団の解析や、限られた量のサンプルを扱う場合に特に重要である。

希少細胞集団の検出とSNVに基づく細胞分類: HEK293T細胞とJurkat細胞を異なる比率で混合した実験では、PCAにより両細胞集団が明確に分離された (Fig. 2e)。特に、HEK293T細胞が1%と希少な混合比率でも、期待される比率で両細胞集団が検出され、本システムが希少細胞集団を偏りなく検出する能力を持つことが実証された。さらに、scRNA-seqデータから検出されるSNV (平均約350 SNV/細胞) を用いて、細胞の遺伝子型に基づく分類が可能であることが示された (Fig. 2f)。HEK293TとJurkat細胞の50:50混合サンプルでは、SNV解析に基づくマルチプレット率は約3%と推定され、これはUMIカウントに基づく推定値と一致した。SNV解析は、マーカー遺伝子発現に基づく分類と99%の一致率を示し、細胞の起源を特定する独立した手段として有用であることが示唆された。

68,000個のPBMCの網羅的プロファイリングとサブタイプ同定: 健康なドナーから得られたn=68,000 fresh cells (PBMC) を解析した結果、1細胞あたり約525遺伝子、約1,300 UMIカウントが検出された (Fig. 3a)。t-SNEを用いた二次元プロジェクションとk-meansクラスタリングにより、10個の明確な細胞クラスターが同定された (Fig. 3b)。これらのクラスターは、既知のマーカー遺伝子 (例: CD3D, CD8A, CD4, NKG7, CD14, FCGR3A, CD19, FCER1A, PPBP) の発現パターンに基づいて、CD4 T細胞、CD8 T細胞、NK細胞、B細胞、CD14+単球、CD16+単球、樹状細胞、巨核球などの主要な免疫細胞サブセットに分類された (Fig. 3c-i)。PBMCのUMIカウントは、HEK293Tや3T3細胞と比較して約10% (約10.0-foldの差) と低く、これは細胞あたりのRNA含有量の違い (PBMCの約1 pgに対しHEK293Tや3T3は約15 pg) を反映していると考えられた。また、凍結保存されたPBMCを用いた検証では、新鮮細胞と平均遺伝子発現で高い相関 (r=0.96) を示し、2.0-fold以上の発現変動を示した遺伝子は57個に留まったことから、凍結保存が単一細胞のトランスクリプトームプロファイルに与える影響は限定的であることが示された。

骨髄移植患者におけるキメリズム解析と細胞組成変化: AML患者の骨髄移植前後のBMMC検体を用いて、scRNA-seqデータから得られるSNV情報に基づき、宿主とドナー由来の細胞を遺伝子型ベースで分離する計算手法を開発した。in silico混合実験では、3%程度のマイナーな遺伝子型集団を95%以上の感度と陽性予測値 (PPV) で検出できることが示された (Fig. 4a,b)。in vitro混合実験でも、50:50および90:10の混合比率でドナーと宿主の細胞を正確に分類できたが、99:1の混合比率ではマイナー集団の検出は困難であった (Table 1)。AML患者のBMMCサンプルでは、健常対照と比較して細胞あたりのUMIカウントが3.0-foldから5.0-fold高く、異常な転写活性が示唆された。AML027の移植後サンプルにおいて、SNV解析により13.8%と86.2%の2つの遺伝子型集団が検出された (Table 2)。主要な遺伝子型は宿主細胞と97%の類似性を示し、マイナーな遺伝子型は宿主細胞と52%の類似性を示した。これは、移植後サンプルが主に宿主細胞 (86.2%) で構成されていることを示唆し、臨床的なキメリズムアッセイの結果 (ドナー細胞12%) と一致した。

移植後の細胞組成変化と残存病変の検出: SNV解析とscRNA-seqを組み合わせることで、AML患者の移植前後のBMMCにおける細胞組成の変化を詳細に解析した (Fig. 5a)。健常対照群のBMMCではT細胞が優勢であったのに対し、AML患者の移植前サンプルでは赤芽球系細胞が最大の集団を占めていた。AML027の移植前サンプルでは、赤芽球系細胞が80%以上を占め、その多くが成熟赤芽球であった。これは、AML027が赤白血病と診断されていたことと一致する (Fig. 5b)。しかし、移植後のAML027サンプルでは、芽球および未熟な赤芽球 (CD34+, GATA1+) の割合が最も高く、これは疾患の再発と悪性宿主AMLの復帰を示唆する。また、AML027の移植後サンプルでは、未熟な顆粒球 (AZU1, IL8陽性) が約20%検出されたが、これはAML035の移植後サンプルでは見られなかった。これらの細胞は成熟細胞のマーカー発現を欠き、白血病クローンの一部である可能性のある残存前駆細胞の存在を示唆する。単球は両AML患者の移植前サンプルで豊富に存在したが、移植後には検出されなかった。これらの結果は、従来の臨床アッセイでは得られなかった、移植レシピエントの骨髄における細胞組成と残存病変の可能性に関する新たな知見を提供するものであった。

考察/結論

先行研究との違い: 本研究は、現在シングルセルゲノミクス領域でデファクトスタンダードとなっている10x Genomics Chromiumプラットフォームの最初の体系的な記述であり、液滴ベースのバーコード化を用いた高スループットscRNA-seqの実用基盤を確立した。従来のプレートベース法 (SMART-seq2など) や研究室で構築する液滴ベース法 (Drop-seqやinDrop) と異なり、本システムは商業化された再現性の高い消耗品と統合されたCell Ranger解析パイプラインを提供することで、ラボ間の技術的バリアンスを大幅に低減した。また、約50%という高い細胞捕捉効率と、1,200細胞回収時で1.6%という低いマルチプレット率を両立しており、これは既存の多くの手法と比較して優位性を持つ。これにより、限られた細胞数しか得られない臨床検体や、複雑な腫瘍微小環境の解析への展開が可能となった。

新規性: 本研究で初めて、数万細胞規模のPBMCを網羅的にプロファイリングし、主要な免疫細胞サブセットだけでなく、その中の微細なサブタイプまでを高解像度で識別できることを示した。さらに、骨髄移植患者のscRNA-seqデータからSNVを直接抽出し、事前にドナーと宿主の遺伝子型が不明な状況でも、単一細胞レベルでキメリズムを決定する新規計算手法を開発した。これは、移植後の細胞動態を細胞型特異的に追跡し、疾患の再発モニタリングに新たな道を開くものであり、これまで報告されていないアプローチである。

臨床応用: 本研究で示された骨髄移植後のキメリズム解析は、急性白血病の再発検出、キメラ抗原受容体T細胞 (CAR-T: chimeric antigen receptor T-cell) 療法後の単一細胞モニタリング、免疫療法応答性解析など、多岐にわたる臨床応用への可能性を秘めている。細胞型構成と遺伝子型情報を単一の試料から同時に取得できる能力は、疾患の病態理解と個別化医療の進展に臨床的有用性をもたらす。特に、従来のFACS解析では困難であった、初期の赤芽球系細胞の異常な増殖など、特定の細胞集団の動態を捉えることが可能となり、診断や治療戦略の最適化に貢献しうる。例えば、Tirosh et al. Science 2016 の研究が示したように、腫瘍の不均一性を単一細胞レベルで理解することは、個別化医療の実現に不可欠である。

残された課題: 今後の課題として、本システムが3’末端のmRNAシーケンスに限定されるため、スプライシングバリアントやアレル特異的発現の包括的な解析には不向きである点が挙げられる。また、遺伝子検出の確率的損失である「ドロップアウト」現象は依然として存在し、希少な遺伝子の検出感度向上にはさらなる改善が必要である。細胞固定・凍結検体への対応も一部示されたが、より広範な臨床検体への適用には、サンプル処理プロトコルの最適化が残された課題である。しかし、その後の10x Genomicsプラットフォームの進化により、これらの課題の多くは克服されつつあり、本技術がscRNA-seq分野の発展を牽引する基盤となったことは疑いようがない。

方法

プラットフォーム設計: 本scRNA-seqシステムは、8チャンネルのマイクロ流体チップ上でゲルビーズインエマルジョン (GEM: Gel bead in EMulsion) を生成する。各GEMは、約80%の確率で1個のゲルビーズを封入する。各ゲルビーズには、(i) シーケンスアダプターおよびプライマー、(ii) 約750,000種類の設計された配列から選ばれた14 bpのバーコード (GEM識別用)、(iii) 10 bpのユニーク分子識別子 (UMI: unique molecular identifier)、および (iv) ポリA鎖を持つRNAをプライミングするための30 bpのオリゴdTが結合したバーコード化オリゴヌクレオチドが付着している。

ワークフロー: 細胞懸濁液と試薬、ゲルビーズをマイクロ流体チップに導入し、油相と混合することでエマルジョンを形成する。GEM内で細胞が溶解し、ゲルビーズから放出されたバーコード化オリゴヌクレオチドがポリA RNAの逆転写 (RT: reverse transcription) に用いられる。逆転写により生成された相補的DNA (cDNA: complementary DNA) は、各GEMに固有のバーコードとUMIを持つ。エマルジョンを解離した後、バーコード化されたcDNAはプールされ、バルクポリメラーゼ連鎖反応 (PCR: polymerase chain reaction) により増幅される。その後、増幅されたcDNAは断片化され、Illuminaショートリードシーケンスに対応するライブラリーが構築される。

データ解析パイプライン (Cell Ranger): シーケンスデータはCell Rangerソフトウェアスイートを用いて処理された。まず、8 bpのサンプルインデックスリードに基づいてサンプルをデマルチプレックスし、リード1 (Read1: Read 1 sequence) (98 nt) とリード2 (Read2: Read 2 sequence) (10 bp UMI) のファストキュー (FASTQ: Fastq format) ファイルを生成する。Read1はSTARアライナー (Dobin et al. Bioinformatics 2013) を用いてヒト (hg19) またはマウス (mm10) ゲノム、あるいはその両方の統合ゲノムにアラインメントされる。バーコードとUMIはフィルタリングおよび補正され、PCR重複はバーコード、UMI、遺伝子IDに基づいて除去される。最終的に、高信頼度でマッピングされた非重複リードのみが遺伝子-バーコードマトリックスの生成に用いられる。

性能検証: システムの技術的性能を評価するため、約1,200個のヒトHEK293T細胞と約1,200個のマウス3T3細胞の混合サンプルを用いて、マルチプレット率と種間クロストークを評価した。また、ERCC合成RNAスパイクインを用いて、cDNA変換効率と技術的変動を測定した。Jurkat細胞を用いた滴下デジタルPCR (ddPCR: droplet digital PCR) により細胞内RNAのcDNA変換効率も評価した。

応用研究:

PBMCプロファイリング: 健康なドナーから得られた68,000個の新鮮なPBMCを解析し、グラフベースのクラスタリングと既知のマーカー遺伝子 (CD3D, CD8A, CD4, NKG7, CD14, FCGR3A, CD19, FCER1A, PPBPなど) に基づいて主要な免疫細胞サブセットを分離・同定した。さらに、精製された11種類のリンパ球サブセット (合計約94,000細胞) の遺伝子発現プロファイルを参照として利用し、混合 PBMC サンプル中の各サブセットを高精度に分類する能力を評価した。
移植後キメリズム解析: 同種造血幹細胞移植 (HSCT: allogeneic hematopoietic stem cell transplant) を受けたAML患者の移植前後の骨髄単核細胞 (BMMC: bone marrow mononuclear cell) 検体からscRNA-seqデータを取得した。このデータに含まれるSNVを活用し、宿主とドナー由来の細胞を遺伝子型に基づいて分離する計算手法を開発した。統計解析には、主成分分析 (PCA: principal component analysis) やt分布型確率的近傍埋め込み法 (t-SNE: t-distributed stochastic neighbor embedding) による次元削減、k-meansクラスタリングが用いられた。SNV解析ではFreebayes 1.0.2を用いてSNVをコールし、Gibbsサンプラーを用いた混合モデルで細胞の遺伝子型を推定した。また、Spearman相関係数を用いて精製サブセットとの相関を算出した。

Research Wiki

エクスプローラー

Massively parallel digital transcriptional profiling of single cells

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク