• 著者: Aziz M. Al’Khafaji, Jonathan T. Smith, Kiran V. Garimella, Michael Babadi, Mehrtash Hashemifar, Moshe Sade-Feldman, Alexandre Lorant, Soraya Dah-Lee, Ignaty Leshchiner, James M. Keane, Mehdi Boominathan, Shout-Ting Wu, Christina A. Giannoukos, Russell Bellair, Stephanie Chang, Eliezer M. Van Allen, Gaddy Getz, Nir Hacohen, Stacey Gabriel, Shervin Tabrizi
  • Corresponding author: Aziz M. Al’Khafaji, Kiran V. Garimella, Mehrtash Babadi, Victoria Popic, Paul C. Blainey, Nir Hacohen (Broad Institute of MIT and Harvard)
  • 雑誌: Nature Biotechnology
  • 発行年: 2024
  • Epub日: N/A
  • Article種別: Original Article
  • PMID: 37291427

背景

選択的スプライシングは、ヒトゲノムにおける遺伝子多様性の主要な源泉であり、タンパク質の機能、局在、および相互作用を制御する重要なプロセスである。がんにおいては、異常なスプライシングが腫瘍の増殖、薬剤耐性、および免疫回避に関与することが広く知られている。例えば、Dvinge et al. (2016) は、RNAスプライシング因子ががん遺伝子および腫瘍抑制遺伝子として機能することを報告している。ヒトの転写産物の平均長は 1.6 ± 1.1 kb であり、Illuminaなどの短リードシーケンスプラットフォームは50〜600 bpの読長制限を持つため、連続するスプライス部位を単一のリードで捕捉することが困難である。この制限は、RNAアイソフォームの正確な同定において根本的な限界をもたらす。Kanitz et al. Genome Biol 2015 は、RNA-seqデータからの転写産物アイソフォーム存在量推定法の比較評価において、短リード法の限界を指摘した。Smart-seq3 (Single-cell RNA counting at allele and isoform resolution using smart-seq3) のような最近開発された短リードシーケンスアプローチは、5’ユニーク分子識別子 (UMI: unique molecular identifier) を用いた単一分子再構成によりアイソフォーム検出を強化しようと試みるが、Hagemann-Jensen et al. (2020) が報告したように、5’末端カバレッジのバイアスにより、ほとんどの転写産物が部分的にしか再構成されず、アイソフォームの同定精度が依然として不足している。

PacBioやNanoporeなどのロングリードプラットフォームは、全長mRNAアイソフォームを直接シーケンスできるため、アイソフォームの堅牢な同定と発見に必要な情報を提供する。しかし、これらのプラットフォームは、短リードプラットフォームと比較してスループットが低く、コストが高いという課題を抱えており、その応用範囲を制限している。特に、PacBio Sequel IIeの標準プロトコル (Iso-seq) では、1ランあたり200万〜300万リード (CCS: circularized consensus sequencing 補正済み) にとどまる。これは、cDNA分子が短すぎるために1分子あたり50〜60回の循環パスが生じ、Sequel IIeの最適稼働条件である15〜20 kbライブラリで約10回の循環パスを著しく下回る効率しか得られないためである。このため、全長アイソフォーム解析をゲノム規模や単一細胞規模で実施するためには、スループットを大幅に向上させる技術的突破口が未解明な状態であった。したがって、既存のロングリードシーケンス技術の低スループットという課題を克服し、全長アイソフォーム解析をより広範な研究に適用できるような新しい方法論の開発が強く求められていた。この知識ギャップを埋めることが、本研究の重要な動機付けである。

目的

本研究の目的は、cDNAのプログラム的連結 (programmed concatenation) 技術であるMAS-ISO-seq (Multiplexed Arrays Isoform Sequencing) を開発し、PacBio Sequel IIeシーケンサーにおけるロングリードシーケンスのスループットを大幅に向上させることである。具体的には、この技術を用いて1ランあたり約4,000万cDNAリードを達成し、既存のIso-seqプロトコルと比較して15倍以上のスループット向上を目指す。さらに、MAS-ISO-seqを腫瘍浸潤CD8+ T細胞のシングルセルRNAシーケンスに適用し、差次的スプライシング (DS: differential splicing) 遺伝子の検出能力を既存のショートリード法と比較して大幅に改善し、RNAアイソフォームの同定精度を向上させることを実証する。最終的に、この高スループットな全長アイソフォーム解析技術が、がん免疫応答の理解や疾患関連スプライシング異常の特定に新たな知見をもたらし、シングルセルレベルでの転写産物多様性の包括的な解析を可能にすることを示す。

結果

cDNA連結によるスループットの飛躍的向上: MAS-ISO-seqは、1 SMRT Cell 8Mあたり約4,000万 (37〜40 M) のcDNAリードを達成した。これは、標準CCS補正済みリード数と比較して16.34-fold increaseから22.90-fold increaseの増倍率に相当する (Fig 1b)。フィルタリング後の定量可能なCCS補正済みリードは約21〜28 M (11〜13倍増)、CCS未補正リードが追加で6〜8 M (2〜5倍増) であり、合計で14〜18倍のリード数増加が観察された。この大幅なスループット向上は、15-mer連結により1リードで15分子のcDNAを連続シークエンスし、ライブラリ長を約15倍に延長することで、PacBio Sequel IIeの最適稼働条件 (15〜20 kb、約10回循環) を満たした結果である。開発されたLongbowセグメンテーションツールの精度は、CCS補正済みリードで99.01%〜99.15%、未補正リードで54.27%〜60.72%と高く、高品質なリード分割が実現された。15種の固有dU含有バーコードアダプターを用いることで、連結産物を正確に分解し、単分子識別精度を担保した。また、10x Genomics 5’ scRNA-seqライブラリとの互換性も確保されており、既存のscRNA-seq実験インフラとの統合が容易であることが示された。

SIRVスパイクインによるアイソフォーム同定精度の検証: 合成SIRVスパイクイン (n=69 transcripts、7遺伝子) を用いた定量評価において、ERCC標準濃度の定量はMAS-ISO-seqとSmart-seq3で同等の高い相関 (R2 > 0.95) を示した (Fig 1c)。しかし、長いSIRVアイソフォーム (4〜12 kb) では、Smart-seq3で顕著な長さバイアス (長いほど定量不足) が観察された一方、MAS-ISO-seqはIso-seqと同様に長さバイアスが少なかった (Fig 1d)。アイソフォーム同定の精度を示す混同行列では、Smart-seq3が約43%の誤割り当て率を示したのに対し、MAS-ISO-seqは約0.4%の誤割り当て率を達成し、約100倍の精度改善を実現した (Fig 1e)。細胞バーコード割当精度は99.0%〜99.7%と極めて高く、1細胞単位の解析精度が担保された。この高い精度は、MAS-ISO-seqが全長転写産物を直接シーケンスし、in silicoでの再構築を必要としないことに起因する。

差次的スプライシング遺伝子の検出力向上: in silicoダウンサンプリング解析により、MAS-ISO-seqのスループット増倍が差次的スプライシング (DS) 遺伝子の発見数に与える影響を評価した。その結果、MAS-ISO-seqは標準Iso-seq深度 (n=2〜4 M HiFiリード相当) と比較して、DS遺伝子の発見数が12-fold increaseから32-fold increaseに増加することを示した (p<0.05、FDR < 0.05で補正) (Fig 2g)。細胞クラスタリングの調整ランド指数 (ARI: adjusted Rand index) は34%〜47%向上し、飽和が達成され、短リードクラスタリングとの高い一致を示した。DS遺伝子と差次的発現 (DE: differential expression) 遺伝子は相当数が非重複であり、スプライシング解析が遺伝子発現解析の補完情報を提供することが示唆された。競合手法であるHIT-scISOseqと比較して、MAS-ISO-seqは4-fold increase高いスループットを達成し、かつ決定論的なアレイ構造によるセグメンテーション精度も優れることが示された。短リードによるエクソン接合部情報と比較した場合、MAS-ISO-seqは転写産物全長にわたる複数スプライス部位を単一リードで捕捉できる点で本質的に優位であり、全長アイソフォーム構造の確定的同定を可能にした。

単一細胞CD45アイソフォーム解析: 転移性黒色腫患者2例 (n=2 patients) から採取した腫瘍浸潤CD8+ T細胞 (n=5,270 cells) を対象に、短リード (Illumina) と長リード (MAS-ISO-seq) のUMAP埋め込みが高い一致 (ARI=0.79) を示した (Fig 2a)。この統合解析は、Hao et al. Cell 2021 で示されたマルチモーダルシングルセルデータ解析の重要性を支持するものである。CD45 (PTPRC) アイソフォーム (RO、RA、RAB、RB、RBC) の発現をpseudotime軸に沿って追跡した結果、MAS-ISO-seqは抗体 (CITE-seq: Cellular Indexing of Transcriptomes and Epitopes by Sequencing) では識別困難な複数の密接なアイソフォームを区別できることが示された (例: CD45 RA抗体はRA/RABを識別不能であるが、mRNAレベルではMAS-ISO-seqが明確に区別した) (Fig 2c, d)。CD45スプライシング制御因子であるhnRNPLLの発現もpseudotime進行と一致して追跡され、スプライシング制御因子と転写産物変化の因果的連関が可視化された (Fig 2e, f)。これは、抗体パネルの限界を超えた転写産物レベルでの免疫細胞状態同定を初めて実証したデータであり、腫瘍免疫応答の理解に新たな分解能をもたらす。MAS-ISO-seqは、細胞あたりのユニーク遺伝子数およびUMI数において、短リード法と高い相関を示し (Fig 2b), 細胞クラスタリングと遺伝子発現プロファイルも高い一致度を示した (R2 = 0.91)。

考察/結論

先行研究との違い: MAS-ISO-seqは、ロングリードシーケンスの主要な制限であった低スループットを、プログラム的cDNA連結という独創的な技術的工夫によって克服した画期的な手法である。これまで報告された競合アプローチであるHIT-scISOseq (回文配列アダプターによる不確定数連結) と異なり、MAS-ISO-seqは4倍高いスループットを実現し、さらに決定論的なアレイ構造に基づく優れたセグメンテーション精度を持つ点で優位性を示す。本手法の核心は、短鎖cDNA分子を連結することでPacBio Sequel IIeの最適稼働条件である15〜20 kbのライブラリ長と約10回の循環パスを満たすという工学的発想にある。これにより、1 SMRT Cell 8Mあたり約4,000万のcDNAリードという、従来のIso-seqプロトコルと比較して15倍以上のスループット向上を達成した。

新規性: 本研究で初めて、高スループットかつ高精度の全長アイソフォーム解析をシングルセルレベルで実現し、がん研究に多大な新規性をもたらした。例えば、EGFR exon 7 skipping、CD44アイソフォーム、SF3B1変異誘発スプライシング変化などのスプライシング異常によるドライバーイベントの高感度検出が可能となる。また、本研究で初めて、腫瘍浸潤T細胞の単一細胞アイソフォーム解析の枠組みを確立し、抗体パネルの限界を超えた転写産物レベルでの免疫細胞状態同定を実証した。このアプローチは、これまで単一細胞レベルで詳細なアイソフォーム解析が困難であった領域に新たな扉を開くものである。

臨床応用: 本知見は、PD-L1やCTLA-4などの免疫チェックポイント分子のアイソフォーム解析、および薬剤耐性に関連するスプライシング変化のモニタリングに臨床応用が期待される。確立された腫瘍浸潤T細胞の単一細胞アイソフォーム解析の枠組みは、がん免疫応答の転写多様性を理解するための強力なツールとして臨床現場で活用され得る。これにより、個別化医療におけるバイオマーカーの発見や治療戦略の最適化に貢献する可能性を秘めている。

残された課題: MAS-ISO-seqは、PacBio Revioなどの次世代プラットフォームとも共進化可能なモジュラー設計であり、さらなるスループット向上が期待される。しかし、残された課題も存在する。具体的には、10 kbを超える長いmRNAの全長カバレッジのさらなる確保、長いアイソフォームアノテーションの充実、Nanoporeプラットフォームへの互換性拡張、および空間トランスクリプトミクスとの統合が今後の検討課題として挙げられる。方法論的には、UMIとバーコードの組み合わせによる単一分子追跡の高精度化、MAS-ISO-seqとプロテインレベル解析 (Ribo-seqなど) の統合、およびFFPE検体や少量生検などの臨床検体への適用可能性の拡大も今後の重要な研究方向性である。がん免疫療法の観点からは、CD45以外の免疫チェックポイント分子のアイソフォーム発現プロファイリングや、治療反応性・耐性獲得に伴うスプライシング変化の縦断的モニタリングへの活用が期待される。

方法

MAS-ISO-seqのプロトコル開発: MAS-ISO-seqのプロトコルは、以下の主要なステップで構成される。(1) 全長cDNAライブラリの精製: テンプレートスイッチングオリゴ (TSO: template switching oligo) プライミングアーチファクトをストレプトアビジン/ビオチン選択により除去した全長cDNAライブラリを精製した。(2) バーコードアダプターの付加: 精製されたcDNAライブラリを15並列PCR反応に分割し、各反応で15種類の固有のデオキシウラシル (dU: deoxy-uracil) 含有バーコードアダプター (ハミング距離11の15 bpオリゴ) を付加した。(3) cDNAの連結: dU消化と方向性ライゲーションにより、15分子のcDNAを酵素的に1分子の連結産物 (15-mer concatemer) に結合させた。(4) シークエンス: 連結されたcDNAライブラリをPacBio Sequel IIe SMRT Cell 8Mでシーケンスした。この連結により、ライブラリ長が約15倍に延長され、PacBio Sequel IIeの最適稼働条件である15〜20 kbの分子長と約10回の循環パスを満たすように設計された。本技術は、ヒト臨床検体のみならず、C57BL/6J などのマウスモデルから得られた細胞や、A549 などの一般的ながん細胞株におけるアイソフォーム解析にも広く適用可能である。

データ解析パイプライン: シークエンスデータのセグメンテーションとアノテーションのために、複合プロファイル隠れマルコフモデル (HMM: hidden Markov model) であるLongbowを開発した。Longbowは、CCS補正済みリードの99.01〜99.15%と未補正リードの54〜60%を正確に分割することが可能であった。また、10x Genomics 5’ scRNA-seqライブラリとの互換性を確保し、既存 of シングルセルRNAシーケンス (scRNA-seq) 実験インフラとの統合を容易にした。細胞バーコード (CBC: cell barcode) およびUMIの誤り訂正には、SymSpellアルゴリズムのPython実装と、二部グラフに基づく最小頂点被覆問題として定式化されたUMI訂正アルゴリズムを開発した。CBCの誤り訂正は、短リードデータから同定されたホワイトリストに対して、Levenshtein距離2 (CCS補正済みリード) または3 (CCS未補正リード) の閾値内でSymSpellアルゴリズムを用いて行われた。転写産物アイソフォームの定量には、StringTie2とGENCODE参照アノテーションを組み合わせたグラフベースのアルゴリズムを開発し、各リードをアイソフォーム等価クラス (TEC: transcript equivalence class) に割り当てた。このアルゴリズムは、既知の転写産物アノテーションの不完全性やcDNA切断アーチファクトの課題を克服するために設計された。シークエンスデータの処理およびアライメントには、Li et al. Bioinformatics 2009 にて提案されたSAMtoolsおよびBAMフォーマットの仕様に準拠した。

バリデーション設計: MAS-ISO-seqの性能を評価するため、以下の3つの主要なバリデーション実験を実施した。(1) 合成SIRV (spike-in RNA variant) スパイクインの測定: Lexogen社のSIRV-Set (spike-in RNA variant set) 4 (69アイソフォーム、7遺伝子、15個の長アイソフォームを含む) をSmart-seq3と並行して測定し、アイソフォーム同定精度を比較した。(2) 腫瘍浸潤CD8+ T細胞のシングルセル解析: 転移性黒色腫患者2例から採取した腫瘍浸潤CD8+ T細胞 (n=5270 cells) を対象に、CITE-seq抗体測定と並行してMAS-ISO-seqを実施し、5,270個 of CD8+ T細胞のアイソフォーム発現を解析した。患者はDana-Farber/Harvard Cancer Center Institutional Review Board (プロトコル11-181) の承認を得て、書面によるインフォームドコンセントを提供した。(3) in silicoダウンサンプリング解析: MAS-ISO-seqデータからin silicoでダウンサンプリングを行い、標準Iso-seq深度 (2〜4 M HiFiリード) との比較を通じて、差次的スプライシング遺伝子の検出力向上を評価した。統計解析には、R v4.1.1のfisher.testを用いたFisher’s exact testとBenjamini-Hochberg法による多重比較補正 (FDR < 0.05) を使用した。