- 著者: Michael L. Metzker
- Corresponding author: Michael L. Metzker (Human Genome Sequencing Center and Department of Molecular & Human Genetics, Baylor College of Medicine, Houston, Texas)
- 雑誌: Nature Reviews Genetics
- 発行年: 2010
- Epub日: 2009-12-08
- Article種別: Review
- PMID: 19997069
背景
自動化 Sanger シークエンシングは約 20 年間にわたってゲノム解析産業を支配し、2004 年には国際ヒトゲノム配列決定コンソーシアムが推定コスト $300 million・ゲノムカバー率 99%・誤り率 1/100,000 bp の唯一の finished-grade (仕上げ品質) ヒト参照ゲノムを完成させた (ref. 1)。しかし Metzker (Genome Res. 2005、ref. 2) が指摘したように Sanger 法は複数の根本的限界を抱えており、大規模なヒトゲノムを多数解読するためにはコスト・速度・スループットの全面的な技術革新が不可欠であった。Hutchison (Nucleic Acids Res. 2007、ref. 3) も bench-to-bedside の観点から DNA シークエンシング技術の飛躍的改良の必要性を論じた。2004 年以降、NGS (next-generation sequencing: 次世代シークエンシング) 技術が急速に発展し、Roche/454・Illumina/Solexa・Life Technologies APG (Applied BioSystems Platform) SOLiD (support oligonucleotide ligation detection)・Helicos BioSciences・Pacific Biosciences などの商業プラットフォームが市場に参入した。NGS の主な利点は「大量の配列データを低コストで生産できること」であり、場合によっては 1 回の実験で 10 億超のショートリードを産生する。Wold & Myers (Nature Methods 2008、ref. 4) が強調したように、NGS は塩基配列決定の域を超え、RNA-seq (転写産物のシークエンシング定量法)・ChIP-seq (クロマチン免疫沈降ゲノムワイドプロファイリング)・methyl-seq・DNase-seq (DNase I hypersensitivity site sequencing) などの seq-based methods (シークエンシングベースアッセイ) に急速に拡張されていた。Wang et al. (Nature Rev. Genet. 2009、ref. 5) も RNA-seq を転写産物解析の革命的ツールと位置づけ、その技術的基盤となる NGS の多様性を論じた。
しかし、これら複数のプラットフォームの技術原理・性能・コスト・適用分野を統一した技術的指標で横断比較したレビューは手薄であった。具体的に何が足りなかったかというと、テンプレート調製 (クローン増幅 vs シングルモレキュール)・シークエンシング化学 (可逆的ターミネーター・ライゲーション・パイロシークエンシング・リアルタイム配列決定) の異なる技術戦略を同一の比較軸に置いた体系的な解説、および個人ゲノム解読の実際のコスト・カバレッジデータに基づくプラットフォーム選択指針が欠如していた。この gap in knowledge は、NHGRI (National Human Genome Research Institute) が 2004 年以降 NGS 開発に $100 million 超を投資するなかで研究者の実際的な platform selection を困難にしていた。本レビューが体系化した比較指標はその後のゲノム研究の基盤となり、肺がんゲノムの体系的解析 (Pao et al. NatMed 2012)・汎がん種 RNA 変異の網羅解析 (PCAWG et al. Nature 2020)・次世代ヒト参照ゲノムの完成 (Church et al. Science 2022) へと続く科学的探求の礎となった。
目的
当時市場で利用可能な Roche/454・Illumina/Solexa GA II・Life/APG SOLiD 3・Polonator G.007・Helicos HeliScope・Pacific Biosciences の n=6 プラットフォームについて、テンプレート調製・シークエンシングおよびイメージング・ゲノムアラインメントとアセンブリの各工程を技術的に体系化し、性能・コスト・長所・短所・適用分野を比較した。あわせて個人ゲノム解読への NGS の応用事例と今後の $1,000 ゲノム目標へのロードマップを論じることを目的とした。
結果
テンプレート調製戦略の 2 大カテゴリ:クローン増幅 vs シングルモレキュール固定化の技術的比較:NGS のテンプレート調製は「クローン増幅テンプレート」と「シングルモレキュールテンプレート」の 2 カテゴリに分類される。クローン増幅の第 1 の方法は emPCR であり、油水エマルション中の微小液滴内に 1 ビーズあたり 1 DNA 分子の原則でテンプレートを封入し、数千コピーのクローン増幅を行う。産生された n=100-200 million のビーズは Polonator ではポリアクリルアミドゲル付きスライドに固定化され、Life/APG ではアミノコーティングガラス面に化学架橋され、Roche/454 では PTP (PicoTiterPlate) の個別ウェルに投入される。emPCR は細胞不要系で行われるため細菌クローニングに伴う任意のゲノム配列ロスを回避できる利点がある。クローン増幅の第 2 の方法は固相増幅 (solid-phase amplification) であり、フォワード/リバースプライマーを高密度に共有結合させたガラススライド上でブリッジ増幅 (bridge amplification) を行い、100-200 million の空間的に分離されたクラスターを産生する (Illumina/Solexa が採用)。一方、シングルモレキュールテンプレートは出発材料 <1 μg と少量で済み、PCR を行わないため PCR バイアス (AT・GC リッチ領域の過少代表) や人工変異の混入がなく、RNA-seq 等の定量的アプリケーションに有利である。ただしシングルモレキュール法は他の増幅法と比較してエラー率が高い課題がある。シングルモレキュール固定化には 3 アプローチがある:(1) プライマー固定化 (Helicos 法 1)、(2) テンプレート固定化 (Helicos 法 2)、(3) ポリメラーゼ固定化 (Pacific Biosciences の ZMW (zero-mode waveguide: ゼロモード導波路) 法)。ポリメラーゼ固定化アプローチは数万 bp 規模の大型 DNA 分子にも対応し、リアルタイム測定による長読み取りを可能にする潜在力を持つ。
シークエンシング化学の 4 方式分類:CRT・SBL・SNA・リアルタイム配列決定の原理と利点・限界:CRT (可逆的ターミネーター周期法) は修飾ヌクレオチドの 1 塩基取り込み・TIRF (total internal reflection fluorescence: 全内部反射蛍光) イメージング・ターミネーター基と蛍光色素の切断の 3 ステップを繰り返す。可逆的ターミネーターには 2 種類がある。3’-blocked 型 (3’-O-azidomethyl-dNTP: Illumina/Solexa が使用) は還元剤 TCEP (tris(2-carboxyethyl)phosphine) で 3’-OH を再生するが変異 DNA ポリメラーゼが必要であり、変異ライブラリスクリーニングが技術的課題であった。3’-unblocked 型 (LaserGen の Lightning Terminator・Helicos の Virtual Terminator) は野生型 DNA ポリメラーゼと高い親和性を持ち、単一結合の切断のみで終止機能と蛍光基の両方を除去できる利点がある。Helicos HeliScope は 1 色 (Cy5 dye) CRT と single-molecule template を組み合わせ、ホモポリマー反復での欠失エラー (~5% 頻度) を 2 パスシークエンシングで低減し、>25 base consensus reads での C. elegans ゲノム解読 (7 チャンネルのみで ~2.8 Gb/8 日、>99% ゲノムカバー率、consensus accuracy 99.999%) を達成した。SBL (ライゲーション法) は DNA リガーゼを用い、Life/APG SOLiD は 1,2-プローブ (two-base-encoded probe: 2 塩基符号化プローブ) による 4 色 SBL を実装する。各テンプレート塩基が独立に 2 回照合されることで SNV 同定に固有の adjacent valid colour change (隣接有効色変化) によるエラー訂正能力を持つという独自の利点がある。Polonator は非クリーバブルプローブ SBL を採用するオープンソースプラットフォームである。パイロシークエンシング (SNA 方式) は限量 dNTP の単一添加とピロリン酸放出に連動した生物発光カスケード (硫黄酸化酵素・ルシフェラーゼ反応) を CCD (charge-coupled device: 電荷結合素子) カメラで光学的に検出する。ホモポリマー 6 塩基まではシグナル強度が dNTP 数に比例するが、それを超えると挿入エラーが増加する。リアルタイム配列決定 (Pacific Biosciences) は ZMW (直径 100 nm のナノ構造、観察体積をゼプトリットル規模に縮小) に固定化した単一 phi29 DNA ポリメラーゼ分子が phospholinked (ターミナルリン酸標識) ヌクレオチドを取り込む際のミリ秒スケールの蛍光パルスを 4 色で検出する (Fig. 4)。
主要 NGS プラットフォームの定量的性能比較:スループット・読み取り長・コストの三軸評価:BCM-HGSC での実稼働統計と各社の個人通信に基づいた 6 プラットフォームの性能比較は以下の通りである。Roche/454 GS FLX (Flexible large-scale sequencing platform) Titanium:平均読み取り長 330 bp・run time 0.35 日・スループット 0.45 Gb/run・機器価格 540,000。当時最も広く使用されたプラットフォームで全ゲノム再シークエンシングや全エクソームキャプチャーによる変異発見に最適。AT・GC リッチ領域の増幅バイアスが問題で、SNV concordance >99.5% (標準ジェノタイピングアレイ比) を達成した一方、novel SNV での false-positive rate が 2.5% と報告された。Life/APG SOLiD 3:読み取り長 50 bp・fragment run 7 日/30 Gb・mate-pair run 14 日/50 Gb・機器価格 170,000。最も安価なオープンソースプラットフォームだが試薬の自前調製・品質管理が必要で読み取り長が最短。Helicos HeliScope:平均読み取り長 32 bp・8 日/37 Gb・機器価格 $999,000。最高価であるが PCR フリーの非バイアステンプレートにより RNA-seq の定量的代表性に優れ、直接 RNA シークエンシングも可能。Pacific Biosciences (2010 年市場投入目標):平均読み取り長 964 bp。150 bp 線形テンプレートでの 4 色シークエンシングでは 27 エラー (deletions・insertions・mismatches) が同定され、単一読み取り精度は約 83% (131/158 塩基) だった。ただし同一テンプレートを 15-fold 以上重複シークエンシングすると consensus accuracy >99% を実現でき、E. coli ゲノムを 38-fold base coverage でシークエンシングした際はゲノムカバー率 99.3%・consensus accuracy >99.999% を達成した。
個人ゲノム解読コストの劇的な急落軌跡と疾患ゲノム解析への展開:個人ゲノムプロジェクトの技術的進化は劇的であった。J. Craig Venter のゲノム (2007 年、自動化 Sanger 法、1 million、7.4-fold base coverage、95% ゲノムカバー) では 3.32 百万 SNV が同定されたが Venter ゲノムと比較して SV の報告数が著しく少なく、NGS の SV 検出限界が課題として浮上した。Yoruba 男性 NA18507 は Illumina/Solexa で n=3,410 百万リード (35 bp)・40.6-fold base coverage・99.9% ゲノムカバー・試薬コスト 60,000 で解読し 3.87 百万 SNV を同定した (台湾 1000 Genomes Project 連携)。Stephen R. Quake のゲノム (Helicos HeliScope、試薬コスト 1.6 million (2 症例) がかかったが疾患関連体細胞変異の同定に成功し、がんゲノム医学の礎を築いた。CMT (Charcot-Marie-Tooth disease: シャルコー・マリー・トゥース病) の家族例 (Gibbs et al.、Life/APG、29.6-fold coverage、試薬コスト 5,000 で提供するサービスを発表し、cPAL (combinatorial probe anchor ligation) 法によるアモータイズドコスト 48,000 で提供開始した。
ゲノムアラインメント・デノボアセンブリ・ターゲットキャプチャーの方法論的課題と改善:NGS リードの後処理は参照配列へのアラインメントまたはデノボアセンブリの 2 戦略に分かれる。アラインメントは細菌ゲノム・C. elegans・Arabidopsis thaliana などで広く用いられ MAQ・ELAND・SOAP・GSNAP 等のツールが使用される。ただし反復配列領域では mate-pair リードのペア情報があってもアラインメント精度が低下し、参照ゲノムのギャップや SV はアラインメント法で検出困難である。Frazer et al. は Roche/454・Illumina/Solexa・Life/APG 各プラットフォームがゲノム領域によって系統的かつ再現性のある被覆のばらつきを示し、Roche/454 + Illumina/Solexa のリード混合により微生物ゲノムのデノボアセンブリが改善できることを示した。ターゲットキャプチャーはコスト削減の重要戦略であり複数の方法が開発された。RainDance Technologies のマイクロドロプレット PCR は n=3,976 産物を同時増幅し 84% キャプチャー効率・90% 均一カバレッジを達成した (Fig. 5a)。Roche/NimbleGen マイクロアレイ固相ハイブリダイゼーションはエクソンキャプチャー効率 65-77% を報告し (Fig. 5b)、BCM-HGSC の最適化版では >90% キャプチャー効率・少なくとも 10x base coverage を達成した。MIP (molecular inversion probe) 改良版では >90% キャプチャー効率、対象の約 70% が 10 倍範囲内に収まることが示された (n=485 エクソン)。Biotinylated RNA キャプチャー配列 + streptavidin 磁気ビーズ法ではエクソン 60%・ゲノム領域 80% のキャプチャー効率が得られた (Fig. 5c)。1000 Genomes Project と The Exome Project はマイクロアレイベース・溶液ベースの両キャプチャー戦略を Roche/454・Illumina/Solexa・Life/APG プラットフォームと組み合わせて採用した。
NGS の多様な応用分野:がんゲノム・RNA-seq・ChIP-seq・メタゲノミクスへの展開:NGS の応用は塩基配列決定を大きく超えている。RNA-seq は遺伝子発現マイクロアレイに代わるトランスクリプトーム解析法として、既知遺伝子の定量・稀少転写産物の新規発見・選択的スプライシングの検出・配列変異の同定を可能にした。Helicos は PCR なしの直接 RNA シークエンシングを実現し、非増幅テンプレートの代表性が求められる定量的 RNA-seq に適している。ChIP-seq はゲノムワイドのクロマチン結合タンパク質・ヒストン修飾・ヌクレオソーム位置マッピングに用いられ、Stillman et al. Cell 2018 に代表されるエピゲノム研究の技術的基盤を提供している。DNase-seq・methyl-seq 等の seq-based methods もゲノムワイドのエピゲノム構造解析に利用される。メタゲノミクスでは Roche/454 の長読み取りが 16S rRNA 系統解析や遺伝子発見に有効であり Human Microbiome Project の基盤技術となっている。がんゲノムでは TCGA (The Cancer Genome Atlas: がんゲノムアトラス) プロジェクトや 1000 Genomes Project が Illumina/Solexa と Life/APG を用いて体細胞変異を網羅的に同定し、WES (whole exome sequencing: 全エクソームシークエンシング) ベースのネオエピトープ (neoepitope) 同定研究 (例:Jarchum et al. NatBiotechnol 2018) や癌ワクチン開発 (例:Rohatgi et al. NatRevClinOncol 2020) の技術的礎となった。将来的には単一細胞ゲノム解析・古代ゲノム・非コード RNA の機能解析への応用が展望された。
考察/結論
本論文はこれまでの研究における個別プラットフォーム紹介や応用分野単位の記述とは異なり、テンプレート調製からゲノムアラインメントまでの工程横断的技術比較という新規な分析軸を提供した点で先駆的なレビューである。先行する Metzker (Genome Res. 2005) や Hutchison (Nucleic Acids Res. 2007) が個別技術の紹介に重点を置いていたのに対し、本論文は BCM-HGSC の実稼働データ・10 以上の個人ゲノムプロジェクトの統計・n=6 プラットフォームの定量比較を一体として統合した点が本研究で初めて達成された技術的貢献である。Venter ゲノム (1 million)、Quake ゲノム (4,400 アモータイズド) への指数的コスト低下は既報のムーアの法則を大幅に上回る速度であり、DNA シークエンシング産業における技術革命の規模を実データで初めて包括的に示した。
各プラットフォームの固有の技術的特性は対照的であった:Illumina/Solexa は AT・GC リッチ領域の増幅バイアスと SNV false-positive (~2.5%) という課題を持つが最も広く普及し、SOLiD の 2-base encoding は SNV 同定精度の観点で独自の利点を持つが長いラン時間が欠点であった。Pacific Biosciences は単一読み取り精度が約 83% と低いが 15-fold 以上の重複シークエンシングで >99% consensus accuracy を実現でき、平均 964 bp の長読み取りにより他プラットフォームでは困難な反復領域・SV・ハプロタイプブロックの解析に潜在的優位性を持った。この対照的な特性から、複数プラットフォームの混合使用 (hybrid approach) が特定の課題 (デノボアセンブリの精度向上等) に有効であることが示された。
臨床応用の観点からは、AML 腫瘍ゲノムの体細胞変異同定・CMT の遺伝診断・TCGA プロジェクトなど、NGS は既に bench-to-bedside の橋渡しとして機能し始めており、個人ゲノム医療の臨床的意義が実証段階に入っていた。$48,000 以下での個人ゲノム解読の達成は疾患関連変異同定コストを臨床現場が実際に検討できる水準に近づけ、がんゲノム医学の加速に直接貢献した。
残された課題は多岐にわたる。1,000 のコストギャップを埋めることが最大の技術的課題であり、著者は 1,000 ゲノムが実現した)。SV の検出精度はいずれのプラットフォームでも不十分で、Venter ゲノムで報告された 90 万超の SV が後続 NGS 研究で過少に再現された点は future research の重要な課題として残された。単一細胞ゲノム解析の実現には長 DNA 分子の効率的単離と高精度 NGS の開発が必要とされた。データ生産コストの低下に対してバイオインフォマティクス・データストレージ・解析コストが追いつかない可能性も limitation として明示された。また、ナノポアシークエンシングは本論文の対象外とされたが、Branton et al. (Nature Biotech. 2008) が今後の展望を論じており次世代技術として位置づけられた。今後の検討課題として single-cell ゲノム解析・古代ゲノム・非コード RNA 機能解析への NGS 応用が予見されており、これらは後続の scRNA-seq・nanopore long-read sequencing などの技術として 2010 年代以降に現実となった。
方法
本論文は PubMed および関連データベースの文献を包括的に参照した技術レビューである。プラットフォーム性能データは BCM-HGSC (Baylor College of Medicine Human Genome Sequencing Center) での実機稼働統計を中心に収集し、D. Muzny・J. Edwards・J. W. Efcavitch・R. A. Gibbs・T. Harkins・E. Mardis・K. McKernan・S. Turner・D. Wheeler らとの個人通信 (personal communication) によって最新データを補完した。テンプレート調製は emPCR (emulsion PCR: エマルション PCR)・固相増幅 (solid-phase amplification)・シングルモレキュール固定化の 3 戦略を対象とした。シークエンシング化学は CRT (cyclic reversible termination: 可逆的ターミネーター周期法)・SBL (sequencing by ligation: ライゲーション法)・SNA (single-nucleotide addition: 一塩基付加法、具体的にはパイロシークエンシング)・リアルタイム配列決定の 4 方式に分類し統一比較した。プラットフォーム間比較の主要パラメータとして平均読み取り長 (bases)・run time (days)・スループット (Gb/run)・機器購入コスト (US$)・長所・短所・生物学的応用を Table 1 に整理した。個人ゲノムプロジェクトの統計は Table 2 にまとめ、Venter ゲノムから Complete Genomics の cPAL (combinatorial probe anchor ligation: 組み合わせプローブアンカーライゲーション) 法まで 10 以上のプロジェクトのリード数・読み取り長・塩基カバレッジ倍率・ゲノムカバー率・SNV (single nucleotide variant: 一塩基変異) 数・run 数・推定コストを比較した。ゲノムアラインメントに使用されたツール (MAQ・ELAND (Efficient Large-scale Alignment of Nucleotide Databases)・Corona-lite・SOAP・GSNAP (Genomic Short-read Nucleotide Alignment Program)・IndexDP) についても各プロジェクトに対応して記録した。ターゲットキャプチャー戦略 (マイクロドロプレット PCR・アレイ固相ハイブリダイゼーション・MIP (molecular inversion probe: 分子反転プローブ)・biotinylated RNA キャプチャー) の性能比較も行った。プラットフォーム間の性能指標比較は記述統計 (平均値・範囲) を用い、エラー率・スループット・シークエンシングコストを定量的に評価した。キャプチャー効率は各研究グループが報告する目標領域に対するリード割合 (on-target rate) および均一カバレッジ指標 (coverage uniformity) で比較した。