• 著者: Shendure J, Balasubramanian S, Church GM, Gilbert W, Rogers J, Schloss JA, Waterston RH
  • Corresponding author: J. Shendure (shendure@uw.edu)
  • 雑誌: Nature
  • 発行年: 2017
  • Epub日: 2017-10-04
  • Article種別: Review
  • PMID: 29019985

背景

DNAシーケンシングの前史はタンパク質・RNA配列決定に遡る。Fred Sangerは1950年代初頭にインスリンの2本のペプチド鎖を断片化・配列決定・オーバーラップ再構築する手法でアミノ酸配列を決定し、タンパク質が固有の一次配列を持つという命題を初めて証明した。RNA配列決定の先駆けは1965年のHolleyらによるアラニンtRNA (76ヌクレオチド) であり、5名・3年・140 kgの酵母から1 gの純粋材料を要するという規模の困難を示した (Holley et al. 1965)。DNA直接配列決定は1968年にWuらがバクテリオファージλ粘着末端12塩基を、Gilbert・Maxamが1973年にラクトースリプレッサー結合部位24塩基を決定したが、後者には2年間を要し、そのペースは実用上不可能であった (Wu & Kaiser 1968; Gilbert & Maxam 1973)。

こうした前史を経て、1977年のSanger・Coulson鎖終結法とMaxam・Gilbert化学切断法は「一午後に数百塩基」を解読できる革命的手法として登場した。しかしヒトゲノム規模 (31億塩基対) への展開には、自動化・スループット・コストの面で根本的な gap in knowledge が残存していた。自動蛍光検出・キャピラリー電気泳動・ゲノムアセンブリソフトウェアが手薄であり、繰り返し配列に富む領域への対応、ハプロタイプ分離、構造変異検出はいずれも不足していた。さらにヒトゲノムプロジェクト (Human Genome Project, HGP) 完成後も大規模シーケンシングの未来は不透明であり、個別研究室が自前でゲノム解析を行う手段が根本的に欠如していた。これらが複数のパラダイムシフトを経た40年間の技術革命の動因となった。

目的

本レビューは、DNAシーケンシング発明40周年を記念し、技術発明者・推進者ら7名が1977年以降の技術史を第一世代 (Sanger法)・第二世代 (next-generation sequencing, NGS)・第三世代 (リアルタイム単一分子シーケンシング) の枠組みで体系的に論じることを目的とする。技術史に加えて、デノボゲノムアセンブリ・個体リシーケンシング・臨床応用 (非侵襲的出生前診断、メンデル遺伝性疾患診断、がんゲノム)・分子カウンターとしての転用 (RNA-seq、ChIP-seq等) という応用領域の拡大軌跡を整理し、ゲノム多様性・人口規模リシーケンシング・発生生物学・ポータブルセンサー等の将来展望を提示することも目標とする。著者陣にはSanger法の化学的基盤に深く関与したWalter Gilbert、最初の統合NGS論文を2005年に発表したJay Shendure、HGPを主導したRobert WaterstonおよびGeorge Churchらが含まれており、一次証人としての独自視点が反映されている。

結果

第一世代Sanger法の誕生と初期ゲノム解析への展開: 1977年のSanger・Coulson鎖終結法は、4種のddNTP (chain-terminating dideoxynucleotide) による鎖終止を利用してポリアクリルアミドゲル電気泳動 (polyacrylamide gel electrophoresis) 上に単塩基分解能のラダーパターンを生成し、X線フィルムで配列を直接読み取る手法である。同年のMaxam・Gilbert化学切断法は、放射性末端標識断片への4種の塩基特異的化学切断反応を組み合わせた独立のアプローチで、両法は即座に実用化された (Fig. 1)。1979年にStadenがショットガンシーケンシング戦略を提唱し、1981年にMessingがM13一本鎖ファージベクターを開発したことで実現性が高まった。1982年にはバクテリオファージλゲノムがショットガン法でアセンブリされ、同年GenBankには50万塩基超が登録、1986年には約1,000万塩基に達した (Box 2)。1986-1987年にSmith・Hood・Applied Biosystemsが自動蛍光検出型Sanger装置を開発し、スループットは約1,000塩基/日に向上した。BLAST (Basic Local Alignment Search Tool) とGenBankの組み合わせが情報共有エコシステムを確立し、各配列の研究的価値を飛躍的に増幅させた。このデータ共有精神はゲノム科学の文化的規範として根付き、以後の急速な発展を支えた。

HGPを達成した第一世代技術の大規模自動化: HGPは bacterial artificial chromosome (BAC) ライブラリを基盤とする「階層的ショットガン」戦略を採用し、大断片のBAC単位クローニング→個別サブクローニング→シーケンスという多段階プロセスで実施された。1990年代に相次いで導入された技術的改善は: (1) dye-labeled terminatorへの切り替え (4反応から1反応への削減)、(2) 改変T7 DNAポリメラーゼ (Sequenase) の開発、(3) 線形増幅反応 (鋳型要求量の大幅削減)、(4) 磁気ビーズ精製 (前処理の自動化)、(5) キャピラリー電気泳動の導入 (ゲル注液・添加作業の廃止) を含む。計算側ではphred (塩基品質スコアの定量化)・phrap・consedが人手編集をコンピュータ主導アセンブリへ転換した。結果としてHaemophilus influenzae (約2 Mb、1995年)・Saccharomyces cerevisiae (約12 Mb、1996年)・Caenorhabditis elegans (約100 Mb、1998年)・Drosophila melanogaster (約175 Mb、2000年) と段階的に大型ゲノムが達成され、ヒトゲノムドラフトを2001年に二チームが公表した (Lander et al. Nature 2001; Venter et al. Science 2001)。完成版は2004年に刊行され (International human genome sequencing consortium et al. Nature 2004)、コストはリード1件あたり約1米ドル・600-700 bp/リードであった。しかしこれ以上の改善は限界的となり、HGP完成後の大規模シーケンシングの方向性は不明瞭であった (Fig. 1)。

第二世代NGSの台頭と2007-2012年の10,000-foldコスト低下: NGSの本質は「大規模並列化 (massively parallel)」であり、数百万から数十億のDNA鋳型を二次元表面に高密度固定して単一試薬体積で同時シーケンスするという根本的なパラダイムシフトにある。クローン増幅法としてブリッジ増幅 (Solexa/Illumina)・エマルジョンPCR (454・SOLiD)・ローリングサークル増幅ナノボール (Complete Genomics) が、シーケンシング化学としてパイロシーケンシング (pyrosequencing、454)・ライゲーション法 (SOLiD・Complete Genomics)・可逆的蛍光ターミネーターを用いたsequencing by synthesis (SBS、Solexa/Illumina) が競合した (Box 1)。2005年に最初の統合NGSプラットフォームが登場し (ShendureらによるE. coliリシーケンシング、MarguliesらによるM. genitaliumデノボアセンブリ)、2008年にはSolexa/Illuminaプラットフォームで35 bpペアエンドリードによるヒト全ゲノムリシーケンシング (whole genome sequencing, WGS) が実証された (Bentley et al. Nature 2008)。2007年から2012年の5年間でDNAシーケンシングのコストは10,000-fold (4桁) 低下し、Illumina NovaSeq 1台が2日間で約23 GbのHGPドラフト出力を40-fold超上回る1テラベースを数千ドルで生成できるようになった (Fig. 1)。454・SOLiD・Helicosプラットフォームは開発を停止し、Illuminaが事実上の市場独占へ収束した。この「ゲノム研究の民主化」—大型ゲノムセンターから個別研究室への能力解放—が新手法・新発見の速度を指数的に加速させた。

第三世代リアルタイム単一分子シーケンシングの原理と特徴: NGSの根本的問題はin vitro増幅に起因するPCRバイアス・配列依存的偏り・メチル化等のDNA修飾情報の消失であり、これを解消する第三世代技術が台頭した。PacBioのSMRT (single molecule real-time) シーケンシングはZMW (zero-mode waveguide、光の波長半分以下の孔) 内に単一DNAポリメラーゼと鋳型を封じ込め、蛍光標識dNTPの取り込みをリアルタイム光学観察する。高プロセッシブな改変ポリメラーゼにより典型的リード長は10 kb超、一部は約100 kbに達し、エラー率は約10%であるが無作為分布のため高カバレッジでの高精度デノボアセンブリが可能である (Box 1)。極端なGCコンテンツへの耐性を持ち、増幅バイアスのない高品質アセンブリが細菌から哺乳類まで実現された。Oxford Nanopore Technologies (ONT) のナノポアシーケンシングは一本鎖DNAがタンパク質ナノポアを通過する際のイオン電流変動パターンから塩基を同定する。1980年代の概念提唱から酵素ラチェット・改良ナノポアタンパク質・信号解析改善を経て2012年に実用化され、2017年時点で最長リードは900 kbに達した。電子信号検出による極度のポータビリティが最大の差別化点であり、70 gのMinIONデバイスで現場シーケンシングが可能である (Box 1)。PacBioとONTはともにDNAメチル化等の修飾を直接検出でき、RNAの直接シーケンシングへの応用も進んでいる。

シーケンサーの分子カウンター化と臨床応用の拡大: DNAシーケンサーが分子現象の「デジタル計数装置 (molecule counter)」として転用されたことはゲノムアセンブリ・リシーケンシングを凌ぐ広範な影響をもたらした。1995年のSAGE (serial analysis of gene expression) がcDNA由来タグの連続Sangerシーケンシングによる「デジタル定量」概念を先行させ、2008年に5グループが独立にRNA-seqを報告した。RNA-seqはマイクロアレイに対してデジタルカウント統計・ダイナミックレンジ・isoform識別で根本的優位性を示し、TopHat・Cufflinksらのソフトウェアで急速に普及した (Fig. 2)。同時期にChIP-seq (2007年)・chromatin accessibility解析 (2008年)・リボソームプロファイリング (2009年)・Hi-C (genome-wide chromosome conformation capture) が相次いで開発され、以降10年で数百のプロトコルがenseqlopediaに集積された。臨床応用では3領域が特に重要である: (1) 非侵襲的出生前診断 (NIPT): 2008年にLoとQuakeが母体血中胎児cell-free DNA (cfDNA) 断片のカウントにより染色体異数性を検出できることを示し、史上最速で普及した分子診断法となって現在世界で数百万人の妊婦が低カバレッジWGSによるNIPTを受診している。(2) メンデル遺伝性疾患診断: whole exome sequencing (WES、ゲノムの1-2%をカバー) による診断率は約25%を達成し、神経発達障害の相当割合がde novo点変異に起因することを明らかにした。Exome Sequencing Projectは2013年にn=6,515エクソームを公表し (Fu et al. 2013)、gnomAD (Genome Aggregation Database) にはn=120,000エクソームおよびn=15,000ゲノムが収載されて稀少バリアントの集団規模カタログを提供している (Box 2)。(3) がんゲノム医療: 大規模リシーケンシングによるがんの分子タクソノミー定義・cfDNA/循環腫瘍細胞 (circulating tumor cell) 液体生検・腫瘍特異的変異をネオアンチゲン (neoantigen) とする個人化ワクチン開発が進んでいる。著者らは「シーケンサーは分子生物学者にとって顕微鏡と同等の基本必須ツール」になりつつあると述べ、この転用が長期的に最大インパクトをもたらすと予言する (Fig. 2)。

考察/結論

先行研究との位置づけ: これまでの研究ではDNAシーケンシングの進歩は主に「コスト低下・スループット向上」の線形的指標で評価され、技術間の「置き換え競合」として論じられることが多かった。本論文が対照的なのは、Sanger法・Solexa・NGS・HGPの各技術・プロジェクトの発明者・推進者ら7名が共著者として内側から歴史を記述した点であり、外部観察者による既報レビューとは相違する一次証人的視点を持つ。また既報がSanger→NGSの単線的置き換えを強調する傾向があるのに対し、本論文はIllumina (コスト効率ショートリード)・PacBio (精度重視デノボアセンブリ)・ONT (ポータビリティ優先現場シーケンシング) が異なるニッチを分担する多技術並立補完エコシステムを明示した点が独自である。

本論文の新規性: 本論文において新規に明示的に論じた洞察は2点ある。第一に、2007-2012年の10,000-fold というコスト低下速度が「ゲノム研究の民主化」—大型ゲノムセンターから個別研究室への能力解放—を引き起こし、新手法・新発見の速度を指数的に加速させたという現象を体系的に示した。この10,000-fold という数値は Moore’s law をはるかに超えており、これまで報告されていないスケールでの技術的破壊的変化として位置づけられる。第二に、本研究で初めて明示的に提唱されたのは、シーケンサーの「分子カウンター」転用—RNA-seq・ChIP-seq・リボソームプロファイリング・Hi-C等の数百プロトコルへの展開—が長期的にゲノム解読そのものより最大のインパクトをもたらすという新規の予言である。また novel な将来展望として、ナノポアによる環境中核酸のユニバーサルモニタリング、合成DNAへのデータ記録、in situ空間的シーケンシング、細胞系譜追跡への応用が提示された。

臨床応用の意義: 本論文の知見は臨床的意義が大きい。NITPは世界数百万人への史上最速の臨床実装を達成し、cfDNA断片カウントという原理が染色体異数性スクリーニングを非侵襲的に実現した事例として、臨床現場でのゲノム医療実装の先行モデルを提供する。WESによるメンデル遺伝性疾患診断率約25%は希少疾患診断に革命をもたらしており、WGS主流化によるさらなる向上が期待される。がん液体生検は侵襲的組織生検の代替・治療抵抗性早期検出・残存病変モニタリングへの臨床的有用性が大きく、bench-to-bedside展開が加速している。gnomADをはじめとする大規模バリアントデータベースは変異の臨床的意義判定において不可欠な参照資源となっており、臨床現場でのゲノム医療実装の知識基盤を支えている。

残された課題と将来展望: 残された課題として、第三世代シーケンシングの精度問題が最優先事項である。PacBioの約10%エラー率の低減と、ONTのエラーが必ずしも無作為分布でない点の改善が今後の検討課題となっている。臨床ゲノム医療においてはバリアントの機能注釈・病原性判定の精度向上と国際標準化が不十分であり、WGSの診療ルーチン化への主要な障壁となっている。ゲノムプライバシー (姓名推定が可能な程度の情報量)・forensic応用における倫理的枠組みの整備も future research の重要課題として著者らが指摘する。また現行ヒト参照ゲノムにはセントロメア・テロメア等の難解読領域が残存しており、テロメアからテロメアまでの100%完全ゲノムの達成は依然として limitation として認識されている。長期的視野では、400年前に発明された光学顕微鏡が現在も進化しながら使われ続けるように、DNAシーケンシングも今後数十年・数世紀にわたり「顕微鏡に匹敵するか凌駕するインパクト」を持ち続けると著者らは結論づけており、更なる検討が必要な領域として単細胞・空間シーケンシング・ナノポア万能センサー・DNA情報ストレージが挙げられている。

方法

本論文はDNAシーケンシング技術の歴史・現状・将来展望を網羅した学術レビューであり、独自のコホート研究や実験データは含まない。

文献調査と歴史的分析: PubMed・GenBank/ENA/DDBJ (欧米日のデータベース連合)・enseqlopedia.comを用いて、1953年インスリンタンパク質配列決定から2017年時点までのDNAシーケンシング技術・応用に関する文献を広範に精査した。対象は、Sanger et al. 1977・Maxam & Gilbert 1977等の seminal 論文、HGP関連の大型ゲノム論文、各NGSプラットフォーム (454、Solexa/Illumina、Pacific Biosciences (PacBio)、Oxford Nanopore Technologies (ONT)) の開発論文、およびRNA-seq・chromatin immunoprecipitation followed by sequencing (ChIP-seq)・リボソームプロファイリング等の応用プロトコル論文である。文献はBox 1 (技術的マイルストーン: 1953-2012)・Box 2 (ゲノム・計算・応用マイルストーン: 1977-2017) として時系列に整理された。

技術比較と定量的評価: 各世代のシーケンシング技術について、化学的・物理的原理を解説しつつ、スループット・コスト・精度・リード長の観点から比較した。統計手法: 当論文では原著統計解析は実施せず、定量的比較はNHGRI Genome Sequencing Program (genome.gov/sequencingcostsdata)・gnomAD (gnomad.broadinstitute.org) 等の外部データソースに基づく。識別子として PubMed (文献検索)・GenBank/ENA/DDBJ (配列データ)・enseqlopedia.com (プロトコル目録) を参照した。

著者の一次証人的立場: Solexa (後にIlluminaが買収) を1998年に共同創業したShankar Balasubramanian、第一統合NGS論文を発表したJay Shendure、化学切断法発明者Walter Gilbert、HGP主導者Robert Waterston・George Churchらの一次経験が歴史記述に反映されている。