Key principles and clinical applications of "next-generation" DNA sequencing

著者: Jason M. Rizzo, Michael J. Buck
Corresponding author: Michael J. Buck (State University of New York at Buffalo, Buffalo, NY)
雑誌: Cancer Prevention Research
発行年: 2012
Epub日: 2012-04-24
Article種別: Review
PMID: 22617168

背景

ヒトゲノムプロジェクト (HGP) は、1977年にSangerが開発した第一世代シーケンシング (Sanger法) の自動化版を主に活用し、10年以上かつ推定7,000万ドルのコストをかけてヒトゲノムの初期マップを生成した Lander et al. Nature 2001 Venter et al. Science 2001。Sanger法は500 bp〜1 kbのリード長で高い正確性を誇る一方、1台の装置で96反応しか並列実行できず、1日あたり約115 kbしかシーケンスできないというスループットの制限があった。全ゲノムシーケンスには単一装置で約60年・5〜3,000万USDのコストを要し、大規模ゲノミクス研究への適用は不可能であった。この技術的・経済的限界は、ゲノム研究の進展を大きく阻害する要因となっていた。

この限界を克服すべく、米国国立ヒトゲノム研究所 (NHGRI) は2004年に「5年以内に $100, 000 、 10 年以内に$ 1,000でゲノムシーケンス」を目標とした技術開発促進プログラムを開始した。これにより「次世代シーケンシング (NGS)」「超並列シーケンシング」と総称される多数の新世代シーケンシング技術が市場に登場した。これらの技術は、巨大なDNA配列を並列に低コストでシーケンスすることを可能にし、ゲノミクス研究に新たなフロンティアを開いた。しかし、Sangerシーケンシングからの根本的な転換により、多くの研究者、特に臨床分野の研究者はこれらの新技術の能力や応用について十分に認識していなかった。さらに、シーケンシング技術の急速な進化により、多様な化学反応、データ解析手法、適用範囲、長所短所を持つ商用シーケンシングプラットフォームが市場に溢れ、これらを体系的に理解することが臨床研究者にとっての新たな課題となっていた。特に、各プラットフォームのユニークな化学反応と多様な応用が、NGSの潜在能力を制限する別の障害となっていた。この知識のギャップは、研究目的や臨床ニーズに応じた適切なプラットフォーム選択を困難にし、NGS技術の広範な普及を妨げる要因となっていた。従来のSanger法では大規模なゲノム解析が経済的・時間的に不足しており、より高速かつ低コストなシーケンシング技術の開発が未解明なゲノム領域の探索に不可欠であった。

目的

本レビューの目的は、臨床研究者および医師科学者を対象に、NGS技術の基本原理 (テンプレート生成、シーケンシング反応、データ解析の各段階)、各世代および主要プラットフォームの特性と限界、ならびに癌研究および臨床診断への具体的な応用について包括的なプライマーを提供することである。これにより、研究者らが自身の研究目的や臨床ニーズに応じた最適なNGSプラットフォームを選択できるよう支援し、これらの新規ゲノムツールの潜在能力に対する認識を高めることを目指した。また、既存および近未来の技術間の比較を提供し、異なるシーケンシングプラットフォーム間の主要な利点と欠点を概説することで、適切なプラットフォーム選択を可能にすることも目的とした。

結果

第一世代Sanger法の特徴と根本的限界: Sanger法は蛍光標識ジデオキシターミネーターを用いた鎖終結反応とキャピラリー電気泳動により、リード長500 bp〜1 kbで高い正確性を発揮する。現在も臨床細胞遺伝学のゴールドスタンダードとして機能し、少量DNA断片のシーケンスに日常的に使用される。しかし、並列化の制限 (96反応/装置) とスループット (約115 kb/日) が根本的なボトルネックであり、全ゲノムシーケンスの推定コスト (5〜3,000万USD、HGPは推定7,000万USD) と時間 (単一装置で約60年) の制約から大規模ゲノミクス研究への適用は不可能であった。NHGRIは2004年に「5年以内に $100, 000 、 10 年以内に$ 1,000でゲノムシーケンス」を目標とするプログラムを開始し、この目標は事実上達成された。

第二世代NGSの技術分類とプラットフォーム特性: NGSプラットフォームはテンプレート生成法により「クローナル増幅型」と「単分子型」に大別される (Table 1)。主要なクローナル増幅型プラットフォームとして、(1) Illumina (合成によるシーケンシング [SBS])：ブリッジ増幅でフローセル上にクラスターを生成し、蛍光可逆ターミネーターで1サイクル1塩基を読み取る。30〜300 bpのリード長で高スループット・高精度を実現し、最大スループット約7 Gbp/ランを達成、2012年当時のデファクトスタンダードであった。 (2) Roche 454：エマルジョンPCRによるビーズ上クローナル増幅後、パイロシーケンシング (デオキシリボヌクレオチド三リン酸 [dNTP] 取り込み時のピロリン酸 [PPi] 放出→ルシフェリン発光検出) を実施。最長400 bpのリード長が当時のNGS中で最長で、最大スループット約440 Mbp/ランであったが、ホモポリマー領域での誤差が問題であった。 (3) Life Technologies SOLiD：ライゲーションによるシーケンシング (SBL) と2塩基コードを利用し、各塩基を独立した2回のライゲーションで読み取ることでエラー訂正が可能であり、最大スループット0.6 Gbp/ランであった。各プラットフォームのリード長は30〜400 bpと短いが、超並列的なシーケンシングにより1塩基あたりのシーケンシングコストが過去5年間で10万倍 (100,000-fold) 以上低下した。また、ペアエンドシーケンシングでは挿入サイズ300〜500 bp、メイトペアシーケンシングでは1.5〜20 kbの範囲をカバーし、構造変異の検出精度を大幅に向上させる (Figure 2A, B)。

第三世代シーケンシングの技術的位置づけ: Pacific BiosciencesのSMRT (Single Molecule Real Time) シーケンシングに代表される第三世代技術は、単分子の長いリード (数kb〜数十kb) をリアルタイムで読み取ることができ、PCR増幅バイアスがなくDNAメチル化等のエピゲノム情報も同時取得可能とされた。しかし2012年時点では正確性・スループット・コストで第二世代NGSに対して未成熟であった。ペアエンドシーケンシングでは挿入サイズ300〜500 bp、メイトペアシーケンシングでは1.5〜20 kbの大きな範囲をサンプリングでき、大規模構造変異・染色体転座 (例: COL1A1-PDGFB転座による皮膚線維肉腫 [DFSP]) の検出が可能になるが、メイトペアはより高コスト・技術的難度が高く必要DNA量も多い。Nanoporeシーケンシング (Oxford Nanopore) は当時レビュー範囲外であったが、同様の長鎖読み取りを電気信号として検出する第三世代技術として言及された。

シーケンシングカバレッジとエラー率: NGS実験の精度と情報量はカバレッジ深度と塩基コールエラー率の両方に規定される。各プラットフォームは各塩基に信頼スコア (Phred quality score) を付与し、Q30以上 (エラー率0.1%、正確性99.9%) を品質基準として使用する。均一カバレッジが保証された理想的条件下では1×でも全配列情報を回収できるが、実際のNGS実験では局所的GC偏倚・プラットフォーム固有バイアスにより読み取りが不均一になるため (Figure 2C)、構造変異・WGS再シーケンシングには20〜30×のカバレッジが必要であり、SNP精密コールには30〜100×、希少体細胞変異 (VAF<5%) の検出には100〜500×の深いシーケンシングが不可欠とされた (Figure 2D)。population-scale の1,000 Genomes Project (n=1,000以上) では4×のlow-coverageプールデータで頻度1%以上のSNPを検出可能であることが示されている 1000GenomesProjectConsortium et al. Nature 2010。

データ解析パイプラインとバイオインフォマティクスの課題: NGS実験はシーケンサーが生成した数億〜数十億リードを参照ゲノムへアライメント (BWA・Bowtie等、アラインメント精度≥99%)、リードデデュプリケーション、バリアントコール (SNV・インデル・CNV・SV)、アノテーションという複雑なパイプラインで処理する必要がある。全ゲノムシーケンスでは1サンプルあたりテラバイト規模のデータが生成され、計算リソース (CPU時間・ストレージ) とバイオインフォマティクス専門家の不足が当時の臨床実装の最大の障壁として指摘された。品質管理 (PhredスコアQ30以上で正確性99.9%、重複率、カバレッジ均一性) の標準化も臨床実装の重要課題として論じられた。参照ゲノムへのマッピング後、偽陽性変異フィルタリングにはdbSNP・1000 Genomes Project等の集団変異データベースとの照合が必要となる。

癌研究・臨床診断への主要な応用: WGS (全ゲノムシーケンシング) では体細胞変異・生殖細胞系列変異・コピー数変化・融合遺伝子・染色体構造異常を包括的に検出でき、TCGAプロジェクトの基盤技術となった Network et al. Nature 2011。実臨床応用例として、Welchらは診断困難な急性前骨髄球性白血病 (APL) 症例においてWGS-NGSによりPML-RARA融合を生検から7週間で同定・検証し治療方針変更を実現した事例を報告した。WES (全エクソームシーケンシング) はタンパク質コード領域 (全ゲノムの約1%) に集中することでコストを抑えつつメンデル遺伝性疾患や腫瘍ドライバー変異の同定に有効であり、既知疾患遺伝子2,993個を含む「Mendelianome」パネルも有用である Bamshad et al. NatRevGenet 2011。疾患関連配列変異の80%以上がコード領域外に存在するというGWAS知見は、標的シーケンシングのみならずWGSの重要性を支持する。RNA-seqによる発現プロファイリング・融合転写産物同定 Martin et al. NatRevGenet 2011、ChIP-seq (クロマチン免疫沈降シーケンシング) によるヒストン修飾・転写因子結合部位の全ゲノムマッピング、BS-seq (亜硫酸水素塩シーケンシング) によるDNAメチル化解析等のエピゲノム・トランスクリプトーム応用が紹介された (Table 2)。cfDNA/ctDNA解析を用いた非侵襲的液体生検では、移植拒絶反応の検出 (Snyderらのドナーゲノム由来cfDNA検出) や胎児染色体異数体 (ダウン症候群、13・18トリソミー) の高感度スクリーニング (Palomakiらの血漿cfDNA試験) への応用が実証されている。

考察/結論

本レビューは2012年時点でのNGS技術の包括的な教育的資料として、NGSに不慣れな臨床研究者・医師科学者向けのプライマーとして重要な貢献をした。「テンプレート生成・シーケンシング反応・データ解析」という3段階の基本的枠組みは、その後の技術進歩によらず今日でも維持されており、本レビューが確立した比較評価の枠組みは癌ゲノミクス研究者の基礎知識形成に貢献した。

先行研究との違い: 本レビューは、NGSの応用論文 (TCGA初期解析等) が発表され始めた時期に、その技術的基盤を体系的に整理した点で、それまでの個別の技術紹介とは対照的であった。IlluminaのSBS、Roche 454のパイロシーケンシング、SOLiDのSBLという3大プラットフォームを公平に比較評価し、各長所短所 (Illumina: 高スループット・高精度だが短リード; 454: 長リードだがホモポリマー誤差; SOLiD: 高精度だが短いリード) を整理した点が実用的な価値をもたらした。

新規性: 本研究で初めて、NGS技術の多様な化学反応、データ解析手法、適用範囲、長所短所を包括的に解説し、臨床研究者が自身の研究目的や臨床ニーズに応じた適切なプラットフォームを選択するための明確な指針を提供した。特に、Sangerシーケンシングの限界を克服したNGSの超並列性やコスト削減効果を強調し、その後のゲノム研究の方向性を予測する上で新規性のある視点を提供した。

臨床応用: 本レビューが解説したNGS技術は、現在のNSCLC等における包括的ゲノムプロファイリング (CGP) の標準実装 (FoundationOne CDx等のFDA承認コンパニオン診断)、遺伝性腫瘍症候群のマルチ遺伝子パネル検査、ctDNA解析による液体生検へと発展した。Welchらによる急性前骨髄球性白血病におけるPML-RARA融合遺伝子の同定事例は、NGSが臨床現場での診断と治療方針決定に直接的な影響を与えうることを示唆するものであった。

残された課題: 本レビューが指摘したバイオインフォマティクス人材育成、品質管理標準化、計算コスト削減という課題は、現在も取り組みが続いている。クラウドコンピューティングや自動化パイプライン (GATK等) の普及がその解決を加速しているものの、テラバイト規模のデータ解析には依然として高度な専門知識と計算リソースが不可欠である。また、NGSデータの適切な開示と利用、特許法の適応、保険償還プロトコルの確立といった政治的・社会的課題も、今後の検討課題として残されている。NGS技術が今や「研究ツール」から「標準臨床検査」へと転換したことは、2012年当時の本レビューの予測を現実が凌駕した形となっている。

方法

本レビューは、各世代のDNAシーケンシング技術 (第一世代: 自動化Sanger法、第二世代: NGS、第三世代: 単分子シーケンシング) を体系的に比較解説する文献レビューとして実施された。本レビューの文献検索は、PubMed、Embase、Web of Science などの主要な医学・生物学データベースを用いて行われた。検索期間は2000年から2012年4月までとし、キーワードとして「next-generation sequencing」「DNA sequencing」「clinical application」「cancer genomics」などを組み合わせた。各プラットフォームについて、(1) テンプレート生成 (クローナル増幅型 vs. 単分子型)、(2) シーケンシング反応 (合成によるシーケンシング [SBS]、ライゲーションによるシーケンシング [SBL]、パイロシーケンシング等)、(3) データ解析 (バイオインフォマティクスパイプライン、参照配列へのアライメント、バリアントコール) の各段階を詳細に解説した。

具体的には、NGSの基本ワークフローを、サンプル収集、テンプレート生成、シーケンシング反応と検出、データ解析の4つのフェーズに分けて説明した (Figure 1)。テンプレート生成段階では、断片化、サイズ選択、アダプターライゲーションといった共通ステップを詳述し、クローナル増幅型 (エマルジョンPCR、ブリッジ増幅) と単分子型テンプレートの長所と短所を比較した。シーケンシング反応については、各プラットフォームの独自の化学反応 (例: Illuminaの可逆ターミネーター、Roche 454のパイロシーケンシング、SOLiDの2塩基ライゲーション) を中心に解説し、ペアエンドシーケンシングとメイトペアシーケンシングの原理と応用についても言及した。

データ解析のセクションでは、ベースコール、参照ゲノムへのアライメント (BWA、Bowtieなどのツール)、リードデデュプリケーション、バリアントコール (SNV、インデル、CNV、SV)、およびアノテーションといったバイオインフォマティクスパイプラインの主要ステップを概説した。また、シーケンシングカバレッジ、エラー率、Phred quality scoreの重要性についても議論した。統計解析手法としては、バリアントコールにおける偽陽性率の評価や、カバレッジ深度とエラー率の関係を評価するために、複数のアルゴリズムが比較検討された。

臨床応用としては、WGS (全ゲノムシーケンシング)、WES (全エクソームシーケンシング)、標的NGSパネル、RNA-seq (トランスクリプトームシーケンシング)、ChIP-seq (クロマチン免疫沈降シーケンシング)、BS-seq (亜硫酸水素塩シーケンシング) などの具体的な実験アプローチ、その目的、および関連する主要な先行研究を紹介した (Table 2)。さらに、cfDNA/ctDNA解析を用いた非侵襲的液体生検の応用についても触れた。本レビューは、これらの技術が癌ゲノム研究および臨床診断においてどのように活用されうるかを、具体的な事例を交えて説明することで、読者の理解を深めることを意図した。

Research Wiki

エクスプローラー

Key principles and clinical applications of "next-generation" DNA sequencing

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク