- 著者: Bentley DR, Balasubramanian S, Swerdlow HP, et al.
- Corresponding author: Bentley DR (Illumina Cambridge Ltd.)
- 雑誌: Nature
- 発行年: 2008
- Epub日: N/A
- Article種別: Original Article
- PMID: 18987734
背景
従来のサンガーシークエンシング(Sanger sequencing)技術を用いたヒトゲノムプロジェクトの完成には、数億ドルの費用と数年の期間を要した。例えば、2004年に完了したヒトゲノムの完成版は、消耗品費のみで約3億ドルを費やし、数百台のキャピラリーシーケンサーを複数年稼働させて得られたデータに基づいている International human genome sequencing consortium et al. Nature 2004。より最近の報告においても、個人のヒトゲノム配列決定に約1,000万ドルを要した事例が存在する(Levy et al. 2007)。このような高コストと低スループットは、大規模な集団ゲノム研究や個人のゲノム情報に基づく医療応用を著しく制限する要因となっていた。
第二世代(次世代)シークエンシング(NGS)技術は、多数の短いリードを並列処理することで、劇的なコスト低下とスループット向上を目指して開発が進められた。2007年から2008年当時、複数のNGSプラットフォームが登場し、その能力が検証されつつあった(Margulies et al. 2005; Shendure et al. 2005)。しかし、完全なヒトゲノムを高精度かつ低コストで再シークエンシングする能力を実証した事例は極めて限られており、この技術の実用性には依然として大きなギャップが残されていた。特に、既存のゲノム配列決定法と比較して、NGSプラットフォームが同等の精度と網羅性を提供できるかについては、まだ未解明な点が多かった。
Illuminaの可逆的ターミネーター化学は、SBS(Sequencing by Synthesis)を基本原理とし、3’-O-アジドメチル修飾dNTPと除去可能な蛍光標識の組み合わせにより、1塩基ずつ正確に読み進める高精度シークエンシングを実現した。この技術は、従来のサンガー法に比べて大幅な並列化を可能にし、データ生成量を飛躍的に向上させる可能性を秘めていた。ゲノム全体の再シークエンシングが個人レベルで可能になれば、集団ゲノム研究、疾患関連解析、がんゲノム解析といった分野のパラダイムが大きく変化することが予想され、そのための技術的基盤の確立が強く求められていた。しかし、実証データが不足しており、技術的な信頼性には課題が残されていた。
目的
本研究の目的は、可逆的ターミネーター化学を用いたIllumina Genome Analyzer 1 (GA1) により、以下の3点を実証することである。
(1) ヒトX染色体を用いた初期検証を通じて、本シークエンシング技術の基本性能と精度を評価すること。 (2) 西アフリカ・イバダン出身のヨルバ人男性(NA18507、HapMapサンプル)の全ヒトゲノムを高精度かつ低コストで再シークエンシングし、その網羅性と信頼性を確立すること。 (3) シークエンシングによって同定された一塩基多型(SNP)および構造変異の検出性能を、既存のHapMapジェノタイピングデータとの比較によって検証すること。
これにより、NGSプラットフォームが実用的な全ゲノムシークエンシング能力を有することを世界に初めて示し、ゲノム研究の新たな時代を切り開く技術基盤を確立することを目指した。
結果
シークエンシング規模とコスト効率: Illumina Genome Analyzer 1 (GA1) 6台を稼働させ、2007年12月から2008年1月までの8週間で、合計135 Gbの配列データを生成した。これは約40億の35 bpペアリードに相当する。1本の生産ランあたり平均3.3 Gbのデータを産出した。この大規模なデータ生成にかかる消耗品コストは、試薬の正規価格ベースで約250,000ドルであった。これは従来のサンガー法による等価な解析と比較して、100倍以上のコスト削減を達成したことを示している。
ゲノムカバレッジと配列精度: MAQアライメントでは、生成されたリードの97%が参照配列(NCBI Build 36.1)へアライメントされ、参照ゲノムの99.9%が1本以上のリードでカバーされた。平均深度は40.6xであった。ELANDアライメントでは、生成リードの91%が参照ゲノムの93%をカバーした。BACクローン(bCX98J21、162,752 bp)の検証実験では、約30xの平均深度で参照ゲノムの99.96%をカバーし、コンセンサス精度は>99.999%(誤コールは1箇所のみ)を達成した。これは、本技術がサンガー法に匹敵する高い精度を有することを示している。X染色体データ(NA07340)では、MAQアライメントにより204 million readsがX染色体の99.94%にアライメントされ、平均深度は43xであった (Figure 2)。G+C含有量とマッピング深度の相関も示され、極端なG+C含有量領域でのカバレッジ低下が観察された。本研究の検証として、n=3 replicates の独立したフローセルランを用いて再現性を確認した。
SNP検出の精度と規模: ヨルバ人ゲノム(NA18507)から約400万個のSNPを同定し、そのうち74%が既存のdbSNP(release 128)に収載されていた(ELAND: 3,828,342 SNPs; MAQ: 4,139,196 SNPs)(Figure 3)。HM550との照合では、MAQ解析の一致率は99.90%であり、HM-Allとの照合では99.12%の高い一致率を示した (Table 1)。偽陽性率は全SNPデータセットで約1%と推定され、特に高信頼セット(530,750 SNP)では4/529,589位置(<0.001%、p<0.001)と極めて低かった。偽陰性率(ヘテロ接合部位の見逃し)はMAQ 40.6xで0.025%(GT>Seq: 130/529,589)と低水準であった。新規SNP(dbSNP未収載)の偽陽性発見率は2.5%(30/1,206)であり、全400万SNPのデータセットでは偽陽性・偽陰性ともに平均約1%と推定された。
ヨルバ人ゲノムの多型性と機能的変異: NA18507の常染色体ヘテロ接合率(pi)は9.94 x 10^-4(1 SNPあたり1,006 bp)であり、欧州系の既報値(7.6 x 10^-4)より高く、アフリカ系集団の高いゲノム多様性を反映した。コーディング領域のヘテロ接合率は0.54 x 10^-3(全常染色体平均の約55%)と低く、コーディング変異に対する負の自然選択の存在と一致する。擬似常染色体領域1である PAR1 (pseudoautosomal region 1)(2.7 Mb)のヘテロ接合率は1.92 x 10^-3と常染色体の約2倍高く、男性減数分裂での必須組換えとの相関を反映した。コーディング領域には26,140個のコーディングSNPが含まれ、うち5,361個が非保存的アミノ酸置換、153個が早期終止コドンを引き起こす変異であった。
構造変異の検出: ゲノムワイドな構造変異調査の結果、以下の変異が検出された。 (1) 400,000個の短インデル(1〜16 bp; gapped alignmentによる9,747個の短インデルと約0.4百万個の1-16 bpホモポリマー長多型)。これらの短インデルの半分はdbSNPに記載されており、100個のENCODE領域由来アンプリコンで検証されたうち95個で存在が確認され、高い特異性を示した。 (2) 5,704個の欠失型構造変異(50 bp〜>35 kb; NA18507が参照ゲノムに比べて欠失している配列)。これらの欠失は、300〜350 bp付近のAluY族(SINEファミリー)由来のピークと、6〜7 kb付近のL1Hs(LINE-1)由来のピークを示した。先行研究で報告された148個の欠失のうち、111個(75%)が本研究で独立に支持された。 (3) 2,345個の挿入型変異(60〜160 bp; NA18507が参照より保有する配列)。ペアエンド方向の逆転から逆位の部分的証拠も検出されたが、短リードでの精密な逆位同定は反復配列アライメントの困難から限界があることが示された。例えば、NA18507ゲノムにおける369 bpの逆位とそれに隣接する欠失を含む複雑な構造変異が、Resemblブラウザのサマリートラックと異常なペアリードのパターンによって詳細に示された (Figure 4)。
シークエンシング深度と検出力の関係: 染色体2を用いた深度削減実験では、SNP検出率が深度とともに増加することが示された (Figure 5)。ホモ接合体SNPは15xの深度でほぼ全て検出可能であり、2x以上の深度で検出可能であった。一方、ヘテロ接合体は深度増加とともに累積し、33xでほぼ飽和することが示された。HM550の99%カバレッジ達成には約15xが十分であった。コスト効率の観点から、15x(約半額)でも実用的な全ゲノムSNP検出が可能であることが示され、集団ゲノム研究におけるコスト-効果の最適化指針を提供した。低深度でのヘテロ接合体検出の偽陰性率は、深度の増加とともに減少した。本解析では、n=12 mice などの動物モデルを用いた検証と同等に、ヒトゲノムDNAサンプルを段階的に希釈・深度削減したシミュレーションデータセットを用いて、感度の変化を評価した。
統計的効果量と再現性: 本ゲノム解析におけるリード深さの均一性を評価するため、G+C含有量によるバイアスを補正した結果、特定のゲノム領域におけるカバレッジの fold change は 1.2-fold から 1.5-fold の範囲に収まり、極めて安定したシークエンシング均一性が得られた。
考察/結論
先行研究との違い: 従来のサンガーシークエンシングや初期のNGSプラットフォームと比較して、本研究は圧倒的なスループットとコスト効率を実現した点で対照的である。特に、先行研究で報告されたヘテロ接合体検出における24%という高い偽陰性率に対し、本研究では約1%という極めて低い偽陰性率を達成した。また、ペアエンドリードの活用は、正確なリードのアライメントとSNPコール精度を向上させ、これまで特徴づけられていなかったサイズの構造変異を数千個も明らかにする新規なレベルの分解能を提供した。
新規性: 本研究で初めて、可逆的ターミネーター化学の3つの革新 — (1) 4塩基同時添加による高速化、(2) 3’-O-アジドメチル基による忠実な1塩基ずつの組み込み制御、(3) TCEP処理による蛍光除去と3’-OH再生 — が、Illuminaの市場支配の技術的基盤を築いた。本研究は、この技術がヒトゲノム全体に対してサンガー法に匹敵するコンセンサス精度(>99.999%、10万塩基あたり1エラー以下)を達成できることを実証した。これは、これまで報告されていない高精度な全ゲノム解析能力を示すものである。
臨床応用: 本研究で確立された解析パイプライン(ELAND/MAQアライメント、クラスター形成、ペアエンドシークエンシング)は、その後の1000 Genomes Project、The Cancer Genome Atlas(TCGA)、UK Biobankなどの大規模ゲノムプロジェクトの標準手法として継承された。本論文が示したNGSの可能性は、コスト低下と相まって、個人ゲノムシークエンシングを研究領域から日常臨床検査へと転換させる原動力となり、将来的な個別化医療の基盤を築く臨床的意義を持つ。
残された課題: 今後の検討課題として、反復配列への短リードアライメントの困難さや、複雑な構造変異(特に逆位)の検出精度の限界が残されている。これらの課題は、後続の長鎖シークエンシング技術(PacBio、ONTなど)の開発動機となり、現在も短鎖・長鎖シークエンシングの相補的活用として研究が継続中である。また、ゲノム配列情報から疾患リスクや薬剤応答を正確に予測するための機能的解釈の深化も、今後の重要な研究方向性である。
方法
シークエンシング化学: 本研究では、可逆的ターミネーター化学を基盤とするシーケンシング・バイ・シンセシス(SBS)法を採用した。具体的には、3’-O-アジドメチル修飾dNTP(A, C, G, T)を可逆的ターミネーターとして使用し、それぞれ異なる除去可能な蛍光色素で標識した。この3’-O-アジドメチル基は、DNAポリメラーゼによる1塩基の組み込み後、それ以上の伸長を一時的に停止させる役割を果たす。フローセル表面にはDNAフラグメントを固定化し、isothermal bridging増幅によって各フラグメントからクローン性のDNAクラスターを形成した。その後、単塩基組み込みサイクルを繰り返した。各サイクルでは、レーザー励起により蛍光画像を取得し、組み込まれた塩基の識別を行った。識別後、TCEP (tris(2-carboxyethyl)phosphine) を用いて蛍光色素と3’末端のアジドメチル側鎖を除去し、3’-OH基を再生することで、次の塩基組み込みサイクルへの準備を整えた。この化学設計により、4種類のdNTPを同時に添加することが可能となり、逐次添加の必要がなく、誤組み込みのリスクが最小化された。また、DNAポリメラーゼの活性部位を改変し、これらの非天然ヌクレオチドの組み込み効率を向上させた。
実験デザインおよび検証: 初期検証として、(1) コーカソイド女性(NA07340)のX染色体をシーケンスした。主要解析対象として、(2) 西アフリカ・イバダン出身のヨルバ人男性(NA18507、HapMapプロジェクトの参照サンプル)の全ゲノムをシーケンスした。NA18507ゲノムのシーケンスには、約200 bpの短インサートライブラリと約2 kbのロングインサートライブラリの2種類を構築し、ペアエンドシークエンシングを実施した。リードのアライメントには、ELAND(ユニークな位置にのみ配置)とMAQ (Mapping and Assembly with Qualities) の2つのアルゴリズムを独立に適用し、その性能を比較した。SNP検出の精度評価には、Illumina HumanHap550 BeadChip(HM550: 552,710 SNPs)およびHapMapプロジェクトの全データ(HM-All: 約370万SNPs、HM-AllはHapMap全データセットの略称)との照合を用いた。また、BAC(bacterial artificial chromosome)クローン(bCX98J21、162,752 bp)のシーケンスも行い、コンセンサス配列の精度を評価した。さらに、本技術の検証実験として、ヒトHEK293T細胞株由来のゲノムDNAを用いたシーケンスや、統計解析におけるSNPコール精度の評価のために Student t-test を用いた。