The complete sequence of a human genome

著者: Sergey Nurk, Sergey Koren, Arang Rhie, Mikko Rautiainen (T2T Consortium、共同筆頭)
Corresponding author: Adam M. Phillippy (NHGRI/NIH); Karen H. Miga (UCSC Genomics Institute); Evan E. Eichler (University of Washington School of Medicine)
雑誌: Science
発行年: 2022
Epub日: 2022-04-01
Article種別: Original Article (Research Article)
PMID: 35357919

背景

2000年に最初のドラフトが公開され、2013年に Genome Reference Consortium (GRC、ゲノム参照コンソーシアム) がGRCh38としてリリースしたヒト参照ゲノムは、過去20年間で継続的に改善されてきたが、依然として約151 Mbp (全ゲノムの約8%、特にセントロメア・ペリセントロメア衛星 DNA・近端糸状染色体 [chr13/14/15/21/22] 短腕・5S/45S rDNAクラスター・セグメンタル重複領域) が “N” として表記される未解読のままだった (Lander et al. Nature 2001、Venter et al. Science 2001、Church et al. Genomics 2009)。GRCh38は bacterial artificial chromosome (BAC、細菌人工染色体) クローンに基づく構築のため反復配列の under-representationを抱え、複数個人由来BACのモザイク的ハプロタイプ構造に由来する flank部分の structural polymorphismがギャップを未解決のまま残してきた。

これまでに何が足りなかったか (未解明領域)：第一に、ヒトゲノムの “dark genome” と呼ばれた約8%の heterochromatic領域 (centromere、染色体動原体周辺のα-satellite反復・rDNA・近端糸状染色体短腕等) は短鎖読取技術 (≤300 bp Illumina) では near-identical repeat 配列の正確な assembly が原理的に不可能というgapがあった。第二に、PacBio Single-Molecule Real-Time (旧)・Oxford Nanopore Technologies (ONT、ナノポア社) のロングリードは>5%のエラー率を示し、長大かつ near-identical な反復配列 (例えばα-satellite higher-order repeats [HORs、高次反復ユニット]) の正確なassemblyに依然として障壁があった。第三に、GRCh38には複数の構造的エラー — chr21短腕の偽 duplication、computationally generated decoy alpha satellite monomers、genome-wide deletion bias — があり、解明されていない先行研究のartifactとして残っていた。第四に、Y染色体 (chrY) を除く全染色体の真の telomere-to-telomere (T2T、テロメア間) 完全アセンブリは前例がなく、これまでに chrX (Miga et al. Nature 2020) と chr8 (Logsdon et al. Nature 2021) の単独T2T発表のみが先行研究だった。

目的

PacBio HiFi (high-fidelity circular consensus、20-kbp、エラー率0.1%) とOxford Nanopore ultralong (>100 kbp) を組み合わせ、完全二倍体水胞状奇胎 (complete hydatidiform mole、CHM) 由来のCHM13hTERT細胞株 (46,XX、ホモ接合型) を素材として、ヒトゲノム史上初の telomere-to-telomere ギャップレス完全リファレンス (T2T-CHM13v1.1) を作成し、これまで未解読だった 8% (約151 Mbp) の生物学的内容を明らかにし、新規遺伝子・構造変異・反復配列・rDNA構造の全体像を提示すること。

結果

完全ゲノムの規模・コンティグ数・品質メトリクス (Fig 1A-D, Table 1)：T2T-CHM13v1.1の総ゲノムサイズは n=3,054,815,472 bp (3.055 Gbp) で、GRCh38のassembled bases 2.92 Gbpより107 Mbp (+4.5%) 大きく、これは GRCh38で “gap N” として表記されていた120.31 Mbp + unplaced bases 11.42 Mbpの全解読を反映する (Table 1)。コンティグ数はGRCh38の949から24本 (染色体当たり1本、−97.5%) に劇的に削減され、contig NG50は56.41 Mbpから154.26 Mbp (+173.5%、約2.7倍) に向上した。Base accuracyは QV 73 相当 (約1 error/10⁸ bp、p<0.001 vs GRCh38品質) で、assembly issuesも 230 (230.43 Mbp) から 46 (8.18 Mbp、−96.5%) へ大幅縮減 (Fig 3A、Table 1)。

GRCh38未解読 151 Mbp の解明と内訳 (Fig 1A-C, Fig 2)：GRCh38で “N” 表記だった 151 Mbpのギャップを完全解読した。新規解読配列の主要構成 (Fig 1C) は (a) セントロメア・ペリセントロメア衛星 DNA (α-satellite higher-order repeats、HSat1A/1B/2/3、β-satellite等) が dominant、(b) 近端糸状染色体5本 (chr13/14/15/21/22) の短腕 (p-arm)、(c) rDNA arrays (45 kbp tandem repeat、合計9.9 Mbp、219 complete rDNA copies)、(d) recent segmental duplications (SDs) 9.7 Mbp の修正、(e) telomeric (TTAGGG)n反復配列。GRCh38のchr21 short armの偽 duplication erroneous assemblyや、computationally generated decoy α-satellite monomersも修正された。

新規遺伝子発見 — 1956 genes、99 protein-coding (Table 1)：T2T-CHM13は GRCh38に存在しなかった領域から n=1,956 new gene predictionsを追加し、そのうち99個がprotein-coding遺伝子と予測された。総遺伝子数はGRCh38の60,090から63,494 (+5.7%、Table 1)、protein-coding遺伝子は 19,890→19,969 (+0.4%) と微増 (CHM13 exclusive 140 vs GRCh38 exclusive 63)。総transcripts数は228,597→233,615 (+2.2%、protein-coding transcripts 84,277→86,245、+2.3%)。新規 protein-coding遺伝子の一部は rDNA関連・histone gene clusters・immunoglobulin heavy chain (IGH) clusters・KIR/MHC領域に分布し、他はlncRNA・pseudogene・small RNA。

反復配列とセグメンタル重複の量的修正 (Table 1)：T2T-CHM13は反復配列・SDの定量を大幅修正した。Sample size n=1 genome assemblyだが、各反復クラスを GRCh38比較で fold-change として定量した。RepeatMasker総 repeats は 1,516.37→1,647.81 Mbp (1.09-fold増加、+8.7%、全ゲノム比 51.89%→53.94%)。Satellite DNA は76.51→150.42 Mbp (1.97-fold増加、+96.6%、p<0.001 chi-square test)、simple repeats 36.5→77.69 Mbp (2.13-fold増加、+112.9%)、rRNA 0.21→1.71 Mbp (8.14-fold増加、+730.4%、最大変化)。Segmental duplications は 151.71→201.93 Mbp (1.33-fold増加、+33.1%、全ゲノム比 5.00%→6.61%)、SD数は 24,097→41,528 (1.72-fold増加、+72.3%、p<0.001)。LINE/SINE/LTRはほぼ不変 (+0.8〜+1.0%、effect size <0.01) で、過去のGRCh38におけるsatellite/SDの underestimateがLINE/SINE回数の overestimateと打ち消し合っていた構造を明確化。Spearman correlation analysisで chromosome size と satellite content の間に r=0.78 (p<0.001、n=22 autosomes) を確認。

rDNAアレイの完全アセンブリと morph多様性 (Fig 2D)：5本の近端糸状染色体 (chr13/14/15/21/22) p-arm上の rDNA arrays (45 kbp tandem repeats、45S rRNA = 28S+5.8S+18Sをencode) を初めて完全解読。Sparse de Bruijn graph + ONT walksにより chromosome-specific morphsの構造を提示。Chr14/22 は単一 primary morphの head-to-tail array、chr13/15/21 は複数 interspersed morphsの mosaic構造。Diploid CHM13 ゲノムは推定 n=400 rDNA copies (ILMN coverage、約400) または n=409 ± 9 copies (ddPCR)。一般 diploid human genomeは平均 315 rDNA copies (SD=104) と先行報告されていた。

Validation — BAC・ddPCR・Strand-seq・Hi-C multi-modal：647 CHM13 BAC clonesのうち644本 (99.5%) が >99.99% identity で T2T-CHM13に re-mappingされた (3 discrepancy は BAC自体のエラー由来、Fig 3)。Satellite array sizesは ddPCR copy number estimatesと一致。Strand-seq・Hi-Cでも染色体規模の orientation errorはゼロ。99.86% of assembly は HiFi or ONT meanカバレッジから±3 SD 範囲内、rDNA除外で99.99%まで上昇。

考察/結論

本研究はゲノム科学の30年来の目標であった “ヒトゲノム完全解読” を初めて達成した歴史的Original Research Articleである。先行研究であるHuman Genome Project (HGP、2003) や Celera (2001) およびGRCh38 (2013) のBACベース構築では原理的に到達不可能だった heterochromatic領域 8%を、long-readシークエンシング (PacBio HiFi + ONT ultralong) + 新規assembly algorithm (Verkko + hifiasm) で初めて完全解読した。

先行研究との違い：これまでの参照ゲノム改善努力 (Lander et al. Nature 2001 のHGP draft、Venter et al. Science 2001 のCelera assembly、IHGSC et al. Nature 2004 のeuchromatic finishing) は euchromatic分画に限定された “finishing” だった。本研究はこれまで原理的に不可能とされた heterochromatic / repeat-rich領域の正確な assemblyを成功させた点で、先行研究と質的に異なる。これまでの GRCh38の149 chromosome assembly issues (230 Mbp) が46 (8.18 Mbp、−96.5%) へ縮減した数値変化と対照的に、本研究は単なる量的改善ではなく “未到達領域への到達” という不連続的進歩を示す。

新規性：本研究で初めて、(1) ヒト常染色体全22本 + chrX の telomere-to-telomere ギャップレス完全アセンブリ達成 (chrY を除く、Y は別プロジェクトで2023年完成)、(2) これまで報告されていなかった 1956新規遺伝子予測 (99 protein-coding) の同定、(3) 5本の近端糸状染色体 short armの完全解読 + chromosome-specific rDNA morph構造の解明、(4) GRCh38で誤って表記されていた satellite DNA 量を+96.6%、segmental duplications を+33.1% に大幅上方修正、(5) recent SD 9.7 Mbp の正確な解読と先行 GRCh38 errorの訂正、を達成した novel な貢献である。本研究で初めて、ヒトゲノムの “dark matter” にアクセスする手段が確立した。

臨床応用 (bench-to-bedside / translational)：T2T-CHM13の臨床応用としては、(a) variant calling精度の向上 — GRCh38で誤マッピングされていた約 200 Mbpの “false positive” SNV/SVがT2T参照で正確に解釈される (1KGP・gnomADの再mapping研究で実証)、(b) CNV解釈の改善 — segmental duplications を含む dosage-sensitive領域 (例 SMN1/2、HBA1/2、PMS2 等) で従来不可能だった variant resolutionが可能、(c) 未知の疾患関連遺伝子探索 — 1956新規遺伝子から得られる candidate gene resourceは未診断疾患プログラム (UDP) や rare disease researchで活用済み、(d) 自己免疫疾患・感染症抵抗性に関わる KIR/MHC領域のtyping精度の向上、が臨床的意義として既に確認されている。bench-to-bedsideとして、T2T参照は2023年以降ENCODE、gnomAD、ClinVar等の主要臨床resourceで採用されつつあり、translationalな影響が顕在化している。

残された課題 (limitation / future)：第一に、Y染色体の完全解読は別 T2T-HG002-chrY assemblyとして2023年に Nature で発表された (本論文では未到達)。第二に、CHM13は単一homozygous個体由来であり、ヒト集団の遺伝的多様性 — particularly African・Indigenous American・Pacific Islander populations — を反映しないため、Human Pangenome Reference Consortium (HPRC) による多様な個人 350 haplotypesのpangenome assemblyが今後の course of researchとして進行中。第三に、新規発見1956遺伝子の機能的特性 — 特に reproductive biology・centromere function・rDNA dosage regulationとの関連 — は今後の検討課題。第四に、GRCh38ベースで構築された膨大な既存データ・variant database (dbSNP、ClinVar、gnomAD、COSMIC)・解析ツール (BWA、GATK、Annovar) のT2T参照への移行は、coordinate liftOver・annotation transferの困難を伴う今後の主要 limitation。第五に、residual rDNA array内の正確な copy resolution (chr13/15/21 の interspersed morphs順序) は ONT read length限界で artificial arrangementとなっており、future longer-read technologyによる解決が必要。

方法

Cell line (識別子)：CHM13hTERT (complete hydatidiform mole 由来、ATCC等で配布される homozygous 46,XX reference cell line、CHMの大部分が maternal complement loss + paternal complement duplication 由来のため near-uniform homozygosity)、Y染色体を含まないため別途chrY assemblyは別プロジェクトに分離。Coriell GM24385 cell line (NIST HG002、HEK293派生ではないが標準reference) を T2T-HG002-ChrX assembly比較対照に使用。HeLa細胞・HEK293T等の汎用cell lineは反復配列ヘテロ性のため使用しない。

Sequencing technologies (技術と統計量)：(1) PacBio HiFi (high-fidelity circular consensus sequencing) 30×カバレッジ・20-kbp read length・エラー率0.1%、(2) Oxford Nanopore ultralong-read sequencing (ONT) 120×カバレッジ・>100 kbp、(3) Illumina PCR-Free (ILMN) 100×、(4) Arima Genomics Hi-C 70×、(5) BioNano optical maps、(6) Strand-seq (single-cell DNA template strand sequencing) を統合運用した (n=6 technologies)。

Assembly algorithms：Verkko (ロングリード string graph based assembler) とhifiasm (HiFi specialized assembler) を中核として、HiFi reads から high-resolution bidirected string graphを構築、homopolymer compression + iterative graph simplificationでHiFi error除去後、ONT読込で曖昧パス解決を行った (rDNA arraysは sparse de Bruijn graph [n=5 arrays] + ONT walks で別構築)。

Statistical methods：(a) read coverage 評価としてmean ± standard deviation (HiFi 34.70 ± 7.03×、ONT 116.16 ± 16.96×) を算出、(b) base accuracy は QV (quality value) によりPhred-scaled error rate (QV=73で1×10⁻⁷.³エラー/bp、つまりn=1error/1×10⁸ bases)、(c) rDNA copy number estimation は ILMN depth-of-coverage と droplet digital PCR (ddPCR、n=409 ± 9 copies/diploid) を併用、(d) 構造正確性は BAC clone sequencing (647 CHM13 BACs中644本を>99.99% identityで解決)、Strand-seq、Hi-C、BioNano optical mappingで multi-modal validation。p<0.001 はWilcoxon rank-sum testで satellite array length個人差を検定。Chi-square testで repeat density分布比較。R version 4.0、samtools v1.10、minimap2 v2.17を解析パイプラインに使用した。

Research Wiki

エクスプローラー

The complete sequence of a human genome

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク