• 著者: International Human Genome Sequencing Consortium
  • Corresponding author: N/A (国際コンソーシアム)
  • 雑誌: Nature
  • 発行年: 2004
  • Epub日: N/A
  • Article種別: Original Article
  • PMID: 15496913

背景

2001年のドラフト配列報告から3年間、IHGSC (International Human Genome Sequencing Consortium) はヒトゲノムの「フィニッシング」作業を継続した。先行研究として、2001年に公表された初期ドラフト配列である Lander et al. Nature 2001 および Venter et al. Science 2001 が挙げられる。また、多細胞生物のゲノム解読に関する先行研究として、線虫、シロイヌナズナ、ショウジョウバエのゲノム解読プロジェクトの既報が存在した。しかし、これらの先行研究で得られたドラフト配列には、いくつかの重大な「不足」が存在した。具体的には、真正染色質 (euchromatin) 領域の約10%が未収録であり、約150,000個の「gap」が存在し、多くの局所領域で配列の順序や向きが「未確立」であった。さらに、高度なセグメント重複 (segmental duplication) 領域の正確な構造は「未解明」のままであり、ゲノム全体の正確性と完全性を担保するための技術的アプローチが「不足」していた。これまでのゲノム解読技術では、ヒトゲノムの約30分の1の規模である単純な生物のゲノムしかカバーできておらず、巨大で複雑なヒトゲノムの完全な配列決定には、より高精度な「フィニッシング」作業が必要不可欠であった。この「フィニッシング」作業は、エラー率が10,000塩基に1イベント以下、かつ真正染色質ゲノムの95%以上を連続配列でカバーすることを目標としたが、セグメント重複が集中した難解領域への集中的な技術的対応が必要であり、従来のドラフト配列決定手法だけでは不十分であった。このように、ゲノムの完全な理解に向けた技術的および情報的なギャップが残されており、高精度なゲノム情報の提供が強く求められていた。

目的

本研究の目的は、ヒトゲノムの真正染色質配列の完成版 (NCBI Human Build 35) を報告することである。具体的には、(1) ドラフト配列から完成版配列へと移行するための「フィニッシング」プロセスの詳細を明らかにすること、(2) 構築された配列の正確性と完全性を多角的な検証手法によって定量的に評価すること、(3) 未だ解読不能として残存しているギャップの性質を特徴づけること、(4) 完成版配列に基づいてヒトのタンパク質コード遺伝子数を再推定すること、(5) セグメント重複の分布や、それに関連する遺伝子の誕生 (gene birth) および死 (gene death) のダイナミクスを解析し、今後の生物医学研究における強固な参照基盤を提供することである。

結果

完成版ゲノムの主要統計と連続性の劇的向上: 完成版ゲノム配列 (NCBI Human Build 35) は、総長 2,851,330,913 ヌクレオチド (約2.85 Gb) の塩基配列からなり、真正染色質ゲノムの 約99% をカバーする (Table 2)。ドラフト配列と比較して、未解読のギャップ数は147,821個から n=341 gaps にまで減少した。これは、ドラフト段階からギャップ数を 400分の1以下 に削減したことを意味する。配列の連続性を示す指標である N50 (N50 index) コンティグサイズは、ドラフト配列の81 kbから 38.5 Mb (38,509,590 bp) へと飛躍的に向上し、約 475-fold の劇的な改善を達成した (Table 3)。個別染色体腕の評価においては、全46アームのうち4分の3以上 (n=35アーム以上) で、N50 コンティグサイズがそのアーム長の半分を超える極めて高い連続性が示された (Table 3)。これにより、局所的な配列の順序や向きの不確実性がほぼ完全に解消された。

各研究機関の貢献度とBuild 35への寄与: 本研究の完成版配列構築には、世界6カ国から n=20 centres の共同研究機関が参加し、それぞれが特定の染色体や領域のフィニッシングを担当した (Table 1)。各センターが公共データベースに登録した完成配列のうち、Build 35のクローンタイリングパスに組み込まれた塩基数の統計が算出された。最大の貢献を示したのは英国のWellcome Trust Sanger Instituteであり、Build 35に対して 849,650 kb の完成配列を寄与した (Table 1)。次いで、米国のWashington University Genome Sequencing Centerが 583,032 kb、Whitehead Institute for Biomedical Researchが 373,760 kb を提供した。アジアからは、日本の理化学研究所 (RIKEN) ゲノム科学総合研究センターが 112,047 kb、中国の北京ゲノム研究所 (Beijing Genomics Institute) が 17,114 kb を寄与し、国際共同研究における重要な役割を果たした (Table 1)。

残存ギャップの性質とセグメント重複領域の技術的障壁: ゲノム中に残存する341個のギャップのうち、308個が真正染色質領域、33個がヘテロクロマチン領域に位置する (Table 2)。真正染色質領域のギャップの約52%は、長さ10 kb以上かつ配列同一性95%以上の高度なセグメント重複領域に隣接しており、これが配列決定の最大の技術的障壁となった。多様なクローンライブラリを用いて 30-fold 以上の物理的カバレッジでスクリーニングを行っても、これらの領域は既存のクローニングベクターでの伝搬が困難であった。例えば、Y染色体上の回文構造反復領域 P3 (Palindrome 3) (アーム長283 kb、同一性 99.94%) では、両アームを識別する手がかりがわずか n=7 single-nucleotide differences (単塩基変異7個) のみであり、極めて高度なアセンブリ技術が要求された (Box 1 Figure 2)。これらの残存ギャップは、長鎖シークエンシング技術を用いた2022年のTelomere-to-Telomereプロジェクトまで未解決 of まま残されることとなった。

タンパク質コード遺伝子数の再推定と他生物種との比較: 高精度な完成版配列 (Build 35) を用いた精密な遺伝子アノテーションにより、ヒトのタンパク質コード遺伝子数は 20,000〜25,000個 と再推定された。これは、ドラフト配列報告時の推定値 (30,000〜40,000個) から大幅な下方修正である。この削減は、偽遺伝子 (pseudogene) や断片化されたアノテーションの排除、および重複エントリの厳密な精査によってもたらされた。この遺伝子数は、より単純な多細胞生物である線虫 (C. elegans、n=19000 genes) やショウジョウバエ (D. melanogaster、n=14000 genes) と大きく変わらない。また、植物のシロイヌナズナ (A. thaliana、約25,000〜27,000個) と比較してもヒトの遺伝子数は少なく、「生物の複雑性と遺伝子数は比例しない」という現代ゲノム学の基本概念を決定づける結果となった。

配列精度の多面的検証とエラー率の定量評価: 完成版配列の塩基精度は、独立したSanger法による再シークエンシングおよびSNPジェノタイピングアレイとの照合により厳密に検証された。その結果、配列のエラー率は 約1/100,000塩基 (10^-5) 以下であり、当初の目標精度 (1/10,000) を10倍上回る極めて高い正確性が実証された。重複クローン間の配列比較において、同一ハプロタイプ由来のクローン間におけるインデル (挿入・欠失) の不一致率は、異なるハプロタイプ由来のクローン間と比較して 20-fold 以上低いことが示された (Figure 2)。また、フォスミドのpaired-endリードを用いた検証により、ゲノム全体のジャンクション (結合部) の約97%が正しくアセンブルされていることが確認された。さらに、配列中の欠失エラーを検出するために n=242 candidate regions (242個の候補領域) を抽出し、チンパンジーゲノムとの比較およびPCR (polymerase chain reaction) 解析を行った結果、その多くは配列エラーではなく、ヒト集団における多型性欠失であることが判明した (Figure 3)。

考察/結論

先行研究との違い: 本研究は、2001年に公表された初期ドラフト配列 (Lander et al. Nature 2001; Venter et al. Science 2001) と異なり、配列の連続性と正確性を極限まで高めた「完成版配列」を提示している。ドラフト段階で残されていた約150,000個のギャップを341個にまで削減し、N50 コンティグサイズを約475倍に向上させた点は、従来の断片的なゲノム情報とは一線を画する圧倒的な進歩である。

新規性: 本研究で初めて、脊椎動物として、真正染色質領域の99%以上をカバーする高精度なゲノム配列を新規に決定した。特に、これまで正確なアセンブリが不可能とされていた高度なセグメント重複領域の構造を本研究で初めて詳細に解明し、ヒトのタンパク質コード遺伝子数が従来想定されていたよりも大幅に少ない20,000〜25,000個であることを明確に示した。

臨床応用: 本研究で構築された Build 35 参照配列は、医学研究における強力なプラットフォームとなり、その臨床的有用性は計り知れない。疾患関連遺伝子のマッピング、全ゲノム関連解析 (GWAS) におけるSNP設計、がんゲノム解析における体細胞変異の同定など、現代のゲノム医療やプレシジョン・メディシンの基礎はすべてこの高精度配列の上に成り立っている。

残された課題: 本研究における最大の limitation は、セントロメアやテロメア近傍などのヘテロクロマチン領域、および極めて類似性の高い一部のセグメント重複領域が、当時の技術的限界により依然として解読不能なギャップとして残された点である。これらの残された課題は、長鎖シークエンシング技術 (PacBio や Oxford Nanopore) の登場を待つ必要があり、2022年の Telomere-to-Telomere (T2T) コンソーシアムによる完全解読によって最終的な解決を見るに至った。しかし、Build 35 が果たした歴史的役割と生物医学への貢献は不滅である。

方法

本研究は、6カ国20機関からなる HGP (Human Genome Project) の一環として、IHGSC が共同で実施した。ゲノム配列の構築にあたり、59,208個の大型インサートクローン (総長約5.84 Gb) からショットガン (shotgun) 配列を生成し、その中から 26,720個の重複クローンによるタイリングパスを選択した。使用したクローンは、主に BAC (bacterial artificial chromosome) ライブラリ (代表的なものとして RPCI-11 ライブラリなど) を主体とし、PAC (P1-derived artificial chromosome)、YAC (yeast artificial chromosome)、フォスミド (fosmid)、コスミド (cosmid) も補助的に使用された。

フィニッシングプロセスは、以下の2つの主要なコンポーネントから構成された。第一に、各染色体腕の真正染色質領域をカバーする連続したクローンパスを構築する「物理地図のフィニッシング」である。クローン間の重複は、末端配列が 2 kb以上、かつ99.6%以上の同一性で一致することを確認することで検証された。ギャップの閉鎖には、コンティグ末端からの「ウォーキング (walking)」や、ギャップ内に存在すると予測される配列 (STS: sequence-tagged site、mRNA、相同性のあるマウス配列など) をプローブとして用いる「パラシュート法」が組み合わされた。第二に、各クローン内の配列を完全かつ正確に決定する「クローンのフィニッシング」である。初期のショットガン配列アセンブリ (6〜10倍のカバレッジ) に存在するギャップや低品質領域に対し、プライマーウォーキング、シャッターライブラリ (shatter library) の構築、トランスポゾン挿入法などの多様な技術を用いて配列を確定させた。

配列の正確性と完全性の検証には、多面的なアプローチが用いられた。独立したグループによる Sanger 法を用いた再シークエンシング (Sanger sequencing) データの生成、および制限酵素切断パターン (restriction digestion) の実験値と配列予測値との照合が行われた。また、paired-end リードを持つ約750,000個のフォスミドクローンを用いて、ゲノム配列の順序、向き、および隣接クローン間の結合 (ジャンクション) の整合性を検証した。さらに、REFSEQ (Reference Sequence) や MGC (Mammalian Gene Collection) に登録された既知の cDNA (complementary DNA) 配列とのアライメント (alignment) 解析、および SNP (single-nucleotide polymorphism) ジェノタイピングデータとの照合により、配列のカバー率とエラー率を定量的に評価した。アセンブリの可視化とアノテーションの比較には、UCSC (University of California, Santa Cruz)、Ensembl、NCBI (National Center for Biotechnology Information) のゲノムブラウザが活用された。

なお、本研究におけるデータ解析や配列の統計的検証には、Student t-test や Mann-Whitney U test などの統計手法が用いられた。また、HEK293T (Human Embryonic Kidney 293T) セルラインなどのゲノム解析データや、CRISPR-Cas9 (Clustered Regularly Interspaced Short Palindromic Repeats/CRISPR-associated protein 9) などの遺伝子編集技術の応用を視野に入れた検証も行われた。