- 著者: J. Craig Venter, Mark D. Adams, Eugene W. Myers, Peter W. Li, Richard J. Mural, Granger G. Sutton, Hamilton O. Smith, Mark Yandell, Cheryl A. Evans, Robert A. Holt, et al. (271名)
- Corresponding author: J. Craig Venter (Celera Genomics, Rockville, MD, USA)
- 雑誌: Science
- 発行年: 2001
- Epub日: 2001-02-16
- Article種別: Original Article
- PMID: 11181995
背景
ヒトゲノム解読プロジェクト (Human Genome Project: HGP) は1990年に米国NIH・DOE (Department of Energy) の主導で開始され、15年・30億ドルの計画として進行していた。個別クローン由来の階層的ショットガンシーケンシング戦略が採用され、バクテリア人工染色体 (BAC: bacterial artificial chromosome) ライブラリーを基盤に進行していた。先行するモデル生物ゲノム解読として、Fleischmann et al. 1995 がインフルエンザ菌 (1.8 Mb) を全ゲノムショットガン法 (WGS: whole-genome shotgun sequencing) で解読し、Adams et al. 2000 がショウジョウバエゲノム (~120 Mb) をWGSで解読したことで大型真核ゲノムへのWGS適用の実現可能性が示されていた。Lander et al. 2001 による国際コンソーシアム版と並行して、1998年にCelera Genomicsが設立され、民間独自のWGS戦略での解読を宣言した。WGSはゲノム全域をランダムに断片化してシーケンシングし計算機アセンブリで再構成する手法であり、ヒトゲノム (~3 Gb) への適用には150倍以上のスケールアップを要し技術的に未確立の課題であった。Celera社はSanger法 (Sanger et al. 1977) を基盤とするABI PRISM 3700 DNAアナライザーを大規模並列稼働させる設備 (約3万平方フィート) を構築し、1日175,000リードの産生能力を実現した。ヒトゲノムの遺伝子数・構造・一塩基多型 (SNP: single nucleotide polymorphism) ・反復配列・進化的保存性の解明は、疾患研究・進化生物学・医薬品開発全般の基盤となる不可欠な科学的課題であったが、全ゲノムスケールでの体系的知識は未開拓であった。
目的
Celera Genomicsの全ゲノムショットガンシーケンシング戦略を用いてヒト常染色体・性染色体の真正染色質 (euchromatin) 全域の塩基配列を決定し、遺伝子・反復配列・一塩基多型 (SNP) ・ゲノム構造の包括的注釈 (アノテーション) を行うこと。同時にHGP公開データとの統合的アセンブリにより実効カバレッジを高め、ゲノム全域の配列品質と染色体マッピング精度を検証すること。
結果
所見1:ゲノムサイズ・スキャフォルド統計 — CSAで90%以上が100 kb超スキャフォルドに収容: 真正染色質のゲノムサイズは約29.1億塩基対 (2.91 Gb) であった (Table 3)。CSA (compartmentalized shotgun assembly) 法では90%以上のゲノムが100 kb以上のスキャフォルドに収まり、25%が10 Mb以上の大型スキャフォルドに含まれた (Fig. 5)。CSA最大コンティグは1.99 Mb、平均コンティグサイズは23.24 kb±1.2 kb、平均イントラスキャフォルドギャップは2.0 kbであった。ギャップの62%以上が1 kb以下であり、100 kb以上のギャップは存在しなかった。WGA (whole-genome assembly) とCSAの両アセンブリ間でゲノムの95%以上が1 kb超のセグメントで一致し、独立的なアセンブリ戦略の高い整合性が示された。2つのアセンブリ間では31箇所の非局所的不一致が同定された。10最大スキャフォルドはそれぞれ9 Mb以上のサイズを持ち、STS (sequence-tagged site) マーカーの1%のみが別の染色体にマッピングされ、染色体割り当て精度が実証された。STSフレームワーク5ビン以上の位置誤差も2%にとどまった。
所見2:ゲノム組成とエクソン/イントロン/反復配列の分布 — タンパク質コード領域はわずか1.1%: ヒトゲノムのうちタンパク質コードエクソンはわずか1.1%を占めるに過ぎず、イントロン領域が24%、遺伝子間領域が75%を占めた (Fig. 1)。反復配列がゲノム全体の約46%を占め (LINE: 21%、SINE: 13%、LTR retroposon: 8%、DNAトランスポゾン: 3%)、脊椎動物進化における反復要素の大規模蓄積が示された。約450種類のトランスポゾンファミリーが同定され、L1 (LINE-1: long interspersed nuclear element 1) エレメントが最大占有率を示した。Alu (SINE: short interspersed nuclear element) エレメントは遺伝子密度の高いGC高含量領域に偏在し、GC含量と遺伝子密度の間には正の相関 (Pearson r=0.71) が認められた。セグメンタル重複 (数十kbから染色体長スケール) がゲノム全域に広く分布し、複雑な進化的歴史を示唆した。GC含量は染色体間・染色体内で大きく変動し、3.7%〜65%の範囲であった。
所見3:遺伝子数と転写産物の注釈 — 推定遺伝子数26,383〜39,114は従来予測100,000を大幅に下回る (Table 1-2): 計算機アノテーションにより26,588のタンパク質コード転写産物が強い支持証拠とともに同定され、さらに約12,000の計算機由来遺伝子 (マウスとのマッチまたは弱い支持証拠) が追加同定された (Table 1)。これらを統合した推定遺伝子数は26,383〜39,114と算出された。n=5ドナーの全ゲノム配列データでこの推定を得た。この遺伝子数は従来予想 (100,000) を大幅に下回り、科学コミュニティに大きな驚きをもたらした。遺伝子密度は染色体間・領域間で大きく変動し、GC高含量バンドで高く、GC低含量帯で低かった。代替スプライシングを考慮すると一遺伝子から複数の転写産物が産生される例が多数同定された。比較ゲノム解析では神経機能・組織特異的発生調節・止血・免疫系に関連する遺伝子ファミリーが脊椎動物で拡張していることが示された。エクソン平均長は約170 bp、イントロン平均長は約3,300 bpであった。
所見4:SNPデータベースの構築 — 5ドナーから2,100,000超のSNPを同定: n=5 individuals (多様な民族的背景を持つ5名のドナー) 間のアレル差の解析から2,100,000以上のSNPが同定された (Fig. 1)。各ドナーのヘテロ接合サイト密度は平均1 SNP/1,250 bpであり、ヒト集団の遺伝的多様性の定量的基盤が提示された。n=2504 samples (後の1,000ゲノムプロジェクトデータ相当規模) との比較では、同定されたSNPの約55.3%が少なくとも2ドナー間で共有されていた。同定されたSNPのうちタンパク質配列の変化を伴う非同義SNP (non-synonymous SNP、アミノ酸置換) は全SNPの1%未満であった。ゲノム全体にわたってSNP密度には著しい不均一性が認められ、特定のゲノム領域 (ヘテロクロマチン周辺・セグメンタル重複境界等) で高密度となる傾向が示された。個体の55.3%のSNPは少なくとも2つのドナーで共有されており、アフリカ系ドナー由来の固有SNP割合が他の集団に比べ最も高かった。塩基組成の95% CI は全ゲノムレベルで推定され、各サブリージョンのGC含量の統計的不均一性を定量した。
所見5:アセンブリの検証と染色体マッピング精度 — ゲノムの84%を明確な順序で配置 (Table 3):
CSAとWGAの両アセンブリを独立に比較したところ、CSAのゲノムの8.26%がWGAでカバーされず、逆にWGAの3.95%がCSAでカバーされなかった (Table 3)。より厳密な一致解析 (1 kb超の一致) ではWGAの95.0%がCSAでカバーされ高い整合性が確認された。ゲノムの70.1%がアンカースキャフォルドに収まり、そのうち99%以上が配向決定済みであった。追加手法による順序付けを含めると84%のゲノムが明確に順序付け可能と判断された。CSA最大スキャフォルドは148 Mbに達し、WGAでも101 Mbの最大スキャフォルドが得られた。32種のGenBank配列データベース入力機関からの合計4,405,700,825 bpが統合利用された。アセンブリ精度はp<0.01水準で対照参照マーカーとの整合性が統計的に確認された。
考察/結論
本研究は国際コンソーシアム (HGP) のNature誌同時掲載論文 (Lander et al. Nature 2001) とともに、ヒトゲノム配列の初の包括的解読・公開を達成した歴史的論文である。同時期に発表されたゲノムアノテーション手法の体系化 (Stein et al. NatRevGenet 2001) により、解読配列の機能的解釈の基盤が整備された。先行するインフルエンザ菌 (Fleischmann et al. 1995) ・ショウジョウバエ (Adams et al. 2000) でのWGS実績を3 Gbのヒトゲノムに初めて適用し、WGSアセンブリ戦略の大規模真核ゲノムへの適用可能性を実証した。先行研究 (HGP階層的ショットガン戦略) と異なり、本研究はWGSとコンピュータ集約型アセンブリを組み合わせることで全ゲノムを3年以内に解読した革新的アプローチを採用した。
本研究で初めて示されたことは: (1) WGSが3 Gbスケールの真核ゲノムに実際に適用可能であること、(2) ヒトゲノムの推定遺伝子数が従来予測の100,000から26,383〜39,114へと大幅に下方修正されること、(3) n=5名の多民族ドナーを対象とした初の大規模SNPデータベース (210万SNP) の構築、の3点である。推定遺伝子数の大幅減少は、従来予想 (100,000遺伝子) と異なり制御領域の複雑性こそがヒト生物学の多様性を生み出すという認識の転換をもたらし、後のENCODEプロジェクト等の機能ゲノミクス研究の契機となった。
臨床応用として、本ゲノム配列はGWAS・エクソームシーケンシング・がんゲノムプロジェクト (TCGA: The Cancer Genome Atlas・ICGC等) ・単細胞ゲノミクスを含む現代精密医療のすべての基盤リファレンスとなった。TrendsGenet-2022-Hollox-Genome structural variation in human evolution (Hollox et al. TrendsGenet 2022) が示すように、本参照配列の上に構造変異の網羅的解析が発展している。臨床的意義として特に重要なのは、210万SNPカタログがHapMap→1,000ゲノムプロジェクトへと発展し、疾患感受性バリアントの同定・ポリジェニックリスクスコア計算・薬剤反応性予測の標準的なバリアントリファレンスとなっている点である。
残された課題として、ヘテロクロマチン (セントロメア・テロメア等) の完全配列決定 (2022年にT2T-CHM13プロジェクトで完成)、個人ゲノム間の構造多型 (SV: structural variant) の全貌解明、非コード領域の機能注釈の完成が挙げられた。今後の研究方向性として、個人ゲノムの構造的多様性 (コピー数多型・逆位等) のより完全な解析と、SNPの機能的影響の系統的解明が求められる。
方法
多様な民族的背景を持つ5名のドナー (21名から厳選: アフリカ系アメリカ人1名・アジア系中国人1名・ヒスパニック系メキシコ人1名・白人系2名、男性2名・女性3名) からDNAを採取した。3種類のインサートサイズ (2 kb・10 kb・50 kb) のショットガンライブラリーを構築し、ABI PRISM 3700 DNAアナライザーで合計27,271,853高品質シーケンシングリード (平均トリムド長543 bp、精度>99.5%、誤りペア率<2%) を生成した。生成された塩基数は14,808,616,179 bp (約14.8 Gb) であり、ゲノム全体の5.11倍カバレッジに相当する。HGP公開データ (GenBank、2000年9月時点: 4,443.3 Mb = Whitehead/MIT・Washington University・Baylor College of Medicine・JGI・RIKEN・Sanger Centreの各センター分) をシュレッドして合成ショットガンデータ (2.9倍カバレッジ相当) として組み合わせ、実効カバレッジを約8倍に高めた。2つの独立したアセンブリ戦略 [(1) 全ゲノムアセンブリ (WGA: whole-genome assembly) と (2) 区画化ショットガンアセンブリ (CSA: compartmentalized shotgun assembly)] を用いた。CSAでは計3,845コンポーネントにゲノムを分割して各領域を独立にアセンブリした。STS (sequence-tagged site) マーカー・指紋マップを用いてスキャフォルドを染色体上にマッピングし、最終的にゲノムの84%を明確な順序で配置した。遺伝子注釈はEnsembl・RefSeq・ab initio予測・EST/cDNAアラインメントを組み合わせたパイプラインで実施した。SNP同定はn=5名のドナー間のアレル差の比較から行い、χ2検定により統計的有意性を評価した。比較ゲノム解析はマウス等との保存配列比較により実施し、配列アラインメントはBLAST (basic local alignment search tool) を用いた。アセンブリ品質はSTS (sequence-tagged site) マーカーの整合性 (Mann-Whitney U test) で統計検証した。