Initial sequencing and analysis of the human genome

著者: International Human Genome Sequencing Consortium
Corresponding author: N/A (国際コンソーシアム、筆頭 PI: Eric S. Lander)
雑誌: Nature
発行年: 2001
Epub日: N/A
Article種別: Original Article
PMID: 11237011

背景

ヒトゲノムの完全解読に向けた取り組みは、1977-1982年にかけてファージΦX174・ラムダ・SV40 (Simian Virus 40)・ヒトミトコンドリアゲノムの配列決定が完了し、小規模ゲノムの解読可能性が実証されたことに端を発する。その後 1995年に初の自由生活性細菌 Haemophilus influenzae Rd (1.83Mb) が全ゲノムショットガン法で解読され、1996年には酵母 Saccharomyces cerevisiae (12Mb)、1998年には線虫 C. elegans (97Mb) が完成し、大規模ゲノム解読の基盤技術が確立した。しかしヒトゲノムはその25倍以上の規模 (約3,200Mb) であり、かつゲノムの約50%が反復配列で占められるという複雑な構造を持つため、全ゲノムランダムシークエンシング戦略は当初困難と考えられていた。

ヒトゲノムプロジェクト (HGP) は1990年に米国・英国・日本・フランス・ドイツ・中国の6カ国20機関の国際コンソーシアムとして発足した。HGP が採用した階層的ショットガンシークエンシング戦略は、BAC (bacterial artificial chromosome) クローンのタイリングパスを足場とすることで反復配列の多いヒトゲノムに対応するものであった。この方法の理論的基盤はあったものの、ヒトゲノム全体を対象とした全ゲノム規模での解析・比較ゲノム学的知見・実際の遺伝子数・SNP密度・セグメント重複の分布は2001年以前には体系的なデータが存在しなかった。先行研究として、Fleischmann et al. (Science 1995) による初の自由生活性細菌 H. influenzae 全ゲノムショットガン解読、Goffeau et al. (Science 1996) による酵母 S. cerevisiae の全ゲノム完全解読 (6,000遺伝子、12Mb)、C. elegans Sequencing Consortium (Science 1998) による線虫ゲノム完全解読、Adams et al. (Science 2000) によるショウジョウバエゲノム解読が先駆的に実施されていたが、いずれも原核生物または小型真核生物に限定されており、ヒトのような大型・反復配列豊富なゲノムでの遺伝子数・反復配列全貌・セグメント重複分布は未解明のまま体系的なデータが不足していた。Celera Genomics の Venter らによる全ゲノムショットガン法との並行競争的解析 (Venter et al. Science 2001) が同日号に掲載されたが、公共データベースへの即日・無制限公開 (バミューダ原則) を徹底したのは本コンソーシアムのみであった。全ゲノム配列情報が存在しなかったため遺伝子数推定・反復配列全貌・ゲノム景観の染色体間変動・変異率の性差といった基礎的問いへの統一的な検証が不可能であった。こうしたヒトゲノムの構造的実体に関する知識が根本的に不足していた (fundamental absence of systematic knowledge on human genome architecture) ことが、本研究以前に解決されていなかった中心的なギャップであった。

目的

ヒトゲノムのドラフト配列を国際公開データベースに公開し、(1) ゲノムの連続性・網羅性の評価、(2) 反復配列の組成・分布・進化的記録の解明、(3) タンパク質コード遺伝子数の推定とプロテオームの複雑性の定量的評価、(4) SNP・変異率・組換えの全ゲノム規模での計測、(5) 比較ゲノム学的考察を通じた進化的知見の導出、を達成すること。

結果

ドラフト配列の連続性と網羅性: n=29,298クローンのシークエンシングによりドラフト配列が構築され、4.26Gbの一次配列データが GenBank に登録された。真正染色質の約94%がカバーされており、全体の91%以上が塩基品質スコア>40 (PHRAP基準; base error rate <0.01%) の高品質配列であった (Table 2)。コンティグ連続性は N50=81.9kb (Table 7、Fig. 8) で、クローンコンティグのN50は826kb、スキャフォールドのN50は274.3kbに達した (Table 6)。残存ギャップ数はn=145,514個であった (Table 9)。全染色体に渡るゲノム総サイズは真正染色質で約2,900Mb、ヘテロクロマチン含む推定全ゲノムで約3,200Mbと見積もられた (Table 8)。15カ月の解読期間中に GenBank 登録量が急速に増加し (Fig. 4)、配列蓄積速度は2000年後半に特に加速した。

反復配列の組成・分布・進化的記録: ヒトゲノムの約50%は繰り返し配列で占められ、RepeatMasker で認識可能なものは全体の44.83%に上った (Table 11)。クラス別内訳はSINEs 13.14% (うちAlu 10.6%、n=約1,090,000コピー; MIR (mammalian-wide interspersed repeat) 2.2%)、LINEs 20.42% (LINE1 16.89%、n=約516,000コピー; LINE2 3.22%)、LTR型レトロトランスポゾン 8.29%、DNAトランスポゾン 2.84%であった。これはショウジョウバエの3.1%、線虫の6.5%に対して著しく高い比率である (Table 12)。

Alu配列 (SINEs) はGCリッチ領域に選択的に偏在しており (Fig. 23)、これは挿入時のGC中立性と異なり「GCリッチ環境での選択的保持」が起きていることを示す。HOXクラスター (HOXA-D) はゲノム中で最も反復配列密度が低い領域のひとつであり (Fig. 21)、複雑な発生制御遺伝子の進化的保存機構を反映していると解釈された。DNAトランスポゾンの新規挿入はヒト系統では>50Myrにわたり認められず (Fig. 18)、反復配列の進化的不活化がヒト特有のパターンを示すことが明らかになった。サブテロメア・セントロメア周囲には>50kbかつ同一性98-99.9%を超える大型セグメント重複が集中しており、これはショウジョウバエ・線虫より著しく高い頻度で、霊長類特有の進化的事象を反映する。

タンパク質コード遺伝子数の推定と比較ゲノム解析: Ensembl/IGI 統合予測により n=31,778のタンパク質コーディング遺伝子予測が得られ、複数手法の統合解析から真の遺伝子数は24,500〜31,000個 (保守推定) 〜 30,000〜40,000個 (広義推定) と算出された (Table 22)。これは線虫のn=18,266、ショウジョウバエのn=13,338と比較して2-3倍程度にとどまり、従来予測の70,000-100,000個を大幅に下回った (Table 23)。遺伝子の中央値サイズは約14kb、CDS (coding sequence)長は中央値1,100bp (約367アミノ酸) であった (Table 21、Fig. 35)。

ヒトタンパク質ドメインの比較では、多くが既存ドメインのシャフリング・再利用による「ドメインアーキテクチャの多様化」であり、脊椎動物特異的ドメインは全体の約7%にとどまった。第22染色体でのmRNA解析では59%の遺伝子が代替スプライシングを示し、平均2.6転写産物/遺伝子が産生されており (Fig. 36)、プロテオームの複雑性が遺伝子数以上に大きいことが示された。GC含量と遺伝子密度には正の相関があり (Spearman r=0.62、n=24 染色体、p<0.001) (Fig. 36)、GCリッチ染色体 (19番、22番) ではGC貧弱染色体 (13番、18番) の数倍の遺伝子密度が認められた。

SNP・変異率・ゲノム多様性の全ゲノム規模計測: n=1,400,000以上のSNPが同定され、ゲノム全景として Fig. 9 に12トラックにわたる情報が可視化された。平均SNP密度は約1/1,300bp (ヘテロ接合率=7.6×10^-4) であり、染色体・ゲノム領域ごとに大きく変動した。CpGアイランドはn=28,890個と同定され、平均密度は10.5個/Mbであった (Table 10、Fig. 14)。組換え率は染色体端部 (末端約20Mb) および短腕で高く、各染色体腕で少なくとも1回の交差を確保する obligate chiasma のパターンと一致した (Fig. 16)。男性生殖細胞系列における塩基変異率は女性の約2倍であり (male-to-female mutation ratio ~2-fold)、変異の大部分が精子形成過程に由来することが示された。

考察/結論

既存研究との比較・違い: 先行研究では線虫 (n=18,266個)・ショウジョウバエ (n=13,338個) の遺伝子数から線形外挿し、ヒトの遺伝子数は70,000-100,000個と広く想定されていた。本論文の推定値 (24,500〜40,000個) はその約半分以下であり、「遺伝子数そのものが生物的複雑性の主要規定因子である」という従来概念を刷新した。線虫・ショウジョウバエと異なりヒトでは代替スプライシングの割合 (第22染色体で59%) がはるかに高く、1遺伝子から産生されるタンパク質バリエーションが豊富である点が大きな相違である。がんゲノム研究においても、患者ごとのゲノム変異を網羅的に解釈する基盤として本論文の参照配列が不可欠となっており (Ravi et al. NatGenet 2023)、腫瘍変異負荷 (TMB) や体細胞変異の定量には本論文が確立した参照ゲノム・SNPカタログが前提となる。

本研究で初めて明らかになった点 (新規性): 全ゲノム規模で体系的に実施された比較ゲノム解析により、「ヒトプロテオームの複雑性はドメイン数の拡大よりもドメインアーキテクチャ (組み合わせ多様性) によって実現されている」ことが初めて定量的に示された。また、反復配列の約50%占有率・Aluの GC リッチ偏在・DNA トランスポゾンの>50Myr前からの不活化・HOX クラスターの反復配列貧困化といった知見は、HGP 以前は間接証拠のみに基づいていたものであり、全ゲノム配列データによって初めて直接検証された。個別患者の腫瘍変異解析 (Tran et al. Science 2014) が可能となったのも、本論文のヒト参照ゲノム公開に基づく。

臨床・科学応用: SNPカタログ (n=1,400,000以上) の構築はゲノムワイド関連解析 (GWAS) の技術的基盤を提供し、遺伝子診断・薬理ゲノミクス・精密医療の現代的実践への橋渡しとなった。バミューダ原則に基づく即日・無制限公開は後続の HapMap・ENCODE・1000 Genomes・がんゲノムアトラス (TCGA) 等の国際コンソーシアム研究すべての基盤を形成した。本論文が確立した参照ゲノムなくして現在の免疫チェックポイント阻害薬の効果予測に用いられる TMB・MSI 等のバイオマーカーの定量化も不可能であった。

残された課題: 本論文自体が明記した残存課題として、(1) n=145,514個のギャップ閉鎖による「完成版」への移行、(2) 遺伝子の精確な注釈と偽遺伝子の除去、(3) 機能的非コード配列 (エンハンサー・サイレンサー等) の同定、があった。これらは2004年の完成版報告 (NCBI Build 35、遺伝子数を20,000-25,000個に更新)、ENCODEプロジェクト (非コード機能配列の体系的注釈)、1000 Genomes Project (集団多様性の精密化)、そして2022年の Telomere-to-Telomere (T2T) コンソーシアムによる完全配列へと段階的に引き継がれた。今後の検討として、セグメント重複が集中するサブテロメア領域の解読完了と、各 SNP の機能的意義の解明が最重要課題として残されていることも本論文で指摘されている。

方法

シークエンシング戦略と物理マップ: 真正染色質ゲノムの約96%をカバーする物理マップに基づき、RPCI-11 (Roswell Park Cancer Institute library-11) BAC ライブラリ (平均インサートサイズ 178kb、543,797 クローン)、CalTech D ライブラリ、RPCI-1/-3/-4/-5 (Roswell Park Cancer Institute libraries 1, 3, 4, and 5) PAC (P1-derived artificial chromosome; P1: bacteriophage P1-based cloning vector) ライブラリほか計8種の大型インサートライブラリ (合計で約65倍の冗長カバレッジ) からクローンを選択した。各クローンは HindIII フィンガープリンティングで重複確認を行い、タイリングパスを構築した。

シークエンシングとアセンブリ: 各 BAC/PAC クローンを約4-5倍カバレッジのショットガン解読 (half-shotgun) した後、PHRED (Phil’s Read EDitor quality-scoring algorithm) および PHRAP (Phil’s Read Assembly Program for sequence assembly) スコアによる品質評価を行い、GigAssembler プログラムでコンティグをアセンブルした。最終的な公開配列は2000年10月7日時点のデータを基に構築された。

反復配列解析: RepeatMasker (バージョン 09092000、RepBase Update 5.08) により既知の反復配列ファミリー (SINEs (Short Interspersed Nuclear Elements)、LINEs (Long Interspersed Nuclear Elements)、LTR (Long Terminal Repeat)型レトロトランスポゾン、DNAトランスポゾン) を検出・分類した。反復配列の進化的年齢推定には Jukes-Cantor 1-パラメータモデル (K = -3/4 ln(1-4p/3)) による塩基置換率算出を用いた。

遺伝子予測: Ensembl システム (Genscan による ab initio 予測 + EST/タンパク質相同性による確認)、および Genie プログラム (mRNA/EST (expressed sequence tag) を用いた隠れマルコフモデル) の2種類の遺伝子予測システムを使用した。予測を統合した Integrated Gene Index (IGI) および Integrated Protein Index (IPI) を構築し、RefSeq・SwissProt・TrEMBL との比較で重複除去・確度評価を行った。

SNP同定とゲノム多様性解析: 公開データベース (HapMap等) の配列比較からSNPを同定し、密度・ヘテロ接合率・染色体ごとの分布を算出した。組換え率は既存の遺伝的地図との比較で算出した。連続性評価には N50 (N50: the contig length at which 50% of the assembled sequence is contained in contigs of that size or larger) 統計量を用いた。

統計解析: ゲノム特性間の関連評価には Spearman 順位相関係数 (rs) を適用した (GC含量 vs 遺伝子密度、GC含量 vs 組換え率、SNP密度 vs 組換え率の各ペアで実施)。転移因子コピー数のクラス間分布比較には Kruskal-Wallis 検定、男女間塩基変異率の差異評価には二項検定 (binomial test) を用いた。

Research Wiki

エクスプローラー

Initial sequencing and analysis of the human genome

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク