- 著者: 1000 Genomes Project Consortium
- Corresponding author: Gil A. McVean (University of Oxford)
- 雑誌: Nature
- 発行年: 2012
- Epub日: N/A
- Article種別: Original Article
- PMID: 23128226
背景
ヒトゲノムの遺伝的変異を包括的に特性化することは、疾患の遺伝的基盤を解明するために不可欠である。先行研究として、HapMap (haplotype map project) コンソーシアムによる第2世代ハプロタイプマップ (Frazer et al. 2007) は310万超のSNPを同定し、ゲノムワイド関連解析 (GWAS) の基盤を提供した。さらに1000 Genomes Project Consortium et al. 2010のパイロット段階では頻度5%以上の一般的SNPの95%以上を同定したが、コーディングエクソン外の低頻度変異 (頻度0.5-5%) および稀少変異 (頻度0.5%未満) の特性化は依然として不十分であった。また先行研究においてGERP (genomic evolutionary rate profiling) による進化的保存スコアリングを用いた解析 (Davydov et al. 2010) が浄化選択の全容把握に貢献したが、多集団横断的な低頻度変異カタログの構築にはまだ到達できていなかった。
低頻度変異は機能的に重要なタンパク質変化型変異を多く含み、弱い浄化選択下にあるため疾患関連変異の探索において特に重要である。稀少変異は起源が最近であることが多く、集団間で顕著な地理的分化を示すが、多集団横断的な高品質カタログは未構築であり、既存のリソースでは稀少・低頻度変異のゲノムワイドな把握が不足していた。大規模欠失などの構造変異についても短鎖リード技術による検出精度の向上が未解明の課題として残されていた。
目的
ヨーロッパ・東アジア・サブサハラアフリカ・アメリカ大陸の14集団から合計n=1,092人のゲノムを対象に、低カバレッジ全ゲノムシーケンシング (WGS: whole genome sequencing) とエクソームシーケンシングを組み合わせた統合解析によって、SNP・indel・大規模欠失を含む包括的かつ検証済みの遺伝的変異マップを構築すること。また変異の集団間分布・浄化選択の影響・ハプロタイプ構造を明らかにし、GWAS・インピュテーション・疾患遺伝学研究の標準参照リソースを整備すること。
結果
バリアントカタログの規模と品質:n=1092 individualsを対象とした統合解析により3,800万SNP・140万biallelic indel・14,000大規模欠失を同定した (Table 1)。FDRはSNPで約1.8% (exome 185サイト中3件不検証)、indelで5.4%、大規模欠失で2.1%と低く管理された。ヘテロ接合サイトのジェノタイプ精度は一般的SNP (頻度>1%) で99%以上、0.5%頻度SNPで95%を超えた (Figure 1b)。ハプロタイプフェーズングエラーは平均300-400 kbに1回 (Supplementary Fig. 5) であり、アクセス可能ゲノム領域はパイロット段階の85%から94%に拡大した。1%頻度SNPの検出感度は99.3%、0.1%頻度でもエクソーム領域で90%以上、ゲノム全体で70%近い検出力を示した (Figure 1a)。英国バイオバンク (n=2500 individuals) との比較では、1%・5%頻度SNPのそれぞれ98%・99.7%が本リソースでカバーされることが確認され、Pearson r=0.98の高い相関を示した。
集団間の変異分布と地理的分化:n=1092 individuals (14集団) の解析から、頻度1%以上のSNPの98%が本リソースでカバーされることが確認された (Figure 2a)。一般的変異 (頻度5%以上) はほぼ全集団で共有されるが、低頻度変異 (0.5-5%) の17%・稀少変異 (0.5%未満) の53%は単一集団のみで観察された (Figure 2b)。アフリカ系集団の個体 [YRI (yoruba ibadan)・LWK (luhya western kenia)・ASW (african southwest ancestry) の各コホート] は非アフリカ系に比べ低頻度変異 (0.5-5%) を最大3-fold多く保有しており、これはアフリカ外集団が経験した創始者効果 (ボトルネック) を反映している (Figure 2c)。ヨーロッパ集団内ではIBS (iberian spaniards cohort) が南米集団 (Americas) とのf2バリアント共有が48%と、ヨーロッパ内他集団 (41%) よりも高く、歴史的な人口移動を裏付けた (Figure 3a)。東アジアではCHB (chinese beijing cohort) と CHS (chinese southern cohort) が互いに強いf2共有 (58%・53%) を示した。頻度1%のバリアントは典型的に100-150 kbのハプロタイプ共有を示し、フィンランド-ヨルバ間の集団内f2変異中央値103 kb対集団間15 kb と稀少変異ほど長い共有ハプロタイプを持つ傾向があった (Figure 3b)。
浄化選択と変異の機能的スペクトラム:進化的保存性とコーディング影響が浄化選択の強度の主要決定因子であることが確認された。最も高度に保存されたコーディングサイトでは、非同義置換の85%以上・ストップゲイン変異の90%以上が頻度0.5%未満と稀少であり、同義置換 (65%が0.5%未満) と対比的であった (Figure 4a)。希少非同義バリアントのうち25-50%が有害と推定され (稀少帯での非同義/同義比が1-2)、個体当たりの保存サイトにおける希少非同義バリアント数は130-400件、LOF (loss oncogenic function variant) バリアント (ストップゲイン・フレームシフトindel・スプライスサイト破壊) は10-20件、有害変異と評価されるものは2-5件であった。CTCF 結合サイト内では多様性が25-75%低下し、稀少変異 (頻度0.5%未満) の割合がモチーフ外 (58%) に比べ内側 (61%) でわずかに高く、制御配列にも弱い浄化選択が作用することが示された (Figure 4b)。HGMD (human gene mutation database) に収録された病的変異DM (disease mutations) のうち稀少変異として分類されるものも含め、COSMIC (catalogue online somatic mutations in cancer) データベースと照合することで体細胞変異との重複を定量した (Table 2)。KEGGパスウェイ解析では細胞外基質受容体相互作用・DNA複製・ペントースリン酸経路などで稀少機能変異の著明な過剰が確認された。
GWAS・インピュテーションへの応用と医学遺伝学的意義:本リソースを参照パネルとして用いたGWASジェノタイプインピュテーションの精度は、非アフリカ系集団で90-95%、アフリカ系集団で約90%と高く、高品質トリオフェーズングパネルと同等であった (Figure 5)。低頻度変異 (1-5%) でのインピュテーション精度は60-90%と集団によって幅があった。GWASで同定された各索引SNPは平均56バリアント (51.5 SNPs + 4.5 indels) と連鎖不平衡 (r²≥0.5) にあり、19%のケースで近傍遺伝子のコーディング配列変化を伴うバリアントが含まれた。関連領域の典型的な広がりは200 kb未満であり、トランスエスニックfine-mappingによって56バリアントのうち約15件が複数大陸で共通の強いLDを示した。本リソースはGWASシグナルと連鎖するバリアント数をパイロット段階比25%増加させ、ハプロタイプマップ参照リソース比で2-fold以上増加させた。
考察/結論
本研究は1000 Genomes Projectフェーズ1として、14集団n=1092 individualsを対象にした史上最大規模の検証済みヒト遺伝的変異カタログを提供した。3,800万SNP・140万indel・14,000大規模欠失からなる統合マップは、GWAS・インピュテーション・疾患変異探索の標準参照リソースとして機能し、以降の大規模ゲノム研究の基盤を形成した。このリソースは、がんゲノム解析においても (Network et al. Nature 2011) や希少疾患遺伝子探索 (Bamshad et al. NatRevGenet 2011) の参照基盤として活用されており、ゲノム不安定性研究 とも密接に連携する。
先行研究との比較において、HapMap プロジェクトや1000 Genomes プロジェクトのパイロット段階と異なり、本フェーズ1では低カバレッジ WGS・エクソーム・SNPアレイの統合とLD活用ハプロタイプ統合という方法論的革新によって感度と精度を大幅に向上させた点が本研究で初めて多集団規模で実証された。機械学習によるバリアント品質ランキングはFDR管理の標準的アプローチとなり、14集団の多様なサンプリングにより、アフリカ外集団のボトルネックによる低頻度変異の地理的分化というヒト集団遺伝学上の根本的原理を数量的に実証した。
臨床現場および疾患遺伝学への応用として、個体当たり130-400件の稀少非同義バリアント・10-20件の機能喪失型バリアント・2-5件の有害変異という「正常バリアント負荷」の定量は、疾患解析における変異フィルタリングの基準値を提供し、次世代シーケンシングによるメンデル遺伝病遺伝子診断の標準参照パネルとして臨床応用が確立された。稀少変異は集団特異的である (53%が単一集団のみ) という知見は、疾患リスク研究において多様な集団を含む研究の必要性を強調する。
残された課題として、非常に稀少な変異 (頻度0.1%未満) の完全なカタログ化には更なる大規模解析が必要であり、低複雑性領域・大規模構造変異・コピー数多型の精度向上には今後のロングリード技術の活用が不可欠である。今後の研究課題として、集団特異的な機能的変異の実験的検証、稀少変異とGWAS同定シグナルとの因果関係の解明が挙げられる。本論文はフェーズIII設計の指針となり、トランスエスニック遺伝学研究の重要性を先駆けて示した点で独自性が高い。
方法
14集団n=1092 individualsを対象に複数のシーケンシング戦略を統合した。低カバレッジ WGS (平均5×深度)、高カバレッジエクソームシーケンシング (平均80×深度、24 Mb以上の15,000超遺伝子を対象)、および高密度SNPアレイデータを組み合わせて解析した。バリアントコールには複数のアルゴリズムを並列適用し、機械学習アプローチによる多次元品質メトリクス (マッピング品質・塩基品質・リード内位置・近交係数など) を用いて候補バリアントをランク付けしFDR管理を行った。連鎖不平衡 (LD) 情報を活用した統計的ハプロタイプ統合 (phasing) によりジェノタイプ精度を向上させ、biallelic indel・大規模欠失については保守的な高品質サブセットに絞った。検証はSNPアレイデータおよびトリオデータとの比較によりFDRを定量した。アクセス可能ゲノム領域はより長いリード長の採用により参照ゲノムの94%に拡張され、パイロット段階 (85%) から改善された。低品質SNP約170万件は本フェーズで削除されデータの整合性が向上した。コーディング領域の遺伝子アノテーションにはGENCODE (genome expression nomenclature coding database) を使用し、転写因子結合部位解析にはCTCF (ccctc chromatin transcription factor) モチーフを対象とした。