- 著者: ENCODE Project Consortium
- Corresponding author: N/A (コンソーシアム論文、affiliations は論文末尾に記載)
- 雑誌: Nature
- 発行年: 2012
- Epub日: 2012-09-05
- Article種別: Original Article
- PMID: 22955616
背景
ヒトゲノム配列の解読は Human Genome Project により完了した (Venter et al. Science 2001) が、配列そのものは「部品表」であって、どの塩基がいつどの細胞でどのような機能を担うかという「機能注釈」は大きく欠落していた。比較ゲノム解析からは、ヒトゲノムの 3-8% の塩基が purifying (negative) selection 下にあり機能的でありうると推定される一方、より高い推定値を示す解析もあり、進化的拘束 (evolutionary constraint) のみでは機能要素の全体像を捉えられないことが示唆されていた。
先行研究としては、第一に比較ゲノム学による pan-mammalian constraint (汎哺乳類進化的拘束) の推定 (GERP (Genomic Evolutionary Rate Profiling) scores、24 哺乳類) があり、第二に 1000 Genomes project (Nurk et al. Science 2022 へ至る系譜) によるヒト集団内多型データの整備があった。第三に ENCODE 自身の pilot phase (ゲノムの 1% を対象) が、哺乳類進化的拘束塩基の 60% を注釈した一方で、constraint の証拠を欠く多数の機能要素候補を同定していた。
しかし、これらの機能アッセイには重大な gap が残されていた。すなわち (1) ゲノムのごく一部 (1%) に限定され全ゲノム像が未解明であったこと、(2) 限られた細胞型・限られたアッセイにとどまっていたこと、(3) 異なる実験室・異なるデータ型を統合的に解釈する枠組みが存在しなかったことである。とりわけ、ゲノムの大半を占めるタンパク質非コード領域 (genome の ~98.8%) がどの細胞でどのような調節機能を担うかは、ゲノム規模ではまだ体系的に記述されていなかった。すなわち全ゲノム規模での機能アッセイのカバレッジが決定的に不足しており、この欠落が非コード領域の機能解釈を阻んでいた。次世代シーケンシング技術の成熟により、全ゲノム規模かつ多様な機能アッセイによる精密解析が初めて可能となり、この未解明領域を体系的に注釈する基盤が整った。
目的
ヒトゲノム全域にわたって機能要素 (functional elements) を注釈する 1,640 のデータセットを生成・統合し、転写領域・タンパク質結合領域・クロマチン構造・DNA メチル化・染色体間相互作用を横断的にカタログ化すること。さらに、これらの要素を進化的拘束・ヒト集団多型・GWAS 疾患関連 SNP と統合し、ゲノムのどれだけが生化学的に活性で、非コード機能要素が疾患感受性にどう寄与するかを定量的に評価することを目的とした。
結果
ゲノムの 80.4% が生化学的に活性である:全要素を統合すると、ヒトゲノムの驚くべき大部分である 80.4% が少なくとも 1 つの ENCODE 同定要素でカバーされた (Supplementary Table 1, section Q)。最も広い要素クラスは RNA 型で genome の 62% を占めたが、その大半は intron 内または遺伝子近傍であった。histone modification 高濃縮領域が次に大きく 56.1%、RNA と broad histone を除くと 44.2% がカバーされた。open chromatin 領域は 15.2%、転写因子結合部位は 8.1% を占め、全細胞株を通じて少なくとも 1 つの DHS (DNase I hypersensitive site) または転写因子 ChIP-seq peak が 19.4% をカバーした。最も保守的な評価では、転写因子結合モチーフ (4.6%) または DHS footprint (5.7%) が合わせて 8.5% の塩基をカバーし、これはタンパク質コードエクソン量の約 4.5 倍、汎哺乳類拘束推定量の約 2 倍であった (Concluding remarks)。
転写は広汎かつ大半が非エクソン的である:GENCODE v7 は 20,687 のタンパク質コード遺伝子を注釈し、座位あたり平均 6.3 の選択的スプライスバリアントを持った。タンパク質コードエクソンはゲノムの 1.22% にすぎないが、保守的閾値で同定された long RNA 領域はゲノム塩基の 62% を再現性をもって被覆し、そのうち GENCODE exon で説明されるのは 5.5% のみであった。CAGE-seq (cap analysis of gene expression sequencing) で高信頼の転写開始点 (TSS) を 62,403 同定し、うち 44% のみが既知転写産物の 5’ 端 100 bp 以内にあった。さらに 8,801 の small RNA と 9,640 の long non-coding RNA (lncRNA) loci、11,224 の pseudogene を注釈した (うち 863 が転写され active chromatin と関連)。
百万単位の調節領域マップ:119 の DNA 結合タンパク質を 72 細胞型で ChIP-seq マップし (n=87 [73%] が配列特異的転写因子)、636,336 の結合領域 (genome の 231 Mb [8.1%]) を同定した (Table 1)。配列特異的転写因子が占める DNA セグメントの 86% が強い結合モチーフを含んだ。認識配列を欠く結合領域は認識配列を持つ領域より median score が 21% 低く (Wilcoxon rank sum p<10^-16)、ChIP-seq peak を認識配列との一致度でランクすると下位 20% の median DNase I accessibility は上位 80% の 2-fold (twofold) 高かった (genome structure correction (GSC) p<10^-16)。DNase I hypersensitive site (DHS) は 125 細胞型で 2.89 million のユニーク部位をマップし、tier 1/2 では細胞型あたり平均 205,109 DHS (各細胞型でゲノムの 1.0%、集計で 3.9%) を得た。さらに 41 細胞型のゲノム DNase I footprinting で 8.4 million の distinct footprint を同定し、de novo motif discovery で既知転写因子モチーフの ~90% を回収した。RRBS では 82 細胞株・組織で細胞型あたり平均 120 万 CpG をプロファイルし、96% の CpG が少なくとも 1 つの細胞型・組織で差次的メチル化を示した。
長距離染色体相互作用の複雑なネットワーク:5C 法で 4 細胞型のパイロット 1% 領域における TSS 長距離相互作用を検出し、TSS あたり平均 3.9 の distal element、distal element あたり平均 2.5 の TSS が相互作用する複雑なネットワークを見出した。ChIA-PET では K562 細胞で 127,417 の promoter 中心クロマチン相互作用を同定し (98% が染色体内)、19,813 遺伝子の promoter が「multi-gene」相互作用複合体 (数 Mb に及ぶ) に関与した。5C 結果では長距離相互作用の 50-60% が 4 細胞株のうち 1 つのみで起き、gene-element connectivity の高い組織特異性を示した。
ゲノムを 7 状態に分節化する統合モデル:ChromHMM と Segway の統合により、ゲノムを 7 つの主要状態クラス (TSS、PF [promoter flanking]、E [enhancer]、WE [weak enhancer]、CTCF、T [transcribed]、R [repressed]) に分節化した (Table 3、Fig. 5)。CTCF 状態は細胞型間で比較的不変だったのに対し、E・T 状態は実質的な細胞特異性を示した。予測 enhancer の半数超がマウス・魚 transgenic assay で活性を示した (Fig. 6: hs2065 構築は n=9/9 胚で血管染色、medaka では n=81/100 transgenic test で内皮発現)。SOM による 1,350 状態の高解像度マップでは 228 の distinct GO term が特定セグメントと関連し、全遺伝子の 1/3 超を histone パターンのみから GO 注釈に割当可能であった (Fig. 7)。
機能要素は負の選択を受けるが拘束だけでは捉えきれない:転写因子結合モチーフ・DHS・FAIRE (formaldehyde-assisted isolation of regulatory elements) 領域では、結合のある要素 (bound) がない要素 (unbound) より一貫して高い pan-mammalian constraint とヒト集団多様性の抑制を示した (Fig. 1c)。一方で哺乳類拘束を欠く要素が 17-90% 存在した。primate-specific bases 104,343,413 のうち 67,769,372 (65%) が ENCODE 要素内にあり、これら primate-specific 領域の variant は derived allele frequency の低下 (近年の負の選択の証拠) を示した (Fig. 1e)。これにより、非拘束要素のかなりの割合が lineage-specific な機能要素であることが初めて統計的に示された。
疾患関連 SNP は非コード機能要素に濃縮する:NHGRI GWAS catalogue の 4,492 SNP (4,860 SNP-phenotype 関連) を解析し、12% が転写因子占有領域に、34% が DHS に重なった (Fig. 10a)。これは 1000 Genomes SNP の baseline (それぞれ ~6%、~23%) に比して有意な濃縮であった。連鎖不平衡を含めると、GWAS SNP の最大 71% が DNase I site に重なる候補変異を持ち、31% の loci が転写因子結合部位に重なる候補を持った。さらに phenotype と細胞型・転写因子の対応も非ランダムで、Crohn 病関連 5 SNP が転写因子 GATA2 (GATA-binding factor 2) 結合部位に重なる (P = 0.003) など、疾患感受性に対する具体的な機構仮説 (chr5p13.1 gene desert の GATA (GATA-binding) factor 占有を介した PTGER4 (prostaglandin E receptor 4) 発現調節) を生成した (Fig. 10c)。allele-specific 解析では NA12878 由来 GM12878 で 1,409,992 の phased heterozygous SNP を用い、parental allele 特異的な POLR2A・histone mark のバイアスを検出した (Fig. 8)。melanoma など 4 つの whole-genome cancer dataset では、somatic variant が腫瘍起源細胞型特異的な DHS で相対的に depleted であり、非コード機能要素の腫瘍内での機能的重要性が示唆された (Fig. 9c)。
考察/結論
本研究は、ヒトゲノムの 80.4% が少なくとも 1 つの生化学的 RNA・クロマチン関連事象に関与し、99% の塩基が任意の ENCODE 要素から 1.7 kb 以内、95% の塩基が転写因子結合モチーフまたは DNase I footprint から 8 kb 以内にあることを示した。これは「ゲノムの大部分は junk DNA である」とする従来の見方とは異なり、また pilot phase が 1% に限定されていた先行研究の状況とは対照的に、全ゲノム規模で機能要素を網羅した点で先行する比較ゲノム研究 (Venter et al. Science 2001 の配列解読、後の Nurk et al. Science 2022 の完全ゲノム) を機能注釈の層で大きく拡張した。
本研究で初めて、primate-specific 要素に対する負の選択を統計的に検出するのに十分な検出力が得られ、全 ENCODE クラスがこのユニーク領域で負の選択の証拠を示した点は novel である。最も保守的な推定 (タンパク質結合 8.5%) でも、半数の要素を既にサンプリングしたと仮定すれば最低でもゲノムの 20% (タンパク質結合 17% + コードエクソン 2.9%) が特定機能に関与すると見積もられ、調節情報がコード情報を上回る可能性を提示した。ChromHMM/Segway 統合・SOM・factorbook といった解析資源も、コミュニティが再利用可能な形で構築された点で方法論的に novel である。
臨床応用・translational の観点では、GWAS 疾患 SNP の 88% が intronic/intergenic であり、その大半が ENCODE 非コード機能要素に位置することから、匿名の関連 SNP を機能要素・細胞型・転写因子へ橋渡しする検証可能な仮説生成が可能になった。これは rare disease に対して exome (genome の 1.2%) ではなく whole-genome sequencing を行うこと、cancer の非コード somatic variant を調べることの正当化につながる。MSK-IMPACT のような臨床標的シーケンシングパネル (Cheng et al. JMolDiagn 2015) や腫瘍微小環境の機能解析 (Galon et al. Science 2006) の解釈にも、調節要素カタログは基盤情報を与える。
残された課題・今後の検討としては、ENCODE が既知 1,800 転写因子のうち 119、60 超の histone/DNA modification のうち 13 しかサンプリングしておらず、limitation として専門的・発生限定的な細胞系列をほとんど含まないため、これらの被覆率は過小推定であることが挙げられる。著者らは、本研究が相関の観察研究であって機構的因果を確定するものではない点を明示し、今後 Roadmap Epigenomics Project や International Human Epigenome Consortium と相補して因子・修飾・細胞型を拡大すること、最終目標として全ゲノム variant をその表現型影響に割り当てることを掲げた。
方法
2007 年以降、ENCODE は多様な配列ベースアッセイを開発・実行した。転写領域は RNA-seq・CAGE (cap analysis of gene expression)・RNA-PET (RNA paired-end tag) と手動アノテーションで、タンパク質コード領域は mass spectrometry で、転写因子結合部位は ChIP-seq (chromatin immunoprecipitation sequencing) と DNase-seq (DNase I hypersensitivity sequencing) で、クロマチン構造は DNase-seq・FAIRE-seq (formaldehyde-assisted isolation of regulatory elements sequencing)・histone ChIP-seq・MNase-seq (micrococcal nuclease sequencing) で、DNA メチル化は RRBS (reduced representation bisulphite sequencing) で、染色体間相互作用は 3C (chromosome conformation capture) 系技術 (5C [3C-carbon copy] および ChIA-PET [chromatin interaction analysis by paired-end tag sequencing]) でマップした。各アッセイの discrete element 呼び出しでは false discovery rate (FDR) 1% を閾値とした。
細胞型は優先度別に階層化された。Tier 1 は最優先 3 細胞株 (K562 erythroleukaemia、GM12878 B-lymphoblastoid [1000 Genomes project の NA12878 由来]、H1 embryonic stem cell)、Tier 2 は HeLa-S3・HepG2・HUVEC、Tier 3 は 100 を超えるその他細胞型 (primary cells を含む)。合計 147 細胞型で計 1,640 データセットを生成した。
データは標準化ガイドラインで処理され、各アッセイで signal (per-base 推定値) と discrete element (signal 濃縮領域) の両表現を生成した。再現性評価には irreproducible discovery rate (IDR) を導入し、生物学的 replicate 間でランクが一致しなくなる閾値を robust に推定した。artefact 領域 (multicopy regions 等、ゲノムの 0.39%) は大半の解析から除外した。遺伝子注釈は GENCODE reference gene set (v7) を用い、ゲノム統合は判別学習 (discriminative training) と教師なしセグメンテーション (ChromHMM と Segway の統合) および self-organizing map (SOM) で行った。