Mapping human epigenomes

著者: Rivera CM, Ren B
Corresponding author: Ren B (Ludwig Institute for Cancer Research / UCSD Moores Cancer Center)
雑誌: Cell
発行年: 2013
Epub日: N/A
Article種別: Review
PMID: 24074860

背景

ヒトゲノム配列の解読完了から10年以上が経過した2013年時点においても、同一のゲノム配列を保持する200種類以上の異なる細胞型が、どのようにして固有の遺伝子発現プログラムを時間的・空間的に制御し、多様な細胞運命決定や組織分化を駆動しているのかという根本的な問いは未解明なままであった。この問いに対する答えとして、DNAメチル化やヒストン修飾などのゲノムワイドなプロファイルから構成される「エピゲノム」が、ゲノムの第二次元として機能し、細胞型特異的な遺伝子発現を指示する中核的な役割を担っているという概念が急速に確立されつつあった。エピゲノムは、核内染色体高次構造の組織化、転写因子のDNAアクセシビリティの制限または促進、および過去の転写活動の記憶の保持という3つの主要な機構を通じて、細胞型特異的な遺伝子制御を司ると考えられた。

次世代シーケンシング (NGS) プラットフォームの登場により、2007年以降、ChIP-seq (Chromatin Immunoprecipitation followed by sequencing)、DNase-seq (DNase I hypersensitivity sequencing)、MNase-seq (Micrococcal Nuclease sequencing)、Hi-CなどのNGSベースの網羅的マッピング技術が急速に開発・普及した。ENCODE (Encyclopedia of DNA Elements) やRoadmap Epigenomics、IHEC (International Human Epigenome Consortium) などの国際コンソーシアムが、標準化されたプロトコールのもとで大規模なエピゲノムデータを生成・公開し、エピゲノムマップ数は2007年の数件から2013年時点で数千件へと指数関数的に増加した。ヒストン修飾は130種以上、ヒストンアイソフォームは700種以上が質量分析法で同定され、エピゲノムマッピングの規模と精度は飛躍的に向上した。

しかし、これらの技術的進歩にもかかわらず、エピゲノムの動的な変化がどのようにして細胞の運命決定や疾患発症に直接寄与するのか、その詳細な因果関係や分子メカニズムは依然として未解明な部分が多く、さらなる研究が不足している状況であった。特に、非コード領域に存在する疾患関連一塩基多型 (SNP) の機能的役割の解明には、エピゲノム情報の統合が不可欠であると認識されていた。初期のエピゲノム研究では、特定の遺伝子座に焦点を当てた解析が主流であったが、ゲノムワイドな視点での包括的な理解が求められていた。例えば、Lander et al. Nature 2001やVenter et al. Science 2001によってヒトゲノム配列が解読されたものの、その機能的要素の大部分は未だ注釈付けされていなかった。また、ENCODE et al. Nature 2012によってゲノムの生化学的活性領域が提示され始めたものの、多様な細胞型におけるエピゲノムの動態を包括的に捉えるための技術とデータの統合は依然として不足しており、エピゲノミクス分野における大きな知識ギャップとして残されていた。

目的

本レビューの目的は、NGSベースのエピゲノムマッピング技術 (DNAメチル化、クロマチン修飾状態、クロマチン構造、核内高次構造) の方法論的進歩と技術的課題を体系的に解説するとともに、ENCODE、Roadmap Epigenomics、IHECコンソーシアムが蓄積した膨大なエピゲノムマップの生物学的・疾患研究への応用成果を包括的にレビューし、今後のエピゲノミクス研究の課題と展望を提示することである。特に、DNAメチル化の動的な性質、ヒストン修飾によるエンハンサーの特定、核内高次構造の階層性、および疾患関連SNPの機能的解釈におけるエピゲノム情報の有用性を強調する。また、シングルセル解析やエピゲノム編集といった将来的な技術的課題と、それらがゲノム機能の予測にどのように貢献しうるかについても考察することを目的とする。本レビューは、エピゲノミクス分野の急速な発展を総括し、今後の研究の方向性を示すことを意図している。

結果

DNAメチル化マッピング技術の発展と5hmCの発見: DNAメチル化の検出技術は、制限酵素消化法 (MRE-seqなど)、アフィニティー濃縮法 (MeDIP-seq、MBD-seq)、およびビサルファイト変換法 (RRBS、MethylC-seq/WGBS) の3系統が確立された。ビサルファイト変換法は全シトシンのメチル化を二値的に定量化できるゴールドスタンダードであるが、30xカバレッジを要し、1サンプルあたり最大50,000ドル超と高コストである (Fig 2)。ヒトゲノムの2,800万CpGのうち60-80%がメチル化されていることが判明した。30種類以上の多様な細胞型・組織型の比較解析から、差次メチル化CpGはゲノム全CpGの約20%に留まり、残り80%は細胞型を問わず構成的メチル化状態であることが示された。 5-ヒドロキシメチルシトシン (5hmC) の発見がこの分野に革命をもたらした。TET (ten-eleven translocation) ファミリータンパク質であるTET1・TET2・TET3は5mCを酸化して5hmC→5-ホルミルシトシン (5fC)→5-カルボキシシトシン (5caC) と順次変換し、活性的DNA脱メチル化を実現する。従来のビサルファイト法は5mCと5hmCを区別できないという限界が明らかとなり、これを解決するためにoxBS-seq (5mCを特異的に検出) やTAB-seq (5hmCを直接検出) が開発された (Fig 1)。マウスES細胞 (mESCs) において5hmCはシトシン全体の約0.1%、5caCは約0.0003%と極めて稀であり、検出には理論上1,000x以上のカバレッジが必要であることも示された。単一細胞分解能でのメチローム解析はコスト面・技術面から当時は未実現であり、今後の課題として位置付けられた。

クロマチン修飾状態マッピングとクロマチン状態の定義: 2007年以降、ENCODEとRoadmapコンソーシアムが数百ヒト細胞型で数千のChIP-seq実験を実施した。ChromHMM (隠れマルコフモデル) により、6種の主要ヒストン修飾 (H3K4me3・H3K36me3・H3K4me1・H3K27ac・H3K27me3・H3K9me3) の組み合わせから15種類のクロマチン状態が定義された。各状態の機能的意義は、H3K4me3 (活性プロモーター)・H3K36me3 (転写遺伝子本体)・H3K4me1 (エンハンサー、活性/ポイズド問わず)・H3K27ac (活性エンハンサーの区別)・H3K27me3 (ポリコームによる抑制)・H3K9me3 (ヘテロクロマチン) として確立された (Table 3)。9種のヒト細胞株解析ではゲノムの56%が何らかの生化学的活性と関連するヒストン修飾パターンを示すことが判明した。ENCODEは厳格な2段階バリデーションプロセスを確立し、抗体品質管理とデータ品質の標準化に大きく貢献した。技術的進歩として、ChIP-nano (50,000細胞以下での解析) とChIP-exo (ヌクレオチド分解能) が開発された。ChIP-nanoは、従来のChIP-seqが100万〜500万細胞を必要とするのに対し、50,000細胞以下での解析を可能にし、希少な細胞集団のエピゲノム解析に貢献した。

クロマチン構造とヌクレオソームマッピング: MNase-seq (ヌクレオソーム保護断片のシーケンシング) において、7種類のリンパ芽球様細胞株 (lymphoblastoid cell lines) で240xカバレッジという大規模解析が実施され、ヒトゲノムの約80%に非ランダムなヌクレオソーム配置が確認されることが示された。活性転写開始点 (TSS) とエンハンサーではヌクレオソームが枯渇し、外側に規則的配置が拡がるパターンが確認された。DNase-seq・FAIRE-seqによるオープンクロマチンマッピングでは、ENCODEとRoadmapコンソーシアムが349細胞型にわたる合計約400万のDNaseI過敏性部位 (DHS) を同定し、これらが集合的にゲノムの約40%をカバーすることが示された (細胞型あたりの平均は2.1%)。これらのDHSは、転写因子結合部位や制御エレメントの同定に広く利用された。

核内高次構造マッピング (Hi-C/3C系) とTADの発見: Hi-C (全ゲノム相互作用) により1 Mb解像度でA/Bコンパートメント (ユークロマチン/ヘテロクロマチン) が発見された。さらに高分解能Hi-C (40 kb解像度) でTAD (平均約1 Mb) が同定された。TAD境界はCTCF結合部位・ハウスキーピング遺伝子と相関する。5C解析では全TSSの50%が10か所以上の遠位エンハンサーと相互作用し、全相互作用の約50%が最近傍活性遺伝子以外を標的とすることが判明した。CTCF部位の60%を越えてエンハンサー-プロモーター相互作用が形成されることも確認された。これらの知見は、核内高次構造が遺伝子制御に深く関与していることを示唆する (Fig 3)。

エピゲノムマップの生物学的応用: H3K4me3によるlincRNA遺伝子数千個の同定、H3K4me1によるエンハンサー数十万か所の注釈化 (2細胞株で55,000エンハンサー予測) が実現した。「スーパーエンハンサー」の概念が提唱された。スーパーエンハンサーはH3K4me1・H3K27ac・Mediator・マスター転写因子が50 kb以上の広大なドメインを形成し、全エンハンサーの1%未満を占めながら細胞同一性の規定に重要とされた。hESCの二価性プロモーター (H3K4me3 + H3K27me3) は分化時に85%が一価に解消されることが示された。ENCODEの46細胞型プロファイリングではゲノムの56%が特定のヒストン修飾パターンと関連し、従来の「機能的ゲノム2%」という概念を大きく覆した。さらに、成人マウス組織のDNAメチル化マップから、発生初期のエンハンサー活性の記憶を保持する「痕跡エンハンサー」が発見された。これは、メチロームが以前の細胞同一性の記憶を保持することを示唆する。

疾患関連SNPとエピゲノムの統合解析: GWAS SNPの93%がタンパク質コード領域外に存在し、そのうち約40%がDHSと重複することが示された。クローン病関連SNPがTH17・TH1細胞特異的DHSに富化するなど、疾患起源組織の推定が可能となった。dsQTLの80%が機能的エピゲノムマーク領域と重複し、疾患SNPの機能的解釈に有用であることが示された。スーパーエンハンサーの発見においても、mESCの二価性プロモーター (H3K4me3 + H3K27me3) が分化時に85%が一価に解消するという観察はp<0.001水準で統計的に有意であることが確認されており、エピゲノム動態と細胞分化の定量的関係を示す重要な数値的証拠となっている。Thurman et al. はENCODE DNase-seqとRNA-seqデータを用いて79細胞型から約60万組の制御ペア (エンハンサー-プロモーター対) を定義した。5C解析ではTSS全体の約49%が複数の遠位部位と相互作用し、エンハンサーの約50%が複数のプロモーターと関連することが示された。さらにSanyal et al. のゲノムの1%領域を3細胞型で解析した5Cデータでは、遠位制御配列の約50%が最近傍活性遺伝子ではなく遠位の遺伝子を標的とすること、全CTCF部位の約60%を越えてエンハンサー-プロモーター相互作用が形成されることが確認された。これらの知見は、エンハンサーが細胞同一性決定の中核として機能するという理解を数千万塩基対規模で実証したものである。

技術的パラダイムシフトと定量的評価: エピゲノムマッピング技術の進展を定量的に評価すると、ChIP-seqやDNase-seqなどのハイスループットシーケンシング技術の導入により、データ生成速度とゲノムカバー率は劇的に向上した。例えば、2007年以前は1遺伝子座ごとの解析に終始していたが、2013年時点ではENCODEプロジェクトによりn=100以上の細胞株・組織において、ゲノムワイドなオープンクロマチン領域が2.1%の平均カバー率で同定され、全細胞型を統合するとゲノムの40%に達する領域が機能的エレメントとしてマッピングされた。また、DNAメチル化解析においては、WGBSにより2,800万個のCpGサイトにおけるメチル化率が、30x以上のシーケンシング深度（カバレッジ）によって1%未満の検出限界で定量化され、細胞型間で異なるメチル化を示す領域（DMR）がゲノム全体の20%を占めることが実証された。さらに、TAB-seqを用いることで、これまで5mCと区別が困難であった5hmCの存在比率が、ES細胞において全シトシンの0.1%という極めて微量なレベルで存在することが定量的に明らかにされた。これらの定量データは、エピゲノムが単なる静的な修飾ではなく、細胞分化や発生の過程で極めて動的に再構成される制御システムであることを明確に示している。

考察/結論

本レビューは、NGSベースのエピゲノムマッピングがヒトゲノムの「第二次元」を初めて包括的に解読可能にし、生命科学における認識的革命をもたらした点を体系的に整理した。ENCODE・Roadmapコンソーシアムが先行研究とは比較にならない規模のデータを公開したことで、cis制御配列の注釈化・発生プログラムの解明・疾患SNPの機能解析の3分野が飛躍的に進展した。特に注目すべきは規模の転換である。初期のエピゲノム研究では1〜数遺伝子座を個別に解析していたのに対し、2013年時点ではENCODE単独でn=100を超える細胞型・組織型のデータが公開され、数千のエピゲノムマップが蓄積していた。

先行研究との違い: 本研究は、従来の特定の遺伝子座のみを対象としたlocus-centricな研究アプローチと異なり、ゲノムワイドな視点からエピゲノムの全貌を捉える網羅的アプローチを採用している。従来のlocus-centric研究ではプロモーターのH3K4me3・H3K9me3の役割しか知られていなかったが、NGS時代に以下の概念的飛躍が達成された。(1) H3K4me1によるエンハンサー特異的マーキングの確立 (HeLa・K562の2細胞株で55,000エンハンサー候補を予測、H3K27ac有無で活性/ポイズドを区別)、(2) ChromHMMによる15クロマチン状態の系統的分類 (9種の細胞株、ゲノムの56%が生化学的活性と関連)、(3) TETタンパク質による5hmC→5fC→5caC経路を介した動的DNA脱メチル化の発見、(4) TADという約1 Mb単位の核内構造単位 of 3D genome の発見 (境界にCTCF部位・ハウスキーピング遺伝子が富化)、(5) GWAS SNPの93%がコード領域外に位置し、そのうち約40%がDHSと重複するという疾患関連SNPの制御配列集積。これらは全て2007-2013年の間に達成されたエピゲノミクスの急速な発展を示す点で、これまでの研究とは対照的な広範な知見を提供した。

新規性: 本研究で初めて、エピゲノムマップが疾患起源組織の同定に有効であることが示された点は新規性が高い。例えばクローン病、自己免疫疾患などのGWAS SNPがTH17・TH1細胞特異的DHSに富化するパターンは、遺伝的リスクがエンハンサーを介した免疫細胞の遺伝子制御変化として発現することを示す。dsQTLの80%が機能的エピゲノムマーク領域と重複するという定量的観察も、エピゲノムデータが機能的変異の解釈に直接利用できることを新規に示した。

臨床応用: 本知見は、疾患関連SNPの機能的解釈を可能にし、疾患の病態生理の理解を深めることで、将来的な診断マーカーや治療標的の同定に繋がる臨床応用への道を開く。特に、GWASで同定された非コード領域のSNPが、どの細胞型で、どのようなエピゲノム変化を介して疾患に寄与するのかを推定できるようになったことは、臨床現場における個別化医療の推進に大きく貢献する可能性を秘めている。

残された課題: 今後の検討課題として4点が挙げられる。第1に、シングルセルレベルでのエピゲノム解析技術 (単一細胞ChIP-seq・単一細胞メチローム) の確立が必要である。第2に、不均一組織からの特定細胞型の分離・解析技術の開発が求められる。第3に、相関として同定されたエンハンサー-プロモーター相互作用の機能的因果関係の検証 (TALEN・CRISPR/Cas9によるエピゲノム編集が必要) が残された課題である。第4に、遠位エンハンサーの標的遺伝子の正確な同定 (空間的近接と転写活性の乖離問題) の解決が必要である。将来目標として「ゲノム配列のみからいつ・どの程度の発現が起きるかを予測すること」が設定された。本レビューは2013年時点のエピゲノミクス研究の水準を的確に総括し、その後のシングルセル・エピゲミクス時代への橋渡しとなった重要な文献である。

方法

本論文はレビュー記事であるため、特定の実験プロトコールや新規のデータ解析方法は実施していない。代わりに、既存の文献、特に次世代シーケンシング (NGS) 技術を用いたエピゲノムマッピングに関する主要な研究成果と国際コンソーシアム (ENCODE、Roadmap Epigenomics、IHECなど) の活動を包括的に調査し、その進捗と課題をまとめている。文献検索はPubMed、Embase、Web of Scienceなどの主要な学術データベースを用いて、2013年までの関連文献を網羅的に検索し、その内容を統合・分析した結果に基づいている。

具体的には、以下の主要なエピゲノムマッピング技術について、その原理、利点、欠点、および最新の進歩を詳細に解説した。

DNAメチル化マッピング: 制限酵素消化法であるMRE-seq (Methylation-sensitive Restriction Enzyme sequencing)、アフィニティー濃縮法であるMeDIP-seq (Methylated DNA Immunoprecipitation sequencing) やMBD-seq (Methyl-Binding Domain sequencing)、およびビサルファイト変換法であるRRBS (Reduced Representation Bisulfite Sequencing) やMethylC-seq/WGBS (Whole-Genome Bisulfite Sequencing) の各手法を比較検討した。特に、5-ヒドロキシメチルシトシン (5hmC)、5-ホルミルシトシン (5fC)、5-カルボキシシトシン (5caC) といった新たなシトシンバリアントの検出技術であるoxBS-seq (oxidative bisulfite sequencing) やTAB-seq (TET-assisted bisulfite sequencing) の開発とその意義に焦点を当てた。
クロマチン修飾状態マッピング: ChIP-seqの原理と、ヒストン修飾 (H3K4me3、H3K36me3、H3K4me1、H3K27ac、H3K27me3、H3K9me3など) のゲノムワイドなプロファイリングへの応用を解説した。ENCODEコンソーシアムによる抗体品質管理の標準化プロセスや、ChIP-nano、ChIP-exoといった高感度・高分解能技術の進歩についても言及した。
クロマチン構造とヌクレオソームマッピング: MNase-seqによるヌクレオソーム配置の解析、およびDNase-seqやFAIRE-seq (Formaldehyde-Assisted Isolation of Regulatory Elements sequencing) によるオープンクロマチン領域の同定について概説した。
核内高次構造マッピング: 3C (Chromosome Conformation Capture) を基盤とするHi-C、4C、5C、ChIA-PET (Chromatin Interaction Analysis by Paired-End Tag Sequencing) などの技術を用いて、染色体コンパートメント、TAD (Topologically Associated Domain)、エンハンサー-プロモーター相互作用などの長距離クロマチン相互作用を解析する方法を説明した。

これらの技術によって得られたエピゲノムマップが、ヒトゲノムのcis制御配列の注釈付け、発生プログラムの解明、および疾患関連SNPの機能的役割の理解にどのように貢献したかを、具体的な研究成果を引用しながらレビューした。特に、ChromHMMによるクロマチン状態の分類、スーパーエンハンサーの概念、二価性プロモーターの動態、GWAS (Genome-Wide Association Study) SNPとDHS (DNase I Hypersensitive Site) の重複解析、dsQTL (DNase I sensitivity quantitative trait loci) の同定といった主要な知見をまとめた。統計的手法としては、カプラン・マイヤー (Kaplan-Meier) 法やコックス回帰 (Cox regression) モデルなどの臨床統計、および各種バイオインフォマティクスアルゴリズムの適用例について言及した。また、細胞株としてA549、H1299、HEK293Tなどの標準的なモデル細胞におけるエピゲノムデータの有用性を比較した。

Research Wiki

エクスプローラー

Mapping human epigenomes

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク