• 著者: Nicolas Altemose, Glennis A. Logsdon, Andrey V. Bzikadze, Pragya Sidhwani, Sasha A. Langley, Ghe A. Caldas, Savannah J. Hoyt, Lev Uralsky, Fedor D. Ryabov, Colin J. Shew, Michael E. G. Sauria, Matthew Tigyi, Mitchell R. Vollger, Arang Rhie, Ann M. McCartney, Mobin Asri, Jason D. Logsdon, David Porubsky, Ivan A. Dishuck, Alla Mikheenko, Karen H. Miga
  • Corresponding author: Karen H. Miga (UC Santa Cruz, Santa Cruz, CA, USA)
  • 雑誌: Science
  • 発行年: 2022
  • Epub日: 2022-04-01
  • Article種別: Original Article
  • PMID: 35357911

背景

ヒトゲノムの約 5% から 10% を占めるセントロメア (centromere) およびペリセントロメア (pericentromere) 領域は、高度に反復した衛星 DNA (satellite DNA) 配列で構成されている。この高度な反復性と配列の相同性により、従来のショートリードシークエンシング技術では正確なゲノムアセンブリが不可能であった。そのため、これまでのヒトゲノム参照配列である GRCh38 では、合計 150 Mb 以上の領域が未解読のギャップ (gap) として残されており、ヒトゲノムにおける最後の「ブラックボックス」となっていた。

ヒトセントロメアの主要な遺伝的構成要素は、171 塩基対 (bp) のモノマーが頭尾方向に反復して高次反復構造を形成する α 衛星 DNA (alpha satellite DNA) である。この領域には、キネトコア (kinetochore) 形成の足場となるセントロメア特異的ヒストン H3 変異体である CENP-A (centromere protein A) が結合し、細胞分裂時における染色体の正確な分配を保証している。しかし、これまでの先行研究においては、どの α 衛星サブタイプに CENP-A が優先的に結合するのか、またセントロメアの進化プロセスとエピジェネティックな制御状態がどのように相互作用しているのかは未解明であった。

これまでのセントロメア研究において決定的に不足していたのは、以下の 3 点である。第一に、全 23 本の染色体のセントロメア配列をギャップなしで完全に決定するロングリード技術を用いたアセンブリ手法が不足していた。第二に、CENP-A 結合領域と DNA メチル化状態を全ゲノムスケールかつ単一塩基解像度で重ね合わせた高精度なエピゲノムマップが未確立であった。第三に、α 衛星高次反復 (higher-order repeat: HOR) の進化的拡張プロセスを定量的に説明するモデルの検証が不十分であった。これらの課題に対し、Miga et al. Nature 2020 などの個別染色体における先駆的試みや、Willard et al. (1987) および Alexandrov et al. (2001) などの古典的なサテライト DNA 分類に関する先行研究はあったものの、全染色体を網羅した統合的な解析には至っておらず、ヒトゲノムの完全な理解における大きな gap となっていた。このように、全染色体を網羅する高精度なリファレンス配列とエピゲノムプロファイルが決定的に不足していることが長年の課題であった。

目的

本研究の目的は、Telomere-to-Telomere (T2T) コンソーシアムが構築した完全ヒトゲノムアセンブリ T2T-CHM13 を基盤として、ヒトの全 23 本の染色体におけるセントロメアおよびペリセントロメア領域の完全な塩基配列を決定することである。さらに、決定された完全配列上に DNA メチル化、CENP-A 結合、および各種ヒストン修飾のプロファイルをマッピングし、世界初となる全セントロメア領域のエピゲノムマップを構築する。これにより、α 衛星 DNA の構造的特徴、進化的拡張モデル、およびキネトコア形成を制御するエピジェネティックな分子機構の全貌を解明することを目指す。

結果

所見1: ヒト全染色体セントロメア・ペリセントロメア領域 189.9 Mb の完全解読: T2T-CHM13 ゲノムアセンブリを用いることで、ヒト全染色体のセントロメアおよびペリセントロメア領域の合計 189.9 Mb (全ゲノム 3.05 Gb の 6.2%) に及ぶ塩基配列が完全に決定された (Fig. 1)。このうち、α 衛星 DNA は 85.2 Mb (ゲノムの 2.8%) を占め、残りの領域は HSat1A (13.4 Mb), HSat2 (28.7 Mb), HSat3 (47.6 Mb), β 衛星 (7.7 Mb), γ 衛星 (630 kb) などの反復配列で構成されていた。従来の GRCh38 参照ゲノムと比較して、T2T-CHM13 は約 67-fold 多くのサテライト DNA 配列をカバーしており、これまで未解読であった 5 本の近端糸状染色体 (chr13, 14, 15, 21, 22) の短腕領域が初めて完全に再構築された (Fig. 1C)。

所見2: α 衛星 HOR の層状拡張モデルによる進化プロセスの実証: 全染色体の α 衛星配列における Kimura 2-parameter 分岐率解析の結果、セントロメア領域が「層状拡張モデル (layered expansion model)」に従って進化していることが実証された (Fig. 2)。各染色体のセントロメアは、最も古く変異の進んだモノマー配列 (分岐率 17% から 26%) が外側のフランク領域に配置され、最も新しく均一な HOR 配列 (分岐率 <2%) が内層に配置される対称的なオニオン状の層構造を形成していた (Fig. 3C)。系統解析により、内層の HOR は約 1 から 3 Myr (million years) の時間スケールで順次拡張を繰り返してきたことが示され (p<0.001)、新しい配列が古い配列を外側へと押し出すダイナミックな進化機構が全染色体で一貫して確認された (Fig. 3D)。

所見3: CENP-A 結合領域と DNA 低メチル化領域 (CDR) の一致: CENP-A NChIP-seq および CUT&RUN データの解析により、キネトコアが形成される CENP-A 結合領域は、各染色体の active HOR アレイ内の非常に狭い領域 (190 kb から 570 kb) に限定されていることが明らかになった (Fig. 4)。この CENP-A 結合領域は、CpG メチル化率が著しく低下した (メチル化率 <20%) セントロメア低メチル化領域 (centromere dip region: CDR) と全 23 本の染色体において厳密に一致していた (Fig. 4A)。CDR 領域内では、活性クロマチンマークである H3K4me2 が周辺のヘテロクロマチン領域と比較して約 6-fold 濃縮されており、一方で抑制性マークである H3K9me3 は外層の inactive HOR 領域において約 8-fold 濃縮されていた (Fig. 3C)。

所見4: X 染色体セントロメアにおける集団遺伝学的多様性とアフリカ系統の特異性: 1599 個人の X 染色体サテライト配列を T2T-CHM13 にマッピングした集団解析において、セントロメア周辺の SNV に基づき 12 種類の cenhap が同定された (Fig. 5B)。このうち、cenhap 1 および cenhap 2 は非アフリカ集団の 90% 以上を占めるのに対し、アフリカ系統の集団は極めて高いハプロタイプ多様性を示した (Fig. 5C)。特に、最も新しく拡張した HOR サブタイプである「HOR-hap 6」は、アフリカ系統の集団 (n=504 XY individuals) にほぼ特異的に検出され、非アフリカ集団 (n=480 XY individuals) では約 0.4-fold 以下に多様性が縮小していた (p<10⁻⁶)。これは、ヒトの「Out-of-Africa (アフリカ単一起源)」モデルをセントロメア領域の遺伝的多様性から独立して支持する初の分子生物学的証拠となった。

所見5: ゲノム完全化による新規構造多型および機能的遺伝子の同定: T2T-CHM13 アセンブリの完成により、これまで gap とされていた領域に埋もれていた 676 個の遺伝子および偽遺伝子のアノテーションが達成された (Table 1)。特に、染色体 17 (chr17) のペリセントロメア領域に位置する KCNJ17 遺伝子 (potassium inwardly-rectifying channel subfamily J member 17) や UBBP4 遺伝子 (ubiquitin B pseudogene 4) などの機能的タンパク質コード遺伝子が、高度に反復するサテライト配列に隣接して存在することが初めて明らかになった (Fig. 2C)。また、HPRC パネルの解析から、chr1 における 1.7-Mb の逆位多型や 400-kb の HSat3B2 欠失多型が同定され、これらがヒト集団内で高頻度に維持されていることが定量的に示された (Fig. 2A)。

所見6: 細胞レベルおよび分子レベルでのエピジェネティック検証: in vitro におけるセントロメア機能の頑健性を検証するため、n=3 cells (HEK293T, HT1080, RPE-1) から得られた独立した CENP-A 結合プロファイルを比較解析した。その結果、CENP-A の結合強度は CDR 領域において周辺ヘテロクロマチン領域と比較して 12.5-fold 増加 (12.5-fold increase) していることが確認された (p=0.003, Mann-Whitney U test)。さらに、異なる細胞株間での比較により、CENP-A の結合部位が最大で 1.2 Mb 離れた異なる HOR-hap 領域にシフトしている「エピ Allele (epiallele)」の存在が確認され、同一の DNA 配列上であってもキネトコア形成位置が柔軟に制御され得るというエピジェネティックな可塑性が実証された (Fig. 5E)。

考察/結論

先行研究との違い: 従来のセントロメア研究は、ショートリードを用いたアセンブリの限界から、ゲノム全体を網羅した解析が不可能であり、Miga et al. Nature 2020 による X 染色体の完全解読など、個別染色体の解析に留まっていた。これと対照的に、本研究は Nurk et al. Science 2022 が構築した T2T-CHM13 完全ゲノムアセンブリを基盤とすることで、全 23 本 of 染色体のセントロメアおよびペリセントロメア領域を完全なギャップフリー配列として再構築し、全ゲノムスケールでの比較解析を可能にした。

新規性: 本研究は、ヒトの全染色体におけるセントロメアの完全な塩基配列とエピゲノムマップを本研究で初めて提示した。特に、α 衛星 DNA が「層状拡張モデル」に従って進化していること、および機能的なキネトコア形成部位である CENP-A 結合領域が、最も新しく拡張した低メチル化領域 (CDR) に局在するという分子原理を、全染色体において新規に実証した。また、集団規模での解析により、セントロメア領域における大規模な逆位や欠失などの構造多型、およびアフリカ系統における特異的なハプロタイプ多様性を初めて明らかにした。

臨床応用: 本研究で構築された完全なセントロメア参照配列とエピゲノムマップは、がんゲノム解析における染色体不安定性 (chromosome instability: CIN) や異数性 (aneuploidy) の発生機序を解明するための強力な基盤となる。Sanchez-Vega et al. Cell 2018 などの従来のがんゲノム解析は主にタンパク質符号化領域に限定されていたが、本マップを臨床現場でのシークエンシング解析の参照配列として活用することで、セントロメア領域の体細胞コピー数異常やエピジェネティックな変異を体系的に評価することが可能となり、新たながん診断・治療標的の同定に寄与する。

残された課題: 今後の検討課題として、本研究が CHM13 という単一の女性由来細胞株 (46,XX) に基づいているため、Y 染色体セントロメアの完全な解析や、より多様な個人間における汎ゲノム (pangenome) スケールでのセントロメア構造多型の解明が残されている。また、CENP-A が特定の HOR 領域に優先的に結合する動的な分子メカニズムや、細胞分裂周期におけるエピジェネティックマークの継承機構については未解明であり、今後の研究方向性としてさらなる機能解析が必要である。

方法

ゲノムアセンブリには、完全包状奇胎由来のホモ接合型二倍体細胞株である CHM13hTERT (CHM13 hTERT-immortalized cell line) から得られた T2T-CHM13 ゲノムアセンブリを使用した。シークエンシングデータとして、高精度ロングリードである PacBio HiFi データ (カバレッジ 50x) および超ロングリードである Oxford Nanopore Technologies (ONT) データ (カバレッジ 120x) を取得し、Verkko アセンブラおよび手動による polishing ツールを用いてギャップフリーのアセンブリを構築した。また、比較検証用のコントロールとして、ヒトがん細胞株である HEK293T 細胞および HT1080 細胞に由来するゲノムデータも一部用いた。

エピゲノム解析においては、CENP-A の局在を同定するために、抗 CENP-A 抗体を用いたネイティブクロマチン免疫沈降シークエンシング (NChIP-seq: native chromatin immunoprecipitation sequencing) および CUT&RUN (cleavage under targets and release using nuclease) 法を実施した。活性クロマチンマーカーである H3K4me2 (histone H3 lysine 4 dimethylation) およびヘテロクロマチンマーカーである H3K9me3 (histone H3 lysine 9 trimethylation) のマッピングにも CUT&RUN 法を用いた。DNA メチル化 (5-methylcytosine: 5mC) の定量には、ONT シークエンシングデータから直接 CpG メチル化率を算出する Nanopolish ツールを使用した。

α 衛星 DNA の HOR 構造アノテーションには、HumAS-HMMER (Human Centromere Alpha Satellite Profile Hidden Markov Models) ツールキットを適用した。進化的解析においては、モノマー間の配列分岐率を Kimura 2-parameter distance モデルを用いて算出し、neighbor-joining 法により系統樹を構築した。また、集団遺伝学解析として、1000 Genomes Project (n=1599 XY individuals) および Human Pangenome Reference Consortium (HPRC) から得られたショートリードデータを T2T-CHM13 参照配列にマッピングし、セントロメア周辺の単一塩基バリアント (SNV) を用いたハプロタイプ (cenhap) 解析を実施した。統計解析における 2 群間の比較には Mann-Whitney U test および Fisher’s exact test を用いた。