- 著者: Deanna M. Church
- Corresponding author: Deanna M. Church (Myriad Genetics, Salt Lake City, UT, USA)
- 雑誌: Science
- 発行年: 2022
- Epub日: 2022-04-01
- Article種別: Commentary
- PMID: 35357937
背景
2003年にヒトゲノム計画が完了して以来、GRCh38 (GRCh38/hg38) 参照ゲノムがヒトゲノム研究の標準として広く利用されてきた。しかし、この参照ゲノムには、セントロメア、ペリセントロメア、テロメア、および高度反復配列領域にわたる約151 Mbpの未解読領域、すなわち「ギャップ」が残存していた。これらのギャップは、配列決定技術の限界により、長年にわたり未解明のままであった。具体的には、リボソームDNA (rDNA) 領域、近端糸状染色体短腕、およびα衛星DNAなどの生物学的に重要な配列がこれらの未解読領域に含まれており、ゲノムの完全な理解や臨床ゲノム診断の精度向上を妨げる要因となっていた。例えば、GRCh38ではセントロメアがモデル配列で表現されたり、不正確にアセンブルされたりする箇所が多く、これらの領域における構造変異や遺伝子機能の解析が困難であった。
Nurk et al. (2022) によって発表されたT2T (telomere-to-telomere) -CHM13ゲノムは、これらの長年の課題を克服し、人類史上初めて真のギャップレス完全ヒトゲノム配列を提供した。この画期的な成果は、PacBio HiFiやOxford Nanopore Technologies (ONT) の超長鎖リードシーケンス技術の進歩と、単一ハプロタイプ細胞株であるCHM13 (完全胞状奇胎由来) を用いることで、アセンブリの複雑性を大幅に低減したことによって可能となった。T2T-CHM13ゲノムは、GRCh38で未解読だった約8%の領域を埋め、新たな遺伝子や調節エレメントの発見に貢献すると期待される。
しかし、この新しい参照ゲノムの採用は、既存のゲノム研究インフラストラクチャからの移行という実務的な課題をもたらす。これまでの数十年にわたる研究で蓄積された膨大なGRCh38ベースのデータセット、バイオインフォマティクスツール、および臨床データベースは、T2T-CHM13へのシームレスな移行を必要とする。この移行プロセスには、既存のアノテーションの再マッピング、ツールの更新、および臨床診断パイプラインの再検証が伴い、多大な労力と時間が必要となることが予想される。このような背景から、T2T-CHM13の生物医学的・科学的意義を深く理解し、その実用化に向けた課題を明確にすることが喫緊の課題である。
目的
本Commentary論文の目的は、Nurk et al. (2022) が達成したT2T-CHM13完全ヒトゲノム配列の発表を受け、その生物医学的および科学的意義を詳細に解説することである。具体的には、GRCh38参照ゲノムの限界をT2T-CHM13がいかに克服したかを論じ、特にセントロメアや重複領域といったこれまで未解読であった領域の完全解読がもたらす影響を評価する。
さらに、T2T-CHM13への移行に伴う実務的課題、例えば既存のGRCh38ベースのデータセットやツールの再マッピングと更新の必要性を検討する。また、この新しい参照ゲノムが集団ゲノミクス、個別化医療、および疾患遺伝子学研究に与える応用可能性と、それに伴う課題(特にY染色体の欠如、多様なヒト集団を代表するパンゲノムの必要性、およびアノテーションの再構築)を議論することを目的とする。本論文は、T2T-CHM13が次世代の参照ゲノムとして確立されるための道筋と、将来的なゲノム研究の方向性を示すことを意図している。
結果
T2T-CHM13によるゲノムギャップの完全解読と新規遺伝子の発見: Nurk et al. (2022) が発表したT2T-CHM13完全ヒトゲノム配列は、GRCh38に存在した約151 Mbpの未解読配列を完全に解明した。これにより、これまで「N」で表されていた領域が具体的な塩基配列で埋められ、ヒトゲノムの約8%に相当する情報が追加された。この新規配列には、1956個の新規遺伝子予測が含まれ、そのうち99個がタンパク質コード遺伝子であると推定された。特に、セントロメア、ペリセントロメア、近端糸状染色体短腕、および5S rDNA領域といった、GRCh38ではモデル配列で代替されたり、不正確にアセンブルされたりしていた複雑な反復配列領域が初めて完全に解読された。例えば、セントロメア領域のα衛星DNA配列は、その高度な反復性のため従来の短鎖リードシーケンスではアセンブルが困難であったが、T2T-CHM13では超長鎖リード技術により正確に配置された (Altemose et al. 2022)。
セグメンタル重複領域の修正と臨床的意義: GRCh38において不正確にアセンブルされていたセグメンタル重複 (SD) 領域が、T2T-CHM13では大幅に修正された。SDは、ゲノムの再編成やコピー数変異 (CNV) の原因となることが多く、神経発達障害を含む多くの疾患に関連している。T2T-CHM13によるSDの正確なアセンブリは、これらの領域におけるCNV解析の精度を向上させ、疾患感受性遺伝子座のより正確な同定を可能にする。これらの領域には、免疫関連遺伝子、薬物代謝酵素、および神経発達関連遺伝子が多く含まれており、臨床診断や個別化医療における意義は極めて高い。例えば、GRCh38では誤って単一コピーとして扱われていた遺伝子が、T2T-CHM13では複数コピーとして正確に表現されることで、遺伝子量効果に関連する疾患の理解が進む可能性がある。
集団ゲノミクスへの影響と参照バイアスの課題: T2T-CHM13は、GRCh38ではマッピング不能であった反復配列やセントロメア近傍の領域におけるSNV (一塩基多型) やSV (構造変異) の新規解析を可能にする。これにより、これまで見過ごされてきたゲノム多様性の解明が進むことが期待される。しかし、Churchは、GRCh38が主に非アフリカ系祖先由来のゲノムデータに基づいて構築されたことで生じた「参照バイアス」が、T2T-CHM13でも部分的に継続する問題を指摘している。CHM13細胞株は単一の46,XX白人由来であるため、多様なヒト集団のゲノム多様性を完全に表現するには不十分である。この課題を解決するためには、複数の多様な個人からの完全ゲノム配列を統合した「パンゲノム参照」の構築が必要であり、Human Pangenome Reference Consortium (HPRC) がこの目標に向けて活動中であることが述べられている。
GRCh38からT2T-CHM13への移行上の課題: T2T-CHM13の採用は、既存のゲノム研究エコシステムに大きな移行課題をもたらす。現在、数十万のゲノムデータセット、臨床データベース (ClinVar、gnomADなど)、およびバイオインフォマティクスツールはGRCh38に最適化されている。T2T-CHM13への移行には、これらのデータの変換 (liftover) 作業と再検証が不可欠である。特に、既存のSNP、インデル、CNVデータベースの再マッピング、および臨床診断用パイプラインの更新は大規模な作業となる。例えば、gnomAD (Karczewski et al. 2020) のような大規模バリアントデータベースは、GRCh37とGRCh38の両方のアノテーションを維持している状況であり、T2T-CHM13への完全な移行には多大なリソースが必要とされる。また、遺伝子、転写産物、規制要素、既知バリアントなどのアノテーションをT2T-CHM13に転写することも重要な課題として挙げられる。T2T Consortiumは遺伝子レベルのアノテーションを提供しているものの、GRCh38に存在しないT2T-CHM13の新規領域に対する包括的なアノテーションはまだ不足している。
今後の課題としてのパンゲノムとY染色体: CHM13は単一個人由来の46,XX細胞であるため、Y染色体を持たない。したがって、男性特有の反復配列やAZF (無精子症因子) 領域を含むY染色体の完全解読は、別のプロジェクト (Rhie et al. 2021など) を必要とする。また、単一参照ゲノムでは表現できない集団間変異やハプロタイプ多様性に対応するため、複数個人の完全ゲノムを統合したパンゲノム参照の構築が次の目標として示されている。これは、個々のゲノムにおける両方のハプロタイプを正確に表現し、集団全体の多様性を捉えることを可能にする。T2T-CHM13は、このような高品質なアセンブリを達成するための技術的枠組みを提供し、パンゲノム構築に向けた重要な基盤となる。
考察/結論
先行研究との違い: 本Commentaryは、Nurk et al. (2022) が達成した30年来の課題、すなわちヒトゲノムの完全解読の生物医学的意義を的確に位置づけている。これまでのGRCh38参照ゲノムは、約8%のギャップを残しており、特にセントロメアや高度反復配列領域の解析が困難であった。本研究は、これらの「参照バイアス」「ギャップ内の疾患関連遺伝子」「誤ったSV・CNV解釈」といったGRCh38の限界を具体的に指摘し、T2T-CHM13への移行の必然性を論じている点で、従来の参照ゲノムの評価とは一線を画す。特に、GRCh38ではモデル配列で代替されていたセントロメア領域の完全解読は、染色体安定性や疾患メカニズムの理解に新たな視点を提供する点で、これまでの研究とは異なるアプローチを可能にする。
新規性: T2T-CHM13は、ヒトゲノムの約8%に相当する151 Mbpの新規配列を明らかにし、1956個の新規遺伝子予測(うち99個がタンパク質コード)を提示した点で新規性が高い。本研究で初めて、セントロメア、ペリセントロメア、近端糸状染色体短腕、および5S rDNA領域が完全に解読されたことは、ゲノムの「暗黒物質」とされてきた領域に光を当て、これらの領域に存在する生物学的に重要な機能エレメントの理解を深める。例えば、セグメンタル重複領域の正確なアセンブリは、これまで報告されていない疾患関連CNVの同定に繋がる可能性を秘めている。
臨床応用: 本知見は、個別化医療や集団ゲノム解析の精度向上に直結する臨床的意義を持つ。T2T-CHM13は、GRCh38ではマッピング不能であった反復配列やセントロメア近傍のSNV・SVを新たに解析可能とすることで、これまで「バリアント・オブ・アンサーテン・シグニフィカンス (VUS)」とされてきたバリアントの一部がT2T参照での再解析によって解釈可能になる可能性を強調している。これにより、希少疾患や遺伝性腫瘍の臨床ゲノム診断において、より正確な診断と治療選択が可能となる。臨床現場でのT2T-CHM13の採用は、特に複雑なゲノム領域に関連する疾患の診断精度を飛躍的に向上させることが期待される。
残された課題: 今後の検討課題として、GRCh38からT2T-CHM13への移行に伴う実務的な問題が残されている。先行するゲノム参照移行 (hg18→hg19→GRCh38) の経験から、移行には数年単位の時間を要することが予想される。既存の数十万のゲノムデータセット、臨床データベース (ClinVar、gnomADなど)、およびバイオインフォマティクスツールの再マッピングと更新は大規模な作業となる。また、CHM13が単一の46,XX細胞由来であるため、Y染色体の完全解読は別のプロジェクトを必要とする。さらに、単一参照ゲノムでは表現できない集団間変異やハプロタイプ多様性に対応するため、Human Pangenome Reference Consortium (HPRC) による多様なヒト集団を代表するパンゲノム参照の構築が次の目標として提示されている。T2T-CHM13はそのための重要な技術実証であり、残された課題は単一参照への依存からの脱却、パンゲノムベースの解析ツール開発、および臨床環境での新参照の安全な採用プロトコルの確立である。
方法
本論文は、Nurk et al. (2022) が発表したT2T-CHM13完全ヒトゲノム配列に関するCommentaryであり、特定の実験やデータ解析を実施したものではない。そのため、一般的な「方法」セクションに記述されるような実験プロトコルや統計解析手法は該当しない。
本Commentaryは、主に以下の文献に基づき、T2T-CHM13ゲノムの科学的意義、技術的背景、および将来的な影響について議論を展開している。
- Nurk et al. (2022): T2T-CHM13ゲノム配列の主要な発表論文であり、本Commentaryの主題である。
- T2T Consortiumのコンパニオン論文: Altemose et al. Science 2022 (セントロメアの完全ゲノムおよびエピゲノムマップ) やVollger et al. (2022) (セグメンタル重複とその変異) など、T2T-CHM13プロジェクトの各側面を詳細に記述した複数の論文が参照されている。
- 先行するヒトゲノム参照配列に関する論文: Venter et al. Science 2001、Lander et al. Nature 2001、およびInternational human genome sequencing consortium et al. Nature 2004など、ヒトゲノム計画の初期段階からGRCh38に至るまでの参照ゲノムの進化に関する主要な文献が参照され、T2T-CHM13の歴史的文脈が説明されている。
- ゲノムアセンブリ技術に関する文献: 長鎖リードシーケンス技術の進歩がT2T-CHM13の実現に不可欠であったことが強調されており、関連する技術論文が議論の根拠となっている。
- 集団ゲノミクスおよびパンゲノムに関する文献: Human Pangenome Reference Consortium (HPRC) の活動や、多様なヒト集団のゲノム多様性を表現するためのパンゲノム参照の必要性に関する議論が、Miga & Wang (2021) などのレビュー論文を基に展開されている。
本Commentaryは、これらの文献情報を統合し、T2T-CHM13がゲノム科学にもたらす変革と、今後の研究および臨床応用における課題と展望を、批判的かつ建設的な視点から考察している。