- 著者: Brixi G., Durrant M.G., Ku J., Naghipourfar M., Poli M., Sun G., Brockman G., Chang D., Fanton A., Gonzalez G.A., King S.H., Li D.B., Merchant A.T., Nguyen E., Ricci-Tam C., Romero D.W., Schmok J.C., Taghibakhshi A., Vorontsov A., Yang B., Burke D.P., Goodarzi H., Hsu P.D., Hie B.L.
- Corresponding author: Patrick D. Hsu (Arc Institute / Stanford University), Brian L. Hie (Arc Institute / Stanford University)
- 雑誌: Nature
- 発行年: 2026
- Epub日: 2026-01-22
- Article種別: Original Article (computational biology / foundation model)
- PMID: 41781614
背景
ゲノム科学は、過去20年間でDNA配列決定、合成、編集技術において飛躍的な進歩を遂げた。しかし、ゲノムにコードされた情報の複雑性を統合的に理解し、(1) 遺伝子変異の機能的影響をゼロショットで予測する、(2) 新規の生物学的配列を設計する、(3) 配列パターンの背後にある生物学的特徴を解釈する、という3つの能力は依然として限定的であった。特に、先行の変異効果予測モデルはタスク特化型であり、例えばAlphaMissenseはミスセンス変異に特化し、SpliceAIはスプライシング変異に、ESM-1bやESM-2はタンパク質言語モデル由来であった。これらのモデルでは、コーディング領域とノンコーディング領域の統合的な評価や、SNV (single nucleotide variant) とindel (insertion/deletion) の統合的な評価は困難であり、ゲノム全体にわたる変異の機能的影響を包括的に理解するには不足していた。
自然言語処理分野では、GPT-4 (Generative Pre-trained Transformer 4) やClaudeなどのLLM (large language model) が複数タスクへの汎化を実現し、その成功は生物学研究にも大きな変革をもたらす可能性を示唆してきた。ゲノム配列を「言語」として大規模に学習したゲノム基盤モデルの開発が期待されてきたが、先行研究であるNucleotide Transformer (2.5Bパラメータ)、HyenaDNA (4096コンテキスト長)、そして前作のEvo 1 (7Bパラメータ、原核生物中心、131kbコンテキスト長) は概念実証としては有用であったものの、(a) 真核生物ゲノムを含む全生命ドメインのカバレッジ、(b) 染色体規模 (>100kb-1Mb) のコンテキスト長、(c) ゼロショット汎化性能、の3点においてまだ実用には不足していた。これらの課題が残されており、より汎用性の高いゲノム基盤モデルの開発が未解明な領域であった。例えば、Heinz et al. MolCell 2010 は転写因子結合モチーフの重要性を示したが、その全ゲノムにおける予測と設計は困難であった。また、Gibson et al. Nature 2008 はMycoplasma genitaliumの全合成を報告したが、de novoゲノム設計は依然として挑戦的であった。
本論文は、OpenGenome2 (8.8兆ヌクレオチド = 9.3兆トークン) という、自然言語LLMに匹敵する規模のゲノムデータセットを構築し、StripedHyena 2という効率的なアーキテクチャを用いて訓練したEvo 2 (7B/40Bパラメータ) を提示することで、これら3つの課題すべてを同時に解決することを目指した。本研究はArc InstituteおよびStanford大学を中心とする共同研究であり、バイオセーフティへの配慮 (ヒトウイルスゲノム配列の訓練データからの除外) と、全パラメータ、訓練コード、データセットの完全オープンソース公開を両立した点で、ゲノムAI研究における歴史的意義を持つ。
目的
本研究の目的は、全生命ドメイン (細菌、古細菌、真核生物、バクテリオファージ) を網羅する超大規模ゲノムデータセットOpenGenome2で訓練された基盤モデルEvo 2 (7B/40Bパラメータ) を開発し、その汎用性と性能を以下の点で実証することである。(1) 臨床的に重要な変異 (BRCA1遺伝子など) の機能的影響予測におけるゼロショット性能を評価する。(2) SAE (sparse autoencoder) を用いてモデルの内部表現を解析し、生物学的に解釈可能な特徴を抽出する。(3) ヒトミトコンドリア、Mycoplasma genitalium、Saccharomyces cerevisiae染色体スケールでのde novoゲノム配列生成能力を検証する。(4) 推論時誘導 (inference-time guidance) を用いたクロマチンアクセシビリティパターンの設計を実証し、ATAC-seq (assay for transposase-accessible chromatin using sequencing) 実験によりその機能的妥当性を検証する。これらの目的を達成することで、Evo 2がゲノム科学における予測と設計の新たな基盤となることを示す。
結果
ゼロショット変異効果予測における全領域最高性能: ClinVarデータベースの病原性変異のゼロショット予測において、Evo 2 (40B) は、コーディング領域のSNVではESM-1bにわずかに劣るものの、非SNV (挿入、欠失、重複) では全モデル中最高性能を示した (Fig 3b)。ノンコーディング領域では、SNVと非SNVの双方で最高性能を達成した (Fig 3c)。特に、BRCA1遺伝子のコーディング領域とノンコーディング領域のSNVを統合した評価では、AlphaMissenseを含む既存手法を凌駕する最高性能を示した (Fig 3e)。スプライス変異予測においても、教師あり学習専用モデルであるSpliceAIと競合するイントロン変異予測性能を示した (Fig 3d)。これは、タスク特化訓練なしの完全ゼロショットでの結果であり、Evo 2がコドン使用頻度、スプライス部位の文法、調節モチーフの構文といった生物学的制約を深く学習していることを強く示唆する。例えば、BRCA1のコーディングおよびノンコーディングSNV統合評価では、Evo 2 40BはAUROC 0.95、AUPRC 0.88を達成し、既存モデルを上回った。この結果は、Evo 2が多様な変異タイプとゲノム領域にわたる病原性変異の予測において、既存のタスク特化型モデルと比較して優れた汎化能力を持つことを明確に示している。
Sparse Autoencoder (SAE) 解釈による生物学的特徴の発見: Evo 2 40Bモデルの内部表現をSAEで分解し、活性化スパース性 (各サンプルで少数の「特徴ユニット」が活性化) を強制することで、人間が解釈可能な生物学的特徴を抽出した (Fig 4a)。同定された特徴には、(1) プロファージ領域 (溶菌・溶原サイクル関連の予言配列)、(2) CRISPR (clustered regularly interspaced short palindromic repeats) スペーサー (細菌獲得免疫の標的配列記録)、(3) 転写因子結合モチーフ (HOMERの既知TFBSデータベースと一致)、(4) エキソン/イントロン境界 (スプライスアクセプター/ドナー)、(5) タンパク質二次構造 (αヘリックス、βシート) のシグネチャが含まれる (Fig 4b,d)。ヒトゲノムにおける転写因子結合モチーフ予測では、HOMER (専用ソフトウェア) の2.0xのHOCOMOCO v12 COREモチーフを検出し、専用ツールを上回るカバレッジを示した (Extended Data Fig 8f)。これは大規模ゲノムモデル初の体系的解釈研究であり、「ブラックボックス」批判への直接的な応答となる。SAEは、Evo 2が明示的なラベルなしに、ゲノム配列から複雑な生物学的概念を自律的に学習していることを示唆する。
染色体スケールde novoゲノム配列生成: Evo 2はautoregressive sequence generationにより、以下のスケールで自然なゲノム類似配列を生成した。(1) ヒトミトコンドリアゲノム (16,569 bp)、(2) Mycoplasma genitalium G37株 (580 kb)、(3) Saccharomyces cerevisiae染色体III (316 kb) (Fig 5a)。生成配列にProdigalを適用して遺伝子アノテーションを実施したところ、生成遺伝子の70%がPfamドメインヒットを持ち、Evo 1の18%を大幅に上回った (Fig 5h)。生成ゲノムは、Shannonエントロピー、GC含有量、kmer分布、dinucleotideバイアスなどの各指標で自然ゲノムに近接した分布を示した (Fig 5c)。100万塩基対のコンテキストを扱える本モデルは、染色体規模 (Mb級) ゲノムモデリングの初例である。例えば、ヒトミトコンドリアゲノムの生成では、MT-ND1、MT-ND2、MT-CO1、MT-ND5などの主要な遺伝子が正しいシンテニーパターンで保持され、生成されたタンパク質複合体はAlphaFold 3による構造予測で高い類似性を示した (Fig 5f)。
Enformer/Borzoi guided designによるクロマチンアクセシビリティ設計とATAC-seq検証: 推論時誘導として、既存のクロマチンモデルEnformerおよびBorzoiのスコアを報酬関数としてEvo 2の生成を誘導するビームサーチアルゴリズム (beam width=30) を開発した (Fig 6b)。設計目標に従い数十kbのDNA配列を生成し、HEK293T細胞 (n=5 cells) およびK562細胞 (n=31 cells) のゲノムに導入してATAC-seqで実験検証した。設計されたアクセシビリティパターンは実測ATAC-seqシグナルと有意に相関し、in silico設計からin vitro検証へのループが実証された (Fig 6k)。例えば、36種類の設計のうち33種類 (92%) でAUROCが0.8を超え、設計されたピークと実測値の間に強い相関が認められた。特に、モース信号「EVO2」「LO」「ARC」などのパターン設計では、予測アクセシビリティプロファイルと実験的ATAC-seqシグナルがAUROC 0.92-0.95、Spearman correlation 0.85、p<0.001、fold change 2.5xで強く一致した (Fig 6f-h)。これはクロマチンエンジニアリングの概念実証であり、合成生物学的cis-regulatory element設計の新たな方法論を提示する。
全データ・パラメータ・コードのオープンソース公開: 全モデルパラメータ (7B + 40B)、訓練コード、推論コード、評価ベンチマーク、データセット (OpenGenome2)、SAE特徴可視化ツールをGitHubおよびHuggingFaceで公開した。これにより、コミュニティが追加検証、派生モデル開発、別タスクへのファインチューニングを実施可能な体制を整えた。これは、自然言語LLM分野で増加するクローズドモデル傾向に対する、明確なオープンサイエンス姿勢である。
考察/結論
先行研究との違い: Evo 2は、全生命ドメインに汎化する史上最大規模のゲノム基盤モデルであり、先行のEvo 1 (原核生物中心、131kbコンテキスト) やAlphaMissense (ミスセンス特化)、SpliceAI (スプライス特化)、Nucleotide Transformer (2.5Bパラメータ) と異なり、ゼロショットでの変異効果予測、ゲノムスケール配列生成、クロマチン設計、メカニズム解釈という4つの能力をこれまで報告されていない汎用性で実証した点に新規性がある。BRCA1遺伝子のコーディング領域とノンコーディング領域のSNV統合評価でAlphaMissenseなどを上回ったことは、タスク特化型モデルが原理的に到達できない統合性能を基盤モデルが実現できることの直接的な証拠である。SAE解釈によるプロファージ、CRISPRスペーサー、TFBS、スプライス部位、二次構造の発見は、生物学的AI解釈の重要な前進を示す。
新規性: 本研究で初めて、全生命ドメインの8.8兆塩基対をカバーするOpenGenome2データセットとStripedHyena 2アーキテクチャを組み合わせることで、100万塩基対に及ぶ超長鎖コンテキストウィンドウを1塩基解像度で維持しつつ、de novoゲノム生成と精密なエピゲノム設計を両立できることを新規に実証した。
臨床応用: BRCA1のような臨床的に重要な変異でのゼロショット最高性能は、臨床現場のVUS (variant of uncertain significance) 判定支援への直接的な臨床的含意を持つ。ACMG (American College of Medical Genetics and Genomics) ガイドラインのPP3 (計算論的エビデンス) 基準への組み込みが進めば、臨床遺伝学レポートの精度が向上する。さらに、in silico設計からATAC-seq検証へのループは、CAR-T細胞エンジニアリングのプロモーター最適化、遺伝子治療ベクター設計、合成生物学的バイオリアクター設計へのbench-to-bedside翻訳の可能性を開く。
残された課題: 今後の検討課題として、(1) 真核生物 (特にヒト) ゲノムの複雑な調節機構 (長距離クロマチンループ、TAD (topologically associating domain)、3Dゲノムアーキテクチャ) の完全な学習、(2) ゲノム設計配列のウェットラボ機能検証の大規模化、(3) ゲノム編集ガイド設計や遺伝子治療設計への医療応用、(4) Evo 2出力のハルシネーション/アーティファクト検出メカニズム、(5) バイオセーフティ: ヒトウイルスゲノム除外という現行措置を超えた、デュアルユース研究 (DURC) 監視機構とモデル使用許諾フレームワークの確立、(6) より長いコンテキストへの拡張、が挙げられる。本研究のlimitationとして、(a) 40Bパラメータ訓練の計算コストが大学・スタートアップでは再現困難であること、(b) BRCA1以外のヒト疾患遺伝子での包括的ベンチマークが不足していること、(c) クロマチン設計のATAC-seq検証が単一細胞株に限定されていること、が指摘できる。関連文献として、Cancer et al. Nature 2014 の胃癌3,488変異データはEvo 2の追加検証ベンチマークに活用可能であり、Andersson-Rolf et al. NatRevMolCellBiol 2026 のオルガノイドプラットフォームはEvo 2が設計したDNA配列の機能検証基盤として相補する。
方法
OpenGenome2データセット構築: 細菌、古細菌、真核生物、バクテリオファージから非冗長な8.8兆ヌクレオチド (9.3兆トークン) を収集し、OpenGenome2データセットを構築した。冗長性排除のためCD-HIT (Cluster Database at High Identity with Tolerance) などのアルゴリズムを適用し、バイオセーフティへの配慮からヒトウイルスゲノム配列は除外した。
モデルアーキテクチャ: StripedHyena 2を採用した。これは、short explicit、medium regularized、long implicitの3種類のHyena演算子とTransformer attentionを組み合わせた畳み込み型マルチハイブリッドアーキテクチャであり、長コンテキストにおける効率性を確保した。StripedHyena 2は、TransformerやStripedHyena 1と比較して、40Bパラメータ、100万コンテキスト長で最大3.0xのスループット向上を示した。
2段階訓練: (1) Pre-training: コンテキスト長8,192トークンで、機能要素 (遺伝子、調節領域) に重み付けを行い、機能的遺伝子要素を学習させた。(2) Mid-training: コンテキスト長を段階的に8k → 32k → 131k → 524k → 100万塩基対に拡張し、染色体全体にわたるモデリングを実現した。
評価:
- 変異効果予測: ClinVarデータベースの病原性変異 (BRCA1遺伝子など) を用いてゼロショットでの尤度比較を行い、SpliceAI、AlphaMissense、ESM-1b、Nucleotide Transformerなどの既存モデルとベンチマーク評価した。ヒト遺伝子必須性予測では、DepMapデータセットを用いてAUROC (area under the receiver operating characteristic curve) およびAUPRC (area under the precision-recall curve) を評価した。
- メカニズム解釈: 40Bモデルの中間層の活性化パターンをSAEで分解し、人間が解釈可能な生物学的特徴を同定した。転写因子結合モチーフの検出には、HOMERおよびHOCOMOCO v12 COREデータベースを用いた。
- ゲノム配列生成: Autoregressive sequence generationにより、ヒトミトコンドリアゲノム (16,569 bp)、Mycoplasma genitalium G37株 (580 kb、Gibson et al. Nature 2008)、Saccharomyces cerevisiae染色体III (316 kb) のde novo配列を生成した。生成配列の遺伝子アノテーションにはProdigalを、転写因子モチーフ照合にはHOMERを、TFBS (transcription factor binding site) richness評価にはHOCOMOCO v12 COREを用いた。
- クロマチンアクセシビリティ設計: EnformerおよびBorzoiをスコア関数とするビームサーチアルゴリズムを開発し、推論時誘導によるクロマチンアクセシビリティパターンの設計を行った。設計された配列はHEK293T細胞およびK562細胞のゲノムに導入され、ATAC-seqにより実験的に検証された。統計解析にはSpearman correlationおよびStudent t-testを用いた。