TranscriptFormer: A generative cell atlas across 1.5 billion years of evolution

著者: James D. Pearce, Sara E. Simmonds, Gita Mahmoudabadi, Lakshmi Krishnan, Giovanni Palla, Ana-Maria Istrate, Alexander Tarashansky, Benjamin Nelson, Omar Valenzuela, Donghui Li, Stephen R. Quake, Theofanis Karaletsos
Corresponding author: Theofanis Karaletsos (theofanis@karaletsos.com), Stephen R. Quake (steve@quake-lab.org), Chan Zuckerberg Biohub / Stanford University
雑誌: Science
発行年: 2026
Epub日: 2026-05-07
Article種別: Original Article
PMID: 42096520

背景

シングルセルトランスクリプトミクスは、細胞多様性の理解を革新している。しかし、生命の樹を横断して転写プログラムを比較することは依然として困難である。Chan Zuckerberg CELLxGENE (CZ CELLxGENE) や Human Cell Atlas などの大規模な国際的イニシアチブにより、数億細胞規模のデータが公開されているが、種間比較を行うには相同遺伝子セットへの依存が必要であり、遠縁種では共通相同遺伝子が極めて少なく分析範囲が制限されるという課題があった。また、進化の過程で生じた遺伝子重複や欠失により、単純な一対一の相同遺伝子マッピングのみでは、遠縁種間における細胞機能の真の類似性を捉えるには不十分であった。

既存の単一細胞基盤モデル（foundation model）として、ヒトデータで学習された Theodoris et al. (2023) による Geneformer や、Cui et al. (2024) による scGPT などのモデル、あるいはヒトとマウスのデータで学習された Yang et al. (2024) による GeneCompass などが存在する。しかし、これらのモデルの多くはヒトやマウスなどの特定の哺乳類に限定されており、進化的に遠く離れた多種間データを統合的に扱う能力が不足している。多種間学習を行う Rosen et al. (2023) による Universal Cell Embeddings (UCE) などのモデルも存在するが、これはタンパク質配列埋め込みを活用するのみであり、トランスクリプトームの生成的自己回帰学習は行っていないため、ゼロショットでの予測や細胞状態のシミュレーション能力が手薄であるという問題があった。

このように、進化的に広範な種にわたる転写プログラムの普遍的原理を学習可能であり、かつ生成的なアプローチを採用した基盤モデルは未だ確立されておらず、遠縁種間での細胞状態の共通性と多様性を定量的に評価する手法は未解明なままであった。特に、相同遺伝子に依存しない、種を超えて一般化可能な細胞表現を学習する技術が圧倒的に不足しているという課題が残されている。

目的

本研究の目的は、1.53 billion 年（15億3000万年）の進化を網羅する多種データで学習したジェネレーティブ（生成的）基盤モデル「TranscriptFormer」を開発することである。

具体的には、以下の5つの課題を解決し、その性能を実証することを目的とした。

未見種（学習データに含まれない種）へのゼロショット細胞型分類の実現。
ヒト細胞におけるゼロショットでの疾患状態予測（SARS-CoV-2感染やグリオブラストーマ腫瘍の判別）。
薬物摂動に対する細胞応答の検出。
明示的なラベルなしの事前学習のみから、細胞の発生軌跡や系統関係、進化的距離などの高次な生物学的構造をエマージェント（創発的）に学習する能力の検証。
転写因子ネットワーク予測や細胞型特異的な発現シミュレーションへの仮想実験的応用。

これにより、地球上の多様な生命における細胞組織化の普遍的原理を明らかにし、比較細胞生物学のための強力な定量的フレームワークを提供することを目指した。

結果

未見種へのゼロショット分類と遠縁種での汎化能: 多種間学習モデルである TF-Metazoa は、事前学習で未見であった 4 種（マウスキツネザル、熱帯ツメガエル、ヤツメウナギ、サンゴ）の細胞アトラスにおいて、平均 macro F1 スコア = 0.778 ± 0.002 という極めて高い分類精度を達成した (Fig. 2B)。これは、既存の最先端モデルである UCE の平均 F1 = 0.701 ± 0.002 に対し、約 1.3-fold increase の精度向上に相当する。特に、ヒトから約 685 million 年も進化的に隔たっている遠縁種であるサンゴに対しても、n=112000000 cells を用いて学習された TF-Metazoa および TF-Exemplar は F1 > 0.65 という高い分類精度を維持した。これに対し、UCE のサンゴに対する分類精度は F1 ≤ 0.5 と著しく低かった (Fig. 2B)。タンパク質配列のみを平均化したベースラインモデルである Evolutionary Scale Model 2-Cell Embedding (ESM2-CE) との比較においても、TranscriptFormer の全バリアントが大幅に優位性を示した。

種間細胞型転移と炎症応答のゼロショット予測: 脊椎動物 n=9 species にわたる精子形成データセットを用いた種間細胞型転移タスクにおいて、TF-Exemplar は種平均 F1 = 0.480 ± 0.002 を記録し、UCE の 0.377 ± 0.002 を凌駕した (Fig. 2F)。これは、ESM2-CE に対し 1.91-fold increase（p<0.001）の性能向上に相当する。特に、約 3 億 1000 万年の進化距離があるニワトリから哺乳類への転移タスクでは、TF-Exemplar が F1 = 0.448 ± 0.006 を達成した。さらに、骨髄由来単核食細胞に対するリポ多糖（LPS）処理（コントロール vs 6時間LPS処理の二値分類）のクロス種転移予測において、TF-Exemplar は F1 = 0.925 ± 0.00 という極めて高い精度を達成し、UCE の 0.740 ± 0.006 や ESM2-CE の 0.580 ± 0.007 を圧倒した (Fig. 2G)。UMAP による可視化でも、TranscriptFormer の埋め込み空間内ではコントロール群と LPS 処理群の細胞が明確に分離されることが確認された (Fig. 2H)。

ヒト細胞状態、SARS-CoV-2感染および薬物摂動の検出: Tabula Sapiens 2.0 の未見評価データセットを用いたヒト細胞型分類において、TF-Exemplar は macro F1 = 0.910 ± 0.001 を達成し、多種間学習がヒト細胞の分類精度を損なわないことを実証した (Fig. 3B)。また、SARS-CoV-2 感染データセット（n=4 donors）を用いた感染状態予測では、n=57000000 cells で学習したヒト専用モデルの TF-Sapiens が最高精度である F1 = 0.859 を達成し、UCE（0.805）や scGPT（0.798）を大きく上回った (Fig. 3D)。さらに、Tahoe-100M データセットから抽出した n=95 perturbations の検出タスクにおいて、TF-Sapiens は平均 AUC = 0.879 ± 0.007 を記録した (Fig. 3H)。特に、log2FC 1.5 以上の発現変化を伴う良好な予測（p=0.004）を示し、TAK-901 やボルテゾミブなどの薬物においては、AUC > 0.99 というほぼ完璧な識別能を示した (Fig. 3G, 3I)。

事前学習から創発する高次生物学的構造と進化・発生軌跡: TranscriptFormer の細胞埋め込み空間は、明示的なラベルなしの事前学習のみで、高次な生物学的構造を自然に創発させた。Contextualized Gene Embeddings (CGEs) の分散分割分析では、細胞型情報が PC1 および PC2 の分散の 95% 以上（> 95%）を説明し、組織やドナーの情報はそれぞれ 2% 未満および 7% 未満の寄与に留まるという、生物学的に妥当な階層構造が教師なしで学習されていた (Fig. 4B)。また、TF-Metazoa の細胞埋め込みにおける種間コサイン類似度は、進化的距離と強い負の相関を示し（Spearman r = -0.705, p = 0.004）、実際の系統関係を正確に再現した (Fig. 4D)。さらに、n=1600000 cells からなる多種発生アトラスを用いた解析では、ゼブラフィッシュの浮き袋細胞がカエルの腸原基細胞やウサギの腸管細胞にマッピングされ、浮き袋が消化管由来であるという進化的知見と完全に一致した (Fig. 4E)。

生成的プロンプトによる仮想実験と転写因子ターゲット予測: 生成的基盤モデルとしての独自の機能として、Pointwise Mutual Information (PMI) を用いた転写因子（TF）と標的遺伝子の機能的関連性の予測を行った。TF-Sapiens による予測結果を STRING データベース v12.0 と照合したところ、細胞周期制御因子である E2F8（予測ヒット数 87 に対し期待値 2.0）、FOXM1（ヒット数 105 に対し期待値 4.1）、MYBL2（ヒット数 54 に対し期待値 1.3）について、既知の標的遺伝子との関連が極めて高い精度で予測された (Fig. 5A)。さらに、Tabula Sapiens 2.0 の n=112 human cell types について細胞型特異的な発現プロファイルを生成したところ、実測データに見られるグローバルな構造（普遍的に発現する TF の垂直バンドと、細胞型特異的な TF の対角線上のトレース）をシミュレーションによって見事に再現した (Fig. 5B)。

考察/結論

先行研究との違い: 本研究で開発された TranscriptFormer は、特定の種やタンパク質配列のみに依存していた従来の単一細胞基盤モデル（Geneformer や UCE など）と異なり、12種・最大1億1200万細胞という前例のない進化的規模のシングルセルトランスクリプトームデータを用いた生成的自己回帰学習を採用している。これにより、相同遺伝子マッピングに依存することなく、遠縁種間での細胞表現空間の共通化を達成した。

新規性: 本研究は、1.53 billion 年にわたる進化の歴史を横断する生成的細胞アトラス基盤モデルを世界で初めて構築した。明示的なアノテーションやラベルなしの事前学習のみから、細胞の発生軌跡、系統関係、転写因子ネットワークなどの高次な生物学的構造が表現空間内に自然に創発することを新規に実証した。また、生成的プロンプト機能を用いて、転写因子の標的遺伝子予測や細胞型特異的発現マップのシミュレーションを仮想実験的に実行できることを初めて示した。

臨床応用: 本モデルの臨床的意義および臨床応用への可能性は極めて高い。ヒト特異的な疾患状態予測（SARS-CoV-2 感染予測において F1 = 0.859）や、Tahoe-100M データセットを用いた薬物摂動検出（平均 AUC = 0.879）における高い精度は、創薬プロセスにおける標的同定や、新規化合物の細胞毒性・有効性のスクリーニングを加速させる。また、動物モデルからヒトへの細胞状態のトランスレーショナルなマッピングを可能にすることで、臨床現場における疾患メカニズムの理解や個別化医療の進展に貢献する。

残された課題: 今後の検討課題として、さらなる多様な種の拡充や、シングルセルデータに特有 of バッチ効果を統合的に処理するアルゴリズムの強化が挙げられる。また、本モデルはゼロショットでの細胞状態予測に優れるものの、明示的な遺伝子ノックアウトなどの複雑な摂動予測能力の強化（limitation の克服）が必要である。今後は、トランスクリプトミクス以外のエピゲノムやプロテオームなどのマルチオミクスデータの統合を進めることが、生物学的基盤モデルとしての完成度を高めるために重要である。

方法

モデルアーキテクチャ：TranscriptFormer は生成的自己回帰モデルであり、細胞をタンパク質コード遺伝子とその発現量の「セル文章（cell sentences）」として表現する。入力として、Evolutionary Scale Model 2 (ESM-2) タンパク質言語モデルから得られた遺伝子埋め込みベクトルと、アッセイ技術識別子（assay token）を用いる。発現量は expression-aware multi-head self-attention（発現量認識型マルチヘッド自己注意機構）で処理され、遺伝子カウントがバイアス項として組み込まれる。これにより、高発現遺伝子がより強く注目される。デコーダ部には、次の遺伝子の同一性を予測する gene decoder（クロスエントロピー損失）と、発現量を予測する count decoder（ゼロトランケート・ポアソン分布に基づく負の対数尤度損失）の 2 つの出力ヘッドを持つ。モデルは 12 層の transformer エンコーダで構成され、推論時の活性パラメータ数は 302M（3億200万）である。

学習データとバリアント：以下の 3 つのモデルバリアントを構築した。

TF-Metazoa (TranscriptFormer-Metazoa): 12 種・112M（1億1200万）細胞。脊椎動物 6 種（ヒト、マウス、ウサギ、ニワトリ、アフリカツメガエル、ゼブラフィッシュ）、無脊椎動物 4 種（ウニ、線虫、ショウジョウバエ、淡水海綿）、アウトグループ 2 種（出芽酵母、マラリア原虫）を包含し、1.53 billion 年の進化をカバーする。
TF-Exemplar: ヒトと 4 種の主要モデル生物（マウス、ゼブラフィッシュ、ショウジョウバエ、線虫）の 110M 細胞。
TF-Sapiens (TranscriptFormer-Sapiens): ヒトのみの 57M 細胞。各モデルは同一のアーキテクチャを共有し、約 3.5 兆トークンを処理して事前学習された。

評価手法と統計解析：細胞型分類の評価には、凍結した細胞埋め込みを用いて logistic regression（ロジスティック回帰）モデルを訓練する線形プロービング（linear probing）プロトコルを採用した。また、未見種への細胞型転移や摂動状態の予測には、k-nearest neighbors（k近傍法）を用いた参照マッピング（reference mapping）を実施した。さらに、Contextualized Gene Embeddings (CGEs) の解析では、主成分分析（PCA）および variance partitioning analysis（分散分割分析）を用いて、細胞型、組織、ドナーの寄与度を定量化した。進化的距離と細胞埋め込みのコサイン類似度との相関には Spearman’s rank correlation（スピアマンの順位相関）を用いた。モデルの評価には、ヒト細胞株（HEK293T や A549 など）やマウス系統（C57BL/6J など）に由来する多様なシングルセルデータセット、および Tahoe-100 Million single-cell perturbation atlas (Tahoe-100M) などの薬物摂動データセットを使用した。

Research Wiki

エクスプローラー

TranscriptFormer: A generative cell atlas across 1.5 billion years of evolution

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク