• 著者: Jing Xing, Mingdian Tan, Dmitry Leshchiner, Mengying Sun, Mohamed Abdelgied, Bin Chen
  • Corresponding author: Xiaopeng Li (MSU), Mei-Sze Chua (Stanford), Jiayu Zhou (U Michigan), Bin Chen (MSU)
  • 雑誌: Cell
  • 発行年: 2026
  • Epub日: N/A
  • Article種別: Original Article
  • PMID: 41850287

背景

疾患関連トランスクリプトームを逆転させる化合物の探索は、ドラッグリパーパシングに広く活用されてきた戦略である。しかし、LINCSなどの既存データベースに収載されている化合物に限定され、新規化合物のde novo設計やhit-to-lead最適化への応用は未開拓であった。近年、化学構造から化合物誘導遺伝子発現プロファイルを予測する機械学習モデルの開発が進んでいるものの、これまでの研究は小規模ライブラリに留まり、臨床応用を見据えた最適化まで踏み込んだ検証は不足していた。

肝細胞癌 (HCC) は世界で6番目に頻度の高い癌であり、癌関連死の3番目の主要な原因であるにもかかわらず、効果的な治療選択肢が乏しい。また、特発性肺線維症 (IPF) は中央生存期間が約3年と予後不良であり、根治療法が存在しない難治性疾患である。これらの疾患はいずれも新規薬剤開発が喫緊の課題であり、特にHCCではゲノム異常が50%以上の患者で認められることはなく、臨床標的の20%以上で高発現しているものもないことが報告されている Hao et al. Cell 2021。IPFにおいても、複数の細胞集団が病態に関与していることが示唆されており、単一標的アプローチでは不十分である可能性が高い。

従来の標的ベースのスクリーニングは特定のタンパク質標的に対するドッキングに依存し、AI/MLモデルは既存のスクリーニングデータで訓練されることが多かったが、トランスクリプトミクス技術の進歩、特にシングルセルRNAシーケンス(RNA-seq)により、疾患や細胞状態を特徴づける豊富なトランスクリプトーム特徴が利用可能となった。しかし、これらの豊富なオミクスデータを十分に活用する創薬アプローチは不足しており、新規化合物の発見と最適化を可能にするプラットフォームの開発が求められていた。特に、化学構造のみから化合物誘導全転写産物シグネチャーを予測し、大規模な化合物ライブラリから新規治療薬をde novoで発見・設計するシステムは未確立であり、この分野に大きなギャップが残されていた。これまでの研究では、小規模な化合物ライブラリでの予測能力は示されていたものの、数百万規模の化合物に対するバーチャルスクリーニングや、in vivoでの有効性検証まで踏み込んだ報告は不足しており、臨床応用への橋渡しが課題であった。

目的

本研究の目的は、化学構造のみから化合物誘導全転写産物シグネチャーを予測する深層学習プラットフォームGPS (Gene expression Profile predictor on chemical Structures) を構築することである。このプラットフォームを用いて、数百万規模の化合物ライブラリに対するバーチャルスクリーニング、hit-to-lead最適化、および作用機序 (MoA) 解明を統合的に実施し、最終的にHCCおよびIPFを対象に、その有効性を前臨床レベルで検証することを目指した。特に、疾患関連トランスクリプトームを逆転させる新規治療薬のde novo発見と設計を可能にすることに焦点を当てた。

結果

GPSモデル性能と生物学的関連性: RCLフレームワークは、ベースライン手法 (DeepCop、MTL等) に対し、4細胞株すべてで有意に優れたbalanced accuracyおよびF1スコアを達成した (p < 1E-8)。予測精度は学習・テスト化合物間の化学的類似度に依存しない外部汎化性を示した (Figure 1B, S1E)。GPSは、978のランドマーク遺伝子に加えて、GO特徴量を用いて2,018の遺伝子を予測し、合計2,198遺伝子の化合物誘導トランスクリプトームシグネチャーを高精度で予測可能であることを示した (Figure 2A)。GO濃縮解析により、細胞周期制御、転写、キナーゼシグナル伝達に関連する遺伝子発現が化合物摂動に比較的応答しやすいことが示唆された (Figure 2B)。また、GPS予測プロファイルは、化学構造よりも経路レベルでの類似性を反映し、同じ経路を調節する異なる標的阻害剤を識別できることを示した (Figure 2H, 2I)。さらに、GPS予測プロファイルは、20の標的のうち8つにおいて、そのshRNAノックダウンプロファイルと有意に高い類似性を示した (p < 0.05) (Figure 2J)。

Z-RGESの有効性: HCCにおいて、Z-RGESは抗がん細胞活性と有意に負の相関を示し (Spearman R = -0.554, p = 0.0049)、CTRP HepG2感受性データでAU-ROC = 0.768、top hit rate 40%を達成した (Figure 3B, 3C, 3D)。生のRGESはいずれも有意な相関を示さなかった。アルツハイマー病 (AD) の側頭葉皮質 (TCX) 特異的シグネチャーに対しても良好に適用可能であり、AD治療薬は他のFDA承認薬よりもTCXシグネチャーの逆転能が強いことを示した (Figure S2D)。ZINCライブラリのスクリーニングでは、AD治療薬がAD関連遺伝子発現を逆転させる可能性が高いことが示された (Figure S2E)。既存薬候補であるニコサミドのアナログ化合物の最適化では、Cpd.5260420がHuh7細胞株を用いた皮下異種移植モデル (n=5 mice/group) で腫瘍体積を有意に縮小させた (p < 0.05) (Figure 3H)。

HCC候補化合物の同定と最適化: 700万ZINC化合物のスクリーニングで発見した構造多様性の高い18化合物中、1/3がHCC3細胞株すべてで顕著な増殖抑制を示した (hit rate 40%) (Figure S4D)。代表的なヒット化合物PB56874852 (Huh7におけるIC50は約4 μM) は、正常肝細胞に対し100 μMでも毒性を示さず、高い選択性を示した (Figure 4D)。MolSearchによる最適化では、フランをパラブロモベンゼンに置換した誘導体でHuh7におけるIC50が0.34 μMまで低下し、さらにトリフルオロメチル基導入によりMSU45302はソラフェニブより数倍強力なIC50をHCC3細胞株で達成した (Hep3BにおけるIC50は約0.85 μM) (Figure 4G, S5A)。MSU45302の腫瘍内投与 (1 μg / 3日 × 2週, n=5 mice/group) は、Huh7皮下移植モデルで腫瘍体積を有意に縮小させた (p < 0.05) (Figure 4H)。

SGAR解析によるMoA解明: 26の抗HCC化合物のGPS予測プロファイルクラスタリングから、高活性化合物が構造に依存せず収束するクラスターを形成することを確認した (Figure 5A)。UHRF1が薬剤活性と最も顕著に相関する遺伝子として同定され (RNA-seqおよびin vivo双方で発現低下を確認)、そのノックダウンによりHepG2細胞の生存率が有意に低下した (p < 0.001) (Figure 5C, 5D, 5E, 5F)。UHRF1タンパク質発現もMSU45302処理によりHuh7およびHepG2細胞で用量依存的に減少した (Figure 5G)。空間的トランスクリプトームおよびヒトタンパク質アトラスでUHRF1のHCC組織特異的高発現と不良予後が確認された (Figure 5H, 5I)。

IPF化合物の発見と細胞タイプ特異的シグネチャーの逆転: OCTADパイプラインで選抜したピリティルジオンは、ヒトIPF PCLS (n=8 patient samples) の8患者検体でFN1、SMA、CTHRC1を減少させ、FDA承認薬ニンテダニブと同等の線維化マーカー抑制を示した (Figure 6C, S6B)。BLM誘発肺線維症マウスモデル (n=5-6 mice/group) でも有効性が確認された (Figure 6D)。GPSで新規スクリーニングしたDrug 18は、3名の患者PCLS検体でFN1/SMA/CTHRC1の有意な低下を示した (p < 0.05) (Figure 6H)。ピリティルジオン処理PCLSのバルクRNA-seqのデコンボリューションにより、筋線維芽細胞画分の有意な減少が示された (p < 0.05, n=3 patients) (Figure 6E)。さらに、ピリティルジオンはMUC5B+上皮細胞のシグネチャーも強力に逆転させることが示唆された (Figure 6B)。GO濃縮解析では、鉄イオン輸送経路がIPF病態における重要な役割を果たす可能性が示唆された (Data S14)。

考察/結論

先行研究との違い: 本研究は、従来の標的ベースアプローチが特定タンパク標的に限定されるのに対し、疾患全体の転写フィノタイプ逆転を指向することで、複数細胞集団・経路を同時標的化できるという点で、これまでの創薬研究と異なるアプローチを提示した。また、既存データベースの化合物に限定されるドラッグリパーパシングとは対照的に、数百万規模の化合物ライブラリからの新規化合物発見とリード最適化までを統合的に実施した。

新規性: 本研究で初めて、深層学習モデルGPSを開発し、化学構造のみから化合物誘導全転写産物シグネチャーを予測する能力を実証した。これにより、HCCおよびIPFの両疾患において、de novo化合物発見から前臨床検証までを達成した。特に、HCCではin vivoで有効性を示す2つの新規化合物シリーズ (PB56874852およびMSU45302) を発見し、IPFでは既存薬候補ピリティルジオンと新規抗線維化化合物Drug 18を同定したことは、本研究で初めて報告された成果である。さらに、SGAR解析により、既存の表現型スクリーニングでは困難であったUHRF1を介したHCC治療薬の作用機序解明が可能となった。

臨床応用: 本プラットフォームは、HCCやIPFのような治療選択肢が限られる疾患に対し、新規治療薬の迅速な発見と最適化を可能にする点で、臨床的意義が極めて高い。特に、IPFにおけるシングルセルRNA-seqデータの活用は、疾患の多様な細胞タイプに特異的なシグネチャーを標的とすることを可能にし、より効果的な治療薬開発への道を開く。本システムは、吸入ベースの薬剤送達など、局所治療濃度を高め全身性副作用を最小限に抑える戦略と組み合わせることで、臨床現場での応用可能性をさらに高めることが期待される。

残された課題: 残された課題として、LINCSの学習データが4細胞株・978 landmark遺伝子に制限されるため、モデルの汎化性や予測可能な遺伝子のカバレッジに限界がある点が挙げられる。また、SGARは直接的なリガンド-タンパク質結合相互作用を捉えるものではなく、AlphaFold 3などの構造ベースモデリングアプローチとの併用が今後の検討課題である。さらに、トランスクリプトーム予測のみでは薬剤活性や副作用の全スペクトルを捉えるには不十分であり、他のオミクスモダリティとの統合が今後の研究方向性となる。IPFにおける薬剤耐性誘導などの臨床応用上の課題も残されており、さらなる前臨床検証、ビジネス評価、およびメカニズム研究が必要である。GPSのコードおよびウェブポータルは公開されており (GitHub: BinChen-Lab/GPS)、コミュニティへの普及が促進される。

方法

GPSモデル構築: LINCS phase Iデータ (18,746化合物 × 4細胞株 × 978 landmark遺伝子) を使用し、Robust Collaborative Learning (RCL) フレームワークにより、低品質データの重み付け再調整を行いながらモデルを訓練した。RCLは複数のニューラルネットワークで構成され、各ネットワークがピアシステムからの知識融合を通じてパラメータを更新する。化学構造フィンガープリント (ECFP4) とGene Ontology (GO) 特徴量を入力とし、遺伝子ごとの発現変動 (上昇/低下/変化なし) を予測した。合計2,198遺伝子の予測シグネチャーを生成し、ZINCライブラリおよびEnamine HTSライブラリの約700万化合物に適用した。

スクリーニングスコア: 疾患シグネチャー逆転能を定量化するため、Z-RGES (Reverse Gene Expression Score の Z変換) を開発した。これは、RGESをZ変換により正規化するもので、化合物が影響を与える遺伝子セットのサイズに依存しない比較を可能にする。CTRP (Cancer Therapeutics Response Portal) およびPRISMデータセットによる外部検証を実施した。

HCC研究: 約700万のZINC化合物に対し、既報のHCCシグネチャーを用いてスクリーニングを実施した。上位候補化合物はHepG2、Huh7、Hep3B細胞株での細胞毒性試験およびin vivo Huh7皮下異種移植モデルによる有効性確認を行った。Niclosamideアナログの構造最適化には、Monte Carlo Tree Search (MolSearch) を適用した。Structure-Gene-Activity Relationship (SGAR) 解析により、薬剤の作用機序を推定した。

IPF研究: ヒトIPF単一細胞RNA-seqデータ (10人の対照と12人の患者) から細胞種別シグネチャーを抽出し、OCTAD/GPSパイプラインで候補化合物を予測した。特に、筋線維芽細胞およびMUC5B+上皮細胞のシグネチャーに焦点を当てた。候補化合物はマウスおよびヒトPrecision-Cut Lung Slices (PCLS) モデルで線維化マーカー (FN1, SMA, CTHRC1) 抑制を評価した。PCLSのバルクRNA-seqデータからCIBERSORTxを用いて細胞組成をデコンボリューションし、薬剤処理による筋線維芽細胞画分の減少を評価した。

統計解析: GPSモデルの性能評価にはbalanced accuracyおよびF1スコアを用い、ベースライン手法との比較にはt検定を実施した。Z-RGESと抗がん細胞活性の相関はSpearman相関係数で評価した。HCC異種移植モデルにおける腫瘍体積の比較には二側t検定を用いた。IPF PCLSモデルにおける線維化マーカーの抑制評価にはt検定または対応のあるt検定を用いた。遺伝子発現解析には、Robinson et al. Bioinformatics 2010などのパッケージを用いた。