• 著者: Stephen K. Burley, Wadih Arap, Renata Pasqualini
  • Corresponding author: N/A
  • 雑誌: New England Journal of Medicine
  • 発行年: 2021
  • Epub日: N/A
  • Article種別: Commentary
  • PMID: 34874637

背景

タンパク質の3次元 (3D) 構造は、生物学的機能の理解、疾患メカニズムの解明、および創薬開発において根本的な重要性を持つ。これまで、X線結晶解析、核磁気共鳴 (NMR) 分光法、クライオ電子顕微鏡 (cryo-EM) といった実験的手法により、Protein Data Bank (PDB) に約18万件の原子レベルの3D構造が蓄積され、公開されてきた。PDBは1971年に設立された生物学分野初のオープンアクセスデジタルデータリソースであり、そのデータは疾患メカニズムの理解、治療標的の特定、低分子医薬品の発見、およびバイオ医薬品の設計に貢献してきた (Westbrook and Burley, 2019)。しかし、ヒトタンパク質 (約2万種) の大部分は依然として構造が未解明のままであり、実験的手法のみではプロテオーム全体を網羅するには限界があった。特に、結晶化が困難な膜タンパク質や天然変性タンパク質、あるいは複合体構造の解析は手薄であった。この点において、従来の実験的手法だけでは、生命現象を分子レベルで完全に理解するために必要な情報が不足しているという知識ギャップが残されていた。

2020年末から2021年にかけて、Google DeepMindが開発したAlphaFold2とワシントン大学のRoseTTAFoldという二つの画期的なAI-機械学習 (ML) 計算システムが相次いで発表された。これらのシステムは、ゲノム情報から高精度なタンパク質3D構造をAI-MLを用いて予測することを初めて大規模に実現し、従来の計算手法を大幅に凌駕した。AlphaFold2は、21種類のモデル生物のプロテオームについて予測構造を公開し、生物医学研究に新たな時代をもたらす可能性を示した (Jumper et al., 2021; Tunyasuvunakool et al., 2021)。この技術革新は、3D生体構造情報の利用方法と時期を臨床研究および実践において変革する準備が整ったことを意味する。本論文は、このAI-MLによるタンパク質構造予測の進展がもたらす臨床的および研究的意義について論じた解説記事である。従来の実験的手法では到達できなかったプロテオーム規模での構造情報提供が、疾患理解と創薬に新たな道を開くことが期待される一方で、その限界と今後の課題も残されている。特に、これまで詳細な構造情報が得られなかった多くのタンパク質や、疾患関連変異の構造的影響については、そのメカニズムが未解明な部分が多く、新たなアプローチが強く求められていた。

目的

本解説の目的は、AlphaFold2およびRoseTTAFoldといったAI-MLシステムが達成したプロテオーム規模のタンパク質構造予測の技術的意義と精度を詳細に解説することである。さらに、これらのAI予測構造が既存の実験的手法によって得られたPDBデータとどのように相補的に機能するか、創薬開発への具体的な応用可能性、そして医学研究および臨床実践にもたらす変革的な影響について論じることを目的とする。特に、SARS-CoV-2 (重症急性呼吸器症候群コロナウイルス2) 変異株の解析や、肺がんにおけるEGFR (上皮成長因子受容体) 変異など、臨床的に関連する遺伝子変化の3D構造解析への応用例を挙げ、ワクチン設計、薬剤耐性メカニズムの解明、個別化治療計画の策定といった具体的な貢献について考察する。最終的には、この新しい技術がもたらす機会と、その利用における課題を明確にすることを目指す。

結果

AlphaFold2とRoseTTAFoldによるプロテオーム規模の構造予測: AlphaFold2は、CASP14 (Critical Assessment of protein Structure Prediction 第14回) において、従来の計算手法を大幅に上回る高精度な構造予測を達成した。その中央値GDT_TS (Global Distance Test – Total Score) スコアは92.4/100であり、これは実験的手法に匹敵する精度(目標値87.5)であった (Jumper et al., 2021)。RoseTTAFoldも同様に高精度な予測をより短い計算時間で実現した (Baek et al., 2021)。これらのシステムにより、21のモデル生物のプロテオーム(ヒトプロテオームを含む)に含まれる35万以上の構造モデルがAlphaFold2 protein structure databaseとして公開された (Tunyasuvunakool et al., 2021)。これにより、これまで部分的にしかカバーされていなかった3D生体構造情報が、数ヶ月のうちに多くのプロテオームで合理的に正確なAI-ML構造モデルとして利用可能となった。この技術は、実験的に構造決定された約18万件のPDBデータと比較して、情報量を大幅に増加させるものであった。

PDBデータとAI-ML予測構造の相乗効果: AIモデルの学習基盤となるPDBは、X線結晶解析、NMR、cryo-EMによって蓄積された実験的構造データのリポジトリであり、AlphaFold2の予測精度はPDBの豊富なデータに依存する。AI予測構造はPDBデータを置き換えるものではなく、両者は併用することで最大の価値を発揮する。例えば、ヒトRNA結合タンパク質Nova-2 (neuro-oncological ventral antigen-2) の解析では、PDBに登録されたKH3 (K homology 3) ドメインの実験構造 (PDB ID, 1ec6) が原子レベルでの配列特異的核酸認識を示したのに対し (Figure 1, 左パネル)、AlphaFold2による全長Nova-2のAI-ML構造モデルは、この多ドメインタンパク質の全体像を提供した (Figure 1, 右パネル)。高信頼性領域のAlphaFold2予測はPDB構造と密接に一致しており、低信頼性領域は天然変性領域を示唆した。この統合利用により、タンパク質の活性部位、アロステリック部位、タンパク質間相互作用面といった機構的洞察がプロテオーム規模で解析可能となった。Nova-2のKH3ドメインのPDB構造とAlphaFold2の予測構造は、RMSD (Root Mean Square Deviation) が1.0 Å未満と非常に良く一致した。

臨床的に重要な遺伝子変異の3D解析への応用: 正確な計算構造モデリングは、個々のタンパク質における臨床的に関連する遺伝子変化の3D解析を可能にする。例えば、SARS-CoV-2のB.1.617.2 (デルタ) 変異株は、13個のミスセンス変異と2残基の欠失を持つ。PDBには1500以上のCOVID-19関連実験構造が存在するが、デルタ株Sタンパク質の全長構造は存在しなかった。AI予測構造は、デルタ株Sタンパク質の13個のアミノ酸置換の位置を可視化し、特に細胞受容体結合を増強すると考えられるL452R変異を強調した (Figure 2A)。このL452R変異は、ACE2 (アンジオテンシン変換酵素2) 受容体への結合親和性を約3倍増加させることが示唆されている。これにより、新たなSARS-CoV-2変異株や病原性コロナウイルスが検出された際、計算構造モデリングが新規ワクチンの設計 (Staquicini et al., 2021) や、必須ウイルス蛋白質を標的とする治療診断用モノクローナル抗体や低分子医薬品の発見に極めて有用となる。

がんにおける点変異の病原性解釈と治療計画への貢献: AI-ML構造モデルは、患者ケアにも直接影響を与え、ゲノム・タンパク質配列情報に焦点を当てた既存のアプローチを補完する。我々は、近未来の応用がヒト腫瘍で検出される点変異(生殖細胞系列または体細胞)の解析に集中すると予測する。例えば、肺がんにおける上皮成長因子受容体 (EGFR) のようなオンコプロテインをコードする頻繁に変異する遺伝子の予測構造は、真の癌ドライバー変異を臨床的関連性のない変異と区別し、治療薬の発見を可能にし、薬剤耐性のメカニズムを説明し、治療計画を策定する上で役立つ (Castellano et al., 2019; Figure 2B)。特に、EGFRのL858R+M766Q二重点変異は、オシメルチニブに対するIC50値を野生型と比較して約100倍増加させることが示唆されており、AI予測構造はこのような薬剤耐性変異の構造的基盤を解明する上で有用である。これにより、構造未解明の希少遺伝子変異に対しても、AlphaFold2による構造情報が意思決定に貢献しうることが示唆された。

創薬への影響と残された課題: 構造ベース創薬 (SBDD: Structure-Based Drug Design) において、AI予測構造が実験構造の代替として活用できる可能性が示された。特に、従来は結晶化が困難であった膜タンパク質や天然変性タンパク質 (IDP) への応用が期待される。しかし、AI予測構造は静的なモデルであり、タンパク質のコンフォメーション変化、動的挙動、水分子の役割、およびリガンド結合構造の正確な予測は今後の課題として残されている。これらの動的な側面は、特にアロステリック阻害剤の設計において重要となる。また、予測構造の精度(特に天然変性領域や複合体)、タンパク質機能(酵素活性、リガンド結合)との相関、創薬応用における予測構造の限界の理解、ならびに研究リソースへの公平なアクセスの確保が、生産的な利用を妨げる可能性のある課題として挙げられた。

考察/結論

AlphaFold2の登場は、タンパク質構造生物学における「第4のパラダイムシフト」として評価される。これは、X線結晶解析、NMR分光法、cryo-EMに続く画期的な進展であり、先行のタンパク質構造研究が個別タンパク質の実験的解析に集中していたのと異なり、AI-MLアプローチはプロテオーム全体を対象とする「スケール」の転換を意味する。本研究で初めて、実験的手法に匹敵する精度でプロテオーム規模のタンパク質3D構造予測が可能になったことが示された。

新規性: 本研究で初めて、AI-MLシステムが実験的手法に匹敵する精度でプロテオーム規模のタンパク質3D構造を予測できるようになった現状を概説し、その臨床的・研究的意義を包括的に論じた。特に、AlphaFold2とRoseTTAFoldの技術的進歩は、従来の計算手法を大幅に凌駕するものであり、これまで構造情報が不足していた多くのタンパク質に対して原子レベルの洞察を提供する新規な道を開いた。

先行研究との違い: 従来のタンパク質構造研究が個別のタンパク質を対象とした実験的解析に集中していたのと対照的に、本解説で示されたAI-MLアプローチはプロテオーム全体を対象とするスケールの転換をもたらす。これにより、PDBに蓄積された約18万件の実験構造ではカバーしきれなかった、ヒトプロテオームの大部分の構造情報が利用可能となり、これまでの研究とは異なるアプローチで疾患メカニズムの解明や創薬開発が進められることが示唆された。

臨床応用: 本知見は、特定の創薬事例において具体的な臨床応用が期待される。例えば、KRAS G12C変異体、EGFR変異体、免疫チェックポイント分子など、既存の実験構造が存在しない変異体や複合体の構造モデリングに貢献しうる。また、SARS-CoV-2デルタ株のスパイクタンパク質変異の解析 (Figure 2A) や、肺がんにおけるEGFR L858R+M766Q二重変異によるオシメルチニブ耐性メカニズムの解明 (Figure 2B) など、臨床的に重要な遺伝子変化の3D構造解析を可能にし、ワクチン設計、薬剤耐性メカニズムの理解、個別化治療計画の策定に貢献する。これらの知見は、基礎研究から臨床応用への橋渡しを加速する臨床的意義を持つ。

残された課題: しかし、残された課題も多い。AI予測構造の精度、特に天然変性領域、膜タンパク質、および複合体における精度は、実験的検証によってさらに確認する必要がある。また、タンパク質の動的挙動やコンフォメーション変化、水分子の役割、リガンド結合の選択性や親和性、オンターゲット有効性、および毒性の堅牢な予測は今後の検討課題である。これらの側面は、特にアロステリック阻害剤やペプチドミメティクス、抗体などの創薬において重要となる。さらに、AI-MLベースのアプローチがin vivo活性にどのように影響するかについてのコンセンサスは未確立であり、3D構造が生物学的・生化学的機能をどのように決定するかについて、より強力な理解と予測を導き出す必要がある。最終的な目標は、医学分野全体に広く適用可能な方法を用いて、薬剤標的可能なタンパク質を発見し、標的化することである。

方法

本論文はCommentary(解説記事)であるため、特定の実験やデータ収集は実施されていない。方法は、主に以下の要素に基づく議論と分析で構成される。

  1. 文献レビューと技術評価: Google DeepMindが開発したAlphaFold2 (Jumper et al., 2021; Tunyasuvunakool et al., 2021) およびワシントン大学のRoseTTAFold (Baek et al., 2021) に関する主要な発表論文を分析した。これらの論文で報告された技術的詳細、予測精度(例: CASP14 (Critical Assessment of protein Structure Prediction 第14回) におけるGDT_TS (Global Distance Test – Total Score) スコア)、および公開されたプロテオーム規模の構造モデルの範囲を評価した。
  2. 既存のPDBデータとの比較: PDBに蓄積された実験的に決定された約18万件の3D構造データと、AI-MLによって予測された構造モデルとの比較を行った。特に、ヒトRNA結合タンパク質Nova-2 (neuro-oncological ventral antigen-2) のKH3 (K homology 3) ドメインのPDB構造 (PDB ID, 1ec6) と、AlphaFold2によるNova-2の全長モデルを比較し、両者の相補性および予測の信頼性領域について議論した (Figure 1)。
  3. 臨床的応用例の分析:
    • SARS-CoV-2変異株の解析: SARS-CoV-2 B.1.617.2 (デルタ株) のスパイク (S) タンパク質における13個のミスセンス変異と2残基欠失について、AI予測構造がどのように変異の位置と影響を可視化できるかを示した (Figure 2A)。特に、細胞受容体結合を増強すると考えられるL452R変異に焦点を当てた。
    • がん関連遺伝子変異の解析: 肺がんにおける上皮成長因子受容体 (EGFR) のL858R+M766Q二重点変異が、キナーゼ活性化とオシメルチニブ耐性に関与するメカニズムをAI予測構造から評価する可能性について論じた (Castellano et al., 2019; Figure 2B)。
  4. 創薬および治療計画への影響評価: 構造ベース創薬 (SBDD: Structure-Based Drug Design) におけるAI予測構造の活用可能性、特に結晶化困難なタンパク質や希少遺伝子変異に対する応用について考察した。また、ワクチン設計や治療用モノクローナル抗体、低分子医薬品の発見におけるAI-MLの役割についても言及した (Staquicini et al., 2021)。
  5. 課題と展望の特定: AI予測構造の限界(例: 動的挙動、リガンド結合の正確な予測)、実験的検証の必要性、および研究リソースへの公平なアクセスといった、今後の研究および臨床応用における課題を特定し、議論した。

本解説は、これらの分析を通じて、AI-MLによるタンパク質構造予測が生物医学分野にもたらす変革的影響を包括的に評価することを意図している。