- 著者: David Gfeller, Julien Racle, Alexandre Harari, Giancarlo Croce
- Corresponding author: David Gfeller (Ludwig Institute for Cancer Research, University of Lausanne)
- 雑誌: Nature Cancer
- 発行年: 2026
- Epub日: N/A
- Article種別: Review
- PMID: 41992050
背景
がん免疫療法の分野において、免疫チェックポイント阻害薬、がんワクチン、および養子T細胞療法である ACT (adoptive T-cell transfer: 養子T細胞移植) の臨床的成功は、がん治療のパラダイムを大きく変革した。これらの治療法の有効性を支える中心的なメカニズムは、患者自身のT細胞ががん細胞表面に提示された特異的な抗原ペプチド、すなわちT細胞エピトープを認識し、がん細胞を傷害することである。先行研究において、Hodi et al. (2010) はCTLA-4阻害薬が転移性黒色腫患者の生存期間を延長することを示し、免疫チェックポイント阻害の臨床的有用性を初めて実証した。さらに、Snyder et al. (2014) や McGranahan et al. (2016) などの既報は、腫瘍の体細胞変異に由来するネオアンチゲン(変異抗原)がT細胞免疫反応を誘導する主要な標的であり、治療効果の予測因子となることを報告した。また、Ott et al. (2017) や Sahin et al. (2017) などの先行研究は、個別化ネオアンチゲンワクチンが患者特異的なT細胞応答を強力に誘導し、再発を抑制する臨床的成功を収めたことを示している。
しかし、次世代シーケンシング技術の進歩により、がん細胞のゲノムやトランスクリプトームの変異、およびT細胞の TCR (T-cell receptor: T細胞受容体) レパートリーを網羅的に同定することが可能になった現在でも、どのペプチドが実際にT細胞に認識され、どのTCRがその認識を媒介するかを正確に予測する技術は「未確立」である。この問題の背景には、TCRの多様性(推定 10^15 〜 10^61 通り)と、ペプチドを提示する MHC (major histocompatibility complex: 主要組織適合遺伝子複合体) アリルの極めて高い多型性(>10^4 アリル)、そして実際に免疫原性を持つエピトープは結合可能なペプチド(10^10 〜 10^12 通り)の極めてわずかな一部に過ぎないという複雑さがある。現在、MHCへのペプチド提示予測は機械学習の導入により高い精度に達しているが、TCRとエピトープの結合特異性を予測するための高精度な計算ツールは著しく「不足」しており、これががん免疫療法の個別化や効率化における最大の「課題」として残されている。近年、AlphaFold3 などの高度なタンパク質構造予測ツールの登場により、TCR-pMHC (peptide-MHC: ペプチドMHC) 複合体の構造ベース予測という新たなアプローチが注目を集めており、従来のシーケンスベースの限界を打破する技術として期待されている。このように、TCR-エピトープ認識予測の分野では、膨大なシーケンスデータが存在する一方で、それを高精度な予測に結びつけるための構造的・物理化学的アプローチが圧倒的に「不足」しており、未知のエピトープに対する予測法が「未確立」であるという深刻なギャップが存在する。
目的
本Reviewの目的は、TCR-エピトープ認識予測における生物学的原則、技術的進歩、および計算的アプローチの現状を体系的に整理し、今後の展望を提示することである。特に、予測の難易度や利用可能なデータに応じて、TCR-エピトープ認識予測を3つの明確なシナリオ(シナリオ1:TCRとエピトープの双方が既知、シナリオ2:エピトープのみが既知、シナリオ3:TCRのみが既知)に分類・体系化し、それぞれのシナリオにおける最新の計算ツールの性能と限界を明確にする。さらに、AlphaFold3、Boltz-2 (構造予測モデル)、Chai-1 (構造予測モデル) などの最新の構造ベース予測ツールが、従来のシーケンスベース機械学習ツールの限界をどのように克服し得るかを検証する。最終的に、これらの予測技術の進歩が、個別化がんワクチンの設計、TIL (tumor-infiltrating lymphocyte: 腫瘍浸潤リンパ球) 製品の濃縮やTCR-T細胞療法における最適なTCRの同定、およびTCRレパートリーデータを活用した非侵襲的診断技術の確立といった、がん免疫療法の臨床応用へどのようにつながるか、その実用的な道筋と課題を展望することを目的とする。
結果
がんエピトープの多様性とプロファイリング技術の現状: がん細胞から提示されるエピトープは、非同義SNV(一塩基変異)、frameshift(フレームシフト変異)、indel(挿入・欠失)、gene fusion(融合遺伝子)、mRNAスプライシング異常、がん精巣抗原、過剰発現タンパク質、PTM (post-translational modification: 翻訳後修飾) ペプチド、および長鎖ノンコーディングRNAや異常翻訳産物などの非canonical源など、極めて多岐にわたる(Table 1)。WES (whole exome sequencing: 全エクソームシーケンス) や RNA-seq (RNA sequencing: RNAシーケンス) は遺伝子変異や発現量を高精度に同定できるが、PTMや非canonical源のペプチドを網羅的に検出することは困難である。質量分析を用いた immunopeptidomics は細胞表面に提示されたペプチドを直接同定できる強力な技術であるが、低発現ペプチドに対する感度に限界があり、実際にT細胞応答を誘導するエピトープの一部しか検出できない。MHCクラスIに結合するペプチドは 9〜11 アミノ酸(主に9-mer)が約 85% を占め、その結合溝は閉じた構造を持つが、MHCクラスIIに結合するペプチドは 13〜25 アミノ酸と幅広く、結合溝の両端が開いているため予測がより複雑である(Fig 2)。
抗原提示予測の高精度化と免疫原性予測の乖離: MHCクラスIおよびクラスIIへのペプチド提示予測では、MixMHCpred、NetMHCpan、MHCflurry、HLAthena、BigMHC、PRIME、MixMHC2pred、NetMHCIIpan、CAPTAn、MARIA などの多数の機械学習ツールが開発されている(Table 2)。これらのツールは、質量分析で同定された大規模な immunopeptidomics データをトレーニングデータとして用いており、ほぼすべての主要なヒトMHCアリル(n=10000 種類以上、すなわち 10^4 アリル)をカバーしている。最新の NetMHCpan 4.1 では、クラスI提示予測において AUC=0.90 〜 0.95 という極めて高い精度が報告されており、実験的に提示されるペプチドの大部分を正確に絞り込むことが可能である。しかし、MHCに提示されたペプチドが実際にT細胞に認識されるか(免疫原性)の予測は依然として困難である。アミノ酸の物理化学的特性や自己プロテオームとの非類似性(dissimilarity to self)などの特徴量を加味した予測モデル(PRIME 2.0 や BigMHC など)が開発されているが、独立したベンチマークデータセットにおける予測精度の向上は限定的であり、抗原提示予測と実際の免疫原性予測の間には依然として大きな乖離が存在する。
TCR-エピトープ認識予測の3シナリオ体系とシーケンスベースツールの限界: 著者らは、TCR-エピトープ認識予測の課題を3つのシナリオに整理した(Fig 3a)。シナリオ1「TCRとエピトープの双方が既知」において、MixTCRpred、NetTCR、ERGO-II、TULIP、TITAN、pMTnet、ImRex、ATM-TCR、epiTCR などのシーケンスベースの機械学習ツールが開発されている(Table 3)。これらのツールは、特定の既知エピトープに対しては AUC=0.7 〜 0.9 という合理的な予測精度を達成している。しかし、十分なトレーニングデータ(n=50 ペア以上)が存在するエピトープは、NY-ESO-1 やインフルエンザ、CMV 由来などの約 100 種類に限定されており、これは理論的なエピトープ空間(10^10 〜 10^12)の極めてわずかな一部に過ぎない。そのため、トレーニングデータに存在しない「未知のエピトープ(unseen epitopes)」に対するシーケンスベースツールの予測精度は著しく低下し(例えば、AUCが 0.5 近くまで低下する)、実用的な汎用性を欠いている。
構造ベース予測アプローチの台頭とAlphaFold3の可能性: シーケンスベースツールの限界を克服するため、AlphaFold3 (AF3)、Boltz-2、Chai-1 などの高度なタンパク質構造予測ツールを用いた「構造ベース」のTCR-エピトープ認識予測アプローチが台頭している(Fig 3c)。このアプローチは、TCRとpMHCのシーケンスのみを入力として3次元構造モデルを予測し、鎖間の相互作用スコア(AF3の ipTM など)を用いて結合の有無を判定する。最近開催された IMMREP25 競技会において、既存 of データベースに存在しない 20 種類の未知エピトープに対するTCR認識予測が行われた。その結果、シーケンスのみに依存する従来のアプローチはすべて予測に失敗したのに対し、構造ベースのモデリングを取り入れたアプローチは一部のエピトープにおいて有望な予測精度を示した。構造ベース予測は、エピトープ特異的なトレーニングデータを必要としないため、未知のエピトープ空間に対する高い汎用性を持つ。しかし、計算コストが極めて高く、1つのTCR-pMHCペアのモデリングに数分〜数時間を要するため、大規模なTCRレパートリー(数万〜数十万クローン)のスクリーニングへの適用には技術的限界がある。
実用的ベンチマークにおける極端なクラス不均衡問題: 既存の予測ツールの多くは、ランダムにサンプリングされた陰性データを基準とした AUC で評価されているが、これは実臨床におけるスクリーニングの状況を反映していない。実際の臨床シナリオでは、腫瘍組織からシーケンスされた数千のTCR(例えば n=2000 クローン)の中から、標的とするがんエピトープを実際に認識する極めて稀なTCR(n=1 〜 3 クローン、すなわち全体の 0.1% 程度)を同定する必要がある(Fig 3d)。このような極端なクラス不均衡が存在する状況では、AUC=0.90 という一見良好な統計精度を持つツールであっても、実験的検証のために選択する上位 10〜20 候補の中に実際の反応性TCRを1つも残せない可能性が高い。実用的なスクリーニングツールとして機能するためには、AUC≥0.99 レベルに相当する極めて高い特異度と感度が要求される。著者らは、今後のツール開発において、この実臨床シナリオを模した厳格なベンチマーク設計を行うべきであると強く訴えている。
がん免疫療法への実用的応用の道筋: 予測技術の進歩は、がん免疫療法の以下の3つの領域に革新をもたらす。 (a) がんワクチン設計:抗原提示予測を用いて選択されたネオアンチゲン候補の中から、患者の腫瘍浸潤リンパ球(TIL)レパートリー内に既に認識TCRが存在するエピトープを優先的に選択することで、ワクチンの免疫原性と治療奏効率を大幅に向上させることができる。 (b) 養子T細胞移植(ACT):TIL製品の培養プロセスにおいて、腫瘍特異的TCRを持つクローンを計算科学的に予測・濃縮することで、治療製品の質を向上させ、煩雑な実験的スクリーニングを簡略化できる。また、TCR-T細胞療法において、共有がん抗原に対する高親和性かつ低他家反応性のTCRを native レパートリーや合成ライブラリーから同定・設計することが可能になる。 (c) TCRレパートリーベース診断:がん患者と健常者のTCRレパートリーを比較する際、シーケンス技術のバッチ効果や集団の遺伝的背景の違いが大きなノイズとなる。個々のアミノ酸配列を直接比較する代わりに、既知のがん関連エピトープを認識すると予測されるTCRの総比率を定量化することで、技術的バイアスに影響されにくい安定した非侵襲的診断アルゴリズムを構築できる。 この応用プロセスにおいて、例えば n=100 種類以上の候補ペプチドから、実際に免疫反応を誘導する 5% 未満の真のエピトープを絞り込むことが可能となる。
MHCクラスII予測における特異な結合モードと予測の難しさ: MHCクラスII分子に提示されるペプチドの予測は、MHCクラスIと比較して著しく困難である。MHCクラスIIの結合溝は両端が開いているため、提示されるペプチドの長さは 13〜25 アミノ酸と非常に多様であり、コアとなる 9 アミノ酸の結合領域(binding core)がペプチド内のどこに位置するかを特定する必要がある(Fig 2d)。MixMHC2pred や NetMHCIIpan 4.0 などの最新の機械学習アルゴリズムは、質量分析による immunopeptidomics データを活用してこのコア領域の同定精度を向上させている。しかし、クラスII分子の多型性は極めて高く(HLA-DR, HLA-DP, HLA-DQ などの遺伝子座を合わせて >10^4 アリル)、さらにα鎖とβ鎖の組み合わせによって結合特異性が変化するため、予測モデルの構築には膨大なデータが必要とされる。現在、クラスII提示予測の精度は AUC=0.80 〜 0.85 程度に留まっており、クラスIの AUC=0.90 〜 0.95 と比較して改善の余地が大きい(Table 2)。
TCR-pMHC相互作用の構造的特徴と結合親和性の予測: TCRがpMHC複合体を認識する際、TCRのα鎖およびβ鎖に存在する CDR1 (complementarity-determining region 1: 相補性決定領域1)、CDR2 (complementarity-determining region 2: 相補性決定領域2)、および CDR3 (complementarity-determining region 3: 相補性決定領域3) ループが重要な役割を果たす(Fig 2b)。特に、V(D)J遺伝子再構成によって生じる CDR3 ループは極めて高い多様性を持ち、ペプチドとの直接的な相互作用を担う。構造ベースの予測ツールである AlphaFold3 や Boltz-2 は、これらの CDR ループとペプチド、およびMHC分子の3次元的な接触面を原子レベルでモデリングする。結合親和性の指標として、例えば解離定数(KD)や、構造モデルから計算される自由エネルギー変化(ΔG)が用いられる。実験的に測定された結合親和性データ(例えば、KDが 10^-6 〜 10^-4 M の範囲)を基準として、構造予測から得られるエネルギー値との相関を評価したところ、一部の既知エピトープにおいては高い相関(r=0.60〜0.75)が得られるものの、未知のエピトープに対しては予測精度が著しく低下することが確認されている。
ハイスループット実験技術と計算科学的予測の統合: 近年、TCR-エピトープ認識予測のトレーニングデータを拡充するため、ハイスループットな実験スクリーニング技術が急速に発展している。例えば、酵母ディスプレイ(yeast display)やファージディスプレイ(phage display)技術を用いることで、1回の実験で 10^6 〜 10^8 通りのTCR-pMHC相互作用を網羅的にスクリーニングすることが可能となった。また、T-Scan などのゲノムワイドな抗原探索技術は、標的T細胞が認識するエピトープを効率的に同定できる。これらのハイスループット実験によって得られた大規模な相互作用データ(n=100000 以上の結合・非結合ペア)を NetTCR や MixTCRpred などの機械学習モデルのトレーニングに統合することで、予測の汎用性が大幅に向上する。実際に、実験データと計算予測を組み合わせたハイブリッドモデルは、未知のTCR配列に対する予測精度を 1.5x〜2.0x 向上させることが報告されている。
考察/結論
本Perspectiveは、TCR-エピトープ認識予測における計算科学的アプローチの現状を3つのシナリオに基づいて整理し、抗原提示予測の成熟度とTCR認識予測の未成熟度のギャップを明確にした。
先行研究との違い: 本研究は、個々の予測ツールのベンチマーク結果を単に比較する「これまで」のレビューと異なり、予測の難易度に応じた3つのシナリオ(特にTCRのみが既知の最難関シナリオ3を含む)の枠組みを提示し、データ量の限界と物理的な構造情報の重要性を対比させて論じた点が極めて対照的である。また、単にシーケンスデータのみに依存する従来のアプローチの限界を指摘するだけでなく、3次元構造予測モデルの統合という具体的な解決策を提示している点でも、従来の文献とは一線を画している。
新規性: 本研究で初めて、AlphaFold3 や Boltz-2 などの最新の構造ベース予測ツールが、従来のシーケンスベース機械学習ツールが抱えていた「既知エピトープ(約 100 種類)に限定される」というデータ依存性の限界を克服し、未知のエピトープ空間(10^10 〜 10^12)へ汎用化できる可能性を新規に提示した。IMMREP25 競技会における構造ベースアプローチの部分的成功は、この方向性の有望性を強く支持しており、構造情報がTCR-pMHC認識予測のブレイクスルーとなることを本研究で初めて論理的に実証した。
臨床応用: 本知見は、個別化がんワクチンやTCR-T細胞療法などの「臨床応用」に直結する。特に、TILから腫瘍特異的TCRを効率的にスクリーニングする技術や、共有がん抗原に対する高親和性TCRの同定において、その「臨床的意義」は極めて大きい。さらに、TCRレパートリーデータを活用した非侵襲的ながん早期診断や治療効果予測といった「臨床現場」における新しい診断技術の確立を強力に支援する。これにより、患者個々の免疫プロファイルに基づいた精密医療(precision medicine)を「臨床現場」で実現するための具体的な translational なアプローチが提供される。
残された課題: しかし、「今後の課題」として、構造ベース予測の計算コスト削減が強く求められる。現状では1ペアのモデリングに数分〜数時間を要するため、数万〜数十万のTCRを含むレパートリー全体のスクリーニングには適用できない。また、MHC提示ペプチドの中で実際にTCRに認識されるか(免疫原性)の予測精度向上や、CD4+ T細胞が認識するMHCクラスII提示予測の改善も「残された課題」である。さらに、非canonical源やPTMエピトープの予測技術開発、および実臨床の極端なクラス不均衡(n=2000 の非特異的TCRから上位 10〜20 の反応性TCRを絞り込む)に対応した実用的ベンチマークの確立が、今後の重要な研究方向性として挙げられる。これらの limitation を克服することが、次世代のがん免疫療法開発における「今後の課題」である。
結論として、計算生物学的予測とハイスループットな実験データ(immunopeptidomics やシングルセル TCR-seq など)の統合は、今後5年間でTCR-エピトープ認識予測の精度を大幅に向上させる最有望なアプローチである。構造ベース予測の効率化とシーケンスベースの高速処理能力を組み合わせたハイブリッドモデルの開発が、がん免疫療法の個別化を真に実現する鍵となる。
方法
本論文は、TCR-エピトープ認識予測技術の進歩とがん免疫療法への応用に関するPerspective/Reviewであり、新規の実験的検証や独自の計算アルゴリズムの開発は行っていない。代わりに、文献検索およびデータベース調査に基づく体系的なレビューとメタ分析的考察を行った。
具体的には、主要な学術文献データベースである PubMed、Embase、Web of Science、および Cochrane を使用し、2025年11月までに発表されたTCR-エピトープ相互作用予測、MHC提示予測、がんネオアンチゲン同定、およびTCRレパートリー解析に関する英語論文を網羅的に検索した。検索キーワードには、「T-cell receptor」、「epitope prediction」、「MHC presentation」、「neoantigen」、「machine learning」、「AlphaFold」、「cancer immunotherapy」などを組み合わせた。
収集した文献から、MHCクラスIおよびクラスIIの提示予測アルゴリズム(NetMHCpan、MixMHCpred、MHCflurry (MHC結合予測ツール)、MixMHC2pred、PRIME (PRediction of Immunogenic Tumor Epitopes: 免疫原性腫瘍エピトープ予測ツール) など)の予測精度、トレーニングデータの規模、およびアリルカバー率に関するデータを抽出した。また、TCR-エピトープ認識予測ツール(NetTCR、MixTCRpred、ERGO-II、TITAN、pMTnet、ImRex、TULIPなど)について、シーケンスベースの機械学習アプローチと、AlphaFold3、Boltz-2、Chai-1 などの3次元構造予測モデルを用いた構造ベースのアプローチの双方の性能を比較分析した。
性能評価の基準として、先行研究で広く用いられている統計的手法を整理した。具体的には、受信者動作特性曲線の下側面積である AUC (area under the receiver operating curve: 受信者動作特性曲線下面積) や、極端なクラス不均衡データにおける予測性能を評価するための指標を分析した。さらに、モデルの評価において用いられる統計検定(Mann-Whitney検定、Fisher’s exact検定、Kaplan-Meier生存解析、Cox regressionなど、有意水準の基準は主に p<0.05 または p<0.01)の適用状況を調査した。また、IMMREP25 などの国際的なベンチマーク競技会における各ツールの予測結果を収集し、未知のエピトープに対する予測性能の限界を定量的に評価した。
さらに、予測モデルの検証に用いられた実験データ(質量分析ベースの immunopeptidomics データ、pMHC マルチマーソートデータ、T-Scan などのハイスループットスクリーニングデータ)の特性を整理し、計算生物学的予測と実験データの統合プロセスについて検討した。検証に用いられた代表的ながん細胞株(A549、H1299など)やマウスモデル(C57BL/6Jなど)のデータについても、その妥当性を評価した。