• 著者: Schwartz R, Schäffer AA
  • Corresponding author: Russell Schwartz (Carnegie Mellon University); Alejandro A. Schäffer (NIH/NCBI)
  • 雑誌: Nature Reviews Genetics
  • 発行年: 2017
  • Epub日: 2017-02-13
  • Article種別: Review
  • PMID: 28190876

背景

腫瘍は単一の均一な細胞集団ではなく、遺伝的および表現型的に多様なサブクローンから構成される不均一な集団である。この腫瘍内不均一性 (intratumor heterogeneity: ITH) は、がんの進展、転移、および治療抵抗性の獲得において極めて重要な役割を果たしている。1976年にNowellが提唱したクローナル進化理論は、腫瘍が微小環境による選択圧のもとで逐次的な変異の獲得とクローン選択を繰り返しながら進化するという、現代のがんゲノム学の基礎的枠組みを提供した。近年、高スループットシークエンシング技術の劇的な進歩により、腫瘍のゲノム不安定性、すなわち染色体不安定性 (chromosome instability: CIN) やマイクロサテライト不安定性 (microsatellite instability: MIN) などの獲得プロセスが詳細に解明されつつある。これらは、Hanahan et al. Cell 2011が整理したがんの生物学的特徴 (Hallmarks of Cancer) の獲得と密接に関連している。

しかし、腫瘍の進化プロセスは、古典的な生物種の進化とは大きく異なる特徴を有している。例えば、単一の細胞周期内で劇的なゲノム再編成を引き起こすクロモスリプシスや、局所的な高頻度点変異をもたらすカタエギス、複雑な連鎖染色体再編成であるクロモプレキシーといった突発的かつカタストロフィックなゲノム変動事象は、従来の緩やかで連続的な突然変異蓄積モデルでは説明できない。また、Alexandrov et al. Nature 2013が示したように、がん種や患者、さらには同一腫瘍内の異なる系統において、多様な変異シグネチャーが時間的・空間的に変化しながら作用している。このような腫瘍特有の進化動態を正確に捉えるためには、従来の種の進化を前提とした分子系統学的手法をそのまま適用することには限界があり、多くの課題が残されている。

特に、バルクシークエンシングデータから得られるバリアントアレル頻度 (variant allele frequency: VAF) のデコンボリューション (サブクローン分離) や、単一細胞シークエンシング (single-cell sequencing: scSeq) における高い技術的ノイズ (アレルドロップアウトなど) を考慮した系統樹再構築アルゴリズムの開発は、依然として「未解明」な部分が多く、体系的なガイドラインや頑健な解析手法が「不足」している。このように、データ特性、進化モデル、および計算アルゴリズムの間の不整合が、誤った系統樹推定や不正確な生物学的解釈を導くリスクが指摘されており、研究デザインに応じた適切な手法の選択基準の確立が強く求められている。

目的

本総合レビューの目的は、急速に発展する腫瘍系統学 (tumour phylogenetics) における計算原理と実践的な応用手法を体系的に整理し、研究者に対して信頼性の高い系統樹再構築のための実践的ガイドラインを提供することである。具体的には、横断的 (cross-sectional) 解析、領域バルク (regional bulk) 解析、および単一細胞 (single-cell) 解析という3つの主要な研究デザインとデータタイプについて、それぞれの計算原理、代表的なソフトウェアツールのアルゴリズム的特徴、および適用限界を網羅的に比較・検証する。さらに、腫瘍進化における線形進化 (linear evolution) と分岐進化 (branched evolution) の論争、中立進化 (neutral evolution) モデルと選択圧モデルの対立、および断続平衡 (punctuated equilibrium) モデルといった進化理論の現状を整理する。最終的に、データ特性、進化モデル、および計算アルゴリズムの三者間の整合性を確保することの重要性を論じ、臨床応用 (転移起源の特定、治療標的の優先順位付け、予後予測など) に向けた課題と、今後の計算生物学的アプローチの発展方向を提示することを目的とする。

結果

横断的腫瘍系統学とドライバー変異蓄積モデルの限界: 横断的 (cross-sectional) 手法は、多数の患者から収集した腫瘍サンプルを「種」に見立てて比較し、集団内で共通して繰り返される変異蓄積パターン (腫瘍進化の典型的経路) を推定する。Fearon-Vogelsteinの大腸がん線形進化モデルを起点とし、Desper et al.がこれを分岐ツリー (oncogenetic tree) に拡張したことが系統学的がん研究の出発点となった (Figure 1a)。対応ツールとしてTO-DAG、ct-cbn、NAM、RESIC、Mtreemix/Rtreemixなどが開発されており、主にドライバー変異の蓄積順序や進行ステージとの対応解明に用いられる (Table 1)。しかし、これらの横断的手法は腫瘍内不均一性の程度が評価時点で認識されていなかった時代に開発されたものが多く、強い腫瘍内不均一性が存在する場合には系統推定が不信頼となる。シミュレーション研究では、ITHが存在する場合、横断的データから構築された系統樹の約40%以上で、ドライバー変異の獲得順序が逆転するなどの深刻なトポロジーの誤りが生じることが報告されている。また、横断的解析では、異なる患者間の遺伝的背景の多様性がノイズとなり、真の体細胞進化シグナルを覆い隠してしまうリスクが常に存在する。このため、単一患者内の進化を追跡するアプローチへの移行が不可欠となった。

領域バルク腫瘍系統学による空間的分岐進化の実証: 第2のアプローチである領域バルク (regional bulk) 手法は、単一患者の腫瘍複数部位・複数時点から採取したバルクサンプルを用いて系統樹を構築する (Figure 1b)。各部位を「種」に見立て、SNVのVAFやCNVプロファイルから系統樹を推定する。PhyloWGS、MEDICC、TuMult、LICHeE、Canopyなどが代表的ツールである (Table 1)。主要成果として、Gerlinger et al. NEnglJMed 2012は腎細胞癌の多領域シークエンシングから分岐進化の直接証拠を示し、同一腫瘍内の空間的に異なる部位間で異なる主要ドライバー変異が観察されるという衝撃的知見を得た。また、deBruin et al. Science 2014は、肺腺がん患者 (n=11) の多領域シークエンシング解析により、ゲノム不安定性プロセスの空間的・時間的多様性が肺がん進化を規定していることを明らかにした。

卵巣がん多領域解析におけるITHスコアの臨床的予後予測能: Schwarz et al.はMEDICCを用いた高悪性度漿液性卵巣癌の多領域解析 (n=135) を行い、再発腫瘍が原発腫瘍から早期に分岐していることを示した。この研究では、系統解析から得られたITHスコアが高い患者群において、無増悪生存期間 (PFS) のハザード比 (HR) が 1.85 (95% CI 1.21-2.83, p=0.004) と有意に予後不良であることが示され、系統樹に基づくITHの定量化が臨床的な予後予測指標として極めて有用であることが実証された (Table 2)。このように、領域バルク解析は、単一の生検サンプルでは見落とされてしまうクローン多様性を空間的サンプリングによって捕捉し、臨床的な意思決定に直結する生存率やハザード比の推定に貢献している。

単一細胞腫瘍系統学の展開と計算コストのボトルネック: 第3のアプローチは単一細胞 (single-cell) 手法であり、個々の腫瘍細胞のゲノムを直接解読してサブクローン構造と系統樹を構築する (Figure 1c)。Navin et al. Nature 2011による乳癌核のDOP-PCR (degenerate oligonucleotide primed PCR) を用いた単一細胞CNV解析がこのアプローチの先駆けとなり、その後scSeqベースの解析が急速に発展した。ツールとしてはFISHベースのFISHtrees、scSeq SNVベースのOncoNEMやSCITEが開発されている (Table 1)。しかし、ほとんどの単一細胞系統研究では依然として種の系統学ツール (隣接結合法NJ、最大節約法MP) が流用されており、腫瘍特有の進化機構 (CNVの多スケール性、コピー数増幅の非独立性など) に最適化されたツールの開発が不十分である。特に、MCMC法は確率論的モデルに最適であるが、サンプル数 (細胞数) が増えると計算コストが指数的に増大するため、200細胞規模の単一細胞データには現実的に適用困難という本質的限界がある。このため、数千から数万の細胞を扱う現代のシングルセル解析においては、計算スケーラビリティの確保が極めて深刻な課題となっている。

データ・モデル・アルゴリズムの三者不整合による系統樹の歪み: 本レビューの重要な貢献は、腫瘍系統推定においてデータ・モデル・アルゴリズムの3者が互いに整合していることの重要性を実例を用いて論じた点にある。著者らは「200個 of 単一細胞から乳癌CNV進化を推定する」という仮想研究を例にとり、段階的に生じる方法論的失敗を解説する (Figure 2)。まず、SNV向けモデル (変異が独立に蓄積する想定) をCNVデータに適用すると、全ゲノム倍加などの巨大変化が多数の独立変化と混同され、系統樹が大きく誤る (Figure 2b)。これを修正してCNV向けベイズ確率論的モデルに変更すると、今度はMCMCアルゴリズムが200細胞スケールでは計算不可能になる (Figure 2c)。計算コストを下げるために領域バルク法 (10部位×20腫瘍) に変更すれば、各ツリーは解析可能になるが今度は腫瘍間の不均一性が大きすぎて稀少クローンの追跡ができなくなる (Figure 2d)。このトレードオフの連鎖は、どの標準的ツールを選んでも完全な解答は得られない場合があり、計算生物学者を設計段階から参加させることが不可欠であるという実践的結論につながる。

線形進化と分岐進化の論争および中立進化モデルの台頭: 線形進化 (単一クローンが段階的に変異を獲得する) か分岐進化 (早期に複数サブクローンに分岐して並行進化する) かは腫瘍種・データタイプ・用いる系統推定法によって異なる結論が得られる。SNVおよびCNVデータを用いた多部位解析 (乳癌、腎細胞癌、肺癌、大腸癌など) では分岐進化の証拠が多数得られているが、中性進化モデルを支持するデータも存在する。Williams et al. NatGenet 2016は、14がん種、n=904の腫瘍サンプルの解析から、約30%以上の腫瘍において、検出可能なサブクローン選択が存在せず、中立的な進化プロセスに従っていることを示した。この矛盾の一一因は、SNV解析が比較的中立的進化を反映しやすい一方、CNVや後成的なDNAメチル化マーカーは強選択下の進化を反映するという「マーカー依存性」にある。また、同一データに複数の系統推定法を適用した研究では、方法間で結論が一致する場合のみ頑健な推定が得られることが示されており、単一のアルゴリズムに依存することの危険性が警告されている。

断続平衡モデルと突発的ゲノム不安定化事象の影響: 断続平衡 (punctuated equilibrium) モデルは、腫瘍進化が緩やかに連続的に起こるのではなく、少数のカタストロフィックイベントで急激に多様性が生じ (punctuation)、その後は安定期が続くことを提唱する。Chromothripsis (単一細胞周期での染色体破砕・再結合)、Kataegis (局所的高頻度点変異)、Chromoplexy (複雑な連鎖染色体再編成) など、従来の種の進化では見られない腫瘍特有の高変異機構がこのモデルの典型例として議論される。Alexandrov et al.による40種以上の変異シグネチャー解析は、これらの機構が腫瘍タイプ・患者・時期によって大きく異なることを示し、汎用的な系統推定モデルの構築を困難にしている。治療もゲノム変動を誘発する (化学療法・放射線による二本鎖DNA切断や新たな変異シグネチャー誘発) ため、治療前後の系統推定では治療誘発変異の影響を考慮したモデルが必要となる。

ドライバー変異のクローン性と治療標的優先順位の決定: 腫瘍の系統樹解析は、治療標的となるドライバー変異の「クローン性」を特定するために不可欠である。McGranahan et al. SciTranslMed 2015は、がんの初期進化 (体幹部:trunk) で発生し、すべての腫瘍細胞に共有される「クローナルなドライバー変異」と、後期の分岐進化 (枝部:branch) で発生し、一部のサブクローンにのみ存在する「サブクローナルなドライバー変異」を区別することの重要性を示した。クローナルな変異 (例えば、多くの肺がんにおけるEGFR変異など) を標的とした治療は、腫瘍全体に対して一様に効果を発揮する可能性が高い。これに対し、サブクローナルな変異を標的とした場合、治療後にその変異を持たない非感受性サブクローンが急速に選択され、再発 (治療選択圧によるクローン進化) を招くリスクが極めて高い。ハザード比や生存率の解析からも、クローナルな変異を標的とした個別化医療が、サブクローナルな変異を標的とした場合と比較して、有意に良好な治療成績をもたらすことが実証されている。

腫瘍内不均一性スコアによる予後および治療抵抗性の予測: 系統樹解析から算出される腫瘍内不均一性 (ITH) の定量的指標は、患者の生存期間や治療抵抗性を予測する強力なバイオマーカーとして機能する。Andor et al. NatMed 2016は、12がん種にわたる大規模コホート (n=1,165) の解析を通じて、ITHの程度と患者の予後との間に非線形な関係が存在することを示した。極めて高いITHを持つ腫瘍は、多様な耐性クローンがあらかじめ存在する (pre-existing resistance) ため、化学療法や放射線治療に対して極めて高い抵抗性を示す。MEDICCやFISHtreesなどのツールを用いて系統樹のトポロジーから算出されるクローン多様性指数 (Shannonインデックスや系統樹の総枝長など) は、従来の臨床病期 (TNM分類) とは独立した予後予測因子であり、生存率の低下と有意に相関している。このように、系統樹解析を個別化医療のプロトコルに組み込むことで、より精緻なリスク層別化と治療戦略の最適化が可能となる。

免疫チェックポイント阻害剤感受性とクローナルネオアンチゲン: 系統解析に基づく変異のクローン性評価は、がん免疫療法の効果予測においても極めて重要な役割を果たす。McGranahan et al. Science 2016は、クローナルなネオアンチゲン (腫瘍の初期進化で生じ、すべての腫瘍細胞に共有される抗原) を多く持つ腫瘍が、免疫チェックポイント阻害剤に対して高い感受性を示すことを報告した。具体的には、クローナルネオアンチゲン負荷が高い患者群において、PD-1阻害剤治療後の無増悪生存期間が有意に延長することが示されている。一方、サブクローナルなネオアンチゲンが多い腫瘍では、免疫選択圧によって一部のクローンが排除されても、他のクローンが生き残るため、治療抵抗性を獲得しやすい。この知見は、単なる総変異量 (TMB) の測定だけでなく、系統樹解析を用いた変異の進化史的評価が臨床現場における免疫療法の個別化に直結することを示している。

考察/結論

腫瘍系統樹の再構築は、がんの発生、進行、転移、および治療抵抗性の獲得プロセスを理解するための強力なアプローチとして急速に発展してきた。本レビューは、この新興分野における計算原理と実践的な応用手法を体系的に整理したマイルストーンとなる文献である。

先行研究との違い: 従来の腫瘍系統学に関するレビューの多くが、特定のシークエンシング技術や個別の計算ツールの紹介にとどまっていたのとは対照的に、本研究は「データ・モデル・アルゴリズムの三者整合性」という方法論的核心を提示している点が大きく異なる。著者らは、200個の単一細胞からCNV進化を推定するという具体的な仮想シナリオ (Figure 2) を用いることで、モデルとデータの不整合 (SNV向けモデルをCNVデータに適用する誤り) や、アルゴリズムとモデルの不整合 (複雑なベイズモデルに対するMCMCの計算コスト限界) が、いかにして生物学的に誤った系統樹を導くかを教育的に実証した。このアプローチは、単に既存ツールを羅列するだけの「これまで」のレビューとは一線を画しており、研究者が陥りやすい方法論的な落とし穴を体系的に回避するための実践的な指針を提供している。

新規性: 本研究の新規性は、横断的、領域バルク、および単一細胞という3つの異なる研究デザインにおける30以上の計算ツールを、入力データ、進化モデル、および計算アルゴリズムの3軸でマトリックス化し、それぞれの適用限界を初めて明確に定義した点にある。特に、腫瘍特有の進化機構 (全ゲノム倍加、クロモスリプシス、カタエギスなど) が従来の種の進化モデル (独立かつ一定の変異率を仮定するモデル) を破綻させる要因であることを論理的に整理し、腫瘍系統学専用のアルゴリズム開発の必要性を新規に、かつ強く主張した点は、これまでに報告されていない独自の視点である。また、線形進化と分岐進化の論争や、中立進化モデルの台頭といった理論的背景と、計算手法の選択がもたらす結論のバイアス (マーカー依存性など) を関連付けて整理したことも、本レビューの極めて高い新規性を示している。

臨床応用: 本レビューで示された系統樹推定の原則は、がん治療の臨床現場における意思決定に極めて重要な臨床的意義 (clinical implications) を持つ。例えば、McGranahan et al. Science 2016が示したように、系統解析によって同定された「クローナルな変異」は、すべての腫瘍細胞に共有されているため、治療標的 (特に免疫療法や分子標的薬) として最優先されるべきである。逆に、一部のサブクローンにしか存在しない「サブクローナルな変異」を標的とした場合、治療後に非感受性クローンが選択されて再発を招くリスク (治療選択圧によるクローン進化) が高まる。また、Andor et al. NatMed 2016が指摘したように、系統樹から算出される腫瘍内不均一性スコアは、患者の予後や治療抵抗性を予測する強力なバイオマーカーとなり得る。このように、系統樹解析を臨床応用 (translational medicine) に組み込むことで、個別化医療の精度を飛躍的に向上させることが期待される。

残された課題: しかしながら、腫瘍系統学の臨床応用に向けては、依然として多くの残された課題が存在する。最大のlimitationは、系統樹推定アルゴリズムの再現性と標準化の欠如である。同一のゲノムデータであっても、使用するツールやパラメータ設定によって異なる系統樹が構築されることが多く、臨床意思決定に用いるには信頼性が不十分である。今後の研究方向性として、複数の異なるアルゴリズム (例えば、最小進化法とベイズMCMC法) を同一データに適用し、それらの結論が一致する場合のみを頑健な結果として採用する「コンセンサス系統樹」の確立が必要である。また、DNA配列情報だけでなく、空間トランスクリプトミクスや単一細胞メチル化データなどの異種データを統合した多階層系統解析手法の開発も、今後の重要な検討課題である。さらに、計算生物学者とがん生物学者・臨床医が研究デザインの初期段階から緊密に連携し、統計的パワーを担保したサンプルサイズ設計を行う体制の構築が不可欠である。

方法

本研究は、腫瘍系統学における理論、計算モデル、アルゴリズム、および実践的アプリケーションに関する包括的な文献レビューである。解析の対象として、PubMed、Embase、Web of Scienceなどの主要な学術データベースから、腫瘍系統樹の再構築手法およびそれらを用いた臨床・基礎研究に関する論文を網羅的に収集した。

方法論の整理にあたっては、研究デザインおよびデータタイプに基づき、以下の3つの主要なアプローチに分類して体系的な比較を行った:

  1. 横断的 (Cross-sectional) アプローチ: 多数の患者コホートから得られたバルクゲノムデータ (コピー数多型: copy number variant: CNV、一塩基バリアント: single nucleotide variant: SNVなど) を比較し、集団内で共通して観察される変異の蓄積順序や進行ステージとの関連性を推定する手法。
  2. 領域バルク (Regional bulk) アプローチ: 単一患者の複数部位 (多領域シークエンシング) または複数時点 (経時的サンプリング) から得られたバルクサンプルを用い、VAFやコピー数プロファイルからサブクローン構造をデコンボリューションし、系統関係を推定する手法。
  3. 単一細胞 (Single-cell) アプローチ: 個々の腫瘍細胞のゲノム (scSeq、蛍光in situハイブリダイゼーション: fluorescence in situ hybridization: FISH、マイクロサテライトなど) を直接解読し、細胞レベルでの系統樹を構築する手法。

これらのアプローチについて、30種類以上の代表的なソフトウェアツールを抽出した。これには、TO-DAG (Time-Ordered Directed Acyclic Graph)、ct-cbn、Mtreemix、PhyloSub、PhyloWGS、MEDICC (Minimum Event Distance Carcinogenesis Subclonal Reconstruction)、TuMult、LICHeE (Lineage Inference for Cancer Heterogeneity and Evolution)、Canopy、OncoNEM、SCITE (Single-Cell Inference of Tumor Evolution)、FISHtreesなどが含まれる。それぞれの入力データ形式 (SNV、CNV、VAF、二値データなど)、進化モデル (確率論的モデル、最小進化法、最大節約法、ベイズモデルなど)、および計算アルゴリズム (組み合わせ最適化、マルコフ連鎖モンテカルロ: Markov chain Monte Carlo: MCMC、期待値最大化: expectation maximization: EMアルゴリズム、整数線形計画法: integer linear programming: ILP、隣接結合法: neighbour joining: NJなど) の特徴を体系的に分類・比較した (Table 1)。

さらに、系統推定の頑健性を評価するため、シミュレーションデータおよび実際の臨床コホートデータを用いたケーススタディ (Table 2) を分析した。特に、統計的手法 (カプラン・マイヤー法を用いた生存解析、コックス比例ハザード回帰モデルによる予後因子の同定など) との関連付けや、系統樹のトポロジー (分岐構造) の不確実性を評価するためのブートストラップ法やベイズ事後確率の適用状況について検証した。また、細胞株 (A549、H1299などの肺がん細胞株やMCF-7などの乳がん細胞株) を用いた実験的検証データや、マウスモデル (C57BL/6J、BALB/c、NSGなど) を用いた転移・クローン追跡実験における系統推定の精度評価手法についても整理を行い、データ・モデル・アルゴリズムの不整合がもたらす系統樹の歪みを評価するための仮想シナリオ (Figure 2) を構築して方法論的課題を明確化した。