- 著者: Scott L. Carter, Kristian Cibulskis, Elena Helman, Aaron McKenna, Hui Shen, Travis Zack, Peter W. Laird, Robert C. Onofrio, Wendy Winckler, Barbara A. Weir, Rameen Beroukhim, David Pellman, Douglas A. Levine, Eric S. Lander, Matthew Meyerson, Gad Getz
- Corresponding author: Scott L. Carter (The Broad Institute of Harvard and MIT, Cambridge, MA, USA); Gad Getz (The Broad Institute of Harvard and MIT, Cambridge, MA, USA)
- 雑誌: Nature Biotechnology
- 発行年: 2012
- Epub日: 2012-04-29
- Article種別: Original Article
- PMID: 22544022
背景
腫瘍ゲノム解析において、SCNA (somatic copy-number alteration; 体細胞性コピー数異常) の同定は、がん遺伝子の活性化やがん抑制遺伝子の不活化を理解する上で極めて重要である。従来、SCNA は DNA マイクロアレイや次世代シーケンシング技術を用いて、正常対照に対する相対的なコピー数比率として測定されてきた。しかし、実際の臨床腫瘍検体は、がん細胞のみならず正常細胞(間質細胞や免疫細胞など)が混在した不均一な組織であり、腫瘍純度 (tumor purity) は 100% 未満であることが一般的である。さらに、がん細胞自体が異数体 (aneuploid) や多倍体 (polyploid) であり、がん細胞の平均倍数性 (ploidy) は必ずしも 2N ではない。このように腫瘍純度と倍数性が未知である場合、相対的なコピー数データを直接がん細胞あたりの「絶対コピー数」として解釈することは不可能であり、多くの解析上の歪みを生じる。例えば、局所的な増幅を両アレル性の獲得と誤判定したり、がん抑制遺伝子の両アレル性欠失をヘテロ接合性欠失と過小評価したりする。また、SSNV (somatic single-nucleotide variant; 体細胞性一塩基変異) のアレル頻度を正確に解釈できず、クローナルな変異とサブクローナルな変異を区別することが困難であった。
これまで、Mermel et al. GenomeBiol 2011 などの相対コピー数解析ツールが広く用いられてきたが、がん細胞単位の絶対コピー数やアレル比率を系統的に算出する標準的な手法は未確立であった。また、腫瘍内ヘテロ接合性 (intratumor heterogeneity) や分枝進化モデルが Gerlinger et al. NEnglJMed 2012 や Navin et al. Nature 2011 によって提唱され、WGD (whole-genome doubling; ゲノム倍加) ががん進化に果たす役割が議論されていたものの、大規模コホートにおいてこれを定量的に評価する手段が不足していた。このように、腫瘍純度、倍数性、および絶対コピー数を同時に推定し、がんゲノムの進化過程を解明するための統合的な統計フレームワークが決定的に不足しているという課題が存在した。このため、がんゲノムの正確な絶対評価を行う手法の確立が急務であり、腫瘍不均一性の全貌解明に向けた大きな gap が残されていた。
目的
本研究の目的は、腫瘍検体の相対コピー数プロファイルと体細胞変異のアレル頻度データを統合的に解析し、計算科学的に (i) 腫瘍純度、(ii) がん細胞の倍数性、(iii) 絶対アレルコピー数、(iv) SCNA および SSNV のクローナル/サブクローナル状態、(v) WGD 事象の有無、を直接かつ同時に推定する新しい統計アルゴリズムである ABSOLUTE (absolute quantification of somatic DNA alterations) を開発することである。さらに、開発した ABSOLUTE を、TCGA (The Cancer Genome Atlas) などの大規模がんゲノムプロジェクトから得られた多種多様ながん種のデータセットに適用し、がんゲノム進化における WGD の発生頻度や発生タイミング、およびがん抑制遺伝子の不活化経路との依存関係を系統的に明らかにすることを目的とする。具体的には、Network et al. Nature 2011 による卵巣がん 214 検体の WES (whole-exome sequencing; 全エキソームシーケンシング) データを用いてサブクローナル構造を解析し、3,155 検体のがんプロファイルを用いて WGD の生物学的意義を評価する。
結果
FACSおよびSKYを用いたABSOLUTEのバリデーション: ABSOLUTE による倍数性推定の正確性を検証するため、37 検体の卵巣がん一次腫瘍サンプルにおける FACS 実測値、および 33 株のがん細胞株における SKY 実測値との比較を行った。その結果、ABSOLUTE の推定値は実測値と極めて高い相関を示した (Fig. 2a, b)。既存の手法である ASCAT (allele-specific copy number analysis of tumors) と比較して、ABSOLUTE は有意に低い RMSE (root mean squared error; 二乗平均平方根誤差) を達成した。FACS 比較において ABSOLUTE の RMSE = 0.26 vs ASCAT の RMSE = 0.44 であり、p<0.05 (paired one-sided Wilcoxon test) で有意差が認められた。また、乳がん細胞株 HCC38 および HCC1143 (n=2 cell lines, 異なる混合比率の複数サンプル) を用いた DNA 混合実験において、がん細胞の混合比率と ABSOLUTE による予測純度は、y = x のラインに極めて近く一致し、低純度検体においても安定した推定が可能であることを実証した (Fig. 2d)。さらに、病理医による目視の組織学的純度推定値と比較して、ABSOLUTE による純度推定値は、白血球特異的な DNA メチル化シグナルの強度とより強い相関を示した (r2 = 0.59, p<2.2 × 10⁻¹⁶) (Fig. 2e)。
高悪性度漿液性卵巣がんにおけるサブクローナル構造の解明: Network et al. Nature 2011 による HGSOC (high-grade serous ovarian carcinoma; 高悪性度漿液性卵巣がん) 214 ペアの WES データに ABSOLUTE を適用した。その結果、大多数の SSNV はサブクローナル (cellular fraction < 1) であり、腫瘍内ヘテロ接合性が普遍的に存在することが示された (Fig. 4b)。一方で、がん抑制遺伝子である TP53 (n=160 mutations) は、ほぼ全例 (96% 以上) でクローナルかつホモ接合型 (clonal homozygous) の変異として存在しており、腫瘍進化の極めて初期(創始者クローン)において両アレル性の不活化が獲得されることが明らかになった (Fig. 5d)。また、新規のがん抑制遺伝子候補である CDK12 (n=12 mutations) においても、12 変異中 7 変異 (58%) がホモ接合型であり (p=6.5 × 10⁻⁵)、TP53 や NF1 と同様の clonal homozygous なパターンを示すことが本研究で初めて示された (Fig. 5d)。
多種のがんにおけるゲノム倍加 (WGD) の高頻度性と進展経路への影響: 3,155 検体のがんゲノムプロファイル(2,791 検体の組織標本および 364 株のがん細胞株)を解析した結果、全がん種の約 30–40% において WGD 事象が認められた (Fig. 6c)。特に、食道がん、卵巣がん、乳がん、肺扁平上皮がんなどの上皮性悪性腫瘍において WGD の頻度は 50% を超えており、WGD ががん進化における主要なマイルストーンであることが示された (Fig. 6c)。WGD を経た腫瘍の倍数性分布は 2.2–3.4N の範囲にあり、これは WGD の発生後に染色体の純減(ネットの損失)を伴う染色体不安定性が生じていることを示唆している (Fig. 6a, b)。また、WGD を起こした腫瘍では、WGD が発生する前の段階で、すでにそのがん種に特徴的なアームレベルの SCNA(例えば、TCGA et al. Nature 2008 で報告された膠芽腫における 7 番染色体の獲得や 9/10 番染色体の欠失)が蓄積していることが明らかになった (Fig. 6d)。これは、WGD が完全に正常な二倍体細胞で発生する初期イベントではなく、すでに異数体化した細胞において発生するイベントであることを支持している。
WGDとがん抑制遺伝子の不活化パターンの依存関係: WGD の有無は、がん抑制遺伝子の不活化経路に直接的な影響を与えることが示された。WGD を経ていない二倍体優位の卵巣がん検体 (n=93) では、NF1 変異 (n=15 mutations) のうち 13 件がこのグループで発生しており、かつこれらはすべてホモ接合型不活化を示していた (Fig. 5d, Fig. 7c)。これに対し、WGD を経た腫瘍では、NF1 のホモ接合型変異の頻度が有意に低かった (p=0.002, Fisher’s exact test)。これは、WGD によってゲノムが倍加されると、余剰な野生型アレルが存在するため、1 回の変異や欠失では完全な不活化(両アレル性喪失)に至りにくく、haploinsufficiency (半数体不全) 効果が緩衝されるためと解釈される。WGD を経た腫瘍では、マルチプリシティが 1 より大きいクローナル変異の頻度が約 10-fold 高く、多くの変異が WGD 以前に発生していたことが示唆された (Fig. 7a)。一方、TP53 は WGD の有無に関わらず高頻度で clonal homozygous であり、p53 の喪失が WGD 自体を許容する前提条件として作用していることが示唆された。また、WGD を経た腫瘍は、診断時の患者年齢が有意に高く (Fig. 7d)、治療後の再発率が有意に高いことが示された (Fig. 7e)。
考察/結論
先行研究との違い: 従来の相対コピー数解析ツール(例えば、Mermel et al. GenomeBiol 2011 など)は、腫瘍純度や倍数性の影響を考慮せず、相対的なシグナル強度のみを評価していた。これに対し、本研究で開発された ABSOLUTE は、相対コピー数と体細胞変異のアレル頻度を統合し、がん細胞あたりの絶対コピー数および変異のマルチプリシティを直接算出する点で、これまでの手法と決定的に異なる。これにより、サブクローナルなコピー数異常や点突然変異の定量的評価が可能となった。
新規性: 本研究は、3,155 検体という大規模なマルチキャンサーコホートにおいて、絶対コピー数に基づき WGD の頻度と発生タイミングを初めて体系的に明らかにした。WGD が上皮性がんの 50% 以上で発生し、かつすでに異数体化した細胞において発生する「遅いイベント」であるという時系列モデルを新規に提示したことは、がんゲノム進化の理解における重要な進展である。また、CDK12 が HGSOC において clonal homozygous な変異パターンを示すことを本研究で初めて同定し、新たながん抑制遺伝子としての位置づけを強固にした。
臨床応用: ABSOLUTE の臨床的有用性として、がんゲノムシーケンシング研究における「検出感度の設計」が挙げられる。腫瘍純度と局所コピー数、倍数性から、特定のクローナル/サブクローナル変異を検出するために必要なシーケンシング深度を正確に逆算できるため、臨床シーケンシングの効率的な設計に直結する。また、WGD の有無が卵巣がん患者の予後(再発率の高さ)や診断時年齢と関連するという知見は、将来的なリスク層別化や治療戦略の個別化における臨床的意義を有する。本知見は、がんゲノムプロファイリング検査の臨床応用に直結するものである。
残された課題: 今後の課題(limitation)として、第一に、腫瘍純度が極めて低い検体(例えば、純度 10% 未満)では、相対コピー数のシグナルが正常細胞由来のノードに埋もれてしまい、ABSOLUTE による推定が不安定になる点が挙げられる。第二に、複数の局所最適解(代替解)が存在する場合、最終的な解の選択に生物学的な事前知識(核型モデルなど)を必要とするため、完全な自動化が困難なケースが残されている。第三に、腫瘍内ヘテロ接合性が極端に複雑なマルチクローン症例においては、ABSOLUTE が仮定する単純な 2 コンポーネントモデル(主クローンと 1 つのサブクローン)では十分に表現しきれない可能性がある。これらの課題を解決するため、単一細胞シーケンシング技術との統合や、より高度な多クローン混合モデルへの拡張が今後の研究方向性として期待される。
方法
ABSOLUTE アルゴリズムは、SNP (single nucleotide polymorphism; 一塩基多型) マイクロアレイまたは WES データから得られる相対コピー数比 (copy ratio; CR) と、ヘテロ接合性 SNP の BAF (B-allele frequency; Bアレル頻度) から算出される HSCR (homologue-specific copy ratio; アレル特異的コピー数比) を入力データとする。各ゲノムセグメントの絶対アレルコピー数を整数値 (q1, q2) としてモデル化し、観測される相対コピー数比が、腫瘍純度 α とがん細胞倍数性 τ の関数として定式化される。具体的には、観測相対コピー数比は、α(q1+q2)/τ + (1-α)·1 (ただし、正常細胞のコピー数は 2 とする) と表現される。
ABSOLUTE は、純度 α と倍数性 τ の探索グリッド上で最尤推定を行い、観測セグメント群を最も整数コピー数に適合させる組み合わせを探索する。この際、複数の局所最適解(代替解)が存在し得るため、SSNV のアレル頻度との整合性(変異が存在するがん細胞の割合である cellular fraction の推定)や、既知のかん核型モデル (recurrent cancer karyotype models) などの生物学的事前知識を統合して最終的な解を選択する。SSNV の cellular fraction の事後分布から、各変異がクローナル (cellular fraction = 1) かサブクローナル (cellular fraction < 1) かを判定する。
本研究では、ABSOLUTE のバリデーションとして、33 株のがん細胞株 (cancer cell lines) のデータ(NCI-60 パネルなど)を用い、SKY (spectral karyotyping; 分光核型分析) による実測倍数性、および 37 検体の一次腫瘍サンプルにおける FACS (fluorescence-activated cell sorting; 蛍光活性化セルソーティング) による実測 DNA 量と比較した。また、乳がん細胞株 HCC38 や乳がん細胞株 HCC1143、乳がん細胞株 MCF-7 の DNA を、対応する正常 B リンパ球株 (HCC38BL, HCC1143BL) の DNA と様々な比率で混合した DNA 混合実験 (DNA-mixing experiments) を実施し、純度と倍数性の推定精度を評価した。統計解析には、FACS および SKY データとの比較において paired one-sided Wilcoxon test を用い、WGD と遺伝子変異の関連性評価には Fisher’s exact test を用いた。また、アレル特異的コピー数の算出精度を検証するため、Pearson correlation および Spearman correlation を用いて相関関係を評価した。さらに、本手法は、CRISPR-Cas9 や shRNA を用いた機能ゲノミクス解析における標的遺伝子の絶対コピー数評価にも応用可能である。