- 著者: Craig H. Mermel, Steven E. Schumacher, Barbara Hill, Matthew L. Meyerson, Rameen Beroukhim, Gad Getz
- Corresponding author: Rameen Beroukhim (Rameen_Beroukhim@dfci.harvard.edu) / Gad Getz (gadgetz@broadinstitute.org) (Cancer Program, The Broad Institute of MIT and Harvard, Cambridge, MA, USA)
- 雑誌: Genome Biology
- 発行年: 2011
- Epub日: 2011-04-28
- Article種別: Methods Article
- PMID: 21527027
背景
癌は、点突然変異、体細胞コピー数異常 (SCNA: somatic copy number alterations)、遺伝子融合などの体細胞変異の段階的な蓄積によって発生する複雑な疾患である Hanahan et al. Cell 2000。これらの変異は細胞の増殖と生存を制御する重要な遺伝子の機能を変化させ、癌の病態形成と治療標的の同定において中心的な役割を果たす Stratton et al. Nature 2009。特にSCNAsは、癌ゲノムにおいて大規模なゲノム領域を改変し、増幅によって癌遺伝子を、欠失によって腫瘍抑制遺伝子を標的とすることが知られている。アレイCGH、SNPアレイ、次世代シーケンシング技術の劇的な進歩により、数千例の癌ゲノムにおけるSCNAが高解像度で特徴付けられるようになった Metzker et al. NatRevGenet 2010。
しかし、SCNAによって標的とされるドライバー遺伝子を同定するには、依然として2つの根本的な課題が存在する。第一に、細胞分裂の過程でランダムに獲得されるパッセンジャー異常から、癌の発生を促進するドライバー異常を弁別する必要がある。選択的に中立またはわずかに有害なパッセンジャー異常も、選択的に有利な変異を獲得したサブクローンがクローン優位性を獲得する際に固定される可能性がある。第二に、SCNAは同時に数百から数千の遺伝子に影響を及ぼす可能性があるが、ドライバー異常の選択的利益は、これらの遺伝子のうちの1つまたは少数によって媒介される可能性が高い。このため、ドライバーとパッセンジャーを区別し、標的となる遺伝子を特定するためには、追加の解析と実験が未解明な状態であった。
このような課題に対処するため、Broad Instituteは2007年にGISTIC (Genomic Identification of Significant Targets in Cancer) を開発した。GISTICは、観察されたSCNAの頻度と振幅を評価することで、ドライバーSCNAを特定するアルゴリズムである。GISTICは、膠芽腫 TCGA et al. Nature 2008、肺腺癌、悪性黒色腫、結腸直腸癌、肝細胞癌、卵巣癌、髄芽腫、肺・食道扁平上皮癌など、多くの癌種に適用され、NKX2-1、CDK8、VEGFA、SOX2、MCL1 (myeloid cell leukemia sequence 1)、BCL2L1 (BCL2 like 1)(増幅)やEHMT1 (euchromatic histone lysine methyltransferase 1)(欠失)などの新規ドライバー遺伝子の同定に貢献してきた。しかし、GISTIC1.0にはいくつかの限界が指摘されていた。具体的には、染色体腕レベルの広範なSCNAと局所的なSCNAが混合して処理されること、ピーク領域の境界定義が主観的であること、広範なイベントにおいてドライバーの有意性が過大評価されることなどが挙げられる。これらの課題は、ドライバー遺伝子の正確な同定と、その後の機能検証における効率性を低下させる要因となっていた。特に、低頻度または中程度の振幅を持つ局所的なドライバーイベントの検出感度が不足しており、より包括的な癌ゲノム解析のためには改良が必要であった。このため、既存の解析手法ではドライバー遺伝子の同定において感度と特異度が不十分であり、客観的なピーク領域の定義が不足しているという課題が残されていた。
目的
本研究の目的は、GISTIC1.0の限界を克服するため、改良されたGISTIC2.0アルゴリズムを開発することである。具体的には、以下の3点を達成することを目指した。(1) 染色体腕レベルのSCNAと局所的なSCNAを明確に分離し、それぞれの背景率を独立して推定することで、ドライバーイベントの有意性評価の精度を向上させる。(2) 確率論的手法を導入し、ユーザー定義の確信度で有意なSCNA領域(ピーク領域)の境界を客観的に定義する。(3) シミュレーションデータおよび実際の癌ゲノムデータセットを用いて、GISTIC2.0の感度と特異度がGISTIC1.0と比較してどのように向上するかを検証し、特に低〜中程度の振幅を持つ局所的イベントの検出能力の改善を示す。これにより、癌におけるドライバーSCNAの同定をより高感度かつ高確信度で行い、候補遺伝子の絞り込みを客観的に行うことを目指す。本アルゴリズムは、TCGA (The Cancer Genome Atlas) プロジェクトのような大規模な臨床ゲノムデータセット解析における、ドライバーSCNAの同定精度向上に貢献することを目的とした。
結果
Arm-levelとfocal SCNAの分離による検出能向上: Pan-cancerデータセット(n=3131)の解析により、染色体腕の半分以上を占めるarm-levelイベントが全SCNAの約25%を占め、その頻度分布がfocal SCNAとは大きく異なることが確認された。GISTIC1.0ではこれらを混合して処理していたため、広範なイベントの影響でfocalドライバー検出の偽陽性が上昇する傾向があった。GISTIC2.0では、これらのイベントを長さに基づいて分離し、各カテゴリで独立に背景率を推定することで、focal peakの有意性判定が大幅に改善された。この分離により、特に低〜中程度の振幅を持つfocal SCNAの検出感度が向上した (Figure 2)。長さベースのフィルタリングは、高振幅閾値や低振幅閾値のみの場合と比較して、CDK6、CCND2、HMGA2などのfocal増幅の検出感度を大幅に向上させた (Figure 3)。例えば、PIK3CAおよびAKT1の増幅、WWOXの欠失は長さベースのフィルタリングで検出されたが、高振幅フィルターでは有意ではなかった。
Peak region境界の確信度定義(RegBounder): 従来のGISTIC1.0ではピーク領域は単一の点またはヒューリスティックな「leave-k-out」法で定義されていたが、GISTIC2.0はRegBounderアルゴリズムにより「wide peak」(同等の有意性を持つ領域全体)と「95% confidence peak」(真の標的遺伝子を含む確率が95%以上の領域)を出力する。これにより、領域内の候補遺伝子数を客観的に絞り込むことが可能になった。シミュレーションデータでは、RegBounderはドライバーSCNAの頻度(<5%)やサンプルサイズ(n=300)によらず、設定した確信度(例: 75%)で真のドライバー遺伝子を包含する確率を維持した。例えば、75%の確信度で実行した場合、平均85%のドライバー領域で真のドライバー遺伝子を捕捉した (Figure 5)。TCGA GBMデータでは、EGFR、CDK4、MDM2、MDM4、CDKN2Aなどの既知ドライバー遺伝子が、高い確信度で狭いピーク領域内に検出された (Figure 6)。RegBounderは、MCRやleave-k-out法と比較して、ピーク領域の感度と特異度(包含する追加遺伝子数)のトレードオフにおいてより最適であることが示された。RegBounderは、平均でMCRより19%大きいピーク領域サイズで、より高いターゲット遺伝子捕捉率を達成した (Figure 7)。
シミュレーションにおける感度と特異度の向上: 合成データにドライバー信号を埋め込んだシミュレーションにおいて、GISTIC2.0はGISTIC1.0と比較して、真陽性率を維持しつつ偽陽性率を約半分に低下させた。特に、低頻度(<5%)のドライバーイベントの検出感度が改善され、稀なドライバーの検出能力が向上した。これは、背景ノイズのより正確なモデリングと、focalイベントの分離による効果である。Arbitrated peel-offアルゴリズムは、プライマリードライバーピークとオーバーラップする二次ドライバーピークの検出感度を平均2.4倍(範囲1.2〜3.8倍)向上させ、80%以上の新規ピークが真のドライバーピークに対応した (Figure 4)。
TCGA GBMデータへの適用結果: TCGA GBMデータセット(n=178)にGISTIC2.0を適用した結果、EGFR、CDK4、MDM2、PDGFRA、METの増幅、およびCDKN2A/B、PTEN、RB1の欠失といった、これまで同定されていた主要なドライバー遺伝子を全て高q値で検出した。例えば、EGFR増幅はq値=1.1e-25で検出された。さらに、4つの新規候補領域も提案された。RegBounderによって定義されたwide peakおよび95% CI peakは、既報のminimal common regionと良好に一致し、候補遺伝子の絞り込みに貢献した。GeneGISTICを用いた解析では、RB1がマーカーベースのスコアリングでは13位(q値=0.0013)であったのに対し、遺伝子ベースのスコアリングでは5位(q値=2.6e-10)にランクアップし、非重複欠失の影響を受ける腫瘍抑制遺伝子の検出感度が向上することが示された。NF1は、GeneGISTICによってq値=0.001で堅牢に同定された。
TCGA 卵巣癌 (HGSOC) データへの適用結果: TCGA卵巣癌(高悪性度漿液性卵巣癌, HGSOC)データセットへの適用では、CCNE1、MYC、KRASの増幅、CDKN2A/B、PTEN、NF1の欠失など、既知のドライバー遺伝子を全て検出した。特にCCNE1増幅のピーク領域は、既報のminimal common region(19q12)と正確に一致し、q値=1.0e-15で有意であった。
Cross-cancer pan-cancer機能による広範なドライバー同定: Beroukhimらによる3,131例のパンキャンサーデータセットにGISTIC2.0を適用した結果、組織横断的に有意なfocal SCNAピークが158領域(増幅76、欠失82)同定された。これにより、MYC、CCND1、EGFR、MDM2、TP53、CDKN2A、PTEN、RB1などの組織横断的なドライバーと、特定の組織に特異的なドライバーを定量的に区別することが可能となった。この機能は、癌ゲノムにおけるSCNAの全体像を理解し、新規ドライバーを探索する上で極めて有用である。
出力形式とソフトウェア配布: GISTIC2.0は、各SCNAピークについて、染色体、サイトバンド、wide peak座標、95% CI peak座標、頻度と振幅、q値、ピーク内の候補遺伝子リスト、およびサンプルごとのSCNA状態を示す「All Lesions」ファイルを出力する。これにより、下流の解析(変異との統合、生存解析、パスウェイ解析など)が容易になった。GISTIC2.0はGenePatternモジュール、MATLABソースコード、Linux実行可能ファイルとしてオープンソースで配布され、TCGA解析パイプラインに広く組み込まれた。
考察/結論
GISTIC2.0は、体細胞コピー数異常 (SCNA) 解析における課題を克服し、ドライバー遺伝子標的の同定において感度と特異度を大幅に向上させた。本研究で導入された主要な改良点、すなわち腕レベルSCNAと局所的SCNAの分離、確率的手法によるピーク領域境界の定義、および改良されたピーリングアルゴリズムは、従来のGISTIC1.0と比較して、特に低〜中程度の振幅を持つ局所的イベントの検出能力を改善した。
先行研究との違い: これまでのSCNA解析ツールは、染色体腕レベルの広範なイベントと局所的なイベントを区別せずに処理することが多く、これが背景ノイズの過大評価やドライバー検出の偽陽性につながっていた。GISTIC2.0は、SCNAを長さに基づいて明確に分離し、それぞれの背景率を独立して推定することで、この課題を解決した点で先行研究と異なる。また、ピーク領域の境界定義において、従来のヒューリスティックな方法(minimal common regionやleave-k-out法)が持つ主観性やデータセット依存性に対し、RegBounderはユーザー定義の確信度で客観的な境界を提供する点で対照的である。
新規性: 本研究で初めて、SCNAプロファイルを腕レベルと局所的イベントに分離し、それぞれの背景率を独立してモデリングする手法を確立した。これにより、特に低頻度ドライバーの検出感度が向上したことは新規の知見である。また、確率的ピーリングアルゴリズムRegBounderを導入し、ピーク領域の境界を統計的確信度で定義する手法は、これまで報告されていないアプローチであり、候補遺伝子の客観的な絞り込みを可能にした。
臨床応用: GISTIC2.0によって同定されたSCNAベースのドライバー遺伝子は、癌の診断、予後予測、および治療標的の開発に大きな臨床的意義を持つ。例えば、CDK4/6阻害薬(CCND1増幅やCDKN2A欠失で恩恵)、MDM2阻害薬(MDM2増幅)、抗VEGF治療(VEGFA増幅)、MET阻害薬(MET増幅)、ERBB2標的薬(HER2増幅)など、多くの分子標的薬の開発がSCNA解析によって促進されてきた。GISTIC2.0は、これらの治療標的をより高精度に特定することで、個別化医療の進展に貢献する可能性を秘めている。
残された課題: 今後の検討課題として、GISTIC2.0は主にSNPアレイデータに基づいて開発されたため、全ゲノムシーケンスやシングルセルシーケンスデータへの完全な最適化が挙げられる。これらの高解像度データは、クロモスリプシス、クロモプレキシー、染色体外DNA (ecDNA) など、より複雑な構造異常を明らかにするため、GISTICの背景変異モデルを拡張し、非連続的なゲノム領域にわたる有意性解析やピーク検出を可能にする必要がある。また、クローン性SCNAとサブクローン性SCNAの区別、短いROH (Loss of Heterozygosity) やLOH (Loss of Heterozygosity) の検出感度向上、腫瘍純度やploidy補正の自動化(ABSOLUTEやTitanCNAなどのツールとの統合)も今後の重要な方向性である。これらの課題に対処することで、GISTIC2.0の概念的枠組みは、現代のWGS時代においても癌ゲノム解析の中核ツールとして進化し続けると考えられる。
方法
アルゴリズム概要: GISTIC2.0は、SNPアレイやシーケンスデータから推定された各サンプルのセグメント化されたコピー数プロファイルを主要な入力とする。このプロファイルは、以下の主要なステップで処理される。(1) SCNAの分類: 各SCNAは、染色体腕全体の50%以上を占める「腕レベル(arm-level)」イベントと、それ以外の「局所的(focal)」イベントに分類される。この分離は、SCNAの長さに基づいて行われる。(2) 背景率の推定: 腕レベルイベントと局所的イベントについて、それぞれ独立して頻度と振幅に基づく背景率が推定される。これにより、両タイプのSCNAが混合していたGISTIC1.0の課題を解決する。(3) G-scoreの算出と有意性評価: 各ゲノム位置において、観察されたコピー数振幅を背景分布と比較し、G-score(頻度×振幅)を算出する。このG-scoreは、ランダムなイベントでは説明できないSCNAの有意性を定量化する。その後、マーカー位置のランダム置換によるパーミュテーションテストを実施し、多重比較補正としてBenjamini-Hochberg法を用いてq値を計算する。(4) ピーク領域の定義: q値が0.25未満の閾値で有意な領域を「ピーク領域」として定義する。GISTIC2.0では、新しい確率的ピーリングアルゴリズム「RegBounder」を導入し、ユーザー定義の確信度(例: 95%)でピーク領域の境界を「wide peak」(同等の有意性を持つ領域全体)と「95% confidence peak」(真の標的遺伝子を含む確率が95%以上の領域)として客観的に記述する。(5) Cross-cancer解析機能: 複数の癌種データセットを統合して解析し、組織横断的なドライバーSCNAを同定する機能も実装された。
GeneGISTICによる腫瘍抑制遺伝子のスコアリング: 非重複欠失によって影響を受ける腫瘍抑制遺伝子をより高感度に検出するため、「GeneGISTIC」と呼ばれる遺伝子レベルのスコアリング手法を開発した。これは、各サンプルにおいて、各遺伝子内の任意のマーカーの最小コピー数をその遺伝子のコピー数とし、全サンプルで合計して遺伝子スコアを計算する。遺伝子のサイズを考慮したパーミュテーション手順により、マーカーベースのスコアリングでは見逃されがちな非重複欠失によるドライバー遺伝子を特定する。
性能評価: GISTIC2.0の性能は、以下の方法で評価された。(a) シミュレーションデータ: ドライバー信号を埋め込んだ合成データセットを用いて、GISTIC2.0の感度と特異度をGISTIC1.0と比較した。特に、低頻度(<5%)のドライバーイベントに対する検出能力を評価した。(b) 実データセット: The Cancer Genome Atlas (TCGA) の膠芽腫 (GBM) データセット(n=178)および卵巣癌データセットを用いて、既知の癌遺伝子や腫瘍抑制遺伝子の検出能を検証した。また、Beroukhimらによる3,131例のパンキャンサーデータセットにGISTIC2.0を適用し、その汎用性とクロスキャンサー解析能力を評価した。本研究は、TCGAプロジェクトの一環として、Affymetrix SNP 6.0アレイで解析されたGBMサンプル (n=178) を用いた。主要評価項目は、既知のドライバー遺伝子の検出感度と、新規ドライバー候補領域の特定であった。