- 著者: Pleasance ED, Cheetham RK, Stephens PJ, McBride DJ, Humphray SJ, Greenman CD, Varela I, Bentley DR, Futreal PA, Stratton MR, et al.
- Corresponding author: Michael R. Stratton (mrs@sanger.ac.uk) / P. Andrew Futreal (paf@sanger.ac.uk)
- 雑誌: Nature
- 発行年: 2010
- Epub日: 2009-12-16
- Article種別: Original Article
- PMID: 20016485
- DOI: 10.1038/nature08658
背景
すべてのがん細胞のゲノムは体細胞変異を蓄積している。これらは塩基置換・小さな挿入欠失 (indel)・再構成・コピー数変化・エピジェネティック変化を含む。一部の体細胞変化はドライバー変異 (driver mutation) と呼ばれ、選択的なクローン性増殖優位性を付与してがん化に因果的に関与する一方、残りは増殖優位性をもたらさないパッセンジャー変異 (passenger mutation) である。パッセンジャー変異は選択の影響を受けないため、それらを生み出した変異メカニズムの痕跡をそのまま保持しており、がんの病因・病態への手がかりを与える。過去 25 年間に約 400 個のがん遺伝子が同定され (Galon et al. Science 2006 と同時代のがんゲノム解析の文脈)、数千の腫瘍からの体細胞変異がヒトがんの変異プロセスへの洞察を与えてきた。
しかし従来の戦略には限界があった。ヒトゲノム配列の登場後に提唱された「個々のがんゲノムの全クラスの体細胞変異を系統的に配列決定して完全なカタログを得る」という戦略は、技術的制約により当初は PCR ベースのタンパク質コード領域エクソンの再配列決定に限定され、塩基置換と小 indel しか検出できなかった。過去の主要な先行研究としては、(i) Greenman らによる多数腫瘍のコードエクソン体細胞変異パターン解析 (Greenman et al. Nature 2007)、(ii) 乳がん・大腸がんのゲノムランドスケープ解析 (Wood et al. Science 2007)、(iii) 急性骨髄性白血病 (acute myeloid leukaemia, AML) ゲノムの配列決定 (Mardis et al. NEnglJMed 2009) が挙げられる。しかしこれらは PCR ベースのコードエクソン再配列決定、もしくはコード配列内ミスセンス変異の解明に主眼を置いており、近年の novel な次世代配列決定技術がランダム DNA 断片から再構成・コピー数変化・置換・indel を十分なカバレッジで検出できるようになったにもかかわらず、単一がんゲノムの「全クラス・全ゲノムにわたる網羅的体細胞変異カタログ」は依然として報告されておらず、その全体像は未解明のままであった。この空白 (gap) を埋めることが本研究の動機である。
目的
個人由来の悪性黒色腫 (malignant melanoma) と同一人物由来のリンパ芽球様細胞株の両ゲノムを全ゲノム配列決定し、減算により体細胞変異のみを抽出することで、単一がんゲノムからの初の網羅的体細胞変異カタログ (塩基置換・indel・再構成・コピー数変化を全クラス含む) を構築すること。さらにそのカタログから、このがんゲノムを形作った DNA 損傷・修復・変異・選択のプロセスの痕跡を読み解くこと。
結果
全クラスの体細胞変異カタログの構築と検証:COLO-829 から COLO-829BL の変異セットを減算することで体細胞変異カタログを確立した。塩基置換は計 33,345 個 を同定し、うち 32,325 個が単一塩基置換、510 個が二塩基置換であった (Table 1)。既知の体細胞置換 48 個中 42 個が全ゲノムカタログに含まれ、感度は 88% であった。新たに見つかった置換のうち評価した n=470 substitutions では 454 個 (97%) が従来法のシークエンスで確認され、false-positive rate はわずか 3% であった (97% vs 3% の確認率/誤検出率の差)。小 indel は 680 個の欠失と 303 個の挿入が予測され、評価した 182 個のうち 66 個 (36%) が確認され、置換より false-positive rate が高かった。再構成は 51 個が予測され、PCR でブレークポイント接合部を確認した結果 75% が体細胞性と確認され、塩基対レベルにマップした 37 個のうち 3 個が染色体間・34 個が染色体内 (25 欠失・6 逆位・2 重複・1 大型染色体内事象) であった (Table 1, Fig. 1)。
コード遺伝子・microRNA の変異とドライバー:タンパク質コード配列内の体細胞置換は 292 個で、うち 187 個が非同義 (172 ミスセンス・15 ナンセンス)、7 個がスプライス部位の高度保存塩基、105 個が同義 (silent) であった (Table 1)。非同義/同義比は 1.78 で偶然から有意に異ならず (P=0.5)、大多数の変異が正・負どちらの選択も受けていないことが示唆された。個々の置換は候補新規がん遺伝子を浮かび上がらせた。ETS (E26 transformation-specific) 転写因子ファミリーの SPDEF (SAM pointed domain-containing ETS transcription factor) には 2 個のヘテロ接合ミスセンス変異 (p.S229L, p.D283H) があり、追加の未治療転移性黒色腫 48 例の配列決定でさらに 1 個の体細胞変異 (p.W158*) が見つかった。matrix metalloproteinase (基質金属プロテアーゼ) 遺伝子 MMP28 のミスセンス変異 (p.G297E) や、オートファジー・腫瘍抑制因子候補 UVRAG (UV radiation resistance-associated gene) のミスセンス変異 (p.N561K) も同定された。コピー数では chromosome 3p の限局領域が 812-fold に増幅され RARB・TOP2B・NGLY1・OXSM を含み、chromosome 15 の約 0.5-Mb 領域が 46 コピーに増幅した。劣性がん遺伝子 PTEN には 12-kb の内部ホモ接合欠失があり早期終止が予測された。既知の 3 個のドライバー変異のうち、全ゲノム配列決定で BRAF V600E と PTEN 欠失が検出されたが、CDKN2A の 2-bp 欠失はターゲット検索でのみ見つかった (Fig. 1)。
紫外線曝露の変異シグネチャ:COLO-829 の体細胞塩基置換の大多数は C>T / G>A transition であった (Fig. 2a)。510 個の二塩基置換のうち 360 個が CC>TT / GG>AA であり、これは悪性黒色腫の既知環境リスク因子である紫外線曝露に伴うスペクトルと一致した。C>T 変異の 92% がピリミジン二塩基の 3’ 塩基で生じ (偶然予測の 53% に対し P<0.0001)、CC>TT も同様 (82% が 3’ 側, P<0.0001) であった。CpG dinucleotide では C>T 置換 (7.7%, P<0.0001) と CC>TT 二塩基置換 (10.0%, P=0.014) の頻度が偶然予測 (4.4%) より上昇しており、大多数の C>T/G>A 置換が紫外線誘発 DNA 損傷に帰せられることが示された (Fig. 2b)。
発現に応じた DNA 修復の不均一な配備:転写共役修復 (transcription-coupled repair) の関与を検証するため、21,417 個のタンパク質コード遺伝子の転写鎖と非転写鎖の C>T 変異数を比較したところ、転写鎖に 2,773 個・非転写鎖に 4,058 個と有意差を認めた (P<0.0001, Fig. 2c)。遺伝子フットプリント上の体細胞 C>T 変化は 10,004 個 (30%) で、ランダム分布で期待される 13,164 個 (40%) より低く (P<0.0001)、転写共役修復はこの欠損の 3 分の 1 しか説明せず、転写鎖・非転写鎖の両方に優先的に配備される追加クラスの NER (nucleotide excision repair, ヌクレオチド除去修復) の存在が示唆された (転写鎖 2,773 vs 非転写鎖 4,058 で約 1.46-fold の鎖間差、転写鎖で約 32% 少ない)。エクソン (8.33/Mb) はイントロン (9.93/Mb, P=0.0001) より変異頻度が低く (約 16% 減の効果量)、triplicate (n=3 反復) で測定した発現データに基づき高発現遺伝子は低発現遺伝子より変異頻度が低かった (Fig. 2d)。さらに 2 番目に多い置換クラスである C>A/G>T transversion は転写鎖で G>T に偏るバイアスを示し (P=0.002)、reactive oxygen species などの紫外線とは独立な副次的損傷機構の痕跡を示した (Fig. 2b, c)。chromosome 1q の LOH 領域では初期 (ホモ接合) 変異で C>T が 82% を占め後期 (ヘテロ接合) では 53% (P<0.0001) と、転移後に紫外線曝露が消失したことを示唆する時系列も読み取れた。
考察/結論
本研究は単一のヒトがんゲノムからの初の網羅的体細胞変異カタログを構築した。従来のがんゲノム解析がコード領域エクソンの再配列決定に限定され置換と小 indel のみを捉えていたのとは対照的に、本研究は塩基置換・indel・再構成・コピー数変化・LOH を全ゲノムにわたり一塩基解像度で同時に捕捉した点が大きく異なる。先行研究である急性骨髄性白血病ゲノム解析 (Mardis et al. NEnglJMed 2009) がコード配列のミスセンス変異の解明に主眼を置いていたのとは異なり、本研究はパッセンジャー変異の全体像から変異プロセスそのものを逆算した点で発想が異なる。
本研究で初めて、単一がんゲノム内に紫外線誘発 DNA 損傷のシグネチャ (C>T/G>A transition と CC>TT 二塩基置換のジピリミジン・CpG 偏在) と、転写共役 NER を含む複数レベルの DNA 修復の選択的配備 (転写領域 vs 非転写領域、エクソン vs イントロン、転写鎖 vs 非転写鎖、遺伝子 5’ vs 3’ 端) を直接可視化した。これは novel な知見であり、がんゲノムが症候性になる何年も前に作動していた DNA 損傷・修復・変異・選択のプロセスの痕跡を読み解けることを実証した。この網羅的シークエンス・全クラス変異解析の枠組みは、後の大規模がんゲノムプロジェクト (ICGCTCGA et al. Nature 2020 のパンがん全ゲノム解析や ENCODE et al. Nature 2012 による非コード機能要素のアノテーション) の基盤となった点で translational な意義をもつ。
臨床的・トランスレーショナルな含意として、検出された BRAF V600E と PTEN 欠失は黒色腫の治療標的・予後因子に直結し、変異シグネチャは発がん要因 (紫外線曝露) の同定を通じて予防戦略の根拠を与える。著者らは将来的に数千の高品質な体細胞変異カタログを生成すれば、すべてのヒトがんの進化を支配する DNA 損傷・変異・修復・選択のプロセスへの強力な洞察が得られ、がんの病因理解と予防・治療の基盤になると展望した。残された課題・limitation として、indel は感度が低く false-positive rate が高いため追加の計算手法を要すること、エピジェネティック変化は網羅的検出技術が未成熟で本カタログに含まれないこと、選択検定が少数の選択変異には鈍感なこと、そして本カタログ中のドライバー変異の総数は未知 (187 個の非同義置換の一部や、非コード RNA・調節領域・現時点では機能不明な領域に存在しうる) で、その同定には追加の黒色腫検体の解析が必要なことが挙げられた。
方法
検体識別子 (identifier) は cell line COLO-829 である。これは治療前の 43 歳男性の悪性黒色腫転移巣由来の不死化・公開細胞株であり、同一患者由来のリンパ芽球様細胞株 COLO-829BL (lymphoblastoid cell line) を正常 (germ line) 対照とした (皮膚原発巣は同定されず、NCT 等の臨床試験 identifier は存在しない)。Illumina GAII / GAIIx (Genome Analyser II / IIx) を用い、200-bp および 400-bp ライブラリの両端から 75 塩基をペアエンド配列決定し、COLO-829 で 40-fold 超、COLO-829BL で 32-fold の平均ハプロイドゲノムカバレッジを得た。構造変異解析のため 2-kb・3-kb・4-kb の mate-pair ライブラリから 50 塩基ペアエンドリードを追加した。
配列は参照ヒトゲノム NCBI36 (NCBI build 36) に ELAND (Efficient Local Alignment of Nucleotide Data, v.1.1.1.3)・MAQ (Mapping and Assembly with Qualities)・BWA (Burrows-Wheeler Aligner) でアラインメントした。SNP (single-nucleotide polymorphism) は CASAVA (Consensus Assessment of Sequence and Variation, v1.2) でコールし、75 塩基リードを 3 等分した bin に基づく追加パラメータで indel 由来の false-positive を除去した。体細胞置換は「腫瘍ゲノムでコールされ生殖細胞系列ではコールされない」アレルとして同定し、germ line で最低 10x の depth を要求した (depth が 30x 以上なら 1 コールまで許容)。dbSNP 129 の既知 SNP 位置は除外し、Ensembl version 52 でアノテーションした。indel は Pindel・BWA・GROUPER (singleton read のクラスタを局所アセンブリして indel を同定する社内ツール) の 3 手法でコールし (腫瘍最低 3 リード・正常最低 10x)、構造変異 (structural variant) は長挿入データから MAQ アラインメントで最低 10 独立リードペアを要求して Velvet によりブレークポイント (breakpoint, 切断点) をアセンブリした。コピー数は窓ごとのリードカウントを GC 補正後 HMM (Hidden Markov Model) でセグメント化、LOH (loss of heterozygosity) は約 924,000 の既知 SNP 位置 (Affymetrix SNP 6.0 array 相当) の zygosity を HMM で評価した。統計手法として、変異コンテキストは変異から ±10 bp を抽出し chromosome 2 の 100,000 ランダム位置を背景に χ² 検定で評価し、遺伝子発現の変異頻度への効果は Affymetrix U133 Plus 2.0 array を triplicate (n=3 反復) で測定したデータに Poisson regression (ポアソン回帰、遺伝子フットプリント内の at-risk 塩基数を offset、発現と変異頻度の関係に二次項、転写鎖 vs 非転写鎖の dummy variable を投入) を適用して解析した。全ゲノム像は Circos で描画した。