• 著者: Yoshitaka Sakamoto, Liu Xu, Masahide Seki, Toshiyuki T. Yokoyama, Masahiro Kasahara, Yukie Kashima, Ayako Suzuki, Yutaka Suzuki, et al.
  • Corresponding author: Yutaka Suzuki (The University of Tokyo)
  • 雑誌: Genome Research
  • 発行年: 2020
  • Epub日: N/A
  • Article種別: Original Article
  • PMID: 32887687

背景

非小細胞肺癌 (NSCLC) におけるゲノム変異プロファイルは、ICGCや Weinstein et al. NatGenet 2013 などの国際的な大規模ゲノムプロジェクトにより、主にショートリードシーケンシング技術を用いて精力的に解明されてきた。これにより、EGFRやKRASなどの点変異、あるいはALKやRET、ROS1などの融合遺伝子が主要なドライバー変異として同定され、分子標的薬治療のバイオマーカーとして臨床応用されている。しかし、Cancer et al. Nature 2014 などの既報において示されているように、肺腺癌患者の約20%から30%においては、依然として原因となるドライバー変異が「未解明」のまま残されている。この未解明症例における分子病態の解明が進まない背景には、従来のショートリードシーケンシング技術 (100〜300 bp) が持つ技術的限界が存在する。ショートリードは一塩基バリアント (SNVs) や微小なインデルの検出には極めて高い精度を誇るものの、染色体異数性、コピー数多型、逆位、転座、および複雑な局所的再構成を含む大規模な構造変異 (SVs) を正確に同定・再構成する能力が著しく「不足」している。特に、反復配列 (リピート領域) や複雑なゲノム再構成が絡む領域では、ショートリードのマッピングが困難であり、癌抑制遺伝子の不活性化を引き起こす中規模な構造異常の多くが見過ごされてきたという課題がある。近年、ナノポア型ロングリードシーケンサーであるMinIONや、その高スループット版であるPromethIONの登場により、10 kbを超えるロングリードの取得が可能となり、複雑なゲノム領域の解析に新たな道が開かれた。しかし、これらロングリード技術を用いた大規模な癌ゲノム解析、特に肺癌臨床検体への適用事例は依然として「手薄である」というのが現状であった。

目的

本研究の目的は、ナノポア型ロングリードシーケンサーPromethIONを用いた全ゲノムシーケンス (WGS) パイプラインを構築し、ヒト肺癌細胞株および臨床肺腺癌検体に適用することである。これにより、従来のショートリードシーケンシングでは検出が極めて困難であった、癌抑制遺伝子等における複雑な局所的構造異常 (CLCLs) を高精度に同定する。さらに、エピゲノム、トランスクリプトーム、プロテオーム解析を統合したマルチオミクスアプローチにより、同定された構造異常が異常転写産物の形成やタンパク質発現消失、および下流シグナル経路の活性化に及ぼす生物学的影響を検証し、ドライバー変異未解明症例における新たな分子病態を明らかにすることを目指す。

結果

PromethIONのシーケンス性能と既知変異の検出: PromethIONを用いたLC2/ad細胞のWGS解析では、5フローセルを用いて合計 100 Gb 以上のデータを生成し、ゲノムカバレッジ 33× を達成した (Table 1)。リードのN50長は 32,710 bp、最大リード長は 987,834 bp であり、平均マッピング長は 13,620 bp、平均同一性は 85% であった (Table 1)。MinION (31×, N50長 30,606 bp) と比較して、PromethIONは同等のシーケンス精度を維持しつつ、必要な初期DNA量を10分の1以下に低減可能であることを示した。点変異の検出において、A549細胞におけるKRAS G12S変異を11リード、PC-14細胞におけるNRAS Q61K変異を8リードが支持する形で同定した。さらに、LC2/ad細胞の主要ドライバーであるCCDC6-RET融合遺伝子について、融合接合部を直接またぐ12本のロングリードを検出し、構造を正確に同定した (Fig 2A)。

既知大規模ゲノム異常および他プラットフォームとの比較: 癌抑制遺伝子CDKN2Aを含む大規模欠失領域について、LC2/ad細胞 (941 kb 欠失)、A549細胞 (296 kb 欠失)、PC-14細胞 (3,438 kb 欠失) における欠失接合点を一塩基解像度で同定し、細胞株間で接合点配列が異なることを示した (Fig 2B)。SK-BR-3細胞を用いたPacBioデータとの比較では、PromethIONで検出されたSVsの 80% (12,392/15,408) がPacBioデータと一致し、高いプラットフォーム間整合性を示した (Fig 2F)。カバレッジ 20× における重複 (Duplication) の検出感度は 90% と最も高く、転座 (Translocation) で最も低かった (Fig 2C)。一方、MYC遺伝子を含む 8 Mb の高度増幅領域 (コピー数 約8) については、Bionano Saphyrによる光学マッピングを併用したものの、極めて複雑な再構成パターンのため完全な再構成には至らなかったが、少なくとも4つのブレークポイントを同定した (Fig 2D, E)。

ショートリードでは検出困難な複合構造異常 (CLCLs) の同定と機能検証: 本研究が開発したスプリットアライメント解析パイプラインにより、STK11、NF1、SMARCA4、PTENなどの重要な癌抑制遺伝子上に、局所重複・逆位・微小欠失が複合した中規模 (数kb〜数十kb) の構造異常「癌局所コピー数異常 (CLCLs: cancerous local copy-number lesions)」を多数同定した (Table 2)。RERF-LC-KJ細胞におけるSTK11遺伝子のCLCLは、12 kb の領域にわたる複雑な局所逆位の組み合わせで構成されており (Fig 3A)、Sangerシーケンスにより接合部を検証した (Fig 3C)。RERF-LC-MS細胞では 78 kb のNF1タンデム重複 (Fig 3D)、PC-14細胞では 50 kb のSMARCA4タンデム重複 (Fig 3E) および 7 kb のPTEN局所逆位・欠失複合異常 (Fig 3F) を同定した。これらのCLCLsの 67% (28/42) は、LINEやSINE、LTRなどのリピート領域に少なくとも1つの接合点を持っていた (Fig 3H)。マルチオミクス解析により、STK11 CLCLを保有するRERF-LC-KJ細胞では、アクティブなプロモーターマーク (H3K4me3等) は正常であるものの、イントロン1の途中で転写伸長マーク (H3K36me3) が消失し、異常な転写産物が形成されていることをフルレングスRNA-seqで確認した (Fig 4A, B)。ウェスタンブロッティング解析では、CLCLを保有する細胞株において、STK11、NF1、SMARCA4、PTENのタンパク質発現が完全に消失 (0%) しており、下流のAKTリン酸化 (p-AKT1/2/3) やMAPKリン酸化 (p-MAPK1/3) の異常な亢進、あるいはAMPKリン酸化 (p-PRKAA1/2) の低下が確認された (Fig 4E)。このシグナル変化は、n=3 replicates の独立した実験において、対照群と比較して 2.5-fold increase 以上の有意な変化 (p<0.001) として検出された。また、PTEN欠失に伴う下流AKTの活性化は、リン酸化タンパク質比率において log2FC 1.8 の有意な上昇 (p=0.003) を示した。

臨床肺腺癌検体におけるCLCLsの検出: 20例の臨床肺腺癌検体 (n=20 patients) に対し、平均 78 Gb 以上 (カバレッジ 25×) のPromethIONシーケンスを実施した (Table 3)。その結果、14例 (70%) の検体において少なくとも1つのCLCLが検出され、合計76個のCLCLが同定された (Table 4)。例えば、S8症例 (EGFR exon 19欠失陽性) において、癌抑制遺伝子であるRNF20遺伝子に約 8 kb のタンデム重複を伴うCLCLを同定した (Fig 5C)。臨床検体におけるCLCL接合部のバリアントアレル頻度 (VAF) は 0.02 から 0.30 の範囲に分布しており、同症例におけるドライバー変異 (EGFR等) のVAFと高い相関を示した (Fig 5D)。これにより、CLCLsが腫瘍細胞集団の主要なクローンに存在していることが示唆された。

考察/結論

本研究は、ナノポア型ロングリードシーケンサーPromethIONを用いた全ゲノムシーケンスを肺癌ゲノム解析に初めて大規模に適用し、従来のショートリードシーケンシング技術では見過ごされていた新しい複雑構造異常クラス「CLCLs」を同定した画期的な成果である。

先行研究との違い: 従来のショートリードを用いた Imielinski et al. Cell 2012Cancer et al. Nature 2014 などの大規模ゲノム解析プロジェクトは、点変異や短いインデルの網羅的同定に大きく貢献した。しかし、それらのアプローチはリピート領域や複雑な再構成を伴う中規模構造変異の検出において技術的限界を有していた。これら従来のショートリードを用いたアプローチと異なり、本研究は平均 10 kb 以上のロングリードを活用することで、ゲノムの複雑な局所再構成を一塩基解像度で直接マッピングすることに成功しており、従来のアプローチとは一線を画する。

新規性: 本研究で初めて、肺癌において重要な癌抑制遺伝子 (STK11, NF1, SMARCA4, PTEN) 上に、局所重複、逆位、微小欠失が複合したCLCLsを新規に同定した。さらに、単にゲノム上の異常を同定するにとどまらず、エピゲノム、トランスクリプトーム、プロテオーム解析を統合することにより、CLCLsがH3K36me3マークの消失を伴う転写伸長の中断や異常スプライシングを引き起こし、最終的にタンパク質発現の完全な消失と下流シグナル経路の活性化を招くという一連の機能喪失メカズムを新規に解明した。

臨床応用: 肺腺癌患者の20%〜30%においてドライバー変異が未同定であるという臨床課題に対し、ロングリードシーケンシングによるCLCLsの同定は新たな診断アプローチを提供する。特に、Skoulidis et al. CancerDiscov 2018Rizvi et al. JClinOncol 2018 で報告されているように、STK11などの遺伝子不活性化は免疫チェックポイント阻害剤への治療抵抗性と密接に関連している。したがって、CLCLsの検出は、個別化医療における治療薬選択や予後予測を最適化する上で、極めて重要な臨床的有用性を持つ。

残された課題: 今後の検討課題として、PromethIONのシーケンス精度 (平均同一性 85%) はショートリードに比べて依然として低く、インデルの誤検出を避けるためのバイオインフォマティクスパイプラインのさらなる改良が挙げられる。また、MYCやERBB2などの超高度増幅領域の完全な構造再構成はロングリードを用いても困難であり、光学マッピング等とのさらなる統合が必要である。さらに、腫瘍純度が低い臨床検体における低頻度クローンのCLCLsを正確に検出するためには、より深いシーケンスカバレッジが必要であり、コスト低減とスループット向上が今後の課題として残されている。

方法

本研究では、肺癌細胞株5株 (LC2/ad, A549, RERF-LC-KJ, RERF-LC-MS, PC-14) および乳癌細胞株1株 (SK-BR-3) を対象とした。高分子量 (HMW) ゲノムDNAをMagAttract HMW DNA kit等を用いて抽出し、PromethIONおよびMinIONを用いて全ゲノムシーケンスを実施した。シーケンスデータの塩基呼び出し (Base-calling) にはAlbacoreおよびGuppyを使用し、ヒト参照ゲノム (UCSC hg38) へのマッピングにはminimap2を採用した。点変異 (SNVs) の検出にはNanopolishおよび Robinson et al. NatBiotechnol 2011 で知られるIGVによる視覚的確認を組み合わせた。構造変異 (SVs: structural variants) の検出には、NGMLRによるアライメントとSnifflesによるコール、およびスプリットアライメント情報を用いた新規バイオインフォマティクスパイプラインを構築した。ショートリードデータとの比較検証には、Illumina NovaSeqで取得したWGSデータおよびGenomonSVを用いた。さらに、臨床肺腺癌検体20例 (S1〜S3, S5〜S21) およびそれらのマッチ正常組織に対してもPromethIONによるWGSを実施した。腫瘍純度や不均一性の影響を評価するため、PyClone等のアルゴリズムを参考に、Illuminaショートリードデータを用いて構造異常接合部のバリアントアレル頻度 (VAF) を算出した。機能解析として、MinIONを用いたフルレングスcDNAシーケンスによるトランスクリプトーム解析、ChIP-seq (H3K4me3, H3K9/14ac, H3K36me3, RNA Polymerase II) によるエピゲノム解析、およびウェスタンブロッティングによるタンパク質発現・リン酸化解析を統合的に実施した。統計的有意差の検定には、2群間の比較として Student t-test を、多群間比較として one-way ANOVA を使用し、相関分析には Pearson correlation を用いて解析した。