- 著者: Adrienne Vancura, Andrés Lanzos, Núria Bosch-Guiteras, Mònica Torres Esteban, Alejandro H. Gutierrez, Simon Haefliger, Rory Johnson
- Corresponding author: Rory Johnson (University of Bern, Switzerland; University College Dublin, Ireland)
- 雑誌: NAR Cancer
- 発行年: 2021
- Epub日: 2021-04-14
- Article種別: Original Article
- PMID: 34316704
背景
タンパク質コード遺伝子については、がん遺伝子の高信頼度キュレーションデータベースであるCancer Gene Census (CGC) が存在し、基礎研究や創薬の礎となってきた。しかし、長鎖非コードRNA (lncRNA) はがんの発生・進行に重要な役割を果たすことが近年明らかになっているにもかかわらず、タンパク質コード遺伝子のCGCに相当する高信頼度のがん関連lncRNAデータベースが不足していた。ヒトゲノムには推定18,000〜100,000のlncRNA遺伝子が存在するが、その機能が解析されているのはごく一部に過ぎない。lncRNAの分子機序は多様であり、他のRNA、タンパク質、DNAとの配列特異的または構造的相互作用を介して機能する。多くはクレード・種特異的であるが、一部は進化的に保存された機能を持つことが報告されている。近年、アンチセンスオリゴヌクレオチド (ASO) などのin vivo lncRNA阻害技術の進歩により、lncRNAをがんの治療標的または診断マーカーとして開発する機運が高まっていた。
既存のがん関連lncRNAデータベース(LncRNADisease、CRlncRNA (cancer-related long non-coding RNA)、EVLncRNAs (Extracellular Vesicle LncRNAs)、Lnc2Cancer 3.0)は、主に手動キュレーションと差異発現を主要な選択基準としていた。しかし、このアプローチは、がん組織で発現変化するが実際には機能的役割を持たない「傍観者 (bystander)」lncRNAを多数含む可能性があり、真の機能的がんlncRNAの同定を妨げるという課題があった。また、最新のCRISPRi機能スクリーンやトランスポゾン挿入変異導入 (TIM) スクリーンといったハイスループット機能解析データが十分に活用されていないという問題も存在し、高信頼度のがん関連lncRNAの包括的なコレクションの構築が未解明な領域として残されていた。
第一世代のCancer LncRNA Census (CLC) は、これらの問題に対応するため機能的証拠を厳格に適用したが、その規模はn=122と限定的であった。先行研究では、がんの発生と増殖における遺伝的および非遺伝的変化が広範な遺伝子発現プログラムの異常を引き起こすことが示されており Hanahan et al. Cell 2011、がんゲノムの進化も報告されている Yates et al. NatRevGenet 2012。また、がんにおけるRNA変化のゲノム基盤も解析されている PCAWG et al. Nature 2020。CLC2では、前版の4倍規模のキュレーションを、新開発の自動パイプラインCLIO-TIMを組み合わせることで達成し、科学文献の急速な増加に対応した半自動キュレーション手法の確立を目指した。これにより、高信頼度lncRNAの包括的なコレクションを提供し、がん研究の新たな基盤を築くことが期待されたが、特に新規lncRNAの臨床的特徴と機能的役割に関する詳細な解析が不足していた。
目的
本研究の目的は、以下の3点である。(1) 手動キュレーション、CLIO-TIM (cancer lncRNA identification by orthology to TIM) 自動キュレーション、およびCRISPRi (CRISPR inhibition) スクリーニングの検証済みヒットを統合し、高信頼度のがん関連lncRNAデータベースであるCancer LncRNA Census 2 (CLC2) を構築すること。(2) CLC2に収録されたlncRNAのゲノム特性(進化的保存性、発現レベル、反復配列の存在)と臨床的特徴(腫瘍における差異発現、患者生存との相関、GWAS (genome-wide association studies) SNP (single nucleotide polymorphism) の濃縮、コピー数変異 (CNV) の重複)を体系的に解析し、これらが機能的がん遺伝子の特徴を示すことを実証すること。(3) CLIO-TIMパイプラインによって新規に予測された遺伝子(特にLINC00570)のin vitro機能検証を通じて、データベースの予測能力と信頼性を立証すること。これらの目的を達成することで、CLC2はがん研究におけるlncRNAの役割解明と、新たな治療標的の同定に貢献することを目指した。
結果
CLC2の規模と構成: CLC2は492のがん関連lncRNAを収録し、前版CLC (n=122) の4.0-foldの規模を達成した。内訳は、手動キュレーションによるliterature lncRNAsが375、CLIO-TIM由来でliteratureと非重複のmutagenesis lncRNAsが102、独立検証済みCRISPRiスクリーンヒットで上記2者と非重複のCRISPRi lncRNAsが15であった。機能ラベルでは、がん遺伝子として275、腫瘍抑制因子として95が付与された(一部重複または未分類あり)。高品質なin vivo証拠(マウスモデルまたは変異解析)を持つ遺伝子の割合は66%であり、前版の24%から大幅に改善された。CLC2は33のがん種を網羅しており、他4つのデータベースと比較してLnc2Cancer 3.0 (n=688) に次ぐ規模(2位)であった。CLIO-TIM由来の92遺伝子は他のいずれのデータベースにも収録されていない「完全新規」であった。5つのデータベース全てに共通するlncRNAは41遺伝子のみであり、各データベースが異なる遺伝子集合をカバーしていることが明らかになった (Figure 3B)。
CLIO-TIMパイプラインの詳細と感度検証: CIS数の閾値をこれまでの1 bpから撤廃し、26,345 CISを使用した結果、既知のタンパク質コードがん遺伝子 (CGC) の検出感度が26.4%から72%に向上した (Supplementary Figure S1D)。LiftOver後、16,430のヒトCIS (hCIS) を同定し、123 lncRNAと9,295タンパク質コード遺伝子を候補として同定した。Literature 375 lncRNAはhCISでintergenic領域基準と比較して19.5-fold濃縮されており (Figure 2C)、CGCのhCIS155-fold濃縮に次ぐ水準であった。これはCLIO-TIM予測が真のがん遺伝子に偏在していることを支持する。intergenic領域の209 hCISの一部はmiTranscriptomeがん関連転写物と重複したが、ランダムシミュレーションを超える水準ではなく、GENCODE非収録のがん関連lncRNAが大量に存在する可能性は低いと判断された (Supplementary Figure S1E)。
CLC2 lncRNAのゲノム特性: LnCompareによる解析で、CLC2 lncRNAのプロモーターとエクソンは非CLC lncRNAと比較して哺乳類・脊椎動物の進化的保存性が有意に高かった (Figure 4A)。CLC2の発現量(TCGA腫瘍サンプル)も非CLC lncRNAに比べて有意に高かった (Figure 4B)。Mutagenesis lncRNA(CLIO-TIM由来)単独でも同様にプロモーター保存性が有意に高く、発現量は他のlncRNAに比べて約1桁高い水準であった (Figure 4C, D)。CLC2遺伝子は非CLC lncRNAより反復配列を多く含み (Supplementary Figure S5A)、small RNA遺伝子(snoRNA等)を内包する割合が高く (Supplementary Figure S5B)、発散方向遺伝子バイオタイプが濃縮されていた (Supplementary Figure S5C)。CGC遺伝子の10 kb以内に位置するCLC2遺伝子が統計的に有意に多く、機能的相互連携が示唆された (Supplementary Figure S5D)。
腫瘍での発現変化特性: CLC2 lncRNAは、発現マッチ対照lncRNAに比べて3.4-fold多くの遺伝子が少なくとも1つのがん種で有意な差異発現を示した (Figure 5A)。機能ラベルとの一貫性解析では、がん遺伝子として分類されたlncRNAは腫瘍組織で過剰発現される割合が高く、腫瘍抑制因子として分類されたlncRNAは発現減少の割合が高く、機能ラベルと発現変化の方向が一致した (p<0.05) (Figure 5B)。Literature、mutagenesis、CRISPRi各群でも同様の傾向が確認された。
生存相関: 392のCLC2 lncRNAの発現が少なくとも1つのがん種で患者生存と相関した。発現マッチ対照との比較で、CLC2 lncRNAは有意ではあるが弱い濃縮を示し (Kolmogorov-Smirnov検定、Supplementary Figure S7C)、がん予後バイオマーカーとしての可能性が示唆された。
生殖細胞系列SNPとCNV濃縮: CLC2 lncRNAのエクソン領域は、GWAS由来がん関連SNP密度が発現マッチ非CLC lncRNAに比べて4.0-fold高く (Fisher一側検定、Figure 5C)、各エビデンスソース(literature、mutagenesis、CRISPRi)単独でもいずれも2-fold超の濃縮を示した。これはがんドライバータンパク質コード遺伝子 (CGC) でのSNP濃縮(>2-fold)を上回る水準であった (Supplementary Figure S7B)。3つのmutagenesis lncRNA (miR143HG/CARMN、LINC00511、LINC01488) がエクソン内にがん関連SNPを有していた (Figure 5D)。CLC2 lncRNAのLncVar由来CNVとの重複率も非CLC lncRNAより有意に高かった (Figure 5E)。
LINC00570の機能検証: CLIO-TIM予測の機能検証としてLINC00570(ヒト-マウスオーソログ: Gm36495)を選択した。HeLa細胞でのRNA-seq解析でLINC00570の発現を確認した (Supplementary Figure S2A)。3種類のASO (LNA1/2/3) およびCRISPRi(2種類のsgRNA)でのLINC00570ノックダウンはいずれも定常状態RNA量を強力かつ再現性よく低下させた (Figure 2D)。ノックダウン細胞ではコントロールに比べて細胞増殖が有意に低下した (CellTiter-Glo、n=4生物学的反復、p<0.05) (Figure 2D)。LINC00570は先行研究でcis活性化エンハンサー様RNA (ncRNA-a5) として報告され、ノックダウンが近傍のROCK2発現を減少させるとされていたが、本研究ではROCK2発現への影響は確認されなかった (Supplementary Figure S2D)。これはLINC00570がROCK2非依存の機序で細胞増殖を制御することを示唆する。
考察/結論
先行研究との違い: CLC2は、3つの方法論的革新によってがん関連lncRNAデータベースの新たな水準を確立した点で、これまでのデータベースと異なる。第一に、機能的進化保存性に基づくTIM自動キュレーション (CLIO-TIM) の初導入であり、手動キュレーションの限界を超えて92の完全新規がん関連lncRNAを同定することができた。第二に、CRISPR機能スクリーンデータの統合であり、独立検証済みヒットのみという保守的な選択基準で偽陽性を抑制しながら新規遺伝子を追加した。第三に、厳格な機能的証拠基準(差異発現だけでは不十分、GENCODEアノテーション必須)を維持したまま492遺伝子という規模を達成した点である。LINC00570の機能検証実験は、「マウスTIM候補をCLIO-TIMでヒト遺伝子に変換し機能検証する」というワークフローの実現可能性を示した。先行研究と異なりROCK2への影響が見られなかった点については、細胞種や実験条件の違い、あるいはLINC00570が複数の独立した機能ドメインを持つ可能性が考えられる。
新規性: 本研究で初めて、CLC2 lncRNAが (i) 高い進化的保存性、(ii) 高い腫瘍内発現、(iii) 機能ラベルと一致した腫瘍差異発現方向、(iv) GWAS SNP高濃縮、(v) CNV高重複率という5つの「機能的がん遺伝子」の特徴を統一的に示すことを実証した。これは、これらが傍観者ではなく真のがんドライバーである可能性を強く支持する。特に生殖細胞系列SNP濃縮がCGCを超える水準であったことは、lncRNAのがん素因への関与を示す新規な証拠として注目される。LINC00570は肺がんリスクSNPを含む遺伝子CARMN/miR143HGと並び、がん以外の疾患(心臓発達、神経疾患)でも機能が示された発達lncRNAとがんの双方での機能を持つ可能性を示す例として興味深い。
臨床応用: 本研究の知見は、高信頼度のがん関連lncRNAの同定と特性評価を通じて、がんの診断マーカーや治療標的としてのlncRNAの臨床応用を促進する。特に、CLIO-TIMによって同定された新規lncRNAは、これまでの研究では見過ごされてきた潜在的な治療標的となる可能性がある。CLC2は、研究者がエビデンスレベル、証拠源、機能ラベルでフィルタリングして使用できる柔軟な設計となっており、高信頼度lncRNAのみを対象とした解析から、TIM由来候補を含む広義のスクリーニングまで、研究目的に応じた利用が可能である。
残された課題: 今後の展望として、機械学習、テキストマイニング、さらに大規模なCRISPRスクリーンデータの統合により、CLC2は継続的に拡張されうる。また、CLC2収録lncRNAへの標的ASOの開発、および各lncRNAのがん種特異的機能の解析が次の重要なステップとなる。本研究のlimitationとして、一部のlncRNAについては機能的役割が不明確なままであり、さらなる実験的検証が必要である。また、CLIO-TIMパイプラインはマウスのデータに基づいているため、ヒトにおける機能的保存性の普遍性については、より広範な検証が求められる。
方法
遺伝子キュレーション: GENCODE v28のアノテーション遺伝子IDを主に使用した。
手動キュレーション (literature lncRNAs): PubMedで「long noncoding RNA cancer」または「lncRNA cancer」のキーワードを用いて文献検索を実施した(2017年1月から2018年12月末まで)。選択基準は、(a) GENCODE v28アノテーションに収録されていること、(b) がん亜型が報告されていること、(c) in vitro/in vivo機能実験または生殖細胞系列/体細胞変異の証拠があること、(d) がん遺伝子または腫瘍抑制因子としての機能ラベルが付与されていることとした。これにより、新規253遺伝子を追加し、既存のCLC (Cancer LncRNA Census) と合わせて合計375のliterature lncRNAsを特定した。
CLIO-TIM (がんlncRNA候補の自動同定): CCGD (Candidate Cancer Gene Database) ウェブサイトからマウスの全CIS (common insertion sites) をダウンロードした(2018年5月、26,345 CIS)。LiftOverツールを用いてmm10ゲノム座標をhg38に変換し、GENCODEアノテーション遺伝子とIntersectBedで照合した。タンパク質コード遺伝子と重複する場合はタンパク質コード遺伝子に割り当て、重複しない123のlncRNAを同定した。このうち102はliterature lncRNAsと非重複であった。
CRISPRiスクリーン候補: Liu et al. (2017) のCRISPRi増殖スクリーン(約16,000 lncRNA、7細胞株)の499ヒットのうち、GENCODEに収録されている322遺伝子を評価した。独立検証済み21遺伝子のうち、literatureおよびTIM由来と非重複の15遺伝子のみを保守的に採用した。
比較対象データベース: Lnc2Cancer 3.0 (n=688)、CRlncRNA (n=146)、EVLncRNAs (n=187)、lncRNADisease (n=137) をGENCODE v28アノテーション準拠で比較した。
ゲノム特性解析: LnCompareツールを用いて、CLC2 lncRNAと非CLC lncRNAの進化的保存性 (PhastCons100way)、発現レベル、遺伝子バイオタイプを比較した。反復配列とsmall RNA遺伝子の存在を評価し、CGC遺伝子との近接性(10 kb以内)を解析した。
臨床的特徴解析: TCGA (The Cancer Genome Atlas) 33がん種の686腫瘍組織と686対応正常組織(合計n=1,372サンプル)のRNA-seqデータをTCGAbiolinksを用いて解析した。20がん種で差異発現解析(matched TP vs. NT、log2FC>1、FDR<0.05)を実施した。Cox回帰モデルを用いた生存解析を各遺伝子とTCGA 33コホートで実施した。GWAS由来のがん関連SNP (n=5,331) を各遺伝子のエクソン領域にマッピングし、エクソン長で補正したSNP密度を算出した。LncVarデータベースからCNVデータを取得し、遺伝子スパン長で正規化した。
In vitro機能検証: CLIO-TIM予測新規遺伝子であるLINC00570のHeLa細胞での機能解析を行った。3種類のASO (アンチセンスLNA GapmeR) および独立した2種類のCRISPRiを用いてLINC00570をノックダウンした。RT-qPCRでLINC00570とROCK2の発現を確認した。CellTiter-Glo 2Dアッセイ(n=4生物学的反復)で細胞増殖を評価し、Student’s t-testで統計的有意性を算出した。