• 著者: John R. Prensner, Oana M. Enache, Victor Luria, Karsten Krug, Karl R. Clauser, Joshua M. Dempster, David E. Root, Todd R. Golub
  • Corresponding author: Todd R. Golub (Broad Institute of Harvard and MIT, Cambridge, MA, USA)
  • 雑誌: Nature Biotechnology
  • 発行年: 2021
  • Epub日: 2021-02-22
  • Article種別: Original Article
  • PMID: 33510483

背景

ヒトゲノムの初期解析では10万以上のタンパク質コード遺伝子の存在が示唆されたが、その後の詳細な検証により、大部分は非コードRNAや断片化されたcDNAクローンであることが判明した (Ewing & Green 2000, Fields et al. 1994, Liang et al. 2000)。現在のHuman Proteome Project NeXtProtデータベースでは、約17,600のタンパク質コード遺伝子が質量分析により確認され、約2,100が未確認である。しかし、リボソームプロファイリングや質量分析を用いたハイスループット解析により、非コードRNA、偽遺伝子、既知のタンパク質コード遺伝子の5’および3’非翻訳領域 (UTR) 内に、多数の非正準オープンリーディングフレーム (ORF) の翻訳が存在することが示唆されている (Ingolia et al. 2014, Ji et al. 2015)。これらの非正準ORFが実際に安定して翻訳され、生物学的に機能するタンパク質をコードするかは未解明であった。厳密な保存性解析では新規タンパク質の同定数は限られており (Mudge et al. 2019)、これらの予測されたタンパク質が実際に安定翻訳され、生物学的に機能するかを体系的に検証する実験的証拠が不足していた。

目的

本研究の目的は、リボソームプロファイリング、質量分析、および計算予測から選定した553個の高優先度非正準ORFについて、以下の3点を体系的に検証することである。(1) タンパク質翻訳の有無、(2) 異所性発現時の生物学的活性、(3) CRISPRノックアウトによる細胞生存依存性。これにより、機能的な非正準タンパク質の存在を実証し、癌細胞の生存におけるその役割を解明することを目指す。

結果

60%の非正準ORFで翻訳エビデンスを確認: 553個の非正準ORF候補のうち、174個 (31%) が公開質量分析データベースでペプチドとして検出され、257個 (46%) がV5タグ付きcDNAの細胞内イムノブロットで陽性を示した。これらを合わせると、合計334個 (60%) のORFでタンパク質翻訳のエビデンスが確認された (Fig. 1c-e)。進化的に古いORFほど翻訳される可能性が高いことが示され (p < 0.001, two-way ANOVA)、V5タグ付きORFの翻訳を予測する最も強力な因子は、進化上の保存性、ORFサイズ、および質量分析ペプチドの同定であることが示された。50アミノ酸未満のORFでは、V5タグの付加による影響の可能性から、検出可能なタンパク質を産生する可能性が低い傾向が認められた (Fig. 1f)。uORFはlncRNA由来ORFよりも高い割合で検証され、これは主に50アミノ酸未満の小さなuORFで質量分析のエビデンスがより頻繁に検出されたためである (Supplementary Fig. 6)。

73%のORFが転写応答を誘導し、その94%が翻訳依存的: 553個のORFのうち401個 (73%) がL1000プラットフォームを用いた異所性発現後に再現性のある遺伝子発現変化を誘導し、そのうち237個が高い転写活性化スコア (TAS) を示した (Fig. 2b)。既知のタンパク質コード遺伝子の81%が同様のアッセイで遺伝子発現変化を誘導したことと比較して、非正準ORFの生物学的活性の頻度は同程度であることが示唆された。翻訳開始部位を突然変異させた51例中48例 (94%) で、観察された転写シグネチャが消失したことから、これらの生物学的効果がRNAではなくタンパク質によって媒介されることが確認された (Fig. 2c-f)。この結果は、非正準ORFが安定して翻訳され、細胞機能に影響を与えることを強く示唆する。野生型ORFの発現後に見られた高ランクのコネクティビティ値の濃縮は、変異型ORFと比較して有意であった (p < 0.0001, two-sided Wilcoxon test)。

10%の非正準ORFが癌細胞の生存に必須: CRISPR/Cas9機能喪失スクリーニングにより、553個のORFのうち57個 (10%) が癌細胞株の増殖抑制効果を誘発することが示された (Fig. 3b,c)。これらのうち31個 (54%) は8種類の細胞株全てで生存を障害し、26個 (46%) は選択的な依存性を示した。これは、無作為に選ばれた既知のタンパク質コード遺伝子における生存依存性の頻度 (17%) と同程度のオーダーであり、非正準ORFが機能性タンパク質の重要な源泉であることを示唆する (Fig. 3d)。高密度sgRNAタイリング解析では、41個のORFのうち18個 (44%) で生存効果が予測されるコード領域に局在し、RNA媒介効果ではないことが確認された (Fig. 3f)。この結果は、非正準ORFが細胞生存に直接的に関与する機能性タンパク質をコードしていることを裏付ける。一次スクリーニングで生存表現型を示したORFのsgRNA数と二次スクリーニングで生存表現型を示したsgRNAの割合との間には有意な相関が認められた (p < 0.0001, one-way ANOVA)。

GREP1は乳癌特異的な依存性を示し、GDF15分泌を介する: G029442 (後にGREP1と改名) は分泌タンパク質として同定された。263種類の癌細胞株 (cells) を用いたCRISPRノックアウトスクリーニングでは、乳癌由来細胞株においてGREP1への優先的な依存性が観察された (Fig. 4d)。GREP1を発現する細胞の分泌物では、癌性サイトカインであるGDF15の量が増加し、組換えGDF15の補充によりGREP1ノックアウトによる増殖抑制効果が部分的に回復した (Extended Data Fig. 9e,f)。これはGREP1がGDF15の分泌を介して乳癌細胞の増殖を促進する新規メカニズムを示唆する。GREP1のノックアウトは、乳癌細胞株ZR-75-1において、非乳癌細胞株と比較して有意な細胞生存率の低下 (p = 0.013) を引き起こした (Fig. 4e, f)。

既知遺伝子の表現型を説明するCryptic ORFの発見: CTD-2270L9.4 (COG7 と重複) や ZBTB11-AS1 (ZBTB11 と重複) など、既知のタンパク質コード遺伝子と重複する新規ORFが、既存のCRISPR表現型をより良く説明する例が複数発見された (Fig. 3g)。例えば、_ZBTB11-AS1_のノックアウトは、_ZBTB11_のみを標的とするsgRNAと比較して、より顕著な細胞生存率低下 (log2FC -4.0) を誘導した (Fig. 3h)。siRNAノックダウンと翻訳開始コドン変異体を用いたレスキュー実験により、これらの表現型が新規ORFの翻訳に特異的であることが確認された (Extended Data Fig. 5)。

考察/結論

本研究は、ヒトゲノム内の非正準オープンリーディングフレーム (ORF) が生物学的に活性な微小タンパク質をコードし、癌細胞の生存に必須な役割を果たすことを体系的に実証した先駆的な研究である。553個の非正準ORF候補のうち、60%で翻訳エビデンスが確認され、73%が転写応答を誘導し、その94%がタンパク質翻訳に依存していた。さらに、10%にあたる57個のORFが癌細胞の生存に必須であることが示され、これは既知のタンパク質コード遺伝子と同程度の頻度である。

新規性: 本研究で初めて、新規分泌タンパク質であるGREP1を同定し、乳癌細胞の生存に必須であることを明らかにした。GREP1が癌性サイトカインであるGDF15の分泌を促進し、GDF15の補充がGREP1ノックアウトによる増殖抑制を部分的に回復させるというメカニズムは、これまで報告されていない新規な知見である。また、既知のタンパク質コード遺伝子と重複する「cryptic ORF」が、既存のCRISPRスクリーンの表現型をより良く説明しうるという発見も、本研究で初めて示された重要な点である。

先行研究との違い: 従来のゲノム解析では、厳密な保存性に基づくアプローチが主流であり、新規タンパク質の同定数は限られていた (Mudge et al. 2019)。本研究は、リボソームプロファイリングや質量分析、計算予測を統合した広範なスクリーニングと機能検証により、これまで見過ごされてきた非正準ORFの機能的役割を大規模に解明した点で、先行研究と異なる。また、Subramanian et al. ProcNatlAcadSciUSA 2005で示された遺伝子セット濃縮解析とは異なり、本研究は個々のORFの機能的検証に焦点を当てている。Lander et al. Nature 2001がヒトゲノムの初期配列解析に貢献した一方で、本研究は非正準ORFの機能的側面を深く掘り下げている。

臨床応用: 本研究の知見は、癌治療における新たな標的の発見に繋がる可能性を秘めている。特に、乳癌において選択的な依存性を示すGREP1-GDF15軸は、新規の乳癌治療標的候補となる。また、非正準ORF由来の微小ペプチドやsmORFが、ネオアンチゲンとして免疫療法標的となる可能性や、新たなクラスの治療用タンパク質となる可能性も示唆される。既存のCancer Dependency Mapの解釈において、cryptic ORFが表現型を混同しうるという発見は、より正確な癌脆弱性遺伝子の同定に貢献し、臨床応用に向けた標的探索の精度向上に繋がる。

残された課題: 今後の検討課題として、同定された非正準ORFのin vivoでの機能検証が挙げられる。また、非正準ORF由来のペプチドがHLAに提示されるメカニズムの解析や、これらのORFの翻訳制御機構の解明も重要である。本研究のデータセットはキュレーションされたORFリストであり、全ての可能な非正準ORFを網羅しているわけではないというlimitationも残されている。今後、より広範な非正準ORFの体系的な解析が、発生や疾患における未認識のタンパク質の役割を明らかにする上で必要である。

方法

まず、公開されているORF翻訳予測、質量分析データ、リボソームプロファイリングデータ、および計算予測の統合解析に基づき、553個の高優先度非正準ORF候補を選定した。これらのORFは、偽遺伝子や既知のタンパク質コード領域のバリアントを除外する追加解析を経て選ばれた。選定された553個のORFは、進化上の保存性、発現レベル、構造的特徴など12の指標でアノテーションされた。

次に、これらのORFの機能的検証を3つの主要なアプローチで実施した。(1) タンパク質翻訳の評価: 公開質量分析データベースのクエリ、V5タグ付きcDNAのHEK293T細胞 (n=50,000 cells/well) での異所性発現と細胞内抗V5イムノブロット、およびin vitro転写/翻訳アッセイを用いて翻訳の有無を評価した。(2) 生物学的活性の評価: 4種類の癌細胞株 (MCF7, A549, A375, HA1E) に各ORFを異所性発現させ、L1000プラットフォーム (978 mRNA) を用いて転写応答を解析した。さらに、翻訳開始コドン変異体を用いて、観察された転写応答がRNA媒介効果ではなくタンパク質媒介効果によるものであることを検証した。(3) 細胞生存依存性の評価: 8種類の癌細胞株において、553個のORFを標的とするガイドRNAライブラリを用いたCRISPR/Cas9機能喪失スクリーニングを実施した。さらに、二次スクリーニングと高密度sgRNAタイリングアッセイにより、生存率への影響がORFのコード領域に特異的であることを確認した。統計解析には、二元配置分散分析 (two-way ANOVA) やWilcoxon検定、Student’s t検定などが用いられた。

特に、同定された新規分泌タンパク質であるGREP1 (glycine-rich extracellular protein-1) (旧G029442) に焦点を当て、263種類の癌細胞株における依存性プロファイル、分泌タンパク質質量分析、およびGDF15 (growth differentiation factor 15) 補充アッセイを用いて、その機能メカニズムを詳細に解析した。