- 著者: Arthur Liberzon, Chet Birger, Helga Thorvaldsdóttir, Mahmoud Ghandi, Jill P. Mesirov, Pablo Tamayo
- Corresponding author: Jill P. Mesirov (UCSD / Broad Institute); Pablo Tamayo (UCSD / Broad Institute)
- 雑誌: Cell Systems
- 発行年: 2015
- Epub日: 2015-12-23
- Article種別: Original Article
- PMID: 26771021
背景
Molecular Signatures Database (MSigDB) は、遺伝子セット濃縮解析 (Gene Set Enrichment Analysis, GSEA) のために最も広く利用されるリポジトリであり、本論文発表時点で10,000以上の遺伝子セットを7つのコレクション (C1: 染色体位置、C2: 文献由来のcanonical pathway/実験シグネチャ、C3: cis制御モチーフ、C4: co-expressionクラスタ、C5: GO、C6: oncogenic pathway、C7: immunologic) として提供していた。GSEAは、Subramanian et al. ProcNatlAcadSciUSA 2005によって提唱されて以来、ゲノムワイドな発現プロファイルの解釈において非常に成功したアプローチとして確立されている。しかし、MSigDBのコレクション拡大に伴い、遺伝子セット間の重複 (redundancy) と各セット内の異質性 (heterogeneity) が増大し、GSEA結果の解釈に課題が顕在化していた。具体的には、同一の生物学的過程が重複して上位に並ぶ問題、関連する遺伝子セットが上位を占めて他のシグナルを覆い隠す問題、enrichment scoreの分布歪みによるp値の膨張といった問題が生じていた。これらの問題は、GSEAの有用性そのものを損なう可能性があり、より精錬された遺伝子セットコレクションの必要性が高まっていた。既存の遺伝子セットは、しばしば関連する生物学的状態の近似的かつ不完全なバージョンを伝達するため、特定の転写プログラムや生化学的経路の明確な発現を捉えきれていないという課題が残されていた。例えば、Huang et al. NatProtoc 2009が指摘するように、大規模な遺伝子リストの機能解析には、より体系的かつ統合的なアプローチが不足していた。また、Barretina et al. Nature 2012らによる研究では、がん細胞株の薬剤感受性予測モデル構築において、疾患特異的なシグネチャの重要性が示唆されているものの、既存の遺伝子セットではその解像度が不十分であるという課題が残されており、この点が未解明であった。
目的
本研究の目的は、MSigDBの代表的な生物学過程・状態を要約しつつ、冗長性と異質性を最小化した精錬済み (refined) 遺伝子セットコレクション「Hallmark gene sets」を構築することである。具体的には、(1) 多数の関連founderセットを集約して一つのコヒーレントなhallmarkセットへ縮約し、(2) 自動計算と専門家による手動キュレーションを組み合わせたハイブリッドアプローチを用いて生成し、(3) GSEA結果のロバスト性と解釈性を改善することを示すことを目指した。
結果
50個のHallmarkセットの確立: 本研究により、8つの過程カテゴリ (cellular component、development、DNA damage、immune、metabolic、pathway、proliferation、signaling) に分類される50個のhallmark gene setsが構築された。各hallmarkは中央値で約200遺伝子(範囲: 32~200遺伝子)を含み、平均87個のfounderセットから精錬された。これらのHallmarkセットは、MSigDB v5.0からHコレクションとしてリリースされた (Table 1)。
冗長性の劇的縮減と遺伝子セット内コヒーレンスの向上: Hallmarkコレクション内の遺伝子セット間のJaccard overlapの中央値は0.01未満であり、これはMSigDB C2 (canonical pathway) コレクションにおける0.05以上と比較して5倍以上の縮減を示した。互いのoverlapが高いHallmarkのペアは、G2M_CHECKPOINTとE2F_TARGETSのように生物学的に密接に関連するものに限られ、無関係なセット間の人工的なoverlapは実質的に消失した。また、複数の独立した発現データセットを用いたpairwise gene-gene correlation解析により、Hallmarkセットの平均内部相関は、元のfounderセットを大きく上回ることが示された。例えば、HALLMARK_HYPOXIAは、founderであるManalo_HYPOXIAやWinter_HYPOXIAよりも高いコヒーレンスを示し、平均log2FCが1.5以上であった。この解析にはn=3 replicatesのデータセットが用いられた。
GSEA結果のロバスト化: GTExの53組織におけるHallmarkとfounderセットの比較解析では、組織特異的シグネチャ (例: 筋組織におけるMYOGENESIS、肝臓におけるBILE_ACID_METABOLISM) の検出感度は維持しつつ、上位50ヒットに重複するセットが連続して並ぶ問題が消失した (Figure 2)。NCI-60細胞株やTCGAがんサブタイプ解析においても、がんのHallmark (Hanahan & Weinberg) に対応するHallmark (PROLIFERATION、ANGIOGENESIS、EMT (Epithelial-Mesenchymal Transition)、APOPTOSIS、INFLAMMATORY_RESPONSEなど) が解釈容易な形でクラスターを構成した。グリオブラストーマにおける壊死の解析では、MSigDB C1-C6を用いたGSEAで527個の有意な遺伝子セットが検出されたが、Hallmarkコレクションでは12個の有意なHallmarkセットが検出され、より簡潔で同等の生物学的テーマを捉えることができた (Table S1, Table S2)。この解析では、n=200の膠芽腫サンプルとn=2の正常脳サンプルが使用され、Pearson correlationがランキング指標として用いられた。
情報損失の評価: founderセット由来の有意なenrichmentヒットの約80%が、対応するHallmarkセットで再捕捉された。これは、情報の大半が保持されつつ、重複と異質性のみが除去されたことを示しており、Hallmarkコアが実質的な生物学シグナルを担保していることを裏付ける。この再捕捉率は、例えばHedgehog hallmarkにおいて、founderセットの約85%のシグナルがHallmarkセットで検出されたことを意味する。
タンパク質レベルの表現型との関連性: Barretina et al. Nature 2012のCCLE (Cancer Cell Line Encyclopedia) データセットを用いて、HallmarkセットのssGSEAスコアとRPPA (reverse-phase protein array) で測定されたタンパク質レベルの表現型との関連性を評価した。MYC、ESR1、AR、BCL2、CDH2、SMAD3、STAT3_pY705、STAT5A、KDRの8つのタンパク質について、対応するHallmarkセットとの間に高い関連性 (ICスコアとp値) が認められた (Figure 3)。例えば、MYCターゲットHallmarkはMYCタンパク質レベルとIC = 0.552 (p < 4.8 x 10⁻⁷) の強い相関を示した。この解析には約1,000のCCLE細胞株が使用された。
考察/結論
先行研究との違い: 本研究で開発されたHallmark遺伝子セットは、従来のMSigDBコレクションが抱えていた遺伝子セット間の冗長性と異質性という課題に対し、自動計算と専門家による手動キュレーションを組み合わせたハイブリッドアプローチを採用した点で、これまでの遺伝子セット構築手法と異なる。これにより、GSEA結果の解釈性を根本的に改善し、よりロバストで簡潔な生物学的洞察を提供する。
新規性: 本研究で初めて、複数の「創始者」遺伝子セットから精錬され、特定の生物学的状態またはプロセスをコヒーレントに伝える50個の「Hallmark」遺伝子セットコレクションを新規に開発した。このコレクションは、GSEAの冗長性と異質性を低減し、ロバスト性と解釈性を向上させることを実証した。
臨床応用: Hallmark遺伝子セットは、肺がんを含む様々ながん種におけるTCGA解析や免疫療法バイオマーカー解析において、解釈可能なサマリーとして頻繁に利用されている。例えば、HALLMARK_INTERFERON_GAMMA_RESPONSEやHALLMARK_EMTは、免疫チェックポイント阻害剤 (ICI) 反応性予測のシグネチャとして広く検証されており、臨床現場での疾患分子メカニズムの理解や治療標的の特定に貢献する臨床的有用性を持つ。
残された課題: 今後の検討課題として、50セットでカバーされないニッチな生物学的過程 (例: ferroptosis、senescence-associated secretory phenotype) の追加、種特異的なHallmarkの整備、およびシングルセルスケールでのHallmark利用ガイドラインの確立が残されている。Limitationとして、本研究で定義されたHallmarkセットは主にアップレギュレートされた遺伝子に焦点を当てており、ダウンレギュレートされた遺伝子の挙動は十分に捉えきれていない可能性がある。
方法
本研究では、4段階のハイブリッド構築プロトコルを採用した。 Step 1: 類似遺伝子セットのグループ化 まず、MSigDB v4.0のC1 (染色体位置)、C2 (canonical pathway/実験シグネチャ)、C3 (cis制御モチーフ)、C4 (co-expressionクラスタ)、C5 (GO)、C6 (oncogenic pathway) コレクションに含まれる8,380個の遺伝子セット(各セットは5~1,994個の遺伝子を含む)を、遺伝子メンバーシップの重複度に基づいてコンセンサスクラスター分析によりグループ化した。Jaccard距離を類似度指標として使用し、アグロメレーティブ階層的クラスタリングを実行した。最適なクラスター数kを決定するため、コフェネティック係数を評価し、k=600の分割がHallmarkセット作成に適した粒度であると判断した。 Step 2: クラスターのフィルタリングと生物学的テーマの特定 Step 1で得られた600個のクラスターのうち、遺伝子数が150未満、または遺伝子セット数が6未満のクラスターは除外した。残った168個のクラスターから、専門家が生物学的テーマを明確に特定できる73個のクラスターを選定した。この際、MSigDBの既存アノテーションやHuang et al. NatProtoc 2009などの補完的アノテーションツールも活用した。 Step 3: 遺伝子発現データセットの特定 各クラスターの生物学的テーマに関連するヒト、マウス、またはラットの遺伝子発現データセットをGEOおよびArrayExpressから検索した。各データセットは、各表現型クラスに少なくとも3つのサンプルを含む必要があった。Hallmarkの精錬と検証のために、少なくとも3つのデータセットが精錬用、1つの独立したデータセットが検証用として特定できる43個のクラスターを選定した。これらの43個のクラスターから50個の生物学的テーマが割り当てられた(7つのクラスターは異質性のため2つのテーマに対応した)。 Step 4: Raw Hallmarkセットの定義と精錬 各Hallmark候補について、対応するfounder遺伝子セットの遺伝子を結合し、自動計算による予測のみで特定された遺伝子やEST (Expressed Sequence Tag) などの不明瞭な遺伝子を除外して「raw hallmark」セットを定義した。次に、raw hallmark内の各遺伝子が、Step 3で特定された複数の発現データセットにおいて、関連する表現型をどの程度識別できるかを情報係数 (IC) を用いて評価した。Fisherの方法によるメタ解析で統合p値を算出し、Benjamini-Hochberg法でFDR (False Discovery Rate) を計算した。FDRが0.01未満の上位遺伝子を最終的なHallmarkセットとして選定した。Hallmarkセットの遺伝子数は、GSEAでの利用を考慮し、15~200遺伝子の範囲に制限した。精錬プロセスでは、ダウンレギュレートされた遺伝子よりもアップレギュレートされた遺伝子に焦点を当てた。 Step 5: 独立した検証 最終的なHallmarkセットは、少なくとも1つの独立したデータセットで検証された。検証では、HallmarkのssGSEA (single-sample GSEA) スコアを計算し、Hallmarkとターゲット表現型のICスコアのp値が0.05未満であることを確認した。この検証には、例えばヒトの肝臓細胞株であるHepG2細胞を用いたデータセットや、マウスのC57BL/6J系統のマウスから採取された組織サンプルデータセットが使用された。