• 著者: Jianjiong Gao, Bulent Arman Aksoy, Ugur Dogrusoz, Gideon Dresdner, Benjamin Gross, S. Onur Sumer, Yichao Sun, Anders Jacobsen, Rileen Sinha, Erik Larsson, Ethan Cerami, Chris Sander, Nikolaus Schultz
  • Corresponding author: cBioPortal team (Computational Biology Center, Memorial Sloan-Kettering Cancer Center, New York, NY, USA; cbioportal@cbio.mskcc.org)
  • 雑誌: Science Signaling
  • 発行年: 2013
  • Epub日: 2013-04-02
  • Article種別: Protocol
  • PMID: 23550210

背景

2010年代前半、TCGA (The Cancer Genome Atlas) や ICGC (International Cancer Genome Consortium) といった大規模な国際共同プロジェクトにより、癌ゲノミクスデータが爆発的に増加した。これらのプロジェクトは、単一の腫瘍検体に対して、体細胞変異 (somatic mutation)、コピー数異常 (CNA: copy number alteration)、mRNA/miRNA発現、DNAメチル化、タンパク質/リン酸化タンパク質発現 (RPPA: Reverse Phase Protein Array) といった多次元的なオミックスデータセットを提供し始めた。しかし、これらのデータは規模が膨大であり、データの異質性や解析プラットフォームの多様性も相まって、バイオインフォマティクス専門家ではない臨床医や基礎研究者が、これらの公開データセットを統合的に探索し、生物学的な知見を導き出すことは極めて困難であった。既存のゲノムブラウザやデータポータルは生データへのアクセスを提供していたが、遺伝子レベルでの統合的な解釈や、臨床情報との関連付けは容易ではなかった点が課題として残されていた。このため、複雑な癌ゲノミクスデータを非専門家にもアクセス可能にするための、直感的で統合的なウェブベースのプラットフォームが強く求められていた。

Memorial Sloan-Kettering Cancer Center (MSKCC) のComputational Biology Centerが2012年に発表したcBioPortal (Cerami et al. CancerDiscov 2012) は、この障壁を低減するウェブプラットフォームとして登場した。しかし、その多機能性を最大限に活用するための実践的な操作ガイドが不足しており、特に遺伝子変異、コピー数異常、発現変化といった異なるデータタイプを統合し、相互排他性解析や生存解析、ネットワーク解析といった高度な分析を直感的に実行できるツールの利用方法が未解明なままであった。先行研究では個別のゲノムデータタイプに焦点を当てた解析ツールが多数報告されていたが、多次元データを統合的に扱うアプローチは限られていた (Robinson et al. NatBiotechnol 2011Mermel et al. GenomeBiol 2011)。本プロトコルは、cBioPortalの包括的な機能と、それが提供する統合的な解析能力を、実践的なワークフローを通じて示すことで、この知識ギャップを埋めることを目指した。

目的

本プロトコルは、cBioPortal (http://cbioportal.org) の主要な機能について、ステップ・バイ・ステップの実践的なガイドを提供することを目的とする。具体的には、以下の機能に焦点を当てる。(1) 単一癌研究におけるクエリと解析(OncoPrint、相互排他性解析、生存解析、ネットワーク解析)、(2) 複数癌種を横断したクエリ(遺伝子変異頻度の比較)、(3) 癌研究概要ビュー(変異・CNAランドスケープの俯瞰)、(4) 患者ビュー(個別腫瘍における全ゲノム異常の統合表示)、(5) プログラムによるアクセス(REST-like Web API、R/MATLAB/Pythonクライアント)、および (6) OQL (Onco Query Language) の詳細な使用方法である。これらの機能は、グリオブラストーマ (Glioblastoma) のRB経路遺伝子 (CDKN2A、CDK4、RB1) を例として、典型的なワークフローを可視化し、生物学的発見を促進するcBioPortalの能力を実証する。本プロトコルを通じて、バイオインフォマティクス専門知識を持たない研究者や臨床医が、複雑な癌ゲノミクスデータを効果的に探索し、解釈できるようになることを目指す。

結果

データソースの統合と利用可能な癌研究: cBioPortalは、発表済みの10の癌研究(グリオブラストーマ、卵巣癌、結腸直腸癌、肺腺癌、乳癌、前立腺癌、CCLE細胞株パネルなど)と、TCGAパイプラインからの20以上の暫定的な研究(1,000以上の検体)を含む、大規模な癌ゲノミクスデータを統合している。各検体について、体細胞変異、CNA(GISTICにより焦点的な増幅/欠失を同定)、mRNA/miRNA発現(Zスコア化、正常隣接組織または二倍体検体をリファレンス)、タンパク質/リン酸化タンパク質(RPPA)、DNAメチル化データが統合されている。これにより、ユーザーは多次元的なゲノムプロファイルを包括的に探索できる。

単一癌研究クエリのワークフローとOncoPrintによる視覚化: 単一癌研究のクエリは4つのステップで構成される。(1) 癌研究の選択(例: Glioblastoma TCGA Nature 2008)、(2) ゲノムプロファイルの選択(変異とCNAがデフォルト、mRNA・タンパク質はZスコア閾値で異常を定義、デフォルトは±2 SD)、(3) 症例セットの選択(例: “Tumors with sequence and aCGH data”、または臨床属性によるフィルター)、(4) 遺伝子入力(HUGOシンボル、Entrez ID、事前定義パスウェイ、MutSig/GISTIC由来の再発性異常遺伝子セット)。これらの設定に基づき、OncoPrintは症例ごとのゲノム異常を視覚的にまとめた行列図として表示される (Fig. 2)。グリオブラストーマにおけるRB経路遺伝子 (CDKN2A, CDK4, RB1) のクエリでは、71% (n=65) の症例が少なくとも1つの遺伝子に異常を持つことが示された。CDKN2Aの異常の多くはホモ接合性欠失であり、CDK4は増幅、RB1は欠失や変異であった。

Onco Query Language (OQL) による高度なクエリ: OQLは、CNA (AMP, HOMDEL, GAIN, HETLOSS)、変異 (MUT、特定の変異タイプやアミノ酸変化、例: BRAF: MUT=V600ETP53: MUT=MISSENSE)、mRNA/miRNA発現 (TP53: EXP > 1.5、SD単位)、タンパク質Zスコア (ERBB2: PROT < -2) の4種類のデータタイプを統合的にクエリできる (Table 1)。これにより、ユーザーは変異の種類、増幅/欠失の程度、発現の閾値などを厳密に指定し、より精密な解析を実行できる。OQLは単一癌研究クエリと複数癌種クエリの両方で利用可能である。

相互排他性解析と生存解析: OncoPrintで視覚化されたRB経路遺伝子 (CDKN2A, CDK4, RB1) の異常は、グリオブラストーマにおいて相互排他的な傾向を示すことが、相互排他性解析タブで示された (Fig. 3)。Fisherの正確確率検定により、CDKN2AとCDK4、およびCDKN2AとRB1の間の相互排他性は統計的に有意であった (p<0.05)。CDK4とRB1の間の傾向は強かったものの、統計的有意性は認められなかった (p=0.11)。これは、RB経路がこれらの遺伝子のいずれか1つの異常によって不活性化されるという生物学的知見と一致する。また、生存解析タブでは、BRCA1/BRCA2変異を有する卵巣癌患者が、変異のない患者と比較して有意に良好な全生存期間 (OS) および無病生存期間 (DFS) を示すことがKaplan-Meier曲線とログランク検定で示された (Fig. 7)。例えば、BRCA1/2変異陽性患者群のOS中央値は48.8ヶ月 (95% CI 36.3-61.3) であったのに対し、変異陰性群は34.4ヶ月 (95% CI 31.2-37.6) であり、ログランク検定でp=0.0006と有意差が認められた。DFSについても、変異陽性群は18.8ヶ月 (95% CI 15.1-22.5) vs 変異陰性群14.2ヶ月 (95% CI 12.8-15.6) であり、p=0.0016であった。

ネットワーク解析と薬剤標的情報: ネットワークタブでは、HPRD、Reactome、NCI-PID、MSKCC Cancer Cell Mapなどのパスウェイ情報に基づき、クエリ遺伝子とその近傍遺伝子の相互作用ネットワークが可視化される (Fig. 8)。各ノードには、変異、CNA、mRNA発現などのゲノム異常頻度が色分けしてオーバーレイされる。EGFRおよびERBB2をクエリ遺伝子とした卵巣漿液性癌のネットワーク解析では、下流エフェクターであるMYCが増幅していることが示され、MYCは30%のTCGA卵巣癌検体で増幅していた。また、ゲフィチニブやエルロチニブ(EGFRチロシンキナーゼ阻害剤)、セツキシマブやトラスツズマブ(EGFR/ERBB2モノクローナル抗体)といった薬剤標的情報もネットワーク上に表示可能であり、臨床的関連性のある薬剤との相互作用を視覚的に探索できる。

複数癌種クエリと患者ビュー: 複数癌種クエリ機能により、単一遺伝子セット(例: TP53)を25以上の癌研究に対してクエリし、癌種ごとの異常頻度を棒グラフで比較できる (Fig. 9)。TP53変異は、卵巣、肺、頭頸部の扁平上皮癌で最も高い頻度を示すことが示された。例えば、卵巣癌ではTP53変異頻度が約45%であった。これは、pan-cancerドライバー遺伝子の頻度を俯瞰し、癌種特異的な異常を発見するのに有用である。患者ビューでは、個別の腫瘍サンプルについて、臨床的特徴、変異数、CNAの程度、変異・増幅・欠失遺伝子の詳細など、全ての関連ゲノム異常が統合的に表示される (Fig. 11)。これにより、個々の臨床ケースの分子プロファイルを包括的に把握し、病理報告や治療経過と関連付けて解釈することが可能となる。

プログラムによるアクセス: cBioPortalは、REST-like Web API、CGDS-R (R/Bioconductor互換クライアント)、CGDS-MATLAB、Pythonクライアントを提供しており、ユーザーはTCGAデータをバルクダウンロードすることなく、オンデマンドで取得できる (Table 2)。これにより、再現性のある研究や、既存のバイオインフォマティクスパイプラインへの統合が容易になる。

考察/結論

本プロトコルは、cBioPortalがバイオインフォマティクス専門家ではない研究者や臨床医でもアクセス可能な、ウェブベースの癌ゲノミクス探索プラットフォームであることを実証した。本ツールは、多プラットフォームからの多次元オミックスデータを遺伝子レベルで統合し、OncoPrintによる視覚化、相互排他性解析によるパスウェイ中心の解釈、Kaplan-Meier生存解析、ネットワーク解析、および複数癌種比較といった機能を一画面で提供する。これは、これまでのデータポータルやゲノムブラウザでは困難であった、複雑なゲノムデータの統合的かつ直感的な解析を可能にする点で新規性が高い。

特に、OQL (Onco Query Language) を用いることで、変異タイプ、コピー数増幅/欠失の振幅、発現閾値などを厳密に指定できる点は、当時のMutSigやGISTICの出力をそのまま利用する分析よりも高い精密性を提供する。グリオブラストーマにおけるRB経路の例で示されたように、CDKN2A、CDK4、RB1の異常が相互排他的であり、かつ生存期間に影響を与える可能性を、相互排他性検定、生存解析、ネットワークビューを組み合わせることで、わずか数分以内に直感的に視覚化できることは画期的な改善であった。これは、TCGAのような大規模ゲノムデータの生物学的・臨床的意義を基礎研究から臨床現場へ橋渡しする上で極めて重要である。

本論文は、発表以来16,000回を超える被引用数を記録しており、学術ツール論文としては異例の成功を収め、バイオインフォマティクス分野の引用クラシックとなっている。cBioPortalは、MSKCC単独での運用から、GENIEコンソーシアムや公共/プライベートインスタンスへと拡大し、AACR Project GENIEなどの「公共データと病院ネットワーク」を組み合わせた癌ゲノミクスデータ共有の事実上の標準ユーザーインターフェースとなった。その後の機能追加(OncoKB統合、構造変異、変異シグネチャー、TMB計算、TCGA PanCancer Atlas、F1 Liquid CDxミラーなど)は、すべて本論文で示された枠組みを基盤としている。これは、これまでのゲノムデータ解析ツールが提供してきた機能と異なり、統合的な視点からがんゲノムを理解する新たな道筋を提示した点で画期的である。

残された課題として、本プロトコルが発表された時点では、正常対照検体を用いた詳細な解析や生殖細胞系列変異のフィルター機能は限定的であった。また、臨床アウトカムデータの完全性は各研究に依存するため、臨床的結論を導く際には慎重な注意が必要であると注記されている。今後の検討課題では、これらの制限を克服し、より包括的な臨床データとの統合を進めることが期待される。本論文は、癌インフォマティクスにおける「研究データから臨床意思決定支援へ」のロードマップを示した先駆的なプロトコルであると言える。

方法

本論文はプロトコルおよびソフトウェアツールの説明であり、実験的な「方法」セクションは該当しない。cBioPortalの利用には、インターネットブラウザ (Google Chrome, Firefox 3+, Safari, Internet Explorer 9+をサポート) とJavaScriptの有効化が必要である。ネットワーク解析タブでのネットワーク可視化にはAdobe Flash Playerが必要であったが、2013年半ばにはこの要件は削除される予定と注記されている。Integrative Genomics Viewer (IGV) の起動にはJava Runtime Environmentが必要であり、PDF (Portable Document Format) 形式の病理レポートやダウンロードファイルの閲覧にはAdobe PDF Readerが必要である。OncoPrintのSVG (Scalable Vector Graphics) ファイルを編集するには、Adobe IllustratorやInkscapeなどのベクターグラフィックエディタが推奨される。

プロトコルは、グリオブラストーマの例題を用いて、以下の5段階のクエリ手順を解説する。 1. 単一癌研究のクエリ:

  • 癌研究の選択: ドロップダウンメニューから「Glioblastoma (TCGA, Nature 2008)」を選択する。
  • ゲノムプロファイルの選択: 変異とコピー数データがデフォルトで選択される。mRNAやタンパク質発現データも利用可能であり、Zスコア閾値 (デフォルトは平均から±2標準偏差) を設定して異常を定義する。mRNA発現のZスコアは、正常隣接組織または二倍体検体を基準として計算される。
  • 症例セットの選択: 「Tumors with sequence and aCGH data」などの事前定義されたセットから選択するか、臨床属性に基づいてカスタムセットを構築する。
  • 遺伝子入力: HUGO (Human Genome Organisation) 遺伝子シンボル、Entrez ID、またはMutSigやGISTIC (Mermel et al. GenomeBiol 2011)で同定された再発性異常遺伝子セットから選択する。
  • OQL (Onco Query Language) の使用: Table 1に示されるように、CNA (AMP, HOMDEL, GAIN, HETLOSS)、変異 (MUT、特定の変異タイプやアミノ酸変化、例: BRAF: MUT=V600E)、mRNA/miRNA発現 (TP53: EXP > 1.5)、タンパク質Zスコア (ERBB2: PROT < -2) を用いてクエリを詳細化する。OQLは単一研究および複数癌種クエリの両方で利用可能である。

2. 結果の可視化と解釈:

  • OncoPrint: 症例ごとのゲノム異常を視覚的にまとめた行列図であり、変異、CNA、発現変化を色分けして表示し、相互排他性や共起性を視覚化する (Fig. 2)。
  • 相互排他性解析: Fisherの正確確率検定を用いて、遺伝子ペア間の異常の共起性または相互排他性を統計的に評価する (Fig. 3)。オッズ比 (OR) = (A D) / (B C) で計算され、Aは両遺伝子に変異がある症例数、BはG1のみに変異がある症例数、CはG2のみに変異がある症例数、Dはどちらにも変異がない症例数である。
  • 生存解析: Kaplan-Meier曲線を用いて、異常のある群とない群の全生存期間 (OS) や無病生存期間 (DFS) をログランク検定で比較する (Fig. 7)。
  • ネットワーク解析: HPRD、Reactome、NCI-PID、MSKCC Pathway Commonsなどの相互作用ネットワーク上に、クエリ遺伝子とその近傍遺伝子の異常を重ねて表示する (Fig. 8)。
  • プロット/共発現: 遺伝子間の相関を散布図で表示する (Fig. 4)。
  • 変異タブ: Lollipop plotでタンパク質ドメインコンテキスト、変異のクラスター化、再発頻度を表示し、COSMIC (Catalogue Of Somatic Mutations In Cancer) やMutation Assessorへのリンクを提供する (Fig. 5)。
  • タンパク質変化: RPPAデータに基づき、クエリ遺伝子に異常がある群とない群の間でタンパク質/リン酸化タンパク質発現の差をStudentのt検定で解析する (Fig. 6)。
  • IGVビューア: コピー数セグメントデータをIGV (Robinson et al. NatBiotechnol 2011)形式で表示する。

3. 複数癌種クエリ: 単一または複数の遺伝子セットを25以上の癌研究に対してクエリし、癌種ごとの異常頻度を棒グラフで表示する (Fig. 9)。

4. 癌研究概要データ: 各癌研究の臨床データ、変異遺伝子、CNAの概要情報にアクセスする (Fig. 10)。

5. 患者ビュー: 個別腫瘍サンプルにおける全てのゲノム異常を、臨床属性、病理レポート、治療経過と共に統合的に表示する (Fig. 11)。

6. プログラムによるアクセス: REST-like (Representational State Transfer-like) Web API (Application Programming Interface)、CGDS-R (R/Bioconductor互換クライアント)、CGDS-MATLAB、Pythonクライアントが提供され、TCGAデータをオンデマンドで取得し、再現性のある研究やダウンストリームパイプライン構築を可能にする。