- 著者: Ethan Cerami, Jianjiong Gao, Ugur Dogrusoz, Benjamin E. Gross, Selcuk Onur Sumer, Bulent Arman Aksoy, Anders Jacobsen, Caitlin J. Byrne, Michael L. Heuer, Erik Larsson, Yevgeniy Antipin, Boris Reva, Arthur P. Goldberg, Chris Sander, Nikolaus Schultz
- Corresponding author: Ethan Cerami (Computational Biology Center, Memorial Sloan-Kettering Cancer Center, New York, NY, USA)
- 雑誌: Cancer Discovery
- 発行年: 2012
- Epub日: 2012-05-15
- Article種別: Original Article
- PMID: 22588877
背景
次世代シーケンサーのコスト低下と The Cancer Genome Atlas (TCGA)・International Cancer Genome Consortium (ICGC) などの大規模国際プロジェクトにより、癌ゲノムデータは指数関数的に蓄積してきた。TCGA はグリオブラストーマ (GBM) の包括的ゲノム解析 (TCGA et al. Nature 2008) や卵巣癌の統合ゲノム解析 (Network et al. Nature 2011) などで大量のマルチオミクスデータを生成し、特定のドライバー経路や新規治療標的を明らかにしてきた。しかし、これらの大規模プロジェクトによって生成された生データは、その形式、規模、および複雑さから、癌研究コミュニティが直接利用することが困難であった。このため、ゲノムデータを生物学的洞察、新規創薬標的、および臨床試験へと効果的に翻訳する上で大きなボトルネックが生じており、この点が未解明な課題として残されていた。
既存のゲノムブラウザ型可視化ツール、例えばIntegrative Genomics Viewer (IGV) (Robinson et al. NatBiotechnol 2011) などは存在したが、これらは主にゲノム配列レベルの閲覧に特化しており、変異 (mutation)、コピー数変化 (CNA)、mRNA発現、および臨床アウトカムといった多次元データを同時に横断的に照会できるインタラクティブな統合環境は整備されていなかった。特に、研究者がプログラミングスキルや専用のバイオインフォマティクスパイプラインを構築することなく、mutation、CNA、mRNA発現、DNAメチル化、タンパク質発現といった多次元データを患者レベルおよび遺伝子レベルで横断的に照会できるオープンプラットフォームが強く求められていた。既存のツールには、コーディング不要で多次元データを統合的にクエリする機能が不足しており、生物学的仮説をリアルタイムで検証することができないという方法論的ギャップが未解決のまま残されていた。この状況が、癌ゲノムデータの潜在的な価値を十分に引き出すことを妨げていたのである。このような背景から、大規模癌ゲノムデータを統合し、研究者が複雑なゲノムデータを容易に解析できるオープンなプラットフォームの開発が急務であった。
目的
Memorial Sloan-Kettering Cancer Center (MSKCC) Computational Biology Center が、大規模癌ゲノムプロジェクトのデータ統合課題を解決するために設計した cBio Cancer Genomics Portal (cbioportal.org) を提示し、その設計思想、主要機能、および代表的ユースケース (RB (retinoblastoma) pathway クエリ、cross-cancer query、mutual exclusivity 解析など) を紹介する。本プラットフォームは、研究者が複雑なゲノムデータを生物学的洞察や臨床応用に変換するのを支援し、癌ゲノム解析の障壁を低減することを目的としている。具体的には、多次元ゲノムデータを遺伝子レベルで保存し、患者の臨床データと組み合わせて解析することで、研究者が直感的なウェブインターフェースを通じて、OncoPrintによる視覚化、生存解析、ネットワーク解析、変異詳細の確認などを容易に行えるようにすることを目指した。これにより、バイオインフォマティクスの専門知識がない研究者でも、癌ゲノムデータから新たな知見を引き出すことが可能となる。
結果
プラットフォーム概要と機能: 論文発表時点で cBioPortal は published 5 + provisional 15 の計 20 データセットを搭載し、約 7,000 例以上の癌患者の多次元ゲノムデータをコード不要で解析可能にした (Figure 1A)。Altered gene の概念により、ユーザーは pathway 単位での alteration 頻度を即座に把握でき、月次 TCGA アップデートと自動連動することで常に最新データへのアクセスを保証した。この統合されたアプローチにより、研究者は多様な癌種におけるゲノム改変の全体像を迅速に把握することが可能となった。
OncoPrint 機能による経路改変の可視化: 個別患者・遺伝子の alteration を一目で可視化する代表的出力として OncoPrint が提供された (Figure 1B)。例として TCGA GBM コホート (n=206 例) に RB1、CDK4、CDKN2A、CCND2 (Cyclin D2) を入力すると、RB pathway の alteration が約 78% (160/206 例) で観察され、これらの遺伝子改変が相互排他的に分布する (mutual exclusivity) 傾向が定量的に示された (Fisher exact test p<0.001)。この可視化により、単一遺伝子レベルでは頻度が低い変異も pathway レベルで高い alteration 率を持つことが直感的に把握できることが示された。
Cross-cancer query による癌種横断解析: 単一遺伝子 (例: TP53、PIK3CA) を全 TCGA データセット横断で照会し、各癌腫での alteration 頻度バーチャートを得られる機能が実装された。TP53 は卵巣癌 (OV) で約 96%、GBM で約 29%、前立腺癌で約 4% と組織別の頻度差が即時可視化され、全 20 癌腫のデータが n=50-500 例の規模で横断比較された (Figure 3)。この機能により、NSCLC・GBM・OV など組織ごとの遺伝子改変スペクトラムの違いを研究者が仮説なしに発見できることが実証された。
Mutual exclusivity / co-occurrence 解析: 選択遺伝子セット内の全ペア間で alteration の共起・排他性を Fisher exact test で自動計算し、補正 p 値と odds ratio を出力する機能が提供された。例えば、EGFR と KRAS の排他的 alteration (Fisher exact test p<0.001) や、p53 pathway 内遺伝子群の co-occurrence など、既知の生物学的知見を定量的に再現することが示された。これにより、特定の遺伝子間の機能的関係性を大規模データから統計的に評価することが可能となった。
生存解析機能: altered case と unaltered case の間で Kaplan-Meier 曲線・log-rank p 値をリアルタイムに出力する機能が実装された (Figure 1E)。TCGA GBM コホート (n=206 例) において RB pathway altered 群 (n=160) と unaltered 群 (n=46) の OS を比較すると、RB pathway altered 群のOS中央値は11.8ヶ月 vs unaltered群の7.2ヶ月であり、統計的有意差は認められなかった (HR 0.96, 95% CI 0.70-1.32, p=0.64, log-rank test)。また、RB1遺伝子変異を持つ膠芽腫患者は、変異を持たない患者と比較して全生存期間 (OS) が悪化する傾向が認められ (HR 1.45, 95% CI 0.99-2.12, p=0.0513, log-rank test)、変異プロファイルと生存の Pearson 相関係数 r=0.05 であった。この結果は、pathway 内 mutual exclusivity を加味した解釈の重要性を示す事例として提示された。
Mutation 詳細表示と外部リソース統合: ロリポッププロットにより、各遺伝子のドメイン構造上の点突然変異分布が表示され、ホットスポット同定を支援した (Figure 1C)。BRAF V600E、PIK3CA H1047R (32%) / E545K (17%) など頻度を伴うホットスポット、IDH1 R132 などが視覚化された。各変異は COSMIC データベースとリンクし、既知・新規変異の区別を即時確認できる。さらに、HGNC (Human Genome Organisation Gene Nomenclature Committee)、Entrez Gene、UniProt、Pfam、COSMIC、UCSC Genome Browser へのリンクが遺伝子・変異ごとに自動生成され、機能注釈を6種の外部データベースと統合した。MSigDB からは約 1,400 の canonical pathway がクエリ対象となり、pathway レベルの統合解析を可能にした。
API とプログラム的アクセス: Web API (application programming interface) を通じて R / Python から自動クエリ可能であり、20 データセット・6 種のデータ型への標準化クエリをサポートし、再現性のある解析パイプライン構築を可能にした。CGDS-R (Cancer Genomics Data Server R package) などのパッケージにより、R の 1 行コマンドで全データを取得して二次解析に直接利用できる体制を整えた。これにより、より高度な統計解析やカスタムスクリプトを用いたデータ処理が可能となった。
考察/結論
cBioPortal は、TCGA・ICGC 等のビッグデータ時代における癌ゲノム研究の入口となるオープンリソースとして設計された画期的プラットフォームであり、論文発表後 10 年以上にわたって世界の癌研究の事実上の標準ツールとなった。
先行研究との違い: 先行研究として TCGA 統合解析 (Network et al. Nature 2011) が大量マルチオミクスデータの有用性を示したものの、既存プラットフォームには横断統合照会機能が不足していた。先行する UCSC Cancer Browser (University of California Santa Cruz) や ICGC Data Portal と異なり、cBioPortal は mutation・CNA・mRNA 発現・臨床データを 1 クエリで同時横断照会できる統合設計を採用した。IGV などゲノムブラウザ型ツールがゲノム配列レベルの閲覧に特化していたのに対し、cBioPortal は多次元癌ゲノムデータを臨床アウトカムと結びつけて解析する新規なパラダイムを提示し、特定遺伝子・pathway の改変プロファイルを患者コホート規模で即時照会できる点で先行ツールと本質的に異なる。
新規性: 本ツールの新規な貢献は、プログラミング不要の汎用癌ゲノム解析基盤を世界規模で無償公開し、生物学者・臨床医・トランスレーショナルリサーチャーがドライバー遺伝子同定・新規創薬標的探索・予後因子検証・併用療法デザインへの臨床応用を念頭に置いた解析を独立して実施できるようになった点にある。これにより、これまでバイオインフォマティクスの専門知識が必要とされた解析が、より広範な研究者コミュニティに開放された。
臨床応用: 本プラットフォームは、癌ゲノムデータを生物学的洞察や潜在的な臨床応用へと変換するための障壁を大幅に低減した。例えば、特定の遺伝子改変を持つ患者群の生存率を迅速に比較したり、既知のパスウェイにおける相互排他的な変異パターンを特定したりすることで、個別化医療戦略や新規治療標的の同定に貢献する。臨床的意義として、研究者が自らの仮説を大規模な患者コホートデータでリアルタイムに検証できる環境を提供し、創薬研究や臨床試験デザインの効率化を促進した。
残された課題: 今後の検討課題として、(1) 生データへの直接アクセスに必要な institutional approval プロセス、(2) single-cell RNA-seq・spatial transcriptomics 等の新データ型への非対応、(3) 複数遺伝子を同時照会する際の統計的多重比較の補正不足、(4) Asian など特定集団のデータ過少代表が挙げられる。これらの limitation は、後続の TCGA Pan-Cancer Atlas、AACR GENIE、MSK-IMPACT コホート等の取り組みで段階的に対処されており、cBioPortal も継続的に機能拡張とデータ拡充を進めている。
方法
cBioPortal は、論文発表時点で公開済みの5つのデータセットと、暫定的な15のTCGAデータセットを搭載していた。これらの暫定データセットはTCGAの月次更新と連動し、常に最新のデータが反映されるように設計された。データ型としては、点突然変異 (mutation)、コピー数変化 (CNA、GISTIC (Genomic Identification of Significant Targets In Cancer) アルゴリズム由来)、マイクロアレイおよびRNAシーケンスに基づくmRNA発現、DNAメチル化、ならびにタンパク質およびリン酸化タンパク質レベルのデータが遺伝子レベルで保持された。これらのゲノムデータは、匿名化された臨床データ (例: 全生存期間 (OS)、無病生存期間 (DFS)) と紐付けられた。
本プラットフォームの基本的な抽象化は「altered gene」の概念に基づいている。これは、特定の患者において遺伝子が変異している、ホモ接合性欠失している、増幅している、またはmRNA発現がユーザー定義の閾値を超えている場合に、その遺伝子が「altered」であると分類するものである。この概念により、複雑なデータセットの解析と、反復的に改変される遺伝子セットや生物学的経路に関する生物学的仮説の構築が容易になった。
ウェブインターフェースは4つのステップで構成される直感的な設計を採用した。(1) 癌研究の選択 (例: TCGA Glioblastoma Multiforme (GBM))、(2) ゲノムプロファイルの選択 (例: mutationとCNA)、(3) 患者ケースセットの選択 (例: mutation、copy number、mRNAデータを持つすべての「完全な」TCGA GBM患者)、(4) HUGO (Human Genome Organisation) 遺伝子シンボル、遺伝子エイリアス、Entrez Gene ID、または関心のある経路の入力である。ユーザーは、遺伝子間の相互排他性 (mutual exclusivity) や共起 (co-occurrence) を自動的に計算するオプションも利用できた。さらに、クロスキャンサークエリ機能も提供され、これは「All Cancer Studies」を選択し、関心のある遺伝子セットを入力するだけの2ステップの簡略化されたクエリであった。
出力として、OncoPrint (行に遺伝子、列に患者を配置し、ゲノム改変をグリフで表示)、生存曲線 (Kaplan-Meier法とログランク検定を用いた解析)、ネットワークビュー、変異のロリポッププロット、クロスキャンサークエリ結果などが自動生成された。統計処理としては、Kaplan-Meier生存解析、Fisherの正確確率検定 (相互排他性/共起の評価)、およびログランク検定が組み込まれた。例えば、RB経路の遺伝子変異を持つ膠芽腫患者は、変異を持たない患者と比較して全生存期間 (OS) が悪化する傾向が認められた (p=0.0513, log-rank test)。また、ウェブサービスインターフェースとR統計パッケージ用のライブラリも提供され、プログラムによるアクセスと解析の再現性が確保された。本研究は、既存のTCGAデータセットを活用したレトロスペクティブコホート解析であり、特定の試験登録番号 (例: NCT番号) は存在しない。