• 著者: Lőrinc Pongor, Máté Kormos, Christos Hatzis, Lajos Pusztai, András Szabó, Balázs Győrffy
  • Corresponding author: Balázs Győrffy (MTA TTK Lendület Cancer Biomarker Research Group, Budapest, Hungary)
  • 雑誌: Genome Medicine
  • 発行年: 2015
  • Epub日: 2015-10-16
  • Article種別: Original Article
  • PMID: 26474971

背景

体細胞変異に基づく臨床転帰予測は、複数の課題により困難である。第一に、単一の体細胞変異が多数の遺伝子の機能に間接的な影響を与えうるため、その複雑なネットワークを解明する必要がある。第二に、次世代シーケンシング (NGS) データバンクは比較的新しく、追跡期間が短く、臨床アノテーションが疎であるという問題がある。例えば、The Cancer Genome Atlas (TCGA) の乳癌患者データでは、約89%の患者がイベント発生なしで追跡終了しており、中央値追跡期間がわずか1.3年と、統計的検出力が不足している状況である。このため、特定のサブコホートにおける生存差の直接的な評価は限定的であり、検出力も低いという課題が残されている。

既存の抗癌治療では、変異状態と表現型との間に直接的な関連があるという前提に基づき、臨床的判断がしばしば遺伝子型に直接的に依拠している。例えば、KRASの状態はEGFR阻害剤パニツムマブに対する患者の応答予測指標として用いられ、BRAF V600Eの状態はBRAF阻害剤ベムラフェニブへの応答予測に利用される。しかし、このような直接的な関連性は、異なる臨床コホート間で一貫性を示さない場合がある。例えば、ベムラフェニブはBRAF V600E変異型黒色腫には有効であったが、BRAF V600E変異型結腸癌には効果がなかったことがPrahallad et al. Nature 2012で報告されている。同様に、mTORおよびPI3K阻害剤は、PI3K変異型乳癌と非変異型乳癌で同程度の活性を示すことがJanku et al. J Clin Oncol 2012で示されている。また、最近承認されたCDK4/6阻害剤パルボシクリブも、CDK4/6異常を有する乳癌と正常な乳癌で同レベルの活性を示したとMigliaccio et al. Curr Opin Oncol 2014が報告している。これらの事例は、単純な遺伝子型と治療効果の直接的な関連付けには限界があることを示唆している。

乳癌のNGS研究では、TP53 (変異率40%)、PIK3CA (25%)、GATA3 (10%) など、ごく一部の遺伝子のみが10%以上の頻度で変異していることが示されている。しかし、HER2 (変異率1.5%) やESR1 (変異率0.6%) など、治療決定に不可欠な遺伝子でも変異頻度が非常に低い場合がある。これらの事実は、多くのドライバー遺伝子がまだ特定されていないことを強調している。体細胞変異と臨床転帰の関係は多層的かつ複雑であり、大部分が未解明であるため、遺伝子型が表現型に直接影響するという一般的なパラダイムの仮定は重要な限界である。

このような背景から、本研究では、体細胞変異が変異した遺伝子だけでなく、機能的に関連する遺伝子のネットワーク全体に影響を及ぼし、その影響が「トランスクリプトームフィンガープリント」として遺伝子発現の変化によって捉えられるという仮説を立てた。このトランスクリプトームフィンガープリントを介して、NGSデータバンクと、より長い追跡期間と豊富な臨床アノテーションを持つマイクロアレイ(遺伝子チップ)データバンクを連結することで、既存のデータセットの限界を克服し、体細胞変異の複雑な予後影響を評価する新しいアプローチを開発する必要がある。このアプローチは、新規ドライバー遺伝子の同定や、個別化医療のための治療標的候補の優先順位付けに貢献する可能性がある。

目的

本研究の目的は、次世代シーケンシング (NGS) データバンクの体細胞変異情報と、大規模なマイクロアレイ(遺伝子チップ)データバンクの豊富な臨床転帰情報を統合し、体細胞変異と臨床転帰を間接的に関連付けるための新しいパイプラインを構築することである。具体的には、体細胞変異を中間的なトランスクリプトームフィンガープリント(メタジーン)に変換し、このフィンガープリントを用いて大規模なマイクロアレイ生存データにおける予後予測を可能にするシステムを開発する。

このパイプラインを乳癌患者6,697例のデータに適用し、既知のドライバー遺伝子だけでなく、新規のドライバー遺伝子候補とその生存との関連性を同定することを目指す。さらに、研究者、バイオインフォマティシャン、臨床医が容易に利用できるよう、登録不要のウェブインターフェース「G-2-O (genotype to outcome)」を構築し、公開することも目的とする。このウェブインターフェースは、単一または最大3つの遺伝子の組み合わせにおける変異の予後影響を迅速に評価できる実用的なツールとして提供される。これにより、機能研究のための遺伝子候補の優先順位付けや、個別化医療における治療標的の探索に貢献することを目指す。

結果

データベースのセットアップとプラットフォーム間の比較: 本研究のアプローチの中心は、TCGAプロジェクトからの体細胞変異およびRNA-seq遺伝子発現データと、独立した大規模な乳癌患者コホートの詳細な生存データを含むマイクロアレイデータを統合的に解析することである。763例の患者において20,938遺伝子の変異が同定された。同じ腫瘍について10,987遺伝子のRNA-seq発現データも利用可能であり、遺伝子チップにも存在する遺伝子のみが両プラットフォーム間の翻訳を容易にするために利用された。5,934例の患者について、対応する10,987遺伝子のマイクロアレイデータと、生存を含む詳細な追跡データが39の独立した乳癌データセットから入手可能であった。 RNA-seqと遺伝子チップデータ間の相関を検証するため、TCGA肺扁平上皮癌 (LUSC) データセット(n=129患者)を用いた。このデータセットには、同一サンプルにおけるRNA-seqとマイクロアレイの両方のデータが含まれる。全遺伝子にわたる各患者内でのスピアマン相関を計算した結果、中央値相関は0.73 (p<1E-16) であった。この係数は全ての場合において0.68より高く、ロバストな相関を示した。この結果から、RNA-seqデータの代替として遺伝子チップを利用する戦略が本解析において実現可能であると結論付けられた。

変異検出結果とTCGA公開データとの比較: 我々のMuTectを用いた変異検出方法は、TCGA公開データマトリックスリポジトリからダウンロードされた変異よりも多くの変異を同定した。我々の変異検出およびアノテーションパイプラインは、有意に高い数の変異 (MuTectによる同定された変異の平均±標準偏差: 644±69/サンプル、TCGA: 102±14/サンプル) を同定した。この差は、(1) 低いカバレッジ閾値、(2) 低い変異頻度閾値、(3) SNPeffによる多遺伝子アノテーション、(4) 遺伝子のイントロンまたは上流領域で発見された変異も受け入れたことに起因する。TCGAのコンセンサスコールは高い真陽性率を達成するために設定されているが、偽陰性率も高い可能性がある。我々の解析パイプラインは、全763サンプルにおける全一塩基変異のセットを評価した際、TCGAリポジトリで公開されている1,752の変異のうち1,636を同定し、93%の重複率を示した。

最強のドライバー遺伝子候補の同定: 臨床的関連性の高い遺伝子に焦点を当てるため、最強のドライバー遺伝子候補を同定することを目指した。これらの解析は、ROC解析においてAUC値が0.65を超え、P値が0.01未満であること、および生存解析においてHRが1.4を超え、P値が0.01未満であることを有意の基準として実行された。この基準を満たした176個の遺伝子が同定された。このうち、トップ20の遺伝子がTable 2に示されている。例えば、AKT1のアップレギュレートされた遺伝子シグネチャはHR 1.8 (p<1E-16) で予後不良と関連し、ダウンレギュレートされた遺伝子シグネチャはHR 0.64 (p=1.60E-15) で予後良好と関連した (Figure 3)。

トップ10の癌遺伝子候補 (変異頻度5%以上): AKT1は変異頻度5.5%で、アップレギュレートされた遺伝子シグネチャはHR 1.8 (p<1E-16) で予後不良と関連し、ダウンレギュレートされた遺伝子シグネチャはHR 0.64 (p=1.60E-15) で予後良好と関連した。TRANK1は変異頻度5.3%で、アップレギュレートされた遺伝子シグネチャはHR 1.7 (p<1E-16) で予後不良と関連した。TRAPPC10は変異頻度6.1%で、アップレギュレートされた遺伝子シグネチャはHR 1.7 (p<1E-16) で予後不良と関連した。COL6A2は変異頻度5.3%で、アップレギュレートされた遺伝子シグネチャはHR 1.5 (p=3.60E-13) で予後不良と関連した。MTUS2は変異頻度5.8%で、ダウンレギュレートされた遺伝子シグネチャはHR 0.63 (p=1.10E-16) で予後良好と関連した。その他、ATG2B (5.1%)、OSBPL10 (5.2%)、POTEF (5.7%)、SCLT1 (5.5%)、TNC (6%) が含まれる。

トップ10の腫瘍抑制遺伝子候補: TP53は変異頻度28.3%で、アップレギュレートされた遺伝子シグネチャはHR 0.48 (p<1E-16) で予後良好と関連し、ダウンレギュレートされた遺伝子シグネチャはHR 1.6 (p=5.60E-16) で予後不良と関連した。BRCA2は変異頻度6%で、アップレギュレートされた遺伝子シグネチャはHR 0.52 (p<1E-16) で予後良好と関連した。PHEXは変異頻度6.6%で、アップレギュレートされた遺伝子シグネチャはHR 0.47 (p<1E-16) で予後良好と関連した。PXDNLは変異頻度6.1%で、アップレギュレートされた遺伝子シグネチャはHR 0.51 (p<1E-16) で予後良好と関連した。その他、ARFGEF1 (6.4%)、GGA3 (5.5%)、MPP6 (5.5%)、RGS22 (6%)、UBR5 (9.9%)、UNC5D (6.6%) が含まれる。PIK3CAのメタジーンは、ER陰性腫瘍ではアップレギュレートされた遺伝子シグネチャがHR 0.66で予後良好と関連し、ER陽性腫瘍ではHR 1.2で予後不良と関連するなど、サブタイプ依存性を示した。G-2-Oはサブタイプ層別解析が可能である。

TCGA変異コールとの比較: より厳格な変異コール基準と比較するため、TCGAが公開している変異コールを用いて解析を再計算した。G-2-Oアルゴリズムで同定された176個のドライバー遺伝子のうち、61個の遺伝子のみが有意であり、61個の遺伝子は「NA」結果(変異患者数が7未満の場合)、54個の遺伝子は非有意であった。これは、TCGAが真陽性率を重視する結果、変異頻度の低い遺伝子が除外されてしまうためであり、ドライバー遺伝子の65%が見逃されることを意味する。

偽陽性率の計算: 偽陽性率を推定するため、100個のランダムな遺伝子を用いて解析を100回繰り返した。その結果、有意な遺伝子の平均数は9.24個であり、いずれの実行でも15個を超える有意な遺伝子は得られなかった。各解析で少なくとも3個の有意な遺伝子が存在した。COSMICがんコンセンサス遺伝子 (n=571) と比較した推定偽陽性率は平均5% (範囲0-10%) であった。これは、先行研究で報告された「ランダムな多遺伝子シグネチャの90%が乳癌生存と関連する」という結果よりもはるかに低い値であり、G-2-Oパイプラインのロバスト性を示している。

ランダムホールドアウトによる再現性の評価: 結果の再現性を評価するため、20%のサンプルをランダムに除外し、20個のトップドライバー候補遺伝子を含む選択された高頻度遺伝子セットについて、解析全体を10回再実行した。AKT1遺伝子のアップレギュレートされた遺伝子シグネチャは、平均HR 1.7 (範囲1.6-1.8) であり、平均P値は<1E-16 (<1E-16 - <1E-16) であった。ダウンレギュレートされた遺伝子シグネチャは、平均HR 0.72 (0.59-0.87) であり、平均P値は2.5E-3 (<1E-16 - 1.4E-2) であった。PIK3CAの場合、アップレギュレートされた遺伝子シグネチャのHRは1.3 (1.2-1.6) であり、平均P値は1.6E-4 (<1E-16 - 8.8E-4) であった。ダウンレギュレートされた遺伝子シグネチャのHRは0.64 (0.53-0.7) であり、平均P値は7.2E-12 (<1E-16 - 4.3E-11) であった。非癌遺伝子であるTitin (TTN) は、いずれの解析においても有意な結果を示さず、パイプラインの特異性を示した。

閾値の安定性: ROC解析において異なる閾値(AUC値0.6~0.75、P値0.05~0.0001)を使用した場合の分類性能への影響を評価するため、TP53、PIK3CA、EGFRについて解析を行った。これらの解析では、結果として得られるHRとP値の偏差は2%未満であり、分類がロバストであることを示した。

考察/結論

先行研究との違い: 本研究は、次世代シーケンシング (NGS) データと遺伝子チップデータを統合し、乳癌患者6,697例の大規模コホートにおいて遺伝子型と臨床転帰を関連付けるG-2-Oパイプラインを構築した新規の方法論を提示した。既存のドライバー遺伝子発見ツールであるDriverNetやParadigmは、既知の遺伝子や経路間の相互作用に基づいて構築されているのに対し、G-2-Oはa prioriな経路知識を組み込まず、データ駆動型で遺伝子間の関連性を再計算する点で対照的である。これにより、既知のネットワークに縛られずに新規のドライバー遺伝子を発見する上で有利である。また、Cerami et al. CancerDiscov 2012が提供するcBioPortalは、TCGAの全生存期間データのみを利用し、追跡期間が短く、死亡イベントが少なく、変異の頻度に依存した不均衡なコホートという制約がある。G-2-Oは、より長い追跡期間を持つマイクロアレイデータを活用することで、これらの制約を回避している点で異なる。

新規性: 本研究の独自性は、(1) Cox回帰とカプラン・マイヤー解析を用いてアップレギュレートおよびダウンレギュレートされたメタジーンを独立して評価する点、(2) ER陽性/陰性やトリプルネガティブ乳癌などの分子サブタイプごとに解析を可能にする点、(3) オンラインインターフェースを通じて単一または最大3つの遺伝子の組み合わせの即時解析を可能にする実用性、(4) 偽陽性率と再現性評価をパイプラインに組み込んだロバスト性にある。本研究で同定されたトップの癌遺伝子候補(AKT1、TRANK1、TRAPPC10、COL6A2、MTUS2など)と腫瘍抑制遺伝子候補(PHEX、PXDNL、ARFGEF1、UBR5など)には、AKT1、BRCA2、TP53などの既報の遺伝子と、TRANK1、PHEX、PXDNL、UNC5Dなどのこれまで報告されていない新規候補の両方が含まれる。これらは個別化医療や標的療法のための新しい治療標的候補として優先順位付けに有用である。

臨床応用: 本研究で開発されたG-2-Oパイプラインは、発見された変異の機能的検証を大規模な乳癌コホートで可能にするものであり、臨床的意義は大きい。遺伝子チップデータベースは、Breast-MarkやKM-plotterなどのクロスデータセット解析ツールのトランスクリプトーム基盤としてすでに機能している。遺伝子発現データセットが大規模で十分にアノテーションされているため、遺伝子発現サロゲートを用いてDNAレベルの変化の予後意義をテストできる。登録不要のオンラインインターフェース (http://www.g-2-o.com) は、研究者、バイオインフォマティシャン、臨床医が患者の遺伝的背景を照会し、発見された変異や変異の組み合わせを迅速に評価することを可能にする。これにより、新たな治療標的の特定や、個別化された臨床試験の候補遺伝子の選定に貢献し、臨床現場での意思決定を支援するツールとなりうる。

残された課題: 本研究にはいくつかのlimitationが存在する。第一に、変異と遺伝子発現の間に直接的な影響を仮定している点である。PIK3CAのように、活性化が遺伝子発現の変化に反映されないケースも存在する。第二に、変異頻度が1%未満の遺伝子については検証が困難である。第三に、エピジェネティックな影響(DNAメチル化、ヒストン修飾など)が考慮されていない。同じ変異でもメチル化イベントの有無によって異なる転写結果をもたらす可能性がある。第四に、本研究は乳癌に焦点を当てており、他の癌種への拡張にはさらなる検証が必要である。最後に、ウェブベースのインターフェースの更新維持にはコストがかかる。今後の検討課題としては、(1) 同手法の他癌種(肺癌、大腸癌など)への拡張、(2) 遺伝子融合やスプライシングバリアントなどのより高度な変異への対応、(3) マルチオミクスデータ(メチローム、プロテオームなど)の統合、(4) 治療効果予測(治療特異的バイオマーカーの発見)への展開、(5) 同定された新規ドライバー遺伝子(TRANK1、PHEXなど)の機能的検証が挙げられる。G-2-Oパイプライン自体は、様々な癌種や遺伝子研究の出発点となりうる汎用的な方法論的リソースである。

方法

本研究では、遺伝子変異状態と遺伝子発現データを同時に利用して生存を予測するG-2-O (genotype to outcome) アルゴリズムを開発した。このアルゴリズムの主要なステップは、TCGAサンプルを変異状態に基づいて2つのコホートに分割し、ROC解析を用いてこれらのコホート間で差次的に発現する遺伝子を特定し、独立した遺伝子チップデータセットを用いて生存解析を行うことである。

データベース構築: TCGA乳癌NGSデータは、763例の患者から得られた。これには、22,938遺伝子の変異ステータスと10,987遺伝子のRNA-seqデータが含まれる。変異検出にはMuTectを使用し、dbSNP (build 139) および COSMIC (version 68) データベースを用いてアノテーションを行った。変異は、MuTectの判定アルゴリズムにより「KEEP」とラベル付けされ、少なくとも4リードに存在し、最低20倍のリードカバレッジを持つ体細胞変異のみを受け入れた。これは腫瘍内異質性を考慮し、低頻度のクローンも治療応答や生存に影響を与える可能性があるためである。機能的アノテーションにはSNPeff v3.5を使用し、コーディング非同義、ストップゲイン、コーディング同義、遺伝子の遺伝子座領域、スプライス部位の変異を対象とした。コピー数変異 (CNV) データもTCGAから取得し、少なくとも10プローブが存在し、セグメント平均が0.2以上の増幅、または-0.2以下の欠失を示すものに限定してフィルタリングした。 マイクロアレイデータベースは、GEOおよびEGAから入手可能なデータセットを用いて構築した。このデータベースには、39の独立したデータセットから得られた5,934例の乳癌患者のデータが含まれる。生Affymetrix .CELファイルはR v3.0.2統計環境でMAS5正規化され、各遺伝子についてJetSetを用いて最も信頼性の高いプローブセットが選択された。RNA-seqデータと遺伝子チップデータ間の比較を容易にするため、両プラットフォームに存在する10,987遺伝子のみを利用した。

G-2-Oアルゴリズム:

  1. 患者の2分割: 目的遺伝子の変異パターンに基づいて、患者サンプルを「変異あり」と「野生型」の2つのコホートに分割する。このステップの出力は、影響を受けたサンプルを「1」、影響を受けていないサンプルを「0」とするバイナリベクトル「変異パターン」である。
  2. トランスクリプトームフィンガープリントの同定: 各10,987遺伝子について、変異パターンとRNA-seqデータを用いて、発現差のROC解析を個別に実行する。曲線下面積 (AUC) 値が0.65を超え、かつP値が0.01未満の遺伝子のみを有意とみなす。このステップの最終出力は、元の入力遺伝子の遺伝子型変化と有意に関連する、アップレギュレートされた遺伝子セットとダウンレギュレートされた遺伝子セットのリストである。
  3. メタジーンの計算: ROC解析で同定された有意な遺伝子セットの平均発現量を「メタジーン」と定義する。
  4. 生存解析: 独立したマイクロアレイデータセット(遺伝子チップデータベース)を用いて、各メタジーンの生存との相関を評価する。Cox比例ハザード回帰とカプラン・マイヤー生存曲線を用いて、メタジーンの中央値で二分されたコホートの生存を解析する。アップレギュレートされた遺伝子セットとダウンレギュレートされた遺伝子セットのメタジーンは独立して解析され、それぞれについてハザード比 (HR) とP値が算出される。生存解析における統計的有意性の閾値は、P値が0.05未満、平均HRが1.4を超えるものとした。トレーニング(ROC解析)に関与したサンプルは、テスト(生存解析)には含まれない。

統計パッケージ: ROC解析はROCR Bioconductorライブラリを用いて実行された。Cox回帰解析は「survival」Rパッケージを用いて実行され、カプラン・マイヤープロットは「survplot」Rパッケージを用いて生成された。

ロバスト性評価:

  1. 偽陽性率の評価: 結果のロバスト性を評価するため、100個のランダムな遺伝子を各実行で選択し、パイプライン全体を100回繰り返した。有意な結果の数をカウントし、偽陽性率を推定した。
  2. 再現性の評価: 結果の再現性を評価するため、20%のサンプルをランダムに除外し、選択された20個のトップドライバー候補遺伝子について、解析全体を10回再実行した。各遺伝子について、平均P値と標準偏差を算出した。非癌遺伝子であるTitin (TTN) も、その巨大なサイズに起因する高い変異頻度のため、非癌遺伝子として選択された。
  3. 閾値の安定性: ROC解析におけるAUC値 (0.6~0.75) とP値 (0.05~0.0001) の異なるカットオフ組み合わせを用いて、TP53、PIK3CA、EGFRの解析を行い、分類性能に対する異なるカットオフの影響を評価した。