• 著者: Pedro Milanez-Almeida, Andrew J. Martins, Ronald N. Germain, John S. Tsang
  • Corresponding author: John S. Tsang (National Institute of Allergy and Infectious Diseases, NIH)
  • 雑誌: Nature Medicine
  • 発行年: 2020
  • Epub日: 2020-12-14
  • Article種別: Original Article
  • PMID: 32042193

背景

腫瘍トランスクリプトーム解析 (RNA-seq) は、遺伝子発現情報に基づき、がんの予後予測、分子サブタイプ分類、および治療選択に不可欠なツールとして認識されている Vogelstein et al. Science 2013。しかし、標準的なRNA-seqプロトコルでは、1サンプルあたり約5,000万リード(paired-end、read length 100 bp)のシークエンシング深度が必要とされ、これには約250ドルのコストがかかる。このコストの内訳は、シークエンシング自体が約80%、ライブラリ調製が約20%を占める。この高コストは、大規模な臨床実装、多施設共同研究、および腫瘍内不均一性 (ITH) を評価するための多領域サンプリングといった、より広範な応用を阻害する主要なボトルネックとなっていた。特に、ITHの評価には複数の腫瘍領域からのサンプリングが必要であり、各サンプルに標準的なRNA-seqを適用すると費用が飛躍的に増加するため、現実的な選択肢とはなり得なかった Gerlinger et al. NEnglJMed 2012

これまでの基礎研究では、共調節された転写経路の生物学的情報は、比較的浅いシークエンシング深度でも十分に回収可能であることが示唆されていた Heimberg et al. Cell Syst 2016。しかし、この知見が、がん患者の生存期間や再発予測といった、より複雑で臨床的に重要なアウトカム予測という「挑戦的な文脈」においても成立するかどうかは、これまで未解明であった。特に、臨床アウトカムの予測には、単一遺伝子の発現量だけでなく、複数の遺伝子からなる複雑なシグネチャーや経路情報が必要とされるため、浅いシークエンシング深度でこれらの情報を網羅的に捕捉できるかは不明であった。

近年、TCGA (The Cancer Genome Atlas) プロジェクトにより、数千例に及ぶ27種類のがん種の大規模なマルチオミクスデータが公開され、様々なシークエンシング深度におけるRNA-seq情報と臨床転帰との関係を系統的に評価するための強固な基盤が整った Weinstein et al. NatGenet 2013。このデータセットは、多様な遺伝子発現プロファイルと詳細な臨床情報を含んでおり、シャローシークエンシングの予後予測能力を検証する上で理想的なリソースである。このような背景から、シークエンシング深度の削減が予後予測性能に与える影響を定量的に評価し、コスト効率の高い大規模サンプル解析の可能性を探ることが、がん研究における喫緊の課題として認識されていた。特に、既存の予後予測モデルの多くは、限られたサンプル数で構築されており、多様な患者集団や腫瘍特性を考慮した、より汎用性の高いモデルを開発するためには、大規模なサンプル数での解析が不足していた。また、腫瘍内不均一性 (ITH) の詳細な評価には、複数領域からのサンプリングが必要であり、そのコストが大きな障壁となっていたため、浅いシークエンシング深度での予後予測能力の検証は、この課題を克服する上で重要な意味を持つ。

目的

本研究の目的は、TCGAの複数がん種のRNA-seqデータをin silicoでダウンサンプリングすることにより、シークエンシング深度の段階的削減が予後予測性能 (c-index) に与える影響を定量的に評価することである。具体的には、標準的なシークエンシング深度から10倍、100倍、1,000倍にリード数を削減した場合でも、予後予測情報が維持されるかを検証する。特に、シークエンシングコストが約80%削減される100倍削減の条件下で、予後予測性能がどの程度保持されるかを明らかにすることを目指した。これにより、シャロー腫瘍RNA-seqの臨床的実現可能性を実証し、大規模なサンプル数での解析を可能にするための最適なシークエンシング深度とコスト削減戦略を提言する。最終的には、より多様な臨床変数やその相互作用を組み込んだ、現実的かつ臨床的に関連性の高い予測モデル開発への道を開くことを目指す。

結果

予後予測フレームワークの基本性能: 開発したElastic Netペナルティ付きCox比例ハザード回帰モデルは、TCGAの27がん種中13がん種において、FDR 5%の有意水準でRNA-seqデータが予後予測に有用であることを示した (Extended Data Fig. 1)。これは、先行研究で報告されたFOXM1/KLRB1 (killer cell lectin-like receptor B1) の2遺伝子シグネチャーが8がん種で有意であったこと、および各がん種のトップ分子サブタイプ特徴量が9がん種で有意であったことと比較して、全ゲノム遺伝子発現データがより広範ながん種で予後情報を提供することを示唆する。各がん種の遺伝子発現予後モデルは、100回のランダム50/50データ分割を用いた交差検証により構築され、バイアス補正されたc-indexで評価された。

有意に予後予測可能な13がん種のc-index範囲: 予後予測に有意であった13がん種におけるc-indexの中央値は、HNSC (頭頸部扁平上皮癌) の0.60からACC (副腎皮質癌) の0.82の範囲に分布していた (Extended Data Fig. 2)。これらのc-index値は、腫瘍RNA-seq遺伝子発現データが多様ながん種において臨床転帰を予測する能力を持つことを明確に示している。さらに、多変量解析において年齢、性別、腫瘍グレード、腫瘍ステージといった古典的な臨床変数を共変量として調整した場合でも、全13がん種で遺伝子発現データがこれらの臨床変数に独立した予測力を付加することが示された (FDR補正後p < 0.05, Fig. 2)。PRECOGの独立コホートとの比較では、訓練モデルで正または負に選択された遺伝子がPRECOGでも同方向の予後関連性を示し、モデルの汎化可能性が支持された (Extended Data Fig. 3)。

シャローシークエンシングでも予後予測性能が維持される: 主要な知見として、シークエンシング深度を10倍削減 (平均500万リード/サンプル) および100倍削減 (平均50万リード/サンプル) した場合でも、LUAD (肺腺癌) を除く12がん種において、P値分布およびc-indexに対する統計的に有意な影響は認められなかった (median BH補正P値およびc-indexの分布比較で非有意; Fig. 3)。これは、元のデータセットの平均5,000万リードから100分の1にあたる50万リードまで削減しても、大多数のがん種で予後予測性能が維持されることを意味する。例えば、100倍削減の条件下で、LUADを除く12がん種でc-indexの有意な低下は観察されなかった (p > 0.05)。LUAD単独での例外は、その遺伝子発現分散構造の特性、すなわち予後関連遺伝子のセットが高度に分散していることに起因すると解釈された。このダウンサンプリングは、各転写プロファイルからリードを10%、1%、0.1%の確率でランダムに抽出 (二項分布) することで実施され、各ダウンサンプリング割合に対して10回の独立したサブサンプリングが実施された。

1,000倍削減では性能が低下: 一方、1,000倍削減 (平均5万リード/サンプル) の場合、すべてのがん種でP値分布およびc-indexが元データと比較して有意に低下した (Fig. 3)。しかし、一部のがん種では、この超低深度シークエンシング条件下でも単独で統計的に有意な予後予測性能を維持していた (Extended Data Fig. 9-11)。この結果は、実用的なシャローシークエンシングの下限が50万リード (100倍削減) であることを示唆している。例えば、LGG (脳低悪性度神経膠腫) では、1,000倍削減後もc-indexの中央値が0.65 (p<0.001) であり、依然として予測能力を保持していた。

コスト削減の定量的推計: 標準的なRNA-seq (5,000万リード、約250ドル/サンプル) のコスト構成は、約80%がシークエンシングコスト、約20%がライブラリ調製コストである。シークエンシング深度を100倍削減 (50万リード) へ移行した場合、シークエンシングコストが大幅に減少し、ライブラリ調製コストが支配的となるため、総コストを約80%削減できると推定された (約250ドルから約50ドル/サンプル以下)。これは、1,000例のコホート解析において約200,000ドルのコスト削減に相当する。また、100倍削減による1サンプルあたりのシークエンシングコストと処理時間の大幅な削減は、これまで費用上の制約から実施が困難であった腫瘍内多領域サンプリングを現実的なコストで実現し、腫瘍内不均一性 (ITH) の詳細な評価を可能にする。

予後関連経路の同定: 100回の訓練ラウンドで最も頻繁に選択された遺伝子は、がん種を横断して細胞分裂・増殖 (cell cycle)、免疫応答・免疫細胞浸潤、上皮間葉転換 (EMT) の3つの主要な生物学的経路に集約された (Extended Data Fig. 4, 7)。これらの経路は、従来のがん予後研究で確立されている重要な経路と一致する。特に、免疫関連遺伝子 (例: CD8T細胞、NK細胞マーカー) は相対的に高発現であるため、比較的少ないリード数でも定量が可能であり、シャロー条件下での予後予測モデルの頑健性に貢献していると考えられる。訓練ラウンドごとの遺伝子リストの変動は大きかったものの (Supplementary Figs. 4-7)、経路レベルでは一貫性が保たれていた。例えば、E2Fターゲット経路は、複数のがん種で一貫して上位に濃縮された経路の一つであり、そのFDRは5e-5未満であった。サブサンプルモデルの独立コホート (PRECOG) への汎化性能も、元モデルと概ね同等であった (Supplementary Fig. 12, Extended Data Fig. 6)。PRECOGデータセットには、n=18,000のサンプルが含まれていた。

分子サブタイプとの関係: 遺伝子発現データから分子サブタイプ効果を事前に回帰除去する解析を行った結果、LGG (IDH変異サブタイプでの分散説明率 adjusted R2 = 0.78)、MESO (悪性中皮腫) (adjusted R2 = 0.57)、ACC (adjusted R2 = 0.48)、UVM (ぶどう膜悪性黒色腫) (adjusted R2 = 0.63) では予測力が消失した。これらの結果は、これらのがん種では遺伝子発現データが主に分子サブタイプ情報を反映していることを示唆する。一方、KIRC (腎臓明細胞癌)、PRAD (前立腺腺癌)、BLCA (膀胱尿路上皮癌) ではサブタイプ除去後も予測力を維持しており、遺伝子発現データが分子サブタイプを超えた独立の予後情報を持つことが示された。例えば、KIRCではサブタイプ除去後もc-indexが0.71 (p<0.001) であった。

考察/結論

本研究は、腫瘍RNA-seqのシークエンシング深度を標準的な平均5,000万リードから100倍削減した平均50万リードまで低減しても、有意な予後予測性能を示す13がん種中12種 (LUADを除く) でc-indexおよびP値分布が統計的に維持されることを、TCGAの大規模コホートを用いて系統的に実証した。この知見は、RNA-seqコストの約80%を占めるシークエンシングコストが100倍削減で無視できるレベルになることで、総コストを約250ドル/サンプルから約50ドル/サンプル以下 (約80%削減) にしながら、転写情報の予後的価値を保持できるという実践的な戦略を提供する。これは、大規模なサンプル数での解析を可能にし、がん研究および臨床応用における費用対効果を大幅に改善する可能性を秘めている。一方、1,000倍削減 (平均5万リード) では、すべてのがん種でP値分布およびc-indexの有意な低下が認められ、実用的なシャローシークエンシングの下限は50万リード (100倍削減) が目安となることが示唆された。

先行研究との違い: これまでの研究では、FOXM1/KLRB1の2遺伝子シグネチャーが8がん種で、またTCGAのトップ分子特徴が9がん種で有意な予後予測を示したと報告されている。これと対照的に、本研究で開発したElastic Netを用いた全ゲノム発現モデルは、13がん種で有意な予後予測能力を示し、全ゲノム発現情報が他の単一分子特徴や限定された遺伝子セットよりも広範ながん種で予後情報を提供することを示した。また、多変量解析 (年齢、性別、腫瘍グレード、ステージを共変量として調整) においても、全13がん種で遺伝子発現データが独立した予後情報を付加することが示された点は、これまでの研究では十分に評価されていなかった側面である。

新規性: 本研究で初めて、シャローシークエンシング条件下でも予後情報が頑健である機序として、予後関連転写シグナルが細胞分裂・増殖、免疫応答、上皮間葉転換 (EMT) といった少数の主要経路に集約されており、これらの経路に含まれる多くの遺伝子が高発現しているため、少ないリード数でも定量可能であることを明らかにした。特に、免疫関連遺伝子 (例: KLRB1) が高発現であるため、シャロー条件でも定量精度が維持され、がん免疫監視の強さを反映する予後シグナルが保持されるという新規のメカニズムが示唆された。これは、がん免疫療法の効果予測など、新たな臨床応用への道を開く可能性を秘めている。

臨床応用: 本知見は、大規模な患者コホートや腫瘍内不均一性 (ITH) の評価を目的とした多領域サンプリングなど、これまでコストがボトルネックとなっていた研究デザインの臨床応用を可能にする。例えば、1症例から複数の生検サンプルを取得し、シャローRNA-seqで解析することで、腫瘍の進化や治療抵抗性メカニズムをより詳細に理解できる可能性がある。これにより、個別化医療における治療選択の最適化や、新たなバイオマーカーの同定に貢献し、臨床現場での意思決定を支援するツールとなることが期待される。

残された課題: 今後の検討課題として、TCGAデータが主に外科的切除可能な大規模腫瘍由来であるため、生検サンプル、FFPE (ホルマリン固定パラフィン包埋) 保存サンプル、RIN値が低下した検体など、より多様な臨床サンプルへのシャローRNA-seqの適用可能性を評価する必要がある。また、本研究はin silicoダウンサンプリングに依存しているため、実際に低深度でシークエンシングされたデータを用いた前向き試験でのモデルの汎化性検証が不可欠である。さらに、多施設・多地域コホートでのモデルの頑健性検証、シングルセルRNA-seq (scRNA-seq) へのシャロー戦略の拡張による細胞レベルでの表現型推定、および前向き試験での治療選択 (治療応答予測) への貢献の定量的評価が残されている。これらの課題を克服することで、シャローRNA-seqの臨床的有用性をさらに確立できると考えられる。

方法

TCGAより27がん種のRNA-seqデータをGDC (Genomic Data Commons) 経由でTCGAbiolinksパッケージを用いて取得した。Raw countデータは、各がん種で少なくとも0.1%のサンプルで検出されない遺伝子を除外した後、voom (Ritchie et al. NucleicAcidsRes 2015) を用いてlog2(counts per million)に正規化された。がん種ごとのアウトカム測定値は、最新の推奨 (Liu et al. 2018) に従い、BRCA、LGG、PRAD、READ、THCA、THYMでは無増悪生存期間 (progression-free interval) を、その他のがん種では全生存期間 (overall survival) を採用した。DLBC (びまん性大細胞型B細胞リンパ腫)、KICH (腎臓嫌色素性細胞癌)、PCPG (褐色細胞腫・パラガングリオーマ)、CHOL (胆管癌) の4がん種は症例数が比較的少ないため、SKCM (皮膚悪性黒色腫) は転移腫瘍の比率が高いため、SARC (肉腫) はサブタイプ多様性が高いため、それぞれ解析から除外された。

予後予測フレームワークとして、Elastic Netペナルティを伴うCox比例ハザード回帰モデルを構築した。モデルの頑健性を評価するため、100回の異なるランダムデータ分割 (50%を訓練セット、50%を検証セット) を繰り返し、予測性能の分布を評価した。統計的有意性は、ランダムデータ置換に基づく排列検定によりFDR (False Discovery Rate) 5%で決定された。予測性能の定量化には、Concordance index (c-index) を使用し、Somers Dxy rank correlationによるバイアス補正を行った。

In silicoダウンサンプリングは、各転写プロファイルからリードを10%、1%、0.1%の確率でランダムに抽出 (二項分布) することで実施された。これにより、元のデータセットの平均5,000万リード/サンプルから、それぞれ500万リード (10分の1)、50万リード (100分の1)、5万リード (1,000分の1) の3つのシークエンシング深度レベルがシミュレートされた。各ダウンサンプリング割合に対して10回の独立したサブサンプリングを実施し、各サブサンプリングセットでさらに100回の訓練・検証サイクルを繰り返した。P値分布およびc-index分布の比較には、一側Wilcoxon順位和検定とBenjamini-Hochberg FDR補正が用いられた。独立コホートでのモデルの汎化性能を検証するため、PRECOG (Prognostic Ensemble for Cancer Outcome) (非TCGAのマイクロアレイデータセット、n=18,000例、166データセット) を使用した。PRECOGデータでは、訓練モデルで正または負に選択された遺伝子が、PRECOGにおいても同方向の予後関連性を示すかを評価した。

経路濃縮解析は、Elastic Net回帰モデルで得られた遺伝子係数の絶対値の平均値に基づき、50のHallmark MsigDB遺伝子セット (Liberzon et al. CellSyst 2015) を対象にCERNO (Context-dependent Enrichment for Regulatory Networks and Outcomes) テストを用いて実施された。この解析により、各がん種で最も有意に濃縮された上位5経路が特定された。また、モデルの汎化性能を評価するため、PRECOGデータセットを用いて、訓練モデルで選択された遺伝子の予後関連性が独立コホートでも維持されるかを確認した。