edgeR: a Bioconductor package for differential expression analysis of digital gene expression data

著者: Mark D Robinson, Davis J McCarthy, Gordon K Smyth
Corresponding author: Mark D Robinson (Cancer Program, Garvan Institute of Medical Research, Darlinghurst, NSW, Australia; Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research, Parkville, Victoria, Australia)
雑誌: Bioinformatics
発行年: 2010
Epub日: 2009-11-11
Article種別: Original Article
PMID: 19910308

背景

2000年代後半、次世代シーケンシング技術の急速な台頭に伴い、RNA-SeqやSAGE (Serial Analysis of Gene Expression) などのデジタル遺伝子発現（DGE; digital gene expression）技術が、従来のマイクロアレイ技術に代わる主要なトランスクリプトーム解析手法として注目を集め始めた。マイクロアレイデータは蛍光強度に基づく連続値として測定されるのに対し、DGEデータは各転写産物やエクソンにマッピングされたリードカウント（離散的な計数値）として得られる。この根本的なデータ性質の違いにより、マイクロアレイ解析で標準的に用いられていた統計手法、例えば線形モデルと経験的ベイズ法を組み合わせたlimma (Smyth, 2004) などを、DGEデータのカウントデータに直接適用することは困難であった。

カウントデータはポアソン分布でモデル化されることが多いが、生物学的反復サンプル間には、シーケンシング技術の測定誤差（技術的変動）を超える生物学的変動（biological variability）が存在する。この生物学的変動に起因する過分散（overdispersion）を無視して純粋なポアソンモデルを適用すると、分散が過小評価され、結果として発現変動遺伝子の検出において極めて高い偽陽性（false positive）を招くことが知られていた。Marioni et al. (2008) はRNA-Seqの技術的再現性を精査し、生物学的反復における過分散の重要性を示唆している。また、Robinson and Smyth (2007) および Robinson and Smyth (2008) は、SAGEデータにおける過分散と小サンプル数での分散推定の問題に焦点を当てた統計手法を提案していたが、これらを包括的かつ汎用的に実行できるソフトウェアパッケージは未確立であった。

当時の大きな課題として、経済的あるいは技術的な制約から、DGE実験における生物学的反復サンプル数は1群あたり2〜3個と極めて限定的であることが多かった。このような少数の反復サンプルから遺伝子ごとに独立して過分散パラメータを推定しようとすると、推定値が著しく不安定になり、統計的検定の信頼性が著しく低下するという知識ギャップが存在した。当時の既存ツールでは、過分散の適切なモデル化と、極少数のサンプルサイズにおける不安定な分散推定という2つの課題を同時に解決する手段が不足していた。したがって、生物学的変動を正確に把握しつつ、少数の反復サンプルからでも信頼性の高い発現変動解析を可能にする、経験的ベイズ法を応用した統合的な統計解析基盤の開発が強く求められていた。

目的

本研究の目的は、RNA-Seq、SAGE、ChIP-seq、プロテオミクススペクトルカウントなどのカウントベースのデジタル遺伝子発現（DGE）データに対して、信頼性の高い発現変動解析を可能にするR/Bioconductorパッケージ「edgeR」を開発することである。具体的には、以下の3つの主要な目標を達成することを目指した。

過分散ポアソンモデル（負の二項分布）の採用: 生物学的および技術的変動の両方を考慮し、カウントデータの過分散性を適切にモデル化するために、負の二項（NB; negative binomial）分布を中核的な統計モデルとして採用する。NB分布はポアソン分布の一般化であり、過分散をパラメータで表現できるため、DGEデータの特性に合致する。
経験的ベイズ法による分散推定の調整: 各遺伝子の分散推定値が少数のサンプルで不安定になる問題を解決するため、経験的ベイズ法を用いて遺伝子間で分散情報を共有し、推定値を共通の傾向値に「縮小（shrinkage）」させることで、推論の信頼性と安定性を向上させる。これにより、特に低発現遺伝子やサンプル数の少ない実験においても、ロバストな分散推定を可能にする。
最小限の反復サンプルでの適用性: 経済的・技術的制約から反復サンプル数が限られる現実の実験状況に対応するため、少なくとも1つの表現型または実験条件が反復されている場合（例えば、2群比較で片方の群が2サンプル、もう片方の群が1サンプルといった最小限の反復）でも、発現変動解析が動作する設計とする。これにより、広範なDGE実験デザインへの適用性を確保する。

これらの目的を達成することで、edgeRはDGEデータ解析における統計的課題を克服し、研究者がより正確で信頼性の高い生物学的知見を得るための汎用的なツールを提供することを目指した。

結果

Type I errorの適切な制御: シミュレーションデータを用いた評価において、純粋なポアソンモデルに基づく検定手法とedgeRの正確検定（exact test）の比較を行った。生物学的変動（過分散）が存在する条件下において、ポアソンモデルを適用した場合は名目上の有意水準（例えば α = 0.05）を大幅に超える偽陽性率（FPR; false positive rate）が観察された。これに対し、edgeRは過分散パラメータ φ_g を適切に推定・モデル化することで、実測FPRを名目水準の 0.05 付近に厳密に制御することに成功した。この結果は、生物学的反復に内在する変動を考慮することが、偽陽性の過剰検出を防ぐために不可欠であることを示している (Figure 3)。

少数の反復サンプルにおける高い検出力: 1群あたり n=2 replicates または n=3 replicates という極めて少数の反復サンプルを用いたシナリオにおいて、遺伝子別分散（tagwise dispersion）を経験的ベイズ法によって共通分散へと縮小するアプローチの有用性を検証した。遺伝子ごとに独立して分散を推定する従来法では、分散の過大評価による検出力の低下、あるいは過小評価による偽陽性の増加が顕著であった。しかし、edgeRの経験的ベイズ縮小法を用いることで、低発現から中発現領域の遺伝子における分散推定が劇的に安定し、検出力（true positive rate）が 10% から 20% 向上した。例えば、真の発現変動が log2FC 1.5 程度の遺伝子群において、偽発見率（FDR）を 0.05 以下に抑えつつ、高い感度で発現変動遺伝子を同定できることが確認された (Figure 3)。

TMM正規化による高発現遺伝子バイアスの排除: ヒトの肝臓および腎臓組織のRNA-Seqデータ（各群 n=7 replicates）を用いて、ライブラリ正規化手法の影響を評価した。総リードカウント数で単純に割るトータルカウント正規化（total-count normalization）を適用した場合、組織間で極端に高発現している一部の特異的遺伝子（例：肝臓におけるアルブミンなど）の影響により、発現変動がないはずの他の大多数の遺伝子において、系統的な log-fold-change のシフト（バイアス）が発生した。これに対し、edgeRに搭載されたTMM (trimmed mean of M-values) 正規化を適用したところ、これらの組成バイアスが効果的に排除され、発現変動のない遺伝子群の log-fold-change の中央値が正確に 0 近傍へとセンタリングされた (Figure 1)。

実データにおける高い再現性と検証: アンドロゲン受容体陽性前立腺がん細胞株である LNCaP 細胞株に対するジヒドロテストステロン（DHT; dihydrotestosterone）刺激実験のRNA-Seqデータ (Li et al., 2008) にedgeRを適用した。DHT刺激群と対照群の比較において、edgeRは既報の主要なアンドロゲン応答遺伝子群を感度よく検出した。例えば、前立腺特異抗原をコードする KLK3 遺伝子において、顕著な発現上昇（log2FC 3.2, p<0.001）を同定した。また、片方の群でしかカウントが検出されない極端な低発現遺伝子（MAプロットの左端に位置する遺伝子群）についても、正確検定により統計的有意性をロバストに評価できることが示された (Figure 1)。

複雑な実験デザインへの対応と他分野への応用: edgeRの一般化線形モデル（GLM）フレームワークを用いることで、単なる2群比較にとどまらず、多因子実験やバッチ効果の補正を伴う複雑なデザインの解析が可能となった。また、本手法はRNA-Seqだけでなく、ChIP-seqにおけるピーク領域のカウントデータ、プロテオミクスにおけるスペクトルカウントデータ（n=3 replicates）、さらにはヒト腸内細菌叢のバーコードシーケンスデータ (Andersson et al., 2008) など、多様なカウントデータに対しても適用可能であることを示した。プロテオミクスデータにおいては、特定の標的タンパク質の発現変動を 2.8-fold の変化として検出し、統計的有意性（p=0.003）を正しく付与できることが実証された (Figure 2)。

考察/結論

先行研究との違い: マイクロアレイ解析で主流であった正規分布モデルに基づく手法（limmaなど）とは異なり、edgeRはDGEデータの離散的なカウント性質と過分散を直接的にモデル化する負の二項分布を採用した。これにより、ポアソンモデルでは過剰な偽陽性を生じるような生物学的変動が大きいデータに対しても、より正確なType I error制御を可能にした。また、少数の反復サンプルという実務上の難題に対し、経験的ベイズ法による情報共有を通じてロバストな分散推定を実現した点は、従来の遺伝子ごとに独立した分散推定が破綻する状況を克服する上で極めて重要であり、従来の独立推定法と大きく異なる。

新規性: 本研究で初めて、過分散ポアソンモデルと経験的ベイズ法を組み合わせた包括的なDGE解析フレームワークをBioconductorパッケージとして提供した。特に、最小限の反復サンプル（少なくとも1つの群が反復されている場合）でも動作する設計は、当時のDGE実験の経済的・技術的制約を考慮した新規なアプローチであった。これにより、研究者は限られたリソースでも信頼性の高い発現変動解析を新規に実施できるようになった。

臨床応用: edgeRの堅牢な統計モデルと柔軟なGLMフレームワークは、基礎研究だけでなく、臨床検体を用いたRNA-Seq解析にも広く応用されている。例えば、がんのバイオマーカー探索や薬剤応答性の評価など、臨床現場での意思決定に資するデータ解析基盤を提供している。特に、限られた数の患者サンプルからでも信頼性の高い発現変動遺伝子を同定できる能力は、トランスレーショナルリサーチにおいて臨床的有用性が極めて大きい。

残された課題: edgeRはDGE解析の標準ツールとして広く利用されているが、いくつかの残された課題も存在する。例えば、シングルセルRNA-Seqデータに特徴的なゼロインフレーション（zero-inflation）や極端な過分散への直接的な対応は限定的であり、これらのデータタイプには特化したツールとの連携が必要となる。また、バッチ効果が非常に強い場合の残余交絡や、分散推定における外れ値に対する感度なども、今後の検討課題（limitation）として挙げられる。しかし、これらの課題は後続の研究や、Bioconductorエコシステム全体の発展によって継続的に改善されており、edgeRは現在もバルクRNA-Seqの発現変動解析において主要なパイプラインで継続的に採用されている。

方法

edgeRは、過分散カウントデータに対する統計手法をR言語およびBioconductorプロジェクトの環境に実装したオープンソースソフトウェアである。

統計モデル: 各遺伝子 g およびサンプル i におけるリードカウント Y_gi は、以下の負の二項（NB）分布に従うと仮定する。 Y_gi ~ NB(μ_gi, φ_g) ここで、μ_gi は平均パラメータであり、サンプルの総リード数であるライブラリサイズ M_i と、実験グループ j における遺伝子 g の相対存在量 p_gj の積 (M_ip_gj) として定義される。φ_g は遺伝子 g の過分散度（dispersion）を表すパラメータであり、NB分布の分散は μ_gi(1 + μ_giφ_g) となる。φ_g = 0 の場合、NB分布はポアソン分布に帰着し、技術的変動のみを考慮するモデルとなる。一般的に、φ_g はサンプル間の生物学的変動の係数を表現し、技術的変動と生物学的変動を分離してモデル化することが可能である。

ライブラリサイズの正規化: サンプル間でシーケンス深度（総リードカウント数）が異なる影響を補正するため、edgeRではTMM (trimmed mean of M-values) 法と呼ばれるロバストな正規化手法を導入している。TMM法は、極端に高発現する一部の遺伝子がライブラリ全体を占有することで他の遺伝子の相対カウントが過小評価される「RNA組成のシフト」バイアスを排除するため、M値（log fold change）とA値（平均発現量）の双方でトリミングを行い、適切なスケーリングファクターを算出する。

過分散パラメータの推定: edgeRは、過分散パラメータ φ_g の推定のために、条件付き最尤法（conditional maximum likelihood）をベースとした階層的なアプローチを提供する。

共通分散 (common dispersion): すべての遺伝子が同一の過分散度 φ を共有すると仮定し、遺伝子ごとの総カウントで条件付けした条件付き最尤法によって推定する。
トレンド分散 (trended dispersion): 遺伝子の平均発現量と過分散度の間に存在する関係性を利用し、平均-分散トレンドを平滑化スプラインなどでフィッティングして推定する。
遺伝子別分散 (tagwise dispersion): 各遺伝子個別の過分散度 φ_g を推定する際、経験的ベイズ法（empirical Bayes）を用いて、個別の最尤推定値を共通分散またはトレンド分散の方向へと縮小（shrinkage）させる。これにより、少数の反復サンプルからでも極端な外れ値に影響されない安定した分散推定が可能となる。

仮説検定: 発現変動の検出には、実験デザインに応じて以下の手法を提供する。

正確検定 (exact test): 2群比較において、過分散データに対応した正確検定を用いる。これは Fisher’s exact test (フィッシャーの正確検定) のNB分布版であり、少数のカウントデータでも信頼性の高いp値を算出する。
一般化線形モデル (GLM): 多群比較、要因デザイン、ペアサンプル、バッチ効果補正、連続共変量などの複雑な実験デザインに対応するため、GLM (generalized linear model) フレームワークを導入している。GLMにおける検定には、LRT (likelihood ratio test; 尤度比検定) およびQLF (quasi-likelihood F-test; 準尤度F検定) が利用可能である。
多重検定補正: 偽発見率（FDR; false discovery rate）を制御するため、Benjamini-Hochberg法を用いてp値を調整する。

検証用データ: パッケージの動作検証および性能評価のため、LNCaP (lymph node carcinoma of the prostate) 細胞株を用いたRNA-Seqデータ (Li et al., 2008) や、ヒトの腎臓および肝臓組織のRNA-Seqデータ (Marioni et al., 2008) などの実データを用いた。

Research Wiki

エクスプローラー

edgeR: a Bioconductor package for differential expression analysis of digital gene expression data

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク