- 著者: Yafeng Zhu, Olena Berkovska, Lingshuo Wang, Mei Yang, Henrik J. Johansson, Georgios Mermelekas, Mahshid Zarrineh, Dong Yin, Lukas M. Orre, Janne Lehtiö
- Corresponding author: Yafeng Zhu (Sun Yat-Sen Memorial Hospital, Sun Yat-Sen University); Janne Lehtiö (Karolinska Institutet / SciLifeLab)
- 雑誌: Nature Protocols
- 発行年: 2026
- Epub日: N/A
- Article種別: Protocol
- PMID: 42020565
背景
プロテオミクスにおける MS (mass spectrometry: 質量分析) 技術の進歩は著しい。しかし、タンパク質の定量値の分散 (variance) は、定量に使用されたペプチドや前駆体イオン、PSM (peptide-spectrum match: ペプチドスペクトルマッチ) の数、すなわちMS特徴量数 (MS-feature count) に依存して低下することが既報において知られている。従来の Student t-test や one-way ANOVA (analysis of variance) などの統計手法は、この特徴量数への依存性を考慮しておらず、特徴量数が少ないタンパク質の検出感度や精度を著しく低下させるという課題があった。これを解決するために、特徴量数が1個のシングルペプチドタンパク質を除外する慣例が存在するが、これは低発現タンパク質の10-20%を捨てる結果を招き、解析深度の面で不十分であった。RNA-seqの分野では、遺伝子特異的な分散推定を導入した Ritchie et al. NucleicAcidsRes 2015 などのlimmaやvoom、DESeq2といった手法が精度向上に貢献してきた。プロテオミクスにおいても、MS特徴量数に基づくタンパク質特異的な分散推定手法の確立が求められていた。しかし、従来の DEqMS (differential expression analysis of quantitative mass spectrometry data) は DDA (data-dependent acquisition: データ依存的取り込み) データへの適用に留まっており、近年主流となっている DIA (data-independent acquisition: データ非依存的取り込み) データへの拡張適用可能性や、具体的なプロトコルは未確立であり、初心者から上級者までが容易に利用できる標準的なワークフローが不足していた。このため、特徴量数に応じた分散補正を行う統計ツールDEqMSのDIAデータへの拡張と、その詳細なプロトコルの提示が必要とされていた。
目的
本研究の目的は、定量質量分析データにおいて特徴量数に応じたベイズ分散補正を行うRパッケージDEqMSについて、従来のDDAに加え、近年主流となっているDIAプロテオミクスデータへの拡張適用可能性を実証することである。具体的には、スパイクインデータおよび実世界の細胞株・臨床データを用いて、既存の統計手法 (limma、MSqRob、MSstatsなど) との比較検証を行い、DEqMSが優れた検出感度と正確な FDR (false discovery rate: 偽発見率) 制御を両立することを示す。さらに、プロテオミクス解析の標準化を推進するため、検索ソフトウェアからのデータエクスポートからRでの統計解析、結果の可視化に至るまでの詳細なステップバイステップのプロトコルを提示し、研究コミュニティに提供することを目指す。
結果
MS特徴量数に依存した分散補正アルゴリズムの確立: DEqMSは、各タンパク質の定量に使用されたペプチド数やPSM数などのMS特徴量数と、測定された分散との間に負の相関があるという物理的特性を利用する。従来のlimma ( Ritchie et al. NucleicAcidsRes 2015 ) がすべてのタンパク質に対して一律の事前分散を仮定するのに対し、DEqMSは局所回帰を用いて特徴量数に依存した事前分散曲線をフィッティングする (Extended Data Fig. 1)。特徴量数が少ないタンパク質 (例えばペプチド数2個以下) では測定分散が過小評価されやすいため、ベイズ収縮によって分散を上方修正し、偽陽性を強力に抑制する。このアルゴリズムにより、シングルペプチドで定量された低発現タンパク質を解析から排除することなく、正確な統計検定が可能となった (Fig. 1)。
3プロテオーム混合データにおける優れた検出感度と正確なFDR制御: E. coli、C. elegans、H. sapiensの混合比率が異なる3プロテオーム混合データセット (各群 n=3 replicates) を用いたベンチマークにおいて、DEqMSは既存の統計ツールを上回る性能を示した。E. coliとC. elegansの平均 log2FC はそれぞれ 0.90 と -1.06 であった。調整後P値 p<0.05 の基準において、DEqMSは2,320個の真陽性タンパク質 (E. coliおよびC. elegans由来) を検出し、limmaの2,287個、MSqRobの2,217個、MSstatsの957個を上回る最も高い検出感度を実証した (Extended Data Fig. 4)。また、実際のFDRと推定FDRの相関を評価したところ、DEqMSはFDR 5% (0.05) 付近において極めて正確なFDR制御を維持しており、過剰な偽陽性を排除しつつ高い統計検出力を確保できることが確認された (Extended Data Fig. 4)。
実世界のがん細胞株データにおける小規模サンプルでの再現性と頑健性: 肺がん細胞株 NCI-H1944 を用いたIFNγ刺激実験 (n=8 replicates) のDIAデータ解析において、DEqMSはサンプルサイズや効果量が縮小した状況下で特に顕著な優位性を示した。サンプルサイズを n=8 replicates から n=3 replicates に削減したシミュレーションにおいて、DEqMSは100% IFNγ刺激群と対照群の比較で827個の DAP (differentially abundant protein: 発現変動タンパク質) を同定した (Fig. 2)。これは、limmaが特徴量数の少ないタンパク質の分散を過小評価して偽陽性を増やすのに対し、DEqMSはペプチド数2個以下の低特徴量タンパク質の分散を適切に補正するためである。実際に、n=3 replicates の小規模サンプルにおいて、OrbitrapとtimsTOFの異なるプラットフォーム間で共通して検出された低特徴量DAPの再現性は、DEqMSが他手法よりも有意に高かった (Fig. 2)。さらに、効果量を25%に希釈した設定でも、DEqMSは最も多くの ITP (inferred true positive: 推定真陽性) タンパク質を検出した (Extended Data Fig. 6)。
考察/結論
先行研究との違い: 本研究で提示されたDEqMSプロトコルは、すべてのタンパク質に対して一律の事前分散を適用する従来のlimma ( Ritchie et al. NucleicAcidsRes 2015 ) や、MS特徴量数を考慮しない一般的なStudent t-testやone-way ANOVAと異なり、タンパク質ごとの測定特徴量数(ペプチド数やPSM数)に依存した分散補正を明示的に行う。これにより、特にサンプルサイズが小さい実験デザインにおいて、低特徴量タンパク質の分散過小評価に伴う偽陽性を劇的に減少させることに成功している。
新規性: 本研究は、元々DDAデータ向けに開発されたDEqMSを、データ非依存的取り込み (DIA) プロテオミクスデータに対しても完全に拡張適用可能であることを本研究で初めて実証した。DIAデータにおいても前駆体イオン数と分散の間に明確な依存関係が存在することを示し、SpectronautやDIA-NNなどの主要な検索ソフトの出力に対応した一気通貫の解析パイプラインを新規に構築した。
臨床応用: 本プロトコルの臨床的意義および臨床応用への貢献は極めて大きい。 NSCLC (non-small cell lung cancer: 非小細胞肺がん) などのプロテオゲノミクス研究 ( Lehtio et al. NatCancer 2021 ) において、限られた臨床検体 (小規模コホートや希少がんバイオプシーなど、n=3 などの少数レプリケート) から得られる定量プロテオミクスデータから、低発現の治療標的候補やバイオマーカーを高い再現性で同定することが可能となる。
残された課題: 今後の検討課題として、大規模な臨床コホートのように生物学的な群内分散が質量分析由来の技術的分散を上回るデータセットでは、DEqMSの優位性が限定的になるというlimitationが挙げられる。また、リン酸化プロテオミクスのように、すべての修飾ペプチドが単一の特徴量 (1 PSM) で定量されるデータに対しても付加価値が薄い。今後は、欠損値のインピュテーション (imputation) アルゴリズムとの統合ワークフローの最適化や、シングルセルプロテオミクスへの適用検証が残された課題である。
方法
本プロトコルは、Bioconductorで配布されているDEqMS Rパッケージを用いた統計解析手順を詳細に解説する。解析経路として、タンパク質レベルの定量出力から開始する「Procedure 1」(データ例として、Spectronautからエクスポートされた LFQ (label-free quantification: ラベルフリー定量) DIAデータを使用) と、ペプチドレベルの定量出力から開始して内部でタンパク質レベルへの集約を行う「Procedure 2」(データ例として、Proteome Discovererからエクスポートされた TMT (tandem mass tag) 10plex DDAデータを使用) の2つのワークフローを提示する。統計解析の核となるモデリングでは、線形モデルと経験的ベイズ法をベースとした統計手法を採用し、各タンパク質の定量に使用されたMS特徴量数 (ペプチド数、前駆体数、またはPSM数) に基づいて事前分散を動的に推定する。性能評価のため、大腸菌 (Escherichia coli) 、線虫 (Caenorhabditis elegans) 、およびヒト (Homo sapiens) 由来の HeLa 細胞株のプロテオームを異なる比率 (2:1:7のGroup A、および1:2:7のGroup B、各 n=3 replicates) で混合した3プロテオーム混合データセット (PXD038624) を用いてベンチマークテストを実施する。さらに、実世界の生物学的データとして、肺がん細胞株 NCI-H1944 (対照として A549 や H1299 などの他の肺がん細胞株への適用も可能) に対するインターフェロンガンマ (IFNγ) 刺激実験 (n=8 replicates) を行い、Orbitrap Exploris 480およびtimsTOF Proの2種類の質量分析計で測定したDIAデータを用いて、サンプルサイズ (n=3 から n=8 replicates) や効果量の違いが検出力に与える影響を検証する。統計的比較には Student t-test や one-way ANOVA などの標準的な統計手法との比較も含める。