promor: a comprehensive R package for label-free proteomics data analysis and predictive modeling

著者: Chathurani Ranathunge, Sagar S. Patel, Lubna Pinky, Vanessa L. Correll, Shimin Chen, O. John Semmes, Robert K. Armstrong, C. Donald Combs, Julius O. Nyalwidhe
Corresponding author: Chathurani Ranathunge (Eastern Virginia Medical School, Norfolk, VA, USA)
雑誌: Bioinformatics advances
発行年: 2023
Epub日: 2023-03-07
Article種別: Original Article
PMID: 36922981

背景

質量分析 (MS; mass spectrometry) ベースのプロテオミクスにおいて、ラベルフリー定量 (LFQ; label-free quantification) は、ハイスループットかつ簡便な手法として広く用いられている。タンパク質の同定および定量には MaxQuant などのソフトウェアが標準的に使用されているが、その出力データの下流解析には高度な統計処理や前処理が必要であり、プロテオミクス未経験の研究者にとって大きな障壁となっている。この課題を解決するため、Perseus などの GUI (graphical user interface) ツールや、LFQ-Analyst などのウェブプラットフォームが開発されてきた。しかし、GUIベースのツールは解析手順の保存や再現が困難であり、研究の標準化において限界がある。一方、MSstats や DEP (Differential Expression of Proteomics) などのRパッケージは、高い再現性と柔軟性を提供するものの、差次的発現解析の実行に留まっており、その後のバイオマーカー探索に不可欠な機械学習 (ML; machine learning) モデルの構築までを一気通貫でサポートする機能が不足している。近年、プロテオミクスデータから疾患の予後や診断を予測するMLモデルの構築が急速に普及しているが、差次的発現解析から予測モデル構築へとシームレスに移行できる包括的なツールはこれまで存在せず、解析ワークフローにおける大きな gap が残されている。

先行研究において、Tyanova et al. (2016a) は MaxQuant を、Tyanova et al. (2016b) は Perseus を開発し、プロテオミクス解析の基盤を築いた。また、Cox et al. (2014) は MaxLFQ アルゴリズムを提唱し、定量精度を向上させた。しかし、これらのツール群を用いても、差次的発現解析から予測モデル構築へシームレスに移行する機能が不足しているという課題が残されている。特に、臨床検体を用いたバイオマーカー探索においては、同定された候補タンパク質群から最適な予測モデルを迅速に構築し、その予測精度を検証するプロセスが極めて重要であるが、既存のパイプラインでは複数の異なるプラットフォームや言語を跨ぐ必要があり、データの移行ミスや再現性の低下を招く要因となっていた。このように、プロテオミクスデータ解析における前処理から高度な機械学習モデリングまでをシームレスに繋ぐ包括的なツールの開発は、依然として未開拓の領域であり、研究効率の向上を阻む大きなボトルネック（knowledge gap）となっていた。

目的

本研究の目的は、ラベルフリープロテオミクスデータの前処理、品質管理、欠損値補完、正規化、差次的発現解析から、上位の候補タンパク質を用いたMLベースの予測モデル構築および評価までを、単一の再現可能なワークフローで実行可能なオープンソースのRパッケージ「promor」を開発することである。さらに、既存の標準的解析プラットフォームであるPerseusとのベンチマーク比較を通じてその信頼性を検証するとともに、実際のCOVID-19 (coronavirus disease 2019) 患者の重症度分類データセットへ適用することで、臨床バイオマーカー研究における実用性と予測モデル構築の有用性を実証することを目的とする。また、技術的レプリケートの処理能力を検証し、複雑な実験デザインにおけるノイズ低減効果を明らかにすることも目的の一部である。これにより、プロテオミクスデータの解析からバイオマーカー候補の選定、および予測モデルの構築に至る一連のプロセスを自動化・標準化し、研究者が直感的に高度な機械学習モデルを利用できる環境を提供することを目指す。

結果

前処理から機械学習モデリングまでを統合したシームレスなワークフローの構築: promorは、ラベルフリープロテオミクスデータの前処理から予測モデル構築までをカバーする19個 of 関数を提供する (Table 1)。データ解析フェーズでは、contaminantタンパク質の除去やlog2変換を行う create_df、技術的レプリケートを平均化する aver_techreps、グループごとの欠損値割合に基づいてフィルタリングを行う filterbygroup_na (デフォルトで欠損率 >34% を除外)、minProb法による欠損値補完を行う impute_na、quantile正規化を行う normalize_data、およびlimmaを用いた差次的発現解析を行う find_dep (デフォルトで log2FC 1.0 以上かつ adj. p<0.05) の6つの主要関数がシームレスに機能する (Fig 1)。モデリングフェーズでは、上位20個の差次的発現タンパク質を抽出し相関の高い特徴量を除去する pre_process、データをトレーニングとテストに分割する split_data、caretを介して200以上のアルゴリズムからモデルを訓練する train_models、およびテストデータで予測を行う test_models が提供される。これにより、従来は複数のツールを跨いで行う必要があった解析が、単一のRセッション内で完結する。

Perseusとのベンチマーク比較における極めて高い再現性の実証: Cox et al. (2014) のベンチマークデータセット (PRIDE ID: PXD000279) を用いて、promorと既存の標準的GUIツールであるPerseusの性能を比較した。promorを用いて前処理および差次的発現解析を行った結果、1294個の有意な差次的発現タンパク質が同定された。一方、Perseusを用いて同一のパラメータで解析した結果、1293個のタンパク質が同定された。両ツール間で同定されたタンパク質の重複率は 98.85% (1279/1294) と極めて高かった (Fig 2A)。非重複となったわずか15個のタンパク質は、欠損値補完時のランダムサンプリングに起因するものであり、系統的な差異ではないことが確認された。さらに、両ツール間で算出されたタンパク質の log2 fold change (log2FC) のピアソン相関係数は 0.9993 であり (Fig 2B)、log10 p値の相関係数は 0.9804 と極めて高い相関を示した (Fig 2C)。これにより、promorがGUIツールと同等以上の正確性を持ちつつ、コードベースによる高い再現性を提供できることが実証された。

COVID-19重症度データを用いた予測モデルの構築と高い予測精度の達成: Suvarna et al. (2021) のCOVID-19プロテオミクスデータセット (PRIDE ID: PXD022296) を用いて、promorの予測モデル構築パイプラインを検証した。差次的発現解析により抽出された8個のタンパク質特徴量 (n=8 features) を用い、35サンプルのうち70% (n=25 samples) を訓練データ、30% (n=10 samples) をテストデータとしてモデルを構築した。4つの機械学習アルゴリズム (rf, svmLinear, naive_bayes, knn) を用いて10-fold cross-validationを3回繰り返して評価した結果、ナイーブベイズ (naive_bayes) モデルが最も高い予測性能を示し、テストデータにおいて精度 (accuracy) 85.5% (95% CI 72.1-98.9%) および ROC 曲線下面積である AUC 88.9% (95% CI 75.4-100.0%) を達成した (Fig 1B)。また、各モデルの特徴量重要度は varimp_plot 関数によって可視化され、どのタンパク質が重症度予測に寄与しているかを直感的に把握することが可能であった。

技術的レプリケート平均化機能による複雑なデータ構造への対応: Ramond et al. (2015) の Francisella tularensis データセット (PRIDE ID: PXD001584) を用いて、技術的レプリケートが存在する複雑な実験デザインへの対応力を検証した。このデータセットは、野生型 (WT) と変異株 (D8D) の2条件において、生物学的3反復 (n=3 biological replicates) および技術的3反復 (n=3 technical replicates) の計18サンプル (n=18 replicates) から構成されている。promorの aver_techreps 関数を適用することで、技術的レプリケート間の強度を適切に平均化し、生物学的反復ごとのデータフレームへとシームレスに変換できた。この前処理により、技術的ノイズが低減され、各サンプルの発現強度の平均値および標準偏差 (mean ± SD) を算出することでデータの信頼性を担保し、その後の差次的発現解析において、より信頼性の高い |log2FC|>1.0 の発現変動タンパク質を同定することが可能となった。

論文投稿品質に対応する豊富な可視化機能の提供: promorは、解析の各ステップにおいて直感的なデータ理解を助ける10種類の可視化関数を搭載している (Table 1)。技術的レプリケート間の相関を示す corr_plot、欠損値の分布を可視化する heatmap_na、補完前後のデータ分布を比較する impute_plot、正規化の効果を確認する norm_plot、差次的発現タンパク質の熱マップを描く heatmap_de、火山図を作成する volcano_plot、特徴量の発現差を示す feature_plot、モデルの特徴量重要度を示す varimp_plot、モデル性能を比較する performance_plot、および予測力を示す roc_plot が含まれる (Fig 1C)。これらの図はすべてggplot2オブジェクトとして出力されるため、ユーザーによるカスタマイズが容易であり、カラーユニバーサルデザインに配慮した配色がデフォルトで採用されている。

考察/結論

先行研究との違い: 既存のプロテオミクス解析ツールであるPerseusやDEPなどのRパッケージと異なり、promorは差次的発現解析の実行に留まらず、その結果得られた上位候補タンパク質を用いて機械学習予測モデルを構築・評価するまでの全工程を単一の再現可能なワークフローとして統合している。PerseusなどのGUIツールでは解析パラメータの保存や自動化が困難であったが、promorはコードベースのRパッケージであるため、解析の再現性と透明性を完全に担保できる。

新規性: 本研究は、ラベルフリープロテオミクスデータの前処理、品質管理、欠損値補完、正規化、差次的発現解析、および機械学習モデリングをシームレスに結合した包括的なRパッケージを本研究で初めて開発・提供した。Perseusとのベンチマーク比較において98.85%という極めて高いタンパク質同定の一致率を示し、数値的な信頼性を担保しつつ、予測モデル構築機能を新規に実装した点が最大の強みである。

臨床応用: 本パッケージは、臨床バイオマーカー探索や個別化医療の研究において高い臨床的有用性および臨床的意義を発揮する。例えば、がんや感染症（COVID-19など）の患者プロテオームデータから、診断や予後予測に寄与する最小限のタンパク質パネルを同定し、高精度な予測モデルを迅速に構築することが可能である。これにより、基礎研究の成果を臨床現場での意思決定支援システムへとトランスレーショナルに繋ぐ架け橋となる。

残された課題: 本研究における今後の課題（limitation）として、現時点ではMaxQuantなどの特定の入力フォーマットに依存している部分があり、他のプロテオミクス解析ソフトウェア（DIA-NNやSpectronautなど）の出力に対する直接的なサポートの拡充が必要である。また、シングルセルプロテオミクスのような極小サンプルデータへの適応や、ゲノミクス・トランスクリプトミクスといったマルチオミクスデータとの統合解析機能の追加が、今後の重要な研究方向性として挙げられる。

結論: promorは、ラベルフリープロテオミクスデータの差次的発現解析から機械学習予測モデル構築までをシームレスに実行可能な、初の包括的かつ再現性の高いRパッケージである。ベンチマーク検証および臨床データへの適用を通じてその高い信頼性と実用性が実証されており、今後のバイオマーカー研究や臨床プロテオミクス分野の発展に大きく貢献することが期待される。

方法

promorはR (バージョン 3.5.0以上) で実装され、欠損値補完にはimputeLCMD、差次的発現解析には Ritchie et al. NucleicAcidsRes 2015 が開発したlimma、MLモデリングにはcaret、可視化にはggplot2をバックエンドとして利用する。入力データとして、MaxQuantが出力する「proteinGroups.txt」または標準的なタンパク質強度行列と、実験デザインを記述したテキストファイルを使用する。パッケージの検証のため、以下の2つのデータセットを用いた。

ベンチマーク検証: Cox et al. (2014) による HeLa 細胞および大腸菌 (Escherichia coli) の混合プロテオームデータセット (PRIDE (Proteomics Identifications Database) ID: PXD000279) を使用した。このデータセットは6サンプル (n=6 replicates) からなり、HeLa細胞由来のタンパク質と大腸菌由来のタンパク質が既知の比率で混合されている。promorとPerseusにおいて、同一の前処理条件 (minProb法による欠損値補完、およびlimmaによる moderated t-test (t検定)) を適用し、同定された差次的発現タンパク質の一致率を比較した。統計解析には、limmaによる moderated t-test を用いて、多重比較補正として Benjamini-Hochberg 法を適用した。
予測モデル構築検証: Suvarna et al. (2021) によるCOVID-19患者の重症度プロテオミクスデータセット (PRIDE ID: PXD022296) を使用した。サンプル数は35サンプル (n=35 samples) であり、差次的発現解析によって絞り込まれた8個のタンパク質特徴量 (n=8 features) を用いた。データをトレーニングデータ (70%, n=25 samples) とテストデータ (30%, n=10 samples) に分割し、ランダムフォレスト (rf)、サポートベクターマシン (svmLinear)、ナイーブベイズ (naive_bayes)、K近傍法 (knn) の4つのMLアルゴリズムを用いて予測モデルを構築した。モデルの評価には、10-fold cross-validation (10分割交差検証) を3回繰り返す手法を用いた。

また、技術的レプリケートの処理能力を検証するため、Ramond et al. (2015) の Francisella tularensis データセット (PRIDE ID: PXD001584) を用いて、技術的レプリケートの平均化関数 (aver_techreps) の動作検証を行った。このデータセットは、野生型 (WT; wild type) と変異株 (D8D) の2条件において、生物学的3反復 (n=3 biological replicates) および技術的3反復 (n=3 technical replicates) の計18サンプル (n=18 replicates) から構成されている。

統計的手法として、各群間のタンパク質発現強度の比較には limma パッケージによる moderated t-test を用い、有意水準は偽発見率 (FDR; false discovery rate) 5% 未満 (adjusted p<0.05) とした。また、予測モデルの性能評価指標として、精度 (accuracy)、Kappa統計量、および受信者動作特性 (ROC; receiver operating characteristic) 曲線下面積 (AUC; area under the curve) を算出した。

Research Wiki

エクスプローラー

promor: a comprehensive R package for label-free proteomics data analysis and predictive modeling

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク