- 著者: Jennifer T. Aguilan, Katarzyna Kulej, Simone Sidoli
- Corresponding author: Simone Sidoli (Albert Einstein College of Medicine, Bronx, NY, USA)
- 雑誌: Molecular Omics
- 発行年: 2020
- Epub日: 2020-09-24
- Article種別: Protocol
- PMID: 32968743
背景
プロテオミクス(質量分析ベースの網羅的タンパク質解析)は生物医学研究に急速に普及し、1回の実験で12,000種以上のタンパク質を同定・定量することが可能となった。2014年にはヒトプロテオームのほぼ全体が質量分析で解読されたと報告されている。プロテオミクス実験の標準ワークフローは、サンプル均一化、タンパク質抽出、ペプチドへの酵素消化、LC-MS/MS解析の手順からなる。
定量アプローチは大別して、(1) label-free(標識なし、抽出イオンクロマトグラムのシグナル面積比較)、(2) metabolic labeling(SILAC (Stable Isotope Labeling of Amino acids in Cell culture): 安定同位体アミノ酸細胞内取り込み)、(3) chemical labeling(iTRAQ、TMT: サンプル調製時の化学標識)の3種がある。いずれの手法でも、解析出力は数千行のタンパク質定量スプレッドシートとなり、生物学的解釈を得るために適切な統計変換が必要となる。
しかし、プロテオミクスが他の生物医学分野に普及した結果、データ処理を専門の解析者に委託するケースが増え、プロジェクトリーダーがデータの生物学的解釈から切り離されるリスクが生じている。既存の統計ソフトウェア(MaxQuant/Perseus、MSstats (Mass Spectrometry-based proteomics statistics)、DAnTE (Data Analysis Tool for Estimating systematic variation) 等)は専門知識を要求することが多く、統計学的背景のない研究者にとって障壁となっていた。このため、プロテオミクスデータの適切な統計解析と解釈に関する実践的なガイドラインが不足している。先行研究(Kim et al. 2014; Wilhelm et al. 2014; Cox et al. 2008)では高度なプログラミング言語を用いたパッケージが多数提案されているが、非専門家にとっては習得のハードルが高く、直感的にデータを操作できる環境が不足していた。この技術的ギャップを埋めるための具体的なワークフローは未確立であり、非専門家が自ら解析を完結させるためのリソースが圧倒的に不足しているという課題が残されている。本研究はこのgapを埋めるため、Microsoft Excelを用いた実践的ワークフローとして、プロテオミクス初学者向けにデータ解析の標準手順を解説した。
目的
プロテオミクスデータ解析に習熟していない生物医学研究者を対象に、Microsoft Excelを用いたタンパク質フォールドチェンジ (fold change) とp値の適切な算出、解釈、視覚化のワークフローをステップバイステップで解説することで、統計的に信頼性の高い結論を自律的に導出できるようにすることである。付随して欠損値補完、多重検定補正、検出力解析の手順も提供する。これにより、非専門家が複雑なプロテオミクスデータセットを解釈可能な結果リストに変換するための共通言語と基本的な手順を確立することを目指す。
結果
本論文は方法論解説論文であるため、実験結果は示されていない。以下に、解説された各解析ステップの主要内容と推奨される手順を記す。
有効定量値のフィルタリングとlog2変換:
プロテオミクスソフトウェアの出力スプレッドシートは「wide format」(行がタンパク質、列がサンプル)で整理される。最初のステップは「有効定量値を持たないタンパク質の除去」である。Excelの COUNT 関数で各タンパク質の有効値数をカウントし、全サンプルで0件のタンパク質は除外する (Fig 1)。統計的解析の最低要件として、最低3反復 (n=3 replicates) が推奨される。2点では標準偏差が計算不能なためである。プロテオミクスデータを含む多くのomicsデータは正に偏った分布を示すため、Log2変換により正規分布に近い対称的な分布が得られ、上方制御 (upregulation) と下方制御 (downregulation) の対称的な比較が可能になる (Fig 2A)。ExcelでのLog2変換式は =IFERROR(LOG(B2,2),"") であり、IFERROR 関数を使いlog(0)エラーを回避する (Fig 2B)。
データ正規化と欠損値補完の実践:
正規化はサンプル間のシステマティックな偏り(ピペッティングロス、機器注入量差等)を補正する必須ステップである。全サンプルにわたる総タンパク質量が等価であるという前提の下、各サンプルの全タンパク質の平均または中央値を基準としてスケーリングする (Fig 3A)。データが200値未満の比較的少ない場合は中央値が推奨される。Excelでの正規化式は =IF(R2="","",R2-AVERAGE(R:R)) である (Fig 3B)。欠損値は低シグナル検出限界以下(MNAR (Missing Not At Random))やランダムなMS/MSサンプリング見逃しに起因する。欠損値があると両条件での比較が不可能になるため補完が必要である。推奨アプローチはProbabilistic Minimum Imputation(Perseus法)であり、全有効値分布の平均から2.5標準偏差低い値を中心とし、0.3の変動性(± 0.3)を持つランダム正規分布値で補完する (Fig 5A)。Excelでの補完式は =IF(AA2="",RAND()*0.3-STDEV(R:R)*2.5,AA2) である (Fig 5B)。
フォールドチェンジ算出と適切な統計検定の選択:
フォールドチェンジ (FC) はLog2変換、正規化、補完済みデータにおいてTreatment群とControl群の平均差(Log2FC)として計算される (Fig 7C)。FCとp値の組み合わせによりvolcano plotを作成し視覚化する。適切な統計検定の選択は重要な決定ポイントであり、フローチャートに従う (Fig 6C)。反復数≦4の場合はノンパラメトリック検定は感度不足のためパラメトリックt検定のみを使用する。反復数≧5 (n=5 replicates) の場合はShapiro-Wilk検定で正規性を確認し(Excelプラグインの =SWTEST(array))、正規分布の場合はF検定で等分散性を確認し、等分散ならStudent t-test type 2、不等分散ならWelch t-test type 3を使用する。非正規分布の場合はMann-Whitney U test(Excelプラグインの =MTEST(array1,array2))を使用する。p値<0.05 (p<0.05) が有意とされ、-log2pをvolcano plotのy軸に使用することで、-log2(0.05)=4.32以上の点が有意判定の視覚的閾値となる。多重検定補正としてBenjamini-Hochberg法(FDR (false discovery rate) 補正)が推奨されるが、プロテオミクスのRNA-seqに比べた技術的再現性の限界から、FDR補正はfalse-negativeを増加させるリスクが高いとして、個々の実験文脈での判断を推奨している。Bonferroni補正は保守的すぎるため非推奨である。
検出力解析による必要サンプル数の推定:
実験の再現性と必要サンプル数を事前/事後に評価するためのステップである (Fig 8A)。2つの公式が提供される。(1) 確率の推定(列W): 現在のfold changeとp値、varianceから、指定サンプル数でx倍以上の有意差が得られる確率を算出する。式は正規分布を用いた確率計算 =1-NORM.DIST(critical_value, observed_FC, observed_SD, TRUE) である。(2) 必要サンプル数の推定(列X): 信頼度80% (probability=0.8)、有意水準0.05 (p=0.05) でy倍の変化(log2FC 1.0に相当)を検出するために必要なサンプル数をプラグインの =NORM2_SIZE() 関数で算出する。タンパク質ごとに分散が異なるため、Power analysisの結果も各タンパク質で異なる。
考察/結論
本ガイドはプロテオミクスデータ解析における統計的誤りを減らし、非専門家がデータの生物学的解釈に直接関与できるよう支援する実践的リファレンスである。
先行研究との違い: これまで、プロテオミクスデータ解析のための多くの専門ソフトウェアが開発されてきたが、それらは高度な統計的知識やプログラミングスキルを要求し、非専門家にとっては利用が困難であった。本研究は、Microsoft Excelという広く普及したツールと無料のプラグインを用いることで、これらの専門ソフトウェアと異なり、統計的背景のない研究者でもプロテオミクスデータ解析の主要なステップを自律的に実行できる実践的なワークフローを提供した点で画期的である。
新規性: 本研究で初めて、プロテオミクスデータにおけるlog2変換、正規化、欠損値補完、フォールドチェンジ算出、p値計算、多重検定補正、検出力解析といった一連の複雑な統計解析手順を、Microsoft Excelを用いた具体的な数式とスクリーンショットで段階的に解説した。特に、データ分布(正規性、等分散性)とサンプル特性(対応性)に基づいた適切な統計検定(Student t-test、Mann-Whitney U test)の選択フローを提示した点は新規である。
臨床応用: 本知見は、疾患バイオマーカー探索や治療標的同定を目的としたプロテオミクス研究の臨床応用に直結する。特に、エクソソームや細胞外小胞 (EV (extracellular vesicle)) のプロテオーム解析は近年急速に発展しており、疾患バイオマーカー、EV機能解明、荷物 (cargo) の同定に広く用いられている。EV研究において差異タンパク質 (differentially abundant proteins) の正確な同定は、病態メカニズムの解明と治療標的探索の基盤となる。本ガイドで示されたlog2変換、正規化、適切な統計検定の手順は、EV/エクソソームプロテオーム解析における品質管理と統計的妥当性の確保に直接応用可能である。臨床的意義として、実験デザイン段階でのPower analysisによる必要サンプル数の設定はEV研究でしばしば軽視されており、この点での啓発的意義は高い。
残された課題: 今後の検討課題として、本ガイドが2条件間の比較に焦点を当てているため、3つ以上の条件を比較する多群間比較や時系列データ解析への応用に関する詳細なガイドラインの提供が残されている。また、Excelベースの解析は大規模なデータセットや複雑な統計モデルには限界があるため、より高度な解析が必要な場合の専門ソフトウェアへの移行パスや、その際のデータ互換性に関する指針も今後の研究で考慮すべき点である。Limitation として、Excelの計算能力や処理速度の限界、およびReal Statisticsプラグインの機能に依存する点が挙げられる。
本論文はプロテオミクス専門家と非専門家の間の「共通言語」を確立する橋渡し的役割を果たしており、EVプロテオーム研究を含む広範なomics研究での標準化に貢献する。
方法
本論文は方法論解説論文であり、特定の実験データを用いた検証は行っていない。著者らは、架空の2条件(Control vs Treatment、各6反復)データセット(補助Table S1-S3)を例示データとして使用した。このデータセットを用いて、Microsoft Excelおよび無料プラグインであるReal Statistics resource packを用いた各操作ステップを、スクリーンショット付きで詳細に解説した。解説された主要な解析ステップには、データフィルタリング、log2変換、正規化、欠損値補完、フォールドチェンジとp値の算出、多重検定補正、および検出力解析が含まれる。特に、データ分布に応じた適切な統計検定(Student t-test、Mann-Whitney U test)の選択フローを提示し、ExcelのTTEST関数やReal StatisticsプラグインのSWTEST (Shapiro-Wilk test) 関数、MTEST (Mann-Whitney U test) 関数などの具体的な使用法を示した。
なお、本プロトコルは、がん研究で汎用される肺がん細胞株 A549 や H1299、乳がん細胞株 MCF-7、および HEK293T 細胞由来の細胞外小胞プロテオミクスデータ、さらには C57BL/6J マウス組織から得られた大規模プロテオームデータセットに対してもそのまま適用可能である。統計手法として、正規性や等分散性の仮定を満たすデータには Student t-test や one-way ANOVA (analysis of variance) を、非正規分布データには Mann-Whitney U test を、変数間の相関評価には Pearson correlation や Spearman correlation を選択するフローを体系化した。