- 著者: Jelena Čuklina, Chloe H Lee, Evan G Williams, Tatjana Sajic, Ben C Collins, María Rodríguez Martínez, Varun S Sharma, Fabian Wendt, Sandra Goetze, Gregory R Keele, Bernd Wollscheid, Ruedi Aebersold, Patrick G A Pedrioli
- Corresponding author: Ruedi Aebersold (ETH Zurich), Patrick G A Pedrioli (ETH Zurich)
- 雑誌: Molecular systems biology
- 発行年: 2021
- Epub日: 2021-08-01
- Article種別: Protocol
- PMID: 34432947
背景
質量分析 (mass spectrometry: MS) ベースのプロテオミクス技術は近年大きく進展し、データ依存的取得 (data-dependent acquisition: DDA)、データ独立的取得 (data-independent acquisition: DIA)、タンデム質量タグ (tandem mass tag: TMT) 等の多様な取得モードにより、数百から数千サンプル規模の大規模実験が可能になった。大規模なサンプルサイズは統計的検出力を向上させる一方で、サンプル調製バッチ、LC-MSラン順序、機器ドリフト、試薬ロット差、オペレーター間差、カラム劣化等の技術的因子に起因するバッチ効果 (技術的変動) が深刻な交絡因子となることが知られている。これらのバッチ効果は、真の生物学的シグナルをマスクし、誤った結論を導く可能性があるため、その適切な診断と補正は大規模オミクス研究において極めて重要である。
ゲノミクス分野では、2000年代後半からバッチ効果補正が広く議論されてきた。例えば、ComBat (Johnson et al. Biostatistics 2007 の経験的ベイズ法) や quantile normalization 等が開発され、マイクロアレイデータやRNA-seqデータにおいてその有効性が評価されてきた。特に、マイクロアレイ領域では、卵巣がん血清の SELDI-TOF (surface-enhanced laser desorption/ionization time-of-flight) パターン解析においてバッチ効果が臨床的診断に与える危険性が警告され、その重要性が広く認識された。さらに、ハイスループットデータにおけるバッチ効果の広範かつ重大な影響については、Leek et al. (2010) などの先行研究 (Leek et al. NatRevGenet 2010) でも詳細に議論されている。
しかし、プロテオミクス固有の課題への系統的対応はこれまで不足していた。その主な理由として、ペプチドからタンパク質への推定の不確実性、欠損値の非ランダムな発生パターン、MSシグナルドリフト、TMT特有の比率圧縮、および用語の混乱が挙げられる。これらの課題により、先行研究では、プロテオミクス固有のワークフローを実装可能なステップバイステップのプロトコルとして整理したチュートリアルが存在しないというギャップ、DDA/DIA/TMTの3つのモードにおけるバッチ効果への対応原則が統合されていないという課題、そして過剰補正と補正不足のトレードオフを判断するための診断基準が未確立であるという不足が指摘されていた。本研究は、これらの未解明な課題と方法論的不足を解消するために計画された。
目的
本研究の目的は、大規模プロテオミクス研究におけるバッチ効果の診断、正規化、補正のための段階的プロトコルを提示することである。具体的には、以下の5点を達成することを目指した。(1) 初期評価、正規化、診断、バッチ効果補正、品質管理からなる5段階ワークフローの体系化、(2) 各ステップに必要な機能を実装したR/Bioconductorパッケージ「proBatch」の公開とDockerコンテナの配布、(3) DDA × 2、DIA × 3を含む5つの大規模プロテオミクスデータセット (数百から数千サンプル規模) を用いたケーススタディによるプロトコルの有用性の実証、(4) DDA/DIA/TMT 各取得モード別に推奨されるアプローチの提示、(5) 実験デザイン段階からのランダム化およびブロッキング原則の標準化である。これにより、大規模プロテオミクス研究から信頼性の高い生物学的シグナルを抽出し、再現性の高い研究を促進するための堅牢かつ透明性の高いガイドラインとツールを提供することを目指した。
結果
プロテオミクス固有のバッチ効果源の体系化: プロテオミクスデータにおけるバッチ効果は、(1) MSシグナルドリフト、(2) ペプチドからタンパク質への推定の不確実性、(3) 欠損値のパターン、(4) TMT特有の課題、(5) バッチと交絡した生物学的グループデザインの5つの主要な要因に体系化された (Fig 2)。例えば、MSシグナルドリフトはLCカラムの劣化やMSイオン源の汚染により発生し、Aging mouse study (n=413 liver proteomes) では、100-200サンプルの注入後に20-40%の強度ドリフトが明確に観察された (Fig 2A)。また、ペプチドからタンパク質への推定の不確実性により、Aging mouse studyでは15-25%のタンパク質がバッチ依存的なペプチドサブセットに由来することが示された。欠損値はランダムではなく、バッチごとに5-20%の範囲で変動し、診断と補正を複雑にすることが確認された。
補正後における生物学的因子の支配的影響の実証: Aging mouse study (n=413 DIAサンプル) の未処理データにおけるPCAでは、PC1がラン順序と Pearson r=0.85 で強く相関し、PC2がバッチIDで層別化された。生物学的因子 (年齢) はPC3以降に隠蔽されていた (Fig 3A)。しかし、ステップ2 (quantile normalization) とステップ4 (ComBat補正) 後のPCAでは、PC1-2が年齢と相関 (r=0.6-0.7) し、バッチ効果が下位PCに追いやられ、生物学的シグナルが表面化した。同様の所見が、4つの追加ケーススタディ (DDA × 2、DIA × 2) でも再現性良く確認された。例えば、TMT mouse study (n=120 liver samples) (Fig 4A) では、補正前のPCAでTMTバッチによる強いクラスタリングが見られたが、補正後にはこの影響が大幅に低減され、生物学的変数がより明確になった。Bariatric surgery study (n=68 lymph samples) では、液体処理ロボットが主要な離散的バイアス源であり、ComBat補正によりその影響が低減された (Fig EV4A)。
データタイプ別推奨アプローチの提示: DDAデータでは、ラン順序に起因する系統的ドリフト補正が最も重要であり、quantile normalizationとComBatが有効である。DDAデータでは欠損値が比較的多い (20-40%) 傾向があるため、欠損値処理の選択も重要となる。DIAデータはDDAと比較してより安定した定量が可能であり、median centeringと線形モデリングで十分な場合が多い。DIAデータは欠損値が少ない (5-15%) 傾向がある。Aging mouse study (Fig 5) では、MSシグナルドリフトに対して LOESS フィッティングによる2段階補正が有効であった。TMTデータでは、チャネル内正規化が必須であり、バッチ間補正にはリファレンススタンダードを全バッチに含めてブリッジ補正を行うことが推奨される。TMT mouse study (Fig 4) では、TMTバッチが主要なバッチ効果として特定され、補正によりその影響が低減された。
補正後の生物学的シグナルの回復とpQTL検出感度の向上: Aging mouse studyにおいて、補正後のデータでは代表的な ACADS タンパク質のQTL (quantitative trait loci) が明確に分離され、アレル分離が改善されていることが示された (Fig 6A)。その結果、pQTL (protein quantitative trait loci) 検出感度が明らかに向上し、未処理データマトリックスでは255個の cis-pQTL が有意性閾値を通過したのに対し、バッチ効果調整後には追加で133個の cis-pQTL が検出された。これは、正規化後に100個、バッチ効果補正後にさらに33個の cis-pQTL が検出されたことに相当する。ペプチドレベルでは、未処理データで993個のペプチドレベルpQTLが検出され、正規化後に405個、バッチ効果補正後に352個の追加ペプチドが検出された。TMT mouse study (n=120 liver samples) でも同様に、正規化データで完全な測定値を持つ8,774個のペプチドのうち3,306個の cis-pepQTL が LOD >= 4 で検出され、TMTバッチ因子補正後にさらに109個の cis-pepQTL が検出された。
補正後のサンプルおよびペプチド相関の改善: Aging mouse studyのデータでは、補正前 (Fig 2B) と補正後 (Fig 6B) のサンプル相関分布が比較された。補正後には、バッチ内サンプル間の相関が、無関係なサンプル間の相関と比較してより明確に高くなり、レプリケート間の相関も強化された。同様に、Bariatric surgery study (n=68 lymph samples) でも、補正後にサンプル相関の改善が観察された。さらに、ボトムアッププロテオミクスに特有の品質管理として、ペプチド相関の評価が提案された。補正前は、無関係なペプチド間でも偽陽性の相関が見られたが、バッチ補正後には、無関係なペプチドの相関がゼロに近づくことが示された (Fig 6C, D)。これは、補正前には多くのペプチド相関が偽陽性であったことを示唆している。
考察/結論
本論文は、大規模プロテオミクス研究におけるバッチ効果の診断と補正に関する体系的なチュートリアルであり、プロテオミクスコミュニティにとって実用的なリファレンスとして機能する。R/Bioconductorパッケージ「proBatch」とDockerコンテナ、GitHubリポジトリの公開により、実装障壁を大きく低減した方法論的貢献である。
先行研究との違い: これまでのバッチ効果に関するレビューは、主にマイクロアレイ (Leek et al. NatRevGenet 2010) またはRNA-seqに焦点を当てており、プロテオミクス固有の課題は周辺的な扱いに留まっていた。本チュートリアルはこれらの先行研究と異なり、プロテオミクス特有の4つの課題 (ペプチド-タンパク質推定の不確実性、欠損値のパターン、MSシグナルドリフト、TMT比率圧縮) を専門的に分析し、ComBat (Johnson et al. Biostatistics 2007) 等のゲノミクス手法をプロテオミクスへ適切に適用する際の注意点を明示した点で対照的である。
新規性: 本研究で初めて、DDA/DIA/TMTの3つのモードを横断する5段階プロトコルを体系化し、R/Bioconductorパッケージ「proBatch」として新規な再現性のあるワークフローを公開した。また、実験デザイン段階から出版段階までの20項目以上のチェックリスト (Table 2) を提示し、これまで報告されていない包括的な標準化試案を確立した。
臨床応用: 大規模臨床プロテオミクスにおいて、バッチ効果の適切な制御はバイオマーカー探索の信頼性を担保するために不可欠である。本プロトコルを臨床現場のデータ解析に導入することで、施設間差や測定日時の違いによる技術的バイアスを排除し、真の疾患特異的シグナルを検出することが可能となる。これは、個別化医療や臨床診断におけるプロテオミクスデータの臨床的有用性を飛躍的に高めるものである。
残された課題: 今後の検討課題として、翻訳後修飾 (PTM) プロテオミクスや、アフィニティ精製、サイズ排除クロマトグラフィー (SEC) などのより複雑な前処理を伴うデータセットへの適応が挙げられる。これらの特殊なアプリケーションでは、サンプル間の不均一性がさらに高まるため、既存の正規化手法では過剰補正のリスクがあり、新たなアルゴリズムの開発が今後の課題として残されている。
方法
本研究では、大規模プロテオミクスデータにおけるバッチ効果の診断と補正のための体系的な5段階ワークフローを提示し、その実証のために5種類の既存データセット (DDA × 2、DIA × 3、数百から数千サンプル規模) を用いた。主要なケーススタディとして、約1,000サンプルを含む最大規模のAging mouse study (Williams et al. 2021) を用い、補補的に臨床コホート、細胞株パネル、組織アトラスのデータセットを活用した。本ワークフローの実装ツールチェーンとして、R/Bioconductorパッケージ「proBatch」およびDockerコンテナを公開し、解析の再現性を確保した。
5段階ワークフロー (Fig 1):
- 初期評価 (Initial assessment): PCA (principal component analysis) 、階層的クラスタリング、ヒートマップ、ペアワイズ相関行列を用いて、未処理データマトリックスにバッチ効果が存在するかどうかを判定した。
- 正規化 (Normalization): サンプル全体の調整により、全サンプルを共通のスケールに揃えた。手法選択の原則として、サンプル組成が類似している場合に有効な quantile normalization、異質なサンプルで安定性を示す median centering、および分散安定化変換を提示した。
- 正規化データにおけるバッチ効果の診断 (Diagnostics of batch effects in normalized data): PCA、階層的クラスタリング、PVCA (principal variance component analysis) を用いて、技術的因子が分散に寄与する程度を定量的に評価した。
- バッチ効果補正 (Batch effect correction): 特徴特異的に残存するバイアスを補正した。連続的なMSシグナルドリフトに対しては LOESS (locally estimated scatterplot smoothing) フィッティングを適用し、離散的なバッチ効果に対しては ComBat (Johnson et al. Biostatistics 2007)、線形モデリング、または median centering を推奨した。
- 補正後の品質管理 (Quality control after correction): 補正後のデータ品質の改善を評価した。PCAの再評価により、技術的因子によるクラスタリングが解消され、生物学的シグナルが表面化していることを確認した。
特徴レベル補正と統計検証: 補正はペプチドまたはフラグメントイオンレベルで実施することを推奨した。データは対数変換を前提とした。統計検証として、PCAの上位主成分の分散説明率を比較し、バッチ因子と生物学的因子の相関を Pearson/Spearman 相関係数で評価した。実験デザイン段階での交絡回避、リファレンスサンプルの配置、ランダム化されたラン順序、ブロッキングデザインの重要性を強調した。欠損値処理に関しては、imputation (k-NN、min-value、left-censored normal) の選択原則と落とし穴を提示し、imputationはバッチ補正後に行うか、可能な限り避けることを推奨した。本研究では、細胞株として HEK293 を用いたデータセットも解析に含めた。