G-computation, propensity score-based methods, and targeted maximum likelihood estimator for causal inference with different covariates sets: a comparative simulation study

著者: Chatton A, Le Borgne F, Leyrat C, Gillaizeau F, Rousseau C, Barbin L, Loisel D, Bretagne M, Giral M, Foucher Y
Corresponding author: Arthur Chatton; Yohann Foucher (INSERM UMR 1246 SPHERE, Université de Nantes, France)
雑誌: Scientific Reports
発行年: 2020
Epub日: 2020-10-22
Article種別: Original Article (Comparative Simulation Study with Real-Data Application)
PMID: 32514028

背景

観察研究は外的妥当性に優れる一方、処置群と対照群の非等価性に起因する交絡バイアスが治療効果推定を大きく歪める。傾向スコア (propensity score; PS) を用いた手法—逆確率加重 (inverse probability of treatment weighting; IPTW)・PS マッチング・層別化—は疫学・医学研究に広く普及してきたが (Austin 2011、Lunceford & Davidian 2004)、これら手法は周辺因果効果 (marginal causal effect) の推定に際して相当程度の方法論的ばらつきを示すことが報告されてきた。近年、アウトカムモデルを直接使用する G-computation (GC) や、PS モデルとアウトカムモデルの両者を利用する DRE (doubly robust estimator; 二重頑健推定量) の代表格である Targeted Maximum Likelihood Estimator (TMLE) が代替選択肢として注目されている (Robins et al. 2000、van der Laan & Rubin 2006)。

これら手法を比較する研究は複数存在するが (Neugebauer & van der Laan 2005、Lendle et al. 2013、Colson et al. 2016)、いずれも重大な限界を内包していた。まず、GC を含めた全 4 手法の二値アウトカムに対する体系的な横断比較研究は非常に希少であり、特に ATT (average treatment effect on the treated; 治療群平均治療効果) を検討した研究はほとんど存在しなかった。より重要な問題として、これら手法に投入する「共変量セットの構成」—アウトカムモデルに関連する変数 (outcome set)・治療配分モデルに関連する変数 (treatment set)・両者の共通原因・全変数—がバイアスや分散に与える影響の体系的検討が不足しており、実務上きわめて重要な共変量選択の指針に gap in knowledge が生じていた。先行研究 (Brookhart et al. 2006) は傾向スコアモデルの共変量選択に焦点を当てていたが、GC やアウトカムモデルを含む手法への外挿可能性は手薄であった。

目的

GC・IPTW・Full Matching (FM)・TMLE の 4 手法を、4 種類の共変量セット (outcome set・treatment set・common set [共通原因変数]・entire set [全変数]) の条件下でモンテカルロシミュレーションにより比較し、バイアス・分散・統計的検出力・95%信頼区間 (CI) 被覆確率を評価すること。さらに 2 つの実臨床観察コホートへの適用を通じて、シミュレーション結果の実臨床妥当性を検証すること。

結果

収束性能とサンプルサイズ依存性: 収束困難は ATT 推定の小サンプル (n≤300) でのみ認められ、手法間で顕著な差を示した (Figure 2)。GC・IPTW・FM は n=100 でも収束率 ≥98% を維持した (GC vs TMLE: n=100 ATT 推定で ≥98% vs 約 92%)。TMLE は n=300 の ATT 推定で収束困難を経験し、n=100 では収束率が約 92% まで低下し他の 3 手法を大幅に下回った。帰無仮説シナリオも同様の傾向を示した。n=500 以上では全手法で実用上十分な収束率を達成した。この結果は、小サンプル研究において TMLE の収束安定性が GC・IPTW・FM より劣ることを示唆する。

共変量セットの影響 — Outcome set の優位性: 全手法を通じて、outcome set 使用時に最小バイアス・最小 MSE を達成した (Table 1、Table 2)。treatment set のみを使用した場合、特に IPTW と FM でバイアスが顕著に増大した。治療セットのみでの IPTW は VEB が極端に大きくなるシナリオがあり、例えば ATT 推定で n=100 では VEB=+183.3%、n=300 では VEB=+412.2% と保守的 95%CI (被覆確率 98.8%) が生じた (Table 1)。entire set は治療と無関係の変数 (L3, L6, L9 など) を含むため、バイアスを低減せずに統計的検出力を大幅に低下させた。TMLE の ATT 推定で entire set を使用した場合、被覆確率が 98.8% まで上昇し、over-conservative な推定となった (Table 1)。outcome set と common set は同等かわずかに outcome set が優れたパフォーマンスを示した。

G-computation の優位性 — 手法横断比較: 4 手法の中で GC が一貫して最低の MSE と安定したバイアス制御を示した。ATT 推定において GC の outcome set MSE は n=500 で 0.217、n=2,000 で 0.108 と縮小し、treatment set 使用時の MSE (n=500: 0.245、n=2,000: 0.122) を一貫して下回った (0.108 vs 0.122 at n=2,000; Table 1)。ATE 推定では n=2,000 の outcome set 条件で GC の MSE=0.085 と TMLE の MSE=0.088 を比較すると GC が全手法中最小 MSE を達成した (0.085 vs 0.088; Table 2)。FM は全 ATE 条件で VEB が-17.5%以下の反保守的 CI を示し (n=500、outcome set で最小)、変動性の高さが確認された。TMLE は二重頑健性 (doubly robust property) を示すが—Q モデルまたは PS モデルの一方が正確であれば一致推定量—、両モデルが誤特定された条件下では GC より劣るパフォーマンスを示し、TMLE の保護範囲に実践上の限界があることが示された。GC の低分散特性は複数の先行研究 (Lendle et al. 2013、Colson et al. 2016) と一致した。

統計的検出力への影響: outcome set は GC に最高の検出力をもたらした。ATT 推定において n=2,000、GC・outcome set の検出力は 99.6%、treatment set では 98.6%、entire set では 93.6% と、outcome set が最高値を示した (Table 1)。ATE 推定でも同様の傾向を示し、GC・outcome set で n=2,000 時の検出力は 100.0% に達した (Table 2)。n=500 以上で理論 OR=2・処置率 50% の ATE 条件における検出力 80% 超を達成した。ATT 推定では治療患者のみを対象とするため、n=2,000 で全手法の outcome set 条件において検出力 95% 超を達成した。entire set 使用は全般に検出力の著しい低下を招き、GC・ATT では n=500 での検出力が outcome set 比で 64.5% vs 43.6% (treatment set) となり、治療と無関係な変数の追加コストが実証された (Table 1)。

実臨床コホートへの適用: 多発性硬化症コホート (n=629、女性 76.2%、平均年齢 37.0±9.6 歳) では、GC・IPTW・TMLE は共変量セットに依らず一致した結論を示した (Table 4)。フィンゴリモドはナタリズマブより 1 年再発率が高く、GC の outcome set で Natalizumab 約 20% vs Fingolimod 約 28%、OR [95%CI] 約 1.50-1.55 [1.02, 2.28] とフィンゴリモドの相対的効果不全が示された (Table 4)。この約 8% の絶対差は先行研究 (Barbin et al. 2016) と一致した。FM は結果の範囲が wider (OR 1.73-1.78) で一部の共変量で標準化差 10% 超の不均衡が残存した。一方、ICU コホート (n=252、平均年齢 47.4±17.4 歳) では、GC・TMLE のみが共変量セット不問でバルビツール酸の陰性効果 (unfavorable GOS 低減) を一貫して示した。GC outcome set: 処置群 81.1% vs 仮想非処置群 66.3%、logOR 0.778 [95%CI 0.201, 1.354]。TMLE outcome set: logOR 0.692 [95%CI 0.118, 1.266]。これに対し IPTW と FM は共変量セットにより結論が逆転するほど変動し (FM の OR 推定値幅: outcome set で 1.520 対 common set で 2.300)、シミュレーション結果と整合した不安定性を示した (Table 4)。

考察/結論

本シミュレーション研究の最も重要な結論は「手法の選択よりも共変量の選択が推定精度に大きく影響する」という点にある。とりわけ outcome set (アウトカムモデルに関連する変数) を優先的に含めることがバイアス低減に有効であり、GC はこの outcome set と組み合わせることで全シミュレーション条件において最低バイアス・最高検出力を示した。これは既報の傾向スコア法中心の共変量選択研究 (Brookhart et al. 2006) が治療セットの重要性を示唆した結果と対照的であり、アウトカムモデル変数の優位性を GC・DRE を含む 4 手法横断で体系的に確認した点で新規な知見である。本研究で初めて 4 手法×4 共変量セット×複数サンプルサイズの体系的比較が行われ、GC の robust な優位性が示されたことはこれまで報告されていない重要な成果である。

二重頑健推定量である TMLE が GC より劣るシナリオが存在したという知見は、DRE の理論的な robustness が実践条件では保証されないことを示し、Kang & Schafer (2007) の指摘を二値アウトカムで追認した。FM の高い VEB と反保守的 CI は King & Nielsen (2019) による PS マッチング法への批判と一致しており、FM の実践的選択に際して慎重な評価が必要であることを示している。entire set の使用は治療割付けと無関係な器具変数 (instrumental variable) を含むため、バイアスを低減せず検出力を著しく低下させるという反直観的な結果は、「利用可能な変数は全て投入すべき」という先入観に対する重要な警告となる。

臨床応用としての含意として、第一に前向き観察研究の計画段階でアウトカムに関連する交絡変数を優先的に収集することが推奨され、臨床現場における研究デザインに直接影響する。第二に、GC は RISCA パッケージとして R で実装されており (ATE・ATT 両推定、95%CI 付き)、臨床的意義のある観察研究で実践的に利用可能である。第三に、ICU コホートでの解析が示したように、IPTW・FM は複雑な交絡構造の実データで不安定であり、アウトカムモデリングに基づく GC の方が臨床的意義の高い結論をもたらす可能性がある。bench-to-bedside の観点から、GC を優先することで交絡調整精度を高めた比較有効性研究 (comparative effectiveness research) の実施が促進される。

残された課題として、本研究にはいくつかの重要な limitation がある。シミュレーション設定は線形二値アウトカム・測定誤差なし・基本的な交絡構造に限定されており、実データにおける高次元共変量・欠損データ・時間依存性共変量・測定誤差への一般化には更なる検討が必要である。また、連続アウトカム・生存時間データ (time-to-event)・多水準治療への拡張、および陽性性 (positivity) 仮定が不成立な状況での性能評価が今後の研究課題として残されている。さらに、改良型推定量 (IPTW の Williamson var 推定量・PS マッチングの Abadie-Imbens 推定量) や super learner を用いたデータ適応的手法との比較も将来研究の展望として挙げられており、outcome-adaptive LASSO などの変数選択法との組み合わせも検討に値する。

方法

モンテカルロシミュレーション研究。9 つの二値共変量として L1 (simulation covariate 1)・L2 (simulation covariate 2)・L3 (simulation covariate 3)・L4 (simulation covariate 4)・L5 (simulation covariate 5)・L6 (simulation covariate 6)・L7 (simulation covariate 7)・L8 (simulation covariate 8)・L9 (simulation covariate 9)、二値治療 A (binary treatment)、二値アウトカム Y (binary outcome) のデータ生成モデルを設計した (Figure 1)。各共変量は Bernoulli 分布 (Bernoulli distribution) に従い確率 p=0.5 で生成した。L1-L6 はアウトカムの原因 (outcome-related covariates)、L1・L2・L4・L5・L7・L8 は治療配分の原因 (treatment-related covariates)、L1・L2・L4・L5 は両者の共通原因 (common causes of treatment and outcome) として設定した。4 共変量セットを次のとおり定義した: outcome set (L1-L6)・treatment set (L1・L2・L4・L5・L7・L8)・common set (L1・L2・L4・L5)・entire set (L1-L9)。

平均治療効果 (average treatment effect; ATE) 推定では処置率 50%、ATT 推定では処置率 20% となるよう切片パラメータを設定した。条件下仮説 OR=2、帰無仮説 OR=0 の両シナリオを検討した。サンプルサイズはn=100, 300, 500, 2,000 の 4 水準とし、各シナリオで 10,000 データセットを生成した。評価指標は平均絶対バイアス、平均二乗誤差 (mean squared error; MSE)、分散推定バイアス (VEB)、95%CI 被覆確率、第一種過誤、統計的検出力とし、MSE を主要評価指標とした。未測定交絡因子の影響評価として L1 を意図的に除外した感度解析 (sensitivity analysis) も実施した。全解析に R 3.6.0 を使用し、有意水準は両側 α=0.05 に設定した。GC・IPTW・TMLE の各モデルでは、アウトカムモデルと傾向スコアモデルの推定にロジスティック回帰 (logistic regression) を適用した。性能指標の算出にはモンテカルロ法 (Monte Carlo method) に基づく 10,000 反復標本を使用し、各手法の分散推定バイアス (variance estimation bias; VEB) と 95%信頼区間 (CI) 被覆確率の評価には理論的分散推定量 (theoretical variance estimator) を用いた。

実データ検証として 2 コホートを使用した: (A) 多発性硬化症コホート OFSEP (www.ofsep.org、n=629)—ナタリズマブ (natalizumab) とフィンゴリモド (fingolimod) の 1 年再発率比較 (ATE 推定); (B) ICU コホート AtlanREA (www.atlanrea.org、n=252)—バルビツール酸 (barbiturates) 投与の 3 ヶ月機能転帰 [グラスゴー転帰スケール (Glasgow Outcome Scale; GOS)≤3 を不良転帰と定義] への影響 (ATT 推定)。共変量セットは各領域専門家の判断で定義し、PS 法には R パッケージ MatchIt (FM) と sandwich (IPTW 分散)、GC・TMLE には RISCA パッケージを使用した。連続変数には B-スプライン変換を適用した。

Research Wiki

エクスプローラー

G-computation, propensity score-based methods, and targeted maximum likelihood estimator for causal inference with different covariates sets: a comparative simulation study

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク