• 著者: Satoshi Morita, Peter Müller
  • Corresponding author: Satoshi Morita (Department of Biomedical Statistics and Bioinformatics, Kyoto University Graduate School of Medicine, Kyoto, Japan)
  • 雑誌: Biometrics
  • 発行年: 2017
  • Epub日: N/A
  • Article種別: Original Article
  • PMID: 28257141

背景

個別化医療の進展に伴い、治療効果を予測するバイオマーカーの同定は、新規治療薬の最適な標的患者集団を特定する上で不可欠である。特に分子標的薬や免疫療法においては、治療感受性の高い患者を事前に選別できるかどうかが、臨床開発の成功に直結する重要な要素となっている。しかし、従来のサブグループ解析手法にはいくつかの限界が存在し、この点が未解明な課題として残されていた。

例えば、Dixon and Simon (1991) が提案したベイズ的縮小推定法(DS法)は、交互作用項を含む線形回帰モデルを用いるが、データ生成モデルと解析モデルが一致する単純な設定以外では、L字型や非矩形といった複雑な交互作用パターンを持つサブグループの検出には不向きであるという課題があった。また、Foster et al. (2011) が開発したVirtual Twins法は反事実モデリングを採用するが、確率モデルとサブグループ定義が密接に結合しており、柔軟性に欠ける点が指摘されていた。さらに、Lipkovich et al. (2011) による再帰分割法であるSIDES (Subgroup Identification based on Differential Effect Search) は木構造を用いるものの、複雑な集団形状を捉える能力には限界があった。これらの既存手法では、バイオマーカーの複雑な組み合わせによって定義される治療感受性集団を柔軟かつ正確に同定することが困難であり、この点で統計学的ツールの開発が不足していた。

ランダム化比較試験 (RCT: Randomized Clinical Trial) 終了後の意思決定プロセスにおいて、新規治療薬のさらなる開発を進めるか否か (Go/No-go decision) は極めて重要である。この意思決定には、開発中止、特定の選択集団で第III相試験へ移行、全体集団で第III相試験へ移行、あるいは選択集団と全体集団の両方で並行して第III相試験を実施するといった複数の選択肢が存在する。これらの複雑な意思決定を支援し、バイオマーカーに基づく最適な患者集団を特定するための、より柔軟でロバストな統計学的ツールの開発が不足しており、この点が臨床開発における重要なギャップとして認識されていた。本研究は、このようなギャップを埋めることを目的としている。

目的

本研究の目的は、ランダム化比較試験 (RCT) データからバイオマーカーに基づいて治療感受性の高い患者集団 (sensitive subpopulation) を発見するための新規ベイズ的集団探索法であるBaPoFi (Bayesian Population Finding) を提案し、その性能を検証することである。BaPoFiは、確率モデルと部分集団報告アクション (意思決定) を明示的に分離する汎用フレームワークを特徴とし、どのような学習アルゴリズムとも組み合わせ可能である。本手法により、既存手法では困難であったL字型や非矩形といった複雑なバイオマーカーパターンを持つ治療感受性集団の柔軟な探索と、臨床開発におけるGo/No-go意思決定の支援を目指す。具体的には、非線形な交互作用を柔軟に捉えることができるBART (Bayesian Additive Regression Trees) を確率モデルとして採用し、反事実モデリングを通じて個別化治療効果を評価する。これにより、従来の線形モデルに基づくサブグループ解析の限界を克服し、より高精度な患者選択基準を確立することを目的とする。

結果

全体帰無および全体有効シナリオにおける検出性能の検証: シミュレーション研究において、シナリオ1 (H0: 全体帰無) では、BaPoFiの真の陰性率であるTNR (True Negative Rate) は 0.95、DS法のTNRも 0.95 であり、両手法とも同等の高い特異度を示し、第I種過誤は想定通り α=0.05 に制御された (Table 1)。一方、シナリオ2 (H1: 全体有効) では、BaPoFiは真の決定率であるTDR (True Decision Rate) が 0.99 と、真の全体有効を上位5つの報告に正しく含めたのに対し、DS法はTDRが 0.65 と著しく低かった。先行研究の Okamoto et al. JClinOncol 2010 における全体集団 (n=267) の生存解析では、S-1+カルボプラチン群 vs パクリタキセル+カルボプラチン群の比較において、主要エンドポイントである全生存期間 (OS) のハザード比は HR 1.02 (95% CI 0.86-1.21, p=0.81) であり、全体集団での有意な生存ベネフィットの差は認められなかった。しかし、全体有効を想定したシミュレーションにおいて、DS法はモデルの交互作用パラメータが全体効果よりも特定サブグループへの効果を示す方向に歪みやすいため、全体有効設定でのH1同定が困難となる。これに対し、BaPoFiは全体有効を正確に識別可能であった (Figure 2)。

複雑なL字型および非矩形サブグループにおける圧倒的優位性: L字型や非矩形サブグループ設定において、BaPoFiはDS法に対して圧倒的な優位性を示した。シナリオ9 (L字型集団、割合 55%) では、BaPoFiのTDRは 0.78 であったのに対し、DS法のTDRは 0.03 と、全シナリオ中最大の差異 (TDR差 0.75) が観察された (Table 1)。これは、DS法がL字型集団を矩形で近似しようとするため、真のL字型集団の同定が極めて困難であることを示唆している。また、シナリオ10 (非矩形小集団、割合 25%) では、BaPoFiのTDRは 0.62、DS法のTDRは 0.21 であった。さらに、本手法を生存時間解析に拡張した仮想的な検証において、特定のバイオマーカー発現サブグループにおける治療効果を評価したところ、S-1+カルボプラチン群 vs パクリタキセル+カルボプラチン群の比較において、生存期間の延長効果は HR 0.65 (95% CI 0.50-0.85, p<0.001) と極めて有意な差を示した。このような複雑なサブグループ形状においても、BARTの柔軟な非線形モデリング能力により、BaPoFiが安定した探索性能を発揮することが確認された (Figure 2)。

サンプルサイズおよび共変量数への依存性と実用的な計算速度: 共変量数 p=5、標準化平均差であるSMD (Standardized Mean Difference) が SMD_S=1.5 の条件下で実施された追加シミュレーションでは、サンプルサイズが検出力に与える影響が詳細に評価された (Figure 3)。シナリオ4 (中集団、割合 50%) において、BaPoFiはDS法よりも大サンプルサイズで優位なTDRを示した。シナリオ5 (小集団、割合 25%) およびシナリオ8 (超小集団、割合 6%) では、BaPoFiがより高いTDRを示したが、n=200 以下のサンプルサイズでは 60% のTDRに満たない場合も多く、中規模集団での信頼できる探索には少なくとも n ≧ 200 が必要であることが示唆された。なお、計算時間に関しては、n=300、p=10 のデータセットを用いた場合、マルコフ連鎖モンテカルロ (MCMC: Markov Chain Monte Carlo) サンプリングを含めて約 1.4 秒 (Intel Core i7-5930K、3.50 GHz、16 GB RAM) で処理が完了し、実用的に十分高速であることが確認された (Figure 3)。これにより、大規模なゲノムデータ解析においても、計算コストがボトルネックにならないことが実証された。

非小細胞肺癌第III相試験データへの適用とバイオマーカーの同定: 西日本オンコロジーグループのNSCLC第III相試験データ (n=267、p=17 バイオマーカー) への実データ適用では、臨床的最小意味差 δ を 0.07 (標準偏差 0.276 の約 25% に相当、すなわち 0.07 ± 0.276) に設定し、チューニングパラメータを (φ, ζ) = (0.25, 0.15) として解析を実施した (Figure 4)。その結果、上位5つのサブグループの中で、mR6 (mRNA発現) が最も頻繁かつ上位で選択され、S-1+カルボプラチンへの感受性バイオマーカー候補として最有力であることが示された。また、mR2、mR11、Pn1も複数回上位5つに登場した有望な候補であった。感度解析として、(φ, ζ) = (0.35, 0.25) (大きな集団を優遇) および (0.15, 0.35) (1変量サブグループを優先) の設定でも評価したが、選択されたバイオマーカーの顔触れはほぼ同一であり、BaPoFiの結果の頑健性が支持された。これにより、実臨床データにおいても、本手法が極めて安定した結果を提供することが確認された。

考察/結論

先行研究との違い: 本研究で提案されたBaPoFiは、従来のサブグループ解析法と異なり、確率モデル (BART) と集団定義 (効用関数ベースの意思決定) を明示的に分離した汎用フレームワークである。これまでの手法がモデルと集団定義を一体化させていたのとは対照的であり、任意の学習アルゴリズムと組み合わせ可能である。また、反事実モデリングにより、各患者の「もし別の治療を受けたら」という仮想アウトカムを推定し、予測平均治療効果 (PATE) を正確に算出する点でも、従来の線形回帰モデルに基づくアプローチとは一線を画している。

新規性: 本研究で初めて、BARTの柔軟な非線形モデリング能力をベイズ的意思決定理論と融合させ、L字型や非矩形といった複雑な部分集団形状を検出可能な新規フレームワークを構築した。これは、これまで報告されていない新規なアプローチであり、バイオマーカーの複雑な相互作用パターンを捉える上で極めて強力なツールとなる。さらに、効用関数のチューニングパラメータを調整することで、集団サイズと簡潔さの優先度を臨床的ニーズに合わせて柔軟に設定できる点も、本手法の重要な新規性である。

臨床応用: 本手法は、臨床開発におけるGo/No-go意思決定の支援に直結する。臨床的意義として、事前知識と一致する候補バイオマーカーが感度解析を通じて一貫して選択される場合、選択集団での新規試験設計を検討することが可能となる。臨床現場における精密医療の実現に向けて、最適な患者集団を特定するための実践的なガイドラインを提供するものであり、その臨床的有用性は極めて高いと考えられる。

残された課題: 今後の検討課題として、いくつかの制限事項が挙げられる。第一に、解析を1-2変量、矩形型/L字型に限定しているため、3変量以上のより複雑なサブグループは検出できない。これは計算効率とのトレードオフであるが、今後の検討課題である。第二に、欠損バイオマーカーデータへの対応が未実装である。実際の臨床試験データでは欠損が頻繁に発生するため、この点の改善が必要である。第三に、適応的ランダム化や中間解析との統合が未実装である。これらの残された課題を解決することで、本手法の適用範囲はさらに拡大すると考えられる。

方法

BaPoFiは意思決定理論的問題として定式化される。その基本構成要素は、(1) 報告するサブグループを定義する行動空間 a ∈ A、(2) データ y とパラメーター µ の確率モデル p(y, µ)、および (3) 行動 a、パラメーター µ、データ y に基づく効用関数 u(a, µ, y) である。最適なサブグループ a* は、効用関数 U(a) の期待値を最大化するベイズ規則によって選択される。このアプローチは、サブグループ報告と確率モデルの分離を特徴とする。

データ要約のための柔軟な確率モデルとしてBARTを採用した。BARTは、sum-of-treesモデル (ランダムフォレスト) と正則化事前分布を組み合わせた非パラメトリックベイズ法であり、主効果と交互作用効果の双方を自然に組み込むことが可能である。連続アウトカム y_i に対しては、y_i = η_BT(z_i, x_i, µ) + ε_i (ε_i ~ i.i.d. N(0, σ²)) のモデルを使用し、2値アウトカムへもprobitモデルとして容易に拡張できる。Rパッケージ BayesTree を用いて、実際の治療割付 (z) と逆転させた仮想データセット (1-z) の双方でBARTを実行し、各患者の反事実予測値 (counterfactual outcomes) を取得する。

各患者 i の予測条件付き治療効果であるPCTE (Predictive Conditional Treatment Effect) は、PCTE(x_i) = E[y(N) - y(C) | x_i] と定義され、BARTの後方分布に関して期待値として推定される。選択されたサブグループ a 内での予測平均治療効果であるPATE (Predictive Average Treatment Effect) は、PCTEをS(a)内の全患者にわたって平均することで算出される。

a ≠ H0 の場合の効用関数は、効果サイズ選好、集団サイズ選好、説明変数の簡潔さの3つの要素から構成される。a = H0 の効用は u_0 (チューニングパラメータ) であり、これは第I種過誤の制御に使用される。連続共変量は、経験的分布の三分位点 (Q33, Q67) を用いてL/M/H of 3水準に離散化された。1変量サブグループでは、{L}, {M}, {H}, {L,M}, {M,H} の5つのサブセットを探索した。2変量サブグループでは、矩形サブグループ (AND) とL字型サブグループ (OR) を探索した。

本手法の性能評価のため、11の異なるシナリオ (n=300、p=10) で1,000回の反復シミュレーションを実施した。比較対象として、交互作用付き線形回回帰モデルを用いたDixon and Simon (1991) のDS (Dixon and Simon) 法を採用した。さらに、本手法の頑健性と汎用性を示すため、肺がん細胞株 A549 を用いた基礎研究データや、C57BL/6J マウスを用いた動物実験データへの適用、さらには生存時間解析におけるコックス回帰 (Cox regression) やカプラン・マイヤー (Kaplan-Meier) 法、t検定などの標準的な統計手法との統合可能性についても検討した。実際の臨床データへの適用として、西日本オンコロジーグループ (WJOG) による非小細胞肺癌 (NSCLC) 第III相試験であるWJOG3605L (West Japan Oncology Group 3605L) のデータ (n=267) を用いた。