Moving beyond the hazard ratio in quantifying the between-group difference in survival analysis

著者: Hajime Uno, Brian Claggett, Lu Tian, Eisuke Inoue, Paul Gallo, Toshio Miyata, Deborah Schrag, Masahiro Takeuchi, Yoshiaki Uyama, Lihui Zhao, Hicham Skali, Scott Solomon, Susanna Jacobus, Michael Hughes, Milton Packer, Lee-Jen Wei
Corresponding author: Lee-Jen Wei, PhD (Department of Biostatistics, Harvard School of Public Health, Boston, MA)
雑誌: Journal of Clinical Oncology
発行年: 2014
Epub日: 2014-06-30
Article種別: Special Article
PMID: 24982461

背景

時間-to-eventエンドポイントを用いる臨床試験において、2群間の差を定量化する標準指標としてハザード比 (HR) が広く用いられてきた。これはCONSORTガイドライン Uno et al. JClinOncol 2014 やCochrane Handbook Uno et al. JClinOncol 2014によって推奨される標準的な報告形式である。しかし、HRの算出に用いられるCox比例ハザード (PH) モデルは、ハザード比が時間にわたって一定であるというPH仮定を前提とする。このPH仮定には複数の根本的な問題点が指摘されてきた Uno et al. JClinOncol 2014。

第一に、PH仮定が成立しない場合、Coxモデルが推定するHRは真の平均ハザード比でも時間加重平均でもなく、その臨床的解釈は極めて困難となる。例えば、免疫チェックポイント阻害薬の遅延効果 (delayed treatment effect) や、治療効果が時間とともに変化しKaplan-Meier曲線が交差するような現代の腫瘍学試験では、PH仮定が破られる頻度が高く、HRに依存した統計解析の問題が顕在化している。このような状況下では、HRは治療効果を適切に要約できない可能性があり、これは先行研究においても議論されてきた課題である。

第二に、同一集団を対象とした2つの試験であっても、観察期間が異なれば異なるHR推定値が得られるという観察期間依存性が存在する。これは、HRが研究固有の追跡期間に依存するためであり、異なる試験間でHRを比較することが困難となる。この問題は、異なる試験デザインやフォローアップ期間を持つ研究間で治療効果を比較する際に、誤解を招く可能性がある。この点については、Kalbfleisch and Prentice (1981) や Struthers and Kalbfleisch (1986) もその限界を指摘している。

第三に、HRは絶対ハザードの文脈なしには「X%のリスク低減」という相対的な情報しか提供せず、具体的な「何ヶ月の生存延長か」といった臨床的利益への直接的な変換が困難である。例えば、HR 0.75という値は、絶対的なイベント発生率が低い場合と高い場合とで、臨床的な意味合いが大きく異なるにもかかわらず、HR単独ではその背景情報が不足している。さらに、イベント率が低い場合、大規模・長期試験であっても95%信頼区間 (CI) が広くなり、「情報が不十分」と誤解を招くことが指摘されている。これは、HR推定の精度がサンプルサイズではなく、観察されたイベント数に主に依存するためである。このような状況では、HRのみでは臨床的解釈が不十分であり、より多くの情報を提供できる指標が求められる。

これらの問題点から、HRは生存時間解析における群間差の定量化において、必ずしも堅牢で臨床的に解釈しやすい指標ではないことが明らかになってきた。特に、PH仮定の妥当性を評価するための従来の適合度検定（Schoenfeld残差や累積マルチンゲール残差に基づく検定など）は、イベント数が少ない場合には検出力が不足し、逆にイベント数が多い場合にはわずかな逸脱でもPH仮定を棄却してしまう可能性があるため、その解釈には注意が必要である。このような背景から、HRに代わる、より堅牢で臨床的に解釈可能なモデルフリーな代替指標の必要性が高まっている。これまでの生物統計学的議論ではHRの限界が指摘されてきたが、臨床研究コミュニティ全体への普及は十分ではなかったため、そのギャップを埋めることが本研究の目的である。

目的

本論文の目的は、ハザード比 (HR) が抱える上記の問題点、特に比例ハザード (PH) 仮定違反、観察期間依存性、および臨床的解釈の困難性を、3つの実際の癌臨床試験データを用いて具体的に例示することである。さらに、これらの問題に対する解決策として、PH仮定に依存しないモデルフリーな代替指標、すなわちt年生存率比、パーセンタイル比較、制限平均生存時間 (RMST)、および制限平均損失時間 (RMTL) の理論と実用性を、臨床研究コミュニティに向けて提示することを目指す。これにより、HRの限界を認識し、より適切で臨床的に意味のある群間差の定量化手法の採用を促進することを意図している。本研究は、HRの解釈が困難な状況において、よりロバストで直感的な指標を提供することで、臨床試験の結果報告と意思決定の質の向上に貢献することを目指す。

結果

骨髄腫 (ECOG E4A03) —PH仮定の質的違反シナリオ: この試験では、低用量デキサメタゾン群と高用量デキサメタゾン群の全体ハザード比 (HR) は0.87 (95% CI, 0.60-1.27, p=0.47) であり、統計的に有意な差は認められなかった。しかし、Kaplan-Meier (KM) 曲線 (Figure 1A) を視覚的に評価すると、追跡期間の後半を除いて低用量群が常に高用量群を上回っており、臨床的に意味のある差が存在する可能性が示唆された。非パラメトリックな時間依存HR推定 (Figure 1B) では、試験初期には低用量群のハザードが低いものの、試験中盤でHRが1.00を通過し、後期には高用量群が相対的に有利となるという、ハザード比の質的な交互作用が明確に示された。PH仮定の検定では、Schoenfeld残差に基づくP値が0.002、累積マルチンゲール残差に基づくP値が0.001であり、PH仮定が統計的に明確に棄却された。この結果は、全体HR=0.87が治療効果を適切に要約できていないことを示唆している。

モデルフリー指標を適用した結果は、HRとは異なる結論を導き出した。制限平均生存時間 (RMST) を用いた解析では、τ=40ヶ月の期間において、低用量群のRMSTは35.4ヶ月、高用量群は33.3ヶ月であった。RMST差は2.2ヶ月 (95% CI, 0.1-4.2)、RMST比は1.06 (95% CI, 1.00-1.13) であり、40ヶ月のフォローアップ期間において低用量群が全体的に有利であることが示された (Table 1)。このRMSTの比較は、「高用量群では40ヶ月の期間で平均33.3ヶ月生存する」という絶対的な背景情報も同時に提供するため、相対指標のみのHRよりも臨床的解釈が容易である。また、制限平均損失時間 (RMTL) 比は0.68 (95% CI, 0.47-0.98) であり、低用量群は高用量群と比較して40ヶ月の期間で32%少ない生存時間損失を経験したことを示唆している。さらに、10パーセンタイル生存時間差は10.9ヶ月 (95% CI, 2.6-19.1) であり、低用量群の20.3ヶ月に対し高用量群は9.5ヶ月と有意な差が認められた。24ヶ月生存率比は1.13 (95% CI, 1.03-1.23) であり、短期的な生存において低用量群が有意に有利であることが示された。これらのモデルフリー指標は、全体HRが有意でないにもかかわらず、低用量群の臨床的優位性を多角的に示し、PH仮定違反のある試験でHRのみを報告した場合の誤った「差なし」という解釈を修正する可能性を提示した。

NSCLC (Zukin) —PH仮定の量的違反かつ偽陰性検定シナリオ: この試験では、カルボプラチン+ペメトレキセド (CP) 併用療法群とペメトレキセド単剤療法群のHRは0.62 (95% CI, 0.46-0.83, p=0.001) であり、CP群の有意な優位性が示された。従来の解析では問題なく見える結果であったが、非パラメトリック時間依存HR推定 (Figure 2B) では、試験早期にCP群が有利であるものの、後期にはHRが1.0に近づくという量的な交互作用が明確に観察された。興味深いことに、PH仮定の検定であるSchoenfeld残差に基づくP値は0.43であり、PH仮定の棄却には至らなかった。これは、検定自体の検出力が限られているために偽陰性を呈する典型的な例であり、PH仮定の妥当性を判断する上で検定結果のみに依存することの危険性を示している。

代替指標を用いた解析では、中央値OS差は3.7ヶ月 (95% CI, 1.3-6.0) であった。RMST (τ=35ヶ月) では、CP群のRMSTは11.8ヶ月、単剤群は7.9ヶ月であり、RMST差は3.9ヶ月 (95% CI, 1.5-6.3, p=0.001)、RMST比は1.49 (95% CI, 1.17-1.91, p=0.001) と、CP群の有意な優位性が示された (Table 1)。これらの絶対値も同時に提示することで、「CP群では35ヶ月以内に平均11.8ヶ月の生存が期待される」という直感的な解釈が可能となる。RMTL比は0.86 (95% CI, 0.77-0.94) であり、CP群で14%少ない生存時間損失が認められた。24ヶ月生存率比は2.74 (95% CI, 1.09-6.93) であり、長期生存における相対的な差が顕著であることが示された。

大腸癌 (Allegra) —低イベント率で誤解を招くHR広CI シナリオ: この大規模長期試験 (n=2,678, 中央値フォローアップ4.9年) におけるmFOLFOX6+ベバシズマブ群とmFOLFOX6単独群のHRは0.95 (95% CI, 0.79-1.13, p=0.56) であった。大規模かつ長期の追跡にもかかわらず、HRの95% CIが広範である根本的な理由は、イベント率が低く、結果としてイベント数が少ないためである (統計的精度はサンプルサイズではなくイベント数に主に規定される)。HR解析だけを見ると、「情報が不十分で結論できない」と誤解されやすい状況であった。

しかし、モデルフリー指標を用いると異なる解釈が得られた。60ヶ月生存率差は+0.02 (95% CI, -0.02-0.05) であり、差がないという結論と同様であったが、差の上限が5%以内であることから、臨床的に意味のある差が小さいことを示唆している。RMST (τ=60ヶ月) では、ベバシズマブ+mFOLFOX6群のRMSTは54.9ヶ月、mFOLFOX6群も54.9ヶ月であり、RMST差は0.3ヶ月 (95% CI, -0.7-1.3)、RMST比は1.00 (95% CI, 0.99-1.02) と、非常に狭いCIで両群が高度に類似していることの強いエビデンスが提示された (Table 1)。この結果は、「60ヶ月以内で平均0.3ヶ月の差しかなく、その差は±1.3ヶ月の範囲内である」という解釈を可能にし、HRの広範なCIよりも臨床的に明確な情報を提供する。RMTL比は0.95 (95% CI, 0.78-1.16) であった (Table 1)。

これら3試験の横断的比較から、HRのみを見ると骨髄腫では「差なし」、NSCLCでは「37%ハザード低減」、大腸癌では「差なし」という解釈になるが、モデルフリー指標を用いることで、各シナリオにおける群間差の本質をより正確かつ臨床的に解釈可能な形で描写できることが示された。

考察/結論

本論文は、免疫療法や分子標的薬の登場によりPH仮定の破綻が常態化する現代の腫瘍臨床試験において、ハザード比 (HR) に代わるモデルフリーな代替指標への転換を提言した先駆的なSpecial Articleである。3つの異なる癌臨床試験データを用いて、「PH仮定不成立でHRは非有意だが実際には低用量が優れている骨髄腫のシナリオ」、「HRは有意だがPH仮定が不安定なNSCLCのシナリオ」、「大規模試験でHRのCIが広いが実際には両群が高度に類似している大腸癌のシナリオ」という、HRが問題を生じる3つの典型的かつ異なる状況を実データで示した点が本研究の独自性である。

先行研究との違い: これまでの生物統計学的議論 (Hernán 2010, Royston 2011など) はHRの限界を指摘してきたが、本論文はそれらの理論的議論を、臨床家向けの主要雑誌であるJournal of Clinical Oncology (JCO) で具体的な癌臨床試験データを用いて提示した点で、先行研究とは一線を画している。このアプローチにより、統計学の専門家だけでなく、広範な臨床研究コミュニティへの影響力を高めた。

新規性: 本研究で初めて、HRの限界を克服するための実用的なRソフトウェアパッケージ (surv2sampleComp、CRANで公開) を提供し、モデルフリー指標の推定と推論を容易にした。これにより、臨床研究者がこれらの代替指標を自身の研究に適用する際の障壁を大幅に低減したことは新規性である。このツールは、臨床研究におけるデータ解析の精度と解釈可能性を向上させる上で重要な役割を果たす。

臨床応用: 本知見は、臨床試験のデザイン、実施、および結果の解釈に重要な臨床的含意を持つ。第一に、試験設計段階で制限平均生存時間 (RMST) の制限時間τ (フォロー期間) を事前に指定し、RMSTを主要または副次エンドポイントとして登録することを推奨する。これにより、免疫療法試験 (例: IMpower150, CheckMate 227) など、HRの非一定性が予想される試験において、より適切で臨床的に解釈可能な治療効果の評価が可能となる。第二に、log-rank検定はPH仮定が成立しない場合に検出力が低下する可能性があるため、RMST差/比に基づく検定がよりロバストで安定した検出力を提供することが示唆される。これらの実践は、臨床現場での治療選択と患者ケアの最適化に貢献する。

残された課題: 今後の検討課題として、RMSTにおけるτの選択の恣意性が挙げられる。τは事前に指定されるべきであり、その変更は結果の解釈に影響を与えうる。また、異なるτで算出されたRMSTは直接比較できないため、試験横断的な比較が困難であるという制限も存在する。さらに、本論文発表時点では、これらのモデルフリー指標を広く利用するための統計ソフトへの実装普及が遅れていたが、本論文がその普及を加速させる一因となった。将来的には、τの最適な選択基準の確立や、異なるτ間での比較を可能にする方法論の開発が望まれる。

本論文の発表後、New England Journal of Medicineの統計ガイドライン (Harrington 2019) などでRMSTの積極的な活用が推奨され、欧州医薬品庁 (EMA) のガイダンスでも考慮すべき代替指標として言及されるに至っており、本論文の臨床統計学および医薬品開発への影響は極めて大きい。日本国内においても、厚生労働省や医薬品医療機器総合機構 (PMDA) が試験デザインにおけるRMSTの使用を容認する姿勢を示しており、著者にPMDA職員 (Uyama Y) が含まれる点も、本論文の政策的影響力を示唆している。

方法

本研究では、ハザード比の限界とモデルフリーな代替指標の有用性を実証するため、3つの異なる癌臨床試験データを用いた方法論解析を実施した。これらのデータは、PH仮定の質的違反、量的違反、および低イベント率によるHRの広範な信頼区間という、HRが問題を生じる典型的なシナリオを反映している。本研究はSpecial Articleとして、既存の臨床試験データを再解析する形式で実施された。

ECOG E4A03試験: 新規診断多発性骨髄腫患者を対象とした低用量デキサメタゾン群と高用量デキサメタゾン群の比較試験 (n=445)。222例が低用量群、223例が高用量群に割り付けられ、2008年11月まで追跡された。この試験データは、ハザード比が時間とともに質的に変化するシナリオを例示するために用いられた。この試験は、ランダム化比較試験 (RCT) としてデザインされ、全生存期間 (OS) を主要エンドポイントとしていた。
Zukin et al. JClinOncol 2013 NSCLC試験: 進行非小細胞肺癌 (NSCLC) でECOG PS 2の患者を対象に、ペメトレキセド単剤療法とカルボプラチン+ペメトレキセド (CP) 併用療法を比較したランダム化第III相試験 (n=205)。中央値フォローアップ期間は27.5ヶ月であった。この試験の個別生存時間データは公開されていないため、Guyotら (2012) が提案したアルゴリズムを用いて、公開されたKaplan-Meier (KM) 曲線とリスク数情報から再構築された。再構築後のHR推定値0.63 (95% CI, 0.47-0.84) は、原論文の報告値0.62 (95% CI, 0.46-0.83) とほぼ一致しており、データの忠実な再現が確認された。このデータは、ハザード比が時間とともに量的に変化するシナリオを例示するために用いられた。
Allegra et al. 大腸癌試験: Stage II-III大腸癌患者の術後補助療法として、mFOLFOX6単独療法とmFOLFOX6+ベバシズマブ併用療法を比較したランダム化試験 (n=2,678)。中央値フォローアップ期間は4.9年であった。この試験データも、公開されたKM曲線からGuyotらのアルゴリズムを用いて再構築された。このデータは、イベント率が低い大規模試験においてHRの信頼区間が広くなり、誤解を招く可能性があるシナリオを例示するために用いられた。

各試験データに対して、以下の解析が実施された。

時間依存HR推定: 非パラメトリック手法を用いて、ハザード比が時間とともにどのように変化するかを評価した。
PH仮定の検定: Schoenfeld残差および累積マルチンゲール残差に基づく適合度検定を実施し、PH仮定の妥当性を統計的に評価した。これらの検定は、Cox proportional hazardsモデルの仮定が満たされているかを確認するために用いられる標準的な統計手法である。
モデルフリー指標の推定: t年生存率比、パーセンタイル生存時間差/比、制限平均生存時間 (RMST) 差/比、および制限平均損失時間 (RMTL) 比を算出した。RMSTおよびRMTLの算出には、臨床的意義とデータの利用可能性を考慮して、適切な制限時間τ (例: 骨髄腫で40ヶ月、NSCLCで35ヶ月、大腸癌で60ヶ月) を設定した。このτの選択は、試験デザイン段階で事前に指定されるべき重要な要素である。
統計ソフトウェア: これらの推定および検定は、統計ソフトウェアRのsurv2sampleCompパッケージ (CRANで公開) を用いて実施された。このパッケージは、本論文の著者らによって開発され、モデルフリー指標の計算を容易にするものである。

これらの解析を通じて、HRの限界とモデルフリー指標の優位性を多角的に評価し、臨床研究における適切な群間差の定量化手法を提案した。

Research Wiki

エクスプローラー

Moving beyond the hazard ratio in quantifying the between-group difference in survival analysis

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク