• 著者: Kristine R. Broglio, Donald A. Berry
  • Corresponding author: Donald A. Berry (Department of Biostatistics, University of Texas M.D. Anderson Cancer Center, Houston, TX)
  • 雑誌: Journal of the National Cancer Institute
  • 発行年: 2009
  • Epub日: 2009-11-09
  • Article種別: Original Article (Statistical Simulation Study)
  • PMID: 19903805

背景

転移性がんの臨床試験において、主要エンドポイントとして無増悪生存期間 (PFS) と全生存期間 (OS) のどちらがより適切であるかについては、長年にわたり議論が続いている。PFSの改善が観察されてもOSの改善に結びつかない事例が複数の疾患および治療領域で報告されており、規制当局、研究者、患者団体の間で活発な議論が継続しているのが現状である (Albain 2008, Mayfield 2007, Allison 2008)。特に、転移性乳がんや前立腺がんなど、増悪後の救済療法が多岐にわたる疾患では、PFSの延長が必ずしもOSの延長に直結しないことが指摘されており、この関係性は依然としてcontroversialである (Chakravarty and Sridhara 2008)。

臨床試験のサンプルサイズ設計では、治療効果のハザード比が時間を通じて一定であるという比例ハザードの仮定が一般的に置かれる。しかし、疾患進行後には患者ごとに多様な後続治療が行われるため、この仮定が成立しなくなることが多い。転移性がん患者が増悪に達した後、同一レジメンの継続、対照群へのクロスオーバー、別の試験への参加、支持療法のみへの移行、あるいは無治療など、その後の治療戦略は非ランダム化であるため、その効果を比較することは不可能である。この増悪後の生存期間 (SPP: Survival PostProgression、すなわちOSからPFSを差し引いた期間) の変動が、真のOS利益を統計的に検出することをいかに困難にするかは、これまで定量的に示されていなかった点が課題として残されていた。特に、PFSの改善がOSの改善に繋がらないとされる状況において、SPPがその関係にどのように影響を及ぼすのかは未解明な点が多く、この知識ギャップを埋めることが喫緊の課題であった。

OS = PFS + SPP という分解フレームワークに基づき、SPP中央値の長さがPFS利益のOS転化確率、必要サンプルサイズ、およびPFS-OS相関係数に与える影響を数理シミュレーションによって定量化することが、本研究の主要な着眼点である。先行研究では、PFSとOSの相関関係が疾患によって異なることが示唆されているが (Buyse et al. 2007, Hackshaw et al. 2005)、その根本的なメカニズム、特にSPPの役割については十分な解析が不足していた。本研究は、この知識の不足を補完し、PFSがOSのサロゲートエンドポイントとして機能する条件をより明確にすることを目的とする。

目的

本研究は、シミュレーション研究を通じてPFSとOSの関係を以下の3つの観点から定量的に評価することを目的とする。第一に、臨床試験設計の観点から、PFS検出力80%の試験においてOSの統計的有意差が得られる確率とSPP中央値の関係、およびOSを主要エンドポイントとする場合に必要となるサンプルサイズの倍率を明らかにすること。第二に、臨床試験解析の観点から、観察されたPFSのP値別にOSの統計的有意差が検出される確率を算出すること。第三に、メタ解析の観点から、PFSハザード比 (HR) とOSハザード比 (HR) の相関係数とSPP中央値の関係を評価すること。これらの定量的な分析を通じて、臨床試験の設計、エンドポイントの選択、およびPFSのサロゲートエンドポイントとしての評価に関する実践的な枠組みを提供することを目指す。本研究は、特にSPP (Survival PostProgression) がPFSとOSの関連性に及ぼす影響を詳細に解析し、OSを主要エンドポイントとする臨床試験の実現可能性に関する具体的な指針を提示することを意図している。

結果

所見1: OS有意差検出確率はSPP中央値に依存して急減する: PFS検出力80%(n=280例)の試験においてOSの統計的有意差(p<0.05)が得られる確率は、SPP中央値の延長に伴い急速に低下した (Table 2)。SPP中央値が2ヶ月の場合、OS有意差検出確率は70%であったが、SPP中央値が6ヶ月では42%に、12ヶ月では24%に、そして24ヶ月では15%にまで低下した。PFS検出力を85%(n=310例)に高めた場合でも、SPP中央値2ヶ月で75%、24ヶ月で16%と、同様の傾向が認められた。PFSで高度に有意な差(p<0.001)が認められた場合でも、SPP中央値が2ヶ月であればOSで有意差が検出される確率は90%以上であったが、SPP中央値が24ヶ月では20%未満に低下した (Table 3)。一方、PFSで辛うじて有意な差(p=0.05)の場合、SPP中央値2ヶ月で33%、24ヶ月で8%と、OSでの有意差検出確率はさらに低かった。OSのP値の中央値(95%信頼区間)は、SPP中央値2ヶ月で0.013 (<0.001-0.600) であったが、12ヶ月では0.199 (0.001-0.946) に、24ヶ月では0.322 (0.005-0.971) に上昇した。これは、PFSで有意差が認められても、SPP中央値が24ヶ月の疾患ではOSで統計的有意差が検出されない確率が85%に達することを意味する。

所見2: OS主要エンドポイント化に必要なサンプルサイズはSPP依存的に最大8.7倍に膨張する: PFS中央値の改善(6ヶ月から9ヶ月)を検出するためにPFS検出力80%で280例が必要な試験において、同等のOS検出力(80%)を得るために必要な総症例数は、SPP中央値の長さに応じて大幅に増加した (Figure 3)。SPP中央値が2ヶ月の場合、OS検出力80%には350例(PFSの1.25倍)が必要であった。SPP中央値が6ヶ月では600例(2.1倍)、12ヶ月では1,050例(3.75倍)、そして24ヶ月では2,440例(8.7倍)が必要となることが示された。試験期間も同様に延長し、PFSを主要エンドポイントとする場合は18ヶ月で完了するのに対し、OSを主要エンドポイントとする場合、SPP中央値6ヶ月で29ヶ月、12ヶ月で44ヶ月、24ヶ月で90ヶ月と、大幅な期間延長が必要となる。OSハザード比の中央値(95%信頼区間)も、SPPが長くなるにつれて拡大し、1.0を含むようになる傾向が示された (Table 1)。例えば、SPP中央値2ヶ月ではHR 0.687 (95% CI 0.514-0.909) であったが、SPP中央値8ヶ月ではHR 0.736 (95% CI 0.502-1.068) となり、95%信頼区間が1.0を跨ぐようになった。これは、真のOS利益が存在するにもかかわらず、統計的有意差に達しない典型的なパターンであり、本研究はSPP中央値が12ヶ月を超えるとOSを主要エンドポイントとすることが「実現不可能な高さのハードル」となることを定量的に示した。

所見3: PFS-OSハザード比相関係数RはSPP中央値の関数として連続的に低下し、メタ解析サロゲート評価を直接規定する: 67の仮想試験を用いたメタ解析模擬において、PFS HRとOS HRの相関係数Rは、サンプルサイズで加重した線形回帰により推定された (Figure 4)。SPP中央値が0ヶ月の場合、Rは1.00(完全相関)であった。しかし、SPP中央値の増加に伴い、相関は連続的に低下した。SPP中央値が3ヶ月でR=0.96、6ヶ月でR=0.92、9ヶ月でR=0.88、12ヶ月でR=0.83、そして24ヶ月ではR=0.57と、相関の著明な弱体化が認められた。PFSで統計的有意差が認められた34試験のうち、OSでも有意差が認められた割合は、SPP中央値3ヶ月で82%(n=28)、6ヶ月で68%(n=23)、9ヶ月で50%(n=17)、12ヶ月で50%(n=17)、18ヶ月で41%(n=14)、24ヶ月で26%(n=9)であった。この模擬結果は、実際のメタ解析データと整合することが示された。例えば、転移性乳癌(SPPが比較的長い)ではBurzykowski et al. (2008) がPFS-OS HR相関R=0.48を報告しており、進行大腸癌(SPPが比較的短い)ではBuyse et al. (2007) がR=0.99を報告している。また、非小細胞肺癌(SPPが中間的)ではBuyse et al. (2008) が2,838例のプール解析でR=0.85を報告しており、これは本シミュレーションのSPP中央値9ヶ月(R=0.88)の結果とほぼ一致する。Hackshaw et al. (2005) が42試験でR=0.71、Sherrill et al. (2008) が67試験でR=0.54と報告していることも、SPP中央値の差異によって説明可能であることを本研究は示した。これらの結果は、メタ解析においてPFSのサロゲート評価が疾患によって異なる根本的な理由がSPP中央値の差であるという主張を強力に支持するものである。

考察/結論

本研究の核心的洞察: 本研究の最も重要な貢献は、「PFSで統計的有意差が認められてもOSで統計的有意差が得られないことは、OS改善の欠如を意味しない」という反直感的な事実を定量的かつ説得的に示したことである。SPP中央値がPFS-OS関係の決定的調整因子であり、その数値は癌種や治療の進歩によって数週間から数年まで大きく異なることが明らかになった。

先行研究との違い: これまでの研究では、PFSとOSの相関関係が疾患によって異なることが示唆されていたものの、その背後にあるメカニズム、特にSPPの定量的影響については十分な解析が不足していた。本研究は、OSをPFSとSPPの和としてモデル化し、SPP中央値の長さに応じてOSの統計的有意差検出確率や必要サンプルサイズがどのように変化するかを詳細にシミュレーションした点で、先行研究と異なり、より包括的な理解を提供した。

新規性: 本研究で初めて、PFSの有意差がOSに転化する確率がSPPの長さに劇的に依存すること、およびOSを主要エンドポイントとする場合の必要サンプルサイズがSPPの延長に伴い非現実的な水準にまで増加することを定量的に示した。特に、PFSで高度に有意な差(p<0.001)が認められても、SPP中央値が24ヶ月ではOSでの有意差検出確率が20%未満に低下するという知見は新規であり、PFSがOSのサロゲートとして機能する条件を明確化した。

臨床応用: 本知見は、臨床現場におけるがん臨床試験の設計と解釈に重要な臨床的含意を持つ。ホルモン受容体陽性乳癌、前立腺癌、慢性骨髄性白血病など、救済療法が豊富な疾患ではSPPが長く、OSは主要エンドポイントとして「実現不可能なほど高いハードル」となる。腫瘍学の進歩によって救済療法が増え、SPPが延長するにつれて、OSを主要エンドポイントとする試験の現実性は低下し続けるため、PFSのサロゲート評価は疾患によって異なる連続的関数として理解すべきである。具体的には、SPP中央値が概ね6ヶ月未満であればOSは合理的な主要エンドポイントとなりうるが、12ヶ月を超えるとOSを主要エンドポイントとする試験設計は極めて困難に達する。これは、規制当局によるPFSを根拠とした加速承認の枠組みを理論的に支持するものであり、臨床応用への道筋を示すものである。

残された課題と研究の限界: 本研究のシミュレーションは特定の仮定(PFS差3ヶ月、登録速度30人/月、指数分布、SPPへの治療効果なし)に基づいており、個別の臨床シナリオでは定量的な結果が異なりうる点がlimitationである。しかし、SPPが長いほどPFS改善がOSとして検出されにくくなるという定性的な結論は、他の分布や前提においても成立すると著者らは主張している。また、「増悪後に治療効果なし」という仮定が成立しない状況(クロスオーバーや非盲検化された調査者による増悪判定)についても検討し、これらのバイアスは通常、対照群に有利に働くことを示した。今後の検討課題として、より複雑なSPP分布や、増悪後の治療効果がSPPに影響を与えるシナリオでのシミュレーションが挙げられる。

方法

シミュレーション設定: Rソフトウェア (ver 2.4.1) を用いて、50,000回の反復シミュレーションを実施した。本研究は、2群ランダム化比較試験 (RCT) を想定し、対照群のPFS中央値を6ヶ月、実験群のPFS中央値を9ヶ月とする設定とした。PFS分布は指数分布に従うと仮定した。SPPは両群で同一(治療効果なし)と仮定し、PFSの改善がそのままOSの改善として反映される条件を意図的に設定した。患者登録速度は30人/月(均等分布)とし、登録完了後に追加で9ヶ月のフォローアップ期間を設けた。総試験期間は登録期間に9ヶ月を加えたものとした。患者のデータは、この総試験期間の終了時点で打ち切りとした。SPP中央値は2ヶ月から24ヶ月の範囲で段階的に変動させた。各シミュレーション試験のPFSおよびOSの比較には、ログランク検定 (log-rank test) を用いた。

サンプルサイズ計算: PFSの検出力80%を達成するために必要な症例数は280例、85%では310例、90%では364例と設定し、両側有意水準p<0.05のログランク検定を用いた。OSを主要エンドポイントとした場合の検出力80%を達成するために必要な症例数は、試行錯誤法(trial-and-error法)を用いて算出した。この計算は、PFSのハザード比が0.67(中央値6ヶ月から9ヶ月への改善に対応)であると仮定し、SPPの変動がOSのハザード比に与える影響を考慮して行われた。

メタ解析模擬計算: Sherrill et al. (2008) の手法に準拠し、67の仮想試験を設定した。各試験の対照群PFS中央値は4ヶ月から18ヶ月の範囲でランダムに抽出した。PFS HRの対数は、平均0、標準偏差0.35の正規分布から抽出した。これにより、PFS HRのほとんどの値が0.5から2.0の間に収まるようにした。サンプルサイズは対数正規分布(平均795、標準偏差845)から抽出し、ほとんどの総サンプルサイズが100から3000の間に収まるようにした。その他の仮定は単一試験のシミュレーションと同様である。SPP中央値は0、3、6、9、12、18、24ヶ月で変動させ、各試験のPFS HRとOS HRを比例ハザードモデル (Cox proportional hazards model) を用いて算出し、試験サイズで加重した線形回帰モデルにより両者の相関を推定した。このメタ解析模擬は、PFSがOSのサロゲートエンドポイントとして機能する度合いを、SPPの長さに基づいて定量的に評価することを目的とした。

主要前提の妥当性: 本研究の最も重要な仮定は「増悪後に治療効果なし」という点である。この仮定は、プロトコル治療が増悪後に通常中断されること、およびBowater et al. (2008) などの複数の既報メタ解析によって経験的に裏付けられている。ただし、クロスオーバーや非盲検化された調査者による増悪判定など、SPPに偏りが生じうる状況についても検討し、これらのバイアスは通常、標準治療群に有利に働く可能性を示唆した。例えば、実験群から対照群へのクロスオーバーが発生した場合、実験群のOS利益が希薄化され、OSの統計的有意差が検出されにくくなる。本研究では、このようなバイアスの影響を最小限に抑えるため、SPPに治療効果がないという理想的なシナリオを仮定し、PFSとOSの純粋な関係性を評価することに焦点を当てた。