• 著者: Adrian G. Sacher, Lisa W. Le, Natasha B. Leighl
  • Corresponding author: Natasha B. Leighl (Princess Margaret Cancer Centre/University of Toronto, Canada)
  • 雑誌: Journal of Clinical Oncology
  • 発行年: 2014
  • Epub日: 2014-03-03
  • Article種別: Original Article
  • PMID: 24590634

背景

進行非小細胞肺癌 (NSCLC) は最も難治性の固形腫瘍の一つであり、癌関連死の主要原因として数十年にわたり大規模臨床研究の対象となってきた。この期間に1・2次細胞傷害性化学療法および限定的集団への分子標的薬が承認されたが、全体的な治療成績の改善は限定的にとどまっている。同時期に臨床試験の規模・設計・エンドポイント選択が変化しており、とりわけPFS (progression-free survival) のOS (overall survival) への代替としての使用拡大、および統計的有意差の有無と試験解釈 (ポジティブ/ネガティブ) の乖離が課題として浮上していた。例えば、Schiller et al. NEnglJMed 2002Shepherd et al. NEnglJMed 2005Mok et al. NEnglJMed 2009 などの重要な試験が実施される中で、治療成績の解釈基準が変化している可能性が指摘されていた。製薬企業の資金提供や統計的知識の差異が試験解釈に影響するとの報告があり、30年間の系統的変遷を客観的に記録することが求められていたが、その実態は未解明な点が多かった。特に、進行NSCLCの臨床試験において、主要評価項目や結果の解釈基準がどのように変化してきたかについての包括的な定量分析は不足しており、その実態を明らかにすることが重要な課題であった。

目的

1980年から2010年までの30年間における進行NSCLC第III相試験のデザイン (サンプルサイズ・主要エンドポイント) と解釈 (ポジティブ/ネガティブ判定・臨床的利益の大きさ) の変遷を系統的に記録し定量化すること。本研究は、特に主要評価項目がOSからPFSへ移行する傾向、および統計的有意差がない場合でも試験がポジティブと解釈される傾向を明らかにすることを目的とした。

結果

試験規模と実施数の増加: 本研究で特定された第III相試験の数は、1980-1990年の32件から1991-2000年には53件、そして2001-2010年には118件へと急増した (Table 1)。同時に、試験のサンプルサイズの中央値も増加し、1980-1990年の152例 (範囲 38-743例) から2001-2010年には413例 (範囲 58-1,725例) となった (P < .001)。これは、より小さな治療効果を検出するための統計的検出力に対する要求が高まったことを示唆している。

主要エンドポイントの変化: OSを主要エンドポイントとする試験の割合は、1980-1990年の97%から2001-2010年には81%へと有意に減少した (P = .002) (Table 1)。これに対し、PFSを主要エンドポイントとする試験の割合は、1980-1990年には0%であったが、2001-2010年には13%に増加した。この期間を通じて、試験全体の平均OSは、1980-1990年の6.7ヶ月から2001-2010年には9.5ヶ月へと増加傾向を示した (Table 1)。

試験解釈の変遷: 主要エンドポイントで統計的有意差を達成した試験の割合は、1980-1990年の29%から2001-2010年の31%と、時代を通じて安定していた。しかし、「ポジティブ」と報告された試験の割合は、1980-1990年の31%から2001-2010年には53%へと有意に増加した (P < .001)。特に、統計的有意差を達成していないにもかかわらずポジティブと解釈された試験の割合は、1980-1990年の30%から2001-2010年には53%へと顕著な増加トレンドを示した (P < .001)。これらの統計的有意差未達のポジティブ試験の根拠としては、副次エンドポイント (PFS、毒性など) の改善 (n=24)、適切な非劣性デザインなしでの非劣性主張 (n=26)、および非有意なトレンドに基づく更なる研究推奨 (n=9) が挙げられた。例えば、ある試験ではOSのHRが0.90 (95% CI 0.80-1.01, p=0.07) と有意差がなかったにもかかわらず、PFSの改善が認められたためポジティブと解釈された。興味深いことに、統計的有意差を達成したにもかかわらず、臨床的利益の大きさが不十分であるとしてネガティブと判定された試験は、1990年以前の期間にのみ2件存在した。

ポジティブ試験における生存利益の大きさ: ポジティブと判断された試験におけるメディアン生存期間差 (ネット生存利益) は、1980-1990年の3.9ヶ月 (範囲 0.25-7.2ヶ月) から2001-2010年の0.9ヶ月 (範囲 2.5-4.0ヶ月) へと減少傾向が認められた (P < .001) (Fig 1)。統計的に有意な生存改善を示した試験のみに限定した場合でも、ネット生存利益は1980-1990年の3.9ヶ月から2001-2010年の2.5ヶ月へと減少傾向にあった (P = .11)。例えば、ある試験ではOSのHRが0.75 (95% CI 0.65-0.87, p=0.003) であったが、生存期間の絶対差はわずか1.5ヶ月であった。これは、統計的有意差と臨床的意義の乖離を示唆している。

考察/結論

本研究は、進行NSCLC第III相試験における「バーの低下 (the bar is dropping)」という現象を、203試験のデータを用いて初めて系統的に定量化した。主要な問題として、OSを主要エンドポイントとする試験の割合が減少し、PFSへの移行が進んでいること、統計的有意差を達成していないにもかかわらずポジティブと解釈される試験が急増していること (30%から53%へ)、そしてポジティブとされた試験における生存利益の大きさが縮小する傾向が記録された。

先行研究との違い: これまでの研究では個別の試験や特定の期間における傾向が報告されてきたが、本研究は30年間の全期間にわたる系統的な分析を通じて、試験デザインと解釈の変遷を包括的に示した点で、これまでの報告とは対照的である。特に、統計的有意差を達成しても臨床的利益が不十分であればネガティブと判断されていた1990年代以前の基準が、2000年代以降には見られなくなったという解釈の非対称性の極端化は、これまで明確に定量化されていなかった点である。

新規性: 本研究で初めて、統計的有意差を達成していない試験がポジティブと解釈される割合が有意に増加していること、およびポジティブと判断された試験における生存利益の絶対値が減少していることを定量的に示した。これは、進行NSCLCの臨床試験における臨床的利益の判断基準が低下しているという新規の知見である。

臨床応用: 本知見は、米国食品医薬品局 (FDA) や欧州医薬品庁 (EMA) の承認判断、および治療アルゴリズムへの影響が大きく、増大する治療コストと限定的な利益の問題を提起する。臨床現場において、わずかな利益しか示さない新薬が承認され、使用されることの是非について再考を促すものである。本論文は、Ellis et al. (JCO 2014) の「臨床的に意味のある利益の定義」に関する同年発表と対で読まれ、NSCLC試験デザイン論争に重要な事実的根拠を提供した。

残された課題: 本研究のlimitationとして、ポジティブ/ネガティブ判定が著者の記述に基づく主観的要素を含む点、および30年間の患者集団や治療状況の変化を詳細に考慮していない点が挙げられる。今後の検討課題として、試験の資金源 (製薬企業主導か否か) が試験結果の解釈に与える影響のさらなる詳細な分析や、PFSがOSの適切な代替エンドポイントとして機能するかどうかの妥当性の検証が残されている。また、臨床的に意味のある最小限の利益 (minimal clinically important difference) の明確な基準を確立し、それを試験デザインと解釈に組み込むことが今後の方向性として重要である。

方法

本研究は、1980年から2010年までの期間に実施された進行NSCLCの第III相RCT (randomized controlled trial) を対象としたレトロスペクティブコホート研究である。PubMed clinical queriesおよび腫瘍学会ガイドラインを用いて系統的文献検索を実施した。試験はNCT番号の有無にかかわらず、発表された論文に基づいて評価された。除外基準は、小細胞肺癌 (SCLC)、早期NSCLC、外科/放射線療法試験、非Phase III試験、およびサブグループ/中間解析であった。最終解析対象は203試験であった。

記録項目は、発表年、サンプルサイズ、主要/副次エンドポイント、統計的有意性、試験結果 (ポジティブ/ネガティブ)、および生存利益の大きさであった。ポジティブ試験の定義は、著者が新治療の臨床採用推奨または更なる研究推奨を明示したものとした。統計手法として、カテゴリ変数の時代トレンドを評価するためにCochran-Armitage trend testを、生存利益および試験規模の時代変化を評価するためにF検定を用いた。また、生存曲線解析にはKaplan-Meier法が用いられ、群間比較にはlog-rank testが適用された。時代区分は、1980-1990年、1991-2000年、2001-2010年の3つとした。ネット生存利益は、実験群と対照群のメディアン生存期間の差として定義された。サンプルサイズは各期間で中央値152例、184例、413例と増加しており、より小さな効果を検出するための統計的検出力 (statistical power) が考慮された。