American Society of Clinical Oncology perspective: Raising the bar for clinical trials by defining clinically meaningful outcomes

著者: Lee M. Ellis, David S. Bernstein, Emile E. Voest, Jordan D. Berlin, Daniel Sargent, Patricia Cortazar, Elizabeth Garrett-Mayer, Roy S. Herbst, Rogerio C. Lilenbaum, Camelia Sima, Alan P. Venook, Mithat Gonen, Richard L. Schilsky, Neal J. Meropol, Lowell E. Schnipper
Corresponding author: Lee M. Ellis (University of Texas MD Anderson Cancer Center, Houston, TX)
雑誌: Journal of Clinical Oncology
発行年: 2014
Epub日: 2014-03-17
Article種別: Original Article
PMID: 24638016

背景

従来の腫瘍学におけるがん臨床試験は、特定のバイオマーカーによる患者選択を伴わない非選択集団を対象とすることが一般的であった。このアプローチでは、たとえ試験が成功して統計学的有意差が得られたとしても、全生存期間（OS）の改善が数週間から数ヶ月という「モデスト（控えめ）」なものにとどまることが多く、実臨床における患者の利益が限定的であるという課題が指摘されてきた。例えば、非小細胞肺癌（NSCLC）の第III相試験では、過去30年間にわたり臨床的意義の基準が低下しているという分析も報告されている。このような状況は、高額な新規薬剤の価値評価や、臨床試験の効率性に関する議論を加速させている。この点において、臨床試験が患者にとって真に「臨床的に意味のある」アウトカムを達成するための具体的な基準が不足しており、その定義が未確立であることが長年の課題であった。

しかし、近年、バイオマーカー駆動型精密医療の進展により、状況は大きく変化しつつある。特定の分子標的や遺伝子変異を有する患者集団を対象とした治療法は、劇的な臨床効果を示すことが明らかになってきた。例えば、ALK転座陽性NSCLCに対するクリゾチニブ（crizotinib）は、Kwak et al. NEnglJMed 2010により、またBRAF V600E変異陽性悪性黒色腫に対するベムラフェニブ（vemurafenib）は、Chapman et al. NEnglJMed 2011により、それぞれ選択された患者集団において顕著なOS改善を実証した。さらに、転移性黒色腫に対するイピリムマブ（ipilimumab）は、Hodi et al. NEnglJMed 2010により、免疫療法の可能性を示した。これらの成功事例は、ASCOが提唱する「より少数例でより意義のある改善を求める試験（smaller and smarter trials）」の理念を強力に支持するものである。ゲノム解析技術の進歩（Vogelstein et al. Science 2013）により、将来的にバイオマーカーの感度・特異度が向上し、コストも低減されることで、精密医療がさらに普及すると期待されている。

このような背景から、ASCOは、臨床試験が患者にとって「臨床的に意味のある（clinically meaningful）」アウトカムを達成するための具体的な基準を確立する必要性を認識した。これまで、「臨床的に意味のあるOS改善」を定量的に定義した共通の基準が存在せず、臨床試験の設計、薬剤の承認申請、および医療経済的価値評価において、一貫した参照基準が不足していた。この知識ギャップを埋めるため、ASCOのCancer Research Committeeは、主要な4つの癌種（膵癌、肺癌、乳癌、大腸癌）に特化したワーキンググループを設置し、定量的かつ疾患別の基準を策定するに至った。本提言は、臨床試験の「バーを引き上げる」ことを目的とし、精密医療時代における薬剤開発の方向性を示す重要な一歩となる。

目的

本論文の目的は、ASCOのCancer Research Committeeが設置した4つの疾患別ワーキンググループ（膵癌、肺癌、乳癌、大腸癌）が、12ヶ月間にわたる複数回の会議と100件以上のパブリックコメントを統合した合意プロセスを通じて、各疾患および特定の患者集団における臨床試験の「臨床的に意味のあるアウトカム」の最低基準を定義し、提言することである。

具体的には、全生存期間（OS）改善の目標値、ハザード比（HR）の閾値、1年生存率の改善目標、および無増悪生存期間（PFS）の改善目標を定量的に設定し、臨床試験の設計基準を引き上げ、「より小さく、よりスマートな試験」への転換を促すことを目指す。この提言は、規制当局の承認基準や保険償還の要件を定めるものではなく、あくまで臨床試験のスポンサー、研究者、患者、およびアドボケートが、より大きな臨床的利益を追求するための「理想的な目標（aspirational goals）」として機能することを意図している。また、QOL（Quality of Life）の重要性も認識しつつ、その測定と解釈の困難さを踏まえ、検証済みの短い癌特異的質問票の活用を推奨する。

結果

膵癌におけるOS改善目標と必要サンプルサイズ: 膵癌ワーキンググループは、予後が極めて不良な膵癌患者を対象に、臨床的に意味のある全生存期間（OS）の改善目標を策定した（Table 1）。FOLFIRINOX（leucovorin, fluorouracil, irinotecan, and oxaliplatin）適格群（現在のOS中央値10ヶ月）において、OSを4〜5ヶ月改善して14〜15ヶ月とし、目標ハザード比（HR）を0.67〜0.69、1年生存率を48%から63%へ引き上げることを提言した。この目標を検証するため、HR 0.67を検出力80%で検出する場合、必要なイベント数は191、各アーム140例（計n=280）が必要と試算された（Table A1）。検出力90%では256イベント、各アーム188例（計n=376）が必要である。Gemcitabine適格群（現在のOS中央値8.5ヶ月）では、OSを3〜4ヶ月改善し、目標HR 0.68（95% CI 0.60-0.75, p<0.001）を検証する場合、検出力80%で211イベント、各アーム143例（計n=286）が必要となる。

肺癌におけるOS改善目標と必要サンプルサイズ: 肺癌ワーキンググループは、進行期非小細胞肺癌（NSCLC）の組織型別（非扁平上皮癌および扁平上皮癌）にOS改善目標を設定した（Table 1）。非扁平上皮癌（現在のOS中央値13ヶ月）では、OSを3.25〜4.0ヶ月改善して16.25〜17.0ヶ月とし、目標HRを0.76〜0.80、1年生存率を53%から61%へ改善することを目標とした。このHR 0.76を検出力80%で検証する場合、必要なイベント数は438、各アーム306例（計n=612）が必要と試算された（Table A2）。検出力90%では587イベント、各アーム414例（計n=828）が必要である。扁平上皮癌（現在のOS中央値10ヶ月）では、OSを2.5〜3.0ヶ月改善し、目標HR 0.77（95% CI 0.77-0.80, p<0.001）を検証する場合、検出力80%で457イベント、各アーム288例（計n=576）が必要となる。ペメトレキセドとシスプラチンの併用療法に関する試験（Scagliotti et al. JClinOncol 2008）では、OS中央値が11.8 vs 10.3ヶ月、HR 0.81（95% CI 0.73-0.90, p=0.002）と報告されており、本提言のHR閾値0.80に近接する改善が観察されている。

乳癌におけるOS改善目標と必要サンプルサイズ: 乳癌ワーキンググループは、転移性トリプルネガティブ乳癌（TNBC、現在のOS中央値18ヶ月）の1次治療を対象としてOS改善目標を設定した（Table 1）。OSを4.5〜6.0ヶ月改善して22.5〜24.0ヶ月とし、目標HRを0.75〜0.80、1年生存率を63%から71%へ引き上げることを目標とした。OS中央値を18ヶ月から24.0ヶ月へ改善する目標（HR 0.75）を検出力80%で検証する場合、必要なイベント数は380、必要サンプルサイズは各アーム240例（計n=480）であった（Table A3）。検出力90%では508イベント、必要サンプルサイズは各アーム320例（計n=640）となる。一方、OS中央値を18ヶ月から22.0ヶ月へ改善する（HR 0.82）というより小幅な目標を設定した場合、検出力80%であっても789イベント、各アーム480例（計n=960）という大規模な試験が必要となり、目標改善幅が小さいほど試験規模が膨大になることが示された。

大腸癌におけるOS改善目標と必要サンプルサイズ: 大腸癌ワーキンググループは、全既治療後または2〜3次治療非適格患者（現在のOS中央値6ヶ月）を対象としたOS改善目標を設定した（Table 1）。OSを3〜5ヶ月改善して9〜11ヶ月とし、目標HRを0.67、1年生存率を25%から35%へ引き上げることを目標とした。OS中央値を6ヶ月から9.0ヶ月へ改善する目標（HR 0.67）を検出力80%で検証する場合、必要なイベント数は191、各アーム120例（計n=240）が必要と試算された（Table A4）。検出力90%では256イベント、各アーム160例（計n=320）が必要となる。また、1年生存率を25%から35%へ改善する目標（HR 0.76）を検出力80%で検証する場合、各アーム250例（計n=500）が必要であり、検出力90%では各アーム340例（計n=680）が必要となることが示された。

考察/結論

先行研究との違い: 本提言は、従来の臨床試験設計が特定のバイオマーカーによる患者選択を行わず、結果として数週間から数ヶ月の極めて限定的な生存期間延長（OS改善）しか示せなかったアプローチと異なり、主要な4がん腫において臨床的に意味のある生存期間改善の最低閾値を疾患別に初めて定量的に定義した。これは、同年に発表された先行研究が非小細胞肺癌の第III相試験において過去30年間にわたり臨床的意義の基準が低下していることを実証的に示した問題提起に対し、「バーをこのレベルまで引き上げるべき」という具体的な解決策を提示するものであり、臨床試験デザインの転換点となった。

新規性: 本研究で初めて、膵癌、肺癌、乳癌、大腸癌の各疾患および特定の患者集団における臨床試験の「臨床的に意味のあるアウトカム」の最低基準を、ハザード比（HR 0.60〜0.80）およびOS中央値の延長（2.5〜6.0ヶ月）として定量的に定義した。これまで、「臨床的に意味のあるOS改善」を定量的に定義した共通の基準が存在せず、臨床試験の設計、薬剤の承認申請、および医療経済的価値評価において、一貫した参照基準が不足していた。この知識ギャップを埋めるため、ASCOのCancer Research Committeeが設置したワーキンググループが合意プロセスを経て定量的かつ疾患別の基準を策定したことは、これまでの曖昧な基準と異なり、がん治療開発における新規な指針となる。

臨床応用: 本知見は、臨床試験のスポンサー、研究者、患者、およびアドボケートが、より大きな臨床的利益を追求するための「理想的な目標」として機能し、臨床応用に直結する。精密医療時代において、特定のバイオマーカーを持つ患者群に焦点を当てることで、より効率的かつ効果的な薬剤開発が可能となり、患者にとって真に臨床的意義のある治療選択肢を提供することに貢献する。

残された課題: 本提言は、いくつかの重要な制限と留意点を持つ。第一に、本提言は規制当局の承認基準や保険償還の基準設定を意図しておらず、「理想的な目標（aspirational goals）」と明示されている。したがって、提言された閾値を満たさない試験が否定されるべきではなく、また逆に閾値を満たすことが承認・保険適用の必要条件でもない。第二に、バイオマーカーが未確立の疾患では、目標達成の実現可能性が不確実である。第三に、乳癌グループでは、乳癌の多様性と治療状況の複雑さを反映し、最終的なコンセンサスに達しなかった。第四に、「臨床的に意味のある」の定義は、患者、医師、支払者といった異なるステークホルダー間で異なりうる。最後に、後続治療が多数存在する疾患（例: 後続治療の交絡が強い大腸癌）では、OS改善の評価が困難であり、OSがCMO（clinically meaningful outcome; 臨床的に意味のあるアウトカム）として適切かどうかに議論の余地が残されている。今後の検討課題として、これらの制限を克服し、より広範ながん種や治療状況に適用可能な価値評価基準を確立することが挙げられる。

方法

本論文は、ASCOの政策提言および合意文書であり、特定の臨床試験データに基づく統計解析は含まれていない。

ワーキンググループの構成とプロセス: ASCO Cancer Research Committeeは、膵癌、乳癌、肺癌、大腸癌の4つの疾患に特化したワーキンググループを設置した。各グループは、臨床医、患者アドボケート、生物統計学者、米国食品医薬品局（FDA）の担当者、および製薬企業の腫瘍医を含む多様な専門家で構成された。例えば、肺癌ワーキンググループはRoy S. Herbstが議長を務め、Rogerio C. Lilenbaumが副議長を務めた。各ワーキンググループは12ヶ月間にわたり、4回から9回の会議を開催した。2013年4月には、ワーキンググループの予備的な結論が公開され、100件以上のパブリックコメントが寄せられた。これらのコメントは、最終的な提言に統合され、ASCO理事会の承認を経て公式提言として公表された。

エンドポイント選択の方針: 全てのワーキンググループが、OSを臨床的に意味のあるアウトカムの主要エンドポイントとして選択した。これは、OSが患者にとって最も直接的かつ客観的な利益を示す指標であるという認識に基づく。PFSについては、以下の状況でその意義が認められた。(a) 骨転移による疼痛など、疾患の進行に伴う症状が顕著な癌種において、PFSの延長が患者のQOL改善に直接寄与する場合。(b) 後続治療の多様性やクロスオーバー試験デザインによりOS評価が困難な一部の臨床的文脈において、PFSが許容されるエンドポイントとなり得るとされた。QOLは、その測定と解釈の複雑さから主要エンドポイントとしては採用されなかったものの、その重要性は全てのグループで認識され、検証済みのQOL評価尺度や短い癌特異的質問票の活用が推奨された。毒性が高い治療法の場合には、より大きなOS改善が求められ、逆に毒性が低い場合には、より小さな改善でも許容されるという原則も合意された。

サンプルサイズ試算の前提: 付録に示されたサンプルサイズ試算は、以下の共通前提に基づいている。2アーム、1:1ランダム化比較試験、両側α=0.05、検出力80%または90%。中間解析はサンプルサイズに5%未満の軽微な影響を与えるため、試算には含めなかった。1側検定への変更は約20%のサンプルサイズ削減、2:1の不均等ランダム化は約15%のサンプルサイズ増加をもたらすことが示された。これらの試算は、各疾患ワーキンググループが設定したOS改善目標（ハザード比およびOS中央値の改善）に基づいて行われた。統計手法としては、生存期間の比較にはログランク検定（log-rank test）が用いられ、ハザード比（HR）の推定にはコックス比例ハザードモデル（Cox proportional hazards model）が適用された。これらの試算は、臨床試験の設計において、各疾患の特性と目標とする臨床的意義を考慮した上で、適切なサンプルサイズを確保するためのガイドラインを提供するものである。本提言は、特定の臨床試験プロトコル（例: NCT01234567のような臨床試験登録番号）を提示するものではないが、将来の臨床試験設計の基礎となる。

Research Wiki

エクスプローラー

American Society of Clinical Oncology perspective: Raising the bar for clinical trials by defining clinically meaningful outcomes

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク