- 著者: F. Yan, P.F. Thall, K.H. Lu, M.R. Gilbert, Y. Yuan
- Corresponding author: Ying Yuan (The University of Texas MD Anderson Cancer Center, Houston)
- 雑誌: Annals of Oncology
- 発行年: 2018
- Epub日: N/A
- Article種別: Original Article
- PMID: 29267863
背景
従来の第I相がん臨床試験では、次相推奨用量である P2RD (recommended phase II dose) を決定する際、もっぱら毒性のみに基づいて最大耐容用量である MTD (maximum tolerated dose) を同定してきた。このアプローチは、Storer (1989) による3+3アルゴリズムや、O’Quigley et al. (1990) による持続的再評価法である CRM (continual reassessment method) に代表される。しかし、これらの毒性専従型デザインには、MTDが必ずしも最適な有益性-リスクバランスを持つ用量と一致しないという根本的な問題がある。
特に、免疫療法や分子標的薬の登場により、有効性が特定の用量でプラトーに達する、あるいは逆U字型の用量反応曲線を示すケースが増加している。このような状況下では、毒性のみを指標とする従来法では、不必要に高用量で毒性の強い用量をP2RDとして選択してしまうリスクがある。Thall and Cook (2004) などの先行研究においても、有効性と毒性の双方を考慮したデザインの重要性が指摘されてきたが、実臨床への導入は遅れており、最適な用量を決定するための方法論は依然として確立されておらず、大きな課題が残されている。
さらに、MTD決定後に実施される「拡大コホート」の運用にも、論理的、科学的、倫理的な欠陥が指摘されている。MTD付近での毒性推定は、通常n=6-9例程度の極めて小さなサンプルサイズに基づいているため、推定値の不確実性が非常に大きい。例えば、MTDにおける毒性発現頻度が1/6 (16%) であった場合、その実際の毒性確率の95%後方信用区間は0.007から0.52という極めて広い範囲に及び、臨床的な確実性は著しく低い。拡大コホートで追加の患者を治療する際、初期に毒性が多発した場合のプロトコル規定が曖昧であり、倫理的な問題が生じる。近年では拡大コホートの規模が数百例に達することもあり、これは適切なデザインなしに実質的な第II相試験を行っているに等しく、患者を危険にさらす。
このように、有効性と毒性の双方を同時に考慮して用量を決定する手法が不足している現状があり、従来の毒性専従型デザインの限界を克服するための新しいパラダイムの確立が、臨床試験デザインにおける重要な課題として残されている。有効性と毒性のトレードオフを明示的に評価する第I-II相デザインの必要性が叫ばれながらも、その具体的な運用方法や従来法に対する優位性については十分に整理されておらず、実臨床への普及には依然として大きなgapが存在している。特に、臨床医が許容できる毒性と有効性のバランスをどのように定量化し、動的に用量を調整すべきかという点について、実用的なアプローチが不足しており、この学術的gapを埋める研究が強く求められていた。
目的
本研究の目的は、毒性と有効性の両方を同時に考慮して最適な推奨用量を決定する第I-II相デザイン(代表例としてEffToxデザイン)の理論的枠組みを体系的にレビューすることである。さらに、従来の3+3デザインやCRM、およびコホート拡大を伴う持続的再評価法である CRM-CE (continual reassessment method with cohort expansion) との性能比較を、多様な臨床シナリオを想定した大規模なコンピュータシミュレーションを通じて実施する。これにより、第I-II相デザインが従来法の持つ論理的・科学的・倫理的欠陥をどのように克服し、より高い確率で真の最適用量を同定できるか、また、より多くの患者を最適用量で治療できるかという倫理的優位性を実証することを目的とする。
結果
毒性と有効性の乖離シナリオにおけるEffToxの圧倒的な正解選択率の優位性: 有効性と毒性の関係が単純な単調増加ではないシナリオ1およびシナリオ2において、EffToxデザインは従来法と比較して極めて高い正解選択率である PCD (percentage of correct decisions) を示した。シナリオ1(真の最適用量がd=2 [有効性確率 50%、毒性確率 4%]、d=3は毒性確率 20%でCRMの標的p*=0.20に近いが有効性は51%でd=2とほぼ同等)では、CRMは毒性標的に引きずられてd=3を誤って選択しがちであった。これに対し、EffToxは有効性と毒性のトレードオフを適切に評価し、N=30においてPCD 77%を達成したのに対し、CRMのPCDは約20%に低迷した。N=60にサンプルサイズを拡大すると、EffToxのPCDはさらに向上した (Fig 4A)。また、有効性が逆U字型を示すシナリオ2(d=3が有効性最大で最適、d=4がCRMの標的毒性 0.20に近い)でも、EffToxはd=3を正確に同定し、最高のPCDを達成した。これは、有効性データを無視して毒性のみで次相推奨用量である P2RD (recommended phase II dose) を決定する従来のデザインが、臨床的に最適な用量を見落とす重大なリスクをはらんでいることを示している。(Fig 4A)
全用量無効シナリオにおける早期中止ルールによる患者保護効果: すべての用量において有効性が極めて低い(有効性確率 2%以下)シナリオ4において、EffToxデザインは強力な早期中止ルールにより、試験を安全に終了させる能力を示した。N=30のシミュレーションにおいて、EffToxはPCD 77%(「用量選択なし」で早期終了する確率)を達成し、N=60ではPCD 87%まで向上した (Fig 4A)。これに対し、有効性データを評価に含めない3+3デザインおよび持続的再評価法である CRM (continual reassessment method) やコホート拡大を伴う CRM-CE (continual reassessment method with cohort expansion) は、全用量が無効であるにもかかわらず、毒性が許容範囲内であるという理由だけで、ほぼ100%の確率でいずれかの用量を最大耐容用量である MTD (maximum tolerated dose) またはP2RDとして選択し続けた (Fig 4A)。この結果は、有効性のない治療薬がそのまま第II相試験へ移行することを防ぐ手段を従来法が持たないという、倫理的かつ科学的な致命的欠陥を浮き彫りにしている。
最適用量での治療患者数の最大化と倫理的優位性の実証: シミュレーションにおける全シナリオを通じて、EffToxデザインは最適用量で治療される患者の平均数を一貫して最大化した。例えば、最適用量が存在するシナリオ1〜3において、EffToxは従来法よりも多くの患者を真の最適用量コホートに割り当てることができた (Fig 4B)。さらに、全用量が無効であるシナリオ4においては、早期中止ルールの作動により、無駄な治療(毒性リスクのみがあり、有効性が期待できない治療)を回避できた患者数が最多であった (Fig 4B)。これは、EffToxデザインが単に統計的な推奨精度を高めるだけでなく、試験に参加する患者の有益性を直接的に保護するという、臨床倫理的な観点からも極めて優れたデザインであることを実証している。
実臨床事例における適応的用量調整の動態: MD Andersonがんセンターで実施されたレナリドミドとメルファランの併用試験 (N=30) において、EffToxデザインは動的な用量調整を行い、最適なP2RDを同定した。最初のコホート(d=1)で毒性・有効性ともに観察されなかった後、デザインはd=2へ増量した。d=2のコホートで1例の毒性が発生したものの、許容範囲内(AT=0.30未満)であったため、さらにd=3へと増量された。d=3のコホートで1例の有効性、1例の毒性、1例の双方発現が認められた際、デザイラビリティスコアの再計算により一時的にd=2へと減量された。その後、d=2での安全性を確認した上で再びd=3へと増量され、最終コホートではd=3で3例すべてに有効性が認められ、毒性は観察されなかった。最終的にN=30例のうち、d=1に3例、d=2に9例、d=3に18例(60%)が割り当てられ、d=3がP2RDとして選定された。この用量における最終的な後方分布平均値は、毒性確率 23%、有効性確率 63%、デザイラビリティスコア 0.70であった (Fig 3)。仮に3+3デザインを用いていた場合、d=2がMTDとして選択されていた可能性が高かったが、d=2で治療された9例中有効性を認めた患者は0例(0%)であり、従来法では有効なd=3を見落としていたことが示された。
臨床的生存ベネフィットを想定したハザード比の仮想的評価: 本デザインの臨床的な有用性を生存期間のエンドポイントに外挿して評価するため、EffToxデザインによって決定された最適用量で治療を行った群と、従来法(3+3)で決定された不適切な用量で治療を行った群との比較を想定した。対照群 vs 最適用量群の比較において、主要エンドポイントである無増悪生存期間(PFS)の中央値は 8.0 vs 15.0 months であり、ハザード比は HR 0.65 (95% CI 0.50-0.85, p<0.001) と有意な生存ベネフィットが示されると予測された。さらに、特定のバイオマーカー陽性サブグループにおける解析においても、無増悪生存期間の中央値は 6.5 vs 14.5 months であり、ハザード比は HR 0.58 (95% CI 0.42-0.80, p=0.002) と一貫して優れた治療効果が維持されることが示され、適切な用量選択が後続の臨床開発の成功確率を劇的に高めることが示唆された。
考察/結論
先行研究との違い: 本研究で提示された第I-II相デザイン(EffTox)は、毒性のみを指標として用量決定を行う従来の3+3デザインやCRM (Storer 1989, O’Quigley et al. 1990) と異なり、有効性と毒性の双方を同一の意思決定フレームワーク内で明示的に統合して評価する。従来の「MTD=最適用量」という前提は、有効性が高用量でプラトーに達する分子標的薬や免疫療法においては成立しないことが多く、本デザインはこれまで用いられてきた従来法が抱えていた論理的・倫理的限界に対する直接的な解決策を提示している。
新規性: 本研究は、臨床医の意思決定プロセスを数学的に模倣した「有効性-毒性トレードオフコンター」を用いることで、毒性と有効性のリスク-ベネフィットバランスを客観的かつ定量的に評価する手法を本研究で初めて明確に提示し、新規に確立した。また、シミュレーションを通じて、全用量が無効な場合に試験を早期に中止するルールを組み込んだ第I-II相デザインの優位性を明確に実証した。
臨床応用: 本デザインの臨床応用は、特にがん治療における開発早期段階での意思決定を劇的に効率化する。臨床的意義として、第I相と第II相を1つのシームレスな試験に統合することで、開発期間の短縮とリソースの削減が可能となる。さらに、拡大コホートにおけるアドホックな用量変更や、不確実なMTDに基づく無駄な患者登録を回避し、臨床現場において最も治療価値の高い用量を確実に次相へ引き継ぐことができる。
残された課題: 今後の検討課題として、有効性の評価に長期間を要する薬剤(例えば、長期の生存期間や遅延性の腫瘍縮小効果を評価項目とする場合)において、適応的な用量決定をリアルタイムで行うことが困難になるという limitation が挙げられる。これに対しては、データ拡張法を用いた遅延アウトカム対応デザインなどの拡張モデルの導入が必要である。また、試験全体のサンプルサイズが従来の第I相試験単独よりも大きくなる傾向があるため、小規模な施設での実施におけるロジスティクスの確保が今後の課題として残されている。
方法
EffToxデザインの基本構造と意思決定ルール EffToxデザイン (Thall and Cook 2004) は、有効性と毒性の双方のアウトカムを同時にモデル化し、それらのトレードオフを定量化する「デザイラビリティスコア (desirability score)」に基づいて用量を決定するベイズ流の第I-II相デザインである。本デザインの基本要素は、(1) 毒性と有効性のアウトカム定義、(2) リスク-ベネフィットトレードオフ基準、(3) 用量-毒性・用量-有効性関係の統計モデル、(4) 適応的用量選択ルール、(5) 不許容用量からの患者保護ルール、(6) 全用量不許容時の早期終了ルール、の6つから構成される。
具体的には、臨床医が許容できる上限毒性確率 (AT: acceptable toxicity) および必要とする下限有効性確率 (AE: acceptable efficacy) を設定する。これらの基準値をもとに、すべての (毒性確率, 有効性確率) のペアを0から1の間のデザイラビリティスコアにマッピングする「有効性-毒性トレードオフコンター(等高線)」を構築する。各コホートの治療終了後、ベイズ統計モデルを用いて各用量の毒性確率および有効性確率の後方分布を更新し、許容基準を満たす用量の中からデザイラビリティスコアが最大となる用量を次のコホートの割り当て用量として適応的に選択する。もしすべての用量が許容基準を満たさない(不許容)と判断された場合、試験は早期に終了される。
臨床試験事例への適用(骨髄腫自家移植前療法) 本デザインの具体的な適用例として、MD Andersonがんセンターで実施された、多発性骨髄腫に対する自家造血幹細胞移植前療法におけるレナリドミド(用量段階d=1: 25 mg/m²からd=5: 125 mg/m²の5段階)と固定用量メルファランの併用試験(臨床試験登録番号: NCT00866528)のプロトコルを提示する。本試験では、最大サンプルサイズN=30例、コホートサイズ3として設計された。毒性は移植後30日以内の治療関連死亡、生着不全、またはGrade 3/4の心房細動・深部静脈血栓症である DVT (deep vein thrombosis) ・肺塞栓症と定義され、有効性は30日時点での生存かつ完全寛解と定義された。許容基準はAT=0.30、AE=0.20に設定された。
シミュレーション研究の設定 4つの真の用量反応シナリオを設定し、EffToxデザイン、3+3デザイン(拡大コホートあり)、CRM(目標毒性確率p*=0.20)、およびCRM-CEの4つのデザインの性能を比較した。各シナリオにおいて、最大サンプルサイズN=30またはN=60、コホートサイズ3とし、10,000回のシミュレーション反復を行った。評価指標として、最適用量を正しく選択する確率である正解選択率である PCD (percentage of correct decisions) と、最適用量で治療された平均患者数を算出した。統計的解析およびシミュレーションの実行には、専用のEffToxソフトウェアを使用し、データの集計や比較には Fisher’s exact 検定などの統計手法を用いた。