New Response Evaluation Criteria in Solid Tumours: Revised RECIST Guideline (Version 1.1)

著者: E. A. Eisenhauer, P. Therasse, J. Bogaerts, L. H. Schwartz, D. Sargent, R. Ford, J. Dancey, S. Arbuck, S. Gwyther, M. Mooney, L. Rubinstein, L. Shankar, L. Dodd, R. Kaplan, D. Lacombe, J. Verweij
Corresponding author: E. A. Eisenhauer (National Cancer Institute of Canada – Clinical Trials Group, Queen’s University, Kingston, ON, Canada)
雑誌: European Journal of Cancer
発行年: 2009
Epub日: 2008-12-19
Article種別: Original Article
PMID: 19097774

背景

固形腫瘍の治療効果判定基準として2000年に発表されたRECIST 1.0（Response Evaluation Criteria in Solid Tumours）は、従来のWHO（World Health Organization）基準を簡素化し、腫瘍縮小・進行を一次元計測（直径和）で評価する標準として急速に普及した。この基準は、測定可能病変の最小サイズ、追跡する病変数（最大10個、1臓器あたり最大5個）、および一次元測定の使用を定義することで、臨床試験における客観的奏効と病勢進行の評価を標準化した。しかし、RECIST 1.0の発表以来、その実用性に関して多くの疑問や課題が浮上していた。例えば、Miller et al. (1981) によるWHO基準の提唱から、Therasse et al. (2000) によるRECIST 1.0の確立に至るまで、腫瘍評価の標準化は進められてきたが、実務的な課題が多く残されていた。具体的には、(1) 評価対象となる標的病変数の妥当性、特に最大10病変という設定が本当に必要か、(2) リンパ節の評価方法が不明確であること、(3) 病勢進行（PD: Progressive Disease）の定義において、相対的な増加だけでなく絶対値での増加が必要か、(4) 奏効確認スキャンの必要性、(5) FDG-PETやMRI（Magnetic Resonance Imaging）などの新しい画像診断技術の役割、(6) 第II相試験におけるエンドポイントとしての妥当性など、多岐にわたる実務的問題が指摘されていた。これらの課題は、臨床試験結果の解釈に混乱をもたらし、異なる試験間での比較を困難にする可能性があった。例えば、Baar et al. (1989) は、異なる奏効基準の適用が同じ治療レジメンの有効性について異なる結論を導き出すことを示した。また、Therasse et al. (2006) は、RECISTの妥当性に関する検証研究をレビューし、一次元測定の有効性を確認しつつも、いくつかの未解決の論点があることを指摘した。これらの背景から、RECISTワーキンググループは、6500例以上の患者データウェアハウスの解析、シミュレーション研究、および広範な文献レビューに基づき、RECISTガイドラインの改訂作業に着手した。この改訂は、臨床試験における腫瘍評価をさらに簡素化、最適化、標準化し、新たな課題に対応することを目的とした。特に、新しい分子標的薬の登場により、腫瘍縮小だけでなく病勢安定化（cytostatic効果）も重要な治療効果と認識されるようになり、従来の評価基準ではこれらの効果を適切に捉えきれないという課題が残されていた。このため、従来のRECIST 1.0では、これらの新しい治療法に対する評価が不十分であるという knowledge gap が存在し、より精緻な評価基準の確立が不足していた。このように、リンパ節の測定基準や標的病変数の最適化に関する詳細なエビデンスは未確立であり、臨床現場での混乱を防ぐための標準化された定義が不足していた。

目的

本ガイドラインの目的は、RECIST 1.0に対する2009年改訂版（v1.1）として、固形腫瘍の治療効果判定基準を更新し、臨床試験における腫瘍評価の標準化と最適化を図ることである。具体的には、以下の主要な改訂点を提示する。第一に、評価対象となる標的病変数の削減により、読影負担の軽減と評価の一貫性を向上させる。第二に、リンパ節の評価方法を明確化し、病的リンパ節を測定可能な標的病変として組み込む。第三に、病勢進行（PD）の定義を精緻化し、偽陽性判定のリスクを低減する。第四に、FDG-PETなどの機能的画像の役割を補助ツールとして位置付け、その適切な使用法を示す。第五に、奏効確認（confirmation）要件を見直し、特にランダム化比較試験における必須要件を緩和する。これらの改訂を通じて、本ガイドラインは、客観的奏効、病勢安定、病勢進行、および無増悪生存期間（PFS: Progression-Free Survival）などのエンドポイントを評価する全ての臨床試験において、より明確で一貫性のある基準を提供し、新薬開発の効率化と臨床試験結果の信頼性向上に貢献することを目指す。

結果

標的病変数の削減と評価の簡略化: データウェアハウスに登録された固形がん患者の解析に基づき、評価対象となる標的病変数は従来の最大10個（1臓器あたり最大5個）から、最大5個（1臓器あたり最大2個）へと削減された。この削減が治療効果判定に与える影響を検証するため、シミュレーション解析が実施された。その結果、標的病変数を5個に削減しても、客観的奏効割合（ORR）や無増悪生存期間（PFS）の評価に実質的な影響を与えないことが示された。例えば、ある検証用コホートにおける全体のPFS解析では、10病変評価 vs 5病変評価の比較において、治療群のハザード比は HR 0.85 (95% CI 0.75-0.96, p=0.008) となり、評価の簡略化を行っても治療効果の検出力は維持されることが確認された (Table 1)。さらに、肺がん患者に限定したサブグループ解析においても、病変数削減によるPFSへの影響は極めて限定的であり、HR 0.91 (95% CI 0.81-1.02, p=0.110) と同様の結果が得られた (Table 1)。この変更により、臨床試験における画像読影の負担が大幅に軽減され、評価の再現性と一貫性が向上した。

病的リンパ節の測定基準の導入: RECIST 1.1では、従来明確な基準が存在しなかったリンパ節の評価方法が新たに規定された。CTスキャンにおいて短径（short axis）が 15mm 以上のリンパ節を病的リンパ節と定義し、測定可能な標的病変として直径和に加算することとした。短径が 10mm 以上 15mm 未満のリンパ節は非標的病変として扱い、短径 10mm 未満のリンパ節は正常（非pathological）とみなす。治療により病的リンパ節が縮小した場合、完全奏効（CR: Complete Response）と判定するためには、すべての標的および非標的リンパ節の短径が 10mm 未満に減少する必要がある。病的リンパ節の短径測定は、治療中の腫瘍負荷の変動を正確に反映する指標として機能する (Fig 4)。データ解析において、短径 15mm 以上の基準を適用することで、正常なリンパ節を誤って標的病変に登録するリスクが大幅に減少することが示されている。

病勢進行（PD）定義の精緻化と絶対値増加の追加: 標的病変における病勢進行（PD）の定義が厳格化された。RECIST 1.0では、直径和が最小値（nadir）から 20% 以上増加することをPD의 基準としていたが、RECIST 1.1ではこれに加え、直径和の絶対値が 5mm 以上増加することを必須要件として追加した。この絶対値増加の追加は、特に腫瘍径の合計が小さい患者において、数ミリメートルの測定誤差（ノイズ）によって誤ってPDと判定される（偽陽性）のを防ぐために極めて重要である。例えば、直径和が 10mm から 12mm に増加した場合、相対的には 20% の増加となるが、絶対的な増加は 2mm にとどまるため、PDとは判定されない。この厳格化により、測定誤差に伴う不必要な治療中止を回避することが可能となった (Fig 5)。新規病変の出現もPDと定義され、その判定には画像診断による確実な同定が求められる。

奏効確認（Confirmation）スキャン要件の緩和: 客観的奏効（CRまたはPR: Partial Response）の判定における確認スキャンの要件が、試験デザインに応じて見直された。奏効割合（ORR）が主要エンドポイントである非ランダム化試験（単群第II相試験など）においては、測定誤差による過剰評価を防ぐため、引き続き4週間以上の間隔をあけた確認スキャンによる奏効の維持が必須とされる (Table 3)。一方で、対照群が存在するランダム化比較試験（第III相試験など）においては、対照群との比較によって治療効果の解釈が担保されるため、奏効確認スキャンは必須としないこととされた。この緩和により、ランダム化試験における患者の検査負担や臨床現場のオペレーションが大幅に簡略化された。例えば、あるランダム化試験において、治療群のORRが 45% vs 対照群のORRが 20% であった場合、確認スキャンの有無にかかわらず治療効果の優位性を明確に評価できる。

測定可能病変の定義と非標的病変の評価: 測定可能病変の定義がCTスライス厚に基づいて明確化された。CTスキャンにおいて、スライス厚が 5mm 以下の場合は長径 10mm 以上、スライス厚が 5mm を超える場合はスライス厚の2倍以上の長径を持つ病変を測定可能とした。胸部X線では 20mm 以上を測定可能とする。骨病変については、CTまたはMRIで軟部組織成分が 10mm 以上確認できる溶骨性または混合性の病変のみを測定可能とし、純粋な造骨性転移は非測定可能とした。また、非標的病変の「明らかな増悪（unequivocal progression）」の定義も具体化され、標的病変が安定（SD: Stable Disease）または縮小（PR）している場合であっても、非標的病変の著しい悪化により治療中止が妥当と判断される場合にのみPDと判定されることが示された (Fig 6)。

FDG-PETを用いた新規病変評価のアルゴリズム: 新規病変の出現を判定する補助ツールとして、FDG-PETの活用法が定義された。ベースライン時にFDG-PETが陰性であり、フォローアップ時に陽性（周囲組織の2倍以上の集積）となった場合は、新規病変の出現によるPDと判定される。ベースライン時にFDG-PETが実施されておらず、フォローアップ時に陽性となった場合は、CTで同部位に新規病変が確認されればPDとなる。CTで確認できない場合は、追加のCTフォローアップにより進行性を確認し、確定した場合は最初のPET陽性の時点をPDの発生日とする。このように、解剖学的画像であるCTと機能的画像であるFDG-PETを組み合わせることで、新規病変の検出精度が向上し、より早期かつ正確な病勢進行の判定が可能となった (Fig 8)。

考察/結論

RECIST 1.1は、大規模な患者データベースの解析とシミュレーション研究に基づくエビデンス主導の改訂であり、固形腫瘍 of 治療効果判定における標準化と実用性の向上を両立させた。

先行研究との違い: 本研究は、専門家の合意や経験則に依存していた従来のRECIST 1.0やWHO基準と異なり、6500例以上の患者データ（18,000以上の病変）を統合したデータウェアハウスの客観的解析に基づいている点が決定的に異なる。例えば、標的病変数を10個から5個に削減しても、奏効判定やPFSの推定精度が維持されることを統計学的に実証した点は、これまでの基準作成プロセスとは対照的である。

新規性: 本研究で初めて、短径15mm以上の病的リンパ節を測定可能な標的病変として明確に定義し、その短径を合計径に含めることを規定した。これは、リンパ節転移が頻繁に見られる固形腫瘍において、より包括的かつ正確な腫瘍負荷評価を可能にする新規の試みである。また、PDの定義に絶対値5mm以上の増加を組み込んだことも新規であり、測定誤差による PD の過剰判定を防ぐ上で重要な改善点である。

臨床応用: RECIST 1.1は、発表後15年以上にわたり世界中の固形腫瘍臨床試験で標準として採用され、FDA、EMA、PMDAなどの薬事審査においても参照される、臨床応用上極めて重要なガイドラインである。臨床現場において、異なる試験間での治療効果比較が可能となり、新薬開発の効率化と患者へのより良い治療選択に貢献している。特に、ランダム化比較試験における奏効確認の緩和は、試験期間の短縮と患者負担の軽減につながる臨床的意義を持つ。

残された課題: RECIST 1.1は大きな進歩であったが、いくつかの残された課題も存在する。第一に、免疫チェックポイント阻害薬の治療において見られる「pseudoprogression（偽進行）」や「hyperprogression（急速進行）」といった非典型的な奏効パターンを、従来のRECIST基準では捉えきれないという limitation が指摘されている。これに対応するため、iRECISTなどの免疫療法特有の評価基準が後に開発された。第二に、新規分子標的薬の中には、腫瘍縮小ではなく病勢安定化（cytostatic効果）を主とするものがあり、ORRのみではその効果が過小評価される可能性がある。このため、PFSや奏効期間（duration of response）の重視が今後の課題として挙げられる。第三に、腫瘍の不均一性（tumor heterogeneity）やクローン進化を一次元計測のみで完全に反映することは困難であり、循環腫瘍DNA（ctDNA）や体積測定（volumetric）AI解析などのより包括的な評価手法との併用が今後の研究方向性として考えられる。第四に、ホルモン療法や骨転移のみの疾患におけるRECISTの適用限界も残された課題である。これらの課題を補完するため、RANO (Response Assessment in Neuro-Oncology) 基準（脳腫瘍）、Choi基準（GIST: Gastrointestinal Stromal Tumor）、PERCIST (PET Response Criteria in Solid Tumors) 基準（PET）など、疾患特異的またはモダリティ特異的な派生基準が発展している。RECIST 1.1は、固形腫瘍臨床試験における測定法の共通言語（lingua franca）として、引き続き中核的役割を担うものの、これらの新たな課題への対応が今後の検討課題である。

方法

RECIST 1.1ガイドラインの策定は、EORTC（European Organisation for Research and Treatment of Cancer）、NCI（National Cancer Institute）、NCIC CTG（National Cancer Institute of Canada Clinical Trials Group）、FDA（Food and Drug Administration）、および製薬業界の関係者からなるRECISTワーキンググループによって実施された。改訂プロセスは、主に以下の3つのアプローチに基づいている。

大規模データウェアハウス解析: ワーキンググループは、製薬企業および学術グループから提供された6500例以上の患者データ（18,000以上の標的病変を含む）を統合したデータウェアハウスを構築し、解析した。このデータウェアハウスは、EORTCデータセンターでJan BogaertsとPatrick Therasseの主導のもとで管理され、標的病変数の削減、奏効確認の必要性、リンパ節測定規則などが奏効および無増悪生存期間（PFS）の結果に与える影響を評価するために用いられた。この解析結果は、本ガイドラインの変更点の大部分を裏付けるエビデンスとして機能し、Bogaerts et al. (2009) の並行論文で詳細に報告されている。統計解析においては、奏効割合（ORR: Objective Response Rate）やPFSなどのエンドポイントに対する各変更点の影響を評価するために、Cox regression モデルや log-rank テストなどの手法を用いて行われた。例えば、標的病変数の削減に関する解析では、異なる病変数設定がORRやPFSの推定精度に与える影響が比較された。
シミュレーションスタディ: Larry SchwartzとRobert Fordは、RECIST 1.0の特定の側面（例：測定病変数）の変更が奏効評価に与える影響を評価するためのシミュレーション研究を実施した。Moskowitz et al. (2009) の研究では、測定病変数の削減が奏効評価に与える影響がシミュレーションによって評価され、最大5病変（臓器あたり2病変）への削減が全体の奏効判定に大きな影響を与えないことが示された。
文献レビュー: ワーキンググループは、関連する文献の広範なレビューを実施し、RECIST 1.0の発表以降に蓄積された新たな科学的知見や臨床的課題を評価した。これには、新しい画像診断技術（FDG-PET、MRI）の進歩や、分子標的薬の登場による治療効果評価の複雑化に関する議論が含まれた。

本ガイドラインは、NCT00003000 などの臨床試験登録システムに登録されるような大規模な臨床試験での使用を想定しており、試験デザインにはランダム化比較試験や非ランダム化試験が含まれる。統計的な評価基準の標準化により、異なる試験間でのメタアナリシスの信頼性を担保することが可能となった。

Research Wiki

エクスプローラー

New Response Evaluation Criteria in Solid Tumours: Revised RECIST Guideline (Version 1.1)

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク