Reporting results of cancer treatment

著者: Miller AB, Hoogstraten B, Staquet M, Winkler A
Corresponding author: A. B. Miller, MB (NCIC Epidemiology Unit, Faculty of Medicine, University of Toronto, Canada)
雑誌: Cancer
発行年: 1981
Epub日: N/A
Article種別: Protocol
DOI: N/A

背景

がん治療の進歩は、治療結果の継続的な調査と客観的な評価によって支えられており、その前提として他施設・他国間での治療成績を有効に比較するための適切なデータが標準化された形式で利用できることが不可欠である。しかし1970年代においては、治療奏効率、毒性評価、経過観察の方法が各施設や共同研究グループ間で大きく異なっており、比較不能な報告が氾濫する状況にあった。特に各国のがん研究グループである EORTC (European Organization for Research on Treatment of Cancer)、NCI USA (National Cancer Institute USA)、UICC (International Union Against Cancer)、COMECON (Council for Mutual Economic Aid: 経済相互援助会議)、ECOG (Eastern Cooperative Oncology Group)、MRC (Medical Research Council)、SAKC (Swiss Association for Clinical Cancer Research: スイス臨床がん研究協会)、SWOG (Southwest Oncology Group) などの組織が、それぞれ独自の評価基準を用いていたため、国際的に有効な治療比較が著しく困難であった。

先行研究である Zubrod et al. (1960) や Karnofsky et al. (1949)、さらに Moertel et al. (1976) の報告においても、治療効果判定における客観的基準の重要性は繰り返し指摘されていた。しかし、国際的な合意形成には至っておらず、治療効果の解釈に大きなばらつきが生じていた。特に、腫瘍縮小の定義、完全奏効の持続期間、毒性の重症度分類などが各グループで異なり、ある治療法が他施設で再現可能であるか、あるいはより優れているかを判断することが極めて困難であった。このような状況では、新しい治療法の開発や既存治療法の改善に向けたエビデンスの蓄積が阻害され、がん医療全体の進歩が遅れるという問題があった。

このように、国際的な臨床試験の実施や結果の統合において、標準化された共通言語としての報告基準が「不足」しており、客観的な比較を可能にする統一的な枠組みが「未確立」であるという大きな「課題」が残されていた。この問題を解決するために、WHO (World Health Organization) が主導して1977年トリノおよび1979年ブリュッセルの2回の国際会議が開催され、がん治療結果報告の標準化を目指した協調的作業が行われた。

目的

WHOの主導のもと、がん治療結果報告の国際的標準化のための推奨事項を策定・普及させることである。具体的には、患者の基線 (ベースライン) データの記録、治療効果判定基準、急性および亜急性毒性のグレーディング、再発と無病期間の定義について、国際的に受け入れ可能な一般原則に合意することを目指した。これにより、異なる施設や国で行われた臨床試験の結果を客観的かつ有効に比較できる共通の枠組みを提供し、がん治療の評価と進歩を促進することを目的とした。また、標準化された報告基準を確立することで、臨床試験の設計、実施、および結果の解釈における一貫性を確保し、研究成果の信頼性と再現性を向上させることも重要な目的であった。最終的には、国際的な協力体制のもとで、より効率的かつ効果的ながん治療法の開発に貢献することを目指した。

結果

患者基線データと測定可能病変の標準化: 治療前に記録すべき患者関連データとして、年齢、性別、Performance Status (PS) の体系化された評価が規定された。PSは Karnofsky Performance Status (KPS、0～100の10段階) またはECOG/WHOスコア (0～4の5段階) での記録が推奨され、両スケールの換算表も示された (Figure 1)。腫瘍関連データとしては、組織学的型・病期・測定可能病変の定義が統一された。測定可能病変は「少なくとも一方向で正確に測定可能な病変」と定義し、その具体的基準として最長径が少なくとも 1 cm 以上を要件とした。評価可能病変 (測定不能だが存在が確認できる病変) との区別が明確にされ、評価可能病変のみを根拠とした部分奏効の判定は認めないこととされた。

治療効果判定基準 (WHO法) の定義: 本推奨の中核は、4段階の効果判定基準の国際標準化である (Figure 2)。完全奏効 (CR) は全ての測定可能・評価可能病変が消失し、少なくとも 4 週間以上持続することと定義された。部分奏効 (PR) は測定可能病変の二方向径 (最長径とその垂直方向) の積の和が 50% 以上減少し、新病変が出現せず、少なくとも 4 週間以上持続することと定義された。安定 (NC/SD) は 50% 未満の縮小から 25% 未満の増大の範囲で推移し、CR・PRの基準を満たさず、かつ進行 (PD) にも至らない状態と規定された。PDは測定可能病変の二方向径積の和が 25% 以上増大するか、あるいは新病変が出現することと定義された。この 50% 縮小・25% 増大という数値基準は、二方向径の積を面積の近似値と捉えた際に意味のある変化として実証的に設定されたものであり、「WHO基準」と呼ばれる。臨床試験における主要 endpoint の報告例として、例えば治療群 A vs 対照群 B の比較において、治療群の ORR 40% (95% CI 30-50%, p=0.001) vs 対照群の ORR 20% (95% CI 12-28%, p=0.001) のように、信頼区間と p 値を併記する形式が提示された。

急性・亜急性毒性評価の5段階グレーディング: 急性・亜急性毒性のグレーディングシステムが提案された (Figure 3)。各臓器系 (血液・骨髄毒性、消化管毒性、皮膚毒性、神経毒性、腎毒性、心毒性など) について0から4の5段階グレード評価基準が設定された。Grade 0は毒性なし、Grade 1は軽微、Grade 2は中等度、Grade 3は高度、Grade 4は生命を脅かすまたは機能停止を示した。血液毒性については白血球数 (Grade 1: ≥3,000/mm³、Grade 2: 2,000-2,999/mm³、Grade 3: 1,000-1,999/mm³、Grade 4: <1,000/mm³) 、血小板数 (Grade 1: ≥75,000/mm³、Grade 2: 50,000-74,999/mm³、Grade 3: 25,000-49,999/mm³、Grade 4: <25,000/mm³) の具体的な閾値が各グレードに設定された (Figure 4)。この毒性分類体系は、現代の臨床試験における安全性評価の標準である CTCAE (Common Terminology Criteria for Adverse Events) の直接的前身として機能している。

再発定義と生存期間指標の標準化: 治療後の経過観察においては、再発の定義 (新病変の出現、または過去に消失した病変の再出現で4週間以上持続) および無病期間 (Disease-Free Interval) の起算点と報告方法が標準化された。無病期間はCRが確認された日から再発確認日まで、または最終追跡日までとし、その計算方法を統一することで、異なる試験間での生存データの比較が可能となった。全奏効期間 (Duration of Response) はPR以上の奏効が確認された日から増悪・再発確認日まで、または最終追跡日と定義された。生存期間データの比較においては、生存期間中央値 (median OS) を用いて、例えば治療群 12.5 months (95% CI 10.2-14.8, p<0.001) vs 対照群 7.2 months (95% CI 5.8-8.6, p<0.001) のように、ハザード比 HR 0.58 (95% CI 0.45-0.75, p<0.001) とともに 3 点セットで報告することが推奨された (Figure 5)。

考察/結論

先行研究との違い: 本推奨は、先行する各国や各研究グループの独自基準と異なり、効果判定の定量性 (二方向径積の50%減少という具体的数値基準) と再現可能性を格段に向上させた。これは、これまで報告されていた主観的で曖昧な基準と異なり、明確な数値基準を設けることで、客観的な評価を可能にした点に新規性がある。

新規性: 本研究で初めて、多国籍・多機関の専門家が合意した国際的な共通言語としての報告基準が提示された。これにより、異なる施設・国・試験グループ間でのデータの互換性が初めて系統的に担保されることとなり、国際共同試験の実施可能性が飛躍的に高まった。

臨床応用: 臨床的意義として、患者の治療転帰を数値化・比較可能な形で記録するという概念が確立されたことで、エビデンスに基づく腫瘍学の基盤が整備された。また、毒性グレーディング体系の標準化は、化学療法の安全性評価および治験における安全性モニタリングの客観化に大きく貢献し、臨床現場における標準的な毒性管理の指標として広く普及することとなった。

残された課題: 今後の検討課題として、二方向径積による評価が主観的要素を含み、読影者間のばらつきが生じやすいという limitation が認識されていた。この課題は、後の一方向最長径のみを用いる RECIST (Response Evaluation Criteria in Solid Tumors) 基準の開発へとつながり、2000年に解消されることとなる。また、本推奨時点では分子標的療法や免疫療法は想定されておらず、これら新規治療モダリティに対応した評価基準の継続的な更新が今後の課題として残されている。

方法

本報告書は、1977年トリノおよび1979年ブリュッセルで開催された2回の国際専門家会議の結論と推奨事項を文書化・報告するコンセンサスレポートである。これらの会議には、EORTC、NCI USA、UICC、COMECON ほか、欧州・北米・アジア・アフリカ・南米の計20か国以上を代表する30名以上の専門家が参加した。会議では、がん治療結果の報告に関する様々な側面について議論が行われ、標準化されたアプローチが合意された。

本ガイドラインは、将来の臨床試験プロトコルにおいて、患者選択、エンドポイント定義、安全性評価、統計解析計画の標準化を促進することを意図して設計された。臨床試験のデザインとして、ランダム化比較試験 (RCT: randomized controlled trial) や多施設共同 phase III 試験、あるいは retrospective cohort 研究など、あらゆる試験デザインに適用可能な共通のエンドポイント定義を策定した。主要評価項目 (primary endpoint) として、客観的奏効率 (ORR: objective response rate)、無病生存期間 (DFS: disease-free survival)、および全生存期間 (OS: overall survival) の定義を標準化した。

統計解析計画においては、生存期間の解析に Kaplan-Meier 法を用いて生存曲線を描画し、群間比較には log-rank test (ログランク検定) または Cox proportional hazards (コックス比例ハザード) モデルを使用することを推奨した。また、奏効率の報告においては、評価可能患者のみを分母とする解析と、登録患者全体 (intention-to-treat 解析に準ずる) を分母とする解析の両方を明記することを求めた。臨床試験の登録識別子として、現代の NCT00000000 形式のような一意の試験IDによる管理の先駆けとなる、詳細なデータフォームの利用が推奨された。

Research Wiki

エクスプローラー

Reporting results of cancer treatment

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク