• 著者: Aaronson NK, Ahmedzai S, Bergman B, Bullinger M, Cull A, Duez NJ, et al.
  • Corresponding author: N. K. Aaronson, PhD (The Netherlands Cancer Institute, Amsterdam)
  • 雑誌: Journal of the National Cancer Institute
  • 発行年: 1993
  • Epub日: N/A
  • Article種別: Original Article
  • PMID: 8433390

背景

がんの臨床試験において、治療効果の評価は伝統的に生存期間や腫瘍縮小率といった客観的指標に焦点が当てられてきた。しかし1980年代以降、がん治療の進歩に伴い、患者が自身の健康状態や治療による影響を直接報告する患者報告アウトカム (PRO: Patient-Reported Outcomes) が治療毒性と利益のバランスを総合的に判断するための不可欠な評価項目として認識されるようになった。生活の質 (QOL: Quality of Life) 評価は、治療選択・患者への情報提供・医療政策決定において重要な役割を果たし、米国食品医薬品局 (FDA: Food and Drug Administration) も新規抗がん剤承認の判断材料として QOL データの提出を要求するようになった。

1980年代後半において、国際的なが臨床多施設共同試験で標準的に使用できる、がん患者に特化した十分に検証された QOL 評価ツールが不足していた。当時いくつかの尺度が開発されていたが、それぞれに重大な限界があった。Functional Living Index-Cancer (FLIC) や Rotterdam Symptom Checklist はがん患者の QOL 評価に有用であったが、多言語での概念的同等性や文化横断的な適用可能性が不十分であり、国際共同試験には耐えられなかった。Cancer Rehabilitation Evaluation System-Short Form (CARES-SF) は長尺で患者負担が高く、国際多施設試験への適用に支障をきたした。また MOS 36-Item Short-Form Health Survey (SF-36) のような一般的健康状態尺度は、がん治療特有の症状(悪心・脱毛・特定の疼痛パターン)を体系的に評価できず、腫瘍学的臨床試験への適合性が限られていた。こうした gap in knowledge を背景に、EORTC (European Organization for Research and Treatment of Cancer) の QOL Study Group は1980年代初頭から多次元的な QOL 側面を捉え、かつ異なる文化・言語の患者にも適用可能な汎用ツールの開発プログラムを開始した。

このプログラムは複数のパイロット版(36項目版・初期 QLQ-C36)を経て最終化された EORTC QLQ-C30 バージョン1.0として結実した。本研究は、13か国にわたる大規模国際フィールドテストを通じて QLQ-C30 の信頼性・妥当性・国際的実施可能性を包括的に検証し、がん臨床試験 QOL 評価の標準化に道を開くことを目的とした。

目的

本研究の主要な目的は以下の3点である。(1) 国際的ながん臨床試験で横断的に使用可能な自記式 QOL 質問票である EORTC QLQ-C30 バージョン1.0を提示し、その構成と採点方法を明確にすること。(2) 13か国から登録された肺癌患者 n=305例を対象とした大規模な多施設共同フィールドテストを通じて、EORTC QLQ-C30 の信頼性(内的整合性および再テスト信頼性)・妥当性(構成概念妥当性・収束的妥当性・既知群妥当性)・国際的適用可能性を包括的に検証すること。(3) コア質問票 QLQ-C30 に疾患特異的モジュール(肺癌モジュール LC-13)を付加するモジュール方式の実現可能性と、それによる QOL 評価の補完的価値を実証することである。これにより EORTC QLQ-C30 が国際的ながん臨床試験における標準的 QOL 評価ツールとして確立されることを目指した。

結果

患者背景と質問票の実施可能性:本研究には13か国から合計 n=305例の肺癌患者(非小細胞肺癌および小細胞肺癌)が登録され、12か国語版の EORTC QLQ-C30 が使用された (Fig 1)。質問票の完全記入率は88%以上と非常に高く、記入に要する平均時間は11分であった。これは重篤な状態の患者でも簡便に完遂できる実用性を示しており、記入忌避・途中放棄は全体の12%未満にとどまった。患者の WHO パフォーマンスステータスは PS 0-1 の良好群が多数を占め、非小細胞肺癌・小細胞肺癌のさまざまな病期の患者が混在していた。

信頼性:内的整合性および再テスト信頼性:多項目尺度の内的整合性を評価した Cronbach α係数では、身体機能尺度 (α=0.86)・情緒機能尺度 (α=0.81)・社会機能尺度 (α=0.80) が高い内的整合性を示した (Table 1)。症状尺度でも疲労 (α=0.78)・疼痛 (α=0.75)・悪心嘔吐 (α=0.72) が目標値 α≥0.70 を達成した。一方、役割機能尺度 (α=0.54) と認知機能尺度 (α=0.58) は目標値未達であったが、いずれも2項目構成の短尺度であり項目数の少なさが一因と考察された。安定した患者サブグループでの1〜2週間後の再テスト信頼性(ICC)は機能尺度・症状尺度ともに概ね良好で、ICC=0.60-0.90 の範囲であった (Fig 4)。これはQLQ-C30が時間的に安定した測定値を提供することを示している。

妥当性:構成概念妥当性および収束的妥当性:多特性−多方法 (MTMM) 分析では、同一構成概念を測定する項目間の収束的相関が、異なる構成概念を測定する項目との弁別的相関よりも有意に高かった(いずれも p<0.001)(Fig 3)。身体機能・情緒機能・社会機能の各項目は他尺度への因子負荷量よりも自尺度への因子負荷量が統計的に高く、各尺度が意図する構成概念を適切に測定していることを支持した。WHO パフォーマンスステータスとの収束的妥当性では、PS 良好患者 (PS 0-1) は全5機能尺度で高スコア・全3症状尺度で低スコアを示し(p<0.001)、各尺度と PS 間の Spearman 相関係数は r=0.30-0.55 の範囲で中等度から良好な相関が確認された (Fig 12)。これはQLQ-C30が臨床的重症度と一致するQOL評価を提供することを示唆する。

既知群妥当性:PS 分類および治療意図別:PS 0-1 群と PS 2-4 群の比較において、全機能尺度・全症状尺度で統計的に有意な差が認められた(いずれも p<0.001)(Fig 5, Fig 6)。PS 不良群は機能スコアが低く症状スコアが高い傾向で、重症例ほど QOL が悪化するという臨床的に予測可能な方向性が確認された。治療意図別(積極的治療 vs 姑息的支持療法)では、積極的治療群で悪心嘔吐スコアが有意に高く(p<0.05)、治療による副作用を鋭敏に検出できることが実証された (Fig 7)。疾患重症度が高い患者群では全般的 QOL スコアが有意に低下し(p<0.001)、疲労・疼痛スコアが上昇した (Fig 8, Fig 9)。これら「既知の」臨床的差異が QLQ-C30 で有意に検出されたことは、本尺度が実際の臨床場面での感度と弁別能力を有することを実証した。

国際的適用可能性と言語版間比較:13か国で使用した12言語版 QLQ-C30 において、各尺度の平均スコアは概ね一致していた。身体機能尺度の平均値は各国版で70-85点(100点満点)の範囲にあり、各国版間の 95% CI の幅は10-15点以内であった (Fig 2)。言語版間でのスコア差は小さく、その分散の5-15%程度が患者特性(PS・病期・治療)の差で説明された。この結果は QLQ-C30 が文化横断的な測定同等性を有しており、異なる言語・文化圏の患者間での QOL スコアの比較が可能であることを強く支持する。forward-backward translation method の厳格な適用により、概念的同等性が12言語版すべてで維持されていることが確認された。完全記入率は言語・国によらず88%以上で安定していた。

モジュール方式の検証:肺癌モジュール LC-13:コア QLQ-C30 に肺癌特異的モジュール LC-13(13項目)を付加した複合評価(合計43項目、記入時間15-18分)の実施可能性が確認された (Fig 10, Fig 11)。LC-13 は化学療法由来の末梢神経障害・口内炎・脱毛・呼吸器症状(呼吸困難・咳・喀血)・神経認知症状(頭痛・ふらつき)を評価する。LC-13 の内的整合性は α=0.75 と良好であり、n=305例中93%が完全記入を完了した。コア QLQ-C30 単独の完全記入率(88%以上)と有意差がなく(p>0.05)、モジュール付加による患者負担の増加は最小限であることが明確に示された。コア QLQ-C30 では捉えられない肺癌固有の症状が LC-13 によって適切に補完され、モジュール方式の有用性が実証された。

考察/結論

EORTC QLQ-C30 は13か国にわたる国際フィールドテストを通じて、その信頼性・妥当性・国際的実施可能性が包括的に検証された、がん特異的 QOL 評価ツールとして確立された。本研究は、国際的ながん臨床試験における QOL 評価の標準化に向けた重要な到達点を示している。

先行研究との違い:これまでのQOL評価ツールが特定の言語圏や文化圏での検証に留まっていたのと対照的に、本研究は欧米13か国にまたがる多言語・多文化での同時検証を実施し、各国版の交換可能性(異なる言語版スコアが比較対象として有効)を実証した。FLIC や Rotterdam Symptom Checklist などの先行ツールと大きく異なるのは、がん治療特有の症状(悪心・脱毛・特定の疼痛パターン)を症状尺度として明示的に評価する設計であり、これにより腫瘍学的臨床試験への適合性が既報の尺度を大きく超えた。SF-36 のような一般的健康状態尺度との違いは、がん患者特有の症状評価項目を体系的に組み込んだ点にある。また、コア質問票と疾患特異的モジュールを組み合わせる「モジュール方式」は、これまでの単一固定尺度の設計思想とは根本的に異なるアプローチである。

新規性:本研究で初めて、大規模多施設共同試験において EORTC QLQ-C30 の多言語版が文化横断的に同等な測定特性を有することを実証した。Cronbach α係数が大多数の多項目尺度で α≥0.70 を達成し、ICC=0.60-0.90 の再テスト信頼性と Spearman r=0.30-0.55 の収束的妥当性が確認されたことは、新規の大規模国際検証によって初めて得られた知見である。「コア+モジュール」方式の概念を肺癌モジュール LC-13 で実証し汎用性と疾患特異性を両立させたことも、本論文の新規の独自貢献である。患者報告アウトカム (PRO) が現代のがん臨床試験の標準エンドポイントとなった今日の視点から、本論文はその科学的基盤を確立した出発点として、その後の PRO 評価研究に根本的な影響を与えた(Basch et al. NEnglJMed 2017)。

臨床応用:EORTC QLQ-C30 は、その後の EORTC および他の国際協力グループが実施するすべての第 II・III 相試験の標準 QOL 評価ツールとして採用され、現在まで600以上の臨床試験で使用されている。治療による副作用(悪心・疲労)と機能低下(身体・社会機能)を鋭敏に捉え、患者への情報提供と治療選択において極めて臨床的有用性が高い。臨床応用の観点から、現代の大規模 NSCLC 試験でも QLQ-C30 は QOL エンドポイントとして広く活用されており(Antonia et al. LancetOncol 2018)、臨床的意義の定量化に貢献し続けている。さらに PD-L1 陽性 NSCLC 一次治療試験においても QOL エンドポイントが主要評価項目として組み込まれ(Reck et al. LancetOncol 2016)、QLQ-C30 はその測定基盤として機能している。

残された課題:本研究にはいくつかの limitation が存在する。QLQ-C30 バージョン1.0では役割機能尺度 (α=0.54) と認知機能尺度 (α=0.58) の内的整合性が目標値に達しなかった問題は、後の QLQ-C30 バージョン3.0(1996年)での項目改訂により改善された。4点リッカートスケールと視覚アナログスケール (VAS: Visual Analogue Scale) の感度比較、および各尺度の最小臨床重要差 (MCID: Minimum Clinically Important Difference) の確立が今後の重要な検討課題として挙げられる(後に各尺度で5-10点が目安として提案)。また本研究が肺癌患者に限定されているため、他の腫瘍種への汎用性については追加検証が必要であり、今後の研究においても各疾患特異的モジュールの開発と検証が継続的に進められる必要がある。更なる検討として、QOL 評価の時点・頻度・結果解釈の標準化、および言語版の追加開発も重要な課題である。

方法

質問票の構成と採点:EORTC QLQ-C30 バージョン1.0は30項目の自記式質問票であり、平均記入所要時間は11分と設定された。質問票は5つの機能尺度、3つの症状尺度、1つの全般的健康状態/QOL 尺度、および6つの単一症状項目から構成される。機能尺度は身体機能 (PF: Physical Functioning, 5項目)・役割機能 (RF: Role Functioning, 2項目)・認知機能 (CF: Cognitive Functioning, 2項目)・情緒機能 (EF: Emotional Functioning, 4項目)・社会機能 (SF: Social Functioning, 2項目) の計15項目。症状尺度は疲労 (FA: Fatigue, 3項目)・悪心嘔吐 (NV: Nausea and Vomiting, 2項目)・疼痛 (PA: Pain, 2項目)。全般的健康状態/QOL 尺度は2項目。単一症状項目として呼吸困難・不眠・食欲不振・便秘・下痢・経済的困難の6項目を含む。全般的 QOL 尺度を除く回答は「全くない(1)」から「非常にある(4)」の4点リッカートスケール、全般的 QOL のみ「非常に悪い(1)」から「非常に良い(7)」の7点スケールで評価された。すべてのスコアは0-100の範囲に線形変換され、機能尺度は高スコアが良好な機能、症状尺度は高スコアが高い症状負担を意味する。

国際フィールドテストの実施:本研究は13か国(オランダ・英国・スウェーデン・ノルウェー・フィンランド・デンマーク・フランス・ベルギー・ドイツ・イタリア・スペイン・カナダ・米国)の EORTC 参加施設から非小細胞肺癌および小細胞肺癌患者を登録した多施設共同試験として実施された。質問票は各国語に翻訳された12か国語版(forward-backward translation method で概念的同等性を確保)が使用された。データ収集はベースライン時と1〜2週間後の再テスト時の2回実施された。

評価指標と統計解析:信頼性の評価として、多項目尺度の内的整合性は Cronbach α係数(目標値 α≥0.70)、再テスト信頼性は安定患者サブグループにおける Pearson 相関係数および級内相関係数 (ICC: Intraclass Correlation Coefficient) を用いた。妥当性の評価として、構成概念妥当性は因子分析および多特性−多方法 (MTMM: Multi-Trait Multi-Method) 相関行列、収束的妥当性は WHO パフォーマンスステータス (PS: Performance Status) との Spearman 相関係数、既知群妥当性は PS 良好群 (PS 0-1) と PS 不良群 (PS 2-4) の比較に t 検定または ANOVA を用いた。治療意図群(姑息的治療 vs 積極的治療)間の比較も実施された。実用性として完全記入率と記入所要時間も評価された。モジュール方式の検証として、コア QLQ-C30 に肺癌モジュール LC-13(13項目)を付加した際の患者負担・完全記入率・LC-13 の Cronbach α係数が評価された。