• 著者: Rodrigues G, Lock M, D’Souza D, Yu E, Van Dyk J
  • Corresponding author: George Rodrigues (London Regional Cancer Centre, London, Ontario, Canada)
  • 雑誌: Radiotherapy and Oncology
  • 発行年: 2004
  • Epub日: N/A
  • Article種別: Systematic Review
  • PMID: 15110445

背景

放射線肺臓炎 (radiation pneumonitis: RP) は胸部照射の最も頻度の高い用量制限毒性であり、肺癌に対する根治照射を受ける患者の13〜37%に発生する。臨床的RPは照射終了後6週〜6ヶ月に発症し、呼吸困難・非産生性咳嗽・照射野に一致した浸潤影を特徴とする。RP の重症度はいくつかのスケールで評価されており、最も頻繁に使用されるものは Southwest Oncology Group (SWOG) スケール、Radiation Therapy Oncology Group (RTOG) スケール、National Cancer Institute Common Toxicity Criteria (NCI CTC) スケールである。これらのスケールは一般的に0 (RP なし) から5 (RP による死亡) の範囲であり、ステロイド投与を必要とするRP はスケールに応じてグレード2または3に分類される。酸素使用はグレード3 RP を示し、生命を脅かすRP は通常グレード4毒性に相当する。

3次元CT計画 (3D-CT) の普及により、線量体積ヒストグラム (dose-volume histogram: DVH) から肺組織の線量-体積関係を定量化できるようになり、DVHパラメータによるRPリスク予測が研究されてきた。主要なDVHパラメータとしてVdose (V20Gy・V25Gy・V30Gy)、平均肺線量 (mean lung dose: MLD)、正常組織合併症確率 (normal tissue complication probability: NTCP) の3クラスが存在する。Vdose は CT定義された全肺体積のうち、閾値線量 (20・25・30 Gy) 以上を受ける割合 (%) として定義される。MLDは CT定義された全肺体積の平均線量として定義される。一方、NTCPは肺DVHと肺耐容線量の推定値から計算された数学的モデルであり、Lyman モデルや Kutcher モデルなど複数の手法が開発されている。

患者・腫瘍・治療に関連するRP の多くのリスク因子が文献で同定されている。低い performance status、肺機能低下、原発腫瘍の下葉位置、化学療法の使用 (特に同時化学放射線療法)、高い放射線線量、高い線量率、大きな照射体積、血漿 transforming growth factor beta (TGFβ1) の上昇がすべてRP の発症および/または重症度の増加と関連している。最近、3D CT計画から生成された肺DVHパラメータがRP の発症と肺機能検査の変化を予測する能力について調査されている。Photon Treatment Planning Collaborative Working Group により、1/3・2/3・全肺に対する consensus pulmonary tolerance doses (5年でのRP の5%および50%発症率) が最初に編集されたが、対になった肺に対する consensus は達成されなかった。

各DVHパラメータの予測精度を比較した系統的レビューは存在しなかった。複数の個別研究では DVH パラメータとRP の関連を報告しているが、これらの研究間での検査特性 (感度・特異度・陽性予測値・オッズ比) の一貫性、および臨床的予測ツールとしての有用性は明確でない。従来「V20<30〜35%・MLD<20 Gy」が臨床的制約値として広く使用されてきたが、これらの閾値の予測精度が限定的であるかどうかは系統的に評価されていない。先行研究では個別のDVHパラメータと RP リスクの有意な関連が報告されているものの、感度・特異度・陽性予測値といった検査特性の全体像は不足しており、単一パラメータが臨床的予測ツールとして十分な予測力を有するかどうかは未解明である。

目的

肺癌に対する根治外照射後のRPリスク予測における3種のDVHパラメータ (Vdose・MLD・NTCP) の予測能を系統的にレビューし、各パラメータの感度・特異度・正確度・陽性予測値・オッズ比等の検査特性を算出すること。さらに、これらのDVHパラメータが単独で、または他の臨床的・生物学的リスク因子と組み合わせた場合に、RP リスク予測にどの程度有用であるかを評価することを目的とした。本系統的レビューは、3種のDVHパラメータの予測精度を統合的に比較し、臨床的予測ツールとしての実用性を定量的に評価する初めての試みである。

結果

文献検索と研究特性: 検索戦略を用いて、合計12の公開論文と2つの抄録が同定された。分類評価により、報告の中で3つの研究は Level 1、6つは Level 2、3つの研究は Level 3、2つは Level 4 であった。11の研究が Vdose を評価し、7つが MLD を評価し、8つが NTCP を評価した。RP 有病率は研究間で13〜37% の範囲であった (主要研究: Graham 17%、Hernando 19%、Tsujino 28%、Rancati 17%)。各研究での RP 評価スケールは異なり、SWOG・RTOG・NCI CTC・修正 NCI CTC・LENT-SOMA・院内スケールが使用された。RP 評価時期も6〜24ヶ月と幅広かった。

Vdose (V20・V25・V30 Gy) の検査特性: 11の研究が Vdose を評価した。オッズ比は 1.41〜13.2 (下限95% CI: 0.48〜2.76) と研究間で大きく変動し、一部は下限95% CI<1で有意性が不安定であった。Tsujino (n=71、同時化学放射線療法) ではV20 Gy>25%で単変量 p=0.0001、多変量 p=0.002と有意な関連を示した。Graham (n=99) ではV20 Gy>31%を閾値とした場合に陽性予測値 (PPV) 0.18、感度 0.75、特異度 0.49、正確度 0.52と低値を示した。Hernando (n=201) ではV30 Gy多変量解析で p=0.003と有意、Armstrong (n=31) ではV25 Gy>30%で OR 13.2 (95% CI 1.1-154.9)、PPV 0.38、感度 0.75、特異度 0.82、正確度 0.81を示した。Marks (n=67) ではV30 Gy の四分位数解析で OR 1.41 (95% CI 0.48-4.85)、PPV 0.30、感度 0.56、特異度 0.53、正確度 0.54であった。Fu (n=78) ではV30 Gy≥30%で OR 1.58 (95% CI 0.52-4.78)、PPV 0.25、感度 0.50、特異度 0.62、正確度 0.59を示した。全体として、Vdose の感度は52〜81%、特異度は49〜82%、正確度は52〜81%の範囲にあり、PPV は18〜64%と低値であった。Vdose パラメータの検査特性は研究間で大きく異なり、単一の閾値 (V20<30% など) では十分な予測精度が得られないことが示唆された (Figure 1)。

MLD (平均肺線量) の検査特性: 7つの研究が MLD を評価した。オッズ比は 2.02〜5.66 (下限95% CI: 0.94〜1.50) と3指標中で最も安定した結果を示した。Kwa (n=400、多施設) ではMLD>16 Gy群でRP率43% (0〜8 Gy群: 5%)、OR 2.39 (95% CI 1.35〜4.22)、PPV 0.21、感度 0.66、特異度 0.55、正確度 0.56と用量-反応関係が示された。Graham (n=99) ではMLD≥21 Gy vs <20 Gyで OR 5.66 (95% CI 1.50〜21.36)、PPV 0.27、感度 0.81、特異度 0.57、正確度 0.61を示した。Hernando (n=201) ではMLD≥21 Gy で OR 2.02 (95% CI 0.98-4.17)、PPV 0.25、感度 0.64、特異度 0.53、正確度 0.55であった。Oetzel (n=66) ではMLD≥22.5 Gy で PPV 0.27、感度 0.70、特異度 0.63、正確度 0.65を示した。全研究においてMLDとRP率の単調増加傾向が確認されており、3指標中で最も一貫した関連が示された。全体として、MLD の感度は64〜81%、特異度は53〜63%、正確度は55〜65%の範囲にあり、PPV は21〜27%であった。MLD は他の2つのパラメータと比較して用量-反応関係が最も明確であり、臨床的に最も有用な単一パラメータと考えられた (Table 2)。

NTCP (正常組織合併症確率) の検査特性: 8つの研究が NTCP を評価した。オッズ比は 1.93〜11.18 (下限95% CI: 0.64〜1.35) と変動が大きかった。Armstrong (n=31) ではNTCP≥12% vs <12%でFisher’s exact p=0.03、Martel (n=42) ではNTCP>20% vs <20%でOR 6.13 (95% CI 1.09〜34.34)、PPV 0.37、感度 0.37、特異度 0.91、正確度 0.68と有意な関連が示された。Marks (n=67) ではNTCP の四分位数解析で OR 1.93 (95% CI 0.64-5.81)、PPV 0.29、感度 0.56、特異度 0.55、正確度 0.54であった。Hernando (n=201) ではNTCP の四分位数解析で OR 2.02 (95% CI 0.98-4.17)、PPV 0.33、感度 0.61、正確度 0.57を示した。Oetzel (n=66) ではNTCP≥30% (ipsilateral lung) で PPV 0.29、感度 0.56、特異度 0.80、正確度 0.76を示した。他研究では有意性が示されない場合もあった。NTCPモデルのパラメータ設定 (Lyman vs Kutcher、m・n・TD50値の相違) が研究間で異なる点が不均一性の主因であった。全体として、NTCP の感度は56〜100%、特異度は55〜79%、正確度は55〜76%の範囲にあり、PPV は21〜33%であった (Table 3)。

偽陰性率と多変量モデルの優位性: DVHパラメータが「低リスク」にもかかわらずRP発症した偽陰性率は、Vdose 25〜50%、MLD 19〜36%、NTCP 0〜44%と高く、単一DVHパラメータのみでは十分な予測が困難であることが示された。複数因子を組合せた多変量モデルがDVH単独より優れることを示した研究が複数存在した。Marks (n=67) は NTCP と pre-RT DLCO (拡散能) の多変量モデルが RP 率の強力な予測因子であることを示した (p<0.0001)。Fu (n=78) は TGFβ1 レベルが RP リスクの独立した予測因子であり、TGFβ1 の変化と V30 Gy を組み合わせた複数リスク群分類により、TGFβ1 単独より RP リスク予測能が改善されることを示した。Hernando (n=201) は V30 Gy と喫煙習慣 (保護的効果) が RP リスクの独立した予測因子であり、組合せ予測能が68%に達することを示した。Rancati (n=84) は化学療法・総放射線線量・COPD の存在が V20 Gy に加えて RP 予測モデルに関連することを示した。5つの研究のうち4つが、複数の RP リスク因子を用いた複雑なモデリングが DVH メトリクスの予測能を改善する可能性があることを示唆した (Figure 2)。

肺領域別の検査特性: Yorke (n=49) は肺領域特異的 DVH パラメータを解析し、下葉 MLD (p=0.05)・NTCP (p=0.04) と RP リスクの有意な相関を見出した。V20 Gy は p=0.10 で統計的有意性に接近していた。Graham (n=99) は下葉腫瘍患者でRP率が高い傾向を認めた (29% vs 11%、グレード≥2 RP、p=0.02)。一方、Fu・Hernando・Tsujino の3つの臨床論文では腫瘍位置が単変量および/または多変量解析で RP リスクの有意な予測因子ではなかった。

研究間の不均一性: 研究間での不均一性により、メタ解析は実施不可能と判断された。不均一性の主な原因は: (1) DVH 計算法・RP 評価スケール・閾値定義の相違、(2) RP 評価時期の幅広い変動 (6〜24ヶ月)、(3) RP グレード定義の相違 (グレード≥1 vs ≥2 vs ≥3)、(4) NTCP モデルのパラメータ設定の相違 (Lyman vs Kutcher、m・n・TD50 値)、(5) 患者背景・腫瘍因子・治療因子の報告の不完全性、(6) CT 輪郭描出法・DVH 計算法の詳細報告の不足であった。

考察/結論

先行研究との違い: 本系統的レビューは、Vdose・MLD・NTCPの3クラスのDVHパラメータはいずれもRPリスクと有意な関連を示すものの (全計算オッズ比>1)、単一パラメータとしての予測精度は不良〜可 (感度50〜81%、特異度49〜82%、正確度52〜81%) であることを示した。MLDが最も一致した予測能を示したが (OR 2.02〜5.66、下限95% CI全て0.94以上)、正確度は56〜65%に留まり独立した予測ツールとして不十分である。従来「V20<30〜35%・MLD<20 Gy」が臨床的制約値として広く使用されてきたが、これらの閾値の予測精度が限定的であることを初めて系統的に示した点で重要である。個別研究では有意な関連を報告していたが、複数研究の検査特性を統合的に評価した系統的レビューは存在しなかった。

新規性: 本レビューで初めて、14報の文献から計算された感度・特異度・PPV・オッズ比を統合的に比較し、3種のDVHパラメータが全て不十分な予測力を有することを定量的に示した。特に、偽陰性率が Vdose で25〜50%、MLDで19〜36%、NTCPで0〜44%に達することを明示し、単一パラメータの限界を明確にした。これまでの個別研究では各パラメータの有意性を報告していたが、本レビューは検査特性の全体像を示すことで、臨床的予測ツールとしての実用性が限定的であることを初めて系統的に証明した。本研究で初めて、複数因子モデル (DVH+TGFβ1+DLCO+喫煙習慣) の優位性を複数研究から抽出し、今後の研究方向を明示した。

臨床応用: 本知見は、3D-CT計画時のRP予測における臨床的意義を再評価する必要性を示唆している。単一DVHパラメータのみに基づくRP予測は不十分であり、複数因子を統合したモデル構築が臨床的有用性を高める可能性がある。複数因子モデル (DVH+TGFβ1+DLCO+喫煙習慣) の構築により、予測精度の向上が期待される。臨床現場では、DVH パラメータを参考にしながらも、患者の肺機能・喫煙歴・化学療法の有無・腫瘍位置などの複合的な因子を総合的に評価してRP リスク層別化を行うべきである。臨床応用として、単一パラメータに依存せず、複数の臨床的・生物学的因子を組み合わせた統合的なRP予測モデルの開発が急務である。

研究間の不均一性: 研究間での不均一性 (DVH計算法・RP評価スケール・閾値定義・評価時期の相違) がメタ解析を妨げた。RP有病率の定義が研究間で異なり (グレード≥1 vs ≥2 vs ≥3)、RP評価時期も6〜24ヶ月と幅広かった。NTCPモデルのパラメータ設定 (Lyman vs Kutcher、m・n・TD50値の相違) も不均一性の原因であった。これらの不均一性は、異なる研究間での直接比較を困難にし、メタ解析による統合的な効果推定を不可能にした。

残された課題と今後の研究方向: 今後の研究は以下の10項目の報告基準を採用すべきである: (1) 患者背景・腫瘍因子・治療因子の詳細報告、(2) CT輪郭描出法・DVH計算法・仮定の明記、(3) RP評価スケール (NCI CTC v2.0) と評価時期 (6ヶ月) の標準化、(4) 個別または群データの十分な報告、(5) 感度・特異度・正確度・オッズ比 (95% CI) の報告、(6) ROC曲線の作成と報告、(7) 他の関連パラメータを含む単変量・多変量解析の実施、(8) 大規模前向き中央レジストリの構築、(9) 同時化学放射線療法増加に伴う低線量パラメータ (V15 Gy等) の検討、(10) 肺領域別 (上葉・下葉) のDVH/RP相関解析。複数因子との組合せモデルがDVH単独より優れることを示した研究が複数あり、今後の予測モデルは複数因子の統合が必須である。大規模な前向き中央レジストリにより、個別患者データを用いた複雑な RP リスク予測モデル仮説を検証するための十分な検出力が得られることが期待される。

方法

検索戦略: 1966〜2003年7月のMEDLINE・CANCERLIT・CINAHL・Cochrane Library を検索。RP・肺癌・DVH およびその関連パラメータ (NTCP・V20・V30・MLD) の同義語を Boolean 演算子 ‘AND’ で組み合わせた。検索戦略は text および exploded Medical Subject Heading (MeSH) 用語を含むように拡張された。追加的に、ASCO (2000-2002)・ASTRO (2000-2002)・ECCO (2001)・ESTRO (2000, 2002)・CARO (2000-2002)・ICRO (2001) の学会抄録を検索した。同定された全研究の参考文献セクションを検索し、主要な臨床腫瘍学および放射線腫瘍学教科書の参考文献リストを検索した。複数の胸部放射線腫瘍医および医学物理士に追加の公開および未公開データの情報提供を依頼した。

適格基準: 非転移性非小細胞肺癌 (NSCLC) または限局期小細胞肺癌 (SCLC) と診断され、従来的分割照射による根治的胸部外照射を化学療法の有無にかかわらず受けた患者を対象とした研究を適格とした。CT ベースの DVH 削減パラメータとRP 率の関係を評価した後ろ向きおよび前向き臨床研究の両方を適格とした。肺癌データが別途報告されている場合、食道癌などの他の癌診断を含む研究も適格とした。

文献評価: 2 人の査読者が独立して適格性について全ての関連論文を評価した。不一致は査読者と主著者の間の合意による議論で解決された。すべての適格研究に以下の分類スケールを適用した: Level 1 (個別または群/サブセット RP 患者データを有する前向き研究)、Level 2 (個別または群/サブセット RP 患者データを有する後ろ向きまたは混合前向き-後ろ向き研究)、Level 3 (個別または群/サブセット RP 患者データを有さない前向き研究)、Level 4 (個別または群/サブセット RP 患者データを有さない後ろ向きまたは混合研究)。

統計解析: 以前に報告された二値化データセットを用いて、DVH パラメータの存在またはレベルに関連する RP を、様々な検査特性 (陽性予測値・偽陰性率・感度・特異度・正確度) およびオッズ比 (95% 信頼区間) として表現した。利用可能な非二値化研究データセットは、四分位数を2つのグループに折りたたむか、グループ線量または体積ビンを2つの同様のサイズのグループに折りたたむことにより、オッズ比および95% オッズ比信頼区間の計算前に低リスクおよび高リスクグループに削減された。オッズ比は後ろ向き研究および前向き研究の両方で計算できるため、相対リスクよりもオッズ比を使用することが優先された。相対リスクは前向き試験でのみ評価できる。検査特性は以下のように定義された: 陽性予測値 (高リスク DVH メトリクスを有する患者が臨床的に有意な RP を有する確率)、偽陰性率 (低リスク DVH を有する患者が臨床的に有意な RP を有する確率)、感度 (臨床的に有意な RP を有する患者が高リスク DVH メトリクスを有する確率)、特異度 (臨床的に有意な RP を有さない患者が低リスク DVH メトリクスを有する確率)、正確度 (低リスク DVH メトリクスを有する患者が臨床的に有意な RP を有さず、高リスク DVH メトリクスを有する患者が臨床的に有意な RP を有する結合確率)。