Clinical value of the WHO classification system of thymoma

著者: Frank C. Detterbeck
Corresponding author: Frank C. Detterbeck (Division of Thoracic Surgery, FMB 128, 330 Cedar St, Yale University, New Haven, CT 06520-8062)
雑誌: Annals of Thoracic Surgery
発行年: 2006
Epub日: N/A
Article種別: Review
PMID: 16731193

背景

胸腺腫（thymoma）は、前縦隔に発生する比較的稀な上皮性腫瘍であり、緩徐な臨床経過をたどる一方で、周囲臓器への浸潤や胸膜・心膜播種、さらには遠隔転移を来す悪性腫瘍としての生物学的特性を有している。また、重症筋無力症（myasthenia gravis: MG）をはじめとする多彩な傍腫瘍性自己免疫疾患を高率に合併することが知られており、その病態生理や予後因子の解明は長年にわたり呼吸器外科医や病理医の関心を集めてきた。

歴史的に、胸腺腫の組織学的分類には多くの混乱が存在した。Bernatz et al. (1961) による分類（リンパ球優位型、上皮細胞優位型、混合型、紡錘細胞型）や、Verley and Hollmann (1985) による分類、さらにはMüller-Hermelink et al. (1985) による皮質型・髄質型分類など、多様な分類法が提唱されてきた。しかし、これらの分類法は病理医間の観察者間一致率が極めて低く、多変量解析（multivariate analysis: MVA）において独立した予後予測能を示さないなど、臨床的な有用性には大きな限界があった。かつては「良性胸腺腫」という誤った呼称も用いられたが、すべての病期および組織型において再発が観察されることから、現在ではこの概念は完全に否定されている。

1999年、世界保健機関（World Health Organization: WHO）は、これらの歴史的分類を整理・統合し、新たに6つのサブタイプ（Type A、AB、B1、B2、B3、C）からなるWHO胸腺腫組織分類を提唱し、2004年に改訂版を上梓した。この新分類の導入以降、世界各国の主要施設からその臨床的妥当性を検証するコホート研究が相次いで報告された。しかしながら、これらの報告における各サブタイプの頻度や臨床像、予後予測能には大きなばらつきがあり、WHO分類が真に臨床的な意思決定に寄与するものであるかについては、依然として議論が分かれており、controversialな状況が続いている。特に、病理医間での診断の再現性や、Masaoka病期（Masaoka stage）などの既存の強力な予後因子と比較した際の独立した予後予測能については、十分な検証がなされておらず、臨床現場における具体的な治療方針決定への応用方法も未確立のままであった。

このように、WHO分類の臨床的価値を包括的かつ批判的に吟味したレビューはこれまで不足しており、個々の研究結果を統合してその有用性と限界を明確に定義することが強く求められていた。本レビューは、こうした学術的・臨床的なknowledge gapを埋めるために企画されたものである。

目的

本総合レビューの主な目的は、1999年に提唱され2004年に改訂されたWHO胸腺腫組織分類システムについて、その臨床的価値と実用性を多角的な視点から批判的に評価することである。具体的には、以下の4つの主要な学術的問いに対して明確な解答を与えることを目指す。

第一に、異なる病理医間におけるWHO分類の診断再現性（interobserver reproducibility）がどの程度担保されているかを検証する。

第二に、WHO分類の各サブタイプが、患者の年齢、性別、重症筋無力症（MG）の合併率などの臨床的特徴において、真に生物学的に異なる独立した患者コホートを定義できているかを明らかにする。

第三に、胸腺腫の最も確立された予後因子であるMasaoka病期や切除完遂度（completeness of resection）を組み入れた多変量解析（MVA）において、WHO分類が独立した予後予測能を有しているかを評価する。

第四に、臨床における治療方針決定（術前化学療法の適応、術後放射線療法の要否、手術適応の判断など）に対して、WHO分類がどのような影響を与え、実臨床においてどのような付加価値を提供できるかを議論する。

これらの検証を通じて、WHO分類の現時点における有用性と限界を浮き彫りにし、今後の臨床研究および日常診療における最適な活用法を提示することを目的とする。

結果

病理診断再現性とサブタイプ頻度のばらつき: WHO分類の病理医間における診断再現性は、全体としては比較的良好な傾向が示されている。Riekerらの218例を対象とした研究では、全WHOグループを対象としたカッパ統計量（kappa statistic）は 0.87 と極めて高い一致率を示した。しかしながら、Bサブタイプ（B1、B2、B3）の内部における一致率に限定すると、カッパ統計量は 0.47 にまで低下し、病理医間での判別が困難であることが浮き彫りとなった。この分類の難しさは、複数の組織像が混在する混合型の報告頻度が、施設や研究によって 3% から 21% まで大きく変動していることからも裏付けられる。さらに、各サブタイプの全胸腺腫に占める割合も研究間で大幅に異なっており、例えばType Aは 4% から 20%、Type ABは 9% から 43%、Type B1は 6% から 27%、Type B2は 8% から 38%、Type B3は 5% から 29%、Type Cは 2% から 28% と、統計的偶然のみでは説明できない極めて大きな乖離が観察された (Table 1)。

臨床的特徴におけるサブタイプ間の多様性と一貫性: WHO分類の各サブタイプにおける患者の臨床的プロファイルを統合した結果、特定のサブタイプにおいて特徴的な臨床像が観察された。11研究の平均データによると、Type Aは年齢中央値 63 歳、男性比率 40%、MG合併率 14% であった。これに対し、Type ABは 54 歳、43%、18% であり、Bサブタイプでは年齢がさらに低下し、Type B1で 49 歳、38%、41%、Type B2で 48 歳、43%、51%、Type B3（WHO分類サブタイプB3）で 50 歳、57%、49% であった。最も特徴的なのはType C（胸腺癌）であり、年齢中央値 57 歳、男性比率 69%、そしてMG合併率が 0% と、一貫して「高齢・男性優位・MG合併の完全な欠如」という際立った臨床特性を示した。しかし、Type C以外のサブタイプ（A〜B3）においては、個々の研究間での臨床データのばらつきが非常に大きく、例えばType B1におけるMG合併率は 7% から 70%、Type B2では 24% から 71% まで変動しており、WHO分類が生物学的に均一な患者集団を定義できているかについては疑問が残る結果となった (Table 2)。

Masaoka病期とWHO分類の強力な相関関係: すべての選択された研究において、WHO組織分類と臨床病期分類であるMasaoka病期との間には極めて強力な相関関係が認められた。低悪性度とされるType AおよびABにおいては、Stage IまたはIIの早期症例が大多数を占めており、平均値でType Aの 58% がStage I、36% がStage IIであり、Type ABでは 66% がStage I、25% がStage IIであった。これに対し、B1からB3へとサブタイプが進行するにつれて、浸潤性を示すStage IIIやIVの進行期症例の割合が段階的に増加する傾向が確認された。Type B3ではStage Iが 16%、Stage IIが 29% であるのに対し、Stage IIIが 31%、Stage IVが 24% に達していた。さらに、Type CにおいてはStage IIIが 41%、Stage IVが 46% と、大多数が発見時に進行期であった。しかし、この病期分布も研究間での変動が激しく、例えばType B1におけるStage Iの割合は 13% から 67%、Type B3におけるStage Iの割合は 0% から 42% までの幅があり、施設ごとの症例バイアスや診断基準の揺らぎが示唆された (Table 3)。

多変量解析における独立した予後予測能の検証: Masaoka病期とWHO分類の両者を共変数として含めた多変量解析（MVA）を実施した7つの主要研究のうち、5つの研究においてWHO分類は生存に関する独立した予後因子として有意性を維持した。しかし、その予後予測能の強さは、一貫してMasaoka病期の方が勝っていた。例えば、Okumura et al. Cancer 2002（n=273）の主要解析において、WHO分類は生存率に対する独立した予後因子であり、ハザード比は HR 1.70 (95% CI 1.00-2.90, p=0.05) であった。これに対し、同研究における主要な臨床病期であるMasaoka病期（Stage III/IV vs Stage I/II）は、より強力な独立予後因子であり、ハザード比は HR 4.40 (95% CI 2.10-9.20, p=0.0001) と、WHO分類を大きく上回る予後予測能を示した。また、Parkらの研究（n=150）においても、WHO分類のハザード比は HR 4.20 (95% CI 1.30-13.50, p<0.02) であったのに対し、Masaoka病期は HR 28.00 (95% CI 3.80-205.00, p<0.001) と極めて高い効果量を示した。さらに、Kimらの研究（n=108）やKondoらの研究（n=100）といった小規模なコホートにおいては、多変量解析においてWHO分類は統計的有意差なし（NS）となり、独立した予後因子として検出されなかった (Table 4)。

10年胸腺腫特異的生存率のサブタイプ別解析と研究間格差: 各研究における10年胸腺腫特異的生存率（thymoma-specific survival）をWHOサブタイプ別に集計した結果、全体的な平均値としては、Type Aが 97%、Type ABが 95%、Type B1が 92%、Type B2が 81%、Type B3が 62%、Type Cが 29% と、組織学的悪性度の進行に伴って生存率が段階的に低下する美しいグラデーションが示された。しかし、個々の研究における具体的な生存率データに目を向けると、その数値には驚くべき不一致が存在する。例えば、中間的な悪性度とされるType B2における10年生存率は、Reaらの研究における 33% から、Kimらの研究における 92% まで、実に 59% も大きな開きがあった。同様に、Type B3においても、Reaらの研究における 35% から、Kimらの研究における 83% まで、研究間での生存率のばらつきが甚大であった。一貫して極めて不良な予後を示したのはType C（平均 29%、範囲 0% から 67%）のみであり、それ以外のサブタイプ（A、AB、B1、B2）の間で生存曲線を明確に区別することは、多くの研究において困難であった (Table 5)。

生存曲線に基づく予後グループのクラスタリング不一致: WHO分類の6つのサブタイプを、臨床的に意味のあるいくつかの予後グループ（clusters）に統合しようとする試みは、研究間で完全に破綻している。各論文が提示した生存曲線（Fig 1）に基づく最適なグルーピングは、驚くほど多様であった。例えば、ChenらやReaらの研究では「Type A/AB/B1」vs「Type B2/B3/C」の二分類、あるいはChalabreysseらの研究では「Type A/AB/B1/B2/B3」vs「Type C」の二分類が提唱された。一方で、Riekerらの研究では「Type AB」vs「Type A/B1/B2/B3」vs「Type C」の三分類、Kimらの研究では「Type A/AB/B1/B2」vs「Type B3」vs「Type C」の三分類が最適とされた。さらに、KondoらやWrightらの研究では「Type A/AB」vs「Type B1/B2」vs「Type B3」vs「Type C」の四分類が支持された。このように、生存データに基づくクラスタリングのパターンは研究間で一貫性がなく、唯一「Type C（胸腺癌）が極めて予後不良な独立したグループである」という点、および「Type B3が中間的な予後を示す可能性がある」という点のみが、辛うじて共通する見解であった (Fig 1)。

臨床的治療決定におけるWHO分類の限定的な影響力: 胸腺腫の日常診療における最も重要な治療決定プロセスは、（1）局所進行例に対する術前化学療法（preoperative chemotherapy）の導入、（2）完全切除後の術後放射線療法（postoperative radiotherapy）の追加、および（3）手術時における完全切除（R0切除）の達成可能性の評価、の3点に集約される。現在、Stage IIIまたはIVaの局所進行胸腺腫に対しては、術前化学療法が切除率および生存率を向上させるという第II相試験のエビデンスが蓄積されつつある。しかしながら、術前にWHO分類 of サブタイプのみに基づいて治療方針を変更すべきとする臨床的エビデンスは存在しない。さらに、治療開始前の針生検（needle biopsy）や切開生検（incisional biopsy）によって得られた小標本から、WHO分類のサブタイプをどれほど正確に診断できるかという点については、これまで全く検証がなされていない。術後放射線療法の要否についても、主要な決定因子はMasaoka病期と外科的な切除完遂度（R0 vs R1/R2）であり、WHO分類のサブタイプ情報がこの決定を左右することはない。したがって、現時点における実臨床の意思決定において、WHO分類が果たす役割は極めて限定的であると言わざるを得ない。

再発予測におけるWHO分類の有用性と限界: 生存率だけでなく、治療後の腫瘍再発（recurrence）を予測する因子としてのWHO分類の有用性についても検証が行われた。治療後の再発をエンドポイントとした多変量解析（MVA）を実施した研究は、WrightらおよびKondoらの2研究のみであった。これらの解析において、Masaoka病期は両研究において再発を予測する極めて強力かつ独立した因子として有意（p<0.05）に検出された。しかしながら、WHO分類については、Wrightらの研究では再発の独立した予測因子として有意（p=0.004）であったのに対し、Kondoらの研究では有意差を認めることができなかった（NS）。このように、生存率のみならず再発予測という観点から見ても、WHO分類の臨床的有用性は研究間で一貫しておらず、治療後の厳密なフォローアップ計画の策定において、組織型のみに依存することは危険であり、依然として病期分類や腫瘍径などの臨床病理学的因子を総合的に判断する必要があることが示された。

考察/結論

本総合レビューにおいて、Detterbeckは、1999年に導入され2004年に改訂されたWHO胸腺腫組織分類システムの臨床的価値について、蓄積された文献データを基に極めて客観的かつ批判的な総括を行った。

先行研究との違い: 本研究は、単一施設からの限定的なコホートに基づきWHO分類の有用性を無批判に称賛してきた多くの先行研究と異なり、11件の大規模研究（計1,800例以上）のデータを統合し、研究間で生じている重大な不一致や矛盾を白日の下に晒した点において、これまでのアプローチと大きく異なる。先行研究の多くは、自施設のデータのみから「WHO分類は完璧な予後予測因子である」と結論付ける傾向があったが、本レビューはそれらの主張が有するバイアスを排除し、より普遍的な視点から本分類の真の実力を浮き彫りにした。

新規性: 本研究は、WHO分類が提供する予後情報の大部分が、実質的には「胸腺腫（Type A〜B3）vs 胸腺癌（Type C）」という単純な二分類、あるいは「胸腺腫（Type A〜B2）vs 異型胸腺腫（Type B3）vs 胸腺癌（Type C）」という三分類（1999年のSuster-Moran分類と実質的に同等）に還元されるという事実を、本研究で初めて体系的に示した。これは、複雑な6型分類が必ずしも臨床的な予後予測の精度向上に直結していないことを意味しており、学術的に極めて新規性の高い指摘である。

臨床応用: 本知見の臨床応用における最大の意義は、呼吸器外科医、腫瘍内科医、および病理医に対して、「WHO分類のサブタイプ情報に過度に依存して治療方針を決定すべきではない」という実臨床における重要な警鐘を鳴らしたことにある。臨床現場における具体的な治療戦略（切除範囲の決定、術前・術後補助療法の適応など）においては、依然としてMasaoka病期分類と、外科手術による切除完遂度（R0切除の成否）が最優先されるべき基軸であることを再確認させた。このことは、過剰治療や治療不足を防ぎ、患者個々に最適化された集学的治療を提供する上で、極めて重要な臨床的意義を持つ。

残された課題: 今後の課題として、いくつかの重要な領域における研究の進展が不可欠である。第一に、治療開始前の針生検や切開生検から得られる微小な組織標本において、WHO分類の診断がどの程度正確かつ再現性をもって行えるかという「術前診断の信頼性評価」が、依然として残された課題である。第二に、画像統計学や人工知能（AI）を用いた術前病期診断の精度向上に関する検証も不足している。本レビューにおける最大のlimitationは、対象となったすべての研究がレトロスペクティブ（回顧的）なコホート研究であり、プロスペクティブ（前向き）な検証データが存在しない点である。しかしながら、胸腺腫という疾患自体の極めて緩徐な臨床経過と、10年以上の長期にわたる経過観察の必要性を考慮すると、前向き臨床試験の実施は現実的に極めて困難であり、これが本領域における最大のボトルネックとなっている。

将来的には、International Thymic Malignancy Interest Group: 国際胸腺悪性腫瘍グループ（ITMIG）などの国際組織による多施設共同データベースの構築や、WHO分類のさらなる改訂（例えば、近年の分子生物学的知見を取り入れたゲノム分類や、GTF2I変異、TP53異常、CDKN2Aコピー数変化などの分子マーカーを統合した新しい分類体系）の構築が期待される。本レビューは、形態学的な組織分類の限界を示し、次世代の統合的分類システム（ITMIGやIASLCによる分子分類など）の必要性を先駆的に示唆した記念碑的な論考であると言える。

方法

本レビューにおける文献選定およびデータ統合は、以下の手順に従って厳格に実施された。

まず、医学文献データベースであるPubMed（Medline）を検索エンジンとして使用し、1999年1月から2005年4月までに発表された英語論文を対象に包括的な文献検索を行った。検索キーワードには「thymoma（胸腺腫）」および「thymic tumors（胸腺腫瘍）」を設定した。得られたすべての文献の抄録（abstract）を一次スクリーニングし、WHO胸腺腫組織分類の臨床的価値、予後予測能、あるいは病理診断の再現性について言及している論文を抽出した。

二次スクリーニングにおける選択基準（inclusion criteria）として、以下の条件を満たす研究を採択した。 (1) WHO分類（1999年版または2004年版）を用いて胸腺上皮性腫瘍を分類していること。 (2) 生存率や再発率などの臨床アウトカムを評価していること。 (3) Masaoka病期とWHO分類の両者を共変数として含めた多変量解析（MVA）を実施し、独立した予後因子としての有意性を検証していること。

多変量解析において病期を除外している研究は、病期と組織型の強い相関による多重共線性の影響を排除できないため、本レビューの主要な評価対象からは除外するか、あるいは慎重に解釈した。英語以外の言語で執筆された論文は、データの信頼性とアクセス性の観点から除外した。

最終的に、これらの基準を満たした11件の主要な臨床研究（総症例数は100例から545例、合計約1,800例以上の胸腺上皮性腫瘍症例を含む）を統合分析 of データベースの対象とした。具体的には、Ströbelらの研究（n=545）、Okumura et al. Cancer 2002（n=311）、Riekerらの研究（n=218）、Chenらの研究（n=200）、Wrightらの研究（n=179）、Parkらの研究（n=150）、Reaらの研究（n=132）、Nakagawaらの研究（n=130）、Kimらの研究（n=108）、Kondoらの研究（n=100）、およびChalabreysseらの研究（n=90）である。

これらの研究から、以下の項目に関するデータを抽出し、スプレッドシートを用いて集計・比較分析を行った。 (a) 各研究におけるWHOサブタイプ（Type A、AB、B1、B2、B3、C）の報告頻度。 (b) サブタイプ別の患者背景（年齢中央値、性別比、MG合併率）。 (c) 各サブタイプにおけるMasaoka病期（Stage I、II、III、IV）の分布割合。 (d) サブタイプ別の10年胸腺腫特異的生存率（thymoma-specific survival）。 (e) 多変量解析における各因子のハザード比（hazard ratio: HR）またはオッズ比（odds ratio: OR）、95%信頼区間（confidence interval: CI）、およびp値。

統計学的な解析手法として、各研究で用いられたカプラン・マイヤー法（Kaplan-Meier method）による生存曲線の評価、ログランク検定（log-rank test）による単変量比較、およびコックス比例ハザード回帰モデル（Cox proportional hazards regression model）を用いた多変量解析の結果を詳細に比較検討した。これにより、WHO分類が有する予後予測能の強さと一貫性を客観的に評価した。

Research Wiki

エクスプローラー

Clinical value of the WHO classification system of thymoma

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク