• 著者: Yu KH, Zhang C, Berry GJ, Altman RB, Re C, Rubin DL, Snyder M
  • Corresponding author: Daniel L. Rubin; Michael Snyder (Stanford University, Stanford, CA, USA)
  • 雑誌: Nature Communications
  • 発行年: 2016
  • Epub日: 2016-08-16
  • Article種別: Original Article
  • PMID: 27527408

背景

肺癌は世界の癌死の第1位であり、年間140万人超の死亡をもたらしている。病理組織学的評価は NSCLC (非小細胞肺癌) の診断・治療選択の基盤であり、肺腺癌と肺扁平上皮癌の鑑別は化学療法選択 (ペメトレキセドの扁平上皮癌での効果減弱、ベバシズマブの扁平上皮癌での毒性増大) および分子標的療法適応 (EGFR 変異・ALK 転座) の観点から臨床的に不可欠である (Sandler et al. NEnglJMed 2006)。

しかし、病理医による定性的な組織評価には重大な限界がある。NSCLC の組織型診断一致率はコミュニティ病理医間でκ=0.41〜0.46、肺病理専門医間でもκ=0.64〜0.69 にとどまり、低分化腫瘍や標本品質の低下でさらに悪化することが示されている。IASLC/ATS/ERS (European Respiratory Society) 分類 (Travis et al. JThoracOncol 2011) のような精緻な組織型サブタイプ分類でも inter-observer variability の問題は未解決であり、主観的・定性的評価に依存する現状では予後予測の精度向上に構造的な限界があった。

確立された組織学的特徴であるグレードは Stage I 腺癌・扁平上皮癌の予後と相関が弱く (log-rank p>0.05 相当)、NSCLC 患者の多様な生存アウトカム (Stage I 腺癌で5年以内死亡>50%、10年超生存~15%) を十分に説明できない。腺癌の組織サブタイプ分類が補助化学療法の benefit 予測に活用できることが示された一方 (Tsao et al. JClinOncol 2015)、H&E 染色標準スライドのみから客観的な定量指標を取得する方法論には gap in knowledge が残されていた。大規模 whole-slide imaging (WSI) データベース (TCGA 等) の整備により機械学習を用いた計算病理学的アプローチが初めて大規模に実行可能となったが、ホールスライド画像全体を人手を介さずに処理して肺癌予後を予測した研究はこれまで報告されていなかった。

目的

H&E 染色ホールスライド病理画像から完全自動化されたパイプラインで定量的形態特徴量を抽出し、NSCLC (肺腺癌・肺扁平上皮癌) 患者の短長期生存を識別する予後予測モデルを構築・検証すること。あわせて診断的タスク (腫瘍 vs. 正常組織識別、組織型識別) における特徴量の有用性を評価し、独立外部コホートで汎化性を検証する。

結果

腫瘍 vs. 隣接正常組織の識別精度

TCGA コホートで80個の定量特徴量を用いた分類実験では、腺癌対隣接正常組織の識別において SVM-Gaussian・conditional inference tree random forest・Breiman’s random forest の3分類器が最良 AUC=0.85 を達成した (全分類器平均 AUC=0.81; ANOVA p=0.8514 で分類器間差なし; Fig 1a)。扁平上皮癌対隣接正常組織の識別においても全分類器で AUC>0.85 を達成し、分類器間に有意差はなかった (ANOVA p=0.31; Fig 1b)。上位特徴量は核の Haralick texture 特徴量 (sum variance・difference variance・隣接ピクセル相関係数) および細胞質の radial distribution of pixel intensity・intensity mass displacement であった。腫瘍組織の高密度な細胞充実性と正常肺胞の疎な構造が定量的に識別されており、抽出された特徴量が生物学的に意味のある形態情報を捕捉していることが示された (Fig 1a,b)。

腺癌・扁平上皮癌の組織型識別

240個の特徴量を用いて TCGA データセットで腺癌対扁平上皮癌の組織型識別を行ったところ、SVM-Gaussian・random forest が AUC>0.75 を達成した (全分類器平均 AUC=0.72; ANOVA p=0.08; Fig 2a)。TMA コホートでの独立検証では SVM-Gaussian が AUC=0.85 を達成し (ANOVA p=0.13; Fig 2b)、informatics pipeline の汎化性が確認された。TMA での AUC 向上は病理医による代表的ビューの事前選択を反映していると考察された。上位特徴量には核の Haralick texture (sum entropy・InfoMeas1・difference variance・angular second moment)・核の edge intensity・細胞質の texture および intensity distribution が含まれた。腫瘍 vs. 正常識別と一部特徴量 (Haralick sum entropy・difference variance) が重複しており、核テクスチャ情報が複数の診断タスクで横断的に有用であることが示された (Fig 2a,b)。

Stage I 肺腺癌の予後予測 (TCGA・TMA 双方で検証)

TCGA の Stage I 腺癌患者 (n=254 例) では、短期死亡群 (5年以内>50%) vs. 長期生存群 (10年超~15%) と生存アウトカムが多様であった (Fig 3a)。腫瘍グレードは Stage I 腺癌の生存と有意に相関しなかった (log-rank p=0.06 TCGA、p=0.0502 TMA; Fig 3b)。elastic net-Cox 比例ハザードモデルで60個の定量的画像特徴量が選択され、テストセットで短長期生存者の有意な層別化を達成した (log-rank p=0.0023; Fig 3c)。選択された上位特徴量は核の Zernike shape decomposition・細胞質の Zernike shape decomposition・核の texture features であった。同一ワークフローを Stanford TMA コホート (腺癌 n=227 例) に適用しても予後予測性能が再現され (log-rank p=0.028; Fig 3d)、予後群間で化学療法・放射線療法・分子標的療法の使用率に差はなかった (χ2 検定 p>0.9)。同一ステージ・グレード (Stage IB・Grade 3) ながら生存期間が99ヶ月超 vs. 12ヶ月未満と大きく異なる2症例において目視では識別困難な核形態の差を定量特徴量が捕捉していたことも提示された (Fig 3e,f)。

Stage I 肺扁平上皮癌の予後予測と外部検証

扁平上皮癌においてステージ・グレード単独による生存予測は困難であった (TCGA: log-rank p=0.216 ステージ別・p=0.847 グレード別; TMA: p=0.388 ステージ別・p=0.964 グレード別; Fig 4a,b)。elastic net モデルは15個の特徴量を選択し、TCGA テストセットで有意な生存群分離を達成した (log-rank p=0.023; Fig 4c)。上位予後特徴量は腺癌と同様に Zernike shape of tumour nuclei and cytoplasm であり、局所の核形態が NSCLC 両組織型に共通する予後決定因子であることが示された。Stanford TMA (扁平上皮癌 n=67 例) での独立検証でも同一 elastic net-Cox モデルが扁平上皮癌の生存層別化を達成した (log-rank p=0.035; Fig 4d)。両組織型・両コホートにわたって予後群間の治療差は認められず (χ2 検定 p>0.71)、生存差が治療選択の偏りではなく腫瘍内在性の生物学的特性を反映していることが確認された。

考察/結論

本研究は、ホールスライド H&E 病理画像から完全自動で抽出した定量的特徴量を用いて NSCLC 患者の予後を大規模に予測できることを初めて示した先駆的研究である。以下に本研究の位置づけと今後の検討課題を整理する。

既存の臨床評価との違いと本研究の優位性

これまでの研究では、病理グレードや臨床ステージが NSCLC 予後予測の主軸として用いられてきたが、本研究が示した通り Stage I 腺癌・扁平上皮癌ともにグレードの予後予測力は log-rank p>0.05 相当と弱い。対照的に本手法は同ステージ・同グレードの患者間でも有意な生存層別化 (腺癌 p=0.0023、扁平上皮癌 p=0.023) を達成した。Zernike shape decomposition のような定量的核形態特徴量は目視識別が困難であり、コンピュータ化によって初めて定量的に活用できる情報であることが示された。これは既報の手動形態評価系や定性的グレード分類と対照的であり、客観的数値特徴量が主観的評価を超えた予後情報を含むことを示した。

新規性と方法論的貢献

本研究で新規に確立したのは、全自動の密度ベースタイル選択・Otsu セグメンテーション・9,879個の CellProfiler 特徴量抽出・elastic net-Cox 予後モデリングを一貫したパイプラインとして統合し、これをホールスライド画像に適用した点である。これまで報告されていない点として、20以上の医療機関から提供された画像で訓練・検証されたにもかかわらず機械学習モデルの選択によらず性能が安定しており (ANOVA で分類器間差なし)、単一施設バイアスを超えた汎化性を示したことが挙げられる。従来の計算病理学的研究が乳癌や神経芽腫の組織マイクロアレイに限定されていたのに対し、本研究では本研究で初めてホールスライド画像全体を人手を介さずに処理した予後予測を NSCLC で実現した。

臨床応用の可能性

H&E 染色スライドはすでに臨床現場で日常的に作成・評価されており、既存の資源に本 pipeline を追加するだけで予後予測が可能である点は臨床的意義が大きい。精密医療の文脈では、同一 Stage I NSCLC の中でも短期生存リスクが高い患者を客観的に層別化し、より積極的な補助療法や密なフォローアップを選択する意思決定支援ツールとしての臨床応用が期待される。本手法は他臓器の病理画像にも拡張可能であることが論じられており、消化器癌・乳癌など癌全般のデジタル病理学的精密医療への橋渡し (bench-to-bedside) という観点でも概念的基盤を提供した。

残された課題

今後の検討として複数の limitation が存在する。TCGA・TMA データベースの症例は典型的な病理所見を持つ症例に偏っている可能性があり、病理医が多数のスライドを評価する実臨床での性能は未検証である — 実臨床での前向き試験による検証が必要な課題として残される。腺癌の acinar・papillary 等の半定量的パターン情報が両コホートで利用できなかったため、組織サブタイプ情報との統合は future research として残る。標準化されたデジタル化プロトコルが未確立であり、異なる拡大率のデータセット間ではモデルの再訓練が必要であることも実用化の障壁である。また本研究は H&E 染色のみに限定されており、免疫染色・分子データとの統合による相乗的予後予測の臨床有用性確立も今後の課題として残される。さらに、抽出された上位特徴量 (Zernike shape・Haralick texture) が核内のどのような生物学的変化を反映しているかの解釈的理解も不十分であり、今後の更なる検討が求められる。

方法

データソースとコホート構成

訓練・内部検証には TCGA (The Cancer Genome Atlas) から取得した肺腺癌 n=515 例 (腫瘍スキャン831枚、隣接正常組織スキャン243枚、画像タイル5,739,972枚)・肺扁平上皮癌 n=502 例 (腫瘍スキャン761枚、隣接正常組織スキャン351枚、画像タイル5,033,634枚) の計2,186枚の H&E 染色ホールスライド画像を使用した (Table 1)。患者背景: 腺癌年齢66.0±9.9歳・女性53.7%・Stage I 49.3%、扁平上皮癌年齢66.7±12.4歳・男性74.1%・Stage I 48.2%。外部検証には Stanford Tissue Microarray (TMA) Database から肺腺癌 n=227 例・肺扁平上皮癌 n=67 例の計294枚の組織マイクロアレイ画像を用い、各患者1枚を病理医が選定した (Table 2)。TCGA 画像は×40相当、TMA 画像は異なる拡大率 (約×1.5相当) で取得されており、サイズ制約を調整した同一パイプラインを TMA に適用した。

画像処理・特徴量抽出

ホールスライド画像を1,000×1,000 ピクセルのタイルに分割し、細胞密度 (非白色ピクセル比率) 上位10タイルを各スキャンから選択することで腫瘍細胞の多い領域を優先的に抽出した。Otsu 法による自動閾値設定で組織前景と非染色背景を識別し、腫瘍核を IdentifyPrimaryObjects モジュール・細胞質を IdentifySecondaryObjects モジュールで自動セグメンテーションした。CellProfiler を用いて細胞サイズ・形状・輝度分布・Haralick テクスチャ特徴・Zernike 形状分解・Radial distribution など合計9,879個の定量的特徴量を各タイルから抽出し、平均・中央値・標準偏差・デシル値で集計した。

機械学習モデルと統計解析

診断分類には7種類の分類器 — naive Bayes、SVM (support vector machine; Gaussian/linear/polynomial カーネル)、bagging、conditional inference trees による random forest、Breiman’s random forest — を用い、情報利得比 (information gain ratio) で最適特徴量を選択した。訓練70%・テスト30%のランダム分割を20回反復してロバスト性を確認し、分類器間の性能差は ANOVA で検定した。予後予測には elastic net-Cox 比例ハザードモデル (R package glmnet) を構築し、10分割交差検証で正則化パラメータを選択した後、訓練セットの survival index 中央値を閾値として短長期生存群に分類した。生存差の評価に log-rank 検定、予後群間の治療差の評価に χ2 検定を使用した。症例数が約100例規模の予後予測タスクでは leave-one-out 交差検証を採用した。