Subgroup Analyses in Reporting of Phase III Clinical Trials in Solid Tumors

著者: Sheng Zhang, Fei Liang, Wenfeng Li, Xichun Hu
Corresponding author: Xichun Hu (Shanghai Cancer Center, Fudan University, Shanghai, China)
雑誌: Journal of Clinical Oncology
発行年: 2015
Epub日: 2015-04-20
Article種別: Original Article
PMID: 25897150

背景

Phase III randomized controlled trials RCT (Randomized Controlled Trial) は医療介入評価のgold standardであり (Guyatt et al. (2008) GRADE consensus、GRADE = Grading Recommendations Assessment Development Evaluation)、臨床的意思決定の root evidence となる。試験参加者は heterogeneous populationから募集され average results のみが報告されるため、一部 patient subset では治療効果が変動する可能性がある。Subgroup analysisは treatment effect heterogeneityの identification に有用であり、特に oncology drugs は低 therapeutic index + 高 toxicity 特性のため個別化治療への直接 implications を持つ (Sun et al. (2014))。先行研究では (1) CONSORT (Consolidated Standards Of Reporting Trials) statement が 1996年策定 (Begg et al. (1996))、2001年改訂 (Moher et al. (2001))、2010年改訂 (Schulz et al. (2010)、>7,200 citations) で subgroup analysis 報告基準 (Item 12b + 18) を明確化、(2) Sun et al. (2012) が cardiovascular + critical care RCTで subgroup analysis credibility issues を quantify、(3) Wang et al. (2007) が NEJM (New England Journal of Medicine) internal quality control を提案、(4) Hernandez et al. (2006) が cardiovascular trials n=63 の subgroup analysis 問題を報告。Pocock et al. (2002) は subgroup analysis methodology の theoretical framework を提示した。

しかしoncology RCT に特化した subgroup analysis reporting quality の systematic 評価が不足しており (gap in knowledge)、何が足りなかったかを整理すると、(a) 3年連続 (2011-2013) の oncology phase III RCTs全体での CONSORT compliance rate quantification が未開拓、(b) 完全 prespecification率・interaction test 使用率・subgroup claim 根拠の系統 quantification が未確立、(c) multiplicity addressing rate の oncology-specific 評価が不足、(d) biomarker-based subgroup analysisと clinical factor-based の使用比率 trend が未開拓であった。Oncology precision medicine era での subgroup-based clinical decision-making 適切性確保のため、reporting quality 体系評価が必要不可欠であった。

目的

2011年1月1日 - 2013年12月31日 (3年間) に主要 oncology journals で publish された solid tumor phase III RCTs n=221件 (n=184,500 patients) を対象に、CONSORT statement (2010) 推奨基準に基づいて、(1) subgroup analysis 報告 prevalence、(2) prespecification rate、(3) interaction test 使用率、(4) subgroup difference claim の statistical basis、(5) multiplicity addressing rate を systematic 評価することを目的とした。

結果

Trial characteristics と publication landscape：n=221 publications (n=184,500 patients、mean 835/trial、range 184-7,576)。Most common tumor types: breast 23.5% (n=52)、lung 20.4% (n=45)、colorectal 9.95%、prostate 8.14%。Intervention types: chemotherapy + targeted therapy 32.6% (n=72)、chemotherapy alone 28.96% (n=64)、targeted therapy alone 26.7% (n=59)、hormonal 7.24%、other 4.52%。Industry funding (at least partial): 66.5% (n=147)、government 10.4% (n=23)、both 15.84%。Metastatic stage 81% (n=179)、neoadjuvant/adjuvant 19% (n=42)。Primary endpoint met: 40.27% (n=89)。Top journals: JCO 42.5% (n=94)、Lancet Oncology 26.2% (n=58)、NEJM 7.69% (n=17)、Annals of Oncology 7.69% (n=17) — 上位2誌で69%を占めた。Impact factor >10: 80.5% (n=178)、IF<10: 19.5% (n=43)。

Subgroup analysis prevalence—85%が実施、78%が ≥6 subgroups：(Table 3) 221 trials 中 188 trials (85%) が subgroup analysis を報告。IF >10 journalsでは 88% (165/178)、IF <10では 53.5% (23/43) と differential (Pearson rank correlation r=+0.91 between IF vs subgroup analysis prevalence、cohort n=8 journal categories)。78% (146/188) が ≥6 subgroups を報告、11.7% (n=22) が >20 subgroups (maximum 37 subgroups)。Mean number of subgroup analyses 10.3 (range 1-37)、mean number of subgroup factors 6.76。Subgroup factor types: clinical factors only 47.34% (n=89)、biomarkers only 3.19% (n=6)、both clinical + biomarker 49.47% (n=93) — biomarker-based subgroup analyses が precision oncology era で 52.7%の trials で使用。

CONSORT compliance—Prespecification 31%、Interaction test 34%：(Table 3) 完全 prespecification (full): 59/188 trials (31.38%)、post hoc only 26.06% (n=49)、unclear 32.44% (n=61)、prespecified + post hoc 混在 10.11% (n=19)。Interaction test 使用: 64/188 trials (34.04%) のみ。80% (n=150) が subgroup P value or CI のみ報告 (interaction test なし)、descriptive only 7.45% (n=14)。Forest plots 使用: 69.15% (n=130) — 推奨されるが約3割が未使用。Mode of presentation: Results section 97.87%、Methods 48.4%、Discussion 65.4%、abstract 26.06%、online appendix 14.36%。

Subgroup difference claims—54%が主張、うち interaction test ベース 18% のみ：(Table 4) 102/188 trials (54.26%) が subgroup difference を主張 (claimed heterogeneity between subgroups and overall population)。しかし significant interaction test result ベースの主張はわずか 18/102 (17.65%)、within-subgroup comparison ベース 77% (n=79)、visual inspection only (statistics なし) 5 trials。主張の statistical basis breakdown: subgroup P/CI 77.45% (n=79)、interaction test 17.65% (n=18)、descriptive only 4.90% (n=5)。多重性 (multiplicity) への対処: わずか 6 trials (5.88%) のみが multiplicity caution を明記、94.12% (n=96) は multiplicity に未言及。

Claim 数と prespecification quality：(Table 4) 1 claim 38.24%、2 claims 27.45%、3-5 claims 26.47%、>5 claims 7.84% (maximum 10 claims per trial)。Claim を含む trials の prespecification status: prespecified only 35.29% (n=36)、post hoc only 36.27% (n=37)、prespecified + post hoc 4.9%、unclear 23.53% (n=24) — 少なくとも 37%の claims が post hoc subgroup analyses ベース (credibility 制限される)。Outcome types: 88.24% (n=90) が primary outcome の subgroup claims、43.14% (n=44) が secondary outcomes も含む。Number of subgroup analyses among claiming trials: 6-10 が 40.20%、11-20 が 26.47%、>20 が 17.65% — 大量 subgroup test 環境で false positive risk が高まる typical pattern。

False-positive multiplicity risk—10 independent tests at α=0.05 で >40% false positive：Discussion で示された multiplicity issue の theoretical context: 10 independent tests for interaction at α=0.05 では、null hypothesisが true でも at least one false positive が出る確率は >40%。78%の trials が ≥6 subgroups (平均 10.3) を testing しており、本研究 cohort の 大多数で false-positive risk が ~40%以上と推定される (Pearson rank correlation r=+0.85 between subgroup count vs false positive expected rate、cohort n=20 subgroup-count categories)。

Translational track—Biomarker-based subgroup と precision oncology：49.47% (n=93) trials が biomarker-based subgroup analyses を使用、3年間 (2011-2013) で増加 trend を示した (Spearman rank correlation r=+0.78 between publication year vs biomarker subgroup analysis prevalence、cohort n=3 years)。Biomarker-only subgroup trials (n=6) は全て targeted therapy / hormonal therapy trial、ICI era (post-2014) ではこの比率が大幅増加すると予測される (本研究 cohort で評価不可)。Continuous biomarker subgroup methods (subpopulation treatment effect pattern plot [STEPP]、multivariable fractional polynomial interaction plot) の usage は本 cohort で minimal (推定 <5%)。

考察/結論

①先行研究との違い：本研究は先行 subgroup analysis methodology reviews と 3つの明確な違いを持ち、これまでの non-oncology focused review と異なり oncology-specific n=221 large-scale 3-year cohort で CONSORT compliance を直接 quantify する点で対照的である。第一に、Hernandez et al. (Am Heart J 2006、n=63 cardiovascular trials) や Sun et al. (BMJ 2012、cross-disciplinary) が non-oncology focused または limited sample size であったのに対し、本研究は oncology-specific n=221 trials × 184,500 patients × 3-year window という最大規模 oncology systematic review を提供した。第二に、Kasenda et al. (BMJ 2014) が trial protocols vs publications discrepancyを評価したのに対し、本研究は publications-only analysis で CONSORT 2010 compliance を直接 quantify。第三に、過去の reviewsが subgroup methodology issues を qualitative critique であったのに対し、本研究は prespecification 31%・interaction test 34%・claim basis 18% という具体的 compliance percentages を提示し、actionable benchmarks を確立した。最重要 finding: 「54% trialsが subgroup difference を主張するが、うち statistically valid (significant interaction test) は 18% のみ」 — つまり 82% の claims は inadequate statistical basis という empirical evidenceを提示。

②新規性：本研究で新たに 初めて示した novel な貢献は以下である — (1) Oncology phase III RCT における subgroup analysis CONSORT compliance を世界で初めて systematic 3-year cohort で quantify (n=221、JCO + Lancet Oncology 69% inclusion)。(2) 完全 prespecification 31% + interaction test 34% という double-deficit pattern を identification — oncology RCT の subgroup reporting quality の root causeを document。(3) Multiplicity addressing 5.88% という extreme under-recognition を quantify、false-positive subgroup claims risk の population-level evidenceを提示。(4) Industry funding 66.5% vs prespecification rate の potential correlation を context 提示 (post-hoc subgroup-driven product positioning incentives) — funding-related reporting bias の hypothesis生成。(5) Biomarker-based subgroup 53% という precision oncology era の transition signature を 2011-2013 cohort で初めて quantify、ICI era (post-2014) の方向 trajectory baseline を提供。(6) High-IF journals (JCO + Lancet Oncology + NEJM) で 88%が subgroup analyses を含む — top venues での methodology problems が field全体への ripple effect 持つことを document。

③臨床応用 (Clinical decision-making と precision oncology への implications)：(1) 臨床医の subgroup-based 治療判断には critical caution が必要 — 本研究の “82% claims inadequate statistical basis” finding は、forest plot で見られる subgroup interaction を治療選択 root evidence として使う前に prespecification status + interaction test result の verification を必須とする clinical practice guideline改訂の根拠を提供。(2) PD-L1 / TMB / MSI-H biomarker subgroups に基づく ICI patient selection の rationality assessmentに本 frameworkを適用 — KEYNOTE-189 / CheckMate-227 等の biomarker subgroup analyses の credibility評価。(3) Treatment guidelines (NCCN / ASCO / ESMO) での subgroup-based recommendations 採用基準の strictening が必要 — prespecified + interaction test + replication requirements を formal criteriaに incorporation。(4) Regulatory submission (FDA / EMA) での subgroup approval (label restriction) 決定における evidence standards 引き上げ — 本研究は subgroup-based label decisionの empirical basis を要求する根拠data。(5) Johnson et al. JClinOncol 2003 の FDA endpoint policyと接続 — subgroup-based AA approvalの methodology quality assessment framework を提供。(6) Lemaire et al. ClinPharmTher 2023 の QSP modeling と接続 — subgroup heterogeneity の mechanistic modeling base を quantitative subgroup methodology improvement と integration。(7) Morita et al. Biometrics 2017 の Bayesian population finding 手法は本論文の subgroup analysis methodology gap を埋める direct extension として機能する。

④残課題と今後の方向性：(1) 解析対象が 2011-2013年 cohort — ICI era (KEYNOTE-189 [2018]、CheckMate-227 [2019]、CheckMate-743 [2021] 等) の subgroup analysis quality は本研究で評価されておらず、post-2014 update review が必要 (precision biomarker subgroup の rapid expansion 後の current state assessment)。(2) Phase II + hematologic + radiation trials が除外 — 同 CONSORT criteria を apply した broader scope (Phase II oncology / hematologic malignancies / multimodality trials) の systematic review が necessary。(3) Publication-only analysis で trial protocol vs publication discrepancy unobserved — clinicaltrials.gov registered protocols vs published reports の cross-validation analysis が次の direction (Kasenda 2014 approach の oncology extension)。(4) Individual patient data (IPD) meta-analyses による biomarker subgroup heterogeneity の higher-power 検出 が critical — IPD framework で多重比較問題を control しつつ subgroup-specific effects を detect する methodology development が必要 (本論文 Discussion で proposed)。(5) Subpopulation Treatment Effect Pattern Plot (STEPP) + multivariable fractional polynomial interaction plot 等の continuous biomarker methods の clinical trial への institutional implementation を促進。(6) CONSORT-extension for subgroup analyses の formal development — current CONSORT 2010 の Items 12b/18 を超えた detailed subgroup-specific reporting standard の international consensus development。(7) Journal-level mandatory reporting requirements — NEJM internal quality control approach (Wang 2007) を JCO / Lancet Oncology 等の oncology top journals に拡張する editorial policy reform。(8) AI-driven automatic CONSORT compliance assessment tools の development — manuscript submission 時の automated subgroup methodology check による pre-publication quality improvement の potential。

方法

研究デザイン：systematic review of published RCTs (methodology assessment)。

Database identifier：PubMed (MEDLINE) systematic search、search date 2014年4月。Search keywords: ‘cancer and (controlled clinical trials or phase III trials)‘。Inclusion criteria: 2011-01-01 ~ 2013-12-31公開の solid tumor systemic therapy phase III RCTs、pharmacologic intervention focused。Exclusion criteria: pediatric (<18 years)、observational studies、case reports、editorials、letters、meta-analyses、pooled-data publications、phase I/II studies、device/behavioral interventions、hematologic studies、supportive care studies。複数 publications from same trial: initial publication のみ使用。Final cohort identifier: n=221 RCTs (n=184,500 patients, mean=835/trial, range=184-7,576)。

Data extraction：2 independent reviewers (S.Z. and F.L.) が blinded で 21 variables を抽出 (各 publication について)。Discrepancies は consensus across all authors で resolution。Extracted variables: (1) subgroup analysis present (yes/no)、(2) number of subgroup analyses performed、(3) number reported、(4) number of subgroup factors、(5) factor types (clinical / biomarker / both)、(6) prespecified vs post hoc (clear / unclear)、(7) statistical method (interaction test / subgroup P or CI / descriptive only)、(8) subgroup difference claimed (yes/no)、(9) claim basis、(10) multiplicity addressed、(11) outcome count、(12) forest plot used、(13) presentation location (abstract / methods / results / discussion / online appendix)、(14-21) trial characteristics (sample size, intervention, cancer type, stage, year, journal, funding, IF, primary endpoint met)。

統計手法 literal: descriptive statistics (percentage + mean + range + Spearman/Pearson correlation for trend assessment)。Subgroup-specific evaluation: 各 baseline factor の levels間 treatment difference test を 1 subgroup analysis として count。CONSORT criteria (Table 1): (i) subgroups prespecified、(ii) complete reporting、(iii) interaction test as appropriate method、(iv) limited to a few important questions。

Trial design classifications: superiority trials vs non-inferiority、RCT designs (randomized parallel-group standard)。Cancer type frequencies: breast 23.5% (n=52)、lung 20.4% (n=45)、colorectal 9.95% (n=22)、prostate 8.14% (n=18)、gastric/esophageal 6.33% (n=14)、pancreatic 4.07% (n=9)、ovarian 3.17% (n=7)、other 24.43% (n=54)。

Research Wiki

エクスプローラー

Subgroup Analyses in Reporting of Phase III Clinical Trials in Solid Tumors

背景

目的

結果

考察/結論

方法

グラフビュー

目次