New Guidelines for Statistical Reporting in the Journal

著者: David Harrington, Ralph B. D’Agostino Sr., Constantine Gatsonis, Joseph W. Hogan, David J. Hunter, Sharon-Lise T. Normand, Jeffrey M. Drazen, Mary Beth Hamel
Corresponding author: N/A (Editorial、複数機関共著)
雑誌: New England Journal of Medicine
発行年: 2019
Epub日: 2019-07-18
Article種別: Editorial
PMID: 31314974

背景

VITAL試験 (Vitamin D and Omega-3 Trial) の2つの報告 (Manson et al. 2019a, Manson et al. 2019b) を例として、大規模試験における統計報告の課題が浮き彫りになった。この試験では、2つの主要アウトカムと22の二次アウトカムが事前登録されており、多重性調整なしに独立P値を報告すると虚偽陽性率が大幅に上昇する問題が顕在化した。具体的には、10回の検定で少なくとも1つがP<0.05となる確率は、帰無仮説が真である場合でも最大40%に達する可能性がある。このようなP値の過剰な利用と誤解釈は、医学研究の再現性危機の一因であると懸念されている。

米国統計学会 (ASA) は、2016年 (Wasserstein and Lazar 2016) および2019年 (Wasserstein et al. 2019) にP値の過剰使用と誤解釈について警告を発し、医学雑誌における統計報告の規範を改訂する機運が高まった。NEJMの編集者と統計コンサルタントは、P値の過用と意義判定の機械化が、医学論文における有害な「p-hacking」文化や再現性危機に寄与していることを深く懸念していた。P値は、観察データが帰無仮説とどの程度不適合であるかを示す指標であり、「帰無仮説が偽である確率が5%未満」を意味するものではない。また、P値は効果の大きさや変動性（標準誤差）に関する情報を提供しないため、「非有意なP値」が真に差が無視できるケースと、標準誤差が大きいために情報が不足しているケースを区別できないという根本的な課題がある。

このような背景から、NEJMは、統計報告の透明性と厳密性を向上させるため、ガイドラインの改訂に至った。特に、多重比較の問題は、複数のアウトカムやサブグループ解析においてP値が報告される際に、第一種過誤（偽陽性）の確率を不当に高めることが指摘されており、この問題に対する具体的な対策が不足している点が課題として認識されていた。本改訂は、これらの課題に対処し、より堅牢で解釈しやすい統計報告を促進することを目的としている。

目的

本Editorialの目的は、New England Journal of Medicine (NEJM) における統計報告の改訂方針を提示し、P値、信頼区間、多重性調整、および事前解析計画に関する新たなガイドラインの根拠と運用方針を詳細に説明することである。具体的には、P値の過剰な使用と誤解釈が医学文献に与える悪影響を軽減し、研究結果の真の不確実性と効果量をより正確に伝えるための具体的な変更点を明確にすることを目指す。これにより、著者がより質の高い統計報告を行い、読者が研究結果をより適切に解釈できるよう支援することを意図している。また、本ガイドラインが、臨床研究の意思決定プロセスにおいて、P値の役割を適切に位置づけ、点推定値と信頼区間による情報提供を重視する方向性を示すことも重要な目的である。

結果

改訂ガイドラインの核心となる3つの前提: NEJMの新たな統計報告ガイドラインは、以下の3つの主要な前提に基づいている。第一に、事前解析計画が存在する場合はその遵守が極めて重要である。これにより、研究の透明性と客観性が確保される。第二に、効果または関連の主張に統計的閾値を用いるのは、解析計画で第一種過誤制御方法（多重性調整など）が明記された解析のみに限定される。これは、多重比較による偽陽性リスクを管理するための重要な措置である。第三に、治療または曝露の利益と害のエビデンスには、点推定値とその誤差幅（95%信頼区間 CI）の両方を含めることが義務付けられる。この方針は、効果の大きさや不確実性をより包括的に伝えることを目的としている (Table 1)。

P値報告の制限と効果推定値への置換: 改訂ガイドラインの最も具体的な変更点として、プロトコルや統計解析計画で多重性調整方法が指定されていない二次アウトカムやその他の比較において、P値の報告を廃止し、効果または関連の推定値と95%信頼区間に置換することが義務付けられた。例えば、VITAL試験 (Manson et al. 2019b) のn-3脂肪酸に関する部分では、2つの主要アウトカムと22の二次アウトカムが事前指定されていたが、主要アウトカムでは有意な効果は認められなかった。二次アウトカムのうち2つは、独立してP<0.05となる可能性があったが、新たなガイドラインに従い、ハザード比 HR 0.65 (95% CI 0.50-0.85) といった効果推定値と信頼区間のみが報告された。これにより、P値の機械的な解釈を避け、効果の臨床的意義と不確実性に焦点を当てることが可能となる (Table 2)。

P値の正確な解釈と限界の強調: 本Editorialでは、P値の正確な解釈と限界が改めて強調されている。P<0.05は「観察データが帰無仮説と不適合であることの指標」であり、「帰無仮説が偽である確率が5%未満」ではないと明記されている。P値は効果の大きさや変動（標準誤差）に関する情報を提供しないため、「非有意なP値」が真に差が無視できるケースと、標準誤差が大きいために非情報的なケースを区別できない。例えば、10回の独立した検定を行った場合、帰無仮説が真であっても、少なくとも1つがP<0.05となる確率は最大40%に達する可能性がある (Figure 1)。この点は、多重比較における第一種過誤の制御の重要性を裏付けるものである。

P値の継続的な役割と将来方針: P値と有意性検定の全廃は支持されない。適切に設計されたランダム化比較試験 (RCT) や観察研究において、主解析のP値は帰無仮説との不適合の程度を示す信頼性の高い指標となる。特に、規制機関の承認判断など、意思決定の文脈におけるP値の役割は認められている。ただし、その解釈には多重性調整など適切な考慮が必要である。現在のガイドラインは、NEJMに投稿される論文の大多数に対応する頻度主義的設計と解析に限定されている。しかし、NEJMは既にベイズ設計や解析を用いた研究（例: I-SPY2試験 (Rugo et al. 2016)、NERATINIB試験 (Park et al. 2016)、経カテーテル大動脈弁置換術に関する試験 (Popma et al. 2019)）を多数掲載しており、今後もこのような試験が増加すると予想されている。そのため、将来的にガイドラインはベイズ設計やその他の設計を用いた試験の報告におけるベストプラクティスを含むように拡張される予定である。この柔軟なアプローチは、統計学的手法の進化に対応し、研究の質を維持するためのNEJMのコミットメントを示している。

考察/結論

本Editorialは、世界最高インパクトの医学雑誌であるNew England Journal of Medicine (NEJM) が、「P<0.05による有意/無意の二分法」から「点推定値と95%信頼区間を中心とした定量的不確実性評価」へのシフトを公式に宣言した歴史的文書である。この改訂は、米国統計学会 (ASA) の2016年および2019年の声明 (Wasserstein and Lazar 2016, Wasserstein et al. 2019) と連動しており、JAMAやLancetなど他の主要医学雑誌の統計報告ポリシー変更とも呼応する、臨床研究の解釈規範における重要な変化をリードするものである。

先行研究との違い: これまでの多くの研究報告では、多重性調整がなされていない二次アウトカムや探索的解析においてもP値が報告され、その結果が過度に強調される傾向があった。本ガイドラインは、このような慣行と異なり、多重性調整が指定されていない比較におけるP値の報告を明確に制限し、効果推定値と信頼区間による情報提供を義務付けることで、偽陽性のリスクを低減し、結果の解釈をより堅牢にする。

新規性: 本研究で初めて、主要な医学雑誌が二次アウトカムにおけるP値の報告を廃止し、点推定値と95%信頼区間による置換を義務付けたことは、統計報告における新規かつ画期的なアプローチである。これにより、「多重性調整されたP値なしに表面的に有意 (P=0.04等) の二次アウトカムが誇張報告される」という長年の問題に対する具体的な対策が示された。

臨床応用: この変更は、臨床研究の解釈に大きな臨床的意義を持つ。著者は今後、二次アウトカムの解析結果を点推定値と信頼区間で記述し、「有意」という文言を削除する必要がある。また、主要解析では、事前解析計画で多重性調整方法を明記することが要件化される。これにより、「P<0.05で有効、P≥0.05で無効」という誤った二値判断が排除され、治療効果の真の大きさや不確実性がより正確に伝わるようになる。これは、臨床医が患者ケアに関する意思決定を行う上で、より質の高いエビデンスに基づいた判断を可能にする。

残された課題: 今後の検討課題として、本ガイドラインが頻度主義的設計・解析に限定されている点が挙げられる。ベイズ設計や解析（例: I-SPY2試験 (Rugo et al. 2016)）は、特に複雑な臨床試験においてその有用性が認識されており、NEJMも既にそのような論文を掲載している。将来的に、これらの非頻度主義的アプローチに対する適切な報告ガイドラインを拡張することが必要である。また、本ガイドラインの導入が、著者の報告慣行や読者の解釈にどのような影響を与えるか、継続的な評価と調整が求められる。Limitationとして、本Editorial自体は特定のデータ解析を伴わないため、ガイドラインの実際の効果を定量的に評価するには、今後の論文報告の傾向を分析する必要がある。

方法

本Editorialは、New England Journal of Medicine (NEJM) の編集者および統計コンサルタントによって作成されたものであり、特定のデータ収集や解析を伴う研究ではないため、標準的な研究方法論のセクションは該当しない。本稿は、既存の統計報告慣行における課題、特にP値の過剰な使用と誤解釈に関する懸念に基づき、NEJMが採用する新たな統計報告ガイドラインを説明することを目的としている。

ガイドラインの策定にあたっては、米国統計学会 (ASA) が2016年 (Wasserstein and Lazar 2016) および2019年 (Wasserstein et al. 2019) に発表したP値に関する声明や、多重比較に関する既存の統計学的手法 (Dmitrienko et al. 2009, Dmitrienko and D’Agostino 2018) が考慮された。これらの議論を踏まえ、NEJM編集部と統計コンサルタントは、臨床試験および観察研究における統計報告の質を向上させるための原則を確立した。

具体的なガイドラインの変更点は、主に以下の3つの前提に基づいている。

事前解析計画が存在する場合はその遵守が重要であること。
効果または関連の主張に統計的閾値を用いるのは、解析計画で第一種過誤制御方法（多重性調整など）が明記された解析のみに限定すること。
治療または曝露の利益と害のエビデンスには、点推定値とその誤差幅（95%信頼区間 CI）の両方を含めること。

これらの前提に基づき、多重性調整が事前指定されていない二次アウトカムやその他の比較において、P値の報告を廃止し、効果推定値と95%信頼区間に置換するという具体的な方針が決定された。本Editorialは、これらの変更の論理的根拠と、それが医学文献の解釈に与える影響について議論している。

Research Wiki

エクスプローラー

New Guidelines for Statistical Reporting in the Journal

背景

目的

結果

考察/結論

方法

グラフビュー

目次