- 著者: Woloshin S, Schwartz LM, Haagen-Evans S, White B, Welch HG
- Corresponding author: Lisa M. Schwartz (Dartmouth Institute for Health Policy and Clinical Practice, Geisel School of Medicine at Dartmouth, Lebanon, NH)
- 雑誌: JAMA
- 発行年: 2018
- Epub日: 2018-01-02
- Article種別: Original Article
- PMID: 29362786
背景
ランダム化比較試験 (RCT) における中間解析結果の公表は、試験進行中に初期データを迅速に報告できるというメリットがある一方で、多くの学術的・倫理的懸念が指摘されている。第一に、中間結果の公表が試験参加者の脱落やクロスオーバーを誘発し、試験の完全性を損なう可能性があると Stephens et al. (2014) は指摘している。第二に、少数のイベント数に基づく初期結果は偶然誤差の影響を受けやすく、治療効果を過大評価しやすいことが Bassler et al. (2010) や Wang et al. (2016) の研究で示されている。第三に、中間段階の「好ましい」結果が選択的に公表される出版バイアスの可能性も指摘されている。しかし、進行中RCTの中間結果公表の実態と最終結果との一致性を体系的に評価した研究は不足しており、その臨床的影響については未解明な点が多かった。特に、中間報告がどのような特性を持ち、最終報告の結論とどの程度乖離しているのか、またメディアや学術界でどのように注目されているのかを定量的に比較したデータは不足しており、この知識ギャップが臨床試験の信頼性を評価する上での大きな課題となっていた。このように、中間報告の公表が抱える潜在的なリスクと臨床的含意を明らかにするための体系的な検証が強く求められていた。
目的
本研究の目的は、進行中のランダム化比較試験 (RCT) における中間報告の特性を体系的に記述することである。さらに、十分な追跡期間が経過した後に公表された最終報告と中間報告を直接比較し、主要アウトカムにおける結論の一致性、ジャーナルの影響度、およびメディアやソーシャルメディアにおける注目度 (Altmetricスコア) の差異を定量的に評価し、中間報告の公表が抱える潜在的なリスクと臨床的含意を明らかにすることを目指した。
結果
進行中試験の中間報告における基本特性: PubMed検索によりスクリーニングされた1,267件の論文のうち、613件が中間報告として同定された。このうち72% (n=442) は早期中止された試験の報告であり、残りの171件 (28%) が進行中試験の中間報告であった (Table 1)。進行中試験の中間報告 171件のうち、40% (n=68) はプロトコルで規定された中間解析であったが、50% (n=86) は中間解析を行った理由が記載されていなかった。臨床分野としては腫瘍学が28% (n=48) と最も多く、次いで外科が18% (n=30)、心臓病学が11% (n=18) であった。資金源は製薬業界単独が36% (n=61) を占めていた。
最終結果の公表率と未公表の現状: 十分な追跡期間(中間報告の公表から2年以上、または試験登録に記載された完了予定日から1年以上)が経過した160試験のうち、最終結果が公表されていたのは61% (n=98) であった。一方で、残り39% (n=62) は追跡期間が経過しているにもかかわらず最終結果が未公表のままであった。この結果は、中間報告が公表された試験であっても、最終的な治療効果や安全性の全容が社会に開示されないまま放置されている割合が少なくないことを示している。
中間報告と最終報告のペア比較における患者数と追跡期間の乖離: 中間報告と最終報告の双方で同一の有効性または安全性アウトカムを報告していた73組のペアを対象に詳細な比較を行った。中間報告における参加者数は最終報告と比較して有意に少なかった [中央値 205人 (IQR 89-544) vs 295人 (IQR 100-724), p<0.001] (Table 2)。また、追跡期間についても中間報告は最終報告に比べて有意に短かった [中央値 48週 (IQR 22-81) vs 104週 (IQR 52-156), p<0.001] (Table 2) (Fig 1)。
抽象的結論の変化と臨床的影響: 比較可能な73組のペアのうち、21% (n=15) において中間報告から最終報告の間で抽象的結論が変更されていた (Table 2) (Fig 2)。具体的な結論の変化の内訳は、「差がない」から「有益」への変化が4件、「差がない」から「有害(または可能性として有害)」への変化が3件、「有益」から「差がない」への変化が6件、「有益」から「有害」への変化が1件、「結論不明」から「非劣性」への変化が1件であった。 具体的な臨床試験の例として、アビラテロンを検証した試験 (NCT00887198) では、中間報告において生存期間の改善傾向を示すにとどまり「差がない」とされたが、最終報告では OS 中央値がアビラテロン群 vs プレドニゾン単独群で有意な差を示し、結論が「有益」へと変化した。この主要エンドポイントにおける最終生存解析のハザード比は HR 0.74 (95% CI 0.64-0.86, p<0.001) であり、明確な生存ベネフィットが確立された。 また、エベロリムス溶出性生体吸収性スキャフォールドを検証した試験 (NCT01425281) では、中間報告において金属ステント群 vs スキャフォールド群で1年複合臨床アウトカムに「差がない」と報告されていた。しかし、最終報告ではデバイス関連複合エンドポイントのハザード比が HR 1.97 (95% CI 1.10-3.53, p=0.02) となり、スキャフォールド群で標的血管心筋梗塞のリスクが有意に高いことが示され、結論は「有害(または可能性として有害)」へと変化した。 さらに、高用量イマチニブを検証した臨床試験 (NCT00327262) では、中間報告において「主要分子遺伝学的反応の改善に有効」と報告されていたが、最終報告では高用量イマチニブ群 vs 標準用量群の比較において、イベントフリー生存期間のハザード比が HR 1.82 (95% CI 1.11-2.98, p=0.017) となり、高用量群でイベント発生リスクが有意に高く、標準用量が標準治療であると結論づけられ、結論が「有益」から「有害」へと覆る決定的な変化が確認された。
ジャーナルおよびメディアにおける注目度の逆転現象: 中間報告と最終報告の社会的・学術的注目度を比較したところ、両者は同等の注目度を得ているか、あるいは中間報告の方が高い注目度を維持している実態が明らかになった。インパクトファクター20以上の高影響度ジャーナルに掲載された割合は、中間報告で22% (n=16)、最終報告で23% (n=17) と同等であった (p=0.70) (Table 2) (Fig 3)。また、ニュースやソーシャルメディアでの言及度を示すAltmetricスコアの中央値は、中間報告で6 (IQR 2-20)、最終報告で5 (IQR 2-25) であり、統計的な有意差は認められなかった (p=0.10) (Table 2)。さらに、最終報告で結論が陰性や有害に変化した試験であっても、中間報告の被引用数やメディアでの注目度は高いまま維持される傾向があり、誤った初期情報が臨床現場に定着し続けるリスクが示された。
考察/結論
先行研究との違い: 本研究は、早期中止された試験における治療効果の過大評価を指摘した Bassler et al. (2010) や Wang et al. (2016) の先行研究とは異なり、試験が継続中であるにもかかわらず公表された中間報告に特化してその特性を解析した。これにより、試験が継続されるプロセスにおいて、結論がどのように変遷するかを初めて動的に明らかにした。また、中間報告の出版状況を調査した Counsell et al. (2017) の報告と比較しても、本研究は中間報告と最終報告の結論の一致性や、Altmetricスコアを用いた社会的注目度までを直接ペア比較した点で大きく異なる。
新規性: 本研究は、進行中RCTの中間報告が最終報告と比較して、参加者数が少なく追跡期間が短い暫定的なデータであるにもかかわらず、ジャーナルの影響度やメディアでの注目度において最終報告と同等以上の prominence (注目度) を得ている事実を本研究で初めて示した。特に、中間報告の21%で最終的に結論が変化しており、高用量イマチニブの例のように「有益」から「有害」へと結論が覆るケースが存在するにもかかわらず、中間報告の注目度が高いまま維持されるという情報の非対称性を新規に明らかにした。
臨床応用: 本知見の臨床的意義は極めて大きい。臨床医やガイドライン策定者は、進行中試験の中間報告のみに基づいて治療方針を決定することの危険性を認識すべきである。中間報告はあくまで暫定的なものであり、結論が覆る可能性が21%存在することを念頭に置いた慎重な解釈が求められ、実際の臨床現場への導入には慎重を期すべきである。また、ジャーナルや資金提供者は、中間報告の論文タイトルに「interim」と明記することを義務付け、最終報告が公表された際には中間報告のページから最終報告へのリンクを自動的に構築するシステムを導入するなど、臨床現場への情報伝達を最適化する取り組みが必要である。
残された課題: 今後の検討課題として、中間報告の公表が実際の臨床現場における処方行動や患者の試験登録・脱落行動に与えた具体的な影響を、レセプトデータ等を用いて詳細に評価することが挙げられる。また、本研究の limitation として、PubMedに収載された英語論文のみを対象としたため、他言語の報告や未公表の中間解析が存在することによる選択バイアスが否定できない。さらに、1つの主要アウトカムのみに焦点を当てて比較したため、副次アウトカムにおける結論の変化や、より詳細な安全性の乖離については過小評価されている可能性がある。
方法
本研究は、2006年1月1日から2015年12月31日までに公表されたRCTの中間報告を対象とした後ろ向きコホート研究である。検索データベースとして PubMed を使用し、タイトルまたは抄録に「interim」「not mature」「immature」のいずれかのキーワードを含む論文を体系的に検索した。除外基準として、パイロット研究、プロトコル、および主要アウトカム(例:無増悪生存期間)は最終結果でありながら副次アウトカム(例:全生存期間)のみが中間解析であるがん臨床試験は除外した。最終報告の同定には、PubMed、ClinicalTrials.gov、および Web of Science を2016年12月1日まで検索し、試験登録番号(NCT番号)、試験名、著者名、ランダム化群、計画されたサンプルサイズを用いて中間報告と照合した。最終報告が特定できなかった中間報告の著者には、2017年1月から9月の間に電子メールで連絡を取り、追加情報を得た。
主要評価項目は、①最終報告の存在率、②有効性・安全性アウトカムの中間報告と最終報告における定量的比較、③ジャーナルのインパクトファクターおよびAltmetricスコアの比較であった。データ抽出は2名のレビューアが独立して行い、不一致は議論により解決した。抽象的結論は「差がない (not different)」「有益 (beneficial)」「有害 (harmful)」の3つに分類し、中間報告と最終報告の間での変化を比較した。統計解析には Stata version 14.2 を使用し、連続変数の比較には Wilcoxon 符号順位検定 (signed-rank test) を、カテゴリ変数の比較には McNemar 検定を用いて両側P値を算出した。P値 < 0.05 を統計的有意と判断した。本研究は、NCT00887198やNCT01425281、NCT00327262など、登録された臨床試験の公表データを利用して解析を行った。