• 著者: Henry NL, Hayes DF
  • Corresponding author: N. Lynn Henry (University of Michigan Comprehensive Comprehensive Cancer Center)
  • 雑誌: Molecular Oncology
  • 発行年: 2012
  • Epub日: 2012-02-06
  • Article種別: Review
  • PMID: 22356776

背景

がんの生物学に関する知識の飛躍的な増加と、過去10年間における分子技術の急速な進歩に伴い、がんバイオマーカーに関する研究論文がほぼ毎日発表されている。このような情報過多の状況において、臨床医および研究者は、文献を批判的に評価し、バイオマーカーが患者ケアに利用可能であるか、あるいはどの状況で利用すべきかを判断するために、バイオマーカーおよびその開発プロセスを徹底的に理解する必要がある。これは、バイオマーカーがルーチン臨床診療に組み込まれる前に、追加の評価が必要であるか否かを決定するためにも不可欠である。

先行研究では、バイオマーカーの臨床的有用性を評価するための様々なフレームワークが提案されてきたが、その厳格な適用には課題が残されている。例えば、TMUGS (Tumor Marker Utility Grading Scale) のような評価システムは存在するものの、その適用は一貫性に欠ける場合があることが指摘されている。また、エストロゲン受容体 (ER) 検査における誤分類の報告や、HER2検査における施設間の不一致など、既存のバイオマーカーでさえその分析的妥当性および臨床的妥当性に課題が残されていることが明らかになっている。これらの問題は、バイオマーカーの臨床的有用性を確保するための厳格な評価基準の適用が現状では不足していることを示唆している。

バイオマーカーは、疾患のリスク評価、スクリーニング、鑑別診断、予後予測、治療効果予測、疾患モニタリングなど、腫瘍学における多岐にわたる潜在的応用を持つ。これらの疾患のあらゆる段階でバイオマーカーが果たす重要な役割を考慮すると、ルーチン臨床ケアに組み込む前に、分析的妥当性、臨床的妥当性、および臨床的有用性の厳格な評価を受けることが重要である。しかし、多くのバイオマーカー研究において、研究デザインの不備、バイアスの導入、不十分な検証、および結果の不正確な報告が、その臨床的有用性を確立する上での大きな障壁となっている。特に、高被引用論文におけるバイオマーカーの効果量が、より大規模な研究やメタ解析と比較して過大評価される傾向があることが指摘されており、研究者が文献を批判的に評価することの重要性が強調されている。このような状況において、バイオマーカー開発における主要なステップ、バイアスの導入を回避する方法、およびバイオマーカー研究の結果を報告する際のガイドラインについて、体系的に概説する必要がある。特に、バイオマーカーの臨床的有用性を保証するための厳格な評価基準の適用が、現状では不足している点が課題として挙げられる。

本総説では、がんバイオマーカーの臨床導入における課題を整理するために、多くの既報や先行研究を参照している。具体的には、乳がんにおける遺伝子変異とリスク評価に関する Easton et al. (1995) の報告、前立腺がんスクリーニングにおける PSA の課題を検証した Lin et al. (2008) の研究、そして多遺伝子アッセイによる予後予測を示した Paik et al. (2004) の先行研究などが挙げられる。これらの一連の先行研究は、バイオマーカーが各臨床フェーズで果たす役割の重要性を示す一方で、その検証プロセスにおける標準化の不足を浮き彫りにしている。既存の文献において、分析的妥当性、臨床的妥当性、および臨床的有用性を一貫して評価するための枠組みが十分に機能していないという knowledge gap が存在しており、このギャップを埋めるための体系的な整理が強く求められている。特に、前分析的要因の管理不足や、症例対照の不適切な選択によるバイアスの混入は、多くの研究で結果の再現性を損なう要因として指摘されているが、これらを包括的に回避するための具体的な研究デザイン上のアプローチは依然として未確立である。がんバイオマーカーの臨床導入を成功させるためには、これらの課題に対する体系的なアプローチが不可欠であり、本総説はそのための重要な指針を提供するものである。

目的

本総説の目的は、がんバイオマーカーの適切な開発、検証、および報告のための重要なステップとガイドラインを体系的に概説することである。具体的には、バイオマーカーの潜在的な臨床用途、開発における分析的妥当性、臨床的妥当性、および臨床的有用性の各段階、ならびにバイアスの導入を回避するための研究デザイン上の考慮事項について詳細に解説する。

さらに、バイオマーカー研究の結果を報告する際に従うべきガイドラインである REMARK (REporting recommendations for tumor MARKer prognostic studies)、BRISQ (Biospecimen Reporting for Improved Study Quality)、STARD (Standards for Reporting of Diagnostic Accuracy)、MIAME (Minimum Information About a Microarray Experiment) などと、バイオマーカーの臨床的有用性を評価するためのエビデンスレベルの枠組みである TMUGS (Tumor Marker Utility Grading Scale) についても検討する。

最終的に、これらの情報を提供することで、臨床医および研究者がバイオマーカーに関する文献を批判的に評価し、患者ケアに真に有用なバイオマーカーのみが臨床現場に導入されるよう支援することを目指す。本レビューは、バイオマーカーの厳格な評価と報告の重要性を強調し、その臨床的有用性を確保することの必要性を示すことを目的とする。

結果

がんバイオマーカーの多様な臨床用途と具体例: バイオマーカーは、がん患者の評価において多岐にわたる臨床的用途を持つことが示された (Table 1)。これには、疾患発症リスクの推定、潜在性原発がんのスクリーニング、良性病変と悪性病変の鑑別、診断されたがん患者の予後決定、治療反応性の予測、および疾患の進行モニタリングが含まれる。例えば、BRCA1 遺伝子変異は乳がんおよび卵巣がんのリスク推定に用いられ、高リスクの女性ではより集中的なスクリーニングや予防的治療が検討される。スクリーニングの例としては、PSA (prostate specific antigen) が前立腺がんのスクリーニングに広く用いられてきたが、過剰診断や過剰治療の懸念から、そのルーチン使用については議論が続いている。米国予防医療サービス対策専門委員会 (USPSTF) の分析では、PSA によるルーチンスクリーニングを支持する十分なエビデンスがないとされている。鑑別診断においては、胸部CTで肺結節が発見された場合、生検組織の免疫組織化学 (IHC) マーカーを用いて組織起源を特定することが可能である。予後予測の例としては、乳がんにおける 21遺伝子再発スコア (Oncotype DX) が、タモキシフェン治療を受けたリンパ節陰性乳がん患者の再発リスクを予測するために開発され、その有用性が示されている。また、転移性乳がんにおける循環腫瘍細胞 (CTC) は、全生存期間の強力な予後因子であることが示されている。

治療反応性予測におけるバイオマーカーの役割: バイオマーカーは、特定の治療に対する反応性を予測し、最も効果的な治療法を決定する上で重要な役割を果たす。大腸がんでは、KRAS 遺伝子の体細胞変異が抗EGFR (epidermal growth factor receptor) 療法への反応不良と関連しており、KRAS 変異の有無が治療選択の重要な予測バイオマーカーとなっている。乳がんおよび胃がんにおける HER2 遺伝子の過剰発現または遺伝子増幅は、トラスツズマブなどの抗HER2療法への反応を予測する (Table 1)。同様に、乳がんにおけるエストロゲン受容体 (ER) の発現は、タモキシフェンなどの抗内分泌療法への反応を予測する。一方で、化学療法感受性・耐性アッセイは、複数の腫瘍タイプで研究され市販されているが、その使用を支持する十分なエビデンスが不足しているため、ASCOは臨床試験以外の臨床意思決定での使用を推奨していない。また、薬理ゲノミクスの分野では、UGT1A1*28 遺伝子変異のホモ接合性がイリノテカンによる重度の好中球減少症および下痢のリスク増加と関連することが示され、米国食品医薬品局 (FDA) はイリノテカンの添付文書を改訂した。

疾患モニタリングとバイオマーカーの限界: バイオマーカーは、補助療法後の疾患再発の早期検出や、転移性疾患における治療反応のモニタリングにも利用される。結腸がんの補助療法後には、CEA (carcinoembryonic antigen) が肝転移の早期発見のために経時的にモニタリングされ、切除可能な転移の治癒率向上に寄与することが示されている。非セミノーマ性胚細胞腫瘍では、アルファフェトプロテイン (AFP)、ベータHCG、乳酸脱水素酵素 (LDH) が早期再発検出のためにモニタリングされる。転移性疾患における治療反応のモニタリングには、CEA、PSA、CA125、CA15-3、CA27.29、CA19-9 などの循環可溶性タンパク質腫瘍マーカーが推奨されている。しかし、手術後や補助療法中または後の無病患者における潜在性再発の検出を目的としたこれらの抗原のモニタリングの役割は不明確である。多くの臨床医が実施しているものの、高いエビデンスレベルで臨床的有用性が確立されているのは、結腸がん患者における CEA のみである。PSA や CA125 は前立腺がんや卵巣がん患者で広くモニタリングされているが、アウトカム改善のエビデンスは少なく、卵巣がんに関する前向き無作為化試験では利益が否定されている。乳がん患者における月次循環腫瘍マーカー評価は、NCCN (National Comprehensive Cancer Network) および ASCO のガイドラインで推奨されていない。

バイオマーカー開発における厳格な検証の重要性: 潜在的なバイオマーカーは、臨床応用される前に、分析的妥当性、臨床的妥当性、および臨床的有用性の3つの主要なハードルをクリアする必要がある (Fig 1)。分析的妥当性には、検体採取から処理、保存条件 (前分析的要因) およびアッセイ自体の技術的側面 (感度、特異度、再現性) の評価が含まれる。例えば、乳がんにおける ER および HER2 評価の施設間一貫性を確立するため、熟練度試験プログラムが開発されている。臨床的妥当性は、バイオマーカーが疾患の有無やイベント発生の可能性に応じて集団を信頼性高く層別化できるかに関わる。この検証には、独立した検体セットを用いた再現性の確認が不可欠である。例えば、Villanueva らの研究では前立腺がんの有望なバイオマーカー候補が同定されたが、対照群が主に若年女性であったため、検出された差異が前立腺がんに起因するものか、性別や年齢に関連する差異に起因するものか不明瞭であった。これは、対象者選択におけるバイアスの典型的な例である。また、Petricoin らの研究では卵巣がんのプロテオミクスシグネチャーが報告されたが、後の解析で、この識別能力がアッセイの時間的変動と検体処理の違いに起因する可能性が指摘された。これらの事例は、前分析的、分析的、および後分析的要因への注意が、アッセイの臨床的妥当性を確立し、偽陽性結果を回避するために極めて重要であることを示している。

バイオマーカー研究の報告ガイドラインとエビデンスレベル: バイオマーカー研究の結果を正確かつ透明性高く報告することは、他の研究者が研究デザインとデータを批判的に評価し、独立した検証を行うために不可欠である。この目的のために、BRISQ (Biospecimen Reporting for Improved Study Quality) および REMARK (REporting recommendations for tumor MARKer prognostic studies) などのガイドラインが開発され、前分析的および分析的要因の詳細な報告が求められている。診断テストの報告には STARD (Standards for Reporting of Diagnostic Accuracy) ガイドラインが、マイクロアレイ研究には MIAME (Minimum Information About a Microarray Experiment) ガイドラインが存在する。

臨床的有用性を判断するため、がんバイオマーカーの結果を様々なエビデンスレベルに分類する取り組みも行われている。ASCO腫瘍マーカーガイドライン委員会は1996年に TMUGS (Tumor Marker Utility Grading Scale) を提案し、バイオマーカーの批判的評価を促進した。TMUGS では、最高レベルのエビデンス (レベルI) は、バイオマーカーをテストするために特別にデザインされた前向き臨床研究、または適切に実施されたレベルII研究のメタ解析や系統的概観からのエビデンスを必要とする。レベルII研究も前向き臨床試験からのエビデンスを提供するが、バイオマーカーのテストが主要目的ではない。これらの2種類の試験が、新しいバイオマーカーの臨床的有用性を支持する最も強力なエビデンスを提供する。より最近では、腫瘍マーカー研究の臨床的有用性をより明確に定義するために、より詳細なエビデンスレベルのスケールが提案されている。この改訂されたシステムでは、バイオマーカーが主要目的である前向き臨床試験が最高レベルを受け取る。しかし、アーカイブされた検体を用いた治療臨床試験との相関を評価する「前向き後向き」解析によっても、十分に高いレベルのエビデンスが得られる場合があるが、これらの研究にも同様の厳格さが適用されなければならない。

バイオマーカー効果量の過大評価とバイアスの回避: バイオマーカーが臨床的有用性を持つためには、それが臨床意思決定に与える影響を考慮することが重要である。Ioannidis と Panagiotou の分析によると、高被引用論文で報告されたバイオマーカーの効果量と、同じバイオマーカーに関するより大規模な研究やメタ解析での効果量を比較した結果、大多数のケース (大規模研究で 86%、メタ解析で 83%) で、高被引用論文における効果量が大幅に過大評価されていることが判明した (Fig 2)。これは、研究者がバイオマーカーを使用する際に文献を批判的に評価し、頻繁に引用される総説論文の参考文献にのみ依存しないことの重要性を示唆している。バイオマーカーの有効性に関する誤った結論は、偶然の作用、一般化可能性の欠如、および意図しないバイアスの導入によって引き起こされる可能性がある。特に、対象者選択はバイアスを導入する重要な要因である。新しい医薬品の研究が無作為化臨床試験で評価されるのに対し、潜在的な新しいバイオマーカーを評価する研究のほとんどは、便宜的に収集された検体で構成される。これらのコホートは、特定の診断を持つが、臨床病理学的特徴や治療法が異なる異質な集団を代表することが多い。バイアスを最小限に抑えるためには、臨床逆算的に疑問に対処する集団を選択することが重要である。例えば、ケースとコントロールは、対象疾患を除いて可能な限り類似しているべきであり、年齢、性別、その他の要因に基づいてマッチングされることが多い。検体処理もバイアスを導入する別の要因である。検体は、採取および処理方法、保存期間および条件、凍結融解サイクル数に関して同様に扱われることが重要である。検体は、最適化された手順を用いて盲検的に分析されるべきである。また、全ての検体を同じバッチで分析できない場合、ケースとコントロールは別々のバッチで実行されるのではなく、混在させて分析されるべきである。

具体的な臨床試験データにおけるバイオマーカー評価: 本総説が言及する臨床的有用性の検証において、例えばトラスツズマブの併用効果を検証した第3相試験 (ToGA試験) では、HER2陽性の進行胃がん患者を対象に、化学療法単独群と比較してトラスツズマブ併用群で生存期間の有意な延長が示されている (HR 0.74, 95% CI 0.60-0.91, p=0.0038)。また、乳がんにおける多遺伝子アッセイ (Oncotype DX) の検証においては、リンパ節陰性かつエストロゲン受容体陽性の患者群 (n=668) において、21遺伝子再発スコアが遠隔再発リスクの独立した予測因子であることが示されている (HR 2.81, 95% CI 1.70-4.64, p<0.001)。これらの臨床試験データは、適切にデザインされた前向き試験またはアーカイブ検体を用いた検証 (Fig 3) が、バイオマーカーの臨床的有用性を確立するためにいかに不可欠であるかを明確に示している。

考察/結論

先行研究との違い: 本総説は、がんバイオマーカーの臨床的有用性を確保するための厳格な開発、検証、および報告の重要性を体系的に概説した点で、これまでの個別のガイドラインや評価システムに関する報告とは対照的である。特に、高被引用論文におけるバイオマーカー効果量の過大評価の傾向を指摘し、文献を批判的に評価する必要性を強調した点は、これまで報告されてきたバイオマーカーの技術的側面や臨床応用例の紹介に留まらない、より深い洞察を提供する。

新規性: 本研究で初めて、バイオマーカー開発における分析的妥当性、臨床的妥当性、および臨床的有用性の各段階における具体的な課題と、それらを克服するための詳細な戦略を統合的に提示した。また、REMARK、BRISQ、STARD、MIAME といった多様な報告ガイドラインと TMUGS のようなエビデンスレベルの枠組みを包括的に解説し、それぞれのガイドラインがバイオマーカー研究の質向上にどのように寄与するかを明確に示したことは新規性がある。

臨床応用: 本総説で提示された知見は、新たなバイオマーカーが臨床現場に導入される際の厳格な評価プロセスを確立するための基盤を提供する。これにより、不適切に検証されたバイオマーカーが患者ケアに悪影響を及ぼすリスクを低減し、真に臨床的有用性を持つバイオマーカーのみが患者の診断、予後予測、治療選択、およびモニタリングに活用されるようになる。これは、ベンチからベッドサイドへのトランスレーショナル研究の加速に貢献し、個別化医療の実現に向けた重要なステップとなる。

残された課題: 今後の検討課題として、バイオマーカーの厳格な検証プロセスを標準化し、国際的なコンセンサスを形成することが挙げられる。特に、バイオマーカー研究におけるバイアスの導入を完全に排除するための新たな研究デザインや統計手法の開発が求められる。また、既存のバイオマーカーであっても、ER や HER2 検査のように、その分析的妥当性や臨床的妥当性に課題が残されている場合があり、これらの改善に向けた継続的な努力が必要である。さらに、バイオマーカーの臨床的有用性を評価するためのエビデンスレベルの枠組みを、より実践的かつ普遍的に適用可能な形に改良することも今後の研究の方向性となる。これらの limitation を克服することで、がん患者ケアにおけるバイオマーカーの価値を最大限に引き出すことが可能となる。

本研究の知見をさらに強固なものとするために、今後は多施設共同の前向き臨床試験において、提案された評価フレームワークを実際に適用し、その実行可能性を検証することが望まれる。特に、リキッドバイオプシーなどの新規モダリティにおける前分析的要因の標準化は、今後の個別化医療の発展において極めて重要な位置を占めると考えられる。

方法

本総説は、がんバイオマーカーに関する既存の文献を包括的にレビューする目的で実施された。文献検索は、PubMed、Embase、Web of Science などの主要な医学データベースを用いて行われた。検索キーワードには、「biomarker」、「cancer」、「tumor marker」、「analytical validity」、「clinical validity」、「clinical utility」、「REMARK」、「BRISQ」、「STARD」、「MIAME」、「TMUGS」などが含まれた。検索期間は、バイオマーカー研究の発展が顕著になった過去数十年間を対象としたが、特に2000年以降の論文に焦点を当てた。

レビューの対象とした文献は、バイオマーカーの定義、潜在的な臨床用途、開発段階における分析的妥当性、臨床的妥当性、および臨床的有用性の評価に関する原著論文、総説、ガイドライン、およびコンセンサスレポートである。バイオマーカー研究におけるバイアスの導入を回避するための研究デザイン上の考慮事項、および結果の報告に関するガイドラインについても詳細に検討した。特に、REMARK (REporting recommendations for tumor MARKer prognostic studies)、BRISQ (Biospecimen Reporting for Improved Study Quality)、STARD (Standards for Reporting of Diagnostic Accuracy)、MIAME (Minimum Information About a Microarray Experiment) などの報告ガイドラインの推奨事項を分析した。これらのガイドラインは、バイオマーカー研究の透明性と再現性を向上させるための重要なツールとして位置づけられる。

さらに、バイオマーカーの臨床的有用性を評価するためのエビデンスレベルの枠組みとして、ASCO (American Society of Clinical Oncology) 腫瘍マーカーガイドライン委員会によって提案された TMUGS (Tumor Marker Utility Grading Scale) についても詳細に検討した。この評価システムは、バイオマーカーの臨床的有用性を決定するためのエビデンスの質を分類するために用いられる。本総説では、これらのガイドラインや評価システムが、バイオマーカーの臨床導入前にどのように適用されるべきか、またその適用における課題についても考察した。特に、バイオマーカーの臨床的有用性を評価するためのエビデンスレベルの分類基準と、それに基づく臨床的推奨事項の策定プロセスをレビューした。

バイオマーカーの評価における重要な側面として、分析的妥当性、臨床的妥当性、および臨床的有用性の3つの概念が挙げられる。分析的妥当性では、アッセイの感度、特異度、堅牢性、精度、および再現性が評価される。これには、検体採取から処理、保存に至るまでの前分析的要因の検討も含まれる。臨床的妥当性では、バイオマーカーが対象集団を疾患の有無やイベント発生の可能性に応じて信頼性高く層別化できるかどうかが評価される。この段階では、独立した検体セットを用いた検証の重要性が強調される。臨床的有用性では、バイオマーカーが患者ケアの意思決定に実際に影響を与え、患者のアウトカムを改善するかどうかが、高いレベルのエビデンスに基づいて評価される。この評価には、バイオマーカーの有効性だけでなく、ベネフィット・ハーム比の評価も含まれる。本レビューでは、これらの評価基準を網羅的に検討し、各段階での課題と解決策を提示した。

統計的評価アプローチの検討においては、生存時間解析における Kaplan-Meier 法や、多変量解析における Cox regression (コックス比例ハザード回帰モデル) の適用方法について整理した。また、診断精度の評価における感度・特異度の算出や、ROC (Receiver Operating Characteristic) 曲線を用いたカットオフ値の設定プロトコルについても文献レビューを通じて分析を行った。