- 著者: Ze Zhou, Mary-Jane L. Ma, Rebecca W. Y. Chan, W. K. Jacky Lam, Wenlei Peng, Wanxia Gai, Xi Hu, Spencer C. Ding, Lu Ji, Qing Zhou, Peter P. H. Cheung, Stephanie C. Y. Yu, Jeremy Y. C. Teoh, Cheuk-Chun Szeto, John Wong, Vincent W. S. Wong, Grace L. H. Wong, Stephen L. Chan, Edwin P. Hui, Brigette B. Y. Ma, Anthony T. C. Chan, Rossa W. K. Chiu, K. C. Allen Chan, Y. M. Dennis Lo, Peiyong Jiang (Ze Zhou と Mary-Jane L. Ma が equal contribution)
- Corresponding author: Y. M. Dennis Lo; Peiyong Jiang (The Chinese University of Hong Kong, Hong Kong SAR, China)
- 雑誌: Proc Natl Acad Sci USA
- 発行年: 2023
- Epub日: 2023-04-19
- Article種別: Original Article
- PMID: 37075072
背景
血漿中の無細胞DNA (cfDNA: cell-free DNA) は細胞死・細胞ターンオーバーによって循環血中に放出されるDNA断片であり、液体生検バイオマーカーとして多様な疾患診断・モニタリングへの応用が急速に進んでいる (Lo et al. Science 2021)。cfDNAの断片化は非ランダムであり、少なくとも部分的には複数のDNAヌクレアーゼによって媒介される。主要切断酵素として、DNASE1 (Deoxyribonuclease 1)、DNASE1L3 (Deoxyribonuclease 1 like 3)、DFFB (DNA Fragmentation Factor subunit Beta) の3種が同定されており、それぞれが特定のヌクレオチド配列を優先的に切断することで特徴的な末端モチーフパターンを生成することが知られている。Han et al. (Am J Hum Genet 2020) はステップワイズ断片化モデルを提唱し、DFFBとDNASE1L3による細胞内初期切断に続いてDNASE1が細胞外で追加切断を行うという段階的プロセスを示した。また、Serpas et al. (PNAS 2019) はDnase1l3 (Deoxyribonuclease 1 Like 3 gene) 欠損マウスにおいて血漿DNA中の「CCCA」(cytosine-rich 4-mer) 末端モチーフ頻度が異常増加することを報告し、DNASE1L3とcfDNA末端モチーフの直接的関係を初めて示した。Jiang et al. (Cancer Discov 2020) はヒト血漿cfDNAの末端モチーフ多様性スコアが複数のがん種において診断バイオマーカーとして機能し得ることを実証した。さらに、cfDNA断片の末端配列・位置の異常がゲノムワイドにがん患者で見られることも報告されている (Budhraja et al. SciTranslMed 2023)。
しかしながら、これらの先行研究はいずれも1種類のヌクレアーゼ活性を特定の末端モチーフで個別に評価するアプローチに限定されており、256種類の4-mer末端モチーフ全体を統合的に解析して複数の断片化因子が同時にどの程度寄与しているかを定量的に分解する系統的な方法論が不足していた。既知のヌクレアーゼ以外の断片化機構—例えば酸化ストレスによる非酵素的DNA損傷—がcfDNA末端モチーフに如何に寄与するかについての gap in knowledge も大きく、cfDNA断片化の全景 (fragmentomics landscape) を俯瞰する統合的解析ツールの開発が求められていた。
目的
256種類の5’4-mer末端モチーフデータに非負値行列因子分解 (NMF: Non-negative Matrix Factorization) アルゴリズムを適用し、cfDNAの潜在的切断パターンを表す「Founder」末端モチーフプロファイル (F-profile: Founder end-motif profile) を同定する。各F-profileをヌクレアーゼノックアウトマウスモデルを用いて生物学的に帰属し、ヒトの自己免疫疾患 (SLE: Systemic Lupus Erythematosus、全身性エリテマトーデス) およびがん (HCC: Hepatocellular Carcinoma、肝細胞癌) の検出・病態モニタリングへの応用可能性を実証すること。
結果
NMF解析による6種のFounder末端モチーフプロファイルの同定と各プロファイルの特性:
マウスcfDNA 93検体の256種の5’4-mer末端モチーフデータにNMF解析を適用した結果、最適F-profile数は6と決定された (5分割交差検証、SI Appendix, Fig. S1)。6種のF-profile (F-profile I〜VI) はそれぞれ特徴的な末端モチーフパターンを示した。F-profile IはC末端 (cytosine-end) モチーフが全体の55%を占め、「CC」ジヌクレオチドモチーフを特徴とした。F-profile IIはT末端 (thymine-end) モチーフが51%を占め、「TG」モチーフが顕著に富んでいた。F-profile IIIはA末端 (adenine-end) モチーフが40%を占め、5’→3’方向の3番目・4番目にCとTを好む特徴的なパターンを示した。F-profile IVはC末端優位 (50%) ながらF-profile Iとは異なり2〜4番目の位置に「G」塩基嗜好性を示し、F-profile VはG末端 (guanine-end) の強い優先性 (50%) を示した。F-profile VIは256種の末端モチーフにわたり相対的に均一な分布を示し、特定の末端ヌクレオチドに対する明確な優先性を持たない点で他のF-profileと本質的に異なった (Fig. 3)。
ヌクレアーゼノックアウトマウスモデルによるF-profileの生物学的帰属の検証:
各F-profileとDNAヌクレアーゼ活性の対応関係を遺伝子改変マウスモデルで系統的に検証した。Dnase1l3-/- マウスの血漿cfDNAにおけるF-profile I寄与率は野生型と比較して有意に低下した (中央値: 2.7% vs. 35.4%; 範囲: 0.0〜4.6% vs. 19.5〜47.9%; P<0.0001, Mann-Whitney U検定)。これによりF-profile IがDNASE1L3依存的切断を主として反映することが確立された。F-profile IIは野生型マウスで尿cfDNAでの寄与率が血漿cfDNAより有意に高く (中央値: 43.4% vs. 11.6%; 範囲: 31.8〜50.1% vs. 0.0〜22.1%; P<0.0001, Mann-Whitney U検定)、Dnase1-/- マウスでは血漿・尿の両cfDNAで野生型比約8倍の減少が観察されたことからDNASE1活性と帰属された。F-profile IIIについては、Dffb-/- マウスの血漿cfDNAで寄与率が顕著に低下し (中央値: 0.0%; 範囲: 0.0〜0.5% vs. WT中央値10.1%; 範囲: 0.0〜26.9%; P<0.001, Mann-Whitney U検定)、別の独立したDffb-/- マウスデータセット (n=11) でも有意な減少が再現されたことでDFFBへの帰属が確立された。一方、F-profile IVとVはDffb-/- マウスの1つのデータセットで減少を示したが、別の独立したデータセットでは有意な変化が確認されず、現時点では既知ヌクレアーゼへの明確な帰属は困難であった。
In vitro全血インキュベーション実験でも対応関係が確認された。ヘパリン含有チューブでの6時間インキュベーション後にF-profile II (DNASE1) の平均値が野生型マウスで2.1倍に増加し (10.3%から21.9%)、EDTA含有チューブでの6時間インキュベーション後にF-profile III (DFFB) が平均1.5倍増加した (9.4%から14.4%) (Fig. 4)。これらの結果はF-profile-ヌクレアーゼ帰属の生物学的妥当性を in vitro 系においても支持した。
ヒトcfDNAへの外挿と血漿・尿間のF-profile組成の体液特異性:
マウスとヒトの各ヌクレアーゼのアミノ酸配列相同性はDNASE1L3が82%、DNASE1が79%、DFFBが76%であることから、マウスで確立したF-profileをヒトcfDNAに外挿可能と仮定した。健常者18名の血漿・尿ペアサンプルで検証したところ、血漿cfDNAではF-profile I (DNASE1L3) が優勢 (中央値: 42.9%; 範囲: 33.2〜48.7%) であったのに対し、尿cfDNAではF-profile II (DNASE1) が優勢 (中央値: 43.4%; 範囲: 20.0〜55.3%) であり、両者の差は有意であった (P<0.0001, Mann-Whitney U検定) (Fig. 5B-C)。血漿cfDNAにおけるF-profile II中央値は12.5% (範囲: 6.2〜18.4%) に留まり、尿cfDNAとの逆転パターンはDNASE1L3とDNASE1がそれぞれ血漿と尿のcfDNA断片化を主として制御するという既知の知見と一致した。
F-profile IによるSLE検出とDNASE1L3使用レベルの定量的評価:
DNASE1L3遺伝子の両アリルに疾患関連変異を持つ患者 (n=10) の血漿cfDNAでは、F-profile I寄与率が健常者や変異キャリア両親と比較して顕著に低下した (患者中央値: 7.3%; 範囲: 3.8〜20.5% vs. 両親中央値: 51.4%; 範囲: 47.4〜51.9% vs. 健常者中央値: 52.9%; 範囲: 47.3〜58.2%; P<0.001, Kruskal-Wallis検定) (Fig. 5E)。孤発性SLE患者コホート (健常者n=10、非活動期SLEn=11、活動期SLEn=13) では、DNASE1L3使用レベル (F-profile I) は健常者 (中央値: 39.8%; 範囲: 38.0〜42.3%)、非活動期SLE (中央値: 33.3%; 範囲: 31.4〜41.0%)、活動期SLE (中央値: 29.7%; 範囲: 14.9〜34.2%) の順で段階的に低下し (P<0.0001, Kruskal-Wallis検定)、SLEの有無を識別するAUCは0.97 (95% CI [0.92-1.00]) に達した (Fig. 6B)。他の5種のF-profileのAUCはそれぞれ0.56・0.75・0.73・0.61・0.87であり、F-profile Iが最優秀であった。SLEDAI (SLE疾患活動性指標: Systemic Lupus Erythematosus Disease Activity Index) とF-profile I寄与率の間には有意な負の相関が認められた (Pearsonのr=-0.43; P=0.03) (Fig. 6C)。
F-profile VIによるHCC・多がん種検出と酸化ストレスとの関連:
HCC患者34名、HBVキャリア17名、健常者38名からなるコホートにおいて、6種のF-profileの中でHCC識別能が最高であったのはF-profile VIであった (AUC: 0.97; 95% CI [0.92-1.00])。既報のモチーフ多様性スコア (AUC: 0.86) と比較してF-profile VIのAUCは有意に高く (P=0.019, DeLong検定)、HCC患者では健常者に比べF-profile Iが中央値6.9%低下する一方、HBVキャリアでは変化がなかった (Fig. 7D)。F-profile VIの特異的末端モチーフ優先性の欠如は、既知ヌクレアーゼとは独立した非特異的DNA切断機構の存在を示唆した。
酸化ストレス仮説を検証するためCRCコホートで解析したところ、F-profile VI寄与率は肝転移なしCRC (中央値: 30.5%; 範囲: 23.4〜34.5%) および肝転移ありCRC (中央値: 34.5%; 範囲: 18.1〜43.5%) で健常者 (中央値: 24.3%; 範囲: 16.8〜33.3%) より有意に高く (P<0.0001, Kruskal-Wallis検定)、肝転移を伴うほど高値を示した。NPC患者 (n=12) のシスプラチン/カルボプラチン系化学放射線療法後の血漿cfDNAでもF-profile VI寄与率が治療前 (中央値: 6.2%; 範囲: 0.0〜12.8%) と比較して有意に上昇した (中央値: 10.2%; 範囲: 1.8〜18.4%; P=0.02, Wilcoxon符号順位検定) (Fig. 8B)。さらに、妊婦の母体血漿中の胎盤由来胎児特異的DNA分子においては、F-profile VI寄与率が妊娠各期で低下傾向を示し (第1期中央値: 26.7%、第2期: 23.7%、第3期: 22.0%; P=0.01, Kruskal-Wallis検定)、一方で同一サンプル中の母体造血系由来DNA分子では同様の低下が認められなかった (P=0.99, Kruskal-Wallis検定) (Fig. 8C-D)。これらの知見は、胎盤の酸化ストレスが妊娠後期に低下するという既知の生物学的事実と整合し、F-profile VIが少なくとも部分的に酸化ストレスを反映する可能性を支持した。
考察/結論
本研究は、cfDNA断片化ランドスケープを網羅的に記述するための新規な分析フレームワークとしてNMFに基づくF-profile解析を確立した。先行研究では特定のヌクレアーゼに対応する1種類または少数の末端モチーフを単独で評価するアプローチに留まっていたのと比較して、先行研究の手法とは異なり、本研究で初めて256種類の5’4-mer末端モチーフ全体を単一の統合フレームワーク内で同時解析し、複数のヌクレアーゼ活性と非酵素的断片化機構を並行定量する手法が確立された点に本研究の新規性がある。変異シグネチャー解析 (PCAWG: Pan-Cancer Analysis of Whole Genomes 等でのSBS: Single Base Substitution シグネチャー) でNMFを用いる手法をcfDNA末端モチーフ解析に転用するというアナロジーは方法論的に独創的であり、音響スペクトログラムのデコンボリューションと構造的に同等の問題設定として定式化されている点も注目される。
F-profile IとIIがそれぞれ血漿と尿のcfDNAを支配するという発見は、DNASE1L3が血漿cfDNA断片化の主要担当酵素 (寄与率42.9%) であり、DNASE1が尿cfDNA断片化を主として制御する (寄与率43.4%) という既知の生物学的事実を定量的に可視化したものである。臨床的意義として、F-profile I (DNASE1L3) がSLE検出においてAUC 0.97、疾患活動性指標SLEDAI との相関 (Pearsonのr=-0.43) を達成したことは、F-profile分析が非侵襲的SLEモニタリングツールとして機能し得ることを示す。HCC検出においてF-profile VIがAUC 0.97を達成し既存のモチーフ多様性スコア (AUC 0.86) を有意に上回った (P=0.019) ことは、NMFフレームワークによる多成分同時定量が単純な多様性指標と比較してシグナル・ノイズ比を改善し、より精度の高い腫瘍シグナルの捕捉を可能にするためと考えられる。bench-to-bedside の観点から、F-profile解析は血漿・尿の複数体液で実施可能であり、がん・自己免疫疾患・妊娠合併症という多様な病態での臨床応用が期待される。
F-profile VIの生物学的起源については、既知ヌクレアーゼとの帰属が見いだせなかったことから、活性酸素種 (ROS: Reactive Oxygen Species) による非特異的DNA損傷 (一本鎖切断・abasic site形成) がランダムな切断パターンを生成するという仮説が提示された。HCC・CRC・NPC・化学放射線療法という酸化ストレス亢進状態での一貫したF-profile VI上昇、および胎盤由来DNAでの妊娠後期での低下は、この仮説を支持する間接的証拠として有力である。ただし、F-profile VIと酸化ストレスの直接的因果関係については、化学療法薬によって酸化ストレスを段階的に誘導するマウスモデルでの実験的検証という今後の研究が必要である。
残された課題として、F-profile IVとVの生物学的意義が依然不明であることが挙げられる。また、現在のF-profile同定はアベイラブルなノックアウトマウス型の種類に制限されており、未同定の断片化機構に対応するF-profileが存在する可能性は排除できない。クロマチン可変性 (differential chromatin accessibility) がcfDNA末端モチーフパターンに与える影響 (Snyder et al. Cell 2016) と酵素的切断機構の複雑な相互作用については、future research による解明が待たれる。加えて、現在のF-profile解析では事前に各1-mer末端に対応するヌクレアーゼの情報を必要とするため、この事前情報依存性を解消したより汎用性の高い次世代版の開発が今後の検討として有望である。サンプル不均一性・前処理条件・非酵素的断片化機構の交絡効果の定量的評価も今後の研究において重要な課題となる。
方法
マウスcfDNAデータセットとノックアウトモデル: C57BL/6J系統のWT (wild-type、野生型) マウスおよびDNAヌクレアーゼ遺伝子欠損マウスの合計93検体のcfDNAサンプル (血漿60検体 + 尿33検体) を使用した。マウス血漿cfDNAはWT 27検体、Dnase1-/- 10検体、Dnase1l3-/- 18検体、Dffb-/- 5検体 (中央値ペアエンドリード数: 5,000万; 範囲 1,600〜24,300万) を含む。マウス尿cfDNAはWT 14検体、Dnase1-/- 10検体、Dnase1l3-/- 9検体 (中央値4,300万リード; 範囲 200〜13,400万) を含む。加えて、in vitro全血インキュベーション実験 (EDTA (Ethylenediaminetetraacetic Acid) 含有チューブまたはヘパリン含有チューブ、0時間・6時間) を行ったマウス血漿サンプル30検体を解析した。
ヒトcfDNAデータセット: 既報研究から取得した192検体のヒト血漿cfDNAおよび18検体の尿cfDNA、ならびに新規生成した94検体のヒト血漿cfDNA (ターゲットキャプチャーシーケンシング) を使用した。コホート構成は次の通り: (1) 健常者8名、DNASE1L3疾患関連変異ホモ接合体患者 (n=10) およびその両親 (片方の遺伝子変異キャリア、n=3); (2) 孤発性SLE患者 (非活動期n=11、活動期n=13) と健常者 (n=10); (3) HCC患者 (n=34)、HBV (Hepatitis B Virus) キャリア (n=17)、健常者 (n=38); (4) 妊婦 (各妊娠期n=10); (5) 非がん者18名のペア血漿・尿サンプル; (6) 大腸がん (CRC: Colorectal Cancer) 患者 (肝転移なしn=25、肝転移ありn=24) と健常者 (n=15); (7) 鼻咽頭がん (NPC: Nasopharyngeal Carcinoma) 患者 (n=12、シスプラチン/カルボプラチン系化学放射線療法前後ペアサンプル) (中央値リード数: 5,800万; 範囲 2,000〜11,300万)。
末端モチーフ算出・正規化とNMF解析: cfDNA分子の5’末端から4ヌクレオチドの配列 (4-mer末端モチーフ) を計256種算出した。マウス・ヒトゲノム文脈の差異を補正するため参照ゲノムの4ヌクレオチドスライディングウィンドウから期待頻度を算出し、観測/期待比 (O/E比) で正規化した。93検体×256モチーフのデータ行列MにPython sklearn.decomposition.NMF (v1.1.1) を適用してF-profile行列F (n×256) と重み行列W (93×n) に分解した。最適F-profile数は5分割交差検証による再現性と再構成誤差のトレードオフからn=6を採用した。各ヒトcfDNAサンプルへのF-profile適用には非負最小二乗法 (NNLS: Non-Negative Least Squares, scipy.optimize.nnls v1.8.1) を用いた。
統計解析: 2群比較にはMann-Whitney U検定、3群以上比較にはKruskal-Wallis検定を使用した。SLEDAIとF-profile Iの相関にはPearsonのrを算出した。AUC (Area Under the Curve) 比較にはDeLong検定、NPC治療前後比較にはWilcoxon符号順位検定を適用した。