- 著者: Snyder MW, Kircher M, Hill AJ, Daza RM, Shendure J
- Corresponding author: Jay Shendure (University of Washington, shendure@uw.edu)
- 雑誌: Cell
- 発行年: 2016
- Epub日: 2016-01-14
- Article種別: Original Article
- PMID: 26771485
背景
Cell-free DNA (cfDNA:細胞遊離DNA) は血液や尿などの体液中に存在する短い二本鎖DNA断片であり、健常者においては主に造血系細胞のアポトーシスに由来することが知られている。cfDNA断片の大部分は200 bp未満であり、サイズ分布上はヌクレオソーム (約147 bp) とクロマトソーム (約167 bp) に対応するピークを示す。このことから、ヒストン八量体あるいはクロマトソームに結合した状態で選択的に保護された断片が循環血中に放出されると考えられてきた。
臨床応用において、cfDNAは妊婦での胎児染色体異常スクリーニング、進行がんの循環腫瘍DNA (ctDNA) モニタリング、移植後臓器拒絶反応の検出に活用されている。しかし、これらはいずれも遺伝的差異 (胎児 vs 母体、腫瘍 vs 正常、ドナー vs レシピエント) に依存する戦略である。そのため、遺伝的差異の乏しい心筋梗塞、脳卒中、自己免疫疾患など多くの臨床状態への適用が困難であった。さらに、がんのctDNAは変異情報を提供するものの、腫瘍の組織起源を弱くしか規定できないという限界もあった。この点において、既存のcfDNA解析は遺伝的差異に依存するものが主流であり、遺伝的差異が不足している病態への応用は手薄であった。
cfDNA断片の末端はヌクレオソームあるいは転写因子との結合境界に規定されるという生化学的知見から、深層シーケンスを用いてcfDNA断片末端の分布を網羅的に解析すれば、in vivoにおけるエピジェネティックランドスケープを間接的に捉え、遺伝的差異に依存しない組織起源推定が実現できるとの仮説が着想された。しかし、この仮説を直接的に検証し、cfDNAの断片化パターンが組織起源を反映するエピジェネティックなフットプリントを構成するかどうかについては、これまで十分に解明されておらず、臨床応用への情報が決定的に不足していた。特に、cfDNAの断片化パターンが細胞内のエピジェネティックな状態を忠実に反映するか、そしてそれを非侵襲的な組織起源推定に利用できるかという点は、依然として未確立な課題として残されていた。
先行研究において、Lui et al. (2002) らは性別不一致骨髄移植後の患者解析からcfDNAの主要な起源が造血系細胞であることを示し、Lo et al. (2010) らは母体血漿中シーケンスから胎児cfDNAのゲノムワイドなプロファイルを報告した。また、Schones et al. (2008) らはヒトゲノムにおけるヌクレオソームポジショニングの動的制御を明らかにしている。しかし、これらの知見をもってしても、血漿中cfDNAの断片化パターンそのものを高解像度なエピジェネティック・フットプリントとして活用し、遺伝的差異に依存せずに組織起源を同定する技術は未確立であり、臨床応用への情報が決定的に不足していた。
目的
本研究は、cfDNAの深層シーケンスによりゲノムワイドのin vivoヌクレオソーム占有マップおよび転写因子フットプリントを構築し、(1) cfDNA断片末端の分布がエピジェネティック情報を反映するかを実証し、(2) 遺伝的差異に依存しない組織起源推定アルゴリズムを開発し、(3) 健常者と進行がん患者においてその有効性を実証することを目的とした。
結果
ゲノムワイドヌクレオソームマップの構築と特性: CH01 (231xカバレッジ) から12.9 millionのヌクレオソーム保護ピークを同定し、ヒトマッパブルゲノムの2.53 Gbをカバーした (Figure 2)。隣接ピーク間のモード距離は185 bpで、哺乳類細胞のヌクレオソームリピート長の既知値と一致した (Figure 2)。3つの健常者サンプル (BH01, IH01, IH02) 間でのピーク位置の一致率は高く、最高スコアピークでは最近傍ピークまでの中央距離が10 bp未満であり、極めて高い生物学的再現性を示した。シミュレーション断片エンドポイントから得たコントロールマップは実データに比べてスコアが低く、実際のピーク位置と一致しなかったことから、観測されたヌクレオソームパターンが真のin vivoシグナルであることが確認された。このマップは、既存の公開データセットと比較してより包括的で均一な間隔 (モード185 bp) を持つことが示された (Figure 6)。CA01マップは既存のマップよりも約1.2-fold多くのヌクレオソームコールを含んでいた。
転写制御ランドマークとの対応: 転写開始部位 (n=22,626 TSS)、翻訳開始コドン、スプライスドナー・アクセプター部位などのゲノム構造上で期待される規則的なヌクレオソーム配置パターンが再現された (Figure 3)。A/B chromatin compartment解析では、開放型クロマチン (compartment A) のヌクレオソームスペーシングが閉鎖型 (compartment B) より短く (中央値187 bp vs 190 bp)、クロマチン状態を反映した (Figure 3)。ヌクレオソーム間隔と遺伝子発現レベルの間には負の相関が認められ (Pearson r=-0.17, n=19,677 genes)、発現の高い遺伝子ほどヌクレオソーム間隔が狭いことが示された (Figure 5)。特に、60ヌクレオソームコール以上をスパンする遺伝子ボディに限定すると、相関は r=-0.50 (n=12,344 genes) とさらに強くなった。
転写因子フットプリントの発見: 短断片 (35-80 bp) のWPS解析により、CTCF結合部位における直接的なフットプリントが観察された (Figure 4)。実験的に支持されるCTCF結合部位では隣接ヌクレオソーム間の間隔が有意に広く (約190 bp から 約260 bp)、CTCFによるヌクレオソーム再配置と一致した (Figure 4)。CTCF結合部位では、短断片WPSが約1.5-fold高いピークを示した (Figure 4)。ETS、MAFKなど他の転写因子でも同様の短断片フットプリントと周囲の規則的ヌクレオソーム配置が確認された (Figure 4)。これらのシグナルは、single-stranded libraryを用いたIH02 (n=1 donors) で最も明瞭に観察され、短断片の効率的な回収が重要であることが示唆された。
健常者でのリンパ系・骨髄系起源の確認: 健常者3サンプル (n=3 donors) (BH01、IH01、IH02) のFFT-遺伝子発現相関解析では、3サンプルすべてにおいて上位10位の全て、上位20位のほぼ全てがリンパ系・骨髄系細胞株または骨髄組織であった (Figure 5)。193-199 bp周波数範囲での最強負相関がリンパ系細胞株と一致したことは、造血系細胞死が健常者cfDNAの主要起源であることを独立して支持した。この結果は、n=3 donorsの健常者サンプルにおいて、cfDNAのヌクレオソームフットプリントが造血系細胞に由来するという既存の知見を裏付けるものであった。ダウンサンプリングによる検討でも上位相関ランクの頑健性が示された。
進行がん患者での組織起源推定の実証: 5例の進行がん患者 (n=5 donors) では、造血系に加えて非造血系細胞株・組織との相関が検出され、しばしば患者の原発がんの解剖学的起源と一致した (Figure 5)。肝細胞がん患者 (IC17, n=1 donors) では最高相関がHepG2 (肝細胞がん細胞株) であり、193-199 bpの周波数帯で高いFFT強度を示した (p<0.001)。乳管がんin situ患者 (IC35, n=1 donors) では最高相関がMCF7 (乳腺腺癌細胞株) であった (p<0.001)。小細胞肺がん患者 (IC15, n=1 donors) では相関ランクの変化が最大のものがSCLC-21H (小細胞肺がん細胞株; Δrank = -31) とSH-SY5Y (神経芽腫細胞株; Δrank = -25) であった。これらの結果は、n=5 donorsのがん患者サンプルにおいて、cfDNAのヌクレオソームフットプリントががんの組織起源を反映する可能性を示唆するものであった。がん患者サンプルへの健常者サンプルのin silico希釈により非造血系細胞株のランクが比例的に低下することも確認された。
考察/結論
先行研究との違い: 本研究は、血漿cfDNAの深層シーケンスがin vivoヌクレオソーム占有の高精度マップをもたらし、転写因子結合部位の直接フットプリントまでも捉えることを世界で初めて実証した先駆的研究である。従来のcfDNA解析は遺伝的差異 (変異・コピー数異常・多型) を要件としていたが、本研究のヌクレオソームフットプリントアプローチはエピジェネティック情報を活用するため、遺伝的差異が存在しない状況でも機能し得る。この点で、これまでの手法と大きく異なる。
新規性: 本研究で初めて、cfDNAの断片化パターンがゲノムワイドなヌクレオソーム占有マップと転写因子フットプリントを構成することを示した。特に、短断片cfDNAが転写因子結合部位の直接的なフットプリントを反映するという発見は新規であり、cfDNAが単なる細胞死の残骸ではなく、細胞内のエピジェネティックな状態を忠実に反映する情報源であることを明確に示した。
臨床応用: 本知見は「遺伝的差異不要」という点で、心筋梗塞、脳卒中、自己免疫疾患、臓器損傷など、現行のcfDNA検査では対応困難な多数の臨床状態への新たな非侵襲的モニタリング手段の開発に道を開き、臨床応用に直結する。がんにおいても変異プロファイルと独立した組織起源情報を提供するため、原発不明がんの組織起源推定やがん種の補完的識別に応用できる可能性があり、臨床現場における診断・モニタリングのパラダイムを変革する可能性を秘めている。
残された課題: 今後の検討課題として、単細胞解像度での組織起源混合物の定量的分解、循環腫瘍細胞寄与の分離、深度が低い場合のシグナル感度の限界、炎症・免疫状態の変動がバックグラウンドの造血系シグナルに与える影響などが挙げられる。また、参照データセットの拡充 (例えば、遺伝子発現プロファイルではなく、細胞タイプ特異的なヌクレオソームマップとの直接比較) も、組織起源の頑健な割り当てと定量化能力を向上させるために重要であり、本研究における主要なlimitation (限界) として今後の研究で解決すべき方向性である。
方法
サンプルとシーケンス戦略: 健常者プール血漿からなるBH01 (pooled healthy plasma donor 01)、単一健常者からなるIH01 (individual healthy donor 01)、および単一健常者で短断片回収を最適化したsingle-stranded library (一本鎖DNAライブラリ調製) プロトコルを用いたIH02 (individual healthy donor 02) からcfDNAを精製しシーケンスした。BH01は96xカバレッジ、1.5 billion fragments (15億断片)、IH01は105xカバレッジ、1.6 billion fragments (16億断片)、IH02は30xカバレッジ、779 million fragments (7億7900万断片) をそれぞれ達成した。これら3サンプルを統合したCH01 (combined healthy donors 01) では231xカバレッジ、3.8 billion fragments (38億断片) を達成した。最終的に健常者・非健常者を含む全14.5 billion fragmentsからなるCA01 (combined all donors 01) マップ (700xカバレッジ) も構築した。進行Stage IVがん患者44名の血漿をまず軽度シーケンスし、異数性指標でスクリーニング後、5例のがん患者 (小細胞肺がん、扁平上皮肺がん、直腸腺癌、肝細胞がん、乳管がんin situ) をIH02相当の深さでシーケンスした。
Windowed protection score (WPS) の算出: 任意のゲノム座標を中心とした120 bp windowを設定し、windowを完全にスパンする断片数からwindow内に末端を持つ断片数を差し引いた値をWPSと定義した。高WPS値はヌクレオソームによる保護を、低WPS値は露出したDNA領域を示す。ヒューリスティックなピーク検出アルゴリズムを適用してゲノムワイドのヌクレオソーム位置を同定した。
転写因子フットプリント解析: CH01のリードをフラグメント長に基づいてlong fragment (120-180 bp、120 bp window) とshort fragment (35-80 bp、16 bp window) に分割してWPSを再計算した。CTCF、ETS、MAFKなど複数の転写因子についてFIMO予測とENCODE ChIP-seqを統合し、in vivoでの結合部位と予測されるサイトでの短断片WPSを解析した。
組織起源推定: 長断片WPSをgene body最初の10 kb区間で高速フーリエ変換 (FFT:fast Fourier transform) にかけ、193-199 bp周波数範囲の平均強度を算出した。この値を76種ヒト細胞株・組織の遺伝子発現データセット (Human Protein Atlas) とPearson correlation解析し、最高相関を示す細胞種をcfDNAの起源と推定した。健常者3サンプルと進行がん患者5サンプルで解析を実施した。
統計解析と使用識別子: ヌクレオソーム間隔と遺伝子発現レベルの相関、および細胞株・組織の遺伝子発現データセットとの相関解析には、Pearson correlationを用いた。シーケンスデータのゲノムアライメントには、BWA-MEMアルゴリズムおよび Li et al. Bioinformatics 2009 で開発されたSAMtools APIを用いた。本研究では、検証用細胞株としてHepG2 (肝細胞がん細胞株)、MCF7 (乳腺腺癌細胞株)、SCLC-21H (小細胞肺がん細胞株)、SH-SY5Y (神経芽腫細胞株) などの標準的細胞株識別子を用いた。