Genome structural variation discovery and genotyping

著者: Can Alkan, Bradley P. Coe, Evan E. Eichler
Corresponding author: Evan E. Eichler (University of Washington / HHMI)
雑誌: Nature Reviews Genetics
発行年: 2011
Epub日: 2011-03-01
Article種別: Review
PMID: 21358748

背景

ヒトゲノムは単一塩基多型 (SNP) よりもSV (structural variant: 構造変異) によってより多くの塩基対が影響を受けることが明らかになってきた。先行研究 (Iafrate et al. 2004; Sebat et al. 2004) が初めてarray CGH (array comparative genomic hybridization) を用いた大規模CNV (copy number variant) の存在を報告し、その後Redon et al. 2006がSNPアレイを用いた11,107 CNVローカスの包括的マップを構築した。SVは>50 bpのゲノム再編成 (欠失・新規挿入・逆位・移動エレメント転位・重複・転座) と定義され、CNVはSVのうちゲノム内塩基対数を変化させるもの (非均衡型SV) を指す。

しかしながら、既存のマイクロアレイプラットフォームは<10 kb以下の小型SVの発見感度が不十分であり (insufficient sensitivity for events <10 kb)、またNGSベース計算手法はそれぞれ固有のバイアスを持ち単独では不完全であるという未解明の課題が残されていた。SVとCNVの包括的な発見・遺伝型判定は、コピー数・内容・構造の三要素を正確に予測することを理想とするが、SVは反復配列や重複配列が多いゲノム領域に偏在することが多く、gold standardとなる包括的手法が確立されていなかった。SVは少なくとも二つの疾患モデルで重要性が示されている: (1) 個体において稀 (<1%) だが集団として相当な割合の疾患を説明する大規模SVで、神経発達障害 (自閉症・統合失調症・知的障害等) での de novo CNVとの強い関連が報告された (Sebat et al. 2007)。(2) 多コピー遺伝子ファミリー (免疫機能関連遺伝子等) のCNVで複合形質の疾患感受性に寄与するもの。例えば人口の8%が>500 kbのCNVを少なくとも1つ保有することが示されており (Redon et al. 2006)、これらのSVの系統的・包括的な発見と遺伝型判定は疾患研究の基盤として不可欠であった。

目的

マイクロアレイ (array CGH・SNPアレイ) および単分子解析とNGSベースの計算的アプローチ (read-pair・read-depth・split-read・アセンブリの四戦略) を用いたSV・CNVの発見と遺伝型判定の原理・強み・限界を体系的にレビューし、高品質de novoゲノムアセンブリが全クラスのSVを包括的に評価するための長期的目標であることを論じること。

結果

ハイブリダイゼーションベースマイクロアレイ (Array CGH) の特性： Array CGH (Comparative Genomic Hybridization) はフルオレセント標識した被検試料とリファレンス試料を競合ハイブリダイゼーションし、シグナル比からコピー数を推定する技術である。Roche NimbleGen (nucleotide genomics arrays) は最大210万 (2.1M) プローブ、Agilentは最大100万 (1M) プローブの全ゲノムarray CGHプラットフォームを提供しており、一般的に3~10個以上の連続するプローブシグナルが一致することでCNVコールを行う。超高密度アレイ (24Mおよび42Mプローブのカスタムアレイ) を用いた研究 (それぞれ30例および40例) では500 bpまでの小型CNVが検出可能となり、ブレークポイントの同定も一部で可能になった。大きなCNV (>500 kb) は個体の8%に存在するとされるが、通常のarray CGHでは<10 kbの小型イベントの感度が著しく低下し系統的検出が困難である。

array CGHの重要な限界として: (1) 参照ゲノムに存在する配列にしか設計できないため新規配列の挿入は検出不可、(2) 重複コピーの位置情報が得られない、(3) 均衡型SV (逆位・均衡型転座) はコピー数変化を伴わないため検出不可、(4) セグメンタル重複領域では二倍体仮定の破綻によりシグナル解釈が困難、などが挙げられた。array CGHは小児発達遅滞の一次核型検査に代わる主要診断ツールとして確立しており、臨床的普及度が高い。全ての既存のシングルマイクロアレイプラットフォーム (<10 kbで感度が低下) はSNPアレイを含め感度が<10 kbで大きく減衰し、25 kb以下の病的CNVの発見は大部分の研究で未探索のままである。WTCCは11,107 CNVローカスをカバーする約105,000プローブのAgilentアレイを開発し、約19,000試料を解析した結果、4,000 CNVの遺伝型判定に成功したが、重複よりも欠失のほうが遺伝型判定は容易であることが示された。

SNPマイクロアレイの特性と優位性： SNPアレイ (Affymetrix 6.0・Illumina 1M等) はSNP特異的なプローブ設計に基づき単一試料でハイブリダイゼーションを行い、log比とBAF (beta allele fraction: Bアリル頻度) の2つのメトリクスによりコピー数解析を行う。BAFメトリクスはアリル特異的コピー数解析を可能にし、ヘテロ接合性喪失 (LOH) やUPD (uniparental disomy: 親片性二倍性) の同定にも有用である。2,493のIllumina SNPプロファイルを用いた研究では、0.5~1%頻度域の大規模CNVの包括的マップが作成され、集団規模でのCNV解析への応用が示された。ただし、per-probeシグナル/ノイズ比がarray CGHより低い傾向があり、特に単一コピーゲイン (3対2コピー比) の検出ではarray CGHに劣ることが多い。

SNPアレイとarray CGHを比較した結果、>5 kbのCNVの解析で両プラットフォーム間に実質的な不一致が見られた; 同一DNA試料を用いた比較研究では、ゲノムの重複領域において読み深度に基づく推定値とSNPアレイによるコピー数推定の不一致が30%に達し、この不一致のほとんどはセグメンタル重複領域に集中し、整数補正後に83%の一致度に改善されることが示された。

単分子解析法の特性と限界： FISH・fiberFISH・スペクトルカリオタイピングは約500 kb~5 MbのSVを視覚化できるが、低スループット・低解像度である。Optical mapping (制限断片マッピング) はヒトゲノムSV解析に適用され、逆位・転座・CNVの検出が可能だが、リファレンスゲノムへの依存性と限られたスループットが課題である。DNAバーコーディング (ナノチャンネルフローセル・ナノスリット)、エマルジョン液滴PCR (シングルモレキュールPCR)、シングルモレキュールシークエンシングはCNVを細胞レベルで定量する将来性ある技術として紹介された。これらの単分子技術は均衡型SVや複雑SVの解析において既存プラットフォームを補完する役割が期待された。Optical mappingによるSV検出精度はブレークポイント分解能 >1 kbで適用可能であり、FISH法で同定可能なSVの最小サイズは典型的に100 kb以上とされた。シングルモレキュールシークエンシング技術では体細胞モザイクCNVの検出において従来のショートリードNGSより感度が向上することが見込まれた。

NGSベース四戦略の比較・強みと限界： 1000 Genomes Project (185ゲノム) を含む大規模NGS解析でSV発見に用いられた4戦略の特性が詳細に比較された (Figure 2・3)。

RP (read-pair) 法は、ペアエンドリードの間隔・向きの不一致からSVを検出する。欠失 (離れすぎたペア)・挿入 (近すぎるペア)・逆位 (向きの不一致) などが検出可能であり、最も広く応用されている戦略である。ツールにはPEMer (paired-end mapper)・BreakDancer・VariationHunter・HYDRA (heterogeneous yielding detection read-depth aligner) 等が含まれる。欠点として、反復配列領域での読み取り割り当てが困難であること、フラグメントサイズ分布のタイトな制御が必要であること、ブレークポイント分解能が限られることが挙げられた。

RD (read-depth) 法は、シークエンシングカバレッジの増減からコピー数を推定する唯一の戦略でありコピー数の絶対値推定が可能である。n=185試料のNGS解析 (1000 Genomes Pilot) では、22,025件の欠失 (中央値742 bp)・501件のタンデム重複・5,371件の移動エレメント挿入が同定され、SNPアレイでは検出不能な小型イベントが多数含まれていた。均衡型SV (逆位・バランス型転座) には対応不可であり、ブレークポイント分解能が低いことも限界である。CNVnator (copy number variant tool)・EWT (entropy-based wavelet tool)・SegSeq (segment sequence) 等のツールがread-depth解析に利用された。さらに、read-depth法によるパラログ特異的コピー数推定とqPCRとの相関係数はr²>0.9 (n=25個体) であり高い精度が確認された。また、現行NGSアプローチでは>90%のSV発見イベントが<1 kbに集中し、その大部分が欠失であるという強い発見バイアスが存在することが数値として示された。SNPアレイとread-depthによるコピー数推定の比較では、重複領域で30%の不一致が存在したが、整数補正後には一致度が70%から83%に約1.2-fold改善された。

Split-read (SR) 法は単一リードが参照ゲノムの異なる部位に分割マッピング (split) されるシグネチャを用い、単塩基分解能でのブレークポイント同定が可能である。Pindel等のアルゴリズムがペアエンド情報を活用してlocal gapped alignmentの計算コストを低減している。ただし、現行の短リードでは反復・重複領域での感度が著しく低下し、400 bp以上の長リードがAluelementスパニングに必要となる。

Assembly法は全SV種をブレークポイント分解能で検出できる最も包括的な戦略であるが、ショートリード (50~100 bp) では反復・重複配列領域でコンティグ断片化が頻発し実用化が困難である。EULER-USR (euler unified local exact reads unified short)・ABySS (assembly bioinformatics short-read system)・SOAPdenovo (short oligonucleotide alignment program denovo)・ALLPATHS-LG (assembler linking library path and traversal heuristic)・Cortex assembler等が開発された。

各戦略の発見バイアスと相補性：同一DNA試料に14種類のアルゴリズムを適用した比較研究では、一つのアプローチのみで同定されるSVの割合が最大で約80%に達することが示された; read-pairとsplit-readは最も高い相補性を示し、read-depthとsplit-readの間は最も低い一致率 (<20%) であった (Figure 3b)。SNP microarray・fosmid paired-end・array CGHを同一5個体に適用したVenn解析でも、各プラットフォーム固有のCNVが多数存在することが確認された (Figure 3a)。

この発見の相補性は現行の計算アルゴリズムが網羅的でなく固有のバイアスを持つことを明示しており、SPANNER (split-pair analysis novel network estimation reads)・CNVer (copy number variation estimator reads)・Genome STRiP (structural tracking rearrangement pipeline) といったread-pairとread-depthを組み合わせた複合アルゴリズムが感度・特異度の向上をもたらすことが示された。また、SNPアレイとread-depthを同一試料で比較した結果、重複領域のコピー数推定値において30%の不一致が存在し、整数補正により83%に改善されることが確認された。

遺伝型判定の戦略と応用：発見済みSVの遺伝型判定には、discoveryより緩和された閾値を用いた別手法が適用できる。PCRベース法 (定量PCR・MLPA (multiplex ligation-dependent probe amplification)・MAPH (multiplex amplifiable probe hybridization)・MAQ (map alignment quality); 最大40ローカスの同時解析が可能)、SNPアレイベース法 (Illumina BeadXpress (bead array express) システムで384プローブを同時解析、1%以下の稀少CNVも低偽陽性率で検出可能)、array CGHベース法 (WTCCが11,107 CNVローカスをカバーする105,000プローブAgilentアレイで約19,000試料を解析し4,000 CNVの遺伝型を判定)、NGSベース法 (BreakSeq (breakpoint sequencing)・diagnostic k-mer解析・Genome STRiP等; BreakSeqはSVブレークポイントライブラリへの既存データ統合により新規ゲノムで迅速な遺伝型判定を実現) の4つが整理された。

重複した遺伝子ファミリーの遺伝型判定においては、SUN (singly unique nucleotide: 単一固有ヌクレオチド) 識別子を用いたread-depthに基づくパラログ特異的コピー数推定が有効であることが示された。唾液腺アミラーゼ遺伝子 (AMY1遺伝子ファミリー) の解析では、AMY1B (amylase-1B gene member) が個体間で0~9コピーの大きな変動を示し、定量PCRデータとの高い相関 (r² >0.9、25個体) が確認された (Figure 4)。この統合アプローチは従来のSNPアレイでは正確なコピー数推定が困難だった重複領域での新しい解析パラダイムを示した。

考察/結論

先行研究 (Iafrate et al. 2004・Sebat et al. 2004・Redon et al. 2006) がマイクロアレイによるCNV検出の基礎を確立したのと異なり (Bentley et al. Nature 2008)、本レビューは本研究で初めてNGS四戦略 (read-pair・read-depth・split-read・アセンブリ) とマイクロアレイ二種 (array CGH・SNPアレイ) を統合した体系的比較評価を提供した点で本質的に新規 (novel) な貢献をしている。著者らが中心的に主張した点は、SVの正確なコピー数・内容・構造の三要素を同時解析するためのde novoゲノムアセンブリが長期的目標であるということだった。この目標は当時 (2011年) はコスト・計算資源の面から実現困難であったが、PacBio (Pacific Biosciences) ・Oxford Nanopore等の長リードシークエンシング技術の登場により2020年代には現実のものとなりつつある。

各手法の限界についての率直な議論が本レビューの重要な貢献である。マイクロアレイは<10 kbの小型イベント検出に弱く、NGSは逆にバイオインフォマティクス・計算資源の課題が大きい。特に、>1.5%のヒトゲノム領域が1 kb長リードでも一意マッピング不可能であることが示され、現行短リード技術の根本的限界として提示された。また、14種類のアルゴリズムを同一試料に適用しても最大~80%のSVが単一アプローチにのみ検出されるという発見の低い再現性は、「SV解析のgold standard」が未だ存在しないことを意味する。

臨床応用として、コピー数変化を伴う神経発達障害の診断においてarray CGHが小児発達遅滞の一次核型検査に代わる主要診断ツールとして確立したことが引用された。また、de novoCNVと自閉症・統合失調症の強い関連は、希少変異が複合形質に与える影響を理解する上での重要性を示した (Meyerson et al. NatRevGenet 2010)。残された課題として、反復配列・セグメンタル重複領域のSV正確判定、均衡型SVおよび複合多重SVの完全特性解析、細胞間コピー数多型 (体細胞モザイク) の検出、そして異なるアルゴリズムとデータタイプ間の比較・統合のためのgold standardの確立が挙げられた。

本研究の方法論的枠組みは、その後の100万人ゲノムプロジェクト (UK Biobank (United Kingdom biobank) ・TOPMed (Trans-Omics for Precision Medicine) 等) が採用した統合的SV解析の基盤を形成し、長リード技術による完全ゲノムアセンブリが普及した2020年代のSV研究の重要な先駆的文献として評価される (Nature 2012)。

方法

本論文はレビューであり独自の実験を行っていない。PubMed (public medical database)・MEDLINE (medical electronic data linked index notation entries)・Web of Scienceを中心に、ゲノム構造変異 (SV: structural variant) およびコピー数変異 (CNV: copy number variant) の発見・遺伝型判定に関する2011年時点の文献を網羅的に収集した。マイクロアレイプラットフォーム (array CGH: comparative genomic hybridization・SNPアレイ) と次世代シークエンシング (NGS) ベースの4計算戦略 (read-pair/read-depth/split-read/アセンブリ) をそれぞれ整理し、同一DNA試料に複数手法を適用した1000 Genomes Project (n=185ゲノム) のデータや、8個体に対してfosmid paired-end法・array CGH・SNPアレイを適用したVenn解析結果など既発表原著論文の数値を引用・比較した。Box 2の比較表では5種のプラットフォーム (SNPマイクロアレイ・fosmid ESP (end-sequence profiling)・array CGH・NGS) のCNV発見数・中央値サイズ・イベント種別を対比して掲載した。遺伝型判定ツールの評価にはWTCC (Wellcome Trust Case Control Consortium) (~105,000プローブのAgilentアレイ, n=~19,000試料) の発表データおよびAMY1 (amylase gene 1) 遺伝子ファミリーのread-depthとqPCRの比較 (n=25個体, r²>0.9) も参照した。

各手法の評価において、FDR (false discovery rate: 偽発見率) 補正による多重検定管理やSpearman順位相関係数によるプラットフォーム間コピー数推定値の比較が実施された研究を参照した。

Research Wiki

エクスプローラー

Genome structural variation discovery and genotyping

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク