• 著者: Bamshad MJ, Ng SB, Bigham AW, Tabor HK, Emond MJ, Nickerson DA, Shendure J
  • Corresponding author: Michael J. Bamshad; Jay Shendure (University of Washington)
  • 雑誌: Nature Reviews Genetics
  • 発行年: 2011
  • Epub日: 2011-09-27
  • Article種別: Review
  • PMID: 21946919

背景

メンデル病 (Mendelian disease; 単一遺伝子の変異が原因で特定の遺伝形式をとる疾患群) の遺伝的基盤解明は、連鎖解析 (linkage analysis) とポジショナルクローニング (positional cloning) を主軸として進められてきた。しかし、既知または疑われるメンデル病は約6,000種に及ぶのに対し、遺伝的基盤が同定された疾患は約3,000種にとどまり、残り半数は長年にわたって未解明のままであった (McKusick 2007; Kaiser 2010)。この gap in knowledge の構造的背景には複数の制約が存在した。第一に、解析可能な家系数や罹患者数が絶対的に不足しがちであること。第二に、不完全浸透 (reduced penetrance; 特定の遺伝子型を持つ個体のうち表現型を示す割合が低い現象) が同定を困難にすること。第三に、遺伝子座不均一性 (locus heterogeneity; 同一表現型が異なる複数の遺伝子座の変異によって引き起こされる現象) により単一遺伝子への変異集積が観察されにくいこと。第四に、多くの稀少疾患で生殖適合性が著しく低下していること (Antonarakis & Beckmann 2006)。一方、GWAS (genome-wide association study; ゲノムワイド関連解析) は複雑形質に関連する多数の遺伝子座を同定したものの、ほぼすべての疾患において観察される遺伝率のごく一部しか説明できず、「遺伝率の欠落 (missing heritability)」問題が手薄なまま残されていた (Manolio et al. 2009)。稀少アレル (minor allele frequency; MAF ≤ 1%) が複雑形質の遺伝率に果たす役割もほとんど不明であった。連鎖解析とポジショナルクローニングは相当規模の家系を前提とするため、家系規模が小さい疾患・遺伝子座不均一性が高い疾患・de novo突然変異が病因となる散発例には根本的に適用困難であり、数十年にわたる投資に対し「解明できなかった半数の疾患」が積み残されたという事実がその限界を端的に示した (Ng et al. 2009; Choi et al. 2009)。すなわち、(1) 少数サンプルから候補変異を絞り込む体系的なフィルタリング方法論、(2) 遺伝子座不均一性への統計的対処法、(3) 臨床実装に必要な倫理・実装フレームワーク、の3点が決定的に不足していた。次世代シークエンシング (next-generation sequencing; NGS) 技術は2005年以降急速に普及し、Sangerシークエンシングと比較してシークエンシングコストを約4桁低下させ Metzker et al. NatRevGenet 2010、タンパク質コード領域 (エクソーム; exome、全ゲノムの約1〜2%) を選択的に高深度解析するエクソームシークエンシングの実装を可能にした。Ng et al. (2010) はMLL2変異によるKabuki症候群を同定した最初のエクソームシークエンシング成功例として先行研究を代表し、Worthey et al. (2011) はXIAP変異の同定が治療決定に直結した臨床応用例として注目された。エクソームは既知メンデル病変異の大部分がタンパク質コード配列を変化させるという生物学的知見と合致しており、希少・大効果サイズの変異を濃縮した探索対象として最適であった。しかしながら、エクソームシークエンシングを用いた系統的な遺伝子探索の方法論的枠組みは確立されておらず、フィルタリング戦略・サンプル設計・解析的限界・臨床実装・倫理的課題について体系的な整理が不足していた。

目的

エクソームシークエンシングをメンデル病の原因遺伝子探索に応用するための実験的・解析的オプションを包括的にレビューし、変異フィルタリング戦略・家系情報の活用・de novo変異検出・複雑形質への拡張・臨床診断応用・倫理的課題を体系化することを目的とした。

結果

エクソームシークエンシングの変異検出性能と技術的特性: エクソームシークエンシングで個人あたり検出されるコードSNV (single nucleotide variant; 一塩基変異) の総数は、アフリカ系アメリカ人 (n=100) で平均24,049 ± 791個、ヨーロッパ系アメリカ人 (n=100) で平均20,283 ± 523個であった (Table 1)。このうちdbSNP131または200の内部対照エクソームに未登録の「新規変異 (novel variants)」はアフリカ系で520 ± 53個、ヨーロッパ系で307 ± 33個に過ぎず、全変異の約2%が新規変異という計算になる。変異型別の新規変異数はアフリカ系ではミスセンス303 ± 32個、ナンセンス5 ± 2個、同義置換 (synonymous) 209 ± 26個、スプライス2 ± 1個であった (Table 1)。ヨーロッパ系では新規ミスセンス192 ± 21個、ナンセンス5 ± 2個であり、アフリカ系の方が全変異カテゴリで多い傾向が一貫して観察された。この集団差は、アフリカ系がボトルネック効果を経験していないため遺伝的多様性が高いことを反映する。カバレッジの観点では、n=200の解析でコード遺伝子の82%が少なくとも90%の塩基においてコールを達成しており (Fig 1)、アフリカ系アメリカ人 (n=100、オレンジ) とヨーロッパ系アメリカ人 (n=100、青) で集団間差も示された。一方でエクソームの約5〜10% (キットにより異なる) はターゲット設計や捕捉効率の問題からカバレッジが不十分なまま残るという根本的限界も明記された。技術的課題として、(1) 小型インデル (insertion-deletion) およびコピー数変化の検出精度が依然低い点、(2) 高品質ゲノムDNAを数マイクログラム必要とするため既存バンク検体の多くが利用困難な点、(3) サンプルインデックス化における混入 (crosstalk) の制御が大規模並列処理で難しい点、(4) 処理済み偽遺伝子 (processed pseudogene) への誤アライメントによる偽陽性コールが生じやすい点が挙げられた。

離散フィルタリングと機能的候補絞り込みの方法論: エクソームシークエンシングによるメンデル病遺伝子探索で最も広く用いられたアプローチが離散フィルタリング (discrete filtering) である。この手法では、複数の罹患者エクソームを解析し、各自の変異リストを既知多型データベース (dbSNP、1000 Genomesプロジェクト) および内部対照エクソームと照合することで既知多型を除去し、罹患者間で共有される稀少・新規変異の候補遺伝子を絞り込む (Fig 2a)。この手法の統計的強みは、新規変異が全体の約2%に過ぎないため、少数の罹患者エクソームから候補を大幅に絞り込める点にある。候補変異の優先順位付けには機能クラス (フレームシフト・終止コドン・スプライスサイト変異 > ミスセンス > 同義置換) と配列保存スコア (phastCONS、phyloP、GERP) を組み合わせる。タンパク質機能への影響はSIFT、PolyPhen2、MAPPなどの非同義変異機能予測ツールで評価する。MAF閾値の設定については、常染色体優性疾患では疾患有病率が通常0.1%を大きく下回るためMAF <0.1%の設定が推奨される一方、常染色体劣性疾患では保因者が表現型を示さないため対照集団にも病的アレルが混入しうるリスクがあるが、MAF ≤ 1%の設定でも十分な検出力が維持されることが統計的に示された (Fig 3)。ただし離散フィルタリングの重大な限界として、(1) dbSNPに一部の病的変異が混入している、(2) 遺伝子座不均一性が高い疾患では単一遺伝子に変異が集中しないため偽陰性が増加する、(3) 偽陽性コールが主にセグメンタル重複領域や処理済み偽遺伝子で多発するという問題が指摘された。

検出力シミュレーション:サンプルサイズとMAF閾値の最適化: エクソームシークエンシングで劣性 (recessive) モデルの単一メンデル病遺伝子を同定するために必要なサンプルサイズを、ブートストラップ法 (bootstrap法、各データポイント100回反復) を用いたシミュレーションで評価した (Fig 3)。MAF ≤ 0.1% (MAF = 0.001) の設定下では、劣性疾患において3〜5人の罹患者エクソームだけで原因遺伝子を高確率で同定できることが示された。MAF ≤ 1%設定では若干多くの罹患者が必要となるが、大多数の未解明劣性疾患はキャリア頻度が極めて低いため実用的な範囲である。常染色体優性 (dominant) モデルでは遺伝子座不均一性の影響を受けやすく、より多くのサンプルが必要となる傾向があり、実際の発見率の比較でも現時点では劣性疾患の同定例が優性疾患を大きく上回ることが補足情報で示された。遺伝子座不均一性が存在するケースへの対応として2標本関連検定の適用が推奨される。Box 3のシミュレーションによれば、同一原因遺伝子に起因する症例の割合が60%の場合でも、t検定は約75%の検出力を保持した (症例n=10、対照n=50、有意水準5×10⁻⁵)。Fisher’s exact testはt検定より実質的に検出力が低く、MAFで重み付けするMadsen-Browning法も検出力向上をもたらさなかった。この結果は、遺伝子座不均一性がある疾患ではt検定が最も実践的な統計ツールであることを示唆する。

家系情報の戦略的活用とde novo変異検出: 家系構造を積極的に活用することで、エクソームシークエンシングの候補遺伝子絞り込み効率は大幅に向上する (Fig 2b)。常染色体劣性疾患の近親婚家系では、ゲノムワイドSNPジェノタイピングによるホモ接合性マッピング (homozygosity mapping; 共通祖先由来の同一アレル領域を検索する手法) と組み合わせることで、1人の罹患者エクソームから候補変異を単一遺伝子まで絞り込んだ成功例が報告されている (例: WDR62 (WD repeat-containing protein 62) 変異による重篤脳奇形、Bilguvar et al. 2010)。複数罹患者のいる家系では、最も遠縁の罹患者ペアを選択してシークエンシングすることが合理的である。2人のいとこが希少アレルを同一祖先由来 (identity-by-descent) で共有するゲノム領域はおよそ1/8であるため、稀少変異については罹患者間共有変異の候補数が大幅に減少する。親子トリオ解析 (trio analysis; 両親と罹患児の3人を同時シークエンシング) によるde novo変異検出は、散発例や優性遺伝が疑われる疾患で特に有効である (Fig 2c)。ヒトのde novo変異率は1塩基あたり約10⁻⁸程度とされており、同一遺伝子に独立したde novo変異が複数発生することは確率的に極めて稀であるため、複数症例で同一遺伝子のde novo変異が観察される場合はドライバー変異の有力証拠となる。この戦略により、精神発達遅滞 (intellectual disability; Vissers et al. 2010)、自閉スペクトラム症 (autism spectrum disorder; O’Roak et al. 2011)、統合失調症 (schizophrenia; Girard et al. 2011)、Schinzel-Giedion症候群 (SETBP1 (SET binding protein 1) のde novo変異; Hoischen et al. 2010) など、遺伝子座不均一性が高く家系解析では困難であった疾患群でのde novo変異同定が相次いで成功した。一方で、トリオ解析ではMendelian inconsistency (親が持たない変異を子が持つように見えるケース) の70%以上が、実際には親の変異コールの偽陰性に起因するアーチファクトであることも判明しており、変異コールアルゴリズムの精度向上が課題とされた。

メンデル病遺伝子発見の実績と複雑形質への拡張応用: 本レビュー発表 (2011年9月) 時点までに、エクソームシークエンシングは数十種類のメンデル病の原因遺伝子同定に成功していた。代表的な成功例として、MLL2変異によるKabuki症候群 (Ng et al. 2010)、NOTCH2変異によるHajdu-Cheney症候群 (Simpson et al. 2011)、ACAD9 (acyl-CoA dehydrogenase family member 9) 変異によるComplex I欠損症 (Haack et al. 2010)、VCP (valosin-containing protein; AAA (ATPases Associated with diverse cellular Activities) ファミリーATPaseとしてタンパク質品質管理に関与) 変異による家族性ALS (amyotrophic lateral sclerosis)、TGM6変異による脊髄小脳失調症 (Wang et al. 2010)、CEP152変異によるSeckel症候群 (Kalay et al. 2011) などが挙げられる。これらの成功例の大部分は離散フィルタリングを核としており、特に常染色体劣性疾患での成功例が常染色体優性疾患を大幅に上回った。その理由は、個人ゲノムにおいて両アレルに変異を持つ遺伝子 (劣性) の数が、一アレルのみに変異を持つ遺伝子 (優性) と比較して約50分の1程度しかないためである。複雑形質への応用としては、NIH (National Institutes of Health)/NHLBI (National Heart, Lung, and Blood Institute) Exome Sequencing Projectが早期発症心筋梗塞・脳卒中・慢性閉塞性肺疾患などの心血管・肺疾患の極端表現型を示す7,000例超の患者エクソームを解析し、稀少アレルの寄与を探索していた (Fig 2d)。単一稀少変異との関連検定は大規模サンプルでも検出力が低いため、遺伝子・パスウェイ単位での集積的検定 (Madsen-Browning法、Price法など) の開発が進んでいた。なお、遺伝子座不均一性という概念は癌の文脈でも重要であり、複数の異なる遺伝的経路による同一表現型の発生は治療応答の多様性とも密接に関連する Dagogo-Jack et al. NatRevClinOncol 2018

臨床診断・スクリーニングへの応用と具体的実証例: エクソームシークエンシングの臨床診断への応用では、従来のアプローチでは確定診断に至らなかった患者への貢献が実証された。先天性塩化物喪失性下痢と誤診されていた小児において、SLC26A3 (solute carrier family 26 member 3) 遺伝子の新規ホモ接合性ミスセンス変異 (Asp652Asn) が同定され、Bartter症候群の疑いから正しい診断へと訂正された (Choi et al. 2009)。重症炎症性腸疾患を呈し包括的精査によっても確定診断が困難であった男児では、XIAP (X-linked inhibitor of apoptosis) 遺伝子の新規Cys203Tyr変異が同定されてXLP2 (X-linked lymphoproliferative syndrome type 2; X連鎖リンパ増殖症候群2型) と診断され、同種造血幹細胞移植 (allogeneic haematopoietic progenitor cell transplant) が施行されて少なくとも短期的には奏効した (Worthey et al. 2011)。この症例は「エクソームシークエンシングによる確定診断が直接的な治療変更と救命につながった」先駆的実例として引用されている。非症候群性難聴・Charcot-Marie-Tooth症候群・新生児糖尿病などの多候補遺伝子スクリーニングが必要な疾患でも、エクソームシークエンシングが従来法を大幅に上回る効率で原因変異を特定できることが示された。スクリーニング応用としては、母体血漿中胎児DNAを用いたNGSベースの出生前染色体異数性診断 (Chiu et al. 2008)、および400種超の劣性疾患に対するキャリアスクリーニングが次世代シークエンシングで実現可能であることが報告された (Bell et al. 2011)。技術的・解析的失敗については、技術的失敗の主因として標的定義の不完全性・捕捉効率の低さ・インデルコールの困難・偽遺伝子への誤マッピングが、解析的失敗の最大要因として遺伝子座不均一性 (locus heterogeneity) が挙げられ、後者は検出力の大幅な低下をもたらす。倫理的課題としては、インフォームドコンセントの更新問題 (エクソームシークエンシングが計画されていない段階で収集されたバンク検体の使用)、および偶発的所見 (incidental findings; 一次研究目的とは無関係に発見される臨床的に重要で対応可能な変異) の返却義務に関する社会的合意の欠如が指摘された。米国・カナダの遺伝カウンセラー数は約3,000人にとどまり、エクソームシークエンシングの大規模臨床実装に対応する解釈・コミュニケーション体制の整備が急務とされた。

考察/結論

エクソームシークエンシングは連鎖解析・ポジショナルクローニングと比較して以下の点で根本的に異なる技術として確立された。(1) 数人のサンプルから数週間以内に候補遺伝子を絞り込めること、(2) 新規なゲノムターゲット設計を必要とせず既存のNGSプラットフォームで実施できること、(3) de novo変異や遺伝子座不均一性を含む多様な遺伝形式に対応できることである。連鎖解析が大規模家系と数百のマーカーを要したのと異なり、エクソームシークエンシングは3〜5人の無関係な罹患者から候補を単一遺伝子まで絞り込めるという本質的な違いがある。先行研究では単一疾患の成功例が個別に報告されていたのと異なり、本レビューはその方法論を体系化し「離散フィルタリング → 機能・保存スコアによる優先順位付け → 家系情報の組み合わせ」という新規な標準解析フレームワークを初めて提示した点で質的に異なる意義を持つ。特に常染色体劣性疾患では1人の罹患者エクソームから原因遺伝子を絞り込む目標が現実的であることを統計的シミュレーションで示したことは、これまで報告されていない水準の実証的根拠を提供した。臨床応用という観点では、XIAP変異同定から治療変更・救命へと至ったWorthey et al.の実例は、エクソームシークエンシングが単なる研究ツールを超えて「診断的オデッセイ (diagnostic odyssey)」を終わらせる臨床応用として機能しうることの臨床的含意を具体的に示した。残された課題として、非コード変異 (プロモーター・スプライス調節配列・microRNA) を原理的に見落とすという根本的制約、インデルおよびコピー数変化の検出精度改善、遺伝子座不均一性に対応した統計手法の確立が提示された。また、偶発的所見の返却義務の定義・データ共有ポリシー・インフォームドコンセントの再設計が今後の研究倫理の課題として明示された。遺伝カウンセラーの絶対数不足と変異解釈能力の限界は、エクソーム・ゲノム情報の日常診療への統合を妨げる最大の実装上の limitation であり、教育・インフラ・政策的対応の並行整備が必要とされた。全体として、本レビューは既知メンデル病のすべての遺伝的基盤を解明することが人類遺伝学コミュニティの使命であるという主張とともに、全ゲノムシークエンシングへの段階的移行と非コード変異の機能的解釈戦略の開発への将来展望を述べており、その後10年の臨床ゲノミクスの発展の方向性を先取りした文献として位置付けられる。

方法

本論文はレビューであり、PubMed/MEDLINE データベースを用いた先行研究の系統的調査に基づく。エクソームシークエンシングの標準ワークフロー (ゲノムDNAの無作為断片化 → ビオチン標識RNA/DNAベイトへのハイブリダイゼーション捕捉 → マッシブパラレルシークエンシング → リファレンスゲノムへのアライメント) を解説した。捕捉キットとして主要3社 (Agilent、Illumina、Nimblegen) の製品を取り上げ、いずれも96プレックスのロボットオートメーションに対応することを示した。変異コールには、Burrows-Wheeler alignment toolによるアライメント後にGATK (Genome Analysis Toolkit) を用いたリキャリブレーション・インデル周辺再アライメント・重複除去を実施した DePristo et al. NatGenet 2011。コールフィルタ条件はquality score >50、allele balance ratio <0.75、homopolymer run >3、quality by depth <8とし、RefSeq37.2ターゲット (35,804,408 bp) に適用した。代表データとしてアフリカ系アメリカ人 (n=100) とヨーロッパ系アメリカ人 (n=100) のエクソームをNimblegen V2ターゲットで解析し、変異型別の平均数 (mean ± SD) を算出した。変異フィルタリング戦略として、離散フィルタリング (discrete filtering; dbSNP131、1000 Genomes Project、内部対照200エクソームとの照合による既知多型除去) および機能影響スコアリング (phastCONS、phyloP、GERP (Genomic Evolutionary Rate Profiling) による配列保存スコア; SIFT (Sorting Intolerant From Tolerant)、PolyPhen2 (Polymorphism Phenotyping v2)、MAPP (Multivariate Analysis of Protein Polymorphism) によるアミノ酸置換機能影響予測) を評価した。また2標本関連検定 (Fisher’s exact test、t検定、Madsen-Browning法) の適用、家系情報活用、親子トリオ解析によるde novo変異同定、複雑形質における極端表現型デザイン (extreme phenotype design) についても論じた。検出力シミュレーションには772例の深部シークエンシングエクソームデータ (ヨーロッパ系) を用い、ブートストラップ法 (bootstrap法) による100回反復で各MAF閾値・遺伝モデル下における原因遺伝子同定確率を算出した。