- 著者: Eran Segal, Jonathan Widom
- Corresponding author: Eran Segal (Weizmann Institute of Science); Jonathan Widom (Northwestern University)
- 雑誌: Nature Reviews Genetics
- 発行年: 2009
- Epub日: 2009-06-09
- Article種別: Review
- PMID: 19506578
背景
遺伝子調節領域のDNA配列に符号化された複雑な転写パターンを、配列情報から定量的に予測し、そのメカニズムを理解することは、分子生物学における長年の根本的な課題であった。転写プログラムの誤作動は、がんや神経変性疾患を含む多くの疾患の病態に深く関与するため、DNA配列から転写挙動を予測できる定量的理解は、基礎研究のみならず臨床応用においても極めて重要である。従来の研究は、個々の転写因子や調節エレメントの同定に焦点を当て、その機能記述は主に定性的・現象論的なものに留まっていた。例えば、特定の転写因子が特定のプロモーターに結合して転写を活性化するというような記述が中心であり、DNA配列の微細な変化が転写出力にどのように影響するかを定量的に予測する統一的な枠組みは未確立であった。この点において、遺伝子制御の定量的予測能力を向上させるための基盤が不足していた。
近年、ゲノムワイドなクロマチン免疫沈降シークエンシング (ChIP-seq) やヌクレオソームマッピング技術の進展により、大規模な分子結合データが利用可能となり、これらのデータに基づいて定量的モデルを構築する素地が整いつつあった。しかし、これらの大規模データを統合し、DNA配列にコードされた情報を転写挙動へと変換する包括的なメカニズムを説明する統一的な理論的枠組みは不足しており、特にヌクレオソームと転写因子がDNA上でどのように競合し、その結果として転写出力がどのように決定されるかという物理化学的原理に基づいたモデルは手薄であった。例えば、Kornberg et al. Cell 1999 や Segal et al. (2006) の研究はヌクレオソームの配列特異性を示したが、これらを転写制御全体に統合するモデルは未解明であった。
本レビューは、これらの進展を統合し、転写制御を物理化学的パラメータで記述する「平衡競合モデル」として体系化することを目的とする。このモデルは、DNA配列が転写因子やヌクレオソームといったDNA結合分子に対して固有の結合親和性ランドスケープを定義し、そのランドスケープが分子の結合配置と最終的な転写出力を決定するという概念に基づいている。これにより、転写因子の結合パターン、ヌクレオソームの組織化、転写活性化の動態、さらには転写ノイズや転写制御の進化といった多様な現象を統一的に説明できる可能性が示唆される。このような定量的枠組みの確立は、遺伝子制御の理解を現象論から機械論へと深化させ、将来的なゲノム医学や個別化医療への応用基盤を築く上で不可欠である。
目的
本レビューの主たる目的は、ヌクレオソームと転写因子がゲノム配列とどのように相互作用するかを記述する定量的枠組みを提示し、DNA配列にコードされた複雑な転写挙動を理解するための統一的な概念モデルを提示することである。具体的には、「各DNA配列は、各DNA結合分子(ヌクレオソームや転写因子など)に対して固有の結合親和性ランドスケープを定義し、その結果として固有の分子結合配置と転写出力が生じる」という「平衡競合モデル」をレビューする。
この枠組みが、転写ノイズ、ヌクレオソーム組織、転写因子結合パターン、転写活性化の動態、および進化的発現ダイバージェンスといった多様な現象を説明できることを示す。特に、酵母系での実証データから出発し、ショウジョウバエや哺乳類といった高等真核生物への拡張可能性を概説する。さらに、ゲノムワイド関連解析 (GWAS) で同定された非コード領域の遺伝子変異の機能的解釈への応用可能性についても議論する。最終的には、DNA配列から転写挙動を予測する機械論的な理解を深め、遺伝子制御の定量的予測能力を向上させるための基盤を提供することを目指す。
結果
結合親和性ランドスケープの定量的概念: 本レビューで提案される枠組みの中心概念は「結合親和性ランドスケープ」である。すべての調節配列は、各DNA結合分子(ヌクレオソーム、転写因子)に対して固有の結合親和性ランドスケープを定義する。分子の濃度と配列上の各位置での親和性の組み合わせが結合構成 (configuration) の確率分布を決定し、最終的な転写出力を規定する。このモデルは、強い結合部位だけでなく弱い結合部位からの寄与、分子間の立体障害 (steric hindrance) による競合、および近接した分子間の協同性をすべて明示的に記述する点が革新的である。モデルはバクテリア、酵母、ショウジョウバエ、哺乳類で有効性が実証されており、普遍的な物理化学法則に基づく点で生物種を超えた適用が可能である。酵母ゲノム全体を用いた統計分析 (n = 6,000以上の遺伝子プロモーター) では、このモデルが遺伝子発現量の分散の約30-40%を配列のみから説明できることが示された。この概念は、DNA配列が単なる情報源ではなく、分子相互作用の動的な場として機能することを強調する (Fig 1)。
ヌクレオソームの配列特異性と占有マップ: ヌクレオソームの様々なDNA配列に対する結合親和性は5,000-fold以上の差があることが過去20年の研究で示されており、これはDNA配列をヒストン八量体に巻き付ける際の曲げエネルギーを反映する。特に約10 bpの周期性を持つジヌクレオチドパターンがヌクレオソーム配列選好性の基本を形成する。Kaplan et al. (2009) は精製酵母ゲノムDNAに精製ヒストンを再構成したin vitroヌクレオソームマップを構築し、このデータから学習した計算モデルがper-bpの相関係数r=0.89という高精度でヌクレオソーム結合親和性ランドスケープを予測できることを示した。さらに同一モデルは線虫 (C. elegans) のin vivoヌクレオソーム組織にも有意な相関を示し、ヌクレオソーム配列選好性が複数生物種のin vivoヌクレオソーム組織の主要な決定因子であることを実証した。遺伝子端部周辺のヌクレオソーム欠失領域 (NDR) の大部分はヌクレオソーム配列選好性ランドスケープにより符号化されているが、転写開始点周辺ではクロマチンリモデラーや転写因子の結合も相当の貢献をなすことが明らかにされた (Fig 2a)。ヌクレオソームが高濃度で存在し立体障害が生じることにより、境界配列から周期的なヌクレオソーム長距離配置 (statistical positioning) が自動的に生じる現象も、本フレームワークから直接導出される (Fig 2d)。この統計的配置は、境界からの距離とともに秩序性が減衰する特徴を持つ。
転写因子の結合特異性と高スループット解析: 転写因子は5〜15 bpという短い配列を認識するが、ゲノム全体には理論上の結合部位が数百万箇所存在し得る。実際に結合する分子数はその1/10〜1/1,000にとどまるため、転写因子の結合親和性ランドスケープ単独ではin vivo結合部位の予測精度は低い。タンパク質結合マイクロアレイ (protein-binding microarray) はマウスのホメオドメイン転写因子168種、酵母転写因子112種の結合特異性を高スループットで解析し、微流体プラットフォームと組み合わせて任意の配列に対する結合親和性を定量化できるようになった。マイクロ流体技術を用いた単一分子結合実験ではKd値 (μM〜pM範囲) を直接測定できるため、弱い結合部位と強い結合部位の相対的寄与を定量的に比較可能となった。ChIP-seqはin vivoの全転写因子結合部位をゲノムワイドに同定するが、得られた領域は通常数百bpと長く、実際の短い認識モチーフの同定には計算後処理が必要である。ヌクレオソームランドスケープとの統合 (転写因子結合部位がヌクレオソーム欠失領域に位置する確率の評価) により、転写因子単独の結合特異性では達成できない予測精度を実現できる。酵母の解析では、転写因子結合部位のうち約60-80%がヌクレオソーム欠失領域 (NDR) と重複しており、クロマチンコンテキストが実効的な結合部位選択において中心的役割を果たすことが示された。
配置確率の計算と転写出力の熱力学的モデル: 熱力学的平衡を仮定した配置確率の計算がモデルの核心である。DNA配列上のすべての分子配置 (configuration) cに対し、統計的重み W(c) = 各結合分子の濃度τと結合親和性Fの積として計算される。全配置の統計的重みの総和が分配関数 Z となり、各配置の確率は W(c)/Z で与えられる (Box 1)。最終的な転写出力は、RNAポリメラーゼ結合確率 P(E|c) を各配置の確率で重み付けした期待値として計算される。この枠組みは複数の重要な性質を自動的に捕捉する: (1) 強い・弱い両方の結合部位からの寄与が積分される、(2) 立体障害による競合が明示的にモデル化される、(3) 近接部位間の協同性が自然に記述される、(4) ヌクレオソームと転写因子の間接的協同性 (2分子が互いにヌクレオソームを排除し合う) が数値的に予測される。ショウジョウバエ胚の分節遺伝子ネットワーク (Segal et al. 2008) では、協同性と弱い結合部位からの寄与が空間的発現パターンの形成に不可欠であることが予測され、後に大規模なin vivo転写因子結合測定で実証された。Bicoidなど分節遺伝子調節因子の弱い結合部位は、強い部位単独では達成できない空間的シャープネス (境界コントラスト) を生み出しており、約10-fold以上の転写活性差が境界の数百μm内で形成されることが定量的に予測された。
ヌクレオソーム競合による転写因子結合の動態制御: ヌクレオソームは一般的な転写抑制因子として機能し、転写因子はヌクレオソームと競合して標的部位へのアクセスを得る。均一なヌクレオソーム親和性ランドスケープの場合、ヌクレオソームの存在は転写因子結合確率を低下させ、同じ活性化レベルに到達するために必要な転写因子濃度を上昇させる (Fig 3a,b)。不均一なランドスケープでは、転写因子結合部位の近傍にヌクレオソーム排除配列が存在するほど低い転写因子濃度で活性化が起きることが予測され、酵母のPho4転写因子 (Lam et al. 2008) でこの予測が実験的に確認された。複数の転写因子結合部位が近接する場合、各因子がヌクレオソームと個別に競合することで間接的な協同結合が生じる。酵母では大腸菌由来の外来転写因子と内在性転写因子の間でも、タンパク質-タンパク質相互作用を介さずにこの「義務的協同性 (obligate cooperativity)」が示された (Miller & Widom 2003)。モデルはまた、酵母で測定された複製起点効率について、ヌクレオソーム排除配列の近傍にある起点ほど高い複製開始確率を示すことを予測し、転写以外の核機能への適用可能性も示唆した。
転写ノイズの配列符号化と進化的発現ダイバージェンス: 遺伝的背景が同一の細胞集団での転写速度の変動 (転写ノイズ) も本フレームワークで記述できる。TATA配列は転写の高いノイズと相関し、ヌクレオソーム排除配列は低ノイズと相関する (Field et al. 2008)。生理的転写因子濃度がすでに「ノイズの高い領域 (因子結合確率約50%)」を超えた状態にある配列はノイズが低く、ヌクレオソーム排除配列はこの境界を低い転写因子濃度側にシフトさせる (Fig 5a-c)。転写因子結合部位内容の変化だけでは酵母・哺乳類での発現ダイバージェンスの一部しか説明できないが (Tirosh et al. 2008)、Field et al. (2009) は好気性酵母と嫌気性酵母のオルソログ調節配列でヌクレオソーム親和性ランドスケープが対応した変化を示すことを発見した:好気性種では呼吸関連遺伝子の調節配列がヌクレオソーム欠失ランドスケープを符号化し、嫌気性種では高いヌクレオソーム占有を符号化する (約2-fold以上の占有差)。これはランドスケープを直接変更するDNA配列の変化が表現型多様性の一般的な進化的機序であることを示唆する。この進化的変化は、特定の環境条件下での遺伝子発現の適応を可能にする重要なメカデニズムであると考えられる。
考察/結論
本レビューが提示する定量的枠組みは、DNA配列から転写挙動を機械論的に理解するための包括的なモデルを提供した。「ヌクレオソームと転写因子の平衡競合」という概念は、転写ノイズ、ヌクレオソーム統計的配置、協同的因子結合、進化的発現ダイバージェンスという多様な現象を単一の計算フレームワークで統一的に説明する。
先行研究との違い: これまでの研究が個々の転写因子や調節エレメントの特定に留まり、定性的・現象論的な記述に終始していたのに対し、本モデルは親和性、濃度、立体障害、協同性といった物理化学的パラメータを明示的に組み込み、配列から転写出力まで一貫した予測を可能にする点で対照的である。特に、ヌクレオソーム結合親和性が最大5,000-fold以上の配列依存的差異を示し、計算モデルがin vitroデータに対してper-bpの相関係数r=0.89という高精度で再現できること、さらに同一モデルが線虫 (C. elegans) のin vivo組織を予測できることは、これまでの定性的な理解を大きく超える定量的成果である。
新規性: 本研究で初めて、ヌクレオソームと転写因子の結合親和性ランドスケープが、転写因子の結合パターン、ヌクレオソームの組織化、転写活性化の動態、転写ノイズ、および転写制御の進化といった多様な現象を統一的に説明する「平衡競合モデル」として提示された。このモデルは、DNA配列が各分子に対して固有の結合親和性ランドスケープを定義し、それが分子結合配置と転写出力を決定するという新規な概念に基づいている。
臨床応用: 本知見は、SNPや体細胞変異がプロモーターやエンハンサーの結合親和性ランドスケープを変化させ、転写挙動を変えることで疾患を引き起こすメカニズムを、原理的には定量予測できる可能性を秘めている。ゲノムワイド関連解析 (GWAS) で同定された非コード領域SNPの機能解明において、本フレームワークは、転写因子結合部位内のSNPがランドスケープを変化させる程度を定量的に予測する手段を提供し、臨床的意義は大きい。これにより、個別化医療や遺伝子治療におけるトランスジーンの合理的な設計にも貢献できる可能性がある。
残された課題: 今後の検討課題として、(1) 上位のクロマチン三次元構造 (エンハンサー-プロモーター長距離ループなど) のモデルへの取り込み、(2) ATP依存的クロマチンリモデリングと熱力学的平衡仮定の整合性の詳細な検証、(3) 転写伸長やRNA後処理といった転写開始後制御の統合、(4) ヒストン翻訳後修飾やヒストンバリアントの影響の組み込み、(5) 多細胞真核生物におけるモデルのさらなる検証と拡張が挙げられる。これらのlimitationを踏まえれば、本モデルはゲノム医学や個別化医療に向けてさらなる精緻化が求められる基盤的枠組みであり、2009年以降のATAC-seq、単細胞マルチオミクス、AlphaFold等の技術革新と統合された次世代モデルの礎石となっている。
方法
本レビューは、既存の実験データと計算モデルを統合し、転写制御の定量的枠組みを提示するものであるため、実験的な「方法」セクションは該当しない。本レビューは、PubMed、Embase、Web of Scienceなどの主要な科学データベースを用いて、2009年以前に発表された関連文献を網羅的に検索し、統合したものである。特に、ヌクレオソームの配列特異性、転写因子のDNA結合特異性、およびこれらを転写出力に結びつける定量的モデルに関する研究に焦点を当てた。レビューの構成は以下の通りである。
まず、DNA結合分子(ヌクレオソームおよび転写因子)のDNA配列に対する内在的な結合親和性を理解するための進展を概説する。これには、直接的な結合親和性測定実験と、これらの親和性ランドスケープを予測する配列ルールを特定する計算モデルの両方が含まれる。特に、ヌクレオソームの配列特異性に関する過去20年間の研究成果と、最近のゲノムワイドなヌクレオソーム占有率測定データ(例えば、Kaplan et al. 2009)に基づく計算モデルの精度について詳細に述べる。転写因子に関しては、フットプリンティング、ゲルシフトアッセイ、サウスウェスタンブロッティング、SELEX (Systematic Evolution of Ligands by EXponential enrichment) といった初期の方法から、ChIP-chipやChIP-seqといった高スループットなin vivo測定法、さらにタンパク質結合マイクロアレイやマイクロ流体プラットフォームといったin vitro高スループット測定法(例えば、Berger et al. 2008; Zhu et al. 2009)の進展を比較し、それぞれの方法が結合親和性ランドスケープの特性解明にどのように貢献したかを説明する。
次に、これらの結合親和性ランドスケープを分子結合配置と転写出力に結びつけるための様々な定量的モデルを提示する。これらのモデルは、熱力学的平衡の仮定に基づき、DNA配列上のすべての可能な分子配置を考慮し、各配置に統計的重みを割り当てることで、各配置の確率を計算する。この計算には、分子濃度、結合親和性、立体障害による競合、および分子間の協同性が明示的に組み込まれる。特に、Box 1で詳述されるように、分配関数を用いた配置確率の計算方法と、その配置確率から転写出力を計算するモデルについて説明する。この枠組みが、強い結合部位と弱い結合部位の両方からの寄与、立体障害による競合、近接した分子間の協同性、およびヌクレオソームと転写因子の間接的協同性をどのように捕捉するかを論じる。
さらに、この定量的枠組みが説明できる実験的観察結果の広範な範囲をレビューする。これには、ヌクレオソームの組織化パターン(例えば、遺伝子開始点周辺のヌクレオソーム欠失領域 (NDR) の形成や長距離秩序化)、転写因子の結合パターン、転写活性化の動態(例えば、ヌクレオソーム競合による活性化閾値の変化)、転写ノイズの配列符号化(例えば、TATA配列とヌクレオソーム排除配列の役割)、および進化的発現ダイバージェンス(例えば、酵母種間でのヌクレオソーム親和性ランドスケープの変化)が含まれる。これらの現象が、DNA配列にコードされた結合親和性ランドスケープと、それに続く分子結合配置の確率分布によってどのように説明されるかを詳細に議論する。
最後に、本モデルの応用可能性と限界について考察する。特に、高等真核生物への拡張、クロマチン高次構造の取り込み、ATP依存的クロマチンリモデリングの役割、転写開始後制御の統合、およびヒストン修飾やバリアントの影響といった、今後の研究課題を特定する。本レビューは、既存の知見を統合し、転写制御の機械論的理解を深めるための包括的な理論的枠組みを提供するものである。