Genome annotation: from sequence to biology

著者: Lincoln Stein
Corresponding author: Lincoln Stein (Cold Spring Harbor Laboratory)
雑誌: Nature Reviews Genetics
発行年: 2001
Epub日: N/A
Article種別: Review
PMID: 11433356

背景

ヒトゲノム (Human Genome Project: ヒトゲノム計画) のワーキングドラフトが公共コンソーシアムと Celera Genomics (セレラ・ゲノミクス) によりそれぞれ 2001 年に発表された (Lander et al. Nature 2001)。これにより生物学者は初めて 30 億塩基対の生の DNA 配列という情報資源を手にしたが、配列そのものは生物学的意義をもたない。アノテーション (annotation: 注釈付け) ——生の配列データに解析と解釈の層を積み重ねて生物学的意義を抽出し既存の知識文脈に位置付けるプロセス——が急務となった。先行研究では酵母 Saccharomyces cerevisiae (~5,600 遺伝子)・線虫 Caenorhabditis elegans (~19,000 遺伝子、The C. elegans Sequencing Consortium 1998)・ショウジョウバエ Drosophila melanogaster (~13,600 遺伝子)・シロイヌナズナ Arabidopsis thaliana (~24,000 遺伝子) のゲノムアノテーションが順次進んできたが、ヒトゲノムではコーディング領域がわずか数 % に過ぎず (Haemophilus influenzae (ヘモフィルス・インフルエンザ: グラム陰性球菌) は 85%・酵母は 70% が coding)、信号対雑音比の問題が遺伝子予測を困難にしていた。また代替スプライシング (alternative splicing: 選択的スプライシング)・転写調節・非コード RNA (non-coding RNA: ncRNA)・セグメンタルデュプリケーション (segmental duplication: セグメント重複) の全容が未解明であり、ゲノム配列を包括的に注釈付けする統合方法論が不足していた (Meyerson et al. NatRevGenet 2010)。特に「何が足りなかったか」という観点では、ab initio (計算的) 遺伝子予測と実験的証拠——EST (expressed sequence tag: 発現配列タグ)・cDNA データ——の統合方法論が整備されておらず、またアノテーション情報を異なる研究グループ間・生物種間で比較統合するための標準語彙が欠如していた。本レビューはこれらの課題を体系的に整理した (Watson et al. NatRevGenet 2013)。

目的

ゲノムアノテーションの全体プロセス——ヌクレオチドレベル (どこにあるか)・タンパク質レベル (何であるか)・プロセスレベル (いかに機能するか) の三層構造——を俯瞰し、各段階で用いられる手法・ソフトウェアツール・データベースおよびコミュニティ組織モデルを包括的にレビューする。ゲノム配列から生物学的理解へと橋渡しするアノテーション技術の現状・限界・将来の方向性を整理することを目的とする。

結果

ゲノムアノテーションの三層構造：ヌクレオチド・タンパク質・プロセスの統合枠組み：著者はゲノムアノテーションをヌクレオチドレベル・タンパク質レベル・プロセスレベルの三層に整理した (Fig. 1)。ヌクレオチルレベルアノテーションには遺伝子発見・既知遺伝子マーカーの配置・反復配列同定・セグメンタルデュプリケーションマッピング・SNP (一塩基多型、既知) 同定が含まれる。ヒトゲノムではコーディング領域がわずか数 % に過ぎず (H. influenzae の 85%・酵母の 70% と対照的)、典型的なエクソンが約 150 bp・典型的なイントロンが数 kb という信号対雑音比の問題が遺伝子予測を困難にしていた。Celera の Otto システム (RefSeq・UniGene (統合遺伝子データベース)・Swiss-Prot 類似性を最優先し GENSCAN で補強) と公共コンソーシアムの Ensembl システム (GENSCAN ab initio 予測を先行し cDNA/EST データで補強) が異なるアプローチをとりながら、推定遺伝子数は約 30,000 件でほぼ一致した。これは以前の推定値 80,000-140,000 件の 4 分の 1 以下にあたり (Fig. 1)、ヒトの生物学的複雑性がゲノムの遺伝子数よりもタンパク質アイソフォームの多様性——代替スプライシング・翻訳後修飾——によって生み出されるという新パラダイムをもたらした。各生物のゲノム規模での遺伝子数は H. influenzae 1,709・酵母約 5,600・ショウジョウバエ約 13,600・線虫約 19,000・シロイヌナズナ約 24,000・ヒト >30,000 と段階的に示された。PSI-BLAST による Swiss-Prot および TrEMBL への相同検索でタンパク質レベルアノテーションが行われ、InterPro (release 3.0: n=3,591 エントリ、n=2,628 ファミリー・n=888 ドメイン・n=75 リピートおよび翻訳後修飾部位) がヒトを含む多生物で予測タンパクの 40-50% にマッチした。残る >50% は機能未知の新規タンパクファミリーに属し、ヒトゲノム固有のタンパク質多様性の広大さが明らかとなった。

遺伝子予測の精度限界：ab initio 法と cDNA 類似性統合の必要性：HMM (hidden Markov model: 隠れマルコフモデル) を用いた ab initio 遺伝子予測プログラム群 (GENSCAN・Genie・GeneMark・HMMGene 等) はスプライスドナー・アクセプター部位・TATA ボックス (thymine adenine thymine adenine: プロモーター結合モチーフ)・CpG (cytosine-phosphate-guanine: シトシン-リン酸-グアニン) アイランド等の統計的シグナルを学習して遺伝子モデルを生成する (Fig. 2)。TATA ボックスの認識精度・スプライスサイトの境界検出・CpG アイランドの密度分布はすべてゲノム種ごとに異なるパラメータセットで学習が必要であり、モデル生物から学習したパラメータをヒトゲノムに直接転用すると感度・特異度がともに低下することが定量的に示された。Reese et al. によるショウジョウバエゲノム 2 領域を対象とした包括的比較評価では、最良アルゴリズムでもヌクレオチド単位の感度約 95%・特異度約 90% に達したが、完全な遺伝子構造を正確に予測する能力は感度 40%・特異度 30% にとどまった。さらに 5-15% の遺伝子が完全に見逃された。cDNA・EST 類似性データを ab initio 予測と組み合わせたハイブリッドアルゴリズム (Grail/Exp・GenomeScan (genome scan: 統合遺伝子予測ツール) 等) は性能が著しく向上し、「cDNA または EST への配列類似性が遺伝子転写の最も強力な証拠」という方法論的原則が確立された。

非コード RNA・反復配列・セグメンタルデュプリケーションのゲノム規模アノテーション：tRNAScanSE プログラム (複数の HMM を統合した高感度 tRNA 予測ツール) によりヒトゲノムで n=497 個の tRNA と n=324 個の tRNA 偽遺伝子が系統的に同定された (Table 参照)。SINE (short interspersed nuclear element: 短鎖散在反復配列) の代表例である Alu 配列はヒトゲノムに約 300,000 コピー存在し、多生物データとの比較で分布変化が重要な発見として示された。LINE (long interspersed nuclear element: 長鎖散在反復配列)・DNA トランスポゾン・レトロウイルス様要素なども含めた反復配列全体は、RepeatMasker による系統的アノテーションの結果、ヒトゲノムの 44% を占めることが明らかとなり、このうちトランスポゾン関連配列が大部分を担うことが示された。過去 33-50 Myr 間にトランスポゾン活性が著しく低下したことが時系列的に示され (Fig. 3)、ヒトゲノムが現在ほぼ「凍結した」トランスポゾン景観を持つことが明確に定量化された。古い Alu 配列が (A+T) リッチ領域から (G+C) リッチな遺伝子密集領域に約 2-fold シフトしている点は正の選択の可能性を示唆する。シロイヌナズナゲノムではセグメンタルデュプリケーションが顕著で、予測 ORF の >60% が同一ゲノム内に paralogue を持ち、数百 ORF 長の大型シンテニーブロックが形成されており、4 回の重複イベントが 100-200 Myr 前に起きたと推定された (Fig. 3)。ヒトゲノムでは約 5% がセグメンタルデュプリケーションに関与すると推定され、後の CNV (copy number variation: コピー数変異) 研究の基盤となった。SNP の分布はゲノム全域で均一でなく「SNP ホットスポット」と「SNP 欠乏域」が存在することが示され、SNP コンソーシアムはヒトゲノムに n=1.42 百万の SNP マップを構築した。

タンパク質レベルアノテーションと Gene Ontology の誕生：PFAM (release 6.1: n=2,727 ファミリーエントリ)・PRINTS タンパク質シグネチャデータベース・PROSITE タンパク質部位データベース・ProDom (protein domain database)・BLOCKS タンパク質保存配列データベース・SMART 等の機能ドメインデータベースは各データベースの命名法・検索手法が異なるため解釈が複雑であった。PFAM はプロファイル HMM に基づくタンパク質ファミリー分類であり、PROSITE はモチーフパターン、PRINTS は指紋パターン (fingerprint) と呼ばれる複数コンセンサスブロックの集合を用いるという手法の多様性が、単一データベースでの全タンパク機能注釈を不可能にしていた。InterPro はこれら複数データベースを統合したクロスリファレンスシステムとして開発され、ヒトを含む多生物ゲノムで予測タンパクの 40-50% に少なくとも 1 InterPro エントリがマッチした (Table 参照)。Gene Ontology は SGD (Saccharomyces Genome Database: 酵母ゲノムデータベース)・FlyBase・Mouse Genome Database の 3 コンソーシアムが策定した標準制御語彙であり、分子機能 (molecular function)・生物学的プロセス (biological process)・細胞内局在 (cellular component) の 3 軸から成る DAG (directed acyclic graph: 有向非循環グラフ) 構造を持ち、WormBase・Arabidopsis Information Resource にも拡大採用された。この Gene Ontology 語彙は生物種を横断した機能比較を初めて体系的に可能にし、その後のパスウェイ解析・GSEA (gene set enrichment analysis: 遺伝子セット濃縮解析) の根幹となる標準語彙として定着した。プロセスレベルアノテーションはマイクロアレイ発現解析・RNAi (RNA interference: RNA 干渉)・酵母 2-ハイブリッド等の高スループット実験データとの統合へと拡張されつつあった (Fig. 1)。アノテーションの組織モデルとしては工場型 (Ensembl の 500 コンピュータクラスターによる自動化パイプライン)・博物館型 (FlyBase/WormBase の手動キュレーション中心)・コテージインダストリー型 (Proteome, Inc.)・パーティー型 (FANTOM コンソーシアム: ショウジョウバエ jamboree モデル) の 4 モデルが整理された。自動化パイプラインが速度・網羅性において優れる一方、手動キュレーション型が精度において勝るというトレードオフが示され、両者のハイブリッド方式が将来の標準となる根拠が示された。

考察/結論

本レビューは、ゲノム配列時代の幕開けにおいて「配列から生物学へ」の橋渡しとしてのゲノムアノテーション全体像を初めて体系的に整理した先駆的文献である。①先行研究との違い: 当時の研究は個別の遺伝子予測ツール性能評価や個別データベース整備にとどまり、ヌクレオチド・タンパク質・プロセスの三層を統合した枠組みは本レビュー以前には確立されていなかった。また先行の個別ゲノムプロジェクト報告書と異なり、本レビューは 4 種類の組織モデルを横断比較し、それぞれの強みと限界を明示した点で先行研究と明確に異なる視点を提供した。②新規性: 本研究で初めて体系化された「完全遺伝子構造の感度 40%・特異度 30%」という定量的限界の明示は、これまでに存在しなかった方法論的な警告として独自の価値をもつ。ヒトゲノムの遺伝子総数が以前推定の 80,000-140,000 件の約 4-5 倍少ない ~30,000 件であるという推定は、生物の複雑性が遺伝子数よりもタンパク質多様性によって生み出されるという新規パラダイムをもたらした。さらに Gene Ontology という標準語彙の必要性を初めて論文として体系化し、生物種横断的な比較アノテーションの基盤を確立したことも本レビューならではの新規貢献である。③臨床応用: 本レビューが整理したゲノムアノテーション体系はその後のがんゲノム医療の基盤となった。RefSeq・UCSC Genome Browser・Gene Ontology は現在も精密医療における疾患変異解釈の標準参照リソースとして臨床実装されており、ENCODE プロジェクト (Phase 3、2020 年: ゲノムの少なくとも 80% が機能的要素に関連) の基礎理論も本レビューの三層アノテーション概念的枠組みを継承している。非コード RNA の機能的分類——miRNA (micro RNA: マイクロ RNA)・lncRNA (long non-coding RNA: 長鎖非コード RNA)——は後に疾患バイオマーカーとして臨床研究の対象となった。④残された課題: 著者が残課題として提示した代替スプライシングの全ゲノム的制御・非コード RNA の機能的分類・種間比較ゲノミクスの体系的実施は、その後の ChIP-seq (chromatin immunoprecipitation sequencing)・RNA-seq・ロングリードシークエンシング (Pacific Biosciences・Oxford Nanopore 等) により大幅に進展したが、ヒトゲノムの全遺伝子産物を漏れなく同定・機能注釈するという課題は今日も完全には解決されていない。本レビューが警告した「自動化パイプラインのみへの依存が誤ったアノテーションを永続させるリスク」は、今後のゲノム医療における金本位 (gold standard) アノテーション整備として引き続き重要な課題である。

方法

本論文は Review 論文であり独自の実験は行っていない。PubMed (public medicine database)・MEDLINE (medical electronic data linked index notation entries) ならびに主要ゲノムデータベースを参照した。配列相同性検索には BLAST (basic local alignment search tool) を基盤とし、位置特異的検索 PSI-BLAST (position-specific iterated blast) を用いた。解析した主要ソフトウェアは GENSCAN (genomic exon nucleotide scan)・Genie (gene exon inference engine)・GeneMark (gene mark: HMM (hidden Markov model: 隠れマルコフモデル) ベース遺伝子予測)・Grail (gene recognition and analysis internet link)・HEXON (hexanucleotide exon predictor)・MZEF (multiple zone exon finder: 二次判別関数に基づくエクソン予測ツール)・HMMGene (hidden Markov model gene finder)・FlyBase (fly base)・WormBase (worm base)・NCBI (National Center Biotechnology Information: 米国国立生物工学情報センター)・RefSeq (reference sequence database)・UCSC (University California Santa Cruz) Genome Browser・InterPro (integrated protein resource)・Swiss-Prot (Swiss protein sequence repository)・EMBL (european molecular biology lab)・SpTrEMBL (Swiss translated embl)・TrEMBL (translated embl)・UniGene (unified gene expression database)・PFAM (protein family members database)・PRINTS (protein residue integrated notation tags)・PROSITE (protein regulatory occurrences signatures index)・ProDom (protein domain database)・BLOCKS (blocks listed occurrences conserved key segments)・SMART (simple modular architecture research tool)・FANTOM (functional annotation nomenclature tool) 等。各アルゴリズムの定量的性能評価は Reese et al. によるショウジョウバエゲノム 2 領域を対象とした公開コンペティション (Genome Research 2000) のデータを主要ソースとして引用した。統計的評価指標として感度 (sensitivity: 真陽性検出能) と特異度 (specificity: 偽陽性識別能) を用い、Bonferroni 補正 (multiple testing correction) に相当する多重検定管理の考え方を引用した。

Research Wiki

エクスプローラー

Genome annotation: from sequence to biology

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク