Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources

著者: Huang DW, Sherman BT, Lempicki RA
Corresponding author: Richard A. Lempicki / Da Wei Huang (NCI-Frederick, SAIC-Frederick Inc., Maryland, USA)
雑誌: Nature Protocols
発行年: 2009
Epub日: 2008-12-18
Article種別: Protocol
PMID: 19131956

背景

発現マイクロアレイ、プロモーターマイクロアレイ、プロテオミクス、ChIP-on-chip (chromatin immunoprecipitation on chip) 等のハイスループットゲノミクス技術は、研究対象の生物学的条件に関与する数百から数千の遺伝子からなる大規模な”interesting gene list”を日常的に産出する。これらリストから生物学的意味を抽出する下流解析は、実験全体の成否を左右する重要かつ困難なタスクであり、専用のバイオインフォマティクスソフトウェアの支援を必要とする。

この課題に対し複数の公開ツールが先行して開発されてきた。GoMiner (Zeeberg 2005)、GOstat (Gene Ontology statistics tool; Beissbarth 2004)、Onto-express/Onto-Tools (Khatri 2004)、GoToolBox (Martin 2004)、FatiGO (Fast Assignment and Transference of Information; Al-Shahrour 2004)、GFINDer (Genome Function INtegrated Discoverer)、GOBar (Gene Ontology Bar chart tool)、GSEA (gene set enrichment analysis; Subramanian et al. ProcNatlAcadSciUSA 2005) などはいずれも、「大量の遺伝子を生物学的アノテーション (GO terms等) にマッピングし、統計的に最も過剰代表 (enriched) なアノテーションを抽出する」という共通コア戦略を採用している。しかしKhatri & Draghici (2005) のレビューが指摘するように、各ツールは個別の強みを持つ一方で、(1) 統合的なバックエンドアノテーションデータベースの整備が不足し、単一のGO中心解析に留まる、(2) 単一用語の線形リスト出力では冗長・類似用語が散在して焦点が定まらず、モジュール単位での生物学的解釈の支援が手薄である、(3) 探索的なデータマイニング環境としての一体性が欠ける、という gap in knowledge が残されていた。本プロトコルが扱うDAVID (Database for Annotation, Visualization and Integrated Discovery) は2003年の初版公開以降、40以上のアノテーションカテゴリを非冗長に統合したナレッジベース、ファジークラスタリングに基づくモジュラーエンリッチメントアルゴリズム、一体型の探索環境によってこれら不足点を埋めることを狙ったリソースである。

目的

DAVIDバイオインフォマティクスリソースを用いた大規模遺伝子リストの系統的・統合的機能解析の標準プロトコルを提示し、5つの主要解析モジュールそれぞれの原理・操作手順・統計的パラメータの解釈・トラブルシューティングを段階的に解説することで、新規ユーザーが高スループット実験の遺伝子リストから生物学的テーマを再現性高く抽出できるようにする。

結果

Gene name batch viewerによるID変換と内容概観：解析の起点として遺伝子IDを可読な遺伝子名に翻訳するモジュール。例題リストではHomo sapiensとして n=391 遺伝子がDAVIDに認識され、interleukin、chemokine、kinase、tumor necrosis factorを名称に含む多数の免疫関連遺伝子が確認され、原報 (Cicala 2002) の報告内容と整合した。各遺伝子には詳細情報へのハイパーリンクと “RG” (related genes) 検索が付与され、例えばinterleukin 8をbaitとすると機能的に関連するケモカイン遺伝子群 (cxcl 1, 2, 3, 4, 20等) が列挙される。入力IDの20%以上が認識されない場合はGene ID Conversion Toolへ自動リダイレクトされ、40以上の公開アノテーションカテゴリを統合したナレッジベース上でIDが相互変換される (Fig 1)。

Gene functional classificationによるモジュラー解析：約400遺伝子のHIV遺伝子リストを n=10 の機能的遺伝子グループに分類した。enrichment score 1以上の重要グループとして、サイトカイン/ケモカイン (group 1: enrichment score 3.39)、kinase (group 2: 2.21)、クラスリン膜融合関連遺伝子 (group 3: 1.86)、転写因子 (group 6: 1.39) が同定され、いずれもHIV研究に期待される生物学的結果と整合した。kinaseグループ (group 2) の詳細では、n=23 のkinase中、Gタンパク質共役受容体kinase 2種、protein tyrosine kinase 3種、細胞表面受容体連結シグナル伝達に関与するkinase 6種という細かな内訳まで2D viewで一望できた。enrichment score 1.3はnon-logスケールのp=0.05に相当し、この値以上のグループを優先的に解釈する運用が推奨される (Fig 2)。

Functional annotation chartによるterm中心エンリッチメント解析：500を超えるenriched (overrepresented) 生物学的アノテーション用語が抽出された。病原細菌への応答、chemokine活性、細胞移動、クラスリンコートベシクル膜、kinase活性、RNA polymerase II転写因子活性、細胞間コミュニケーション等、HIV研究に期待される免疫関連アノテーションが上位を占めた。pathway viewer機能により「IL-10 Anti-inflammatory Signaling Pathway」上でIL10が上流免疫制御因子として活性化されHO-1を介してIL-1/TNFα/IL-6複合体の下流炎症応答を誘導する経路がネットワーク文脈で可視化された。fold enrichment 1.5以上を注目目安とし、例題ではキナーゼが背景比 10-fold で過剰代表される構図が示された。EASE scoreのデフォルト表示閾値は p=0.1 で、Benjamini補正は保守的なため過度の強調は感度を損なうと注意喚起される (Fig 3, Fig 8)。

Functional annotation clusteringによるterm単位のモジュール統合：類似したアノテーション用語を機能クラスターに統合し、免疫応答、転写調節、chemokine活性、cytokine活性、kinase活性、シグナル伝達、細胞死などの主要生物学的テーマが上位クラスターとして抽出された。例として炎症応答クラスター2内の7つのアノテーション用語は重複しつつも異なる遺伝子セットを含み、クラスター単位の “G” (genes) リンクで遺伝子をプールすることで、個々の用語から得られる遺伝子セットより包括的な炎症関連遺伝子リストが構築された。数百の用語に散在しがちな冗長情報をブロック単位で読めるため、単一用語の線形リストより主要生物学を効率的に把握できる (Fig 4)。

統計的パラメータとバックグラウンド設定の運用基盤：エンリッチメント解析の基本原理は、生物学的プロセスが異常を示す場合、その共機能遺伝子が遺伝子集団バックグラウンドと比較して有意に高い割合でリストに含まれる、というものである。例として、ユーザー遺伝子リストの10%がkinaseでヒトゲノムの1%がkinaseの場合、fold enrichmentは 10-fold となる。バックグラウンドはDAVIDが入力リストからゲノム全体として自動推定するが、Affymetrixチップ上の遺伝子やユーザー定義遺伝子セットも選択できる。一般に大きい背景ほどP値は小さくなる傾向がある。遺伝子選抜では fold change ≥ 2 かつ p=0.05 のような厳しい閾値を理想とするが、必要なら 1.1-fold かつ p=0.2 程度まで緩めても良いとされる (Table 1, Table 2)。

考察/結論

DAVIDは2003年の公開以来、大規模遺伝子リスト機能解析ツールの中で最も広く引用されるリソースの一つへと成長した。本プロトコルは5つの主要解析モジュールを統合的に使用することで、高スループット実験から得られた遺伝子リストの生物学的意味を多角的に抽出する標準手順を確立した。

これまでの研究との違い：GoMiner、GOstat、FatiGO等の既報ツールは主にGO単独の単一用語エンリッチメント解析に留まり、出力は線形リスト形式が中心であった。これと対照的にDAVIDは、40以上のアノテーションカテゴリ (GO、KEGG (Kyoto Encyclopedia of Genes and Genomes)、BioCarta、protein-protein interaction、protein domain、disease association、literature等) を非冗長に統合したバックエンドと、gene-centric singular exploration、gene-centric modular analysis、term-centric singular/modular enrichment analysis、large-scale queryという異なる視点を一体の探索環境内で切り替えられる点で差別化される。後続の遺伝子セット解析の系譜である Subramanian et al. ProcNatlAcadSciUSA 2005 のGSEAが連続的な発現順位を入力に取るのに対し、本プロトコルは閾値で選抜した離散的遺伝子リストを入力とする相補的アプローチであり、Liberzon et al. CellSyst 2015 のMSigDB hallmark gene setや Hanzelmann et al. BMCBioinformatics 2013 のGSVAといった後年のキュレーション済み遺伝子セット資源とも、機能アノテーション統合という点で系譜を共有する。

新規性：本研究で初めて、ファジークラスタリングを遺伝子側 (gene functional classification) とアノテーション用語側 (functional annotation clustering) の双方に適用し、遺伝子名ではなくアノテーション用語の共起性に基づいて機能モジュールを構成する解析を、再現可能な手順として体系的に文書化した。これまで報告されていない「モジュール単位でブロックごとに生物学を読む」という解釈スタイルは、数百の冗長用語に焦点が散漫になる従来のterm-enrichment解析の弱点を補う新規な運用パラダイムである。

臨床応用・橋渡しへの含意：本プロトコルは特定疾患に限定されないが、疾患関連遺伝子発現データからのバイオマーカー候補・パスウェイ同定を支援する基盤として、基礎研究から臨床応用への橋渡しに広く活用しうる。disease associationカテゴリやpathway viewerを介して、遺伝子リストを疾患機構やパスウェイ文脈で解釈する道筋を提供する。

残された課題・limitation：本解析は探索的・計算的な性質を持つため、P値はdecision-makingより「スコア」として扱い、生物学的知識に基づく解釈と独立した実験的検証との組み合わせが不可欠である。fold enrichmentが少数遺伝子 (例えば3個以下) から算出される場合は信頼性が低下し、Benjamini補正等の多重検定補正は保守的で感度低下を招きうる。良質な入力リストの前提条件 (マーカー遺伝子の包含、100-2,000遺伝子程度の規模、有意遺伝子のみの選抜、特定プロセスへの偏り、ランダムリスト超のenriched biology、高い再現性) を満たすことが結果の質を規定する点も、今後の運用上の課題として明示されている。fold enrichment ≥ 1.5 かつ EASE score ≤ 0.05 という複合基準での評価が、信頼性確保のための実務的指針となる。

方法

例題データには、HIV envelope protein (gp120) で処理したヒト末梢血単核球 (PBMC: peripheral blood mononuclear cells) のAffymetrix U95Aマイクロアレイ実験 (Cicala 2002) から得られた約400遺伝子のリスト (DAVIDウェブサイト上のdemo_list2、Supplementary Data 2として公開) を使用した。必要環境はWebブラウザとインターネット接続のみで (MS Internet ExplorerまたはFirefox on Windows XP推奨)、ソフトウェアのインストールや特別な設定は不要である。2GB RAM / 2.0 GHz (gigahertz) CPU / 1Mbps回線の標準PCでは、通常の関数呼び出しで約10秒、最も計算集約的なgene functional classificationでも約30秒以内 (最長でも1分以内) で結果が返された。

エンリッチメント解析の統計基盤として、遺伝子集団バックグラウンド (population background) と入力リストの割合比較を行う。過剰代表性の検定には modified Fisher’s exact test を中核とするEASE (Expression Analysis Systematic Explorer) score を用い、chi-square、Binomial probability、Hypergeometric distribution も利用可能である。多重検定補正にはBonferroni、Benjamini、FDR (false discovery rate) の3手法を提供する。グループのenrichment scoreは、グループ内全アノテーション用語のEASE scoreの幾何平均に-log変換を施した相対指標として算出する。fold enrichment は入力リストのヒット率を背景遺伝子のヒット率で除した倍率として定義される。

主要解析モジュールは5種類で構成される。(1) gene name batch viewerで遺伝子IDを可読な遺伝子名に変換し内容を概観する (Entrez Gene 3558のような数値IDを遺伝子名へ翻訳)。(2) gene functional classificationでファジークラスタリングにより遺伝子をアノテーション用語の共起性に基づく機能的グループへ分類する。(3) functional annotation chartでterm中心のsingular enrichment解析を実行し過剰代表アノテーション用語を線形テーブルで抽出する。(4) functional annotation clusteringで類似アノテーション用語を機能グループにクラスタリングする。(5) functional annotation tableで個々の遺伝子に紐づくアノテーションを統計計算なしで一括クエリする。入力IDの20%以上が認識されない場合はDAVID Gene ID Conversion Toolへ自動リダイレクトされる。

Research Wiki

エクスプローラー

Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク