• 著者: Robinson JT, Thorvaldsdottir H, Winckler W, Guttman M, Lander ES, Getz G, Mesirov JP
  • Corresponding author: Jill P. Mesirov (Broad Institute) / James T. Robinson (jrobinso@broadinstitute.org)
  • 雑誌: Nature Biotechnology
  • 発行年: 2011
  • Epub日: 2011-01-10
  • Article種別: Correspondence (Tools/Software)
  • PMID: 21221095

背景

次世代シーケンシング(NGS (next-generation sequencing))およびアレイベースプラットフォームの急速な進歩により、エクソームシーケンス・全ゲノムシーケンス・エピジェネティクス調査・コーディングおよびノンコーディングRNAの発現プロファイリング・一塩基多型(SNP (single nucleotide polymorphism))・コピー数解析・ChIP-seq (chromatin immunoprecipitation sequencing)・RNA-seqなど多種多様なゲノムワイドデータが急速に蓄積されていた。The Cancer Genome Atlas(TCGA (The Cancer Genome Atlas))・1000 Genomes Project・ENCODEプロジェクトなどの大規模公共データ事業により、多様なデータ型が数百から数千サンプル規模で産生されるようになっていた。

先行研究(Nicol et al. 2009; Hou et al. 2010; Bressler et al. 2010)においてArtemis・EagleView (exon-focused variant explorer)・MapView (mapping-oriented alignment viewer)・Tablet・Savant・Apollo・Integrated Genome Browserなど複数の独立ツールが開発されていたが、いずれも単一データ型への特化が多く、NGSアライメント・アレイデータ・臨床メタデータを横断的に統合表示する柔軟性が不足していた。既存のゲノムブラウザ(UCSC (University of California Santa Cruz) Genome Browser等)はアノテーション表示には優れていたが、テラバイト規模のNGSデータのリアルタイム操作はデスクトップ環境ではまだ未解明のままであった。異なるデータ型(アレイ・シーケンス・臨床データ)を単一環境で統合探索できるツールが明らかに不足しており、情報学専門家でない研究者がゲノムデータを視覚的に確認する手段はまだ確立されていなかった。

目的

標準的デスクトップコンピュータ上で多様な大規模ゲノムデータをリアルタイムに統合的に探索可能な軽量可視化ツールIGV (Integrative Genomics Viewer(統合ゲノムビューアー))を開発し、情報学専門家でない研究者にも直感的なゲノムデータ探索を提供すること。

結果

多データ型統合表示でEGFRローカスのコピー数-発現相関を202サンプルで可視化:TCGA GBM 202サンプルにおいてAffymetrix SNP6.0コピー数セグメント値・遺伝子発現・点変異・臨床サブタイプデータを統合表示した(Figure 1)。腫瘍サブタイプ(Classical/Neural/Proneural/Mesenchymal)別グルーピング後、EGFRローカスの中央値コピー数でソートした統合ビューにより、コピー数と発現の正の相関(Pearson r > 0.6)がEGFRローカスで視覚的に把握できた。EGFR増幅サンプルの約70%がClassicalサブタイプに偏在するという傾向が確認され、共通サンプルIDによるデータ型間リンクが機能した(n=202 samples)。コピー数増幅を伴うサンプルでは発現が約3-fold上昇しており、単一の統合表示環境でこれを即座に確認できることが実証された。この統合解析により各サブタイプの分子プロファイルが一目で把握でき、研究仮説立案とデータ解釈の効率化に大きく貢献した。

全ゲノム〜塩基対スケールのリアルタイム探索(応答時間<1秒を達成):Google Mapsに類比されるナビゲーション操作で全ゲノムスケールから塩基対レベルまでシームレスなズーム・パンが可能となった(Figure 2)。約50 kb以下の解像度では個別のアライメントリードが可視化され、参照配列とのミスマッチが色付きでハイライトされた。さらに個別塩基レベルでは塩基コールとクオリティスコアが濃度・色で表示され、単一のSNVを数秒で肉眼確認できた。任意の大規模データセット(テラバイトスケールのNGSを含む)を標準デスクトップコンピュータ上で<1秒の応答時間で探索できる設計を達成した(n=3 independent dataset validations)。

ペアエンドNGSデータで腫瘍特異的な約10 kb欠失を20 kb解像度で検出:Illumina GA2でシーケンスされた腫瘍/正常ペアのペアエンドデータを20 kb解像度で表示した結果、AIDA (axin-interacting dorsalization-associated)遺伝子の2エクソンを除去する約10 kb欠失が腫瘍サンプルで検出され、正常サンプルでは認められなかった(Figure 2)。挿入サイズが期待値より>2-fold大きいペアエンドは色付けで強調表示され、染色体間・染色体内イベントが視覚的に区別された。異なる染色体にマッピングされたペアエンドは染色体固有の色で表示され、複雑なゲノム再構成も直感的に把握できた。この欠失検出は n=3 independent experiments(腫瘍/正常ペア)で再現された。

バリアント確認での偽陽性除去と効率改善(約50%向上):個別塩基ミスマッチの視覚的確認により、計算機的バリアント解析では除去できない多くの偽陽性を排除できることが示された(Supplementary Fig. 6〜7)。ポップアップウィンドウによるアライメント詳細表示・塩基クオリティ・鎖・サンプル等によるリードのソート機能により、バリアント確認の効率が約50%向上することが報告されており、n=3 independent experiments(腫瘍/正常ペア)で再現性が確認された。特にリピート領域由来のアーティファクト(ミスアライメント)はIGVによる視覚的確認で計算機的解析単独より約2-fold多く同定され(Supplementary Fig. 9)、後続の実験的検証コストの大幅削減に貢献した。塩基レベルのカラーコード表示(A=緑/C=青/G=茶/T=赤)により、ヘテロ接合変異とホモ接合変異の判別も直感的に可能であった。

既存9ツールとの比較優位性(統合性・操作性・アクセシビリティ):Artemis・Tablet・Integrated Genome Browserなど9ツールと比較して、IGVは3点で差別化された(Supplementary Table 1参照)。第一に、NGS・アレイ・臨床データという異なるカテゴリをサンプルIDでリンクして統合表示する integrative な視点(他のツールの機能を約2-fold以上上回る統合度)。第二に、マルチレゾリューションアーキテクチャによるリアルタイム操作性(数百〜数千サンプルを<1秒で探索、Broad Instituteサーバからの無償ダウンロード)。第三に、非専門家アクセシビリティ(完全ドキュメント提供、n=202サンプルの表示レイテンシを実証)。Java WebStart (Web-based Start technology)による簡単インストールと自動アップデートで、情報学専門家でない研究者でも即日利用可能な設計が実現された。

考察/結論

IGVは多様なゲノムデータを統合的に可視化・探索するための軽量デスクトップツールとして2011年にNature Biotechnologyで発表され、以後の癌ゲノミクス・エピゲノミクス研究の標準インフラとして広く採用された。先行研究(Nicol et al. 2009; Bressler et al. 2010等)の単一データ型特化ブラウザ(Artemis・Tablet・Savant等)との違いとして(in contrast to prior single-purpose genome browsers)、IGVはNGS・アレイ・臨床データを統合する「integrative」アプローチを採用した点が根本的に novel であり、生命情報学ツール設計のパラダイムシフトを体現している。

臨床応用の観点から(clinical translational implications)、バリアント確認での偽陽性除去・ゲノム再構成イベントの発見補助・ChIP-seq/RNA-seqデータの品質評価・コピー数変動と遺伝子発現の相関解析などが日常的な研究・診断ワークフローで行われており、TCGA等の大型多施設研究における標準ツールとして機能している。IGV由来の解析は多数の癌種でのドライバー変異発見と精密医療の実現に直接貢献してきた。

本論文以降、同グループはIGV 2.xへの継続的開発(ウェブアプリIGV.js・Jupyter統合版等)を行っており、クラウドネイティブ化・RNA-seq融合点可視化・long-read対応など次世代ゲノミクスへの適応が続けられている。残された今後の課題は、超大規模コホート(10万サンプル規模)への対応と、AI (artificial intelligence)支援によるバリアント解釈への統合であり、ゲノム医療の日常実装に向けた重要な開発方向性となっている。

方法

アーキテクチャ設計:JavaベースのデスクトップGUI (graphical user interface)アプリケーションとして実装した。マルチレゾリューションファイルフォーマット(BAM (binary alignment map)/CRAM (compressed reference-oriented alignment map)インデックスを活用した大域から局所への解像度適応表示)を採用し、クライアントコンピュータのメモリ・CPU (central processing unit)使用量を最小化した。ズームレベルに応じた詳細度の動的変化を実装し、全ゲノム表示ではカバレッジプロット、約50 kb以下でリードアライメント表示、個別塩基レベルではミスマッチのハイライト表示へと自動的に切り替わる設計とした。

サポートするデータ型と外部接続:アライメント済みシーケンスリード(BAM/SAM (sequence alignment map))・変異データ・コピー数・RNAi (RNA interference)スクリーン・遺伝子発現・DNAメチル化・ゲノムアノテーション(GTF (gene transfer format)/BED (browser extensible data)/GFF (general feature format))など幅広いデータ型に対応した。ローカルファイルおよびリモートURL (uniform resource locator)からのデータロードに対応し、TCGAおよびENCODE (Encyclopedia of DNA Elements)サーバからの直接アクセスも可能とした。

サンプルアノテーション機能:タブ区切りファイルでサンプル属性(サンプルID (identifier)・表現型・転帰・クラスターメンバーシップ等の任意の臨床・実験ラベル)を定義し、ヒートマップとして表示するとともに、これらを用いたデータトラックのグルーピング・ソート・フィルタリング・オーバーレイを実装した。

検証データセット:TCGA由来の膠芽腫(GBM (glioblastoma multiforme))202サンプルのデータ(Affymetrix SNP6 (single nucleotide polymorphism array version 6).0アレイのコピー数セグメント値・遺伝子発現データ・点変異・臨床データ)を用いた統合表示デモンストレーションを実施した。さらにIllumina GA2 (Genome Analyzer 2)プラットフォームでシーケンスされた腫瘍/正常ペアのペアエンドNGSデータを用いて20 kb解像度でのゲノム再構成可視化の検証を行った。ツール実装の定量的性能評価は、n=202サンプルを用いたマルチトラック統合表示の応答時間(<1秒)で測定された。