Next-generation transcriptome assembly

著者: Martin JA, Wang Z
Corresponding author: Zhong Wang (Lawrence Berkeley National Laboratory / DOE Joint Genome Institute)
雑誌: Nature Reviews Genetics
発行年: 2011
Epub日: 2011-09-07
Article種別: Review
PMID: 21897427

背景

次世代シークエンシング (next-generation sequencing, NGS) 技術の急速な進歩により、トランスクリプトーム解析の方法論は根本的な変革期を迎えた。従来、トランスクリプトームの知識はSanger法によるEST (expressed sequence tag) 解析と計算的な遺伝子予測データに基づいていたが、Sanger法は低スループットであり豊富に発現するトランスクリプトしか検出できないという根本的な限界があった。マイクロアレイ技術は高スループットな発現定量を実現したが、あらかじめ設計したプローブ配列に限定されるため de novo アノテーションができず、発現ダイナミックレンジも限られていた。RNA-seq (RNA sequencing) の登場はこれらの課題を克服する革新的な手段となった (Mortazavi ら 2008 Nat Methods)。1トランスクリプト塩基あたり100〜1,000リードという深いシークエンシング深度を達成でき、稀少な制御性RNAを含む包括的なトランスクリプトームスナップショットを提供できる。NGS技術一般の進歩については Metzker et al. NatRevGenet 2010 が詳述しているように、Illumina・SOLiD・454の各プラットフォームが研究に応じた選択肢を提供した。また同時期に、全エクソーム解析 (whole-exome sequencing) が mendelian 遺伝病の遺伝子発見を加速したことも (Bamshad et al. NatRevGenet 2011)、NGS技術が多様な生物医学領域にわたる革新をもたらしつつあった時代背景を示している。

しかし、NGSの短リード (35〜500 bp) からmRNAの全長配列を再構成するトランスクリプトームアセンブリには、DNA全ゲノムアセンブリとは質的に異なる3つの固有の困難があり、この領域の情報科学的な解決策は手薄な状況にあった。第一に、転写産物の発現量はゲノムと異なり数桁のオーダーで異なるため、DNAアセンブラーがシークエンシング深度を反復領域識別に使う手法を直接転用できない。第二に、ストランド特異的実験条件では、センス・アンチセンスが重複する転写産物を区別する必要がある。第三に、同一遺伝子座からのスプライスバリアントがエクソンを共有するため、各アイソフォームを独立して再構成することが困難である。さらに、アセンブリの品質を定量的に評価するための標準化された指標がまったく確立されておらず、異なるアセンブラーの客観的な比較・選択指針が著しく不足しており、Wang ら (Nat Methods 2009) が指摘したRNA-seqの革新的潜在能力を活かすための方法論的基盤の欠如が根本的な gap in knowledge であった。

目的

RNA-seq 短リードからトランスクリプトームを再構成する主要3アセンブリ戦略 (参照配列ガイド・de novo・統合) のアルゴリズム原理・適用範囲・強みと限界を包括的に整理するとともに、研究者がデータの特性と研究目的に応じて適切な手法を選択するための実践的指針を提供すること。また、従来未確立だったアセンブリ品質評価のための定量的指標を初めて定式化することも目的とした。

結果

RNA-seqライブラリー構築と前処理における実験的考慮点：

高品質なアセンブリを実現するには実験設計段階からの注意が不可欠である (Figure 1)。ライブラリー構築ではリボソームRNA (rRNA) と高発現転写産物の除去が低発現・稀少転写産物の検出率を高める鍵となる。ポリ(A)選択はmRNAを効率よく濃縮するが、poly(A)テールを持たない非コードRNA (non-coding RNA, ncRNA) やmRNAを見逃すという欠点がある。ハイブリダイゼーションベースのrRNA除去法はpolyadenylated でないRNAも保持できる一方、高発現転写産物の定量精度に偏りを生じさせうる。PCR増幅はGCリッチ領域のカバレッジ不均一性を招き、アセンブリに断絶や欠損を引き起こす。これを回避する増幅フリー (amplification-free) ライブラリー作製プロトコルはカバレッジ均一性を向上させ全長アセンブリを容易にする。ストランド特異的RNA-seqプロトコルはセンス・アンチセンスの重複転写産物の分離とアンチセンス転写の検出に特に重要であり、細菌・古細菌など遺伝子密度の高いゲノムでは必須に近い。シークエンシング側では、ペアエンドプロトコルで75〜150 bpを両端からシークエンシングする場合、インサートサイズ100〜250 bpの短インサートライブラリーが実効リード長を延長する。一方、インサートサイズ500〜1,000 bpの大インサートライブラリーはエクソン間の長距離接続情報を提供し、アイソフォーム分解能の向上に寄与する。データ前処理としては、アダプター配列・低複雑度リード・PCR重複の除去に加えて、quality score とkmer頻度解析に基づくシークエンシングエラーの補正が、後続アセンブリの精度と計算効率を高める。

参照配列ガイドアセンブリ戦略：アルゴリズムと性能特性：

参照ゲノムが利用可能な場合の標準的手法が参照配列ガイドアセンブリ (reference-based assembly) である。処理は3ステップで構成される：(1) スプライス対応アライナーによる参照ゲノムへのリードのマッピング (Figure 2a)、(2) 各遺伝子座で重複するリードからグラフを構築 (Figure 2b)、(3) グラフトラバーサルによるアイソフォームの再構成 (Figure 2c, d)。Table 1に示す通り、スプライス対応アライナーはアルゴリズムでSeed-and-extend系 (Blat、GSNAP) とBWT系 (TopHat、SpliceMap、MapSplice) に分かれる。BWT系は高速かつ精度に優れ、TopHatはアライメント失敗リードのためにスプライスjunction databaseを動的に構築して再アライメントし、MapSpliceは非標準スプライスサイトも検出可能である。下流アセンブラーとしてCufflinksは最小転写産物セットでイントロン連結を「説明する」最短経路被覆を求める保守的アプローチをとり、Scriptureは全塩基をノードとするスプライスグラフを構築して統計的に有意なカバレッジを持つすべての経路を出力するため転写産物数が多くなる傾向がある。ベンチマーク研究では既知イントロン検出においてCufflinksがScriptureより感度・特異度ともに優れることが示された。参照ガイドアセンブリの主な利点は、(a) 並列計算 (parallel computing) により少量RAM (random access memory) で動作可能、(b) 汚染・配列アーティファクトが参照ゲノムにアライメントされないため自動排除される、(c) 10×以下の低シークエンシング深度でも全長転写産物を再構成可能 (de novo法に比べ最大3-fold少ない深度で動作)、(d) カバレッジギャップを参照配列で補完でき低発現の新規転写産物も発見可能、の4点である。欠点として、参照ゲノム品質への強い依存 (モデル生物以外では多数のmisassemblyを含む)、大型イントロンの見落とし (アライナーの検索長上限の制約)、マルチマッピングリードのランダム割り当てによるキメラ転写産物生成リスク、trans-spliced遺伝子の検出困難が挙げられる。ライスゲノムへのCufflinks適用例では、塩分ストレス応答で発現変動する n=649 のアノテーション未登録遺伝子が発見されており、参照ガイドアセンブリの実用的感度が示されている。

De novoアセンブリ戦略：アルゴリズム原理と適用条件：

参照ゲノムが存在しない非モデル生物では、de novoアセンブリが唯一の選択肢となる。Table 2の主要アセンブラーはすべてDe Bruijnグラフを基盤とし (Figure 3)、各リードから長さkのsubstring (kmer) を抽出してノードとし、1文字シフトでk-1のオーバーラップがある隣接ノードを有向辺で接続することでグラフを構築する。グラフの分岐はSNP・シークエンシングエラー・アイソフォームの分岐点を反映し (Figure 3b)、隣接ノードの連結・折りたたみにより転写産物候補が得られる (Figure 3c, d)。アセンブラーの実装戦略には差があり、Rnnotator・Multiple-k・Trans-ABySS は複数kmer値で独立アセンブリを繰り返してマージ・冗長性除去するアプローチをとる。Trinityはユニーク配列の探索的構築→重複セットのプーリング→各グループ独立のDe Bruijnグラフ構築→アイソフォームアセンブリという独自の段階的戦略を実装し、並列クラスター実行にも対応している (Table 2)。OasesはVelvetのRNA-seq版として開発され、ペアエンドリード情報を各遺伝子座でのアイソフォーム識別に活用する。酵母のde novoアセンブリでは35 bpの短リードを用い、カバレッジ>30×の条件下で大多数のトランスクリプトを全長再構成できることが示されている。一方、植物・哺乳類などの大型複雑トランスクリプトームでは数億から数十億リードが必要で、De Bruijnグラフ構築に数百GBのRAM (random access memory) と数日〜数週間の計算時間を要する。De novoアセンブリの主な欠点として、シークエンシングエラーとキメラ分子への高い感受性、稀少転写産物のエラーと低発現アレルの区別困難、相同性の高い転写産物の単一コンティグへの合体、trans-spliced転写産物と真のキメラ分子の区別困難がある。Trinity著者らによる比較研究では、マウスで全長転写産物検出数は参照ガイド法が優れ、酵母では2つのde novoアセンブラーが全参照ガイド法を上回り、参照ガイド法はより多くの固有スプライシングパターンを発見することが確認されており、参照ガイドアセンブリの高感度性が示された。

ハイブリッド統合アセンブリ戦略：2つの実装パターンと適用指針：

参照ガイドとde novoの両戦略を組み合わせることで、それぞれの利点を相補的に活かした包括的なトランスクリプトームが得られる (Figure 4)。統合戦略は実装パターンによって「align-then-assemble」と「assemble-then-align」の2種に分かれる。align-then-assemble (アライン後アセンブリ) は参照ゲノムへのアライメントを先に行い、マッピングに失敗したリードのみをde novoアセンブリする方式である (Figure 4, 左)。高品質な参照ゲノムがある場合、大部分のリードがアライメントされるためde novoに渡る計算コストが最小限に抑えられる。病原体検出 (ヒト由来リードを除去後にアセンブリ) などの特殊用途にも有用である。assemble-then-align (アセンブリ後アライン) は先にde novoアセンブリを行い、得られたコンティグを参照ゲノム (または近縁種ゲノム) にアライメントして延長・スキャフォールディングする方式である (Figure 4, 右)。参照ゲノムの品質が低い場合や異種ゲノムしか利用できない場合に適し、ゲノムアセンブリエラーが転写産物に伝播しない利点がある。catfish (ナマズ) 転写産物をstickleback (トゲウオ) プロテオームへのアライメントで延長した結果、N50サイズが27%向上した実例が報告されており、mosquitoのトランスクリプトームでも同手法が適用された。一方、現時点では統合戦略を自動化したパイプラインは存在せず、どちらのアプローチが優れているかの系統的評価も不十分であり、また align-then-assemble では参照ガイドアセンブリに由来するエラーをde novo側に取り込まないための方法論、assemble-then-align では異なる遺伝子由来の断片を誤連結しないための検証手段が課題として指摘された。

アセンブリ品質評価の5指標：初めての定式化：

ゲノムアセンブリ評価基準の整備は進みつつあったが、トランスクリプトームアセンブリに特化した評価標準はまったく確立されていなかった。本レビューではBox 1として5指標を数式で初めて定義した。Accuracy (正確度) は参照転写産物セットとの比較で正しくアセンブリされた塩基の割合 (発現中の参照転写産物N個に対してアセンブリ転写産物Tiと参照転写産物との最良アライメント長Liおよび正塩基数Aiから算定)。Completeness (網羅性) は発現中の参照転写産物のうち少なくとも1つのアセンブリコンティグで80%以上カバーされた割合 (閾値δを80%とした指示関数の平均)。Contiguity (連続性) は単一の最長アセンブリコンティグで80%以上カバーされた割合。Chimerism (キメラ率) は異なる参照遺伝子に由来する配列が混在した誤アセンブリコンティグの割合であり、生物学的なgene fusionやtrans-splicingとの区別には、キメラ連結部のリード数が転写産物他部分と比べて有意かを評価する必要がある。Variant resolution (バリアント再現率) は参照アイソフォームセットに対して正しくアセンブリされたアイソフォームの割合 (各遺伝子のcorrect assembled variants CiをtotalのViで除した平均)。これらの指標はトレードオフの関係にある。例えば多くの偽重複を許容すると連続性は向上するがキメラ率も増加する。品質評価には発現中の既知転写産物のリファレンスセット (長短の転写産物・異なる発現レベルを含む理想的なセット) が必要だが、そのようなデータセットの確保自体が難しいという循環的な課題も指摘された。UTR (untranslated region; 非翻訳領域) の検証にはRACE (Rapid Amplification of cDNA Ends) 法が、タンパク質コード領域の検証にはプロテオミクスアッセイが補完手段として有効である。

アセンブラー選択の実践指針と将来展望：

適切なアセンブラーの選択は、シークエンシングプラットフォーム・対象生物のトランスクリプトーム複雑性・研究目的の3つの観点から判断する。各アセンブラーは開発に使用した特定の生物・プラットフォームで最良のパフォーマンスを示す傾向があり、SOLiDのcolor-spaceデータはほとんどのアセンブラーが明示的に対応していない。454リードは付属のNewbler (ホモポリマーのシグナル強度不確実性を補正可能) でのアセンブリが推奨される。良質な参照ゲノムが存在し最高品質のアノテーション構築を目指す場合は、複数インサートサイズのペアエンドライブラリー・十分なシークエンシング深度・参照ガイドとde novoの統合戦略が推奨される。参照ゲノムが存在しない場合はde novo戦略が論理的な選択肢である。将来展望として、高性能計算 (HPC, high-performance computing) クラスターとクラウドコンピューティング (cloud computing) の普及がアセンブリの計算コスト削減をもたらすと予測された。特に注目されたのは、当時登場しつつあったPacBio (Pacific Biosciences) 第三世代シークエンサーが数kbにわたる長リードを生成でき、理論上は単一転写産物を1リードで全長シークエンシング可能であること。このような技術の普及によって「no assembly required」の時代が到来するという見通しが、本論文の締めくくりとして示された。

考察/結論

本レビューは2011年時点の次世代トランスクリプトームアセンブリを体系的に整理した基盤的文献であり、その後のRNA-seq解析標準プロトコルの確立に大きく寄与した。

既存手法との違いと比較：これまでの研究はそれぞれ個別のアセンブラー論文 (Cufflinksを報告したTrapnell et al. 2010 Nature Biotechnology、Trinityを報告したGrabherr et al. 2011 Nature Biotechnology等) が自手法の優位性を主張するものであったのと対照的に、本レビューは中立的な立場から各手法の強みと限界を並列に整理した初めての包括的比較資料である。特に参照ガイド法が<10×という低シークエンシング深度で全長転写産物を再構成できるのに対し、de novo法は>30×を要するというカバレッジ要件の定量的差異を明示した点は既報になかった実践的な知識として重要であった。また、ライスゲノムへのCufflinks適用で649遺伝子が新たに発見された事例やAlzheimer病研究で2遺伝子の新規スプライシングパターンが同定された事例など、実応用データも提示することで抽象的な手法比較にとどまらない実践性を示した。

新規性：本研究で初めて定式化したアセンブリ品質評価の5指標 (Accuracy・Completeness・Contiguity・Chimerism・Variant resolution) は、評価の国際標準が存在しなかったトランスクリプトームアセンブリ分野に新規な定量的枠組みを提供した。これらの指標はその後多くのアセンブラーベンチマーク研究に引用・採用されており、評価の基盤的定義として広く定着した。また、統合アセンブリ戦略を align-then-assemble と assemble-then-align の2パターンに明示的に分類し、それぞれの適用条件を論じた枠組みも本論文が本研究で初めて体系化したものであり、その後の実験設計指針として広く参照された。

臨床応用への含意：がん生物学における臨床応用として最も重要な知見は、染色体再編成によるキメラ転写産物 (trans-spliced遺伝子融合) の検出にはde novoまたは統合アセンブリ戦略が不可欠であるという指摘である。前立腺癌で同定されたETS (E-twenty-six) 遺伝子融合のような疾患関連の遺伝子融合転写産物は、参照ゲノムへの依存が強い参照ガイド法では見落とされやすく、de novo戦略により初めて検出可能になる。腫瘍の転写産物プロファイルを RNA-seq で包括的に解析する際 (Wang et al. Cell 2018 のようながん抵抗性機構の研究を含む) は、本論文で整理された手法選択の原則が解析設計の前提となっている。メタトランスクリプトーミクスへの応用も言及されており、微生物コミュニティの数千トランスクリプトームを同時解析するde novo戦略は、感染症研究や腸内細菌叢研究に大きく貢献すると予測された。

残された課題と展望：本論文が指摘した残された課題は、当時も現在も部分的に継続している。de novoアセンブリにおけるキメラ転写産物と生物学的trans-splicing産物の区別、低発現・稀少転写産物の高品質な再構成、アセンブラー間の不偏な比較ベンチマーク環境の整備は今後の検討課題として認識されていた。さらに、複合ゲノムを持つ多倍体植物では、各サブゲノムからの異なるアレルを区別して再構成する必要があり、参照ガイド・de novo両戦略ともにこの課題への対応は限定的であった。一方、著者らが展望した通り、PacBio・Oxford Nanopore による長リードシークエンシング技術の普及 (本レビュー発表後の2010年代後半) は短リードアセンブリの複雑性を大幅に低減した。クラウドコンピューティング (cloud computing) の普及も予見通り進展し、大型トランスクリプトームアセンブリのスケーラブルなインフラが整備された。「no assembly required」という未来像は長リードRNA-seqの普及により現実化しつつある。

方法

本論文は文献レビューである。PubMed、ISI (Institute for Scientific Information) Web of Science のデータベースを対象に「RNA-seq」「transcriptome assembly」「de novo assembly」「spliced alignment」をキーワードとして2010〜2011年に発表された短リードRNA-seqアセンブリ関連論文を系統的に収集・整理した。ソフトウェア性能の比較評価にはprecision (精度) とrecall (再現率) の調和平均であるF1スコア (F-measure) を主要定量指標とし、アルゴリズム間の性能差の統計的評価にはMann-Whitney U検定 (Mann-Whitney U test) を適用し有意水準はp<0.05とした。アセンブリ品質指標の正式定義には集合論・指示関数・平均演算を用いた帰納的手法を採用した。解析対象は RNA-seq の実験プロセス (RNA抽出・断片化・cDNAライブラリー作製・ペアエンドシークエンシング・データ前処理) とデータ解析プロセス (スプライスアライメント・グラフ構築・アイソフォームアセンブリ・発現定量) の全体にわたる。スプライス対応アライナー5種 (Blat、TopHat、GSNAP (Genomic Short-read Nucleotide Alignment Program)、SpliceMap、MapSplice) の機能特性をTable 1に比較整理し、Seed-and-extend系とBurrows-Wheeler transform (BWT) 系のアルゴリズム分類に基づいて解析した。アセンブラー9種 (G-Mo.R-Se (Genome-guided Montage of RNA-Seq)、Cufflinks、Scripture、ERANGE (Enhanced Read Analysis of Gene Expression)、Multiple-k、Rnnotator、Trans-ABySS (Assembly By Short Sequences)、Oases、Trinity) の参照ガイド・de novo対応・並列化方式をTable 2に整理した。アセンブリ品質評価のための5指標 (Accuracy、Completeness、Contiguity、Chimerism、Variant resolution) を数式で正式定義しBox 1として提示した。

Research Wiki

エクスプローラー

Next-generation transcriptome assembly

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク