• 著者: Oscar D. Murillo, William Thistlethwaite, Joel Rozowsky, Sai Lakshmi Subramanian, Rocco Lucero, Neethu Shah, Andrew R. Jackson, Srimeenakshi Srinivasan, Allen Chung, Clara D. Laurent, Robert R. Kitchen, Timur Galeev, Jonathan Warrell, James A. Diao, Joshua A. Welsh, Kristina Hanspers, Anders Riutta, Sebastian Burgstaller-Muehlbacher, Ravi V. Shah, Ashish Yeri, Lisa M. Jenkins, Mehmet E. Ahsen, Carlos Cordon-Cardo, Navneet Dogra, Stacey M. Gifford, Joshua T. Smith, Gustavo Stolovitzky, Ashutosh K. Tewari, Benjamin H. Wunsch, Kamlesh K. Yadav, Kirsty M. Danielson, Justyna Filant, Courtney Moeller, Parham Nejad, Anu Paul, Bridget Simonson, David K. Wong, Xuan Zhang, Leonora Balaj, Roopali Gandhi, Anil K. Sood, Roger P. Alexander, Liang Wang, Chunlei Wu, David T.W. Wong, David J. Galas, Kendall Van Keuren-Jensen, Tushar Patel, Kei-Hoi Cheung, Alexander R. Pico, Andrew I. Su, Robert L. Raffai, Louise C. Laurent, Matthew E. Roth, Jennifer C. Jones, Saumya Das, Mark B. Gerstein, Aleksandar Milosavljevic
  • Corresponding author: Aleksandar Milosavljevic (Department of Molecular and Human Genetics, Baylor College of Medicine, Houston, TX, USA)
  • 雑誌: Cell
  • 発行年: 2019
  • Epub日: N/A
  • Article種別: Original Article
  • PMID: 30951672

背景

細胞外RNA(exRNA; extracellular RNA)は、細胞間コミュニケーションを媒介する重要な分子であり、疾患バイオマーカーや治療標的としての応用が期待されている。この可能性を具現化するため、米国国立衛生研究所(NIH)の Extracellular RNA Communication Consortium(ERCC; 細胞外RNA通信コンソーシアム)は、多機関共同研究を通じてヒト体液中のexRNAプロファイルを網羅した「exRNA Atlas」データベースを構築した。ヒト体液(脳脊髄液、唾液、血清、血漿、尿など)に存在するexRNAは、主に細胞外小胞(EV; extracellular vesicle)などの vesicular carrier と、リポタンパク質やリボヌクレオタンパク質(RNP; ribonucleoprotein)複合体などの non-vesicular carrier に大別されて回収されることが既報で示されている。

しかし、exRNAプロファイリング研究は、同一研究内(サンプル間)および異なる研究間で極めて大きなばらつき(variability)を有しており、データの再現性と汎化可能性において深刻な課題を抱えていた。ERCCが開発した標準化パイプラインであるexceRptを用いた一元的な品質管理やデータ処理を適用しても、この残存するばらつきの機械論的な原因は未解明のままであった。先行研究である Onuchic et al. (2016) や Lässer et al. (2017) では、組織レベルの不均一性や物理的分離手法によって特定の小胞画分の存在が示されていたものの、exRNAキャリア(小胞性、非小胞性、リポタンパク質など)の混合比率の違いに起因するばらつきを、5,000サンプルを超える大規模なexRNA Atlasデータに対して系統的に分解・解析した報告は存在しなかった。このキャリア比率の変動に伴うプロファイルの歪みが、exRNAを信頼性の高いバイオマーカーとして臨床応用する上での最大の知識ギャップ(knowledge gap)となっていた。さらに、多様な体液にわたって計算科学的にデコンボリューションする統合的フレームワークは決定的に不足しており、キャリア特異的な参照プロファイルを統合して解析する技術が未確立であったため、データの解釈に大きな制限が存在していた。

目的

本研究の目的は、NIH ERCCが構築したexRNA Atlas v4P1に登録されている5,309件のexRNAプロファイルに対し、計算科学的デコンボリューション手法である XDec (Expression Deconvolution) を適用・最適化することで、以下の課題を解決することである。

  1. ヒト主要5種バイオフルイド(血清、血漿、脳脊髄液、唾液、尿)を横断して存在する、頑健かつ独立したexRNAカーゴタイプ(cargo type)を同定する。
  2. 同定された各カーゴタイプを、既知の小胞性キャリア(低密度小胞、高密度小胞)および非小胞性キャリア(リポタンパク質、AGO2結合RNP等)と実験的に関連付ける。
  3. これまで未解明であった研究間およびサンプル間の残存ばらつきが、各キャリアの存在比率(carrier proportion)の変動によって系統的に説明可能であるかを検証する。
  4. 運動負荷試験(exercise challenge study)の公開データセットを用いた再解析を通じ、従来のバルク解析では検出できなかった生理的・病理的シグナルを検出するモデルの有用性を実証し、疾患研究やバイオマーカー探索のための参照リソースとしての価値を確立する。

結果

XDecによる高い説明変数の達成: 21個の独立したデータセット(計 n=2,138 samples)にXDecを適用した結果、各データセットにおいて k=3 または 4 のカーゴプロファイルが同定された。複数回帰分析を用いた検証により、選定された81種の情報特異的ncRNAセットを用いることで、各データセットにおける全サンプルの発現ばらつきの 50% から 90% という極めて高い割合(explained variance)を説明できることが示された (Fig 1B)。この説明変数は、ランダムに選択した同数のncRNAセットを用いた場合と比較して、21データセット中20データセットにおいて有意に高かった(p<0.05)。また、各データセットにおける情報特異的ncRNAの平均発現量と説明変数との間には、有意な正の相関(Pearson correlation r=0.54, p=0.013)が認められ、入力データのクオリティがデコンボリューション精度を規定することが確認された。

5種の体液を横断する6つの独立したexRNAカーゴタイプの同定: デコンボリューションによって得られた68個の推定プロファイルと7個の参照プロファイル(計75プロファイル)を階層的クラスタリングした結果、相関係数 r>0.7 を基準とする6つの明確なカーゴタイプ(CT1, CT2, CT3A, CT3B, CT3C, CT4)に分類された (Fig 4)。すべてのカーゴタイプは、少なくとも2種類以上の異なる体液から検出された。具体的には、CT1は血漿、血清、脳脊髄液、尿から検出され(n=15 profiles)、CT2は血漿と唾液から検出された(n=9 profiles)。CT4は、解析した5種類すべての体液において普遍的に検出される最も頑健なカーゴタイプであった(n=17 profiles)。

密度勾配分画およびキャリア分離によるカーゴタイプと物理的キャリアの対応: 健常ドナー(n=10 donors)の血漿・血清を用いたC-DGUC分画サンプル(n=78 samples)のデコンボリューションにより、各カーゴタイプと物理的キャリアとの一対一の対応関係が実証された。

  • CT1(低密度小胞; LDVに対応):中密度画分(F4-7, p=1e-11)に濃縮され、Western blotにおいてCD9およびFlotillin-1陽性を示した。質量分析によるプロテオーム解析では、exocytosisやextracellular exosomeに関連するタンパク質群が有意に濃縮されていた。また、標準超遠心(UC)で回収した血清ペレットと高い相関を示した。
  • CT2(リポタンパク質; HDLに対応):高密度画分(F9-12, p=2.7e-12)に濃縮され、APOA1陽性を示した。FPLCで純化したHDL、LDL、VLDLなどのリポタンパク質プロファイルと極めて高い相関を示した (Fig 4)。
  • CT3A / CT3B / CT3C(リボヌクレオタンパク質; RNPに対応):超遠心で沈殿しない画分(whole biofluid, p=2e-15)に存在した。特にCT3Bは、AGO2免疫沈降プロファイルと極めて高い相関(r>0.85)を示し、miRNAの含有比率が最も高かった。一方、CT3CはAGO2免疫沈降物と相関せず(r<0.2)、AGO2非依存的な別のRNPキャリアの存在が示唆された。
  • CT4(可変密度小胞に対応):低密度画分(F1-3, p<2.2e-16)に最も強く濃縮されていた。微小流体デバイス(nanoDLD)を用いて血清から高純度でサイズ排除分離(60-150 nm)した細胞外小胞プロファイルは、CT4と極めて高い相関を示し、他カーゴタイプの混入が最小限に抑えられていることが確認された。

10種類のRNA抽出キットにおけるカーゴタイプ回収バイアス: 同一の血清および血漿サンプル(n=182 samples)を用いて10種類の広く普及しているRNA抽出キットの回収バイアスを評価した。その結果、キット間で回収されるカーゴタイプの比率に著しい偏りが認められた (Fig 6)。CT4はすべてのキットで高い割合で回収され、特に ME, Millipore, MiRCury キットにおいて著しく濃縮された。これとは対照的に、CT1はすべてのキットにおいて相対的に低い割合でしか回収されず、ME および Millipore キットではほぼ検出限界以下(0%に近い割合)であった。また、miRNeasy キットは CT3B.1(RNP結合RNA)を特異的に濃縮して回収する傾向を示した。

運動負荷試験データへの適用による生理的シグナルの検出: デコンボリューションの有用性を検証するため、急性最大運動負荷試験(Bruceトレッドミルプロトコル)前後のヒト血漿exRNAデータセット(n=62 samples)を再解析した (Fig 7)。バルク解析では運動前後の有意な変動を検出できなかったが、XDecによるデコンボリューションを適用したところ、運動後にCT4(小胞画分)の相対比率が有意に低下し(p=0.001)、CT2およびCT3Bの比率が相対的に増加するシフトが検出された (Fig 7B)。さらに、各カーゴタイプ内で差分発現を示す計53種のmiRNAを同定した。CT4内では 1.8-fold 以上の発現変動を示す16種のmiRNAが同定され、CT2内では 2.5-fold 以上の変動を示すmiRNAが同定された。経路解析の結果、CT4内の変動miRNAは「骨格筋収縮」や「細胞運動」経路に有意に濃縮されており、CT2内の変動miRNAは「エネルギー代謝」経路に濃縮されていることが明らかになった (Fig 7D)。

考察/結論

先行研究との違い: 本研究は、特定の細胞外小胞やリポタンパク質を物理的に分離して個別にプロファイリングした従来の小規模な研究(Vickers et al. 2011; Lässer et al. 2017)とは異なり、5,309サンプルに及ぶ大規模なexRNA Atlasデータベースに対し、計算科学的デコンボリューション(XDec)を適用することで、体液横断的に存在する6つの独立したカーゴタイプをシステムレベルで初めて同定した。従来のバルク解析では、サンプル調製法や個体差に伴うキャリア比率の変動(residual variability)がノイズとなり、真の生物学的シグナルが不鮮明になっていたが、本アプローチはこの変動をキャリア比率として定量的に分離・排除することに成功した。

新規性: 本研究で初めて、ヒトの主要5種体液(血清、血漿、脳脊髄液、唾液、尿)のすべてにおいて、特定の物理的キャリア(LDV、HDL、AGO2-RNP、可変密度小胞など)と一対一に対応するexRNAカーゴタイプ(CT1-CT4)が普遍的に存在することを新規に実証した。特に、血清と血漿におけるRNP結合exRNAの挙動の違い(血清凝固プロセスにおけるRNPの破壊・消失)を、CT3Bプロファイルの比較を通じて分子レベルで初めて系統的に明らかにした点は学術的に極めて新規性が高い。

臨床応用: 本研究で確立されたデコンボリューションモデルは、exRNAを用いたリキッドバイオプシーの臨床応用に直結する。バルクの体液RNA-seqデータから、個々のキャリア(小胞性 vs 非小胞性)に由来するRNAシグナルを計算上分離できるため、疾患特異的な小胞分泌の異常やリポタンパク質代謝の変動を、高価な物理的分離操作なしに高感度で検出可能となる。運動負荷試験の再解析において、従来法では見落とされていた筋収縮やエネルギー代謝に関する生理的応答シグナルを鮮明に検出できた事実は、本手法が疾患バイオマーカー探索や治療効果モニタリングにおいて極めて高い臨床的有用性を有することを示している。

残された課題: 今後の検討課題として、シーケンスライブラリ調製キットに起因するシーケンスバイアス(sequence-specific bias)の克服が挙げられる。本研究でも、使用するキットによって特定のRNAバイオタイプ(lincRNAやY RNAなど)の検出感度が大きく異なり、デコンボリューションに使用できる情報特異的ncRNAの選定に影響を与えることが示された。また、本モデルは相対的なキャリア比率の推定に留まるため、絶対的なexRNAコピー数の定量を可能にするスパイクイン基準の統合など、さらなる技術的改良が今後の方向性として残されている。

方法

データセットとメタデータ規格: NIH ERCCのexRNA Atlas v4P1から、2,270件のsmall RNA-seqプロファイルおよび3,039件のqPCRプロファイル(計19研究、23種類の健康・疾患状態、5種類の主要体液[CSF、血漿、唾液、血清、尿])を収集した。メタデータは、MISEV2018 (Minimal Information for Studies of Extracellular Vesicles) ガイドライン(Thery et al. JExtracellVesicles 2018)に準拠し、Gene Ontology(GO:0070062, GO:1903561, GO:1990685)を含む NCIT (National Cancer Institute Thesaurus)、SNOMED CT (Systematized Nomenclature of Medicine — Clinical Terms)、DOID (Human Disease Ontology) などの標準オントロジーを用いて統一化した。RNA-seqデータは、exceRptパイプラインを用いて一元処理した。アライメントにはSTAR(Dobin et al. Bioinformatics 2013)およびBowtie 2(Langmead et al. NatMethods 2012)を使用し、リード数をRPM(reads per million mapped reads)で正規化した。差分的発現解析にはDESeq2(Love et al. GenomeBiol 2014)を用いた。

計算科学的デコンボリューション(XDec手法): 腫瘍組織解析用に開発された制約付き行列因子分解アルゴリズム(Onuchic et al. CellSyst 2016)をexRNAプロファイル向けに最適化したXDecを開発した。解析対象として、サンプル数 n>=40 を満たす21個のデータセット(計 n=2,138 サンプルのバルクncRNAプロファイル)を抽出した。RPM値を独立にquantile normalizationした後、外れ値の影響を排除するため負の指数関数を用いて [0, 1] の範囲に写像した。デコンボリューションの入力として、既知の小胞性キャリア(HDV、LDV)および非小胞性キャリア(HDL)の参照プロファイルから、発現レベルとキャリア間差異に基づき選定した81種の「情報特異的ncRNA(informative ncRNAs)」を用いた。モデルの安定性基準(stability criterion)に基づき、各データセットにおける最適なカーゴプロファイル数(k=3または4)を決定し、計68個の推定プロファイルを得た。これらに参照プロファイル7個を加えた計75個のプロファイルに対し、Pearson correlationを用いた階層的クラスタリング(Ward法)を行い、共通するカーゴタイプ(CT)を定義した。

キャリアの物理的分離と検証実験: デコンボリューション結果を実験的に検証するため、健常ドナー(n=10 donors、男女各 n=5 donors)の血清および血漿サンプルを用いて以下の分離を行った。

  1. クッション付き密度勾配超遠心法(C-DGUC):OptiPrep(ヨジキサノール)密度勾配を用い、低密度画分(F1-3: 1.028-1.038 g/mL)、中密度画分(F4-7: 1.046-1.079 g/mL)、高密度画分(F9-12: 1.106-1.259 g/mL)の3プールに分画し、計78サンプルのRNA-seqプロファイルを取得した。
  2. 連続超遠心(SD-UC)+高速液体クロマトグラフィー(FPLC):リポタンパク質(HDL、VLDL:very low-density lipoprotein、LDL、カイロミクロン)を純化した。
  3. AGO2免疫沈降(IP):AGO2結合RNPキャリアを特異的に回収した。
  4. ナノスケール決定論的側方変位(nanoDLD; nanoscale deterministic lateral displacement)デバイス:微小流体技術を用いて60-150 nmの小胞を高純度でサイズ排除分離した。 分離画分の評価には、Western blotによるCD9(25 kDa)およびFlotillin-1(49 kDa)の小胞マーカー検出、APOA1(28 kDa)のHDLマーカー検出、および質量分析(LC-MS/MS)によるプロテオーム解析を用いた。コントロールとして HEK293T 細胞株由来のタンパク質を併用した。統計解析には、Mann-Whitney U test、one-way ANOVA、およびランダムに選定したncRNAセットを用いた100回のpermutationテストを適用した。