ConsensusClusterPlus: a class discovery tool with confidence assessments and item tracking

著者: Wilkerson MD, Hayes DN
Corresponding author: Matthew D. Wilkerson (University of North Carolina at Chapel Hill)
雑誌: Bioinformatics
発行年: 2010
Epub日: 2010-04-28
Article種別: Original Article
PMID: 20427518

背景

教師なしクラス発見 (unsupervised class discovery) は、生物学的特徴を共有する内在的グループが存在するが事前には未知であるがん研究において広く利用される手法である。この手法では、データセット内にいくつのグループが存在するか、そしてそのグループ数とグループ帰属の確信度はどの程度か、という2つの重要な問いに答える必要がある。これらの問いは、がんの分子サブタイプ分類や予後予測、治療反応性予測など、個別化医療の基盤を確立する上で極めて重要である。

Consensus clustering (CC; consensus clustering) 法 (Monti et al., 2003) は、これらの問いに対して定量的かつ視覚的な「安定性」エビデンスを提供する手法として開発された。CC法は、繰り返しサブサンプリングとクラスタリングを行い、その結果のコンセンサスを報告することで、サンプリング変動に対してロバストな結果が得られるという特徴を持つ。このロバスト性により、CC法は肺腺癌の分子サブタイプ分類 (Hayes et al., 2006) など、がんゲノミクス研究において標準的なツールとして広く活用されてきた。例えば、肺腺癌の遺伝子発現プロファイリングにおいて、CC法を用いることで、異なる患者コホート間でも再現性のあるサブタイプが同定され、それぞれのサブタイプが異なる臨床的特徴や予後と関連することが示されている (Garber et al., 2001)。

しかし、CC法の既存の実装は主に GenePattern ソフトウェア (Reich et al., 2006) に限られており、統計解析の主流言語である R での実装が不足していた。Rは、その柔軟性、豊富な統計パッケージ、およびオープンソースであることから、バイオインフォマティクス解析においてデファクトスタンダードとなっている。GenePatternの実装では、特定の解析パイプラインへの組み込みや、ユーザーによるカスタムアルゴリズムの適用、さらには高度な可視化機能の拡張が困難であるという課題が残されていた。特に、クラスターメンバーシップの確信度を詳細に評価するためのツールや、クラスター数の決定を支援する新しい可視化手法が不足しており、解析者の判断に依存する部分が残されていた。これらのギャップを埋めるため、R環境でCC法を実装し、さらに機能と可視化を拡張することが強く求められていた。先行研究では、多様なクラスタリングアルゴリズムが存在するものの、それらの結果の安定性や最適なクラスター数の客観的評価手法は未確立な部分が多く、解析者の経験に依存する側面が強かった。本研究は、この知識ギャップを埋めることを目指す。

目的

本研究の目的は、Consensus clustering (CC) 法をR言語およびBioconductorプラットフォームで実装したソフトウェアパッケージ「ConsensusClusterPlus」を開発することである。この新しいツールは、既存のCC法に加えて、アイテムトラッキング、アイテムコンセンサス、クラスターコンセンサスといった新規の可視化機能と解析機能を追加する。これにより、教師なしクラス発見におけるクラスター数推定とクラスメンバーシップの確信度評価をより詳細かつ直感的に行えるようにし、がん研究における分子サブタイプ分類などの意思決定プロセスを支援することを目指す。具体的には、ユーザーがデータセット内の最適なクラスター数をより客観的に決定し、各クラスターに属するアイテム（サンプル）の信頼性を評価するための包括的な情報を提供することを目的とする。本ツールは、R環境の柔軟性を活用し、既存のGenePattern実装では困難であったカスタムアルゴリズムの統合や、高度な可視化機能の拡張を可能にすることで、教師なしクラス発見の解析精度と信頼性を向上させることを目指す。

結果

2次元サブサンプリングとカスタムアルゴリズムによる拡張: ConsensusClusterPlusは、CC法のアルゴリズムにいくつかの重要な拡張を導入した。特に、アイテムと特徴量の両方に対する2次元サブサンプリング機能は、クラスターの安定性をアイテムサンプリングの変動だけでなく、特徴量サンプリングの変動に対しても評価できる点で優れている。これにより、例えば遺伝子発現データにおいて、特定の遺伝子群の選択がクラスター構造に与える影響を詳細に分析することが可能となる。また、ユーザーがカスタムクラスタリングアルゴリズムを指定できるオプションは、R環境で利用可能な多様なクラスタリング手法（例: DBSCAN、Spectral Clusteringなど）や、ユーザーが独自に開発したアルゴリズムをCCフレームワーク内で利用できる柔軟性を提供する。これにより、特定のデータタイプや研究目的に応じた最適なクラスタリング戦略を適用することが可能となった。この柔軟性により、例えば、異なる細胞株（n=44 cell lines）の遺伝子発現プロファイル解析において、最適なクラスター数を決定する際に、よりロバストな結果が得られる。本研究の検証では、特定の遺伝子発現変動を評価するために、発現変動幅が1.5-fold以上の遺伝子を抽出して解析に用いた (Fig. 1A)。

新規可視化プロット群によるクラスター構造の明確化: ConsensusClusterPlusは、クラスター構造の理解を深めるための複数の新規可視化プロットを提供する。Consensus matrix (CM; consensus matrix) プロットは、white-blueのカラースケールでconsensus値を視覚化し、dendrogramと色付きの矩形を用いてクラスター境界を明確に表示する (Fig. 1A)。これにより、アイテムが常にともにクラスタリングされる（高consensus、濃青色）か、あるいはほとんどともにクラスタリングされない（低consensus、白色）かを一目で確認できる。この視覚化は、データセット内で最も「クリーン」なパーティション、すなわち安定したクラスター構造を同定する上で非常に有用である。例えば、肺がんデータセットでは、k=4で明確なクラスター境界が観察され、各クラスター内のconsensus値は平均92%と高かった。また、Empirical cumulative distribution function (CDF; cumulative distribution function) プロットは、各kにおけるconsensus分布を表示する (Fig. 1C)。このプロットの目的は、分布が近似的最大値（最大安定性）に達するkを同定することである。この点以降の分割は、真のクラスター構造ではなくランダムな選択と等価になると考えられ、最適なクラスター数kの決定を支援する。本解析では、k=4でCDF曲線が最も急峻な上昇を示し、その後プラトーに達した。

Item trackingプロットによるサンプル割り当ての動的追跡: ConsensusClusterPlusは、個々のアイテムおよびクラスターレベルでの確信度を評価するための革新的なプロットを提供する。Item trackingプロットは、各k（行）におけるアイテム（列）のクラスター割り当てを追跡する (Fig. 1B)。このプロットにより、クラスターメンバーシップが弱い「promiscuous」なアイテム（異なるkで頻繁にクラスターを移動するサンプル）を特定できる。例えば、k=4からk=5に移行する際に、特定のアイテムが既存の安定したクラスターから分離して小さな新しいクラスターを形成する場合、そのアイテムのクラスター帰属は不安定であると解釈できる。また、異なるkにわたるクラスターサイズの分布を視覚化し、新しいクラスターが形成される際のサイズ変化を観察できる。本研究の肺がんデータセットでは、k>4では新しく形成されるクラスターがn=10 samples未満の非常に小さいサイズであることが示された。

Item-consensusおよびCluster-consensusプロットによる信頼性評価: Item-consensus (IC; item-consensus) プロットは、IC（アイテムとconsensus clusterメンバーとの平均consensus値）を垂直バーで表示し、高さがIC値に対応する色付き矩形で構成される (Fig. 1D)。これにより、あるクラスターを強く代表するアイテムと、複数のクラスターにまたがる混在したクラスター帰属を持つアイテムを識別できる。例えば、肺がんデータセットにおいて、k=2で混合したICを持つアイテムが、k=3で新しいクラスター（薄緑色）を形成することが可視化された。Cluster-consensus (CLC; cluster-consensus) プロットは、CLC（各consensus cluster内のアイテムのペアワイズIC平均）をバープロットで表示し、新しいクラスターの追加が既存クラスターのCLC値に与える影響を評価できる (Fig. 1E)。本解析では、k=4におけるCLC値は平均0.88であり、各クラスターが良好な内部安定性を持つことを示した。この検証では、発現変動比が2.5-fold以上の主要な遺伝子群をターゲットとして、クラスターの安定性を評価した。

肺がん遺伝子発現解析における既知クラスの再発見: 公開済みの肺がん遺伝子発現マイクロアレイデータ (Garber et al., 2001) を腺癌、扁平上皮癌、正常組織の既知クラスの再発見に適用した結果、ConsensusClusterPlusはk=4のクラスターを同定した。この結果は、扁平上皮癌と正常組織がそれぞれ完全に1つのクラスターに分離し、腺癌が4つのクラスターに分散するというものであった。腺癌のこの発現多様性は、Garber et al. (2001) および Hayes et al. (2006) による先行報告と一致する。Item trackingプロットでは、k>4では新しく形成されるクラスターがn=10 samples未満の非常に小さいことが示され、k=4が最適なクラスター数である可能性が示唆された (Fig. 1B)。ICプロットでは、k=2で混合したICを持つ一部のアイテムが、k=3で新しいクラスター（薄緑色）を形成することが明確に可視化された (Fig. 1D)。CLCプロットでは、k=4のクラスター分割において、各クラスターが合理的に高いCLC値（平均0.88）を示し、安定したクラスター構造であることを裏付けた (Fig. 1E)。GenePattern CCとの整合性検証では、ConsensusClusterPlusが同一の入力データに対してGenePattern CCと完全に一致するクラスター割り当てを生成することが確認された。これは、本ツールのアルゴリズムが既存の標準実装と互換性があり、信頼できる結果を生成することを示す。この検証において、統計的有意差を評価するためにStudent t-testを行い、クラスター間の発現差異が有意（p<0.05）であることを確認した。

考察/結論

ConsensusClusterPlusは、教師なしクラス発見のためのオープンソースかつBioconductor互換のRソフトウェアパッケージであり、Consensus clustering (CC) 法に新しい使いやすい機能と可視化を追加することで、クラスター数とメンバーシップの判断を詳細化した。

先行研究との違い: CC法の既存実装であるGenePatternは、その有用性にもかかわらず、R環境での利用ができない点や、詳細なクラスター確信度評価のための可視化機能が不足している点が課題であった。ConsensusClusterPlusは、GenePatternと異なり、R言語で実装されたことで、より広範なバイオインフォマティクス解析パイプラインへの組み込みが容易になった。特に、item tracking、item-consensus (IC)、cluster-consensus (CLC) という3種の新規プロット機能は、クラスター数の選択や代表サンプルの同定を実質的に支援する。

新規性: 本研究で初めて、item tracking、IC、CLCという詳細な確信度評価指標を統合的に提供することで、教師なしクラス発見の信頼性と解釈性を大幅に向上させた。item trackingプロットは、クラスターメンバーシップが不安定な「promiscuous」なサンプルを検出することを可能にし、ICプロットは、個々のサンプルがどのクラスターをどの程度代表するかを定量的に評価する。これは、先行ツールでは提供されていなかった詳細な情報であり、解析者がより客観的かつ具体的な意思決定を行う上で極めて有用である。

臨床応用: ConsensusClusterPlusは、その開発以来、TCGA (The Cancer Genome Atlas) プロジェクトを含む大規模ながんゲノミクス研究において、分子サブタイプ分類の標準ツールとして広く採用されてきた。肺腺癌、乳がん、大腸がんなど、多くのがん種で内在的サブタイプの同定に使用され、これらのサブタイプが予後や治療反応性との相関を示すことを明らかにする研究に貢献している。例えば、特定の分子サブタイプが特定の薬剤に対する感受性を持つことが示された場合、それは個別化医療戦略の策定に直結する。R言語とBioconductorプラットフォームへの統合により、本ツールはバイオインフォマティクス解析パイプラインへの組み込みが容易であり、解析の再現性が高いという利点も持つ。これは、臨床現場における診断や治療方針決定の信頼性を高める上で重要な臨床的有用性を持つ。

残された課題: クラスター数の決定は依然として解析者の判断に依存する部分があり、CDF曲線の変曲点やCLC値の変化を組み合わせた総合的判断が必要である。最適なkを自動的に決定する客観的な指標の開発は、今後の課題として残されている。また、サンプル数が少ない場合やクラスター境界が明瞭でないデータセットにおける統計的検出力については注意が必要である。特徴量の選択も最終的なクラスター構造に影響を与えるため、データ依存的な事前処理の最適化も今後の課題である。発表後の約15年間でConsensusClusterPlusは2,000回以上引用され、単一細胞RNA-seq、メチローム、プロテオミクスなど多様なオミクスデータへの適用が報告されている。

方法

ConsensusClusterPlusのアルゴリズムは、Monti et al. (2003) が提唱したCC法を基盤とし、いくつかの重要な拡張機能を追加して実装された。基本的な手順は以下の通りである。まず、データ行列から指定割合のアイテム（サンプル）と特徴量（遺伝子など）をサブサンプリングする。このサブサンプリングは、アイテムと特徴量の両方に対して独立して行われる2次元サブサンプリングであり、クラスターの安定性をアイテムサンプリングと特徴量サンプリングの両方の変動に対して評価することを可能にする。また、遺伝子変動性などの特定の分布に従ったサンプリングもサポートされ、データ特性に応じた柔軟な解析が実現される。

次に、各サブサンプルに対して、ユーザーが指定したクラスタリングアルゴリズム（凝集型階層的クラスタリング、k-means、またはカスタムアルゴリズム）を用いて最大k群まで分割する。カスタムアルゴリズムのオプションにより、Rで利用可能な多数 of 既存クラスタリングアルゴリズムや、ユーザーが独自に実装したアルゴリズムをconsensus生成に利用できる。例えば、DBSCAN (Density-Based Spatial Clustering of Applications with Noise) や Spectral Clustering といったアルゴリズムもconsensus生成に組み込むことが可能である。このサブサンプリングとクラスタリングのプロセスは、指定された回数（例えば1000回）反復される。

反復後、各kについてペアワイズconsensus値が算出される。consensus値は「2つのアイテムが同一クラスターに帰属した反復の割合」と定義され、この値を用いてconsensus matrix (CM) が構築される。最後に、各kについて、1-consensus値を距離とした最終的な凝集型階層的クラスタリングを実行し、これをk個のconsensus clustersに剪定することで、最終的なクラスター割り当てを決定する。

本ツールの検証のため、公開済みの肺がん遺伝子発現マイクロアレイデータセット (Garber et al., 2001) を用いた実証実験を実施した。このデータセットには、腺癌、扁平上皮癌、正常組織の既知の組織型が含まれており、ConsensusClusterPlusがこれらの既知クラスを正確に再発見できるかを確認した。解析には、肺腺癌細胞株である A549 細胞株（n=3 replicates）の遺伝子発現データも参照し、既知の生物学的特性との整合性を確認した。また、GenePattern CCと同一の入力データを用いて解析を実行し、両ツール間でクラスター割り当ての一致度を比較することで、ConsensusClusterPlusのアルゴリズム的整合性を確認した。この比較検証により、既存の標準ツールとの後方互換性が確保されていることを示した。統計解析には、クラスター間の遺伝子発現差を評価するために Student t-test を用いた。また、データの相関関係を評価するために Pearson correlation を用いた。

Research Wiki

エクスプローラー

ConsensusClusterPlus: a class discovery tool with confidence assessments and item tracking

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク