Gaining Biological Insights through Supervised Data Visualization

Jake S Rhodes; Adrien Aumon; Sacha Morin; Marc Girard; Catherine Larochelle; Elsa Brunet-Ratnasingham; Amélie Pagliuzza; Lorie Marchitto; Wei Zhang; Adele Cutler; Francois Grand’Maison; Anhong Zhou; Andrés Finzi; Nicolas Chomont; Daniel E Kaufmann; Stephanie Zandee; Alexandre Prat; Guy Wolf; Kevin R Moon

doi:10.1101/2023.11.22.568384

This is a preprint.

It has not yet been peer reviewed by a journal.

The National Library of Medicine is running a pilot to include preprints that result from research funded by NIH in PMC and PubMed.

[Preprint]. 2024 Jan 21:2023.11.22.568384. [Version 2] doi: 10.1101/2023.11.22.568384

Gaining Biological Insights through Supervised Data Visualization

Jake S Rhodes, Adrien Aumon, Sacha Morin, Marc Girard, Catherine Larochelle, Elsa Brunet-Ratnasingham, Amélie Pagliuzza, Lorie Marchitto, Wei Zhang, Adele Cutler, Francois Grand’Maison, Anhong Zhou, Andrés Finzi, Nicolas Chomont, Daniel E Kaufmann, Stephanie Zandee, Alexandre Prat, Guy Wolf, Kevin R Moon

PMCID: PMC10827133 PMID: 38293135

Abstract

Dimensionality reduction-based data visualization is pivotal in comprehending complex biological data. The most common methods, such as PHATE, t-SNE, and UMAP, are unsupervised and therefore reflect the dominant structure in the data, which may be independent of expert-provided labels. Here we introduce a supervised data visualization method called RF-PHATE, which integrates expert knowledge for further exploration of the data. RF-PHATE leverages random forests to capture intricate featurelabel relationships. Extracting information from the forest, RF-PHATE generates low-dimensional visualizations that highlight relevant data relationships while disregarding extraneous features. This approach scales to large datasets and applies to classification and regression. We illustrate RF-PHATE’s prowess through three case studies. In a multiple sclerosis study using longitudinal clinical and imaging data, RF-PHATE unveils a sub-group of patients with non-benign relapsingremitting Multiple Sclerosis, demonstrating its aptitude for time-series data. In the context of Raman spectral data, RF-PHATE effectively showcases the impact of antioxidants on diesel exhaust-exposed lung cells, highlighting its proficiency in noisy environments. Furthermore, RF-PHATE aligns established geometric structures with COVID-19 patient outcomes, enriching interpretability in a hierarchical manner. RF-PHATE bridges expert insights and visualizations, promising knowledge generation. Its adaptability, scalability, and noise tolerance underscore its potential for widespread adoption.

Full Text Availability

The license terms selected by the author(s) for this preprint version do not permit archiving in PMC. The full text is available from the preprint server.

PERMALINK

This is a preprint.

Gaining Biological Insights through Supervised Data Visualization

Jake S Rhodes

Adrien Aumon

Sacha Morin

Marc Girard

Catherine Larochelle

Elsa Brunet-Ratnasingham

Amélie Pagliuzza

Lorie Marchitto

Wei Zhang

Adele Cutler

Francois Grand’Maison

Anhong Zhou

Andrés Finzi

Nicolas Chomont

Daniel E Kaufmann

Stephanie Zandee

Alexandre Prat

Guy Wolf

Kevin R Moon

Abstract

Full Text Availability

ACTIONS

PERMALINK

RESOURCES

Cite

Add to Collections

PERMALINK

This is a preprint.

Gaining Biological Insights through Supervised Data Visualization

Jake S Rhodes

Adrien Aumon

Sacha Morin

Marc Girard

Catherine Larochelle

Elsa Brunet-Ratnasingham

Amélie Pagliuzza

Lorie Marchitto

Wei Zhang

Adele Cutler

Francois Grand’Maison

Anhong Zhou

Andrés Finzi

Nicolas Chomont

Daniel E Kaufmann

Stephanie Zandee

Alexandre Prat

Guy Wolf

Kevin R Moon

Abstract

Full Text Availability

ACTIONS

PERMALINK

RESOURCES

Similar articles

Cited by other articles

Links to NCBI Databases