如何从已获得的大量复杂数据结果中挖掘出有效的信息,一直是多色流式中大家关注的重点问题。数据可视化是极其重要的一个方面,因为无论如何对数据进行分析处理,能够最简明准确的展示组间的差异结果,才是发表文章所需的点睛之笔。
本期跟大家讨论下FlowJo大数据的可视化降维处理涉及的3种不同插件t-SNE,UMAP和TriMAP的简要原理和特色对比。
一、可视化降维处理分析的目的——可加速复杂数据直观展现
随着仪器和科学技术手段的自动化和高通量的进步,生物科学领域的数据收集和获取已经不再是难事。而流式细胞仪的多色实验,记录了成百上千万的细胞中多种蛋白表达的数据,例如BD FACSymphony™流式分析仪可在单细胞水平上同时检测多达 50个不同参数,这使得数据点之间的关系也更加复杂。
因此对数据进行降维处理,并利用图表等方式将数据直观地可视化呈现是十分必要的。而降维计算的目的就是在于少失真,低耗时并直观呈现数据。
二、FlowJo软件提供多种降维方法,以便应对多种需求
1. t-SNE
t-SNE是由SNE(Stochastic Neighbor Embedding, SNE; Hinton and Roweis, 2002)衍生发展而来的一种机器学习算法,非常适用于高维数据降维到2维或者3维,进行可视化的后续分析。这种算法使得同一簇内的点(距离较近)聚合的更紧密,不同簇之间的点(距离较远)更加疏远。
不同版本t-SNE算法处理同一个4千万细胞数据结果比较opt-SNE具有更高的分辨率
2. UMAP
UMAP是McInnes等人提出的一种新技术,虽然UMAP和t-SNE产生的输出结果有些相似,但有明显的运算速度的提高,以及更好地在强调局部结构与全局结构之间取得平衡,相对展示方式也更易理解。
3.TriMAP
TriMAP (三值图),是一种静态图像抠图算法。是由Ehsan Amid & Manfred K. Warmuth开发的基于高维数据三个参数嵌入的降维方法,着重保留了数据的全局准确性。在大数据集的嵌入以及运行内存占用和时间方面,也具有明显的优势。Trimap是对给定图像的一种粗略划分,即将给定图像划分为前景、背景和待求未知区域。
汇总表
最后,小编要强调的是,从必然的角度来说任何降维技术都不是完美的,都是在扭曲数据以适应较低的维度上的展示。在实际的运算过程中,参数的选择和设定其实也起到了至关重要的作用。而数据降维的方法多种多样,在进行数据处理时,没有哪一种结果是最完美的,但我们可以根据不同的目的,结合各自的数据,选择最适合的降维算法,并利用多样的算法分析,寻找更多的数据分析角度!