首页  >  流式技术资源  >  罗工秘籍  >  【罗工流式秘籍68】流式大数据t-SNE和UMAP的结果图看不懂?不会用?

【罗工流式秘籍68】流式大数据t-SNE和UMAP的结果图看不懂?不会用?

时间:2023-02-07 14:42:03
浏览次数:635
分享:

导言

在如今的大数据时代,大家不难发现,某宝某音通过海量的手机日常浏览数据,从中进行分析运算,有针对性发现我们的爱好与需求,勾引大家买买买。

而流式染色技术也早已进入多色时代,随着染色指标的增加,我们获得的结果信息也是成指数级别的增长。如何全方位的快速的挖掘和展示自己结果中的有价值信息,就是依赖流式的大数据分析,常规用的大数据算法就是t-SNE和UMAP。

那么大数据分析会给我们看似普通的流式数据带来哪些优势呢?下面就给大家聊一聊。

很多老师表示大数据分析的技术很高端,结果图也很好看,高分文章也基本都在用,但就是看不懂,或不知道自己如何去寻找自己结果中的隐藏信息,其实并不难哈。

我们常规的一个多免疫亚群的分析结果,是通过逐级圈门圈出来目的细胞分群的,当使用t-SNE/UMAP等大数据分析之后呢,结果图就变为直接平铺二维模式展示所有的群落。

 


 

图上主要获得两个基础信息:

①群落的大小代表这群细胞占总细胞的百分比的多少;

②细胞和细胞之间,群落和群落之间,是有可能存在一定的关联性的。往往挨得越近的群落,所含有的抗原表位也是越接近的。

 

 

那我们怎么去用T-sne图展示结果呢?这里介绍3个常见用法:

①单个样本,多个指标的展示,一张T-sne图说明各细胞群体表达的多少及彼此的关系。

 


②多个样本单指标,或者单门内的降维分析图对比,寻找样本间差异。

 

案例一:如下图,实现了比对每一个病人自己PBMC和外周血2种不同检测样本类型中的CD161和MR1-Tet之间的表达关系分析。两者关系越接近的时候,它的T-sne图更融合。差异大的时候,T-sne图呢,则是越分开的。

 


案例二:如下图,不同病程的病人表达间的差异,就可以通过将不同病程的病人的检测数据整合到一起后,用T-sne图展示,这样差异也会更明显。BD和MC样本图形近似,AM和AS组图形近似,细胞占比及组成会更近似。

 

 


③多样本多指标的分析

刚刚这个T-sne图,就可以看出不同样本之间,它们的聚类间距离有近有远,这说明它这里可能包含了一些相似和显著不同的biomarker,所以我们可以在这个基础上,再去分析,看到底是哪些指标,出现了相似性,或者离群值。如下图显示,AM和AS组,就高表达PD-1/CD38/KI67/HLA-DR。

 


 

大数据图,会比用传统的柱状分析图展示结果更好更直观,它能够更好的在文章中增加我们每张图片的信息量,从而更容易获得杂志审稿人的青睐哦~

你知道怎么理解和运用流式大数据分析了么?