在此,我们讨论光谱流式细胞术数据分析的基础知识,包括数据生成、可视化和数据挖掘。这是光谱流式细胞术实验过程的最后一步 (图 1)。

探索光谱流式分析试剂  光谱流式细胞术实验设置

图1.流式细胞术实验流程概览。


概述

光谱流式细胞术增加了在单细胞水平检测的参数数量,从而通过扩展复杂性和所获得的信息来改变对细胞、功能和表型的多样性研究。传统的流式数据主要使用分级结构的二维图进行分析,依赖于手动选择和鉴定特定的细胞群 [1]。由于在更多的单个细胞上同时检测更多的参数,这种手动设门和数据评估方法主观、耗时,并且存在忽略有意义但不确定的细胞群和/或细胞关系的风险 [2]。在光谱流式细胞术中通常生成的数据集利用诸如降维和/或聚类算法等计算技术,以分析、可视化和解释高维数据 [3]。使用流式细胞术时,有多种分析方法可供研究人员之用 [4,5]。在使用计算机辅助的流式细胞术工具时,分析数据的一系列基本步骤包括数据生成、数据清理、数据可视化和分析 [6]。

数据生成

数据生成从实验计划开始,使用标准化程序和 适当对照,确保仪器功能良好,并确定样品大小和数据分析方法。数据清理用于鉴定和去除碎片、死细胞/即将死亡的细胞、细胞黏连体,由某一时间参数确定液流或样品不一致的区域、针对初步细胞群鉴定的预先设门并用作解析的初步检查。

(回到顶部)

可视化

数据的可视化可以浏览检测到的细胞群,发现亦可能被忽略的非预期细胞群,在许多情况下后者有助于确认对数据的基本假设。例如, t-随机邻域嵌入 (t-SNE) 图通过确认具有相似标记表达的细胞在 2D 嵌入中定位彼此靠近,从而帮助验证分离性能,t-SNE 是一种较新的降维技术,其中在二维或三维图中每个数据点均获得一个位置。研究人员可能会重点研究某种 CD4 阳性 T 细胞的亚群,如 Tregs,并确保 t-SNE 嵌入已将调节性 T 细胞包含在 CD4 阳性 T 细胞这一更广泛的范围。完成这些步骤后,即可选择适当的分析技术并应用于这些数据。如果实验的数据使已被用于已发表的同行评审文章中,则可以将其上传到公共流式细胞术数据存储库,以便对流式细胞术数据集进行访问、审查、注释和分析 [7]。

(回到顶部)

数据挖掘

数据挖掘方法将从示例中自动学习模型,被称为机器学习技术。只要有充足的培训数据和适当的练习,机器学习技术可以生成高度准确和有益的模型,而后者可能超越培训数据。然后研究人员可以自信地使用模型推断已呈现给模型的新数据。机器学习技术通常分为两类:无监督学习和有监督学习。主要区别在于,有监督学习使用标记的数据来帮助预测结果,而无监督学习则不是 [6]。有监督学习的方法需要培训数据,这些数据会创建一个模型来学习从输入映射到输出。这些数据集旨在训练或监督算法进行数据分类或预测结果。无监督学习方法则通过分组或聚类获取一组仅包含输出的数据,以便在数据中查找结构。无监督算法代表了目前用于分析高维流式细胞术数据集的大多数开发。这些算法从尚未标记、分类或归类的数据中学习。在流式细胞术中,无监督学习方法旨在正确鉴定和定量检测细胞群。在流式细胞术数据分析中,无监督学习技术的常见示例包括降维和聚类分析 (图 2)。

图2.数据分析可视化表示。用于分析流式细胞术数据的降维 (A) 和聚类技术 (B)。

在降维技术中,目标是在保留主数据结构的同时,可视化较低维度空间中的所有数据点。主要组分分析 (PCA) 是一种传统的降维技术,它将数据压缩到其主要组分上。PCA 是一种成熟的方法,通常用于以单细胞分辨率可视化多维数据中的关系。 t-SNE 旨在寻找较低的维度表示,以保持原始高维度空间中的相似性 (图 3)。一些降维技术的运行时间通常很长,可能需要为分析选择数据子样品 (称为向下采样)。均匀流形近似和投影 (UMAP) 是另一种降维技术,可用于像 t-SNE 这样的可视化,起处理速度更快和可视化效果改良作用。

图 3. 45 彩色光谱流式实验数据的 t-SNE 投影。人活 的PBMC 细胞的 (A) t-SNE 分析投影与 (B) 定义的群体着色。

自动聚类分析技术首先查找类似对象的组,将具有相似标记物谱图的细胞分配到类似簇,随后实现聚类的二维可视化。密度标准化事件 (SPADE) 的生成树进程是一种结合了向下采样、聚类和最小生成树算法的程序,以实现高维单细胞数据的可视化。SPADE 可用于发现样品之间表达水平的倍数差异,尽管单细胞分辨率会降低。自组织映射 (SOM) 是一种用于聚类和降维的无人监督技术,其中对输入的离散表示进行了训练。FlowSOM 用自组织映射将细胞聚类,并提供生成最小生成树算法 (MST) 的数据子集可视化。PhenoGraph 是最近开发的一种算法,以对高维空间进行建模,其中每个细胞格都被描述为与其邻域相连的节点。此处表型相似的细胞聚类表示为一组相互连通的节点。无人监督的聚类和维度降维可视化方法都可以组合:首先运行降维,再将结果用作聚类算法的输入 [8,9]。

计算方法是探索高维流式细胞术数据的强大工具。每种算法工具都有优点和挑战,有些是为特定目的而设计的。新工具不断发展,以满足研究人员的开发需求 [10]。了解不同算法的功能对于选择有助于解答研究问题的最佳工具非常重要。虽然手动门控将继续允许基本假设的测试和数据质量的评价,但使用复杂流式细胞术数据集的计算分析有可能加深我们对免疫系统的理解,并深入了解生物系统的复杂性 [5]。

特色视频

展开具有更高多维度的流式 panel

将较小的流式 Panel 组合成一个更大的流式 Panel,从而利用光谱流式细胞术实现高维数据。 

下一步行动
参考文献和推荐书目
  1. Van Gassen, Sofie 等著。"FlowSOM: 使用自组织映射进行细胞计数据的可视化和解释。"Cytometry Part A 87.7 (2015): 636-645。
  2. Chester, Cariad, and Holden T. Maecker."可挖掘高维细胞分析数据的算法工具。"The Journal of Immunology 195.3 (2015): 773-779。
  3. Ferrer‐Font, Laura 等著。"高维数据分析算法可为质谱分析和光谱流式细胞分析数据提供可比性结果。"Cytometry Part A 97.8 (2020): 824-831。
  4. Cheung, Melissa 等著。"流式细胞术自动化数据分析软件的当前趋势。"Cytometry Part A 99.10 (2021): 1007-1021。
  5. Mair, Florian 等著。"设门的结束?高维细胞术数据自动分析简介。"European journal of immunology 46.1 (2016): 34-43。
  6. Saeys, Yvan, Sofie Van Gassen, and Bart N. Lambrecht."计算机辅助流式细胞术:帮助理解高维免疫学研究数据。"Nature Reviews Immunology 16.7 (2016) :449-462。
  7. Spidlen, Josef, Karin Breuer, and Ryan Brinkman."使用国际细胞分析促进协会 (ISAC) FCS 文件存储库 (FlowRepository. org) 制备有关流式细胞分析实验 (MIFlowCyt) 依从性手稿的最低信息。"Current protocols in cytometry 61.1 (2012):1018.
  8. Diggins, Kirsten E., P. Brent Ferrell Jr, and Jonathan M. Irish."在高维质谱数据中发现和表征细胞亚群的方法。"Methods 82 (2015): 55-63。
  9. Roca, Carlos P. 等著。"交叉熵测试允许对 t-SNE 和 UMAP 表示进行定量统计比较。"arXiv preprint arXiv:2112.04172 (2021).
  10. Lucchesi, Simone 等著。"细胞术数据从双变量到多变量的分析:计算机辅助方法概述及其在疫苗接种研究中的应用。"Vaccines 8.1 (2020): 138.
Style Sheet for Global Design System