论文阅读( 五 )


深度生成模型
变分自编码器(,VAEs)[72]和生成对抗网络(,GANs)[15]是近年来最流行的深度生成模型 。VAEs强制自编码器学习的潜在表示遵循预定义分布,通常是高斯混合分布 。变分深度嵌入( Deep,VDE)是一种基于VAE的聚类算法,已被用于心电图分析[74] 。这个算法可以被看作是传统的GMM聚类算法的深度学习版本,其中特征空间是自动学习的 。
生成对抗网络(,GANs)旨在基于真实数据生成一组伪造数据,使伪造数据的分布与真实数据相似 。简而言之,GAN由两个子模块组成:(1)生成器(),用于生成伪造数据,以及(2)鉴别器(),用于区分生成器生成的伪造数据与真实数据 。在G和D中学习一组参数,使生成器和鉴别器之间的极小极大博弈达到纳什均衡 。
[75] 是基于GAN的一种常见的聚类算法 。它强制鉴别器将训练数据分类为预定义数量的类别(而不仅仅是伪造和真实数据),同时对于对生成器生成的样本分类的置信度较低 。是的一个变体,最近在许多其他基于深度学习的聚类算法中展现出卓越的性能,在不同的聚类任务中表现出色[76] 。由于这些算法尚未在心电图分析中应用,它们在心电图分析中的应用可能是一个未来的研究方向 。
除了聚类,基于深度生成的算法还可以学习从获得的群集中生成新样本 。最近,一些研究采用了GAN生成新的心跳数据,以解决监督式心电异常分类中持续存在的数据不平衡问题之一[18],[19] 。在第III-E节中,我们将讨论这些方法的应用 。
心电图分析中聚类算法的比较
表格I对不同的心电图聚类算法进行了比较 。聚类算法处理噪声和异常值的能力在心电图聚类中是一个重要因素,因为大多数公开可用的心电图数据集中存在异常值,这可能会对聚类结果的结构产生不利影响 。
聚类算法的时间复杂度是另一个重要因素 。对于需要实时分析心电图的应用(例如,在重症监护室环境中),尽管生成高质量的聚类可能性可能较高,但计算成本较高的聚类算法可能是不可行的选择 。K均值、模糊C均值和最大最小算法的计算成本较低;然而,它们处理异常值的能力低于计算成本更高的算法,如、GMM、层次聚类、谱聚类和基于深度学习的聚类 。在这些算法中,的计算成本最低,尽管它对其超参数的选择(邻域半径和邻域中的最小点数)敏感 。此外,在数据空间的固有密度不均匀的情况下不适用 。
在选择有效的心电图聚类算法时,寻找任意形状(即非凸形状)的群集和处理高维特征空间也是其他重要因素 。尽管距离基础聚类算法(如K均值)大多能够找到凸形状的群集,但心电图数据集中的群集可能呈现任意形状 。基于密度和基于深度学习的聚类算法能够有效地找到非凸形状的群集,但计算成本比距离基础的聚类算法更高 。
心电图分析中的特征空间通常是高维的,因为通常从心电图中提取了许多特征,而训练心电图样本的数量通常有限 。基于图的和基于深度学习的聚类算法通常会产生较高的计算成本 。特别是,与传统算法相比,基于深度学习的算法在处理高维数据方面更为有效;然而,深度学习方法需要大量的数据进行训练 。
除了上述考虑因素,一些聚类算法还提供了用于可视化的独特功能 。例如,层次聚类提供了可视化聚类之间的层次关系的树状图,自组织映射则提供了一个二维网格,可视化数据集中的一些特定拓扑结构 。关于聚类算法及其优缺点的更多信息,我们建议读者参考[47]、[65]、[77] 。
应用领域
迄今为止,我们已将无监督的心电图分析研究按照六个应用领域进行分类,如图1所示 。最成熟的应用是心跳聚类,它在大量心电图数据中提供了简洁而易于理解的心跳组织方式 。最近和创新的研究方向旨在探索心血管系统与整个身体和心灵之间的关系 。无监督的心电图分析还被用于提高监督式异常检测和基于心电图的身份验证系统的性能 。