论文阅读( 四 )


基于群体智能的聚类
群体智能模型将聚类问题视为一个优化任务,其目标是最大化群集内心电图片段之间的整体相似性 。例如,在蚁群聚类算法中[57],一群蚂蚁随机地从一个心电图片段移动到另一个,并根据它们的相似性为片段分配一个值(即信息素) 。然后,群集被识别为其相似性值超过预定义阈值的片段 。粒子群优化[58]和人工蜂群[59]是其他用于心电图聚类的基于群体智能的算法[41],[60],[61] 。基于群体智能的聚类算法在搜索最佳群集解时可以避免局部最优解,具有高质量的群集 。然而,由于这些算法的随机性质,它们通常会产生较高的计算成本,尤其在大规模数据集中 。
最大间隔聚类
最大间隔聚类(,MMC)[62]利用支持向量机(,SVM)在未标记数据上执行聚类 。具体而言,它找到一组心电图片段的标签,以最大化在标记片段上运行SVM获得的间隔 。MMC的主要缺点是其解决非凸整数问题的计算成本较高的步骤[34] 。
集成聚类
在集成聚类中,来自一个或多个聚类算法的多次运行结果被整合,以达到比单独聚类算法获得的数据更好的一致性群集 。例如,等人[38]整合了K均值和GMM的结果用于心电图聚类,而Aidos等人[63]则构建了一个包含200次K均值运行的集成,每次运行使用不同的K值 。
排列分布聚类
这个算法专门用于对时间序列进行聚类,通过分析排列分布中的差异来找到时间序列之间的相似性 。这是通过计算时间序列嵌入中不同顺序模式的频率来实现的[64] 。
基于深度学习的聚类
基于深度学习的聚类算法近来受到了广泛关注,并在许多任务中取得了比传统机器学习算法更优越的性能[65] 。这些算法相对于传统的聚类算法的主要优势在于它们跳过了传统的特征工程步骤,可以自动学习用于聚类的最佳特征集 。基于深度学习的聚类方法根据其体系结构分为三类[65]:(1)自编码器,(2)前馈网络,以及(3)深度生成模型 。对于每一类,我们介绍了在心电图聚类方面的最新进展,并介绍了最先进的算法,这些算法有望进一步增强心电图聚类的性能 。
深度自编码器
自编码器由编码器和解码器组成,编码器是一个将输入数据转换为低维特征向量的神经网络,接着是解码器,它是一个从这个低维特征向量中重构出原始输入的神经网络 。编码器和解码器同时进行训练,以最小化重构损失:即原始输入与解码输出之间的差异 。深度聚类网络[13]和深度嵌入网络[14]是两个基于自编码器的常见聚类算法,已被用于心电图分析[66]–[68] 。这些算法的背后思想是在训练网络时,除了重构损失外还引入了聚类损失 。在深度聚类网络中,引入了K均值损失,而在深度嵌入网络中,引入了两个约束,即保留局部性和群组稀疏性,以保留数据的局部结构并对表示的关联性进行对角化 。这些算法的一些应用在第 III-A 节中进一步进行了审查 。
深度前馈网络
这组算法只在训练深度网络时引入了聚类损失 。网络架构可以是全连接的、卷积的,或者两者的组合 。网络的权重可以随机初始化,也可以使用在预训练网络上使用受限玻尔兹曼机进行微调[69] 。深度自适应聚类(Deep,DAC)[70]是一种流行的深度前馈聚类网络 。它是一个单层卷积神经网络(CNN),采用二元成对分类方法进行训练 。简而言之,首先使用CNN将输入样本映射到一个独热编码向量 。然后计算所有样本对之间的余弦距离 。由于地面真实的相似性是未知的,使用自适应学习算法,即自适应潜变量学习[71]来根据估计的相似性训练CNN的权重 。DAC最初是针对图像聚类提出的,并在几个具有挑战性的图像数据集上取得了优越性能 。通过对其CNN架构进行一些修改,DAC也可以用于心电图分析,作为未来可能的方向 。