论文阅读( 三 )


最后,将心电图的分割单元进行聚类,每个组包含那些根据预定义的相似度度量,其对应的特征向量彼此之间比与其他组中的特征向量更相似的片段 。
聚类算法
在聚类中,衡量两个心电图片段之间距离的相似性(或不相似性)度量是至关重要的 。在各种现有的相似性度量中,欧几里得距离、余弦系数和动态时间规整距离[47]是心电图聚类中广泛使用的三个度量标准 。前两者通常用于衡量以时间和形态特征或小波系数表示的心电图单元之间的相似性 。动态时间规整是一种测量两个时间序列之间相似性的方法,这些序列的长度可能不同 。在这里,我们简要介绍用于心电图聚类的传统聚类算法 。最近基于深度学习的聚类算法在第 II-C 节中进行了描述 。在第 II-D 节中讨论了所介绍算法在心电图分析中的优势和局限性,并在表格 I 中进行了总结 。
基于中心点的聚类
基于中心点的聚类技术根据心电图片段与这些组的中心点的相似性将它们分成不同的组 。中心点被视为其相应组的代表性片段 。K均值是最知名的基于中心点的聚类算法,它将群集中心点视为该群集中心的心电图片段(或其特征向量)的平均值 。在无监督的心电图分析中,K均值的变种包括模糊C均值[48]、亲和传播[49]和最大最小聚类[50] 。这些算法在获取中心点方面有所不同 。例如,亲和传播通过交换携带心电图片段之间相似性的消息来获取中心点 。基于中心点的聚类算法通常易于实现,并且计算成本低 。然而,它们通常不适用于处理噪声、离群值和高维特征空间 。
层次聚类
层次聚类将每个心电图片段视为一个独立的群集,并合并最相似的群集,直到只剩下一个群集(包括整个数据集) 。与基于中心点的聚类算法相比,层次聚类算法通常具有更高的计算成本;然而,这些方法的独特之处在于生成的树状图,它可可视化群集之间的层次关系,有助于医生的解释[51] 。
基于分布的聚类
这类聚类算法的目标是找出心电图片段属于各个群集的概率 。高斯混合模型(GMM)是一种著名的基于分布的聚类算法,在已审查的研究中被广泛采用[36],[37] 。GMM假设多个高斯分布生成心电图片段;也就是说,每个群集由高斯分布的均值和均值周围的标准差定义 。过程GMM是GMM的一种变体,它不需要初始的群集数量(即数据空间中的高斯成分)[52] 。DPGMM通过变分贝叶斯推断自动学习群集数量,这是一种估计群集的先验分布的迭代算法 。基于分布的聚类算法适用于处理噪声和离群值,但通常会产生较高的计算成本 。值得注意的是,DPGMM的计算成本比GMM更高 。
基于密度的聚类
密度通常被定义为在一定预定义半径内的数据点数量 。基于密度的聚类将群集视为数据空间中具有较高密度的区域 。[53] 和自组织映射(self- map,SOM)[54] 是已被用于心电图聚类的著名基于密度的聚类算法 。将区域视为一个群集,如果其密度超过预定义的阈值 。它能够有效处理噪声和离群值;然而,产生的群集在很大程度上取决于半径和阈值的选择 。自组织映射(SOM)是一种神经网络类型,它将输入片段映射到二维网格中,假设在心电图片段之间存在特定的拓扑结构 。生成的网格在高密度区域弯曲和扭曲[54] 。SOM在二维网格中提供了群集的可解释性组织;然而,它会产生较高的计算成本 。
谱聚类
谱聚类将聚类问题转化为图分割问题[55],其目标是将图分割为子图,使连接子图的边的权重之和最小化 。在心电图聚类中,将心电图片段视为节点,并将它们之间的相似性表示为连接节点的边的权重[56] 。谱聚类能够有效处理高维特征空间,但会产生较高的计算和空间成本[47] 。