【论文笔记】Unsupervised Deep Embedding for Cl( 二 )


优化DEC具有挑战性 。我们希望同时解决聚类分配和底层特征表示的问题 。然而 , 与监督学习不同的是 , 我们不能用标记数据训练我们的深度网络 。相反 , 我们建议用从当前的软聚类分配派生的辅助目标分布迭代地细化聚类 。这一过程逐步改进了聚类和特征表示 。
我们的实验表明 , 在图像和文本数据集上 , 与最先进的聚类方法相比 , 在准确性和运行时间方面都有显著的改进 。我们在MNIST、STL和上评估DEC , 并将其与标准和最先进的聚类方法进行比较 。此外 , 我们的实验表明 , 与最先进的方法相比 , DEC对超参数选择的敏感性显著降低 。这种鲁棒性是我们聚类算法的一个重要特性 , 因为当应用于真实数据时 , 超参数交叉验证的监督是不可用的 。
我们的贡献有:(a)深度嵌入和聚类的联合优化;(b)一种新的软分配迭代优化算法;?在聚类精度和速度方面最先进的聚类结果 。
2.work 3. Deep
对于n n n 个点 $ {x_i\in X}_{i=1}^{n} $ ,分为k k k 个簇 , 每个簇都由质心(聚类中心)向量 μ j , j = 1 , 2 , . . . , k μ_j,j=1,2,...,k μj?,j=1,2,...,k表示 。我们建议首先用非线性映射f θ : X → Z f_θ:X→Z fθ?:X→Z 来转换数据 , 而不是直接在数据空间 X X X中聚类 , 其中 ,  θ θ θ是参数 ,  Z Z Z是潜在特征空间 。为了避免“维度诅咒” ,  Z Z Z 的维度通常比X X X 小得多 。为了参数化f θ f_θ fθ? , 深度神经网络(DNNs)是一种自然选择 , 因为它们的理论函数近似特性和它们所展示的特征学习能力
DEC对数据聚类 , 同时学习一套在特征空间Z中的k聚类中心和DNN中将数据点映射到Z的参数θ 。
DEC有两个阶段:
(1)用深度自编码器(deep )参数初始化
(2)参数优化(例如,聚类),我们通过迭代计算辅助目标分布和最小化-(KL)散度 。
我们从描述阶段(2)参数优化/聚类开始 , 给出了参数和聚类中心的初始估计 。
3.1.with KL
在给出非线性映射f和初始聚类中心的初始估计后 , 我们提出使用两步交替的无监督算法来改进聚类 。
在第一步 , 我们计算嵌入点和簇中心之间软分配 。
第二步 , 我们更新深度映射f , 并通过使用辅助目标分布学习当前的高置信度分配来细化聚类中心 。这个过程一直重复 , 直到满足收敛准则 。
3.1.1. SOFT
我们用学生t分布(’s t-)作为核来度量嵌入点与簇中心之间的相似性 。
3.1.2. KL
我们提出在辅助目标分布的帮助下 , 通过学习它们的高置信分配来迭代地改进聚类 。具体来说 , 我们的模型是通过软分配去匹配目标分布来训练的 。为此 , 我们将我们的目标定义为软分配q i q_i qi? 和辅助分布p i p_i pi? 之间的KL散度损失 , 如下所示 L = KL ( P ∣ ∣ Q ) = ∑ i ∑ j p i j log ? p i j q i j L\ =\ \text{KL}\left( P||Q \right) \ =\ \sum_i{\sum_j{p_{ij}\log \frac{p_{ij}}{q_{ij}}}} L=KL(P∣∣Q)=i∑?j∑?pij??pij??目标分布P的选择对DEC的性能至关重要 。一个简单的方法是将每个pi设置为高于置信阈值的数据点的delta分布(到最近的质心) , 然后忽略其余的 。然而 , 由于qi是软分配 , 使用软概率目标更自然和灵活 。
具体来说 , 我们希望我们的目标分布具有以下特性:
在我们的实验中 , 我们首先将q i q_i qi? 提高到2次方 , 然后根据每个簇的频率进行归一化 , 从而计算p i p_i pi? :