基于成对约束的三视图对比聚类算法

2024-01-17 00:00:00谭思婧李艳彭磊卢虹妃蒙柏錡

企业科技与发展 2024年12期

0 引言

聚类是将数据集中的样本根据相似性或特定特征进行分组的过程，目的在于确保同一组内样本之间相似度较高，而不同组之间相似度较低。聚类算法主要分为以下两类：一是基于机器学习的聚类方法，典型代表有K-Means（K均值算法）［1］和谱聚类［2-3］等；二是深度聚类算法，该类算法通过深度神经网络学习特征进行聚类，相较于传统的机器学习聚类方法，能够取得更好的聚类效果。Guo等［4］提出的深度嵌入聚类IDEC算法通过结合聚类损失和自编码器重构损失，有效优化了聚类结果并保持了数据的局部结构。随后，Guo等［5］又提出了一种深度卷积嵌入聚类DCEC算法，利用卷积自编码器联合优化重构和聚类损失，有效提升了特征学习和聚类性能。然而，多数深度聚类算法需要迭代进行表示学习和聚类，通过不断优化表示学习来提高聚类性能，这不仅增加了计算复杂度，而且还可能导致迭代过程中的误差累积。为解决这些问题，基于对比学习的聚类方法应运而生。对比学习能够自主学习样本之间的相似性和差异性，从而获得更优的特征表示。将对比学习的优势与聚类任务相结合，基于对比学习的聚类算法已在聚类领域得到了广泛应用。Deng等［6］提出的层次对比选择编码HCSC框架，通过动态更新层次原型并改进对比学习配对选择，提升了图像表示的语义结构适应性；Xu等［7］针对现有对比学习方法在深度聚类中的弱增强限制，提出强增强对比聚类（SACC）方法，该方法引入了多个视图并联合运用强弱增强策略；Li等［8］提出了一种新的深度图像聚类方法——IcicleGCN，该方法结合了卷积神经网络（CNN）和图卷积网络（GCN），并融入对比学习和多尺度结构学习，从而有效提升了图像的表示学习与聚类性能。尽管如此，这些方法仍存在一些不足，如数据增强方法有限且变换手段单一，大多仅使用两种增强视图，限制了多视图学习所能提供的丰富表示学习机会；同时，负样本对通常由不同类别的增强样本构成，并且数量远超正样本对，这对模型性能产生了直接影响［8］。尤为突出的是，基于对比学习的聚类通常仅从未标注数据中学习特征信息，缺乏对标注数据（即先验信息）的利用。将半监督学习引入无监督聚类算法中，能有效引导学习过程并提升聚类效果［9-10］。

针对上述问题，本文提出了一种基于成对约束的三视图对比聚类算法（TCCPC）。该算法由主干网络（采用深度残差网络-34，ResNet-34）、实例级投影网络［两层多层感知机（MLP）］和聚类级投影网络（带有softmax层的两层MLP）3个网络模块组成。本文的创新之处主要体现在以下几个方面：①采用14种强增强和5种弱增强方法，使模型能够学习到更深层次的特征。②引入3种增强视图进行实例级与聚类级的对比学习，增加了模型的特征学习机会。③通过成对约束引导聚类，减弱了负样本的影响，提升了聚类效果。TCCPC结合了对比学习与成对约束聚类的优势，为模型提供了更多特征学习的机会。

1 成对约束及其定义

成对约束包括必连约束（Must-Link，ML）和勿连约束（Cannot-Link，CL）。必连约束表示两个样本必须被分配到同一类别中，而勿连约束则要求两个样本必须归属于不同的类别。通过引入这些约束条件，聚类模型能够更有效地避免错误的分类决策，并增强对数据内在结构的认知，从而提升聚类的准确性和整体效果。成对约束使得聚类算法能够充分利用已知的样本之间的关系信息，更精确地挖掘数据中的潜在模式。

定义1：Must-Link集合M定义为 [M=xi，xj]，若 [xi，xj∈M]，则表明数据[ xi ]和 [xj] 必定属于同一类别，即满足必连约束关系。

定义2：Cannot-Link集合C定义为 [C=xi，xk]，若" [xi，xk∈C]，则表明数据[ xi ]和 [xk ]必定属于不同类别，即满足勿连约束关系。

2 算法表述

本文采用3个网络结构，并引入成对约束，构建了TCCPC基本框架（如图1所示）。这3个网络分别为五重共享权重骨干网络 [fθ]（基于ResNet-34）、实例级投影网络 [gθ]（由两层MLP构成）和聚类级投影网络[ℎθ]（包含softmax层的两层MLP）。在输入骨干网络[fθ]之前，所有不同维度的数据均统一调整为224×224像素。其中，五重共享权重骨干网络 [fθ] 需输入成对约束信息及某一样本的3种数据增强视图 [vji]（包括2个强增强视图和1个弱增强视图，或2个弱增强视图和1个强增强视图）。对于每个增强视图[ vji] ，通过骨干网络 [fθ] 后的输出表示为[ zji，其中 i∈1，N，j∈1，2，3]。随后，这些输出被送入实例级投影网络[ gθ] 和聚类级网络[ ℎθ ]，以构建两种类型的特征矩阵。最后，通过优化实例级对比损失、聚类级对比损失及成对约束损失来训练模型。

2.1 视图增强

同一样本的3个增强视图搭配分为以下两种情形：一是2个强增强视图搭配1个弱增强视图；二是2个弱增强视图搭配1个强增强视图。本文采用14种强增强方式［11］生成强增强视图，同时采用5种对比学习中常用的数据增强方法（随机裁剪、水平翻转、色彩抖动、灰度转换和高斯滤波处理）生成弱增强视图。增强视图的组合方式见表1。

给定N个样本数据，对每个输入的样本都进行3种不同方式的数据增强，共得到3N个数据增强样本：[v11， …， v1N ，v21 ， … ， v2N ， v31 ， … ， v3N]。随后，这3个增强视图经骨干网络[ fθ] 处理后，得到输出集合[zji ]：

[ z11 ， … ， z1N ， z21 ， … ， z2N ， z31 ， … ， z3N]" ，

[其中：i∈1， N，j∈1， 2， 3]。3个数据增强样本经过神经网络进行嵌入表示的过程可用以下公式表示：

[z1i=fv1i， z2i=fv2i， z3i=fv3i。]" " " " " "（1）

2.2 实例级投影

3个增强视图经过骨干网络 [fθ] 后生成特征表示[zji]，随后通过实例级投影网络[gθ]进一步处理，得到最终的实例级投影表示[ pji]，具体过程可用以下公式表示：

[p1i=gz1i， p2i=gz2i， p3i=gz3i。]" " " " " "（2）

其中：i∈［1， N］；j∈［1， 2， 3］。

为了优化模型性能，增强视图采用表1中的组合方式。采用余弦相似度来度量实例对之间的相似程度，以提高正样本对之间的相似度，具体表示如下：

[su，v=uΤvuv]，" " " " " " " " " " " " "（3）

其中，u和v为2个特征向量。假设每个数据i的某2种数据增强方式分别为a和b，为了优化所有正对的一致性，需计算每个数据增强视图的实例级对比损失。对于某个数据增强视图[ vai ]，其实例级对比损失为

[ℓai=−logexpspai，pbiτgj=1Nexpspai，pbiτg+expspai，pbiτg]，" （4）

其中：[i， j∈1， N]，且 [a， b∈1， 2， 3] ；[τg]为温度系数。

本文算法将除正样本对之外的其他聚类增强视图作为负样本对。同样地，对于某个数据增强视图 [vbi]，其实例级对比损失为

[ℓbi=−logexpspbi， paiτgj=1Nexpspai， pbjτg+expspbi， pajτg] 。" （5）

对于某个正样本对，增强视图[ vai ]与[ vbi ]的对比损失为

[Linstance（a， b）=][i=1Nℓai+ℓbi]；" " " " " " " " "（6）

每个数据的两组正样本对的实例级对比损失为

[Linstance=Linstance（1， 2）+Linstance（1， 3）] 。" " " " " （7）

2.3 聚类级投影

假设聚类结果中簇的数量为 [M]，即数据集被划分为 [M ]类。本文将3个增强视图通过骨干网络 [fθ ]处理后得到的特征[ zji]通过聚类级投影网络 [ℎθ ]进行处理，得到聚类级投影表示 [qji]。过程公式为

[q1i=hz1i， q2i=hz2i， q3i=hz3i]，" " " " " （8）

其中，[qji] 为每个增强样本的软标签，即每个样本都有属于不同类别的概率。

聚类级投影网络也采用余弦相似度来衡量正样本对之间的相似程度。假设数据 [i] 经历了2种不同的增强方式 [a] 和 [b] ，并进行聚类级对比。此时，[qam]表示增强视图[ vai ]属于第 [m] 类的概率，其中[i∈1， N]。对于某个增强视图[ vai]，其聚类级对比损失表示为

[ℓam=−logexpsqam， qbmτℎn=1Mexpsqam， qanτℎ+expsqam， qbnτℎ。] （9）

同样地，对于某个数据增强视图[ vbi]，其聚类级对比损失表示为

[ℓbm=−logexpsqbm，qamτℎn=1Mexpsqbm，qbnτℎ+expsqbm，qanτℎ。] （10）

某对正样本对的聚类级对比损失可表示为

[Lclustera，b=12Mm=1Mlam+lbm−HY。]" " " （11）

为避免大多数样本聚集到同一个簇中，本文引入了一种新方法，该方法通过计算每个数据增强视图在1个min-batch内的聚类分配概率[Pqkm]的熵 [HY]来衡量聚类的多样性。具体计算公式如下：

[Pqkm=n=1NYkn mY1， k∈a， b，]" " " " "（12）

[HY=−m=1MPqamlogPqam+PqbmlogPqbm]。" " " " " " " " "（13）

将同一数据的3种增强视图构成3组正样本对，对其进行聚类级对比损失，具体表示如下：

[Lcluster=Lcluster1，2+Lcluster2，3+Lcluster1，3。]" " "（14）

2.4 成对约束

如果2个数据的标签相同，则它们之间建立必连约束，要求经过骨干网络[fθ]处理后的特征尽可能相似；反之，则建立勿连约束，要求经过骨干网络[fθ]处理后的特征尽可能相互远离。成对约束损失表示为

[Lpair=Cdrd=1n||zd−zr||22 / n]，" " " " " " " " " （15）

其中，n为成对约束对的个数。根据Klein等［12］对成对约束的使用，[Cdr]的取值可进行如下定义：

[cdr=+1， xd， xr∈ML −1， xd， xr∈CL]。" " " " " （16）

当数据[ xd ]与 [xr] 为必连约束对时，[cdr]为1；当数据[ xd ]与 [xr] 为勿连约束对时，[cdr] 为-1。最后，总目标损失函数由聚类级对比损失、实例级对比损失与成对约束损失共同组成，定义为

[L=Lcluster+γLinstance+λLpair] ，" " " " " "（17）

其中，[ γ ]与[ λ] 为平衡系数。

3 实验分析

3.1 数据集及实验环境

本文采用了5个公开的数据集：CIFAR-10［13］、CIFAR-100［13］、STL-10［14］、ImageNet-10［15］和ImageNet-Dogs［15］，并将所提算法与多种聚类算法进行了性能对比。实验环境配置如下：Intel（R）Xeon（R）CPU E7-4820 v4@2.00G Hz处理器、4张NVIDIA GeForce RTX 2080 Ti显卡、Ubuntu 18.04.6 LTS 操作系统、Python 3.10.9及PyTorch 1.21.1。

3.2 算法对比

本文在5个公开数据集上采用准确率ACC（Accuracy）和归一化互信息NMI（Normalized Mutual Information）作为指标，对算法性能进行了对比评估。结果显示，TCCPC算法在性能上有显著提升。K-Means、AC（凝聚聚类）、DEC（深度嵌入聚类算法）、DCCM（图像聚类的深度综合关联挖掘）、PICA（划分置信度最大化深度语义聚类）、CC（对比聚类算法）、SACC（强增强对比聚类）等算法的指标数据引自文献［7］，而HCSC（层次对比选择编码）和IcicleGCN（基于对比学习和多尺度图卷积网络的深度图像聚类）的指标数据则分别来自文献［7］和文献［8］。TCCPC算法的性能通过所有评价指标的平均值来体现。

（1）K-Means：一种经典的聚类算法，通过最小化类内均方误差将n个样本分为k个簇。

（2）AC：一种自底而上的层次聚类方法，逐步合并最相似的类，直至所有元素归为一个整体类别。

（3）DEC：利用深度神经网络同时学习特征表示和聚类分配，将数据映射到低维特征空间并优化聚类目标。

（4）DCCM：基于深度挖掘的图像聚类算法，全面提取不同样本之间的相关性及局部鲁棒性特征。

（5）PICA：通过划分置信度最大化进行深度语义聚类，旨在找到语义上最适合的类间分离方式。

（6）CC：利用数据增强技术进行正负样本对的实例级与聚类级对比学习。

（7）HCSC：通过层次原型捕获数据的层次语义结构，改进实例和原型之间的对比学习。

（8）SACC：构建了2个弱增强视图与1个强增强视图进行对比聚类分析。

（9）IcicleGCN：结合了对比学习和多尺度图卷积网络进行深度图像聚类，同时加入多尺度邻域结构学习。

不同算法在各数据集上的ACC和NMI分别见表2和表3。从ACC指标来看，TCCPC算法在ImageNet-Dogs、CIFAR-10、STL-10数据集上表现较优，特别是在CIFAR-10数据集上比HCSC算法平均提升了39.9%，与DCCM、PICA、CC、SACC、IcicleGCN相比，分别提升了25.6%、18.3%、11.3%、2.8%和7.2%。从NMI指标来看，TCCPC算法在STL-10数据集上表现最佳，与DCCM、PICA、CC、SACC相比，分别提升了29.6%、6.5%、3.1%、1.9%。

3.3 消融实验

3.3.1 成对约束消融分析

为充分验证成对约束的有效性，本文设计了消融实验，对比了使用成对约束与不使用成对约束两种情况下的聚类结果（见表4）。实验结果表明，成对约束信息的引入能够显著提升模型的聚类效果。

3.3.2 实例级与聚类级投影网络分析

为探究实例级投影[gθ]与聚类级投影 [hθ] 对聚类性能的影响，设计相应的消融实验。在确定数据集的最优迭代次数、最优数据增强视图组合以及最优成对约束数量后，针对以下3种情况进行了实验：①仅采用实例级投影网络，并通过K-means算法获得聚类结果。②仅采用聚类级投影网络。③同时采用两个投影网络进行对比学习。不同数据集上两个对比投影网络的聚类准确率对比结果见表5。根据表5中的数据，同时采用实例级投影网络与聚类级投影网络的模型准确率最高，验证了本文所提框架的合理性。

4 结语

本文提出了一种基于成对约束的三视图对比聚类算法，解决了传统对比学习聚类方法中数据增强手段单一和视图对比受限的问题。具体而言，该算法结合14种强增强和5种弱增强方法，引入了3个数据增强视图以提高模型的泛化能力，并利用成对约束来指导聚类过程，从而提升了聚类效果和模型能力。在5个公开数据集上的对比实验结果显示，本文算法取得了良好成效，验证了所提框架的有效性。尽管基于成对约束的对比聚类方法表现优异，但是其仍受限于高标注成本、对噪声的敏感性以及跨领域泛化能力的不足。未来可以从自动生成成对约束、设计抗噪机制、提升跨领域适应性等方面结合预训练模型与动态约束调整策略展开更深入的研究，以期进一步提升聚类性能和实用性。

5 参考文献

［1］KANUNGO T，MOUNT D M，NETANYAHU N S，et al. An efficient k-means clustering algorithm： analysis and implementation［J］.IEEE Transactions on Pattern Analysis amp; Machine Intelligence，2002，24（7）：881-892.

［2］LUXBURG U V.A Tutorial on spectral clustering［J］.Statistics and Computing，2004，17（4）：395-416.

［3］LIANG Z，YUAN C，QIN X，et al.Hot region mining approach based on improved spectral clustering［J］.Journal of Chongqing University of Technology（Natural Science），2021.35（1）：129-137.

［4］GUO X，LIU X，ZHU E，et al.Deep clustering with convolutional autoencoders［C］//Neural Information Processing： 24th International Conference（ICONIP 2017）.Guangzhou， China，2017：373-382.

［5］GUO Y，XI M，LI J，et al.HCSC：hierarchical contrastive selective coding［C］//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.New Orleans，LA，USA，2022：9706-9715.

［6］DENG X，HUANG D，CHEN D H，et al. Strongly augmented contrastive clustering［J］.Pattern Recognition，2023，139：109470.

［7］XU Y，HUANG D，WANG C D，et al.Deep image clustering with contrastive learning and multi-scale graph convolutional networks［J］.Pattern Recognition，2024，146：110065.

［8］LI P，DENG Z.Use of distributed semi-supervised clustering for text classification［J］.Journal of Circuits，Systems and Computers，2019，28（8）：1950121-1950127.

［9］LI G Z，YOU M，GE L，et al.Feature selection for semi-supervised multi-label learning with application to gene function analysis［C］//Proceedings of the First ACM International Conference on Bioinformatics and Computational Biology（BCB）. Niagara Falls，NY，USA，2010：354-357.

［10］HE K，ZHANG X，REN S，et al.Deep residual learning for image recognition［C］//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Las Vegas，Nevada，USA，2016：770-778.

［11］CUBUK E D，ZOPH B，MANE D，et al.Autoaugment：Learning augmentation strategies from data［C］//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition（CVPR））.Seoul，South Korea，2019：113-123.

［12］KLEIN D，KAMVAR S D，MANNING C D.From instance-level constraints to space-level constraints：making the most of prior knowledge in data clustering［C］//International Conference on Machine Learning（ICML）. University of New South Wales，Sydney，Australia，2002：307-314.

［13］KRIZHEVSKY A，HINTON G.Learning multiple layers of features from tiny images［J］.Handbook of Systemic Autoimmune Diseases，2009，1（4）：1-60.

［14］COATES A，NG A，LEE H.An analysis of single-layer networks in unsupervised feature learning［C］//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics（JMLR）.Ft.Lauderdale， FL，USA，2011：215-223.

［15］CHANG J，WANG L，MENG G，et al.Deep adaptive image clustering［C］//Proceedings of the IEEE International Conference on Computer Vision（ICCV）.Venice，Italy，2017：5879-5887.

*2022年广西科技重大专项“人工智能混合架构计算平台构建与项目研究”（AA22068057）。

【作者简介】谭思婧，女，广西南宁人，在读硕士研究生，研究方向：深度聚类；李艳（通信作者），女，山西忻州人，硕士，研究方向：深度聚类；彭磊，男，广西钦州人，在读硕士研究生，研究方向：图神经网络；卢虹妃，女，广西玉林人，在读硕士研究生，研究方向：数据挖掘；蒙柏錡，男，广西梧州人，在读硕士研究生，研究方向：自监督学习。

【引用本文】谭思婧，李艳，彭磊，等.基于成对约束的三视图对比聚类算法［J］.企业科技与发展，2024（12）：108-112.