


















论文题目:Hyperbolic Continuous Structural Entropy for Hierarchical Clustering
论文领域:机器学习,层次聚类
论文发表:AAAI 2026
论文地址:https://arxiv.org/abs/2512.00524
论文代码:https://github.com/SELGroup/HypCSE
论文背景:

分层聚类是一种基础的机器学习技术,用于将数据点分组到树轮图中。然而,现有的分层聚类方法面临两个主要挑战:1)大多数方法指定树轮图却没有全局目标。2)基于图的方法常忽视图结构的重要性,优化目标在完整或静态预定义图上。在本研究中,我们提出了用于结构增强连续层级聚类的双曲连续结构熵神经网络,即 HypCSE。我们的核心思想是映射双曲空间中的数据点,并在结构增强图上最小化松弛连续结构熵(SE)。具体来说,我们利用双曲图神经网络编码双曲空间中的图顶点,并最小化图嵌入上定义的近似 SE。为了使 SE 目标可微以便优化,我们将它重新表述为使用树的最低公祖先(LCA)函数,然后通过双曲图嵌入和划分树的类比将其松弛为连续 SE(CSE)。为了确保图结构能有效捕捉 CSE 计算中数据点的层级结构,我们采用了图结构学习(GSL)策略,在训练过程中更新图结构。对七个数据集的广泛实验证明了 HypCSE 的优越性能。
层次聚类:将数据点划分为嵌套簇,组织成树轮图。可以分为离散优化方法和连续优化方法。
离散优化方法:
包含聚合法和除法两种
聚合方法:是把每个数据点设为一个簇,迭代将相似的簇合并为更大的簇
除法:将所有数据点集中在一个集群中,并迭代将这些集群进行划分为更小的集群
连续方法:
放松某些全局目标,并使用基于梯度的优化器进行优化。
和离散方法的区别:灵活性方面更有优势。可以集成到端到端的学习管线中
层次聚类方法存在的挑战:
基于图的分层聚类,使用G=(V, E, W), V表示数据点,E是边的集合,W是数据点两两之间的相似度(或者是不相似度)
双曲空间:一种具有负曲率的空间,在建模层级结构层面比平坦的欧式空间更具有优势。
双曲空间是常负曲率的完备单连通黎曼流形,距离增长是呈现指数增长的特点。
最小化结构熵:给定一个无向加权图G,存在最小结构熵的二叉划分树T。
最小化结构熵可以通过LCA(最低共同祖先)来定义

连续结构熵的目标函数,最小化结构熵相当于最小化如下的损失函数

核心算法HypCSE(双曲连续结构熵神经网络)
通过”双曲空间嵌入“ + ”结构增强图” + “连续结构熵优化”,实现结构增强的连续层次聚类。
算法的全局概述图为

本算法通过最小化CSE的目标函数来实现双曲空间的层次聚类。
算法流程框架为

双曲层级聚类模块包含三个步骤:
双曲图嵌入
给定一个构造的带属性图G=(V, E, W, X),通过LConv将其编码为双曲嵌入
LConv的两个关键组成部分是洛伦兹线性层 LLinear 和基于注意力的洛伦兹聚合层 LAgg


在我们的双曲编码器 f(⋅) 中,我们叠加三层 LConv ,得到 G的𝐙𝕃 的洛伦兹嵌入。之后,我们转换为 𝐙𝕃 庞加莱嵌入 𝐙𝔹 以促进损失函数Lcse 最小化。
双曲树解码
为了最小化SE,传统算法使用离散优化输出离散编码树,以最好地表征图层级拓扑的不确定性。
聚类簇之间的紧密度为

在算法的图结构学习中,包含两个步骤图学习和对比学习
图学习:通过图学习器g来构建 E = g(X, E_a) 中的顶点特征,通过顶点特征之间的相似性来构建亲和矩阵,根据亲和矩阵来选择边。
对比学习:通过对比学习来引导图学习器g,学习更多判别性的顶点特征。在获得锚图G_a和学习图G后,通过随机移除边和移除点来进行数据增强。
对比学习旨在学习能够区分相似和不同数据点的表示。 它通常建立在数据点表示对之间的相似性之上。
最后,整体损失函数,可以基于洛伦兹距离引入质心损失

那最终总的损失函数为

评估标准:
使用树状图纯度Dendrogram Purity (DP)和结构熵Structural Entropy (SE) 两个指标,用于层级聚类性能的评估。
DP是划分树的整体度量,定义为具有相同真实标签的叶子对LCA的平均纯度评分。

划分树和对应图的SE量化了该图中剩余的不确定性,SE越低表示树的质量越高,从而消除图中的更多不确定性。
数据集:采用UCI机器学习数据库的7个聚类数据集
对比算法:
离散层次聚类算法:
SingleLinkage:一种离散聚合层级聚类,用于合并包含最近数据点对的聚类
BKM:一种基于离散相似性的分层 KMeans 方法类比,其中分层 KMeans 是一种基于 KMeans 算法的离散自上而下分层聚类方法。
HDBSCAN:一种基于离散层级密度的空间聚类算法,用于对不同的ε值进行 DBSCAN
基于SE的层次聚类(HCSE):一种通过启发式 SE 最小化的离散层次聚类方法,通过拉伸算符生成二叉划分树,并通过压缩算符将其转换为特定的树高度。我们采用拉伸算符进行评估的二叉树,因为它们的 DP 更高,SE 更低
SpecWRSC:一种高效的自上而下离散分层聚类算法,基于谱聚类和顶点加权递归稀疏切割算法
DPClusterHSBM:一种基于分层随机块模型的边缘级微分私有分层聚类算法
连续方法:
UFit:一种连续层级聚类算法,通过优化所求超度量与给定图边权重之间的平方误差之和,并结合簇大小正则化,拟合一个超量距离到异差图
HypHC:一种基于连续相似性的层次聚类方法,能够学习树叶的双曲嵌入,并将其映射回树轮图以实现层次聚类。我们采用贪婪的自上而下解码方法,按照原论文建议获得用于评估的分区树。
FPH:一个通过连续松弛 Dasgupta 成本或树采样散度来实现连续层级聚类的概率模型
测试结果数据

消融实验
基础模型代表双曲层级聚类模块。GSL 模块中的两个关键组成部分是图学习(GL)和对比学习(CL)组件。我们通过用锚图替换学习者图 Gl Ga 并移除图学习器 g(⋅) 来去除 GL。

提出的为新的层次聚类算法,算法创新点是融合了三个点,结构熵,双曲空间,连续优化。
算法为多个组件的拼接组合,优点是这几个点都是当前比较新颖的内容。其中神经网络的超参数和调优是较难的点。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。