惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
Threat Research - Cisco Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
V
Vulnerabilities – Threatpost
GbyAI
GbyAI
P
Proofpoint News Feed
L
LINUX DO - 热门话题
P
Palo Alto Networks Blog
A
About on SuperTechFans
T
Tenable Blog
M
MIT News - Artificial intelligence
IT之家
IT之家
I
Intezer
D
DataBreaches.Net
爱范儿
爱范儿
T
Threatpost
C
CERT Recently Published Vulnerability Notes
云风的 BLOG
云风的 BLOG
博客园 - 三生石上(FineUI控件)
WordPress大学
WordPress大学
K
Kaspersky official blog
大猫的无限游戏
大猫的无限游戏
A
Arctic Wolf
Y
Y Combinator Blog
Cyberwarzone
Cyberwarzone
酷 壳 – CoolShell
酷 壳 – CoolShell
D
Darknet – Hacking Tools, Hacker News & Cyber Security
H
Help Net Security
Microsoft Security Blog
Microsoft Security Blog
Spread Privacy
Spread Privacy
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
AWS News Blog
AWS News Blog
博客园 - 聂微东
C
Check Point Blog
S
Securelist
有赞技术团队
有赞技术团队
雷峰网
雷峰网
aimingoo的专栏
aimingoo的专栏
Last Week in AI
Last Week in AI
Stack Overflow Blog
Stack Overflow Blog
MongoDB | Blog
MongoDB | Blog
D
Docker
G
GRAHAM CLULEY
T
The Exploit Database - CXSecurity.com
C
Cybersecurity and Infrastructure Security Agency CISA
T
Tailwind CSS Blog
L
Lohrmann on Cybersecurity
G
Google Developers Blog
C
Cyber Attacks, Cyber Crime and Cyber Security
L
LangChain Blog

博客园 - zhang-yd

今日开源[第16期]soxoj/maigret 论文解读-《Dual-Kernel Graph Community Contrastive Learning》 今日开源[第15期]agent-skills 今日开源[第14期]google/skills 今日开源[第13期]turbovec 今日开源[第12期]LiteParse 今日开源[第11期]OmniVoice-Studio 今日开源[第10期]ds4(DwarfStar) 今日开源[第9期]graphify 今日开源[第8期]open-notebook 今日开源[第7期]spec-kit 今日开源[第6期]Production Agentic RAG Course 今日开源[第5期]Headroom 今日开源[第4期]OpenTalking 今日开源[第3期]train-llm-from-scratch 今日开源[第2期]Project N.O.M.A.D. 今日开源[第1期]MoneyPrinterTurbo LearningCell代码解读 论文解读-《It Takes a Graph to Know a Graph Rewiring for Homophily with a Reference Graph》 论文解读-《Mitigating Over-Squashing in Graph Neural Networks by Spectrum-Preserving Sparsification》 论文解读-《Make Heterophily Graphs Better Fit GNN A Graph Rewiring Approach》 论文解读-《Temporal Graph Rewiring with Expander Graphs 》 论文解读-《Understanding Oversquashing in GNNs through the Lens of Effective Resistance》 论文解读-《Homophily-oriented Heterogeneous Graph Rewiring》 论文-Deep appearance modeling: A survey 代码阅读笔记-nanoclaw 代码阅读笔记-OpenManus 论文解读-《An Empirical Evaluation of Rewiring Approaches in Graph Neural Networks》 论文解读-《Probabilistic Graph Rewiring via Virtual Nodes》 论文解读-《Probabilistically Rewired Message-Passing Neural Networks》 论文解读-《Joint Graph Rewiring and Feature Denoising via Spectral Resonance》 代码阅读笔记-nanobot 论文解读-《Oversquashing in GNNs through the lens of information contraction and graph expansion》 论文解读-《GNNs Getting ComFy Community and Feature Similarity Guided Rewiring》 - zhang-yd 论文解读-《PANDA Expanded Width-Aware Message Passing Beyond Rewiring》 代码阅读笔记-AiPyApp 论文解读-《Deep Graph Contrastive Representation Learning》 论文解读-《Community-Invariant Graph Contrastive Learning》 论文解读-《DiffWire Inductive Graph Rewiring via the Lovász Bound》 论文解读-《The Effectiveness of Curvature-Based Rewiring and the Role of Hyperparameters in GNNs Revisited》 论文解读-《Over-Squashing in GNNs and Causal Inference of Rewiring Strategies》 论文解读-《Uncertainty-Aware Graph Structure Learning》
论文解读-《Hyperbolic Continuous Structural Entropy for Hierarchical Clustering》
zhang-yd · 2026-06-12 · via 博客园 - zhang-yd

1. 论文介绍

论文题目:Hyperbolic Continuous Structural Entropy for Hierarchical Clustering
论文领域:机器学习,层次聚类
论文发表:AAAI 2026
论文地址:https://arxiv.org/abs/2512.00524
论文代码:https://github.com/SELGroup/HypCSE
论文背景:

gnnhypcse01

2. 论文摘要

分层聚类是一种基础的机器学习技术,用于将数据点分组到树轮图中。然而,现有的分层聚类方法面临两个主要挑战:1)大多数方法指定树轮图却没有全局目标。2)基于图的方法常忽视图结构的重要性,优化目标在完整或静态预定义图上。在本研究中,我们提出了用于结构增强连续层级聚类的双曲连续结构熵神经网络,即 HypCSE。我们的核心思想是映射双曲空间中的数据点,并在结构增强图上最小化松弛连续结构熵(SE)。具体来说,我们利用双曲图神经网络编码双曲空间中的图顶点,并最小化图嵌入上定义的近似 SE。为了使 SE 目标可微以便优化,我们将它重新表述为使用树的最低公祖先(LCA)函数,然后通过双曲图嵌入和划分树的类比将其松弛为连续 SE(CSE)。为了确保图结构能有效捕捉 CSE 计算中数据点的层级结构,我们采用了图结构学习(GSL)策略,在训练过程中更新图结构。对七个数据集的广泛实验证明了 HypCSE 的优越性能。

3. 相关介绍

层次聚类:将数据点划分为嵌套簇,组织成树轮图。可以分为离散优化方法和连续优化方法。
离散优化方法:
包含聚合法和除法两种
聚合方法:是把每个数据点设为一个簇,迭代将相似的簇合并为更大的簇
除法:将所有数据点集中在一个集群中,并迭代将这些集群进行划分为更小的集群

连续方法:
放松某些全局目标,并使用基于梯度的优化器进行优化。
和离散方法的区别:灵活性方面更有优势。可以集成到端到端的学习管线中

层次聚类方法存在的挑战:

  • 缺乏全局优化目标
  • 忽视图结构的动态性和重要性

基于图的分层聚类,使用G=(V, E, W), V表示数据点,E是边的集合,W是数据点两两之间的相似度(或者是不相似度)

双曲空间:一种具有负曲率的空间,在建模层级结构层面比平坦的欧式空间更具有优势。
双曲空间是常负曲率的完备单连通黎曼流形,距离增长是呈现指数增长的特点。

最小化结构熵:给定一个无向加权图G,存在最小结构熵的二叉划分树T。
最小化结构熵可以通过LCA(最低共同祖先)来定义

gnnhypcse02

连续结构熵的目标函数,最小化结构熵相当于最小化如下的损失函数

gnnhypcse03

4. 核心算法

核心算法HypCSE(双曲连续结构熵神经网络)
通过”双曲空间嵌入“ + ”结构增强图” + “连续结构熵优化”,实现结构增强的连续层次聚类。

算法的全局概述图为

gnnhypcse04

本算法通过最小化CSE的目标函数来实现双曲空间的层次聚类。
算法流程框架为

gnnhypcse05

双曲层级聚类模块包含三个步骤:

  • 图构造
  • 双曲编码
  • 划分树解码
    (1)从G=(V, E, W, X) 中X构造一个加权无向图;
    (2)通过洛伦兹卷积LConv将符号编码G为双曲空间的嵌入Z,并通过梯度下降优化进行最小化L。
    (3)以启发式方法将分区树解码Z为二元分区树,用于层次聚类

双曲图嵌入
给定一个构造的带属性图G=(V, E, W, X),通过LConv将其编码为双曲嵌入
LConv的两个关键组成部分是洛伦兹线性层 LLinear 和基于注意力的洛伦兹聚合层 LAgg

gnnhypcse06

gnnhypcse07

在我们的双曲编码器 f​(⋅) 中,我们叠加三层 LConv ,得到 G的𝐙𝕃 的洛伦兹嵌入。之后,我们转换为 𝐙𝕃 庞加莱嵌入 𝐙𝔹 以促进损失函数Lcse 最小化。

双曲树解码
为了最小化SE,传统算法使用离散优化输出离散编码树,以最好地表征图层级拓扑的不确定性。
聚类簇之间的紧密度为

gnnhypcse08

在算法的图结构学习中,包含两个步骤图学习和对比学习
图学习:通过图学习器g来构建 E = g(X, E_a) 中的顶点特征,通过顶点特征之间的相似性来构建亲和矩阵,根据亲和矩阵来选择边。

对比学习:通过对比学习来引导图学习器g,学习更多判别性的顶点特征。在获得锚图G_a和学习图G后,通过随机移除边和移除点来进行数据增强。
对比学习旨在学习能够区分相似和不同数据点的表示。 它通常建立在数据点表示对之间的相似性之上。

最后,整体损失函数,可以基于洛伦兹距离引入质心损失

gnnhypcse09

那最终总的损失函数为

gnnhypcse10

5. 实验设置

评估标准:
使用树状图纯度Dendrogram Purity (DP)和结构熵Structural Entropy (SE) 两个指标,用于层级聚类性能的评估。
DP是划分树的整体度量,定义为具有相同真实标签的叶子对LCA的平均纯度评分。

gnnhypcse11

划分树和对应图的SE量化了该图中剩余的不确定性,SE越低表示树的质量越高,从而消除图中的更多不确定性。

数据集:采用UCI机器学习数据库的7个聚类数据集
对比算法:
离散层次聚类算法:
SingleLinkage:一种离散聚合层级聚类,用于合并包含最近数据点对的聚类
BKM:一种基于离散相似性的分层 KMeans 方法类比,其中分层 KMeans 是一种基于 KMeans 算法的离散自上而下分层聚类方法。
HDBSCAN:一种基于离散层级密度的空间聚类算法,用于对不同的ε值进行 DBSCAN
基于SE的层次聚类(HCSE):一种通过启发式 SE 最小化的离散层次聚类方法,通过拉伸算符生成二叉划分树,并通过压缩算符将其转换为特定的树高度。我们采用拉伸算符进行评估的二叉树,因为它们的 DP 更高,SE 更低
SpecWRSC:一种高效的自上而下离散分层聚类算法,基于谱聚类和顶点加权递归稀疏切割算法
DPClusterHSBM:一种基于分层随机块模型的边缘级微分私有分层聚类算法
连续方法:
UFit:一种连续层级聚类算法,通过优化所求超度量与给定图边权重之间的平方误差之和,并结合簇大小正则化,拟合一个超量距离到异差图
HypHC:一种基于连续相似性的层次聚类方法,能够学习树叶的双曲嵌入,并将其映射回树轮图以实现层次聚类。我们采用贪婪的自上而下解码方法,按照原论文建议获得用于评估的分区树。
FPH:一个通过连续松弛 Dasgupta 成本或树采样散度来实现连续层级聚类的概率模型

测试结果数据

gnnhypcse12

消融实验
基础模型代表双曲层级聚类模块。GSL 模块中的两个关键组成部分是图学习(GL)和对比学习(CL)组件。我们通过用锚图替换学习者图 Gl Ga 并移除图学习器 g​(⋅) 来去除 GL。

gnnhypcse13

6. 总结

提出的为新的层次聚类算法,算法创新点是融合了三个点,结构熵,双曲空间,连续优化。

7. 个人感悟

算法为多个组件的拼接组合,优点是这几个点都是当前比较新颖的内容。其中神经网络的超参数和调优是较难的点。