






















原文作者:公众号“深圳市大数据研究院”
原文链接:https://mp.weixin.qq.com/s/ex36drATo7qIy_MwFFp5hA
近日,深圳市大数据研究院四项科研成果同时发表于第43届国际机器学习大会(International Conference on Machine Learning, ICML)。
会议介绍
国际机器学习大会(International Conference on Machine Learning, ICML)是人工智能领域顶级学术会议,为中国计算机学会(CCF)推荐的A类国际学术会议,与NeurIPS、ICLR通常并称为机器学习领域的三大顶级会议。ICML长期关注机器学习基础理论、深度学习、强化学习、优化方法、概率建模、可信机器学习、机器学习系统,以及机器学习在计算机视觉、计算生物学、语音识别和机器人等领域的应用。公开数据显示,ICML 2026共收到23,918篇有效投稿/进入评审的投稿,录用率约为26.6%。
论文简介

AdaMeZO: Adam-style Zeroth-Order Optimizer for LLM Fine-tuning Without Maintaining the Moments
AdaMeZO:无需保存动量矩的 Adam 风格零阶大语言模型微调优化器
关键词
大语言模型微调、零阶优化、优化器、内存效率
摘要:大语言模型微调是提升模型在特定下游任务中表现的重要手段,但传统基于反向传播的一阶优化方法需要计算并存储梯度,显著增加显存开销,限制了大模型在资源受限设备上的部署与应用。已有零阶优化方法 MeZO 仅依赖前向传播即可完成微调,大幅降低了显存需求,但其更新方式类似随机梯度下降,难以感知不同参数维度上的损失曲率差异,导致收敛速度较慢。与此同时,直接引入Adam 等自适应优化器虽然能够利用一阶与二阶矩估计提升收敛效率,但直接引入会额外存储与模型参数同规模的动量信息,从而削弱零阶优化的内存优势。
针对上述问题,论文提出 Adam 风格零阶优化器 AdaMeZO。该方法通过截断历史梯度构造近似的一阶与二阶矩估计,并结合更细粒度的伪随机数生成器状态缓存机制,在需要更新参数时按块原地重建历史随机方向,而无需在显存中长期维护完整动量向量。由此,AdaMeZO 在保留 MeZO 低显存优势的同时,引入类似 Adam 的自适应预条件更新能力,使模型能够更有效地适应复杂损失函数景观中的不同曲率区域。
理论分析表明,在非凸优化假设下,AdaMeZO 能够以O(1/√T)的速度收敛到平稳点附近。实验在 RoBERTa、OPT、LLaMA 等模型及多类自然语言处理任务上验证了方法有效性。结果显示,AdaMeZO 在多个任务中优于 MeZO 和相关强基线,并在达到相同终止损失时最多减少约 70% 的前向传播次数;实测额外显存仅约 7%,显著低于需要显式存储矩估计的方法(额外显存约50-100%)。该工作为低显存开销大语言模型高效微调提供了一种新的优化方法。

图1:图AdaMeZO 与 MeZO 在 SST-2 任务上的损失曲线对比。AdaMeZO 在 RoBERTa-large、OPT-1.3B 和 LLaMA-3B 上达到 MeZO 终止损失时,分别减少 69.75%、70.48% 和 70.90% 的前向传播。

图2:AdaMeZO 的分块矩估计机制。与基于 seed 的整体随机流控制相比,基于 PRNG 状态缓存的分块控制可在计算并释放一、二阶矩后进入下一参数块,从而减少额外显存。
论文第一作者蔡智捷与共同第一作者陈浩泷为深圳市大数据研究院-香港中文大学(深圳)联合培养博士生、香港中文大学(深圳)理工学院博士生,通讯作者为深圳市大数据研究院研究员朱光旭博士。

Romberg-Extrapolated Zeroth-Order Gradient Estimator: Higher-Order Bias Reduction with Preserved Leading Directional Variance
Romberg 外推零阶梯度估计器:保留主导方向方差的高阶偏差减少
关键词
零阶优化、梯度估计、龙贝格外推
摘要:在现代学习与优化中,常因梯度计算昂贵或不可得,需仅通过函数值查询估计梯度。标准梯度估计存在偏差-方差制约,现有改进方法难以兼顾两者优化。为此,本文提出Romberg-ZOGE方法,通过多尺度两点估计结合Romberg外推,在降低偏差的同时保持方差不增。
理论上,Romberg-ZOGE可实现高阶偏差缩减且不增加主导方差。对确定性函数评估,其在多个半径上构造两点估计并加权,将偏差从O(r2) 降至 O(r2R+2),且主导方向方差与标准两点估计器一致。针对ZO-SGD的随机函数查询,同次梯度估计的多查询共享随机样本,噪声可在差分与外推中抵消,避免额外放大,收敛复杂度不劣于基线。
实验覆盖三类场景:合成函数实验中,R=2时偏差呈接近O(r6)下降,远优于标准两点估计器的O(r2),且主导方差与基线相近;优化实验中,相同查询预算下收敛更快更稳定;无线网络优化任务中,提升了平滑分位数频谱效率目标值;OPT-1.3B的SST-2黑箱prompt tuning任务中,取得最低训练损失及最高验证、测试准确率。结果表明,Romberg-ZOGE兼具理论优势与实际黑箱优化的稳定收益。

图3:图AdaMeZO 与 MeZO 在 SST-2 任务上的损失曲线对比。AdaMeZO 在 RoBERTa-large、OPT-1.3B 和 LLaMA-3B 上达到 MeZO 终止损失时,分别减少 69.75%、70.48% 和 70.90% 的前向传播。
论文第一作者董洪成为深圳市大数据研究院-香港中文大学(深圳)联合培养博士生,通讯作者为深圳市大数据研究院副研究员蒲文强博士,共同作者为深圳市大数据研究院副研究员赵立成博士、周睿博士,香港中文大学(深圳)人工智能学院尹峰教授。

Think in Cloud, Look at Edges: Semantic-Driven Query Decomposition for Efficient Video Reasoning
云端思考,边端观察:面向高效视频推理的语义驱动查询分解
关键词
长视频理解、边云协同、语义驱动查询分解、关键帧选择、多模态大模型
摘要:长视频理解面临带宽、时延与精度矛盾:纯云端方案能力强但上传成本高,纯边缘方案响应快但推理能力有限。本文发现,现有边云协同方法常将复杂问题压缩为单一语义向量进行相似度检索,容易产生“语义淹没”,使逻辑上关键但不突出的证据被显著视觉线索覆盖。为此,本文提出 SCOPE 框架,采用“云端思考、边缘观察”的范式:云端大模型将用户问题分解为带依赖关系和重要性权重的 DAG 观测计划,边缘侧据此进行预算分配、并行语义匹配与关键帧选择,上传高价值证据帧。Video-MME 和 LongVideoBench 实验表明,SCOPE 在严格帧预算下稳定优于 Uniform、Top-K、AKS 等基线;在 16 帧设置下达到与纯云端相同的 66.04% 准确率,并将端到端时延由 154.22 秒降至 23.94 秒,降低约 85%。该研究为资源受限场景中的长视频高效推理提供了可部署的边云协同新范式。

图4:SCOPE总体框架。云端大模型先生成结构化观测计划,边缘侧依据计划完成预算感知关键帧选择,并将证据帧上传云端进行深度推理。
本文第一作者为深圳市大数据研究院访问博士Jackie Zou,第二作者为深圳市大数据研究院-香港中文大学(深圳)联合培养博士生、香港中文大学(深圳)理工学院博士生蔡智捷,通讯作者为香港中文大学(深圳)数据科学学院助理教授余旻晨博士,深圳市大数据研究院研究员朱光旭博士。

MIMOMamba: From Scalar Duality to Matrix-Valued Attention
MIMOMamba:从标量对偶到矩阵值注意力
关键词
状态空间模型(SSM)、循环神经网络(RNN)、结构化矩阵、线性注意力机制
摘要:现代序列建模需兼顾表达能力与效率。Transformer自注意力能力强,但复杂度随序列长度二次增长;Mamba等结构化状态空间模型虽具线性效率,却常将时序建模与跨通道交互分离,难以刻画时变耦合。
本文提出MIMOMamba,通过矩阵多项式参数化将状态空间对偶性推广至多输入多输出(MIMO)设置,在单一选择性递推中联合建模时间依赖与跨通道交互,并保持线性效率。该方法将注意力元素由标量扩展为D×D矩阵,实现矩阵值结构化注意力;同时借助共享代数基底保证交换性、降低参数冗余,使核心参数复杂度由Transformer约3D²降至约D²。
实验表明,MIMOMamba在SSP物理预测基准上以约35k参数取得最优精度(RMSE=0.687),优于多种先进基线;推理内存线性增长,训练吞吐量较Mamba-2提升1.5–1.6倍,为高效序列建模提供了新的理论与方法支撑。

图5:MIMOMamba 从递推状态空间模型到矩阵值注意力的对偶视角
本文第一作者为深圳市大数据研究院访问博士生、香港中文大学(深圳)博士生李彦伯,第二作者为香港中文大学(深圳)博士生Richard Cornelius SUWANDI,通讯作者为香港中文大学(深圳)人工智能学院尹峰教授,共同作者为香港中文大学(深圳)博士生孙艺勇、中国海洋大学黄威教授、深圳市大数据研究院副研究员蒲文强博士。
雷峰网(公众号:雷峰网)
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。