惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

V
Vulnerabilities – Threatpost
B
Blog RSS Feed
D
Docker
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
大猫的无限游戏
大猫的无限游戏
阮一峰的网络日志
阮一峰的网络日志
The Register - Security
The Register - Security
S
SegmentFault 最新的问题
Microsoft Azure Blog
Microsoft Azure Blog
月光博客
月光博客
博客园 - 叶小钗
I
InfoQ
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
T
Threat Research - Cisco Blogs
S
Schneier on Security
L
LINUX DO - 热门话题
G
GRAHAM CLULEY
Y
Y Combinator Blog
Know Your Adversary
Know Your Adversary
P
Palo Alto Networks Blog
Security Latest
Security Latest
Stack Overflow Blog
Stack Overflow Blog
P
Privacy International News Feed
V
Visual Studio Blog
L
Lohrmann on Cybersecurity
Martin Fowler
Martin Fowler
I
Intezer
F
Full Disclosure
Apple Machine Learning Research
Apple Machine Learning Research
MongoDB | Blog
MongoDB | Blog
S
Security Archives - TechRepublic
S
Security Affairs
The GitHub Blog
The GitHub Blog
博客园 - 【当耐特】
Application and Cybersecurity Blog
Application and Cybersecurity Blog
H
Hackread – Cybersecurity News, Data Breaches, AI and More
T
Troy Hunt's Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Google DeepMind News
Google DeepMind News
Engineering at Meta
Engineering at Meta
博客园 - 司徒正美
云风的 BLOG
云风的 BLOG
Forbes - Security
Forbes - Security
S
Security @ Cisco Blogs
Google Online Security Blog
Google Online Security Blog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
L
LINUX DO - 最新话题

雷峰网

1.8亿人在小红书读书:图书业在小红书电商营收规模年增超30% | 雷峰网 减重300kg,首搭5nm智驾芯片:2026款乐道L90正式亮相 | 雷峰网 阶跃和千⾥科技官宣战略合作:打造原⽣智驾基座模型,提升物理AI能⼒上限 | 雷峰网 “还债骑手”被强制下线240次:“开始我很反感过劳提醒,影响赚钱” | 雷峰网 石头科技:2025年营收高增56.51%,2026Q1营收增23.31% | 雷峰网 Mythos引爆攻击工业化时代,奇安信:构建三位一体内生安全体系是破解之道 | 雷峰网 曝两家科技大厂争投DeepSeek,估值飙至200亿美元;小米深夜放大招!最强大模型MiMo-V2.5系列发布;微软 Xbox 部门将裁员15% | 雷峰网 RGB-Mini LED电视普及风暴,海信正式发布小墨E5S Pro | 雷峰网 标配8255芯片与CDC,奇瑞试图终结“燃油车无智驾”时代 | 雷峰网 德赛西威也不相信,智驾能让Tier1躺着赚钱 | 雷峰网 找来刘翔做代言人,可能是智己LS8最好的一步棋 | 雷峰网 「中国版Grok上车」分水岭:阶跃交出首份量产答卷 | 雷峰网 百度Create大会双主论坛议程揭晓,多项重磅升级发布将集中亮相 | 雷峰网 泄露用户隐私!曝某AI助手将B用户简历发给A用户;苹果更换CEO原因曝光;微信宣布5国可用微信支付;航旅纵横「崩」了一天,借钱功能却正常 | 雷峰网 一季度交付1200件精益工具,希音深入技术创新提升按需时尚竞争力 | 雷峰网 从“替代”到“重构”:联想开天“1+2+N”如何重写信创AI PC逻辑? | 雷峰网 中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026 | 雷峰网 上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026 死亡率「99%」的芯片创业淘汰赛,为旌科技为何能活下来? | 雷峰网 清华段岳圻团队论文:从调参数到做控制,文生图迎来一次方法论升级丨CVPR 2026 | 雷峰网 东南大学耿新团队:模型不是不会做,而是被「挤掉了能力」丨CVPR 2026 | 雷峰网 西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026 | 雷峰网 西湖大学张驰团队:从视觉合成到空间理解,视频 AI 正在「转向」丨CVPR 2026 | 雷峰网 21.0975 公里,是人形机器人的里程碑,也是 RISC-V 的新起点 | 雷峰网 独家 | 华为19级天才少年赵立晨离职创业,瞄准具身 Agentic OS 独家 | CMU系⼜诞⽣⼀家具⾝智能公司「Zeno AI」 | 雷峰网 Token消耗量翻10倍才算企业转型及格线?三位产业一线大佬教你用出性价比 | 雷峰网 阿里发布Qwen3.6-Max预览版,登顶最佳国产模型 | 雷峰网 郭达雅加入巨头背后:顶尖AI人才为何向大厂「回流」? | 雷峰网 解决机器人散热困境,华科冷芯高速悬浮泵液冷方案助力荣耀人形机器人“闪电”夺冠 | 雷峰网 智元邓泰华宣布:具身智能行业进入「部署态」 | 雷峰网 独家丨前安克研发总监丁准离职创业,获头部美元基金押注 | 雷峰网 曝DeepSeek V4将于本周发布,梁文锋对外融资20亿;雷军在服务区被堵车里维权?小米徐洁云回应;宇树H1半马被担架抬离赛道丨雷峰早报 | 雷峰网 广州一斗虾赛现场各路选手比拼蒸馏,现场诞生近50个“技能包” | 雷峰网 智元 ×Hitch Open|深耕具身智能,共建全球物理智能学术生态 | 雷峰网 2026广汽科技日重磅发布五大核心技术,以“科技向心”引领智能出行时代 | 雷峰网 一汽大众与卓驭科技的七年协同,交出一份燃油车智能化的成绩单 | 雷峰网 腾讯的长青游戏,今天又进化了一次 | 雷峰网 智己LS8上市:24.98万起售,刘翔站台的这台「最强8系」能打吗? | 雷峰网 全球1100万台出货,追觅打造最聪明的扫地机 | 雷峰网 阶跃率先跑通“中国版 Grok 上车”量产交付!超级 Eva 搭载极氪8X 今起上市 物理AI时代,为什么需要一颗“舱驾融合”芯片? | 雷峰网 逸安启欢迎问界加入,与宝马、梅赛德斯-奔驰携手, 共同推进中国豪华超充网络的发展 | 雷峰网 逐际动力开源 FluxVLA Engine:专为具身智能打造的标准化VLA工程底座 | 雷峰网 独家丨AWS大中华区多位L8高管迎来变动,SA部门负责人代闻离职 | 雷峰网 头部品牌 “加码”东南亚 泡泡玛特新品在Lazada发售 | 雷峰网 D19起售价21.98万元,零跑能成为9系SUV的“破局者”吗? | 雷峰网 全球首款!进迭时空 RISC-V AI CPU K3 成功适配 OpenHarmony 6.1 4小时闭门会,15位运动科技创业者聊透了哪些「不能公开说」的真相 | 雷峰网 在女性黑客松上,看见AI硬件的另一种可能 | 雷峰网 Plaud 爆火后,YoooClaw 要改写 AI 硬件的剧本 黄仁勋:DeepSeek在华为芯片上发布「很可怕」;抖音集团副总裁辟谣郭达雅亿元年薪入职字节;五角大楼与通用、福特等汽车制造商讨论造军火 | 雷峰网 正式官宣!佑驾创新与荣耀(HONOR)达成合作,以“无人车+机器人”打通全链路无人化闭环 | 雷峰网 解耦性能与厚重,英特尔AI高静Plus正在重写游戏本定义 | 雷峰网 独家丨Somnia Lab 完成千万美元天使轮融资,瞄准人机关系入口与万亿级具身情感生态 | 雷峰网 腾讯发布并开源混元世界模型 2.0,一句话造出3D世界,兼容游戏引擎! | 雷峰网 阿里发布世界模型HappyOyster,与谷歌Genie3竞争 | 雷峰网 从「集体暴跌」到「双轨分化」:一篇论文误读如何撕开DDR真实行情? | 雷峰网 格力高管炮轰友商被狂怼:又当又立!「真铜实料」这四字不姓格;美国将退还超1万亿元关税;品牌GMV高速增长,速卖通将成品牌出海全新主场 | 雷峰网 全球线上首发!辉瑞新一代减重药先维盈®开启预售服务,美团买药又下一城 | 雷峰网 傲基「生死局」:绝地反杀与盈利迷途 | 雷峰网 阿里ATH发布AI开发工具Meoo,已打通阿里云核心产品 | 雷峰网 美团闪购升级闪电仓供应链服务平台:向全行业商家开放即时零售供应链基建 | 雷峰网 阿里云连续5年稳居游戏云市场份额第一! | 雷峰网 与阿里成立合资公司后,新世界旗下Gmarket商品交易额(GMV)实现双位数增长 | 雷峰网 度小满发布DXMClawPay 面向Skill开发者提供一站式支付接入方案 | 雷峰网 滴滴自动驾驶全球化布局加快,年内在阿联酋开展试点 | 雷峰网 金立创始人刘立荣消失8年后最新动向:疑在印尼卖家具;月薪3万,DeepSeek聘人去内蒙草原守机房;比亚迪坪山园区大火,公司回应火势已扑灭 | 雷峰网 水下绞杀:清洁机器人渠道里的生意与生死 | 雷峰网 墨腾报告:东南亚电商平台成交额五年翻三倍 三大平台瓜分万亿市场 | 雷峰网 火山引擎:Seedance 2.0 API 服务全面开放 | 雷峰网 中远海运特运X火山引擎:“数字员工”驶向智慧航运新蓝海 | 雷峰网 重新认识具身行业,从自变量的这封邀请函开始 | 雷峰网 做了5年3D打印机,我发现了世界模型的Scaling Law | 雷峰网 别克×火山引擎:至境E7行业首发搭载豆包大模型最新版 | 雷峰网 强强联手,追觅牵手阿里速卖通,将在海外加大投入 | 雷峰网 推理卡毛利率下滑超7%,天数智芯「降价换量」的买卖值不值? | 雷峰网 明日新程完成连续两轮融资,领跑Harness群体多智能体赛道 | 雷峰网 「作弊」内幕曝光!3DMark回应将某知名国产手机除名;李想朋友圈炮轰东风日产恶意拉踩,后者高管回应;美的空调又发行业首创产品 | 雷峰网 50万起步的蔚来ES9,能否站稳高端? | 雷峰网 汽车行业已在阿里云上使用超10万卡“真武”PPU研发智驾 | 雷峰网 百度智能云联合多家头部具身智能企业,打造具身智能数据超市 | 雷峰网 从汽车到物理 AI:何小鹏眼中的智能汽车下半场 | 雷峰网 首个跑通端到端闭环的全模态安全脱敏的龙虾盒子,无问芯穹InfiniClaw Box让本地龙虾也能放心用! | 雷峰网 当参数不再决定胜负,AI时代的企业级SSD靠什么「赢」?|MemoryS 2026 | 雷峰网 独家丨继大疆押注后,智能派再获数亿元融资,或与拓竹正面硬刚 | 雷峰网 阿里视频生成大模型Wan2.7登顶DesignArena榜单 | 雷峰网 KV Cache需求暴涨32倍,AI如何重写存储产业链的「旧分工」?| MemoryS 2026观察 | 雷峰网 微软小冰,生不逢时 | 雷峰网 豆包APP实时语音通话升级全双工模型 抗干扰与低时延能力提升 | 雷峰网 中国充电联盟与万勋科技联合发布《中国新能源汽车自动充电用户行为洞察报告》加速自动充电规模商用 | 雷峰网 继“同事.skill”走红,周鸿祎回应“把自己炼成AI分身”:这才是数字分身的正确未来 | 雷峰网 章鱼动力获得新加坡顶级风投 K3领投的数亿元投资 | 雷峰网 港中文薛天帆团队:实现 4K 全景视频生成,普通视频也能「长出空间」丨CVPR 2026 | 雷峰网 独家丨前大疆T4悍将谢博文:从具身机器人转战桌面CNC,深圳再启「无限工坊」 | 雷峰网 2026淘宝直播三大主线:提效新品,造优质主播差异化,增优质内容曝光 | 雷峰网 阿里云百炼上线Agent记忆库,让「龙虾」应用更懂用户 | 雷峰网 百度官宣!Create2026百度AI开发者大会定档5月13至14日 | 雷峰网 印度禁止中国大陆产摄像头监控:花高价大批替换,国产厂商回应;传宇树科技与阿里达成出海战略合作;DeepSeek上线专家模式 | 雷峰网 20分钟破1000万!首日破3000万!创想三维2026全球3D打印类目众筹王者!AI+生态双向助推,3D打印布道者重新定义3D打印生态! | 雷峰网
深圳市大数据研究院4项科研成果被ICML 2026录用 | 雷峰网
2026-06-16 · via 雷峰网

原文作者:公众号“深圳市大数据研究院”

原文链接:https://mp.weixin.qq.com/s/ex36drATo7qIy_MwFFp5hA

近日,深圳市大数据研究院四项科研成果同时发表于第43届国际机器学习大会(International Conference on Machine Learning, ICML)。

会议介绍

国际机器学习大会(International Conference on Machine Learning, ICML)是人工智能领域顶级学术会议,为中国计算机学会(CCF)推荐的A类国际学术会议,与NeurIPS、ICLR通常并称为机器学习领域的三大顶级会议。ICML长期关注机器学习基础理论、深度学习、强化学习、优化方法、概率建模、可信机器学习、机器学习系统,以及机器学习在计算机视觉、计算生物学、语音识别和机器人等领域的应用。公开数据显示,ICML 2026共收到23,918篇有效投稿/进入评审的投稿,录用率约为26.6%。

论文简介

深圳市大数据研究院4项科研成果被ICML 2026录用

AdaMeZO: Adam-style Zeroth-Order Optimizer for LLM Fine-tuning Without Maintaining the Moments

AdaMeZO:无需保存动量矩的 Adam 风格零阶大语言模型微调优化器

关键词

大语言模型微调、零阶优化、优化器、内存效率

摘要:大语言模型微调是提升模型在特定下游任务中表现的重要手段,但传统基于反向传播的一阶优化方法需要计算并存储梯度,显著增加显存开销,限制了大模型在资源受限设备上的部署与应用。已有零阶优化方法 MeZO 仅依赖前向传播即可完成微调,大幅降低了显存需求,但其更新方式类似随机梯度下降,难以感知不同参数维度上的损失曲率差异,导致收敛速度较慢。与此同时,直接引入Adam 等自适应优化器虽然能够利用一阶与二阶矩估计提升收敛效率,但直接引入会额外存储与模型参数同规模的动量信息,从而削弱零阶优化的内存优势。

针对上述问题,论文提出 Adam 风格零阶优化器 AdaMeZO。该方法通过截断历史梯度构造近似的一阶与二阶矩估计,并结合更细粒度的伪随机数生成器状态缓存机制,在需要更新参数时按块原地重建历史随机方向,而无需在显存中长期维护完整动量向量。由此,AdaMeZO 在保留 MeZO 低显存优势的同时,引入类似 Adam 的自适应预条件更新能力,使模型能够更有效地适应复杂损失函数景观中的不同曲率区域。

理论分析表明,在非凸优化假设下,AdaMeZO 能够以O(1/√T)的速度收敛到平稳点附近。实验在 RoBERTa、OPT、LLaMA 等模型及多类自然语言处理任务上验证了方法有效性。结果显示,AdaMeZO 在多个任务中优于 MeZO 和相关强基线,并在达到相同终止损失时最多减少约 70% 的前向传播次数;实测额外显存仅约 7%,显著低于需要显式存储矩估计的方法(额外显存约50-100%)。该工作为低显存开销大语言模型高效微调提供了一种新的优化方法。

深圳市大数据研究院4项科研成果被ICML 2026录用

图1:图AdaMeZO 与 MeZO 在 SST-2 任务上的损失曲线对比。AdaMeZO 在 RoBERTa-large、OPT-1.3B 和 LLaMA-3B 上达到 MeZO 终止损失时,分别减少 69.75%、70.48% 和 70.90% 的前向传播。

深圳市大数据研究院4项科研成果被ICML 2026录用

图2:AdaMeZO 的分块矩估计机制。与基于 seed 的整体随机流控制相比,基于 PRNG 状态缓存的分块控制可在计算并释放一、二阶矩后进入下一参数块,从而减少额外显存。

论文第一作者蔡智捷与共同第一作者陈浩泷为深圳市大数据研究院-香港中文大学(深圳)联合培养博士生、香港中文大学(深圳)理工学院博士生,通讯作者为深圳市大数据研究院研究员朱光旭博士

深圳市大数据研究院4项科研成果被ICML 2026录用

Romberg-Extrapolated Zeroth-Order Gradient Estimator: Higher-Order Bias Reduction with Preserved Leading Directional Variance

Romberg 外推零阶梯度估计器:保留主导方向方差的高阶偏差减少

关键词

零阶优化、梯度估计、龙贝格外推

摘要:在现代学习与优化中,常因梯度计算昂贵或不可得,需仅通过函数值查询估计梯度。标准梯度估计存在偏差-方差制约,现有改进方法难以兼顾两者优化。为此,本文提出Romberg-ZOGE方法,通过多尺度两点估计结合Romberg外推,在降低偏差的同时保持方差不增。

理论上,Romberg-ZOGE可实现高阶偏差缩减且不增加主导方差。对确定性函数评估,其在多个半径上构造两点估计并加权,将偏差从O(r2) 降至 O(r2R+2),且主导方向方差与标准两点估计器一致。针对ZO-SGD的随机函数查询,同次梯度估计的多查询共享随机样本,噪声可在差分与外推中抵消,避免额外放大,收敛复杂度不劣于基线。

实验覆盖三类场景:合成函数实验中,R=2时偏差呈接近O(r6)下降,远优于标准两点估计器的O(r2),且主导方差与基线相近;优化实验中,相同查询预算下收敛更快更稳定;无线网络优化任务中,提升了平滑分位数频谱效率目标值;OPT-1.3B的SST-2黑箱prompt tuning任务中,取得最低训练损失及最高验证、测试准确率。结果表明,Romberg-ZOGE兼具理论优势与实际黑箱优化的稳定收益。

深圳市大数据研究院4项科研成果被ICML 2026录用

图3:图AdaMeZO 与 MeZO 在 SST-2 任务上的损失曲线对比。AdaMeZO 在 RoBERTa-large、OPT-1.3B 和 LLaMA-3B 上达到 MeZO 终止损失时,分别减少 69.75%、70.48% 和 70.90% 的前向传播。

论文第一作者董洪成为深圳市大数据研究院-香港中文大学(深圳)联合培养博士生,通讯作者为深圳市大数据研究院副研究员蒲文强博士,共同作者为深圳市大数据研究院副研究员赵立成博士、周睿博士,香港中文大学(深圳)人工智能学院尹峰教授。

深圳市大数据研究院4项科研成果被ICML 2026录用

Think in Cloud, Look at Edges: Semantic-Driven Query Decomposition for Efficient Video Reasoning

云端思考,边端观察:面向高效视频推理的语义驱动查询分解

关键词

长视频理解、边云协同、语义驱动查询分解、关键帧选择、多模态大模型

摘要:长视频理解面临带宽、时延与精度矛盾:纯云端方案能力强但上传成本高,纯边缘方案响应快但推理能力有限。本文发现,现有边云协同方法常将复杂问题压缩为单一语义向量进行相似度检索,容易产生“语义淹没”,使逻辑上关键但不突出的证据被显著视觉线索覆盖。为此,本文提出 SCOPE 框架,采用“云端思考、边缘观察”的范式:云端大模型将用户问题分解为带依赖关系和重要性权重的 DAG 观测计划,边缘侧据此进行预算分配、并行语义匹配与关键帧选择,上传高价值证据帧。Video-MME 和 LongVideoBench 实验表明,SCOPE 在严格帧预算下稳定优于 Uniform、Top-K、AKS 等基线;在 16 帧设置下达到与纯云端相同的 66.04% 准确率,并将端到端时延由 154.22 秒降至 23.94 秒,降低约 85%。该研究为资源受限场景中的长视频高效推理提供了可部署的边云协同新范式。

深圳市大数据研究院4项科研成果被ICML 2026录用

图4:SCOPE总体框架。云端大模型先生成结构化观测计划,边缘侧依据计划完成预算感知关键帧选择,并将证据帧上传云端进行深度推理。

本文第一作者为深圳市大数据研究院访问博士Jackie Zou,第二作者为深圳市大数据研究院-香港中文大学(深圳)联合培养博士生、香港中文大学(深圳)理工学院博士生蔡智捷,通讯作者为香港中文大学(深圳)数据科学学院助理教授余旻晨博士,深圳市大数据研究院研究员朱光旭博士。

深圳市大数据研究院4项科研成果被ICML 2026录用

MIMOMamba: From Scalar Duality to Matrix-Valued Attention

MIMOMamba:从标量对偶到矩阵值注意力

关键词

状态空间模型(SSM)、循环神经网络(RNN)、结构化矩阵、线性注意力机制

摘要:现代序列建模需兼顾表达能力与效率。Transformer自注意力能力强,但复杂度随序列长度二次增长;Mamba等结构化状态空间模型虽具线性效率,却常将时序建模与跨通道交互分离,难以刻画时变耦合。

本文提出MIMOMamba,通过矩阵多项式参数化将状态空间对偶性推广至多输入多输出(MIMO)设置,在单一选择性递推中联合建模时间依赖与跨通道交互,并保持线性效率。该方法将注意力元素由标量扩展为D×D矩阵,实现矩阵值结构化注意力;同时借助共享代数基底保证交换性、降低参数冗余,使核心参数复杂度由Transformer约3D²降至约D²。

实验表明,MIMOMamba在SSP物理预测基准上以约35k参数取得最优精度(RMSE=0.687),优于多种先进基线;推理内存线性增长,训练吞吐量较Mamba-2提升1.5–1.6倍,为高效序列建模提供了新的理论与方法支撑。

深圳市大数据研究院4项科研成果被ICML 2026录用

图5:MIMOMamba 从递推状态空间模型到矩阵值注意力的对偶视角

本文第一作者为深圳市大数据研究院访问博士生、香港中文大学(深圳)博士生李彦伯,第二作者为香港中文大学(深圳)博士生Richard Cornelius SUWANDI,通讯作者为香港中文大学(深圳)人工智能学院尹峰教授,共同作者为香港中文大学(深圳)博士生孙艺勇、中国海洋大学黄威教授、深圳市大数据研究院副研究员蒲文强博士。

雷峰网(公众号:雷峰网)