惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

U
Unit 42
S
Securelist
小众软件
小众软件
WordPress大学
WordPress大学
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
B
Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
The GitHub Blog
The GitHub Blog
Apple Machine Learning Research
Apple Machine Learning Research
博客园 - 司徒正美
博客园 - Franky
Hugging Face - Blog
Hugging Face - Blog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
酷 壳 – CoolShell
酷 壳 – CoolShell
O
OpenAI News
Cloudbric
Cloudbric
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
TaoSecurity Blog
TaoSecurity Blog
MongoDB | Blog
MongoDB | Blog
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
V
V2EX
PCI Perspectives
PCI Perspectives
T
Troy Hunt's Blog
Schneier on Security
Schneier on Security
P
Palo Alto Networks Blog
M
MIT News - Artificial intelligence
V2EX - 技术
V2EX - 技术
阮一峰的网络日志
阮一峰的网络日志
Hacker News - Newest:
Hacker News - Newest: "LLM"
G
Google Developers Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
The Last Watchdog
The Last Watchdog
The Register - Security
The Register - Security
腾讯CDC
N
News and Events Feed by Topic
C
Check Point Blog
爱范儿
爱范儿
T
Tailwind CSS Blog
Webroot Blog
Webroot Blog
P
Proofpoint News Feed
S
Schneier on Security
MyScale Blog
MyScale Blog
N
News | PayPal Newsroom
Recorded Future
Recorded Future
T
Tenable Blog
I
InfoQ
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Microsoft Security Blog
Microsoft Security Blog
Simon Willison's Weblog
Simon Willison's Weblog
Engineering at Meta
Engineering at Meta

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
AI产品经理必读:如何让端侧模型更聪明?
赛先声 · 2025-05-26 · via 人人都是产品经理

受限于设备的计算能力和存储空间,如何让端侧模型在资源有限的情况下变得更聪明、更高效,成为了AI产品经理的一个关键挑战。本文将详细介绍九种前沿技术,希望能帮到大家。

端侧模型是一种直接在你的设备上运行的人工智能。

为什么要在端侧用AI?云端模型不香吗?

端侧AI的好处简直不要太多:它能保护隐私(数据本地保存,不用上传到云端),反应快如闪电(毕竟“大脑”就在身边,不用千里迢迢造访“云端”),还不依赖网络环境,随时随地可用(出门在外可不是哪哪都有信号)。

端侧的好处这么多,但问题是,设备上的“大脑”毕竟空间有限、能量也有限,不像云端动辄万卡集群的超级计算机那样“豪横”。怎样才能在“紧巴巴”的条件下,让端侧模型变得更聪明、更强大呢?

本文为你揭开这些让端侧模型“小身材,大智慧”的9大技术。

第一招:名师出高徒 —— “知识蒸馏(Knowledge Distillation)”的智慧传承,“浓缩的都是精华!”

想象一下,一位学识渊博的老教授(咱们称它为“教师模型”)和一个聪明伶俐的学生(也就是我们的“学生模型”,即端侧模型)。老教授虽然知识多,但“体型庞大”,不适合直接塞进手机里。怎么办呢?

“知识蒸馏”就像是这位老教授手把手地教学生。学生不仅学习课本上的标准答案(专业术语叫“硬标签”),更重要的是学习老教授思考问题的方式和判断的微妙之处(比如,老教授看到一只猫,不仅知道它是猫,还知道它有90%的可能是英短,10%的可能是美短,这种概率分布就是“软标签”)。

这样一来,学生模型虽然“身材娇小”,却能学到老师傅的“内功心法”,表现自然远超自己“闭门造车”。

简而言之让一个参数量小、计算量小的“学生模型”去学习一个参数量大、能力强的“教师模型”的精髓,而不仅仅是学习训练数据本身。

怎么实现?

先训练一个满血版的“教师模型”(比如在强大的云服务器上)。

然后,让“学生模型”一边学习真实数据的答案,一边模仿“教师模型”对数据的判断结果(那些概率分布)。

最终,这个“学生模型”就又小又强,可以在你的手机上运行了。

举个例子:

Google在研究中就曾展示过,通过知识蒸馏,可以将一个大型图像识别模型的知识迁移到一个小得多的移动端模型上,后者在保持较低延迟的同时,准确率损失非常小。例如,一个大型模型的准确率可能是85%,通过蒸馏,小型模型可能达到83%,但模型大小和运算量却减少了数倍甚至数十倍。

第二招:精打细算过日子 —— “量化(Quantization)”的魔力,“从‘奢侈品’到‘经济适用’!”

我们知道,计算机里的数字都是用一串0和1来表示的。表示得越精确,占的空间就越大,计算起来也越慢。

“量化”就像是把这些数字从“高精度奢侈品”变成“经济适用型”。比如,原来用32位表示一个数字,现在我们想办法用16位(FP16)甚至8位整数(INT8)来近似表示它。

这就好比,以前我们用精确到小数点后好几位的尺子量东西,现在用稍微粗略一点但依然够用的尺子。模型“体重”瞬间减轻,运算速度也“嗖嗖”变快,而且很多时候,对最终结果的准确度影响非常小。

简而言之降低模型中数字(权重和激活值)的表示精度,比如从32位浮点数变成8位整数,从而大幅减小模型大小和计算量。

怎么实现?

训练后量化 (PTQ):模型先用高精度训练好,然后像“快速瘦身”一样,直接把它转换成低精度的。这需要一个“校准”过程,看看这些数字大概在什么范围,然后进行映射。

量化感知训练 (QAT):更高级的玩法!在训练的时候就告诉模型:“你以后要过‘低精度’的紧日子了” 模型在训练过程中就会主动去适应这种变化,准确度损失通常更小。

举个例子

根据高通(Qualcomm)等芯片厂商的报告,通过将模型从FP32量化到INT8,模型大小可以减少约4倍,推理速度在支持INT8运算的硬件上(如其骁龙处理器内的AI引擎)可以提升2到4倍,同时功耗也显著降低。例如,在某些图像分类任务中,INT8量化后的模型准确率损失不到1%。

第三招:壮士断腕,去芜存菁 —— “剪枝(Pruning)”的艺术,“砍掉不必要的枝丫,才能让主干更强壮!”

一个训练好的神经网络,就像一棵枝繁叶茂的大树。但仔细一看,有些“枝丫”(网络中的连接或神经元)其实对最终“结果”(模型的预测)贡献很小,甚至可以说有点多余。“剪枝”技术就像一位园艺大师,把这些“不结果”或者“添乱”的枝丫给修剪掉。

这样一来,模型的“体型”变小了,计算量也减少了,跑起来自然更轻快。有研究表明,对一些经典的图像识别模型(如VGG、ResNet)进行剪枝,可以在几乎不损失精度的情况下,减少50%甚至更多的参数和计算量。

简而言之

移除神经网络中不那么重要的参数(权重)或结构(神经元、通道),让模型变得更小、更快。

怎么实现?

  • 幅度剪枝:最简单粗暴,哪个连接的权重数值小(接近于0),就认为它不重要,咔嚓剪掉!
  • 结构化剪枝:这个更讲究技巧,不是单个单个剪,而是一剪就剪掉一整个“部门”(比如整个神经元或卷积核通道)。这样做的好处是,修剪后的模型结构更规整,硬件更容易加速。
  • 迭代剪枝:剪一点,然后重新“补习”(微调训练)一下,让模型恢复元气,再剪一点,再补习……如此往复,效果更佳。

做个类比

这有点像我们大脑的学习过程。神经科学家发现,婴儿时期大脑神经元之间的连接非常多,但随着成长和学习,一些不常用的连接会减弱甚至消失,而常用的连接则会加强,形成高效的神经网络。剪枝也是在模拟这个“优胜劣汰”的过程。

第四招:AI设计AI —— “神经架构搜索(NAS)”的自动化革命,“让AI自己设计自己的构造”

以前设计神经网络,很依赖人类专家的经验和灵感,就像建筑师设计房子一样,需要反复调试。但如果想在手机这种“小地基”上盖出“又好又快”的房子,挑战就更大了。

“神经架构搜索”(NAS)就是让AI自己去探索和设计最适合端侧设备的网络结构。你给AI设定好目标(比如,我想要一个准确率高、速度快、耗电少的模型),然后AI就会在一个巨大的“积木池”(各种可能的网络组件和连接方式)里像玩乐高一样,自动搭建和测试各种神经架构,最后挑出最优的那个。

简而言之

利用算法自动搜索和设计神经网络的结构,而不是人工设计,目标是找到在特定硬件(如手机芯片)上性能最优的架构。

怎么实现?

  • 定义搜索空间:先告诉AI有哪些“积木块”(比如不同类型的卷积、池化层)可以用,以及它们大概可以怎么搭。
  • 采用搜索策略:用强化学习、进化算法或者基于梯度的方法等高科技手段,指导AI如何有效地“尝试”不同的组合。
  • 评估性能:快速评估每个“设计方案”的好坏,选出冠军。

举个例子

Google的EfficientNet系列模型就是NAS的代表。研究者们通过NAS搜索到了一个基础的网络架构,并通过一套统一的缩放规则,生成了一系列模型,在准确率和效率方面都有提升,非常适合在移动设备上部署。例如,EfficientNet-B0在达到与ResNet-50相近的ImageNet准确率的同时,参数量和计算量都大幅减少。

第五招:混合精度训练与推理 (Mixed Precision Training and Inference) “好钢用在刀刃上,精度按需分配!”

在AI模型进行计算时,不是所有的步骤都需要最高的精度。有些计算对精度要求很高,差一点可能结果就谬以千里(比如关键的判断步骤);而另一些计算,稍微粗略一点也无伤大雅,还能大大提高速度(比如一些中间特征的传递)。

简而言之

“混合精度”技术就像一位经验丰富的老师傅,知道什么时候该用游标卡尺(高精度FP32),什么时候用卷尺(低精度FP16甚至INT8)就够了。它在训练和推理(模型预测)时,聪明地将高精度计算和低精度计算结合起来:关键部分用高精度保证准确性,非关键部分用低精度来提升效率、减少内存占用和功耗。

怎么实现?

  • 硬件支持:现在的AI芯片(比如NVIDIA的GPU从Volta架构开始引入的Tensor Core,以及很多端侧AI加速器)原生支持FP16等低精度计算,速度远超FP32。
  • 框架支持:主流的深度学习框架如TensorFlow和PyTorch都内置了自动混合精度(Automatic Mixed Precision, AMP)模块。开发者只需要开启这个选项,框架就会自动判断哪些运算适合用低精度,哪些需要保持高精度,并进行相应的转换和补偿(比如使用损失缩放Loss Scaling来防止梯度消失)。

实践效果

在很多情况下,使用混合精度(例如FP32和FP16混合)可以在几乎不损失模型准确率的前提下,将训练速度提升2-3倍,推理速度也有显著提升,同时还能减少约一半的内存占用。这对于希望在端侧设备上运行更大、更复杂模型的场景来说,无疑是一大利好。例如,在图像识别或自然语言处理任务中,通过混合精度,模型响应更快,用户体验更好。

第六招:众人拾柴火焰高 —— “联邦学习(Federated Learning)”的隐私保护与集体智慧,“数据不出家门,智慧共同提升”

我们希望端侧模型能从更多样的数据中学习,变得更聪明。但用户的个人数据非常敏感,直接上传到云端训练模型有隐私泄露的风险。怎么办?

“联邦学习”提供了一个绝妙的解决方案。它就像一个“去中心化”的学习小组。每个人的数据都保留在自己的手机或设备上(数据不出本地),模型更新的“知识”(参数更新)被发送到中央服务器进行聚合,形成一个更强大的“集体智慧模型”,然后再把这个“升级版”模型分发回各个设备。

这样一来,既保护了用户隐私,又能让模型从海量分散的数据中受益。

简而言之

多个设备(比如很多部手机)在不共享各自本地数据的前提下,协同训练一个机器学习模型。每个设备用本地数据训练模型,然后只把模型的更新(而不是数据本身)发送给中央服务器进行聚合,最终反哺端侧,让端侧模型获得更好的表现。

怎么实现?

第一步 服务器初始化端侧模型

第二步 模型分发给选定的端侧设备

第三步 设备在本地用自己的数据训练模型

第四步 设备将训练产生的模型更新(比如权重变化)加密后发送给服务器

第五步 服务器聚合所有设备的更新(比如取平均值),形成一个更优的全局模型

第六步 重复2-5步,最终使端侧模型获得更好表现

举个例子

Google的Gboard输入法就利用联邦学习来改进下一词预测模型。数百万用户在输入时,他们的设备会利用本地输入历史(这些历史数据不会离开设备)来改进预测模型的一小部分,然后这些改进被安全地聚合起来,形成对所有用户都有益的全局模型。这使得输入法预测越来越准,同时用户的输入内容得到了很好的隐私保护。

第七招:端侧模型的动态推理与自适应计算 (Dynamic Inference and Adaptive Computation) “看菜下饭,量力而行——AI的‘智能档位’!”

想象一下,你开车的时候,平路巡航时会用比较省油的档位和转速;遇到陡坡需要爬升时,就会切换到更有力的低档位,加大油门。 “动态推理”或“自适应计算”就是让端侧AI模型也拥有这种“智能换挡”的能力。

简而言之

它会根据当前输入数据的“难度”(比如一张图片是简单的纯色背景,还是一张细节满满的复杂场景),或者设备当前的“体力状况”(比如电量是否充足、CPU/NPU是否空闲),来动态调整自己的计算量和“思考深度”。 简单的任务,模型就“浅尝辄止”,用较少的计算快速给出结果;复杂的任务,或者资源充足时,模型就“全力以赴”,调用更多的网络层或更复杂的计算路径,以求达到最佳效果。

怎么实现?

  1. 多分支网络/早退机制 (Multi-Branch Networks/Early Exit):设计一个有多层“出口”的网络。对于简单的输入,可能在网络的较浅层就能得到足够置信度的结果,模型就从这个“提前出口”输出答案,不必走完全程。这就像考试时,简单的题目一眼看出答案就不用再反复验算了。Anytime Prediction模型就是这类思想的体现。
  2. 条件计算 (Conditional Computation):网络中的某些模块或计算路径只有在满足特定条件时才会被激活。比如,检测到一个可能是“猫”的模糊轮廓后,才激活专门用于精细识别猫品种的模块。Google的Switch Transformers就用了类似稀疏激活的思想,但更侧重于超大模型。在端侧,这意味着可以根据需要选择性地执行计算成本较高的部分。
  3. 资源感知调度:模型或AI框架能够感知设备的实时资源(电量、温度、可用算力等),并据此调整模型的复杂度或推理策略。

实践效果

这种技术能显著提升端侧模型的能效比和用户体验。在大部分情况下,输入数据可能都比较简单,模型可以用极低的功耗快速响应;而对于少数复杂情况,又能保证处理效果。这使得AI应用在电量敏感的移动设备或物联网节点上能“更持久地在线”,并且在不同负载情况下都能提供相对平稳的服务。例如,一个智能相机的目标检测功能,在画面静止或物体稀疏时可以降低帧率或模型复杂度,一旦检测到快速运动或密集物体则提升计算力。

第八招:天生我材必有用 —— “高效模型架构(Efficient Model Architectures)”的先天优势, “生来就为‘快’和‘小’而设计!”

除了上述的“后天调教”方法,我们还可以从“先天基因”入手,直接设计那些天生就参数少、计算量小的网络结构。这就像运动员里有专门为短跑或马拉松优化的体型和肌肉类型一样。

这些高效模型架构,在设计之初就充分考虑了端侧设备的限制。

简而言之

从一开始就设计出结构本身就很轻量级、计算效率很高的神经网络模型。

著名代表

  • MobileNets (v1, v2, v3):它们的核心是“深度可分离卷积”,把传统的卷积操作拆分成两步,大大减少了计算量和参数。想象一下,传统卷积是“大火猛炒一大锅菜”,深度可分离卷积则是“先每样菜单独小炒,再用少量调料拌匀”,效率更高。MobileNetV3结合了NAS技术,进一步提升了效率和性能。
  • ShuffleNets: 使用了“逐点分组卷积”和“通道混洗”等技巧,像巧妙地重新排列组合积木一样,进一步降低了计算成本。
  • SqueezeNets: 通过“压缩”(squeeze)和“扩展”(expand)模块,用更少的参数实现与大型网络相当的准确率。
  • EfficientNets: 如前所述,通过NAS找到最佳的网络深度、宽度和输入图像分辨率的组合,并进行等比例放大,实现了在不同计算资源限制下的最优性能。

数据为证

以MobileNetV2为例,相比于经典的VGG16模型,它在ImageNet图像分类任务上可以达到相似的准确率,但参数数量减少了约25倍,计算量减少了约30倍。这使得它非常适合在手机等移动设备上流畅运行。

第九招:给AI大脑“瘦身健体”—— 内存优化黑科技, “让本就寸土寸金的‘脑容量’得到极致利用!”

除了前面那些让模型变小、变快的通用技巧,还有一些专门针对“抠内存”的绝招,确保AI大脑在运行时不会因为“太占地儿”而把我们的手机、电脑搞到卡顿。

A. 权重共享/聚类 (Weight Sharing/Clustering)

“物以类聚,参数分组!”

简而言之

想象一下,一个神经网络里有成千上万甚至数百万个参数(权重)。“权重共享”或“权重聚类”就像是发现这些参数里有很多其实非常相似,或者可以归为几类。我们不再为每个连接都单独存储一个精确的权重值,而是让很多连接共享同一个(或同一组)权重值。 这就好比,原来衣柜里有100件颜色、款式都只有细微差别的白衬衫,每件都要占一个衣架。现在我们发现其实可以把它们分成“纯白款”、“米白款”、“丝光白款”等几大类,每一类用一个代表性的“标准白衬衫”参数。这样,需要存储的“标准白衬衫”数量就大大减少了,内存自然就松快多了。

效果

这种方法可以显著减少存储权重所需的内存。例如,斯坦福大学提出的Deep Compression技术,就将权重聚类(一种形式的权重共享)与剪枝、量化结合,成功将AlexNet和VGG等大型网络压缩了35到49倍,而几乎没有精度损失,这对于将这些复杂模型部署到内存有限的移动设备上至关重要。

B. 低秩分解/矩阵分解 (Low-Rank Factorization)

“把‘大胖矩阵’拆成两个‘小瘦子’!”

简而言之

在神经网络中,很多层的计算本质上是巨大的矩阵乘法。如果一个权重矩阵非常“胖”(维度很大),那么它包含的参数就多,占内存也大。 “低秩分解”就像是发现这个“大胖矩阵”其实可以用两个或多个更“瘦”的“小矩阵”相乘来近似表示。就好比,一个复杂的图案(大矩阵),其实可以由几个简单的基础图案(小矩阵)叠加组合而成。我们只需要存储这些基础图案,就能重构出原来的复杂图案,大大节省了存储空间。

效果

例如,在推荐系统中,用户-物品交互矩阵通常非常巨大且稀疏,通过低秩分解(如SVD或其变种)可以有效地提取潜在特征,并以远小于原始矩阵的内存存储这些特征向量,从而实现高效的个性化推荐。同样的思想应用于神经网络层,能显著减少权重参数的存储。

C. 激活值内存优化 (Activation Memory Optimization)

“精打细算每一分‘临时内存’!”

简而言之

模型在进行预测(推理)时,不仅模型自身的权重参数占内存,每一层计算产生的中间结果——我们称之为“激活值”——也需要临时存储在内存中,因为下一层计算需要用到它们。对于很深的网络,这些激活值累加起来可能会非常占内存,就像做饭时,如果每个步骤的半成品都一直摆在桌上,厨房很快就满了。 激活值内存优化就是想办法减少这部分“临时内存”的开销,比如用完一个半成品马上清理掉,或者用更小的碗碟(低精度)来装。

怎么实现与效果

  • 激活值量化:同样可以将激活值从32位浮点数降到8位整数,直接减少75%的激活值内存。
  • 就地计算 (In-place Computation):巧妙地设计计算流程,让新的计算结果直接覆盖掉那些不再需要的旧激活值,避免了额外的内存开辟。
  • 激活值重新计算 (Recomputation):对于某些激活值,如果重新计算它们的成本不高,那就在需要它们的时候再算一遍,而不是一直把它们存在内存里。这就像一本参考书,你不是把整本书都背下来(占用大脑内存),而是在需要查某个知识点的时候翻一下书(重新计算)。这在内存极度紧张的微控制器(MCU)上部署AI模型时尤为关键。

融会贯通,打造终极“端侧最强大脑”

看到这里,你已经对如何给端侧AI“增智减负”有了更全面的了解。

从知识蒸馏的智慧传承,到量化、剪枝的精打细算,再到神经架构搜索的自动化设计,以及联邦学习的巧妙应用,辅以高效模型架构的先天优势,还有专门针对内存的权重共享、低秩分解、激活值优化等“瘦身秘籍”,更有追求极致效率的混合精度计算和灵活应变的动态推理。它们共同构成了一个强大的工具箱。

聪明伶俐的端侧AI可能是这样打造的:

  1. 首先,通过神经架构搜索找到一个天生就适合端侧的高效模型架构,这个架构本身可能就支持动态推理的某些特性,比如包含多个计算分支。
  2. 然后,通过知识蒸馏从更强大的“云端教师模型”那里“偷师学艺”,提升其“智商上限”。
  3. 接着,运用剪枝技术和低秩分解去掉模型中冗余的参数和结构,缩小其“骨架”。
  4. 再通过量化(包括权重和激活值)和权重共享/聚类技术,结合混合精度训练与推理的策略,把模型的“体重”和“内存占用”进一步压缩到极致,同时优化计算速度。
  5. 在运行时,采用激活值内存优化策略,并结合动态推理机制,精打细算地使用每一KB的“临时内存”和计算资源。
  6. 在数据隐私至关重要或者需要汇集多方数据的场景,则可以采用联邦学习的方式进行训练和迭代,不断提升模型的群体智能。

展望未来:端侧AI,不止于“聪明”,更在于“智慧”、“普及”与“无感”

让端侧模型变得更“聪明”、更“轻巧”,关系到我们每一个人未来的数字生活体验。

随着这些技术的不断发展和融合,未来的端侧AI将不再仅仅是执行简单命令的工具。它们将拥有更强的理解能力、推理能力和个性化适应能力,同时对设备的资源需求越来越小,甚至达到“无感”运行的境界——你几乎察觉不到它在消耗资源,却能时时刻刻享受到它带来的智能便利。

想象一下:

  • 手机能够真正理解你的情绪和意图,成为你贴心的私人助理,而且这一切都在本地完成,流畅又私密。
  • 家里的智能设备能够主动学习你的生活习惯,为你营造最舒适便捷的环境,而无需你担心隐私泄露或网络延迟。
  • 工厂里的机器臂能够通过端侧AI进行更精密的自我校准和故障预测,大幅提升生产效率和安全性,其模型小到可以嵌入到每个传感器节点。
  • 在医疗资源匮乏的地区,搭载了强大而轻盈的端侧AI的便携式诊断设备能够辅助医生进行快速准确的初步诊断,甚至可以由社区卫生工作者轻松操作。

端侧AI让尖端科技能够以更低的成本、更低的功耗、更高的效率、更安全的方式服务于每一个人,真正实现普惠AI。

作者:赛先声;公众号:奇点漫游者

本文由 @赛先声 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务