惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

P
Proofpoint News Feed
Microsoft Azure Blog
Microsoft Azure Blog
Jina AI
Jina AI
博客园_首页
宝玉的分享
宝玉的分享
The Cloudflare Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
量子位
T
Tailwind CSS Blog
雷峰网
雷峰网
Blog — PlanetScale
Blog — PlanetScale
Last Week in AI
Last Week in AI
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Hugging Face - Blog
Hugging Face - Blog
月光博客
月光博客
罗磊的独立博客
F
Fortinet All Blogs
酷 壳 – CoolShell
酷 壳 – CoolShell
Stack Overflow Blog
Stack Overflow Blog
J
Java Code Geeks
V
V2EX
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
The GitHub Blog
The GitHub Blog
Apple Machine Learning Research
Apple Machine Learning Research
博客园 - 聂微东
U
Unit 42
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
D
Docker
阮一峰的网络日志
阮一峰的网络日志
I
InfoQ
Simon Willison's Weblog
Simon Willison's Weblog
D
DataBreaches.Net
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
I
Intezer
Scott Helme
Scott Helme
B
Blog
M
MIT News - Artificial intelligence
K
Kaspersky official blog
H
Help Net Security
V
Vulnerabilities – Threatpost
C
CXSECURITY Database RSS Feed - CXSecurity.com
Engineering at Meta
Engineering at Meta
博客园 - 【当耐特】
L
Lohrmann on Cybersecurity
P
Privacy & Cybersecurity Law Blog
Project Zero
Project Zero
The Hacker News
The Hacker News
B
Blog RSS Feed
T
Tor Project blog

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
Al lnfra下隐藏的千亿市场
自象限 · 2023-04-07 · via 人人都是产品经理

越来越多互联网圈的大佬想书写AI 2.0的故事,那么在这个过程中,创业者们有可能在哪个领域找到机会点?或许我们可以看看大佬们押注的“AI Infra”,这套复杂而又基础的、在大模型开发中占据一定位置的体系。一起来看看作者的解读。

划重点:

  1. 如果将开发大模型比做是“造房子”,那AI Infra 就是“工具箱”,而中国缺少的正是工具和原材料制造工厂。
  2. 根据国外市场的情况,可以将整个AI Infra大致分为数据准备、模型构建、模型产品三个层面,在这三个层面中的每一个节点,都是创业公司的机会点。
  3. “数据准备”是中国AI Infra第一个机遇。围绕着“以数据为‘能源’”,本身就是一条十分复杂而又基础的产业链,而我国的数据相关产业链,几乎都是云大厂“一带而过”,缺乏深耕在某个细分领域的垂直竞争。
  4. 在AI大模型的训练过程中,为训练和推理提供工具和调度平台也正在成为一个新的市场“模型中台”,但从目前国内的情况来看,“模型中台”确实是创业大佬们的游戏。

ChatGPT火爆之后,科技圈有不少人想谱写AI 2.0的中国故事。

据「自象限」不完全统计,短短一个月,国内有名有姓的大佬下场AI创业已经不下10位。但当AI Infra赫然出现在贾扬清的创业字典里时,一位前百度NLP高级工程师一边感叹贾扬清创业眼光的毒辣,一边对「自象限」说了四个字:这事能成。

这位工程师所说的“这事”,指的也并不是贾扬清创业的成败,而是终于有人看到了中国AI Infra的底子薄弱,想要上手来补一补了,那么,国内做AGI——“这事能成”

不止贾扬清,最早掀起“大佬创业潮”的王慧文,在披露出为数不多的消息中,Infra 出现了两次。在三个联创中,“一个Infra(基础设施)背景的联创”占据了重要的名额,与此同时,光年之外的第一个动作,便是与国产AI框架一流科技(Oneflow)达成并购意向。

被贾扬清和王慧文双双押注“AI Infra”到底是什么?在整个大模型开发中占据哪些关键节点?

顺着大佬们的思路,「自象限」将AI Infra的链条进行了盘点和国内外公司对比以反观中国现状。简单来说,AI Infra 是一套十分复杂又基础的体系,包括构建、部署和维护人工智能 (AI) 系统所需的硬件、软件和服务的组合,它包括使AI算法能够处理大量数据、从数据中学习并生成有意义的见解或执行复杂任务的基本组件。

即如果将开发大模型比做是“造房子”,那AI Infra 就是“工具箱”,而中国正是缺少工具和原材料制造工厂。

在这样的背景下,未来3~5 年,相比于受限大模型能力变化的应用层面,AIInfra反而会更加稳定。毕竟大模型公司搞军备赛,那卖武器的公司增长一定十分可观。

但问题在于,如今中国的AI产业链在这一块还处于相当空白的状态。国内基于ML进行数据标注的公司星尘数据创始人就曾提出过这个问题,中国有没有AI Infra公司?答案是,没有。

他认为“国内从业人员太过于专注在方法论上,而方法论是公开的,但实际不公开的内容才有更多Knowhow和壁垒性。”

所以,如果说应用生态是显性创业机会,那么AI Infra便是隐形的蓝海。事实上,当AI进入2.0时代,AI Infra在整个AI产业链的价值也正在发生变化。

我们根据国外市场的情况,可以将整个AI Infra大致分为数据准备、模型构建、模型产品三个层面,在这三个层面中的每一个节点,都是创业公司的机会点。

图片为自象限原创,转载请注明出处

其中数据准备又可以具体拆解为数据质量、数据标注、数据合成和应用商城与工程;模型构建又包括机器学习平台、版本控制和实验跟踪、模型风险管理;模型产品则包括模型部署和服务、模型监控、资源优化等。

这些细分场景都在成为AI产业链的新“聚宝盆”。本文重点结合海外头部公司对AI基础层的研究,梳理了在大模型训练中比较重要,亦或是国内目前比较薄弱的方向,希望给国内创业者予以启发。

一、数据新产业链中的“聚宝盆”

“数据准备”是中国AI Infra第一个机遇。

对比中外生成式AI的发展会发现,中文数据的缺乏一直中文AI大模型的是最大的短板之一。

有公开数据表示,截至2021年,在全球排名前1000万的网站中,英文内容占比60.4%,中文内容占比仅1.4%。但作为AI三要素(数据、算力、算法)中最基础的部分,数据又是整个AI大模型训练的前提。没有数据,就相当于巧妇难为无米之炊。

需要明确的是,围绕着“以数据为‘能源’”,本身就是一条十分复杂而又基础的产业链,涉及到数据质量、数据标注、数据安全三个主要部分和多个环节。

未来在AI活跃的氛围下,中国一定会涌现出多个大模型,目前仅百度就有36个大模型,阿里、百度、腾讯、华为每家的大模型都不低于三个。而大模型越“热闹”,对后端数据的需求数量和质量也会更高。

但反观我国的数据相关产业链,几乎都是云大厂“一带而过”,缺乏深耕在某个细分领域的垂直竞争,「自象限」整理了几个产业链中的关键机会,仅供抛砖引玉,期待更多创造。

1. “数据质量”新机会:曾在这里摸爬滚打的企业,或迎来“出头之日”

整体上看,数据质量的机会分为两个部分,一部分是在技术侧,机器学习和自动检测正在成为数据质量的新机会。另一部分是在市场侧,随着AI市场规模越来越大,数据质量正在从产业链末端扩展成为供应商直接服务企业。

未来,随着AI成为社会发展的底座,数据质量会成为每个企业的刚需。但国内数据质量尚未受到足够的重视,缺乏专门做数据质量的企业,它更多是以大公司附庸品的形态出现,更像是“顺手”做的事情。

但实际上,数据质量是需要市场化的,就像汽车公司没办法生产每一个零部件一样,只有让数据质量成为整个产业的底座,通过众人拾柴火焰高的方式,才能推动整个行业的发展。

在国外,数据质量是十分垂直的赛道。这类公司的核心目标,是帮助人工智能企业最大限度地减少劣质数据带来的影响,他们的产品通常包括数据可观察性平台、数据整理和偏见检测工具,以及数据标签错误的识别工具等等。

国内其实也有这类的公司,但数量稀少。比如针对数据治理的公司有亿信华辰、普元、石竹、龙石、华矩科技、卡斯特等等。这些公司有一个非常明显的特点,就是他们在数据的细分赛道里摸爬滚打了很久,但因为这个赛道过于垂直,因此无论是资本还是市场都对他们关注不多,导致他们一直没有“出头之日”,也导致他们和国外专业的数据治理公司差距甚远。

▲ 图源《数据治理产业图谱1.0》

国内的数据公司目前大多停留在筛选阶段,而国外的公司却能通过深度学习对数据进行深度挖掘,在同样的数量上获得更多有价值的部分。这种差距主要源于:

第一,国内数据处理方式老套。许多中国的数据公司仍然在使用数据建模这样的传统方法进行数据处理,而国外已经开始使用机器学习的方式进行自动处理、自动标注,自动检测安全等工作。

第二,数据处理效率低下、可用的优质数据占比低。中国的数据公司在做数据处理的时候仍然处在初级阶段,即在一堆数据中将符合标准的数据筛选出来,只是不同的公司筛选的标准不同,得到的结果有所差异。而国外的公司却能在数据处理的过程中,通过对数据不停的清洗、修改得到更多符合条件的优质数据。

简单来说,在AI 2.0时代,大模型的训练对更全面、更准确、可溯源的高质量数据有着更庞大的需求,同时也对效率有更高的要求,依靠机器学习自动检测质量问题,将会是一条新的路径。

同时,在数据成为“新石油” 时代,数据质量并不能只靠大模型的发展带动,每个企业都需要对内部数据的质量进行精粹,发挥市场化的力量,大范围提质。

对标国外垂直赛道中的典型案例Anomalo,它使用ML自动评估和通用化数据质量检测能力,实现了数据深度的可观察性,以及数据质量检测的能力泛化。

简单来讲,它一方面把数据质量这件事检测这件事做得更深,另一方面通过能力泛化将其做得更广。

▲ 图源Anomalo官网

2022年10月,Anomalo与Google Cloud达成合作,企业可以使用无代码关键指标和验证规则或通过任何自定义SQL检查来微调Anomalo的监控。简单的说,Anomalo上云后,对于企业而言几乎可以无门槛接入,且适配性高。

Notion是Anomalo的核心客户之一,Notion是国外最大的All in one 办公软件,国内的飞书学习的就是它。其软件工程师对此评价到“Anomalo团队的功能、集成数量和响应速度够非常强大,用户易于导航并找到他们正在寻找的内容。”

2. 数据标注新机会:从“人工标注”到“算法标注”

数据标注者正在从人工标注,向自动标注和智能标注迈进,中间的变化不仅是效率的提升,也将迸发出巨大的产业机会。

在AI 1.0时代,人工标注是AI发展最典型的特点,在那个“有多少人工就有多少智能”的时代,全世界的AI发展都与底层廉价劳动力资源息息相关。

但在AI2.0时代,李开复点明与AI 1.0的第一个差异就是无需人工标注,AI可以阅读海量的文本,进行自监督学习。可以说,标注后的数据是AI大模型的命脉,它的性能和准确性直接取决于标注数据的质量和数量。

在AI产业链中,数据标注也占据了非常大比重,据AI分析公司Cognilytica的数据,数据标注环节的耗时占比可达25%。根据researchandmarkets的报告,全球数据注释和标签市场预计将从2022年的8亿美元增长到2027年的36亿美元,预测期内复合年增长率为 33.2%。

▲ 数据标注通常包含图像、文本和视频。

以AI大模型之前,以AI最为人所熟知的自动驾驶领域为例,数据标注和训练一直是自动驾驶技术研发中成本最高的两个“吞金兽”,为了解决成本和效率问题,无论是国外特斯拉还是国内的毫末,都在人工标注到标注自动化,再到标注智能化的路径上进行探索。

自动驾驶仍然是数据标注/图片标注使用量最大的一个应用场景,而未来,随着文本大模型、多模态大模型的不断涌现,还将出现新的增长机会。

从人工标注到算法标注,是底层智能化的变迁。这其中跑的最快的是Scale.ai,目前Scale.ai是全球最大的数据标注公司,据外媒报道,目前Scale.ai最新一轮E轮融资3.25亿美元,估值达到73亿美元。

Scale.ai早期走的也是人工标注路线,利用了印度标注团队,靠着比美国更便宜、更高效的标注服务打开市场。在行业选择上选择了当时大火的自动驾驶赛道,并早早与Waymo等龙头企业达成合作。

后期随着技术的发展,AI训练对数据的广度、深度、精度要求也越来越高,为了解决这个问题,Scale AI将AI应用在数据标注服务中,先用AI识别,再由人工负责校对其中的错误,校对完的数据再“投喂”给训练模型,使下一次的标注更加精准。

目前,Scale也将业务拓展到无人车、无人机和机器人等领域,同样也在向下游拓展,开发自有模型提供给其他数据标注公司,并逐步进入AI/ML价值链的更多环节。客户包括美国国防部、PayPal、自动驾驶公司及科技巨头。

3. 数据隐私和安全新机会:“合成数据”或成AI数据主力军

正如互联网的发展长河中,崛起过如360、金山毒霸等“安全专家”,移动互联网时代的腾讯手机管家、360手机卫士一般,在AI时代,“安全”将仍然是技术和应用发展的底盘和重心。

目前,随着AI技术呈指数级发展,合规和隐私风险的行业痛点也在逐渐暴露,3月的最后一天,在西班牙媒体指责OpenAI未能遵守用户数据保护法规后,意大利相关部门也以类似的理由宣布了对ChatGPT的禁令。

隐私计算和数据安全话题被重新推上风口浪尖。

3月下旬,OpenAI曾发布声明,称因为ChatGPT开源库中存在一个漏洞,致使一些用户可以看到其他用户的信息,包括用户姓名、电子邮件地址、付款地址、信用卡号后四位以及信用卡有效期。

ChatGPT目前拥有超过1亿用户,虽然OpenAI并未说明,“一些”用户泄露到底是多少数量级,但哪怕只有千分之一的用户接触到了这一漏洞,其后果都是不可估量的。

中国面对大模型的保守和谨慎也有一部分来源于对数据安全体系的不信任。国家层面也不断提出加大安全性测试和常态化管理投入,包括数据外泄等问题的紧急检测和修补措施,以及更先进的预防体系建设,如内控流程的完善、数据脱敏处理等,最大限度保证安全性。

数据显示,中国信息安全市场的潜在空间高达1000亿元上下,与全球安全服务市场64.4%的份额相比,我国安全服务市场占比仅为19.8%。目前国内信息安全产业依然以硬件为主,代表企业如奇安信、新华三等。软件市场空白度高,发展潜力巨大。

除了更加强大的数据安全保护之外,从根本上解决数据隐私的问题也成为一种思路,其答案就是数据合成。

合成数据即由计算机人工生产的数据,来替代现实世界中采集的真实数据,来保证真实数据的安全,它不存在法律约束的敏感内容和私人用户的隐私。

目前企业端已经在纷纷部署,这也导致合成数据数量正在以指数级的速度向上增长。Gartner研究认为,2030年,合成数据将远超真实数据体量,成为AI数据的主力军。

▲ 图源Gartner官网

二、“钞能力”的“模型中台”:需要创业大佬们的新游戏

如果我们把大模型看作一个云产品,那么数据、算力、算法可以被看做是这个产品的“IaaS”,即基础设施。而在“基础设施”和前台应用的SaaS之间,还存在一个PaaS平台作为中间层,承担起为SaaS提供部署平台,开发工具等任务。

这样的结构在AI大模型中也同样存在,当训练AI大模型的前期数据准备工作完成后,数据会被送到一个新的训练池里,在这里完成训练、推理,中间也涉及到各种开发工具、统筹调度等系统,我们也可以将其称为大模型的“炼丹炉”。

现在,大模型训练已经有ML Paltform这样的平台型解决方案覆盖从数据准备训练、验证、到模型部署和持续监控的全流程,促进端到端的模型开发。

这类公司可以简单理解为“大模型开发的一站式服务平台”,为任何想要开发或使用大模型的公司做供应商服务。

事实上,如果继续对比这些年云计算的发展和变化会发现,云厂商和企业都在不约而同地加码PaaS平台。而在AI大模型的训练过程中,为训练和推理提供工具和调度平台也正在成为一个新的市场“模型中台”。

▲ 图源DataRobot

但“模型中台”市场也存在许多问题。

比如,Forrester在《The Landscape In China, Q4 2022》报告中指出目前的市场化难点:“客户使用AI技术的关键障碍之一,是缺乏开发AI解决方案和操作AI系统的能力,而AI/ML平台是解决这一问题的有效方法。Forrester依据供应商的市场情况,将其划分为大型、中型、小型三类。”

目前国外这个市场出现了“大鱼吃小鱼”的情况,大型供应商正在通过收购AI开发过程中不同部分的小型公司,以占据更大的市场份额。

目前在全球范围内跑得比较快的是DataRobot,最新一轮完成了2.5亿美元的融资,估值达到60亿美元。Dataiku最新一轮完成了4亿美元的融资,估值达到42亿美元。还有开源公司H2O.ai,最新一轮完成了7000多万美元的融资,由高盛和平安领投。

但这还只是“模型”中台的在训练部分的机会,当一个模型完成训练之后,就进入了模型部署环节。

模型部署也是未来大模型走向B端应用的一个重要环节,也有一套专属工具。

这套工具需要与底层 ML 基础设施、运营工具以及生产环境结合,来实现模型部署的三大环节,即优化模型性能,简化模型结构,并将模型推向生产。

一般来说,模型的部署可以是几周、几天,也可以是几个小时,这要看模型部署的效率。所以更快的模型部署能力也是更强的核心竞争力。

而这类工具可以将ML工程师从基础设施和硬件层面的决策中抽象出来,协调IT团队、业务人员、工程师和数据科学家的工作,提高大模型部署团队的整体效率。

除此之外,它们还能将训练有素的模型转化为敏捷、可移植(适用于任何硬件)、可靠的软件功能,并与企业现有的应用程序堆栈和DevOps工作流程相结合。简单来说就是提高模型的环境适应能力,快速与更多业务兼容。

不过,从目前国内的情况来看,“模型中台”确实是创业大佬们的游戏,对于当下中国的AI链条来说,除了高昂的启动资金和试错成本外,更需要的是超一流的专业技术,如何合理规划平台架构,深入到训练部署的每一个环节,对创始人的框架能力要求极高。

从另一个角度来看,在这场需要“钞能力”的游戏中,创业公司和资本的关系将比此前更为密切,甚至决定生死。

文中配图来源于网络。

资料参考:https://zhuanlan.zhihu.com/p/594362766

作者:程心,编辑:罗辑

来源公众号:自象限(ID:zixiangxian),方格之间,自有象限。关心科技、经济、人文、生活。

本文由人人都是产品经理合作媒体 @自象限 授权发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。