



















💡 站外导读:随着AI应用向实时化、复杂化演进,模型推理效率与成本成为落地关键瓶颈。阶跃星辰最新发布的Step 3模型,正是瞄准这一痛点,通过MoE架构与系统创新,在保持321B总参数强大能力的同时,将激活参数控制在38B,并在国产及主流芯片上实现推理效率数倍提升。这标志着多模态大模型正从“能力竞赛”转向“效能竞赛”,为大规模行业应用铺平道路。
Step 3 是阶跃星辰最新发布的新一代基础大模型,专为推理时代设计,兼具高性能与极致成本效益。采用 MoE 架构,拥有 321B 总参数量 和 38B 激活参数量,是首个全尺寸、原生多模态推理模型,具备强大的视觉感知和复杂推理能力,能在多个领域实现高效应用。通过 AFD 分布式推理系统 和 MFA 注意力机制,实现了推理效率的大幅提升。在国产芯片上,推理效率可达同类模型的 3 倍,在 NVIDIA Hopper 架构芯片上吞吐量提升超 70%,显著降低了推理成本。Step 3 将于 7 月 31 日 正式开源,为全球开发者和企业提供最强的多模态推理模型。

视觉感知:Step 3 能准确识别和分析图像和视频中的复杂信息,例如在反光严重的菜单识别中,依然能准确还原内容。
复杂推理:支持跨领域的复杂知识理解、数学与视觉信息的交叉分析,例如结合微信群聊天记录和购物小票自动计算 AA 制消费分摊。
多模态任务处理:作为原生多模态模型,Step 3 能处理语言、视觉等多种模态的任务,满足多样化应用场景需求。
高效推理:通过系统架构创新,Step 3 在推理效率上表现出色。在国产芯片上,推理效率最高可达 DeepSeek-R1 的 300%,在 NVIDIA Hopper 架构芯片上吞吐量提升超 70%。
硬件友好:Step 3 适配多种硬件平台,包括主流和国产芯片,能显著降低推理成本,提升资源利用率。
Attention 计算:极度消耗内存带宽的任务,分配给内存带宽大的 GPU 集群。
FFN 计算:极度消耗算力的任务,分配给算力强大的 GPU 集群。
MFA 注意力机制:优化算术强度,适配主流和国产芯片的性能特征,实现跨硬件平台的高效推理。
金融财经:Step 3 可以用于金融风险评估、智能客服、市场分析等场景。通过多模态数据处理,模型能更准确地分析市场趋势和用户需求。
内容创作:Step 3 可以辅助内容创作者生成创意文案、图像和视频内容。例如,结合视觉和文本信息生成高质量的广告文案或视频脚本。
视觉识别:Step 3 能处理复杂的视觉任务,如反光菜单识别、图像分类、目标检测等。
复杂推理:Step 3 支持跨领域的复杂知识理解,例如结合微信群聊天记录和购物小票自动计算 AA 制消费分摊。
自然语言处理:Step 3 在自然语言处理任务中表现出色,能理解并生成高质量的文本内容。
Step 3的发布精准抓住了当前大模型发展的核心矛盾:如何在模型能力与推理成本间取得最优解。其采用的MoE架构与AFD分布式系统,本质是将工程优化提升到算法同等重要的位置,这或许是下一阶段AI竞争的关键。特别值得注意的是其对国产芯片的适配与效率提升,这不仅是技术亮点,更是战略考量,为国产算力生态注入强心剂。开源决策也将加速技术民主化,推动推理成本进一步下探,催生更多实时、交互式的AI原生应用。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。