























💡 站外导读:当AI从聊天机器人进化为能独立操作电脑、处理复杂专业任务的智能体,一场深刻的生产力革命已然到来。OpenAI最新发布的旗舰模型GPT-5.4,正是这一转折点的标志性产品。它首次将推理、编程、计算机操作、深度搜索和百万级上下文整合于单一模型,并在多项权威测试中首次超越人类专家水平。这不仅标志着AI能力的跨越式提升,更预示着从“辅助回答”到“自主执行”的范式转变,将彻底重塑知识工作者的工作方式与企业的自动化流程。
GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万Token上下文整合进单一模型,且未牺牲任何单项性能。在OSWorld电脑操作测试中,以75%成功率首次超越人类水平;在GDPval知识工作测试中,83%的任务达到或超过专业人士水准。GPT-5.4支持截图理解界面并执行鼠标键盘操作,可独立完成跨应用复杂任务,标志着AI从”回答问题”向”完成任务”的关键转变。

GDPval 测试:83.0% 的任务达到或超过行业专家水平(GPT-5.2 仅 70.9%)。
投行级表格建模:87.3%(GPT-5.2 为 68.4%)。
PPT 生成:人类评审68% 更偏好 GPT-5.4。
OSWorld-Verified:75.0% 成功率,首次超越人类基线 72.4%,GPT-5.2 仅 47.3%。
WebArena-Verified:67.3%,浏览器任务处理能力领先。
Online-Mind2Web:92.8%,纯截图观察即可精准操作网页。
BrowseComp:82.7%(Pro 版高达 89.3%),较 GPT-5.2(65.8%)提升 17 个百分点,创业界新高。
Toolathlon:54.6%(GPT-5.2 为 45.7%),多步骤工具调用更准确。
Token 消耗:降低 47%,工具搜索机制在保持同等准确率下大幅降本。
GPQA Diamond:92.8%(Pro 版 94.4%),科学问答接近满分。
Humanity’s Last Exam(带工具):52.1%(Pro 版 58.7%),高难度综合测试表现突出。
ARC-AGI-2:73.3%(Pro 版 83.3%),抽象推理能力大幅跃升,GPT-5.2 Pro 仅 54.2%。
单条事实错误概率:降低 33%。
完整回答出错率:降低 18%,成为 OpenAI 迄今最 factual 的模型。

gpt-5.4 或 gpt-5.4-pro 模型端点,支持最高 100 万 Token 上下文和工具搜索功能,按 Token 用量计费。/fast 开启加速模式,或使用实验性 1M 上下文窗口处理大型代码项目,支持 Playwright Interactive 可视化调试。Plus/Business订阅:含 GPT-5.4 Thinking(每周3000次)。
Pro订阅:含 GPT-5.4 Pro(不限量)。
GPT-5.4:输入 $2.50/百万Token,缓存输入 $0.25/百万Token,输出 $15/百万Token。
GPT-5.4 Pro:输入 $30/百万Token,输出 $180/百万Token。
GPT-5.4的发布绝非一次简单的模型迭代,而是AI Agent时代正式开启的宣言。其核心突破在于“原生计算机操作”与“任务闭环能力”的实现——AI首次能像人类一样,通过屏幕截图理解界面,并自主操作鼠标键盘完成跨应用复杂任务。这意味着AI的边界从文本生成,正式扩展至物理世界的数字交互。结合其75%的OSWorld测试成功率首次超越人类,我们看到的不是一个更聪明的聊天机器人,而是一个可以7×24小时工作的“数字员工”。从行业趋势看,这将加速企业RPA(机器人流程自动化)向IPA(智能流程自动化)的跃迁,初级的知识工作、数据录入、报表生成等岗位面临重构。但更重要的是,它为开发者提供了构建真正自主Agent的基础设施,Playwright交互调试等功能将大幅降低复杂应用的开发门槛。OpenAI通过降低47%的工具调用Token消耗,也显示出其构建经济可扩展的Agent生态的野心。GPT-5.4不仅是一个工具,更是通往AGI道路上一个清晰的里程碑:AI开始真正理解并行动于我们构建的数字世界。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。