
























💡 站外导读:当AI还在回答问题时,OpenAI的GPT-5.4已经开始“完成任务”。这款最新旗舰模型首次将推理、编程、原生计算机操作、深度网页搜索和百万Token上下文整合进单一模型,无需牺牲任何单项性能。在OSWorld电脑操作测试中,它以75%成功率首次超越人类水平;在GDPval知识工作测试中,83%的任务达到或超过专业人士水准。这意味着AI正从“智能助手”向“自主执行者”转变,能够理解界面、操作鼠标键盘、跨应用完成复杂工作流程,为专业工作自动化打开了全新大门。
GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万Token上下文整合进单一模型,且未牺牲任何单项性能。在OSWorld电脑操作测试中,以75%成功率首次超越人类水平;在GDPval知识工作测试中,83%的任务达到或超过专业人士水准。GPT-5.4支持截图理解界面并执行鼠标键盘操作,可独立完成跨应用复杂任务,标志着AI从”回答问题”向”完成任务”的关键转变。

GDPval 测试:83.0% 的任务达到或超过行业专家水平(GPT-5.2 仅 70.9%)。
投行级表格建模:87.3%(GPT-5.2 为 68.4%)。
PPT 生成:人类评审68% 更偏好 GPT-5.4。
OSWorld-Verified:75.0% 成功率,首次超越人类基线 72.4%,GPT-5.2 仅 47.3%。
WebArena-Verified:67.3%,浏览器任务处理能力领先。
Online-Mind2Web:92.8%,纯截图观察即可精准操作网页。
BrowseComp:82.7%(Pro 版高达 89.3%),较 GPT-5.2(65.8%)提升 17 个百分点,创业界新高。
Toolathlon:54.6%(GPT-5.2 为 45.7%),多步骤工具调用更准确。
Token 消耗:降低 47%,工具搜索机制在保持同等准确率下大幅降本。
GPQA Diamond:92.8%(Pro 版 94.4%),科学问答接近满分。
Humanity’s Last Exam(带工具):52.1%(Pro 版 58.7%),高难度综合测试表现突出。
ARC-AGI-2:73.3%(Pro 版 83.3%),抽象推理能力大幅跃升,GPT-5.2 Pro 仅 54.2%。
单条事实错误概率:降低 33%。
完整回答出错率:降低 18%,成为 OpenAI 迄今最 factual 的模型。

gpt-5.4 或 gpt-5.4-pro 模型端点,支持最高 100 万 Token 上下文和工具搜索功能,按 Token 用量计费。/fast 开启加速模式,或使用实验性 1M 上下文窗口处理大型代码项目,支持 Playwright Interactive 可视化调试。Plus/Business订阅:含 GPT-5.4 Thinking(每周3000次)。
Pro订阅:含 GPT-5.4 Pro(不限量)。
GPT-5.4:输入 $2.50/百万Token,缓存输入 $0.25/百万Token,输出 $15/百万Token。
GPT-5.4 Pro:输入 $30/百万Token,输出 $180/百万Token。
GPT-5.4的发布标志着AI应用进入“执行时代”。从技术层面看,OpenAI成功实现了多模态能力的深度融合——计算机操作、长上下文、工具调用、视觉理解不再是割裂的功能,而是协同工作的有机整体。OSWorld测试中75%成功率超越人类基线,这个数字背后是AI对真实数字环境理解能力的质变。更值得关注的是其“智能工具调用”机制,Token消耗降低47%却保持同等准确率,这直接解决了企业级AI部署的成本痛点。从产业趋势看,GPT-5.4将加速RPA(机器人流程自动化)向IPA(智能流程自动化)演进,传统需要人工介入的跨应用复杂任务——财务建模、合同审核、数据录入——将逐步被AI Agent接管。然而,这也带来了新的挑战:当AI能够独立操作电脑完成任务时,我们需要重新思考人机协作的边界、数据安全框架以及相关伦理规范。OpenAI正通过GPT-5.4向市场传递一个明确信号:下一代AI竞争的核心不再是“谁更聪明”,而是“谁能更可靠地完成工作”。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。