





















💡 站外导读:AI正从对话工具跃升为真正的「数字员工」。专业领域知识工作、跨应用操作、深度研究——这些曾高度依赖人类判断的复杂任务,正面临被大模型全面接管的拐点。OpenAI最新发布的GPT-5.4,首次将推理、编程、电脑操作与百万级上下文整合为单一模型,并在多项权威测试中刷新纪录,甚至超越人类基线。这不仅是技术迭代,更预示着企业流程、软件开发和办公自动化的底层逻辑将被彻底改写。
GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万Token上下文整合进单一模型,且未牺牲任何单项性能。在OSWorld电脑操作测试中,以75%成功率首次超越人类水平;在GDPval知识工作测试中,83%的任务达到或超过专业人士水准。GPT-5.4支持截图理解界面并执行鼠标键盘操作,可独立完成跨应用复杂任务,标志着AI从”回答问题”向”完成任务”的关键转变。

GDPval 测试:83.0% 的任务达到或超过行业专家水平(GPT-5.2 仅 70.9%)。
投行级表格建模:87.3%(GPT-5.2 为 68.4%)。
PPT 生成:人类评审68% 更偏好 GPT-5.4。
OSWorld-Verified:75.0% 成功率,首次超越人类基线 72.4%,GPT-5.2 仅 47.3%。
WebArena-Verified:67.3%,浏览器任务处理能力领先。
Online-Mind2Web:92.8%,纯截图观察即可精准操作网页。
BrowseComp:82.7%(Pro 版高达 89.3%),较 GPT-5.2(65.8%)提升 17 个百分点,创业界新高。
Toolathlon:54.6%(GPT-5.2 为 45.7%),多步骤工具调用更准确。
Token 消耗:降低 47%,工具搜索机制在保持同等准确率下大幅降本。
GPQA Diamond:92.8%(Pro 版 94.4%),科学问答接近满分。
Humanity’s Last Exam(带工具):52.1%(Pro 版 58.7%),高难度综合测试表现突出。
ARC-AGI-2:73.3%(Pro 版 83.3%),抽象推理能力大幅跃升,GPT-5.2 Pro 仅 54.2%。
单条事实错误概率:降低 33%。
完整回答出错率:降低 18%,成为 OpenAI 迄今最 factual 的模型。

gpt-5.4 或 gpt-5.4-pro 模型端点,支持最高 100 万 Token 上下文和工具搜索功能,按 Token 用量计费。/fast 开启加速模式,或使用实验性 1M 上下文窗口处理大型代码项目,支持 Playwright Interactive 可视化调试。Plus/Business订阅:含 GPT-5.4 Thinking(每周3000次)。
Pro订阅:含 GPT-5.4 Pro(不限量)。
GPT-5.4:输入 $2.50/百万Token,缓存输入 $0.25/百万Token,输出 $15/百万Token。
GPT-5.4 Pro:输入 $30/百万Token,输出 $180/百万Token。
GPT-5.4的发布,标志着大模型竞争正式进入「任务执行」阶段。此前AI更多扮演信息助手,而今它已能独立操作电脑、完成跨应用工作流——这是从Copilot到Autopilot的质变。对企业而言,RPA、知识型岗位、初级开发任务将首当其冲被重构;对个人而言,如何与这类「Agent型AI」协同将成为核心能力。值得注意的是,OpenAI通过工具搜索机制大幅降低Token消耗,显示其正从技术炫耀转向成本可控的商业落地。结合近期谷歌、Anthropic在Agent领域的动作,2024年将成为企业级AI自动化的元年。但挑战同样存在:高阶Pro版本定价仍属企业级,普通用户触达有限;而AI自主操作带来的安全、审计与责任界定问题,将是下一阶段行业必须直面的关键议题。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。