惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Google DeepMind News
Google DeepMind News
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
Security Latest
Security Latest
P
Palo Alto Networks Blog
AWS News Blog
AWS News Blog
NISL@THU
NISL@THU
T
Threatpost
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Latest news
Latest news
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
WordPress大学
WordPress大学
J
Java Code Geeks
P
Privacy International News Feed
阮一峰的网络日志
阮一峰的网络日志
S
Schneier on Security
博客园 - 聂微东
Project Zero
Project Zero
美团技术团队
Recent Commits to openclaw:main
Recent Commits to openclaw:main
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Scott Helme
Scott Helme
I
Intezer
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
H
Hacker News: Front Page
S
Security @ Cisco Blogs
博客园 - 司徒正美
O
OpenAI News
Last Week in AI
Last Week in AI
L
LINUX DO - 热门话题
酷 壳 – CoolShell
酷 壳 – CoolShell
SecWiki News
SecWiki News
月光博客
月光博客
S
Security Affairs
The GitHub Blog
The GitHub Blog
P
Privacy & Cybersecurity Law Blog
S
Secure Thoughts
V
V2EX
S
Securelist
F
Fortinet All Blogs
W
WeLiveSecurity
D
Docker
博客园 - 三生石上(FineUI控件)
Simon Willison's Weblog
Simon Willison's Weblog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
C
Cyber Attacks, Cyber Crime and Cyber Security
V
Visual Studio Blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Webroot Blog
Webroot Blog
Engineering at Meta
Engineering at Meta

少数派

派早报:Google 发布 Fitbit Air 等 - 少数派 「新人报到」確認需求,再開始 - 少数派 从 SOLO 独立开发者社区,我看到了越来越多开发者开始做自己的产品 - 少数派 我怎么管理那些"不常做,但总会忘"的生活事项 - 少数派 人形机器人量产元年,数据才是具身智能的“生死线” - 少数派 BuhoLaunchpad 高度还原 Mac 启动台:开发历程与思考 - 少数派 五年陪伴依然不舍,DIY 换壳后让罗技 MX Master 3 继续服役 - 少数派 新玩意 240|少数派的编辑们最近买了啥? - 少数派 一日一技|为什么你应该关闭 iOS 的键盘声音 - 少数派 我做了个插件和 Skills,一键提取任何网站的设计规范 Design.md - 少数派 住在三四线城市的你,该开始录播客了 - 少数派 甘南秘境,大白高国 - 少数派 AI的审美:谁让把我变成川内倫子 - 少数派 返工怎能不烦恼,打工人片单总有一部是你的「嘴替」 - 少数派 为了让「上厕所」更健康,我做了一个小工具 - 少数派 AI + Skill,能够让生成的文章去除 AI 味吗? - 少数派 新玩意|韶音OpenDots ONE 耳夹式耳机 - 少数派 《美满》| 在每一个春天的晚上相爱(362) - 少数派 新玩意|优篮子 PS01 MagSnap 磁吸支架 - 少数派 自我整合手记 | 我开始早睡了:用稳定规则,为自由托底 - 少数派 用龙虾(OpenClaw)两个多月,我最深的12个体会 - 少数派 听歌时间到,12 张你可能错过的 2025 华语乐坛好专辑 - 少数派 承诺能追吗 - 少数派 macOS 26启动台没了? 我做了个不一样的App启动器 - Keboard - 少数派 《四海为家的人》| INTJ对话INTJ(361) - 少数派 你发过的那些黑历史,是时候一次清干净了 - 少数派 新玩意:安安静静玩,越玩越专注:计客密码机 - 少数派 iPad 用户首次体验 Android 平板:vivo Pad6 Pro - 少数派 数据逻辑强 - 少数派 极北行+ | 一路向北,探访日本至北之地 | 001 - 少数派 万字剖析:千问App深度体验报告(2026) - 少数派 在2026年,如何真正防止别人抄袭你的作品 - 少数派 怎么用 50 块搭个 AI 语音助手?我踩了 3 天坑 - 少数派 YeeroAI:让 AI 对话真正成为知识管理的一部分 - 少数派 爬泰山 - 少数派 「旅图显影」 App 更新:这次,我们补上了一点「手感」 - 少数派 假期出门太折磨?我的 23 条经验帮你规划惬意旅行 - 少数派 工作流会变吗 - 少数派 Claude Opus 4.6 怎么用最省钱?我测了 5 种方案 - 少数派 GPT Image 2 让图文并茂不再稀罕 - 少数派 用户侧出发——什么是AI,我要不要学习? - 少数派 找片、转存、整理、播放一条龙!让你的付费网盘值回票价 - 少数派 欢迎试用!日课一问2.0插件 - 少数派 自己做的MDeditor,原本想购买 Typora 试了两次支付不成功,干脆自己做一个 - 少数派 vibe coding了一个 3MB 的小工具,让 ~/Downloads 彻底告别混乱 - 少数派 因为受不了 Mac 的风扇策略,我做了一个风扇控制工具 - 少数派 别只怪模型 - 少数派 Warp 终端的 AI 功能怎么用?我测了一周的体验 - 少数派 AI 写代码老是出 bug?这 5 个配置我后悔没早知道 - 少数派 「新玩意」苹果出相机可能就这样:Sigma BF + 45mm F2.8 DG Contemporary - 少数派 一个面向2030年的AI操作系统是什么样子的:浅谈cola这款有灵魂的Agent - 少数派 别只看写代码 - 少数派 每天解决10个问题,还是一口气攻坚解决400个? - 少数派 AI 交易机器人怎么搭?我用 Claude 跑了一周实盘 - 少数派 Maptoposter Online:把你爱的城市画成艺术海报 - 少数派 Function Calling 怎么用?我测了 3 个模型发现差距真大 - 少数派 Legend Talk:我做了个 AI 圆桌,让 160 位思想家围着你的问题转 - 少数派 如何找到自己的蓝方?在小县城寻找压力测试 - 少数派 语音输入与软件接口|2026年聊AI时,我们都聊些什么(上) - 少数派 混动已经卖爆,纯电又来补刀——钛7闪充版简直“不讲武德” - 少数派 本月玩什么|朋友收藏、识质存在、沙罗周期 - 少数派 为什么要每天坚持输出? - 少数派 Claude API 挂了好几个小时,你的项目有备用方案吗? - 少数派 Function Calling 没你想的复杂——我用它做了个有点用的工具 - 少数派 登录系统立即播放视频或者图片音乐的软件 - 少数派 我为什么创建 FlipHTML5 下载工具 - 少数派 残局没电?多品牌外设电量统一管理软件EasyBluetooth已支持RTSS游戏内显示以及AIDA64 - 少数派 前往通义路的路 - 少数派 太好看了,媲美Sun的个人导航页,NAS部署星云门户 - 少数派 乌黑嘴唇“一键检测”上线了 - 少数派 派早报:Claude AI 接入多个创意软件生态、FILCO 生产方接手品牌等 - 少数派 【更新】BearCLI、Claude 连接器与 MCP 服务器 - 少数派 记了上千条流水,还是看不懂财务?我做了一个让 AI 读懂账本的工作台 - 少数派 MINI R56 升级原厂 Sport 模式 - 少数派 新玩意 | 一棵柠檬树(仿真版) - 少数派 Momenta的“物理AI”野望,需迈过“含摩量”这道关 - 少数派 网页直接投屏控制手机!NAS一键部署PandaScrcpy,流畅丝滑可远程。 - 少数派 众测|邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE - 少数派 2050大会:分享时间是真诚 参会记 - 少数派 iPad 赋能电影创作:国内首部宣纸手绘长片《燃比娃》的幕后故事 - 少数派 AI的审美:我用 8 个大模型给 100 张旅行照片打分 - 少数派 普通人如何破圈?去参加一个本地协会 - 少数派 把极空间的图标全换了,主题DIY全攻略打造你的专属NAS桌面 - 少数派 电子便签墙,帮你实现便签自由 - 少数派 我如何用三个 CLI 工具取代文档创建需求 - 少数派 原来真的有人可以玩一辈子 - 少数派 社区速递 139 | 派友热议三月买了啥、复古单反尼康 Df 体验 - 少数派 06 作品的赏析与评价 - 少数派 TDS REVIEW|索尼 WF-1000XM6 降噪真无线耳机体验 - 少数派 35.98万起售的第二代腾势D9,我看重的不是堆料,而是不凑合 - 少数派 鼠须管 Squirrel 皮肤配置指北 - 少数派 从watch ultra2换到redmi watch6 - 少数派 派早报:阿里巴巴发布视频生成模型 HappyHorse 1.0 等 - 少数派 别迷信1M - 少数派 家人们天塌了!网盘“大封杀”,多个渠道多条路,NAS部署PanHub - 少数派 AI与人勾心斗角!NAS一键部署AI狼人杀,假日休闲必备。 - 少数派 电商必备!Comfyui工作流批量生图插件,一次生成12张!支持Nano banana pro模型 - 少数派 Comfyui工作流配置Gpt-image-2模型教程,0.03/张 - 少数派 OpenClaw第三方APi怎么配置?可使用Gpt-image-2模型 - 少数派 会员社区话题精选 Ep. 103 - 少数派
OpenAI推出o3-mini:对抗DeepSeek崛起的新利器? - 少数派
2025-02-01 · via 少数派

o3-mini 挑战 DeepSeek?

科技旋涡编辑部

为了应对开源竞争对手DeepSeek-R1的迅速崛起,OpenAI发布了新的专有AI模型——o3-mini。然而,这款新模型是否足以削弱DeepSeek的成功,仍然是一个疑问。

今天,OpenAI正式发布了o3-mini,这是其“推理者”系列中的第二款模型。该系列的模型需要更多时间进行“思考”,分析自己的过程,并反思自己的“思维链”,然后才能回答用户的提问。最终,这款模型能够在数学、科学、工程等多个领域提供类似博士生或学位持有者的解答。

o3-mini现已在ChatGPT和OpenAI的API中提供,包括免费的用户也可以使用。而且,它的性能比之前的高端模型o1以及其低参数版本o1-mini更优,且价格更低。

尽管o3-mini发布的时机被认为可能是对DeepSeek-R1的回应,但需要指出的是,o3和o3-mini早在2024年12月就已经宣布。OpenAI的CEO Sam Altman曾表示,由于开发者和研究人员的反馈,o3将在ChatGPT和OpenAI API上同时发布。

与DeepSeek-R1不同,o3-mini并不会以开源形式发布——这意味着用户无法下载代码进行离线使用,也不能像DeepSeek-R1那样进行高度定制,这可能会在某些应用场景下限制它的吸引力。

OpenAI没有提供关于更大版本o3模型的更多细节,这款模型早在2024年12月与o3-mini一同发布。当时,OpenAI表示o3模型的测试将会有几周的延迟,第三方测试需要等待一段时间。

性能与特点

类似于o1,o3-mini在数学、编程和科学推理方面表现出色。

在使用中等推理难度时,o3-mini的表现与o1相当,但它有以下几大优势:

· 相比o1-mini,响应速度提高了24%(例如,o1-mini的响应时间为12.8秒,处理100个token的输出。而o3-mini的响应时间将缩短至约10.32秒)。

· 准确性提升,外部测试者更倾向于选择o3-mini的回答,偏好率达到56%。

· 复杂的现实问题中,错误率减少了39%。

· 在编程和STEM任务中表现优异,尤其是在高推理难度时。

· 提供三种推理难度级别(低、中、高),使得用户和开发者可以在准确性与速度之间找到最佳平衡。

o3-mini的上下文窗口为200,000个token,每次输出最多为100,000个token。这一性能与o1相同,并且优于DeepSeek-R1的上下文窗口(约128,000到130,000个token)。但这一数字仍然远低于Google Gemini 2.0 Flash Thinking的新上下文窗口,后者支持高达100万个token。

说明:

· GPQA Diamond: 这是一个评估模型在通用问题解答能力上的指标。

· AIME 2022-2024: 这是美国数学邀请赛(American Invitational Mathematics Examination)的一个分数段,用于评估模型在数学推理和解题能力上的表现。

· Codeforces ELO: 这是编程竞赛平台Codeforces上的一种评分系统,类似于国际象棋中的Elo评级系统,用于评估模型在编程任务上的表现。

虽然o3-mini专注于推理,但目前它还不具备视觉能力。如果开发者和用户需要上传图片或文件,仍然需要使用o1。

竞争加剧

o3-mini的发布标志着OpenAI首次向免费用户提供推理模型。此前,o1系列模型仅限于ChatGPT Plus、Pro等付费用户使用,或者通过OpenAI的付费API。

通过2022年11月推出ChatGPT,OpenAI开启了大语言模型(LLM)聊天机器人的新领域。而在2024年9月,OpenAI推出o1系列模型,正式开创了推理模型这一新类别,采用了新的训练机制和架构。

然而,OpenAI并没有将o1开源,这与其名称和最初的创立理念相悖。与之相对,DeepSeek的R1模型采用了开源方式,且完全免费,允许全球用户自由使用、修改和定制。R1模型的训练成本远低于o1和其他顶级实验室的模型,因此在消费市场和企业市场中获得了广泛应用,甚至OpenAI的投资方微软和Anthropic的支持者亚马逊也快速将其添加到自己的云市场中。

DeepSeek还推出了免费的应用和网站,并允许用户对R1模型进行修改和定制,这使得它在消费者和企业市场迅速崛起。DeepSeek的这种开源政策以及低成本训练,使其成为了一个强有力的竞争者。

ChatGPT中的可用性

o3现在在全球范围内推向ChatGPT Free、Plus、Team和Pro用户,Enterprise和Education版本将在下周推出。

免费用户可以通过选择聊天栏中的“reason(推理)”按钮或重新生成回答来首次体验o3-mini。

Plus和Team用户的消息限制提高了3倍,从每天50条增加到150条。

Pro用户将能够无限制使用o3-mini以及一个新的更高推理版本——o3-mini-high。

此外,o3-mini现在支持与搜索功能的集成,用户将能够获得包含相关网页链接的回答。这个功能仍处于初期阶段,OpenAI正在不断改进推理模型中的搜索能力。

API集成与定价

对于开发者,o3-mini已通过Chat Completions API、Assistants API和Batch API提供。该模型支持功能调用、结构化输出和开发者消息,便于开发者将其集成到实际应用中。

o3-mini的最大优势之一是其成本效益:它比o1-mini便宜63%,比完整的o1模型便宜93%,每百万token的进出费用分别为1.10美元/4.40美元(享有50%的缓存折扣)。

尽管如此,DeepSeek的R1模型的API价格仍然更具优势,仅为0.14美元/0.55美元每百万token进出。但考虑到DeepSeek总部位于中国,涉及到一些国外老生常谈的“用户数据流动的安全与地缘政治问题”,OpenAI可能仍将是美国和欧洲一些注重安全的客户和企业的首选。

开发者可以根据应用需求调整推理难度(低、中、高),以控制延迟和准确性之间的平衡。

安全性与隐私保护

OpenAI表示,在o3-mini中采用了“深思熟虑对齐”的方法。这意味着模型会思考并理解人类编写的安全指南,理解这些指南的意图和预防的危害,并且会提出自己的方法确保这些危害得到有效避免。OpenAI表示,这样可以使模型在讨论敏感话题时更加宽容,同时保持高安全性。

OpenAI称,o3-mini在处理安全性和越狱挑战时,优于GPT-4o。该模型在发布前进行了广泛的安全性测试。

最近有一些国外的第三方报道指出,DeepSeek的R1模型在50次越狱测试中“全部失败”,这将使得一些国外媒体宣传o3-mini在需要高安全性的场合更具优势。

结语:未来展望

o3-mini的发布标志着OpenAI进一步努力让先进的推理AI变得更加普及和高效,特别是在DeepSeek R1等竞争者的压力下。Google也在推出其竞争性推理模型Gemini 2 Flash Thinking,并扩展了输入上下文,支持高达100万个tokens。

OpenAI聚焦于STEM推理和成本效益,旨在扩大AI驱动的解决方案在消费者和开发者中的应用。

然而,随着OpenAI不断扩展雄心,最近宣布的一个由软银支持的5000亿美元数据中心基础设施项目Stargate,问题仍然存在:它的战略是否足以让这些巨额投资获得回报?随着开源模型不断接近OpenAI的性能并在成本上超越它,OpenAI是否能凭借其安全性、强大的能力、易用的API和用户友好的界面维持现有客户,特别是在企业市场上?我们将继续关注这些发展。