惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

D
Docker
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
K
Kaspersky official blog
Help Net Security
Help Net Security
宝玉的分享
宝玉的分享
博客园_首页
有赞技术团队
有赞技术团队
量子位
N
News and Events Feed by Topic
美团技术团队
PCI Perspectives
PCI Perspectives
aimingoo的专栏
aimingoo的专栏
P
Proofpoint News Feed
Microsoft Azure Blog
Microsoft Azure Blog
Hacker News: Ask HN
Hacker News: Ask HN
IT之家
IT之家
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
The Exploit Database - CXSecurity.com
Cyberwarzone
Cyberwarzone
S
Security @ Cisco Blogs
The Register - Security
The Register - Security
Microsoft Security Blog
Microsoft Security Blog
雷峰网
雷峰网
爱范儿
爱范儿
H
Hacker News: Front Page
T
Troy Hunt's Blog
NISL@THU
NISL@THU
Forbes - Security
Forbes - Security
N
News | PayPal Newsroom
H
Heimdal Security Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
F
Full Disclosure
C
Cybersecurity and Infrastructure Security Agency CISA
S
Schneier on Security
S
Secure Thoughts
Attack and Defense Labs
Attack and Defense Labs
C
CERT Recently Published Vulnerability Notes
T
Tailwind CSS Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
E
Exploit-DB.com RSS Feed
Cisco Talos Blog
Cisco Talos Blog
P
Palo Alto Networks Blog
P
Proofpoint News Feed
J
Java Code Geeks
酷 壳 – CoolShell
酷 壳 – CoolShell
V
Visual Studio Blog
Engineering at Meta
Engineering at Meta
A
About on SuperTechFans
N
Netflix TechBlog - Medium
The Hacker News
The Hacker News

BlogFinder

日常漫步 Vol.24 之漫步前山河 - 雅余 周报 #1-聊聊本周的收获 - Edwin's Blog 我的OpenCode必装插件与Skill Write Something 掌中之物未必在掌握之中 · CRIVU PiliNara,一个更顺手的 PiliPlus 分支 「NekoEcho」:做一个必有回响的猫娘主题博客 2026-05 书影音总结 简化博客主题 - 安迪 你要加油呐 我第一次发布 npm 包 拾花小记#45:中考前的二三事 – 小改学习志 黛西花园5月游 #18 枇杷又熟了的五月月报 一些奇奇怪怪的需求?word仿方正书版的几个小操作 - Xiobb's Blog 0419 御温泉之旅 修复了一些bug,网站基本上趋于稳定了 - 新锐博客 又回到四十年前 如何定义成功 迷鹿屋2026已重新上线 科技冰火两重天+一周回顾 ${title} 热度退了,我反而用得更深了-咕咚同学 我到底该不该换个域名? 随身WIFI折腾记 - 安迪 博客撰写体验提升——hexo pro插件 为什么不用相机把屏幕上的接关密码拍下来? 国清寺与天台山 – Ouroboros ★★★★☆《挽救计划》——久违的经济上行感 - Davidの3号基地 删除右键“打开方式”里多余选项 第三周刊_No.53|一切都会被支付两次 安卓APP通话记录与录音上传踩坑记录 - 子舒的博客 天量下跌 inBox 笔记 2.3.8,把工具栏交给了你-咕咚同学 我把小龙虾搬到了微信-咕咚同学 安好 - 响石潭 Compound Engineering Plugin:让每个工程单元都比上一个更容易 MOSS-TTS Family:开源高质量语音与声音生成模型家族深度解析 Crawl4AI:专为 LLM 设计的开源 Web 爬虫与数据抓取工具 Build Your Own X:从零实现你最喜欢的技术——程序员进阶的终极资源清单 Anthropic Skills:用文件夹教 Claude 专业技能的开源框架 1年的去月球(下) - 梅之夏 欢迎回来。 简单讲讲 ASN.1 与 OID DTV - 直播聚合客户端 5.22-5.27 – 不兴江 还没去过鸭川 – 不兴江 张晶晶同学三刷林志颖 关于我 – 不兴江 爱与嫉妒 – 不兴江 港股被持续做空 备案码花了四百块-咕咚同学 一句话生成封面:我给公众号做了4种风格的AI封面生成技能 「官」方認證 再谈费曼学习法 2026-05-28T00:34:11+08:00 2026-05-28T00:28:45+08:00 离谱的英语学习指南:基于AI的英语进阶系统方法论 iii:零集成架构的后端统一运行时 Claude Code Harness:让 Claude Code 工作有迹可循的工程化框架 Heretic:全自动移除大语言模型审查机制的开源工具 MarkItDown:微软开源的万能文档转 Markdown 利器 Harness:让 Claude Code 秒变多智能体协作工厂 这段时间尽折腾AI Agent了,确实极大地提高了效率 近期动态:两个新站点正式上线啦 误判解除!zhouayuan.com 腾讯安全申诉成功 - 周阿源|玩具设计・插画日常・生活随笔 Ralph:让 AI 编码工具自主循环跑完所有 PRD 任务的量产神器 全都违法 – 个人工作记录 关于zhouayuan.com被误判 “含违规信息” 的说明与申诉记录 - 周阿源|玩具设计・插画日常・生活随笔 小米 MiMo v2.5 Pro 白嫖 最大的人间清醒,兜里有钱,但是不花。 夜晚靓歌(12):于文文现场solo - 王志勇的Blog 今日插画:风扬起的倔强 - 周阿源|玩具设计・插画日常・生活随笔 回门习俗 独立网卡 - 忘记了回忆 500亿入股人工智能企业 从命令行到桌面智能体-咕咚同学 第一性原理读书笔记 行者微评论223-加班の守株待兔-博客|政治与时事-风雨行者 ZOZO开源物理接触求解器:GPU加速的可扩展仿真引擎 OpenStock:开源股票市场交易平台技术深度解析 MoneyPrinterTurbo:基于AI的全自动短视频生成工具深度解析 Claude-Mem:为 Claude Code 构建的持久化记忆压缩系统 Twenty:可代码化定制的企业级开源 CRM 平台技术深度解析 2026-05-26T22:59:17+08:00 企业级开源大模型部署平台 GPUStack 实战教程 1年的去月球(上) - 梅之夏 Sevalla - 静态网站托管服务 不用翻墙、不用注册、不用月费,普通人也能用上 Claude Code 装修灯具要注意⚠️ 黄梅天先锋 - 游子微博 公安备案顺利办结,站点备案全部完成 - 周阿源|玩具设计・插画日常・生活随笔 第三次兑换天猫超市卡了宗宗酱-三维狐少儿编程 Don't think, feel. - Rolen's Blog 人这一辈子,到底图个什么 博客迁移 - Edwin's Blog 情感赛道写作模板 再现本轮行情的典型特征 裁员与平常心-咕咚同学 别让“偷懒”,成为隐私泄露的破绽
2026 AI 大模型数学高考 - Shawn
Shawn · 2026-06-15 · via BlogFinder


  • 2026 AI 大模型数学高考,结果出人意料:有人考满分,有人不及格
  • 国外模型是否还遥遥领先?
  • 谁才是真正的中国一模?
  • 能力差距逐渐缩小,算力差距何时补齐?

测试方案

主要测试点

  • 语言理解能力

  • 大模型数学推理能力

  • 对 latext 公式的理解


规则

  • 所有大模型测试采用相同提示词

  • 试题选自2026数学高考全国卷1,排除了有示意图以及需要证明过程的解答题,总计100分,每道小题都明确了分数

    • 单选8道题,每题5分,共40分

    • 多选3道题,每题6分,共18分,漏选得3分,错选不得分

    • 填空题3道,每题5分,共15;其中13题是两个空,每空算2.5分

    • 解答题两道,5小问,前4问每题5分,最后一问7分,共27分

  • 题目已经转化为markdown,公式使用 latex,试题及答案都经过仔细核对

  • 第一轮做考生,进行答题

  • 第二轮做阅卷老师,自己给自己评分


解题提示词

展开查看解题提示词
## 一、单选题

本题共 8 小题,每小题 5 分,共 40 分,每小题只有一个选项符合要求。

1. 样本数据 $6,8,4,5,12$ 的中位数为
   - A. $5$
   - B. $6$
   - C. $8$
   - D. $9$

2. 已知平面向量 $\mathbf a,\mathbf b$ 不共线,且 $2\mathbf a+y\mathbf b=x\mathbf a-3\mathbf b$,则
   - A. $x=2,\ y=-3$
   - B. $x=-2,\ y=3$
   - C. $x=2,\ y=3$
   - D. $x=-2,\ y=-3$

3. 已知集合 $A=\left\{\sin\left(\frac{7\pi}{6}\right),\cos\left(\frac{5\pi}{3}\right),\tan\left(\frac{5\pi}{4}\right)\right\}$,$B=\left\{-\frac{\sqrt3}{2},-\frac12,1\right\}$,则 $A\cap B=$
   - A. $\left\{-\frac{\sqrt3}{2},-\frac12\right\}$
   - B. $\left\{-\frac{\sqrt3}{2},1\right\}$
   - C. $\left\{-\frac12,1\right\}$
   - D. $\left\{-\frac{\sqrt3}{2},-\frac12,1\right\}$

4. 曲线 $y=5x+8\ln x$ 在点 $(1,5)$ 的切线方程为
   - A. $y=3x+2$
   - B. $y=5x$
   - C. $y=8x-3$
   - D. $y=13x-8$

5. 已知抛物线 $C_1:y^2=2p_1x\ (p_1>0)$ 和 $C_2:x^2=2p_2y\ (p_2>0)$ 均经过点 $(4,8)$,则 $C_1$ 的焦点与 $C_2$ 的焦点之间的距离为
   - A. $12$
   - B. $4\sqrt5$
   - C. $6$
   - D. $\frac{\sqrt{65}}{2}$

6. 已知函数 $f(x)=\frac{x+2}{e^x+a}$ 的最大值为 $1$,则 $a=$
   - A. $\frac12$
   - B. $1$
   - C. $\frac32$
   - D. $2$

7. 一百零八塔位于宁夏回族自治区青铜峡市,以其独特的建筑格局和深远的历史文化闻名遐迩,该塔群共有 108 座塔,依山势自上而下排成 12 行,将第 $i$ 行中塔的座数记为 $a_i\ (i=1,2,\cdots,12)$,其中 $a_1=1$,$a_2=a_3=3$,$a_4=a_5=5$,且 $a_6,a_7,\cdots,a_{12}$ 是一个首项为 $7$、公差为 $2$ 的等差数列,将 $a_1,a_2,\cdots,a_{12}$ 分为 6 组,每组 2 个数,使得每组的 2 个数之和可构成一个项数为 6 且公差为 $d\ (d>0)$ 的等差数列,则 $d=$
   - A. $2$
   - B. $4$
   - C. $6$
   - D. $8$

8. 设 $U=\{(x_1,x_2,x_3)\mid x_i\in\{-2,-1,1,2\},\ i=1,2,3\}$ 为空间中 64 个点构成的集合,记 $P=(1,1,1)$,记样本空间 $\Omega=C_U\{P\}$,从 $\Omega$ 中随机取一个点,定义随机变量 $X$ 如下:对 $\Omega$ 中的每个点 $A(x_1,x_2,x_3)$,令 $X(A)=x_1+x_2+x_3$,则 $X$ 的数学期望为
   - A. $-\frac1{21}$
   - B. $-\frac1{63}$
   - C. $0$
   - D. $\frac17$

## 二、多选题

本题共 3 小题,每小题 6 分,共 18 分。在每小题给出的四个选项中,有多项符合题目要求。全部选对的得 6 分,部分选对的得3分,有选错的得 0 分。

9. 设 $z=3+2i$,则
   - A. $\bar z=3-2i$
   - B. $|z|=5$
   - C. $z^2=5+12i$
   - D. $\frac{z+3}{z-i}\in\mathbb R$

10. 在空间中,$A$、$B$ 为两个定点,动点 $C$ 到直线 $AB$ 的距离为 $2$,动点 $D$ 到直线 $AB$ 的距离为 $1$,若二面角 $C-AB-D$ 为 $60^\circ$,则
    - A. $\angle CAD\ge 60^\circ$
    - B. $CD\ge\sqrt3$
    - C. 当 $AB\perp CD$ 时,$CD\perp$ 平面 $ABD$
    - D. 当 $AB\perp$ 平面 $ACD$ 时,$AC\perp AD$

11. 已知圆 $C_1:(x+1)^2+y^2=1$,圆 $C_2:(x-1)^2+y^2=1$,圆 $C_3:x^2+(y-\sqrt3)^2=1$,直线 $l:y=kx+b$ 与 $C_1,C_2,C_3$ 均有两个交点,记 $l$ 被 $C_1,C_2,C_3$ 截得的弦长分别为 $s_1,s_2,s_3$,则
    - A. $k$ 可以取任意实数
    - B. 满足 $s_1=s_2=s_3$ 的直线 $l$ 共有 3 条
    - C. 满足 $s_1+s_2+s_3=1$ 的直线 $l$ 多于 3 条
    - D. 当 $b=0$ 时,$s_1+s_2+s_3$ 的最大值为 $\frac{2\sqrt{21}}{3}$

## 三、填空题

本题共 3 小题,每小题 5 分,共 15 分, 其中 13题两空,每空2.5分。

12. 双曲线 $5x^2-6y^2=1$ 的离心率为 ______。

13. 已知 $f(x)=2\sin(ax+\theta)\ (a\in\mathbb Z,\ 0\le\theta<2\pi)$ 是偶函数,$f(x)$ 在区间 $\left(0,\frac{\pi}{2}\right)$ 单调递增,则 $\theta=$ ______, $f(\frac{2\pi}{3})=$ ______ 。

14. 设实数 $q$ 满足:存在数列 $\{a_n\}$,使得对于任意 $n\in\mathbb N^*$,均有 $a_1+a_2+\cdots+a_{3n}=n^2+n$,且 $\{a_n\}$ 中有某连续 9 项 $a_k,a_{k+1},\cdots,a_{k+8}$ 是公比为 $q$ 的等比数列,则 $q$ 的最大值为 ______。

## 四、解答题

15. 已知在 $\triangle ABC$ 中,$AB=3$,$BC=2\sqrt{3}$,$\cos B=\dfrac{\sqrt{3}}{3}$。

  (1)求 $\cos A$;(5分)

  (2)设 $D$,$E$ 两点满足:$D$ 在 $BA$ 的延长线上,$DE \parallel BC$,$AE \perp AC$。若 $DE=\sqrt{6}$,求 $CE$。(5分)


16. 已知椭圆 $C:\dfrac{x^2}{a^2}+\dfrac{y^2}{b^2}=1(a>b>0)$ 的左焦点为 $F(-1,0)$,离心率为 $\dfrac{1}{2}$。

  (1)求 $C$ 的方程;(5分)

  (2)设 $O$ 为坐标原点,过 $F$ 且斜率大于 $0$ 的动直线 $l$ 与 $C$ 交于 $P,Q$ 两点,其中 $Q$ 在第三象限,直线 $PO$ 与 $C$ 的另一个交点为 $R$。

   (i)若 $\triangle PQR$ 的面积是 $\triangle PFO$ 的面积的 $3$ 倍,求 $l$ 的方程;(5分)

   (ii)求 $\tan \angle PQR$ 的最小值。(7分)

-----------------

解答上述所有题目,直接给出答案,不要输出解题过程

阅卷提示词

展开查看阅卷提示词
1-8: BACDDBBA

9:  ACD

10: BC

11: BCD

12: $\frac{\sqrt{66}}{6}$

13: $\frac{3\pi}{2}$, 1

14: $\sqrt[3]{\frac{3}{2}}$

15: (1) $cos(A) = \frac{1}{3}$; (2) $|CE| = 3\sqrt{5}$

16: (1) C: $\frac{x^2}{4}+\frac{y^2}{3}=1$; (2) i: $l$ 的方程是 $y=\frac{\sqrt{5}}{2}(x+1)$; ii: $\tan \angle PQR$ 最小值是 $4\sqrt{3}

上面是参考答案,你根据参考答案对自己之前的解答进行检查,并且根据评分标准给每道题打分(多选题中漏选得一半分,错选不得分)。
不需要对比分析解题过程,只需要列出一个对比表格,包含:题号、参考答案、我的答案、是否正确、该题得分。
最后输出得分统计:`{我的模型名称}:{我的总得分}`

参赛模型与成绩

大模型 结果 备注
ChatGPT 94
Gemini 3.5 Flash 51
Gemini 3.1 Pro 97
豆包 快速模式 41
豆包 深度思考 70 两道解答题没有解答
Kimi K2.6 快速 44 评分失误
Kimi K2.6 思考 94
MiniMax M3 快速 65
MiniMax M3 思考 94
千问 qwen-3.7-max 快速 42
千问 qwen-3.7-max 思考 55.5 说自己模型是Claude,第一次考了46
智谱清言 glm-5.1 快速 31 篡改参考答案,评分严重失误
智谱清言 glm-5.1 思考 78 评分失误
小米 Mimo-V2.5-Pro 94
腾讯元宝 HY3 快速 49
腾讯元宝 HY3 思考 56 评分严重失误
deepseek-v4-pro 快速 59.5
deepseek-v4-pro 思考 100
deepseek-v4-flash 快速 52
deepseek-v4-flash 思考 100

按照成绩排名如下:

主流大模型解答2026年高考数学题的成绩

(总分100,删除了证明题)

排名 模型名称 模式 分数
1 deepseek-v4-pro 思考 100
1 deepseek-v4-flash 思考 100
3 Gemini 3.1 Pro - 97
4 ChatGPT - 94
4 Kimi K2.6 思考 94
4 MiniMax M3 思考 94
4 小米 Mimo-V2.5-Pro - 94
8 智谱清言 glm-5.1 思考 78
9 豆包 深度思考 70
10 MiniMax M3 快速 65
11 deepseek-v4-pro 快速 59.5
12 腾讯元宝 HY3 思考 56
13 千问 qwen-3.7-max 思考 55.5
14 deepseek-v4-flash 快速 52
15 Gemini 3.5 Flash - 51
16 腾讯元宝 HY3 快速 49
17 Kimi K2.6 快速 44
18 千问 qwen-3.7-max 快速 42
19 豆包 快速模式 41
20 智谱清言 glm-5.1 快速 31

从最终结果来看,可以总结如下: - deepseek-v4-pro、kimi2.6、GLM5.1和Gemini3.1-Pro、GPT5.5属于第一梯队。 - 但是deepseek-v4-pro、kimi2.6、GLM5.1速度没法和国外的比,国外的基本三分钟以内就出来了,国产开了思考模式,基本都10分钟以上。 - MiniMax-M3、小米Mimo-V2.5-Pro发挥不稳定,容易出现评分错误。 - 各家的快速模式,基本都不及格。 - 千问qwen-3.7-max思考模式,测了两次都不及格,很不符合预期。 - 腾讯Hy3开了思考模式也不及格,本来也没报很大期待。 - 豆包思考模式能力可以,但是时间太长了,基本等不起。

最终我觉得如果用于编程这类注重数学推理能力的任务时,国产里面推荐deepseek、kimi。

2026-06-15 09:25:02