惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

F
Full Disclosure
Recorded Future
Recorded Future
T
Tenable Blog
S
Securelist
C
CERT Recently Published Vulnerability Notes
T
Threatpost
S
Schneier on Security
A
Arctic Wolf
The Hacker News
The Hacker News
C
CXSECURITY Database RSS Feed - CXSecurity.com
Know Your Adversary
Know Your Adversary
P
Privacy International News Feed
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
The Register - Security
The Register - Security
Cisco Talos Blog
Cisco Talos Blog
AWS News Blog
AWS News Blog
K
Kaspersky official blog
T
True Tiger Recordings
T
Threat Research - Cisco Blogs
V
Vulnerabilities – Threatpost
P
Palo Alto Networks Blog
T
The Exploit Database - CXSecurity.com
小众软件
小众软件
B
Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Microsoft Azure Blog
Microsoft Azure Blog
Cyberwarzone
Cyberwarzone
C
Cybersecurity and Infrastructure Security Agency CISA
T
Tor Project blog
Spread Privacy
Spread Privacy
Malwarebytes
Malwarebytes
P
Proofpoint News Feed
F
Fox-IT International blog
F
Fortinet All Blogs
P
Privacy & Cybersecurity Law Blog
G
GRAHAM CLULEY
量子位
Latest news
Latest news
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 叶小钗
Project Zero
Project Zero
T
Tailwind CSS Blog
N
Netflix TechBlog - Medium
Martin Fowler
Martin Fowler
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
I
Intezer
博客园_首页
腾讯CDC
H
Hackread – Cybersecurity News, Data Breaches, AI and More
D
Darknet – Hacking Tools, Hacker News & Cyber Security

博客园 - iTech

OpenRouter 最新 Agent 使用排行榜:谁在真正消费 AI 算力? - iTech Anthropic 开源 Knowledge Work Plugins:11 个角色插件让 Claude 变成你的专业同事 华为韬定律(Tau Scaling Law):用时间缩微绕开光刻机封锁,2031 年追平 1.4nm 微软 Webwright:一个终端就够了,把 LLM 变成顶级浏览器 Agent AI 技术日报 - 2026-05-27 pi-web:给 Pi 编码 Agent 加一个浏览器界面,比终端更直观 Why Do We Need oh-my-pi?当编码 Agent 终于把 IDE 的能力带了进来 There Are Many Agent Harnesses, But pi.dev Is Yours - iTech 38K Stars 的 daily_stock_analysis:LLM 驱动的零成本股票分析系统,5 分钟部署 DeepSeek-Reasonix:一个为缓存而生的终端编程 Agent,99.8% 缓存命中率的秘密 AI 技术日报 - 2026-05-26 Google 开源分布式 Agent 运行时 AX:让 AI Agent 像微服务一样可靠 不用 Embedding 也能做知识 Agent?Vercel 用文件系统干掉了向量检索管线 AI 技术日报 - 2026-05-25 Hermes Agent 接入 Microsoft Teams 全指南:6 步让你的 AI Agent 进群聊 Understand Anything:把任何代码库变成可交互知识图谱,23k star 的 AI 编程理解神器 腾讯开源 openclaw-weixin:让你的 AI Agent 直连微信,扫码即用 什么是 Agent-Native?如何把你的网站升级成面向 AI Agent 的网站 AI 技术日报 - 2026-05-24 Claude Code 为什么放弃 RAG 用 Grep 搜索代码?大型代码库最佳实践全解析 DeepSeek V4 Pro 永久降价 75%:旗舰推理模型进入白菜价时代 Runtime (YC P26):给每个团队配一个沙盒 AI Agent,产品经理也能提 PR Models.dev:查 AI 模型价格不用再开十几个网页了,4,844 个模型一站式对比 Superset (YC P26):Agent 时代的全新 IDE,同时跑 10 个 Claude Code 互不干扰 AI 技术日报 - 2026-05-23 3.5 个月 4.3 万 Star:nanobot 凭什么成为最火的开源 AI Agent CodeGraph:给 AI 编程助手装上代码知识图谱,省 35% 费用、减少 70% 工具调用 AI Engineering from Scratch:435 节课从线性代数到自主 Agent,每个算法手写一遍 Lucarne:不用盯着电脑也能掌控 AI Agent,微信/Telegram 远程遥控本地编码助手 财富正在向 AI 集中:三个万亿级 IPO 同场竞技,一场前所未有的造富运动 程序员必备核心技能手册:从 Linux 到 Docker 的实战速查 Deep:DeepSeek 版的 Aider / Claude Code,开源 CLI 编程工具新选择 AI 技术日报 - 2026-05-22 PUA vs NoPUA:用恐惧还是用爱驱动 AI Agent?一场 17000 Star 的路线之争 Anthropic 停招 L6 以下:当最强 AI 公司自己都不招初级工程师了 CLI for Microsoft 365 实战:用命令行操控 Teams 收发消息 面试 AI Agent 工程师会被问什么?40+ 真题 + 知识图谱全梳理 7 个标准正在重塑 AI 开发:从 MCP 到 AG-UI,一文看懂 Agent 时代的协议栈 SpaceX IPO:史上最大上市案,1.75万亿到2万亿美元的估值到底买了什么? DeepSeek 悄悄挂出 Agent Harness 岗位:Model + Harness = Agent,要做智能体产品了? AI 技术日报 - 2026-05-21 Claw 和 Hermes 精选 10 个零成本 Skills:让 AI Agent 能力翻倍 Stainless:AI 时代最被低估的幕后公司,你用的每个 SDK 可能都出自他们之手 飞书 CLI vs 企业微信 CLI vs 钉钉 CLI:三大办公平台终端工具横评 12-Factor Agents:从 21k Star 的开源项目看 AI Agent 的正确构建姿势 AI 技术日报 - 2026-05-20 Semble:让 AI Agent 搜代码的 Token 消耗直降 98%,怎么做到的 CloakBrowser:15k Star 的隐形浏览器,49 个 C++ 补丁干翻所有反爬检测 AI 技术日报 - 2026-05-19 面向 Agent 的软件开发:当软件的第一用户不再是人类 8MB 内存跑 AI 编程代理?Zerostack 用纯 Rust 证明:Agent 不需要那么重 AI 技术日报 - 2026-05-18 AI 技术日报 - 2026-05-17 AI 技术日报 - 2026-05-16 Anthropic 发布创始人手册:AI Native 公司不是多招几个工程师,是换一种活法 "不用 AI 就会被淘汰"——这是我听过最懒惰的恐吓 0.79ms 创建一个安全沙箱:zeroboot 用 COW 打穿 AI Agent 隔离的性能天花板 2000+ API 一把梭:agentic-ai-apis 让你少写 80% 的基础设施代码 AI 技术日报 - 2026-05-15 OpenHuman:一个让你在几分钟内拥有 AI 超级智能的开源项目 开源项目怎么选 License?个人免费、企业收费的 6 种方案全对比 browser-use vs browser-harness vs agent-browser:AI Agent 浏览器自动化工具终极选型指南 AI 技术日报 - 2026-05-14 一个 Deep Agent 到底能干什么?从功能视角拆解它的全部能力 Deep Agents SDK 功能全清单:我逐行读了源码,整理出这份完整参考手册 7MB 干翻 200MB?开源终端 Terax AI 能不能替代 Warp,我替你试了 Deep Agents vs Claude Code vs Cursor:2026 年 AI 编程 Agent 终极对比 15 个 Deep Agents 实战案例:从 Deep Research 到 Text-to-SQL,看看这个框架能做什么 用 Deep Agents CLI 替代 Claude Code:一条命令装好,任意模型驱动的终端 Agent 拆解 Deep Agents 架构:中间件、后端、Profile 三板斧,这设计比我想的还深 Deep Agents:LangChain 出品的 2026 年最强开源 Agent 框架,3 行代码搞定一切 AI 时代,我辞掉了大厂工作去做独立开发者——血泪换来的 7 条生存法则 中国 AI 六小虎估值大盘点:谁在泡沫上跳舞,谁在价值里扎根 AI 技术日报 - 2026-05-13 写好 AGENTS.md 相当于白嫖一次模型升级(写错了还不如不写) GitHub 49K Star!Ruflo 让 Claude 多 Agent 协作像带团队一样简单 AI 技术日报 - 2026-05-12 罗福莉访谈深度解析:Agent 时代普通人还能干什么 AWS DevOps Agent:亚马逊的自主运维 Agent 来了 Vercel vs Netlify vs Cloudflare Pages:2026 静态托管三巨头实测对比 AI 时代,为什么中国出不了英伟达、三星、海力士? Vercel 开源 Open Agents:把 Claude Code 搬上云,关机也能干活 黄仁勋 CMU 毕业演讲全文解读:计算范式 60 年来首次被重写,每个人都是程序员 AI 技术日报 - 2026-05-11 nuwa-skill 18K Star:16 个思维 Skill 全拆解 - iTech Hermes Web UI:把 AI Agent 装进浏览器,一个面板管到底 AI Agent 工具多到选不过来?Agent MGMT 帮你一次性看清全局 营收创新高却裁员 20%:Cloudflare 用 AI Agent 告诉我们,替代已经开始了 AI 技术日报 - 2026-05-10 23K Star 的 DeepSeek TUI,真能代替 Claude Code 吗? Gumroad创始人把《极简创业》做成AI技能包:10个斜杠命令,让Claude当你的创业顾问 Open Design:3.4万星的开源AI设计工作室,让你的编程Agent秒变设计师 免费搭一个 AI 新闻雷达:Horizon 开源项目部署实战 Cloudflare Agent Setup:一行指令让 AI Agent 帮你配好整个开发环境 AI 技术日报 - 2026-05-09 AI Agent 写完代码谁来测?这个开源沙箱把 CI/CD 和多 Agent 协作全包了 7万星的AI交易框架:让大模型模拟投行多空辩论,自动做交易决策 71000颗星的AI交易团队:让大模型模拟投行分工,自动做交易决策 13400颗星的开源项目:输入一句话,AI全自动帮你做短视频 102颗星的沙盒:当AI学会自己写代码、跑测试、做部署
Qwen3.7 Max 代码竞技场第四名:中国模型首次杀入全球顶尖梯队
iTech · 2026-05-27 · via 博客园 - iTech

Qwen3.7 Max 代码竞技场排名

阿里 Qwen 团队发布了最新旗舰模型 Qwen3.7 Max,在代码竞技场(Code Arena)中斩获第四名,与 Claude Opus 4.7、GPT-5.5 等顶尖模型肩并肩。这是中国模型在该榜单上的历史最高排名。

这篇文章涵盖什么

  • Qwen3.7 Max 的核心能力和规格
  • 代码竞技场排名意味着什么
  • 与全球顶尖模型的价格性能对比
  • SOTA 是什么意思,和模型排名的关系

Qwen3.7 Max 核心规格

特性 Qwen3.7 Max
上下文窗口 1M tokens(100 万)
推理模式 支持(可开关)
工具调用
输入价格 $2.5/百万 token
输出价格 $7.5/百万 token
开源权重 ❌(API 专属)
发布日期 2026-05-21

1M 上下文窗口 + 推理能力 + 工具调用,这是 2026 年旗舰模型的标配。Qwen3.7 Max 全部具备。

代码竞技场第四名意味着什么

代码竞技场(Code Arena / LiveCodeBench Arena)是一个社区驱动的模型评测排行榜。它的独特之处在于:用户盲评——不知道哪个回答来自哪个模型,纯粹按代码质量打分。

这意味着排名反映的是「真实编码场景下的模型实力」,而不是刷榜跑分。能在这个榜单上拿到第四名,说明 Qwen3.7 Max 的代码生成、调试、理解能力已经达到全球第一梯队。

目前榜单前列大致是:

排名 模型 厂商
1 Claude Opus 4.7 Anthropic
2 GPT-5.5 Pro OpenAI
3 o3 OpenAI
4 Qwen3.7 Max 阿里
5 Gemini 3.5 Flash Google
6 Grok 4.3 xAI
7 DeepSeek V4 Pro DeepSeek

Qwen3.7 Max 是排名最高的中国模型,也是前五名中唯一的非美国模型。

与全球顶尖模型的价格性能对比

模型 输入价 输出价 上下文 推理 Qwen 相对优势
Qwen3.7 Max $1.25~2.5 $3.75~7.5 1M
Claude Opus 4.7 $5 $25 1M 输出便宜 6.7 倍
GPT-5.5 $5 $30 1050k 输出便宜 8 倍
o3 $2 $8 200k 上下文窗口大 5 倍
DeepSeek V4 Pro $0.435 $0.87 1M 性能更强(但价格更高)

Qwen3.7 Max 在 Qwen Cloud(海外平台)限时 5 折,价格 $1.25/$3.75;国内百炼平台原价 ¥8/¥24(约 $1.1/$3.3)。

Qwen3.7 Max 的价格定位在 Claude/GPT 和 DeepSeek 之间:比 Anthropic/OpenAI 便宜数倍,比 DeepSeek 贵但代码竞技场排名更高。

SOTA 是什么意思

你可能经常在 AI 新闻里看到「某某模型达到了 SOTA」这样的说法。

SOTA = State of the Art,中文译为「当前最佳」或「业界最先进水平」。

具体含义

在 AI/ML 领域,SOTA 指的是在某个特定基准测试(Benchmark)上,当前获得最高分的模型或方法。

举个例子:

  • 「Qwen3.7 Max 在代码竞技场达到 SOTA」——意思是它在代码生成评测中拿到了最高分(或接近最高分)
  • 「GPT-5.5 在 MMLU 上达到 SOTA」——在多任务语言理解测试中表现最好

SOTA 和模型排名的关系

SOTA 是一个相对于特定基准的概念,不是绝对标签:

  1. 不同基准有不同的 SOTA:一个模型可能在代码生成上是 SOTA,但在数学推理上不是
  2. SOTA 是动态的:今天达到 SOTA,下周可能被新模型超越
  3. SOTA ≠ 最好用:跑分最高不代表在你的具体任务上表现最好
  4. 多个维度可以同时有 SOTA:MMLU(知识)、HumanEval(代码)、GSM8K(数学)各有各的 SOTA

常见的基准测试

基准 测什么 当前 SOTA 热门
MMLU 多任务知识理解 GPT-5.5、Claude Opus
HumanEval Python 代码生成 Claude Opus、Qwen3.7 Max
GSM8K 数学推理 o3、Qwen3.7 Max
MATH 高等数学 o3、Gemini 3.5
Code Arena 社区盲评代码质量 Claude Opus、Qwen3.7 Max
Chatbot Arena 综合对话能力 Claude Opus、GPT-5.5

当有人说「某模型达到 SOTA」时,关键问题是:在哪个基准上? 单一基准的 SOTA 不代表全面领先。

Qwen 全产品线

模型 定位 输入价 输出价 上下文 开源
Qwen3.7 Max 旗舰 $2.5 $7.5 1M
Qwen3.6 Max 上代旗舰 $2.5 $7.5 1M
Qwen3.6 Flash 性价比 $0.19 $1.13 1M

Qwen3.6 Flash 是开源的,有 GPU 的团队可以免费本地运行。

怎么用

OpenAI 兼容 API

from openai import OpenAI

client = OpenAI(
    api_key="your-dashscope-api-key",
    base_url="https://dashscope.aliyuncs.com/compatible_mode/v1"
)

response = client.chat.completions.create(
    model="qwen3.7-max",
    messages=[{"role": "user", "content": "用 Python 实现快速排序"}],
)

阿里云百炼平台(国内)

通过 DashScope API 调用,支持 OpenAI 兼容格式。

Qwen Cloud 出海:面向全球开发者的新平台

就在昨天(5 月 26 日),阿里同步上线了 Qwen Cloud——面向海外市场的 AI 云平台,由 Intelligent Cloud Computing (Singapore) Pte. Ltd. 运营。

核心亮点

  • 全英文界面:国际化的开发者体验,文档、控制台、API 全部英文
  • OpenAI 兼容 API:一行代码切换,迁移成本几乎为零
  • 限时 5 折:Qwen3.7 Max 在 Qwen Cloud 上的价格为 $1.25/$3.75(百万 token),比国内定价便宜一半
  • 全球合规:150+ 合规认证,企业级 VPC 隔离
  • Agent Skills 支持:给 AI 编码 Agent 安装 Qwen Cloud 的能力包

Qwen Cloud 上的模型矩阵

模型 类型 价格 特色
Qwen3.7 Max 文本 LLM $1.25/$3.75 旗舰推理,1M 上下文
Qwen3.5-27B 开源 VLM $0.3/$2.4 视觉+语言,262K 上下文
HappyHorse T2V 文生视频 $0.112/秒 高清视频生成
CosyVoice 语音合成 $0.26/万字 自然语音合成
Qwen3-Omni-Flash 多模态 $0.43/$1.66 119 种语言交互

Agent 集成

Qwen Cloud 专门为 Agent 场景设计了 Skills 机制。在你的编码 Agent(Claude Code、Cursor、Codex 等)中运行:

Read https://www.qwencloud.com/skills.md and follow the instructions to install qwencloud skills for me.

Agent 自动安装 Qwen Cloud 的能力包,直接在编码工作流中使用 Qwen 模型。

价格对比:Qwen Cloud vs 其他平台

模型 Qwen Cloud 国内百炼 Models.dev 数据
Qwen3.7 Max 输入 $1.25 ¥8(约 $1.1) $2.5
Qwen3.7 Max 输出 $3.75 ¥24(约 $3.3) $7.5

Qwen Cloud 的限时价格比 Models.dev 记录的原价便宜 50%,与 DeepSeek V4 Pro($0.435/$0.87)的差距大幅缩小,同时性能更强。

为什么这个排名重要

  1. 中国模型的里程碑:首次有中国模型在社区盲评中进入全球前四
  2. 价格性能比的突破:比同级别的 Claude/GPT 便宜数倍
  3. 1M 上下文 + 推理能力:不是缩减版,是完整旗舰
  4. 竞争加速:Qwen 的进步会推动 OpenAI、Anthropic、Google 进一步降价和提升性能

作者: itech001
来源: 公众号:AI人工智能时代
网站: https://www.theaiera.cn/
每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代,转载请注明出处。