惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

F
Full Disclosure
Recorded Future
Recorded Future
T
Tenable Blog
S
Securelist
C
CERT Recently Published Vulnerability Notes
T
Threatpost
S
Schneier on Security
A
Arctic Wolf
The Hacker News
The Hacker News
C
CXSECURITY Database RSS Feed - CXSecurity.com
Know Your Adversary
Know Your Adversary
P
Privacy International News Feed
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
The Register - Security
The Register - Security
Cisco Talos Blog
Cisco Talos Blog
AWS News Blog
AWS News Blog
K
Kaspersky official blog
T
True Tiger Recordings
T
Threat Research - Cisco Blogs
V
Vulnerabilities – Threatpost
P
Palo Alto Networks Blog
T
The Exploit Database - CXSecurity.com
小众软件
小众软件
B
Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Microsoft Azure Blog
Microsoft Azure Blog
Cyberwarzone
Cyberwarzone
C
Cybersecurity and Infrastructure Security Agency CISA
T
Tor Project blog
Spread Privacy
Spread Privacy
Malwarebytes
Malwarebytes
P
Proofpoint News Feed
F
Fox-IT International blog
F
Fortinet All Blogs
P
Privacy & Cybersecurity Law Blog
G
GRAHAM CLULEY
量子位
Latest news
Latest news
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 叶小钗
Project Zero
Project Zero
T
Tailwind CSS Blog
N
Netflix TechBlog - Medium
Martin Fowler
Martin Fowler
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
I
Intezer
博客园_首页
腾讯CDC
H
Hackread – Cybersecurity News, Data Breaches, AI and More
D
Darknet – Hacking Tools, Hacker News & Cyber Security

量子位

将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式 刚刚,国产AI自己造了AI,全球首例! 留给人类数学家的悬赏不多了!谷歌DeepMind一口气解决9道埃尔德什问题 卡帕西Anthropic最新头衔:技术员工(MTS) 华为发布AI DC数据基础设施全栈方案,加速行业智能化跃升 荣耀600系列手机发布:4K闪光微单Live,国补价2294.15元起 “卡车界特斯拉”,刚刚又融了2亿美元 编程权威榜单:千问3.7仅次于Claude,阿里全球第二 刚刚,国产Agent模型闯入全球第一梯队!限时免费 京东JoyInside戴文军:AI的终极形态不是聊天,是融入你家每一件物品丨AIGC2026 无人车遇水则瘫?Waymo大规模召回,叫停多城Robotaxi服务 打造创投生态的超级枢纽, 2026投资界SuperLink大会定档6月 “VLA和世界模型都不是终局,会有物理世界独有的模型” | 蚂蚁灵波沈宇军@AIGC2026 蚂蚁灵波LingBot-VA论文被机器人顶会RSS 2026接收,让机器人边推演、边行动 DeepSeek V4还能更省!新工具缓存命中率高达99.82%,2折稳定到手 图灵奖得主领衔,中国大模型第一梯队集结!2026智源大会,看懂AI下一程 Claude 通过率不到4%,SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想 华为具身大脑一号位创业,用认知科学造世界模型,获亿元级融资 未来推理将吃掉70%算力,30%留给训练丨硅谷投资人张璐@AIGC2026 卷到今天,Agent的含金量还在提升丨AIGC2026圆桌论坛 谷歌CEO承认Coding落后了 未来推理将吃掉70%算力,30%留给训练丨硅谷投资人张璐@AIGC2026 什么!你说胡彦斌也在苦修Vibe Coding “五类人AI替代不了,企业做第二名最稳妥” | 昆仑万维方汉@AIGC2026 OpenAI大神教你如何榨干Codex DeepSeek V4价格打骨折,宁王京东网易抢着入场,梁文锋:目标是AGI 美团外卖前负责人入局餐饮具身模型,元节智能获千万级种子轮融资 美团外卖前负责人入局餐饮具身模型,元节智能获千万级种子轮融资 龙虾养不动了?周鸿祎给虾搭了个云端办公室,专业私教在线炼虾 李飞飞再出手,空间智能的ImageNet来了 融资700亿!DeepSeek Code真要来了,ACM金牌大神崔添翼挂帅 狂揽F轮融资+拿下4100万用户!深圳玩家出手,把企业旧系统变成AI能力库 顶流里最快!智谱,你是在「喷」代码吧 80集短剧,3天拍完:当电影人下场做Agent,影视生产迎来了“最懂行”的解法 39万!雷军发布小米最贵SUV 联想集团Q4营收利润双创新高,兑现历史最佳财年 腾讯混元开源全新翻译模型Hy-MT2 ,上线小程序「腾讯Hy翻译」 菲尔兹奖得主都看懵了:OpenAI非数学模型首次自主突破80年未解数学难题 风行在线CEO易正朝:先全员Coding,再All in众创丨AIGC2026 Artificial Analysis放榜:千问3.7问鼎国产模型冠军,全球前五 AI首次实现中国风光发电普查,北大、阿里达摩院研究登上《自然》 上海交大AI教授亲授:半天带你拆解Agent底层逻辑 得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家 520当天400万AI人,都在量子位听这近20场演讲&对谈|第四届中国AIGC产业峰会 顺丰邮政仓库干活的机器人,顺手拿了个具身高考第一 刚刚,马斯克公开SpaceX招股书! 智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速 太初元碁洪源:异构计算能力将成为未来AI算力基础设施的重要方向|AIGC2026 VC、品牌顾问、编剧,正在批量把自己做成AI AIDC建设正从“通用标准”走向“适用高效” 破壁行动!把大厂级“研发外挂”发给每一个创新者,智会心研PLUS版免费公测 海信激光电视探索X1 Pro发布:中国家庭,正式进入客厅影院时代 2026中国AIGC最值得关注的企业&产品图鉴来了!谁在造浪,谁在落地? 趋境科技完成数亿元Pre-A轮融资,高品质AI Token生产基础设施 苏姿丰上海开讲:AI正在重新定义计算的每一层 完成“由铁到钢”的生态蜕变 刘军携联想全场景AI终端点亮智能未来 抢先李飞飞!世界模型能多人联机玩FPS游戏了 国产GPU开始造世界!国内首个全栈具身智能仿真平台来了 Cursor新模型,你怎么还在套Kimi?马斯克你怎么还吆喝上了?? L2++「五冠王」文远知行:自动驾驶版的张雪机车,专治各种不服 5.20 明天见!拿好这份参会指南|AIGC2026峰会 Qwen最新3.7 Max预览版空降!两代超大杯并行迭代,林俊旸走了但还在加速 百度无人车新纪录:周订单破35万!李彦宏:开始单城盈利了 重塑主流PC,第三代英特尔酷睿开启全民AI轻薄本时代 AI水论文封一年,署名连坐!arXiv最严新规来了,陶哲轩附议 openJiuwen社区开源新招:重磅发布JiuwenSwarm,拉开群体智能“养蜂”序幕 华为“养”出半个具身智能创业圈 上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代 8B模型做生物实验:实验步骤顺序不乱、剂量无幻觉|ICLR 2026 信通院&清华提出FedRE:用「纠缠」搞定联邦学习三难困境 | CVPR 26 黄仁勋北京必吃榜我们都尝了!后海酒吧老板:他答应以后每年来一次 LeCun炮轰Hinton:他认可LLM就是想摆烂退休了! 30万奖金池,这道汉语方言对话题等你来解丨第十一届信也科技杯全球AI算法大赛 一只机器狗,把英伟达的算力王座拱翻了 世界大学生超级计算机竞赛首设“英才对接”环节,搭建“赛场—职场”人才供需桥梁 Agent、多模态、应用、算力一天看尽,峰会亮点在此|5.20日,来现场一起AI 龙虾之父月烧940万元的token!要不是入职OpenAI还真用不起 SFT别急着接RL!你的多模态大模型可能一直在“带伤训练” 6.4k Stars!用Claude Code写论文的全套流水线,有人打包开源了 不用再找了,AI落地最全的实战打法,都在亦庄这场大会里 奥特曼投的芯片涨疯了,今年最大科技IPO 虾马之后又火一个!OpenHuman用20分钟了解你的一切,存成卡帕西式知识库 别让模型烧Token了!GitHub 20k星神作:把全网变成命令行 中国500万医生的新AI:顶刊独家联手,卷的就是证据源 15.68万乐道L80开卖,厨房搬进前备厢,李斌:纯电大五座SUV的“拐点” 华为云创想者大会主题论坛议程公布:释放Agentic AI新布局 Need is all you need:AI接手Coding后,程序员最值钱的能力只剩这一项? 容联云发布“数字员工”级 Al Agent 平台,重塑大模型联络中心 手机的智能体AI,正在因为天玑全面跃升 阿里发布Qoder 1.0,可全面接管代码生成、验证和交付流程 坐到马斯克和库克中间的湖南女人 蚂蚁百灵 Ring-2.6-1T 开源 Agent 执行能力全面增强 智能无处不在:OpenClaw预示的AI未来 英伟达给黄仁勋儿女涨薪了!年薪百万美元,“凭能力而不是身份” 数亿元融资落地!国内最早布局“人类学习”路线的具身公司,用人类视角重做具身智能 人手一个数据库,Kimi背后这套AI基建到底有多能扛? 重生之我在AI时代当老板:让一群Agent互相PUA 淘天金码奖落幕:20 名超级工程师诞生,推动 AI Native 实践 国产GPU组了个开源局,把SGLang等核心开发者都摇来了! Robotaxi第一股又涨疯了
DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时
梦晨 · 2026-05-27 · via 量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-05-27 09:14:35 来源:量子位

“1%是我写的,99%是Agent写的。”

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek研究员陈德里,在个人博客更新一篇研究综述论文。

1%是我写的,99%是Agent写的。

用的是他自己的技能DeliAutoResearch,DeepSeek-V4-Pro研究和写作,GPT-Image2画图。

论文共迭代6次(V1:4 次,V2:1 次,V3:1 次),总耗时6天,进行了约108轮Agent调用,消耗64.8万token,写了2234行LaTeX代码。

103个参考文献,全部已验证。论文现为46页,538KB,含7个图表+4个表格。

论文讲的是自动研究智能体L1–L5自主度分类体系的事:

通过分析四大架构模式,给出了可扩展性、成本、可靠性等维度对比。

并基于六维特征矩阵分析了17个主流系统。

还提出了六大开放问题与对应研究方向。

陈德里认为,Code Agent导致计算机科学论文数量疯狂膨胀,同样的工作以前至少需要一个月才能完成。

但现在,他的碳基大脑处理这个问题的“总CPU时间”不到2小时。

他也写了一句免责声明:观点仅为个人所有,不代表任何组织。

DeepSeek研究员与V4 Pro合写的论文

基础模型推动AI工具从研究辅助转向自主研究,但领域缺乏统一框架、术语混乱、评估标准不一。

陈德里和它的AI合著者们提出了一个L1-L5的自主分级体系。

类比自动驾驶的SAE级别,把混乱的AI Agent领域理出了清晰的谱系。

  • L1是最基础的自动补全,也就是最早的GitHub Copilot,预测你下一行代码。
  • L2是任务执行,代表是ChatGPT/Claude聊天机器人加上各种工具,能分解任务,但每一步都得人类批准。
  • L3是多步骤执行,目前最主流的Claude Code、Cursor Agent这种,能自主执行10到100步,只在关键点请求人类审核
  • L4是受限领域内全自主执行,人类仅提供研究目标、评估最终成果,智能体可完成多步实验、代码、论文撰写,但无法自主选择研究问题。
  • L5级是完全自定研究议程,智能体可自主选题、分配资源、长期积累知识、跨领域持续研究,是当前未实现的理想状态,核心瓶颈为持续知识积累、可靠自我评估、架构规模化。

目前行业前沿初步达到L4,L5还只是个设想。

论文认为真正的瓶颈不是模型能力,而是「持续知识积累」和「可靠自我评估」。

除了按自主性级别,论文中又按智能体架构总结了4种主流模式。

  • 单智能体循环

早期研究ReAct、Reflexion、LATS、思维树等为代表。单模型迭代推理-行动-观察,简单高效,但复杂任务能力有限。

  • 多智能体协作

早期智能体框架CAMEL、AutoGen、MetaGPT等为代表,特点是分工协作、多视角纠错,成本较高,沟通易混乱。

  • 分层调度

Claude Code和Devin等为代表,分层规划、任务分解,适合长时程复杂研究。

  • 工具增强执行

SWE-Agent等为代表,核心工具有代码执行环境、网页浏览、API / 数据库、多模态工具,Agent-Computer Interface(ACI) 的设计直接影响性能。

论文四种模式不是谁优谁劣,而是针对特定的任务要选择合适的工具。

如简单短任务选单智能体循环(低成本、易实现);需要多视角纠错、复杂分工选多智能体协作;长时程、高复杂度研究选分层调度(强规划、易监管);需要对接外部工具、环境交互选工具增强执行(能力边界由工具决定)。

但实际应用中,其实多采用混合架构,结合多种模式优势。

有了研究框架,再横向对比当前常见的17个自主研究智能体,揭示领域已从早期通用脆弱原型,演进为L4级受限域专用系统。代码智能体成熟度最高,科学智能体开始产出可验证新发现。

而迈向L5完全自主的核心瓶颈在于持续知识积累、可靠自我评估、架构规模化。

最后,论文中还提出了,六大开放问题:

  • 认知循环陷阱:智能体陷入重复无效策略,无自我终止能力。
  • 上下文限制:固定窗口(4K-1M token)无法支撑长时程研究。
  • 创新性评估:无自动化方法衡量研究原创性与价值。
  • 可复现性:模型随机性、提示敏感性导致结果无法复现。
  • 安全伦理:双用途风险、自主提升风险、学术诚信风险。
  • 成本问题:单任务成本 50,高成本加剧科研不平等。

One More THing

陈德里自述,高强度工作导致的精力不足,让他搁置了很多事。

博客、写作,现在是Agent让他有机会把这些重新捡了起来。

除了这篇研究综述,还更新了个人主页。

有了Agent,这些任务完成起来效率超高。

人类的角色,从“执行者”变成了“发起者”。

参考链接:
[1]
https://x.com/victor207755822/status/2059269472297623843?s=20

版权所有,未经授权不得以任何形式转载及使用,违者必究。