惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

N
News and Events Feed by Topic
Malwarebytes
Malwarebytes
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
C
Cybersecurity and Infrastructure Security Agency CISA
F
Future of Privacy Forum
C
Cisco Blogs
T
The Exploit Database - CXSecurity.com
A
Arctic Wolf
S
Securelist
K
Kaspersky official blog
S
Schneier on Security
T
ThreatConnect
T
Tenable Blog
Spread Privacy
Spread Privacy
T
True Tiger Recordings
AWS News Blog
AWS News Blog
F
Fox-IT International blog
量子位
T
Threatpost
V
Vulnerabilities – Threatpost
C
CERT Recently Published Vulnerability Notes
Cisco Talos Blog
Cisco Talos Blog
GbyAI
GbyAI
宝玉的分享
宝玉的分享
腾讯CDC
G
Google Developers Blog
aimingoo的专栏
aimingoo的专栏
Cyberwarzone
Cyberwarzone
有赞技术团队
有赞技术团队
S
SegmentFault 最新的问题
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
V
Visual Studio Blog
U
Unit 42
雷峰网
雷峰网
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Simon Willison's Weblog
Simon Willison's Weblog
O
OpenAI News
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
The GitHub Blog
The GitHub Blog
The Register - Security
The Register - Security
MyScale Blog
MyScale Blog
小众软件
小众软件
A
About on SuperTechFans
Last Week in AI
Last Week in AI
Y
Y Combinator Blog
博客园 - 三生石上(FineUI控件)
美团技术团队
Google Online Security Blog
Google Online Security Blog
P
Proofpoint News Feed
MongoDB | Blog
MongoDB | Blog

博客园_首页

为什么 AI Coding 难进生产环境?深入了解 Everything-Claude-Code ! 到底 TMD 用哪个: npm, pnpm, Yarn, Bun, Deno? 傻瓜, 当然用 npm 啦 上周热点回顾(5.18-5.24) [对比学习LangChain和MAF-04]针对消息的设计 TrueAsync Server 为 PHP 带来了原生的高性能 HTTP 服务器 规则漂移 帆软市场部为什么能成为高人效增长系统? 22. LangChain LCEL,用 | 串联AI的魔法语言 - 老陈说编程 完整学习LLM(二):大模型到底是什么 洛谷-P11942 [KTSC 2025] 重塑矩阵 题解 哈哈哈哈哈打不过我吧,没有办法我(vllm)就是这么强大! Hermes Edu Skills 从 170 到 188:一次中文教育 Agent Skill Pack 的工程化升级 一个外行,半年搞定机械臂:我的从0到1踩坑实录 新写了个直播录制工具,可录制抖音快手斗鱼直播 15天学会AI应用开发(一)搭建AI大模型应用开发环境 Childhood,23款童年卡牌游戏复刻 Github Copilot配置GPT5.5报错:'temperature' does not support 0.1 with this model. Only the default (1) value is supported. - Eric zhou 单曲循环 ClassIn 在 Linux 下无法播放音频 把 TeXstudio / LaTeX 工程交给 AI:texstudio-mcp 功能详解 .NET 8 Web开发入门(六):Blazor 全栈开发——告别 JavaScript 焦虑 别让 LLM 写文件:一套 Agent 进度跟踪的工程化范式 - BurningFish Qt Bridges for C# 深度技术解析 Multus 多网卡方案:IPVLAN 模式 被流量逼出来的架构:从一台服务器到云原生的 17 次蜕变 —— 集群、缓存、MQ、微服务、Docker、K8S 的前世今生 Claude Code安装全流程 Windows保姆级教程 awk 命令练习(从入门到进阶) Java + Spring实现Hermes Agent之龙虾、Skills、Mcp和沙箱代码执行环境思路 轨迹的蓝图:方程求解与交点计算 Agent新技术分享-Forge论文已被ACM接受 PowerMem 记忆系统的遗忘设计,从神经元到代码工程 我用了FastApiAdmin后,连夜把踩过的坑都整理出来了 一个程序员眼中的 AI 核心概念,讲透 LLM 、Agent 、MCP 、Skill 、RAG... 网络安全在线就能打的内网靶场推荐 & Dawn Breaker 单域靶场 WP CTF 中如何用提示词发挥大模型的最大实力:从聊天助手到大手子 PyTorch KernelAgent 源码解读 ---(6)--- Composer 高光谱拼接算法(一)扫推式成像和航带拼接算法 一文看懂fofa常用语法,告别混淆,精准打击! 从零搭建量化投资系统:用 Qlib 一行代码搞定均线分析 企业 AI 落地,第一件事不是买模型,而是建好企业知识库 如何在Oracle Agent Factory中配置国内厂商的LLM? Codex 换模型太麻烦?这个开源桌面工具帮你一键切换 Avalonia中的动画 2026软考|十大管理超全通俗笔记,备考闭眼记! rv1126b内置phy接hub交换机芯片 React 可拖拽列宽 + 点击行选中 ProTable 封装笔记 五大实锤证据:AI不会终结低代码,只会倒逼技术进化 【硬核脑洞】16位实模式最后的疯狂:我们能否在 640KB 常规内存里手搓一个 MD 模拟器? 基于.Net的NetCoreKevin框架中AgentFramework实现AI智能体Skill和工具动态管理和加载 PostgreSQL 高可用集群 patroni 自动故障转移测试 自己使用C++开发的仿OpenClaw、Hermes智能体工具 记一次 .NET 某集群管理软件 内存暴涨分析 StarBlog番外(5) 从1.6到1.10,基于Avalonia AOT 开发的 Publisher 半年进化之路 Anthropic 把 SOC 误报率从 33% 砍到 7%,真正在干活的不是 Claude SM2演示所有 PEM 功能(生成、加解密、签名/验签) 用 Solon AI 从零构建 MCP 工具服务:让 AI Agent 拥有真实世界的能力 完整学习LLM(一):为什么我要系统学习大模型 Agent Harness Runtime 架构深度解析:工具循环、状态外置与长程任务调度 [对比学习LangChain和MAF-03]完全不同的Agent设计哲学 毫不夸张地说,这将是目前最全的AI测试教程!测试必看! AI Coding 为什么选择 TUI ,前端的新机会在哪里? 无需安装cc switch,10行命令帮你配置Claude Code+deepseek Context Engineering 到 Harness Engineering —— 大模型时代软件工程的新范式 OpenClaw.NET 兼容性目录指南(Compatibility Catalog) Nginx 上游健康检查插件 nginx-healthcheck-module 三角形数 AScript异步执行与await关键字 - rockey627 Vector Quantization for Recommendation 笔记 21. “|”不只是按位或,90%的人不知道 这 3 年做教育相关项目,我把一些经验整理成了一个开源 Agent Skills 项目 2026 西安本土 GEO 测评:灵怡云凭差异化站稳第一梯队 PortSwigger SQL注入LAB7 & LAB8 & LAB9 Splay 学习笔记 这款爆款激光粒度仪凭何全球狂销5000台?揭秘百特Bettersize2600“常青树”背后的硬核实力 十分钟学习 TypeScript 【学习笔记】《Python编程 从入门到实践》第1章学习笔记:Python环境搭建与Hello World(完整版) 初试 vibe coding:Tauri + React + Rust 构建的 windows 本地番茄钟 从 Vibecoding 入门,到 Agent 差点入土 IDEA Maven 手动替换第三方Jar包完整教程 填充与积累:积分与面积的可视化 告别 Django Admin!这个 NodeJS 全栈框架让你在 DTO 中直接配置 Table/Form 渲染 重建 AI 认知第 1 篇:基础认知——一张地图看懂 AI Landscape VAPD AgentKit:可组合 Agent 前端通用库实践 SolonCode v2026.5.21 发布,Web 能看项目,IM 能找队友 从 LangGraph 回到 Model-Tool Loop:更聪明的模型,正在让 Agent 架构重新变简单 从人工同步到自动闭环:跨 Java/.NET 代码转换工具的工程化实践 你的显卡能跑多少算子?用 55 个检查项,给 PyTorch GPU 环境做一次冒烟测试 Claude Code 快速开始 2分钟搞定全网巡检:一个脚本+五大必备 Python 库,让你一天干别人一周的活 最近面完 30 个想转 AI 测试的人,我麻了:80% 都踩了这 4 个坑! 4.3、多体交叉存储器、Cache的基本原理、相联存储器、 Cache地址映射与变换方法 简译项目的项目落地 OpenClaw Dreaming 记忆流水线底层架构:状态分层、证据留痕与检索回流 .NET 10 桌面 UI 框架的范式演进:Jalium.UI 与 MewUI 架构深度对比 [对比学习LangChain和MAF-02]基本编程模式的差异(下篇) 我的编程经历,从天桥地摊Basic到西藏阿里的.Net AOT。(续二) House of botcake与IOFILE任意读写 Markdown锚点跳转失败的解决办法 力扣之路01—两数之和 "Sample Is Feature: Beyond Item-Level, Toward Sample-Level Tokens for Unified Large Recommender Models" 论文笔记
组织转型实录——我把传统研发团队改成AI驱动,踩了无数坑
锅总的程序人生 · 2026-05-25 · via 博客园_首页

组织转型 #AI团队 #FDE

最近在Agent特区做了一次组织转型的分享,讲了我这几个月把一个传统研发团队改成AI Native团队的完整路径。下面是分享的核心内容,后面附了大家讨论比较集中的几个问题。

起点:职能式分工的死穴

我们是一家做标准化产品加定制化交付的ToB公司,我是技术一号位。原来的组织是很传统的职能式分工:销售部签单,产品部写PRD出原型,研发部分前后端和测试。一个需求从客户嘴里到上线,要经过5次交接,每个环节都要排期。

这种模式下,单点效率再快也解决不了整体效率问题。交接本身就是损耗。

三个阶段的组织形态

组织改造经历了两个阶段,还有一个是目标状态。

第一阶段就是刚才过去式职能式分工,已经说过了。

第二阶段是现在已落地的状态:FDE跨职能5人小组。每组一个PM、一个PO、两个TO、一个QO。PM管项目整体和外部协调,同时是个补位角色,哪弱顶哪。PO是需求分析师,把大产品的业务知识转成开发用的feature。两个TO是技术owner,主要监管AI写代码。QO负责全流程测试和质量保障。

这个小组要端到端地完成项目交付:配合销售做售前报价和技术评估,配合产品部做技术分析,到客户现场做需求调研和确认,然后根据实际情况决定是带回公司开发还是现场开发。全程带着AI做,现在的要求是不管开发还是需求,不用自己手写内容,所有东西都是和AI对话产出的。

产品部也有变化。以前产品部是研发的上游,现在缩编了,变成一个大产品经理的概念,管除了销售和交付以外所有产品工作,要求对业务有深入理解。FDE里的PO更偏传统的需求分析师,只做细节设计,不用特别精通业务。FDE部门和产品部之间是内部客户关系,产品部门要下发的东西都需要FDE部门先报价,然后再做详细的需求设计和开发交付。

第三个阶段是我们的目标方向:岗位深度整合。以后不分PM、PO、TO、QO了,大家只有项目Owner,一个人从需求讨论到上线部署,AI是他的另一个"同事"。岗位只有侧重没有分工:以前做前端的,前端部分更复杂的活还是交给他;以前做需求的,复杂业务场景的需求还是他来设计。但边界会越来越模糊。

十一步转型路线

建立信任(第1-4步)

第一步:拿到CEO的背书

这是最重要的一步,没有CEO的背书推不动,就算有,推动起来也比较困难。

我的做法比较直接:给CEO灌输焦虑。我几乎每年12月或1月都要跟他说公司要完蛋了,以前说的理由是业务不行、高管躺平。今年换了说辞:AI时代来了,别人改了成本会比我们低很多(说的也是事实!)。这种话不是一次就够的,吃饭的时候、汇报的时候,逮到机会就说。

他感兴趣以后,给他装工具体验。最早装的是opencode,后来小龙虾出来第一时间给他装上。焦虑灌输到位之后,CEO变得比我还要着急。到这一步,团队转型就顺理成章了。

第二步:让-1层建立体感

这一步的核心是不要让管理层成为转型的阻力。我通常不直接接触一线工程师,他们有自己的+1和+2。

具体做法:周例会上演示AI能力,给大家买账号做环境配置,让管理层用AI解决实际问题。AI使用初期大家会有"AI是神"的错觉,你要趁这个阶段推动他们,让他们在各自团队里渲染气氛、推动使用。

这个过程一定要做好管理。不能安排下去就不管了,要观察有没有管理层对AI反对或不积极,发现了及时沟通处理。

第三步:各种场合渲染AI能力

周会、项目复盘、技术分享,只要有机会就展示AI做了什么、省了多少时间。没有提"转型"两个字,但一直在铺垫。

有个例子:团建路上跟一个前端同事聊AI,他对AI不屑一顾,了解后发现他用的是通义千问的补全插件。吃饭的时候我给他安利claude code和opencode,讲效果讲案例。他饭都不想吃了,着急回去试。给了他我的key,没过两天就自己买了智谱的模型开始研究工作流。

我做这个事情的时候,AI还没有像现在这样如火如荼。假设你的团队现在已经对AI不存在不信任问题了,这步可以跳过。

第四步:搭Harness工程

早期比较耗精力的部分。需求怎么拆、feature怎么分、设计怎么做、代码怎么生成、变更怎么管,全部流程化。这套流程要适应你自己的团队,因为团队要靠这套流程和产物来协作,只有标准化的流程和产物才能让团队相互协作。

Harness不是一次成型的,是在工作中迭代出来的。我们搭了一套完整的目录结构:01需求澄清、02 PRD、03架构、04项目级进度管理、05 feature级别(包含需求规格、接口设计、数据库设计、开发计划、代码评审)、06原型、07测试。所有项目都按这套结构来。

配套的有四套角色、29个技能:产品8个、技术12个、质量6个、项目管理3个(PM进度管理、FM进度管理、监理技能做门禁扫描)。
Harness人机协作流程

验证推广(第5-8步)

第五步:选试点项目一,跑新项目

选一个没有历史包袱的新项目,体量不要太大也不要太小。太小体现不了能力,太大失败了承受不了。选的人精力不要被其他事干扰,必须全身心投入。

模式是1个PM加4个FDE。具体做法是找了个会议室集中办公,我全程参与但不介入具体开发,更像一个AI教练的角色。验证周期跑了两个多月快三个月。

核心目标两个:验证以前八九个人才能完成的项目,5个人带着AI到底能不能做出来,做出来的东西质量怎么样;同时让试点小组学会带AI做交付,学会Harness的调整和项目规约的设计。

第六步:试点项目一跑到一半,启动试点项目二

第一个项目磕磕绊绊但跑完问题不大的时候,直接启动第二个试点。第二个项目选了一个棕地项目:有历史代码、有历史数据、有真实客户在用,做二期。主要测试新模式在老项目上的兼容性。

这个项目暴露的问题就多了。需求文档、代码文档、数据库文档都有,但都不完整,和代码匹配不上。不能按老文档让AI分析生成新代码,因为老文档本身就是错的。在这个过程里又补了一些skill和流程,花了更多时间补充项目规约。

两个试点并行跑的时候,出现的问题会急剧增加。但这正是你要的:在可控范围内把问题都踩一遍。

第七步:持续改进Harness

试点过程中Harness每天都在修。今天变更管理没覆盖到,明天测试用例生成太慢,后天换了模型版本之前的prompt不工作了。流程改进是持续动作,不是一次性交付。

举个例子:最开始我的流程是先写PRD再画原型,实操发现根本行不通。跟用户第一天聊出一部分功能,第二天又聊出一部分,但你每天不能光聊不产出。产出什么?原型。拿着原型和用户聊。这个时候没法出PRD,因为还没聊完。所以加了一套需求澄清的技能来做前期调研。

再比如:一开始不同人用了不同模型(智谱、Kimi、MiniMax、GPT),同一套流程在不同模型上可用程度差异很大。只能针对不同模型逐个优化调试,让Harness适配模型。专门找了一个人来做这件事,避免每个团队自己摸索。

第八步:准备培训体系

PO、TO、QO的上岗培训,Harness使用培训,AI基础培训。因为从传统职能团队转过来,有些人是转岗的:开发多、需求和测试少,转型后开发要往中间收,涉及到转岗和新招。

培训分两部分:一部分是Harness从试点中发现的问题持续迭代更新,另一部分是基础知识。内容包括FDE的认知培训、PM专项培训、需求/质量owner的项目结构和工程规范培训。

培训的建议是持续做、一直做。以前鼓励团队分享比较费时费力,现在有了AI,把脑子里的东西讲出来就行,不用自己做PPT,AI帮你做。这给持续培训提供了一个可行的基础。

正式切换(第9-11步)

第九步:历史工作交接

这一步和每个公司自己的情况强相关,千差万别。我们作为产品加定制化交付的ToB公司,面对不同客户各有各的版本在维护。有的项目在研发中,有的在运维中。以前一个团队八九个人甚至十来个人,现在每个团队5个人,老项目和新团队怎么匹配?项目跟着PM走还是跟着研发走?一个项目好几个研发分到不同的FDE里怎么拆?交接过程怎么保证不出大问题?

这些事情比较复杂,只有一个通用建议:根据自己实际情况出方案,同时心里要知道一定会出问题,要能接受出现问题。

我们这边做了大概交接调整了一个半月。核心原则是老项目原班人马维护、跟着研发人员走,新项目用新模式,不会强行切。做之前先给客户打好招呼,出了问题客户有预期就不会有太大反应。

第十步:组织正式调整

两个试点项目都收尾后,分别做了详细复盘,整理所有问题,做了一波流程和skill的改动,补充了培训。到这个时候成立新部门就顺理成章了。

具体动作就是发通知、调座位。但光行政命令不够,做了两件事:让新的PM和自己新的团队成员做一对一沟通;我本人也对每个人做了一对一沟通,确认岗位情况、转岗适应度、有没有顾虑和期望,做针对性解决。

第十一步:按新组织持续运转

搭了Token分发平台做统一管理,监控谁用得太少、哪些FDE团队Token消耗过低。发现这种情况主动干预和沟通,让它们尽快用起来。给用得多的做奖励,但不能提前通知有奖励,也不能反复奖励。用Token衡量工作本身不太合理,只是初期用来判断谁对AI不熟,做人为干预。

新小组启动了陪跑机制,每周找时间和各小组交流半小时到一小时,了解问题、解决问题。绩效也重新设计了,每个公司做法不同就不展开。最后还是Harness的持续改进,每个小组交付完都做复盘,看有没有新的想法可以在公司范围内优化。

踩过的坑

坑1:多人协作比单人难十倍

单人用AI写代码很流畅,多人协作问题全暴露:变更怎么管、工作怎么同步。以前的节奏是开晨会对接工作,AI提速后半天就能产生比以前大得多的工作量,晨会根本跟不上。

目前的解法是缩小组织粒度,从条状变块状。每个项目人很少,坐到一起转身就能沟通,很多问题当面解决。但这只解决了沟通这一个层面,多人协作在AI时代的最佳实践,还需要在持续实践中探索。

坑2:AI不稳定,要持续迭代

换了模型,同一套skill同一个prompt,在Kimi和智谱上表现完全不一样,差距很大。Harness工程要反过来适配模型,按模型特性逐个调整。专门找了一个人来做这件事,避免不同团队各自摸索。

坑3:开发快了,质量掉了

这个问题到现在也没有完全解决。

初期的判断是:以前不做TDD、没有集成测试、没有E2E,全靠人工测试加简单的mock。AI来了以后,TDD、mock测试、集成测试、E2E全都能低成本做,理论上质量应该飞跃式提升。

实际上没有。该做的都做了,TDD、Mock测试、集成测试、E2E测试,甚至文档测试全都上了,质量还是不如预期。单人使用时问题不大,多人协作时质量波动明显。

关键发现是:bug类型变了。AI编码会产生自己特定类型的bug,和手工编程出的bug类型差距很大,等于换了一波新类型的bug。

具体分布上,功能遗漏和功能不一致成了占比最大的问题。这些功能在feature规格文档里都写了,但实际代码出来要么漏了,要么细节和feature对不上。古法编程时期这类问题占比很小,大概3-5%,AI编码后变得严重。原因和大模型本身的能力有关,也和Harness门禁检查不到位有关。

UI不一致是另一个难点。AI无法检查页面,生成的页面和预期差距大,加上大部分页面没有设计稿。早期没有专门给AI用的设计系统,自己编写UI规约效果不理想,后来尝试Design.md形式,效果稍好但仍无法根治。

反过来,以前占比最高的功能逻辑和体验优化问题,在AI编码时反而少了很多。从严重程度看,重要和核心的bug其实很少,一般性问题占比高。

目前没有完美的质量方案。人工测试又拉回来了,给自动化兜底。AI生成代码快,但判断功能对不对还得靠人,否则上线风险很大。

坑4:测试用例过度冗余

不管做业务feature还是做测试用例,都遇到了类似的问题。以前人工写测试用例,写得没这么细但能覆盖住。AI写测试用例以后,一个简单功能能生成五六十条,其中三十条可能是冗余的。

具体例子:一个表单100个字段,AI给每个字段生成三条用例(加一、减一、标准值),100个字段加起来400条。逻辑上没毛病,但让人去测这些实在冗余。

另一个例子是AI过度设计:一个删除的二次确认弹框,正常写提示语固定就行。AI偏要在这个弹框里加业务逻辑,找出这条数据关联的所有数据列出来。设计本身没错,但过度设计了。

优化过skill,改了四五轮,效果有限。约束收太紧会漏用例,放太自由又过度设计。目前的平衡点是AI生成初稿后靠人工精简,保留核心路径和边界值用例。

坑5:人不信任AI形成恶性循环

初期有人提示词写得不好或上下文给不够,产物质量差,于是更不信任AI,更不愿意用,产出更差,形成恶性循环。发现这种情况只能一对一纠偏,坐过去教。信任建立之前,AI工具对他就是摆设。

坑6:Harness依赖人的能力

实习生用AI做单点登录,踩了一堆坑:看不懂feature文档,看不懂model和API文档,AI给什么就用什么,没有判断力。说明Harness是放大器,替代不了基本功,要安排能力匹配的人做对应的事。

坑7:培训要持续做

有人上班打开一个会话一直用到下班,完全没有上下文管理。上下文管理这些内容其实培训过,但并没有真正学会。培训要持续做、反复做,每个月复盘使用习惯,发现新问题及时纠偏。

另外AI工具的使用方式一直在变,培训内容也得跟着变。比如最早推荐用opencode,后来claude code用多了觉得也不错,又在公司推claude code。工具迭代了,培训就得同步更新。

三个还没解决的问题

一是质量怎么靠AI短时间提高。目前靠人兜底,但代码生成速度太快,人盯不过来。这不是长期方案。

二是项目周期和报价怎么预估。单个功能可能快了5倍,但整体项目周期只快了2倍,因为协作和返工的时间你没法精确计算。

三是多人协作下的Feature变更怎么管,才能让岗位间协作更清晰。

问答精选

分享结束后大家讨论了很久,挑几个讨论最多和比较重要的问题整理在下面。

Q:转型后效率到底提高了多少?

A:单个功能大概快了5倍,但整体项目交付周期只快了2倍。卡点在协作和返工。你感觉单个功能做完了,隔半个月测试发现漏了东西,回去改的时间也要算到项目周期里。加了feature检查环节也解决不了这个问题,因为开发和检查是两个时间节点的事。

两个试点项目都跑了,新项目和棕地项目效率提升差不太多。虽然棕地项目要花时间整理老代码的规约,但一个星期就够了,对整体项目周期影响不大。


Q:转岗成功率怎么样?

A:大约10%的人被淘汰掉了。其中一部分是意愿特别低,怎么聊都不用;另一部分是转岗后又裁掉的。开发转测试裁得最多,原因是习惯和意愿都不太行,开发转岗到PO(需求设计)的接受度反而比较高。


Q:前后端分工怎么处理?

A:现在不分前后端了,但工作分配有侧重。流程是先有feature规格说明书,然后带着AI生成API文档和数据库文档,这三个作为输入给到工作流生成开发计划,计划里前后端文件都在里面,一次性把前后端全写了。先写测试用例再写代码,编译不通过就打回去让agent重新改,通过以后跑TDD,再跑代码评审2-3轮,最后自动提交。关键是不存在前后端交接问题,因为提前做好了接口契约。


Q:代码Review还做吗?

A:代码层面基本不做了,因为AI生成太快查不过来。文档层面做,重点是feature规格文档、技术feature文档、接口设计和数据库设计。代码评审是在开发过程中由agent自动做的,不是事后人工review。


Q:Bug率变化了?

A:bug率提高了大概60%。但bug类型完全不同了。古法编程时功能逻辑和体验优化问题占比最大,现在占比最大的是功能遗漏和UI不一致。逻辑问题反而少了。从严重程度看,重要和核心的bug其实很少,一般性问题特别多。


Q:用的什么模型?

A:主要是智谱的GLM-5.1和Kimi 2.6。体感上智谱比Kimi好一些。国产模型在coding场景已经够用了,更重的工作在Harness工程上,只要模型不是特别拉胯,Harness做得好就行。用过Claude但买不到稳定账号,被封了两次就放弃了。


Q:全自动化行不行?

A:试过。用go模式批量生成所有功能的需求、设计、代码,结果全是问题,天天都在用bug调试技能改。现阶段模型能力(至少国内模型)还到不了交给人就不用管的程度,中间必须有人去干预和检查。另外自动化程度越高,人对项目的理解就越浅,出了问题没人负责。所以流程中有一部分是自动化的(开发环节),但需求和需求产物交给开发、开发产物交给测试,这些环节还是人来驱动。


Q:AI写代码但人不了解细节怎么办?

A:代码不是人写的,确实很多细节不清楚。我们的做法是合并回主干之前,让AI把整个功能流程串一遍,了解脉络就行,不用去看具体代码实现。另外遇到探索性的技术方案问题,可以让AI生成多个方案对比测试。有个同事用AI写算法,性能不好,跟AI交流出四套方案,半小时全部生成完,统一输入输出只变算法,四套都跑了一遍选出效率最高的。