惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

V2EX - 技术
V2EX - 技术
L
LangChain Blog
IT之家
IT之家
S
SegmentFault 最新的问题
博客园 - 三生石上(FineUI控件)
H
Hackread – Cybersecurity News, Data Breaches, AI and More
T
The Blog of Author Tim Ferriss
Blog — PlanetScale
Blog — PlanetScale
N
Netflix TechBlog - Medium
U
Unit 42
B
Blog RSS Feed
GbyAI
GbyAI
Microsoft Security Blog
Microsoft Security Blog
博客园 - 司徒正美
Apple Machine Learning Research
Apple Machine Learning Research
T
Threatpost
C
CERT Recently Published Vulnerability Notes
Cisco Talos Blog
Cisco Talos Blog
The Register - Security
The Register - Security
Vercel News
Vercel News
S
Schneier on Security
Spread Privacy
Spread Privacy
C
Cyber Attacks, Cyber Crime and Cyber Security
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
博客园 - 叶小钗
雷峰网
雷峰网
博客园_首页
人人都是产品经理
人人都是产品经理
P
Palo Alto Networks Blog
The Hacker News
The Hacker News
T
Tor Project blog
L
Lohrmann on Cybersecurity
Know Your Adversary
Know Your Adversary
D
Darknet – Hacking Tools, Hacker News & Cyber Security
C
Cybersecurity and Infrastructure Security Agency CISA
P
Privacy International News Feed
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
Tenable Blog
V
Vulnerabilities – Threatpost
大猫的无限游戏
大猫的无限游戏
博客园 - 【当耐特】
V
V2EX
Security Latest
Security Latest
A
About on SuperTechFans
Cloudbric
Cloudbric
S
Security Affairs
MongoDB | Blog
MongoDB | Blog
Y
Y Combinator Blog
Martin Fowler
Martin Fowler
TaoSecurity Blog
TaoSecurity Blog

V2EX

我用 AI 写代码,但终端管理反而成了累赘——于是我做了 codux - V2EX [调研] 各位在公司都用什么 ide 和 agent 写代码? 老运维 share 一个运维平台 新电脑 brew install node 之后,一个小设置可以提升对供应链投毒的防御 - V2EX GLM-Coding 调用持续报错: z.ai 的 Lite 套餐几乎无法使用,官方 Pro/Max 是否稳定? - V2EX 上海漕河泾内推,本组有 2 个 hc,一个后端,一个前端,预算都是 20k 左右,不打卡,氛围好 如果 V2EX 上有一组不永久保存聊天记录(比如只保存 7 天或者 24 小时)的聊天室,那么会开启哪些有用或者有趣的可能? - V2EX gemini cli 貌似挂了,一直返回 403 - V2EX 第一次在自媒体上赚到钱 收集了最近在使用的低价 GPT, Gemini,邮箱等 AI 会员的小店合集 讨论个大实话:现在企业还在说 AI 编程提效 20%, 30%的,真的太落后,没用懂 AI。因为包括很多前沿公司,已经狂奔到提效 200%-500%的情况 [招聘][远程][币安] 前端/后端/QA/iOS/Android 至少 3 年以上经验 目前有大量 HC 欢迎投递 Chatgpt Pro 用量用不完的可以开这些设置 面试的时候好像遇到钓鱼了,给各位避个坑 cursor 年续费 22 号到期, 自动续费是否还是老的计次套餐呢 - V2EX 被两件破事毁掉的一下午,琐碎的内耗消磨人的精力 使用 Planet 存储 Codex 的会话或者重要信息 - V2EX 如果业务部门领导不要你开发功能,而是要求你教会它用 claude code 开发功能,你会怎么做? 分享一个 MacOS 接绿联 CM818 USB 转 DP 转接器使用感受 - V2EX 我的 HR 朋友 10 年老 Java ,非全大专,大家帮忙看看简历 开源了一个 AI 口语练习工具,音素级发音评分,完全免费可自部署 V2EX 上有哪些你觉得很有趣、印象深刻的妹纸? 字节为啥不出个国内版 Vercel? 有在大马的朋友吗? 问个运营商问题 你们在有领导的公司大群发过的最大胆的消息是什么 公司裁员,目前没有工作。想试试摆摊,做一个移动鲜啤打酒车 我的硬盘 Memblaze Pblaze 5 Linux 下不识别,给 Linux 内核提交了补丁, AI 说有望被合并 - V2EX 只有我一个人觉得 codex 不好用? 做了个 AI + 真人专家监督的广告投放平台 Auxora, 7 个品牌跑出 6x ROAS 如何走出至亲的离世 Claude Web 端貌似 claude-opus-4-7 偷偷上了? 现在 Apple 开发者帳號應該是用哪个地区会更好? - V2EX 用回测筛选因子的一点经验分享 给女儿 vibe 了一个故事类的 app,做完发现,这类应用似乎上线难度极大? - V2EX 手机格式化 bitget 钱包没了,里面开通的银行卡还有机会拿到吗 - V2EX [送码] TransVoice - 我的第一款 App 上架啦!实时转写+翻译+字幕,会议听课好助手! PictureHub 高清摄影作品的画廊 Planet 的第一个使用 macOS 26 SDK 构建的 Insider 版本 20260416-1 - V2EX 成都二手房是不是在涨价,有点坐不住了 - V2EX claude 生态(skill mcp plugin)等 Studio Display XDR VESA 适配器脱落 有在用印度区 applestore 的大哥嘛,请教一下礼品卡去哪里买呢 - V2EX 我好像知道京东家政爆火的原因了 - V2EX 薅了公司的 a 家 api key,用机场 ip 做代理容易被封吗 如何在初期就识别 HR 在刷 KPI,没打算招你? [分享]精心打造一个 AI 编程知识库(算法/设计模式/提示词/Skills),助力程序员转型 港版 iPhone 在国内支持联通 5GA 吗?在广东用 想办港卡 AI 对 it 行业影响太大了 我做了个把照片变成 iOS 小组件贴纸的 App ChatGPT Pro 5x 套餐 量真的很足! I have found a method to directly generate advertising video materials using scripts 在小城市开个店,给人写软件,有前途吗 chrome 最新的 147 版直接卡爆炸了 - V2EX 为什么厂家不在 skill/mcp 这类的工具中塞广告呢?这样不是可以大赚嘛? minimax 真是脸都不要了,工作日下午 14:00 定时开启 529,脸都不要了。训练模型居然占用用户使用时间 外资非核心部门 vs 另一家外资的核心部门,该跳吗? iTad 标签 扩展 加小动作 ? - V2EX 去年 H200 能买,不让买是代替快出来了? - V2EX AI 赛事通 - 2026 年 4 月中国区新增 AI 竞赛和黑客松汇总 - V2EX V2EX › 登录 现在安卓开发都在做啥 - V2EX 浏览器插件 沉浸式翻译 是不支持自定义模型了吗? - V2EX Codex 里的 GPT5.4 也能降智?上午让它改两个问题,改了一个小时了, plus 额度用了一半了还是没改好,和前几天用的体感完全不一样。要它改的问题也不复杂。服了。 目前有使用 claude code 的收到人脸认证的吗 - V2EX 分享一个自己做的 Nginx 管理工具,实时请求动态预览!(无奈市面上实在找不到好用的,自己撸了个) - V2EX claude code 崩了么? 今天在反重力上用 claude 一点都不丝滑,有同样的感受吗? opencode 消息周知插件 今天 claude opus 和前两天比,质的飞跃 - V2EX 999 包月价? - V2EX 一个版本, 50 项更新:我们几乎重做了整个播放页 本地大模型多大显存够用? GOGDNS 一款简易的私人 DNS 服务器 - V2EX API key (GLM) 怎么使用 claude code desktop ? Claude 这样订阅有问题吗 - V2EX 帮我爸找回了一篇赛博兰亭集序 求推荐稳定、高性价比使用 Claude Opus 4.6 的渠道/平台 搞个云端 claude code 防止 封号 - V2EX 用 Claude 要实名了,内地用户怎么办? OpenAI Plus 和 Team 都缩水了吗 海外 Android 手机有什么好用的国内第三方应用市场推荐吗 - V2EX 把电脑伪装成电视,用 DLNA 投屏拿到视频号直播流地址 - V2EX claude 认证莫慌 北京互联网法院有什么攻略么?起诉北京智谱华章科技股份有限公司退款可行么? - V2EX Claude 开始引入身份验证 求 vscode 做笔记软件的插件推荐 - V2EX 讯飞星辰的 Coding Plan 如何? Anthropic 宣布在 Claude 平台推行身份验证机制 科普一下低价 gpt 是怎么来的 有没有长期关注 Claude 的朋友,我建了一个 Channel 自动抓取 Claude Team 的推文 啃了那篇 54 页的 Agent Harness 综述, 给大伙讲个省流版 现在那家的 coding plan 还能买到 是不是最近会有什么更聪明的大模型要发布了呀? 用多了 AI 后,有没有觉得 AI 生成的文章有很强的既视感? 如何 实践 Harness 工程? 今日份 GPT 5.4 笑话 如何建一个自己的号池,让 cursor 真正实现 token 自由 写了三个月 Agent Harness,我终于敢让 Claude Code 全自动写代码了
从构想走向现实:一个 AI Agent 开发者的实践手记
chnwine · 2025-07-27 · via V2EX

一、缘起:为什么世界需要另一个 AI Agent ?

1. 从 ChatGPT 到 AutoGPT:AI 工具的进化

最开始接触 AI 时,我只是把 ChatGPT 当作一个聊天机器人。到后来又用上了 Cline 、Windsuf 、Cursor 这类 AI 编程工具。起初不太习惯不怎么去用,但习惯了之后发现,这些工具用起来是挺爽的。比如,用 Cline 和 Cursor 直接对话就可以快速定位和修复代码问题,脑子不在线的时候直接提需求‘你要 XXXXXX’,然后等着结果就行。我可以信不过 AI ,但我可以信得过测试用例和运行结果,渐渐的AI 不再只是对话,而是逐渐成为工作流的一部分,不想动脑子的时候就不动脑子,直接提需求就行,然后 TAB 、TAB 、TAB ,done 。

2. 传统行业的痛点:Excel 、手写单据和低效协作

我的上一份工作是做物流行业的信息系统。这个行业里,很多人还在用 Excel 、手写单据、打印 PDF 、手动录入数据——效率低得让人抓狂。曾经,我花了三个月写了个 Mac/iOS 的 OCR 工具,想帮他们自动提取表格数据。虽然效果不错,但考虑到物流从业者大多用 Windows 和 Android ,市场覆盖率太低,就放弃了。

3. 内心的激动:是时候让 AI 来解决这些枯燥的重复劳动了

再后来,GPT-4 刚出来的时候我测试了 GPT-4 的多模态能力,让它解析 PDF 和图片里的表格数据——结果远超预期。我就想如果给 AI 一对翅膀,让 AI 不仅能“看懂”文件,还能“操作”软件,工作方式会被彻底改变。

2025 年 2 月,公司裁员我领了大礼包。“说人话+自动化”再次点燃了我的热情,按捺不住心中的悸动“现在不做,回头就只有看别人做好的了“, ”just do it”!

让 AI 长上翅膀和手脚吧

二、构建:在理想与现实之间走钢丝

1. 产品定位的迷茫

最开始,我并没有想清楚 Swiflow 到底要服务谁。只是觉得“说人话+自动化”很酷。为了验证想法,我在朋友的数据库上跑了个用例:让 AI 根据媒体资讯自动生成研究报告。

效果很好——即使没有数据字典的辅助,AI 也能自己查询分析表结构、查询数据、输出报表构建看起来不错的分析。

这个正向反馈让我开心了好一阵子,但问题也随即而来:我开发的是桌面端应用,大多数用户根本没有数据库可用。

“酷炫效果”不等于“实用产品”,只能继续从桌面场景找具体用例。

2. 功能取舍

第一版 Swiflow 内置了几个核心工具:

  • 文件操作(文本读写)
  • 命令行工具(执行脚本)
  • 数据库工具(数据查询)
  • 浏览器自动化(网页搜索)

浏览器工具让我纠结了很久:“到底该支持哪些操作?” 点击?输入?滚动?还是直接模拟用户行为?

越想越复杂,最后意识到:“先解决一个具体问题,别妄想做‘全能 Agent’。”

3. 技术踩坑

在这个项目之前我没做过真正的 Autonomous Agent (自主智能体),只写过自动回复邮件的 Bot 。

但完全自动化的 Agent 复杂程度远超预期——原本乐观估计一两个月搞定,结果光是 MVP 就花了俩月,中间还不停从开源项目( Cline 、Sono 、Open Manus )中学习经验,有时候忍不住问自己为什么要自己造轮子,开车不香么。

感谢开源组织,好人一生平安

问题 1:Prompt 像豆腐渣工程

初始 Prompt 是基于别的项目改的,只做了简单约束,结果 AI 经常“自由发挥”——要么误解需求,要么生成不靠谱的代码。

问题 2:多轮对话崩盘
用户提问:“将这个目录下的 PDF 单据整理成表格。”
Agent 响应:写 Python 脚本→装依赖→调整环境→修改报错→再错再改……

出发了很久,还没走出高老庄。

问题 3:上下文爆炸 由上可以看出 AI 是个老好人,不会拒绝你,也不会拒绝你做的事。在 Agent 里正是如此‘我错了,我要改’,‘让我再试试’,‘我还能行,扶我起来’。 但 Agent 每执行一步都会往对话里塞更多信息,而且不停试错不停改,很快就把上下文窗口撑爆了。

Agent 勤奋且努力,我半夜醒来都觉得自己不如 Agent 努力,忍不住想说‘扶我起来我还能行’。

问题 4: 造工具不靠谱 最初没有经验,以为 python 的轮子那么多了,让 agent 随便造呗,给你 100 块钱想吃啥买啥

等实际测试时发现,agent: '你让我自己做饭么?','是的,你自己做饭','好的,请放心'

最后:'MAMA ,房子被烧了'

由于让 Agent 自己搓工具靠不住,最终决定还是先用现成的吧。 于是迅速拥抱 MCP 生态,先解决工具链的稳定性问题。

饿肚子的时候吃外卖也挺好的,预制菜不预制菜的重要么?

三、顿悟:Agent 开发中的反常识

1. “全能 Agent ”是幻觉

测试时,Swiflow 玩五子棋、写贪吃蛇、解数独——表现惊艳。但一遇到真实工作场景(比如“物流单据转 Excel”),效果就大打折扣。

后来我懂了:AI 有知识,但没经验 它知道“表格”是什么,但它不懂“物流行业的单据长啥样”,也不懂每个字段之间的业务关系。这个问题也不是一个复杂的问题,本可以调整 Prompt 来优化,但整个流程中“发现问题→修改 Prompt →重新对话”的循环太不友好。于是,我加入了“记忆功能”——用户只需在对话中提醒 Agent “记住这个、记住那个”,它就能逐步学习业务规则。

2. Agent 需要适时"踩刹车"

传统软件开发是"输入→处理→输出",但 Agent 更像是概率性的探索。如果完全放手让它自己跑,很容易南辕北辙。在合适的地方适当的停下来咨询用户的意见也是个不错的选择,像 Cursor 的 Agent 就经常这么干不知道是为了省 token 还是为啥。

3. "完全自主"是个美丽的陷阱

最初我希望 Swiflow 能"完全自主"——用户说一句话,AI 就能独立完成整个任务。但现实给了我当头一棒:

  • 输入输出比例失衡:用户输入 10 个字,AI 可能输出 1000 字,交互效率极低
  • 错误会累积放大:一步走错,后面全歪,越跑越偏
  • 缺乏反馈机制:用户不知道 AI 在干什么,AI 也不知道自己做得对不对

所以现在的思路是:与其信马由缰,不如相敬如宾 —— 让 AI 成为"会主动汇报的助手",而不是"全权代理的黑盒"。

四、成果:从理想主义到实用主义

经过半年的摸爬滚打,Swiflow (swiflow.cc)现在具备了一些实用的核心功能:

  • 支持自定义 Prompt:用户可以随意更改 Prompt ,定制属于自己的工作流
  • 支持记忆功能:Agent 能记住重要信息,只需说"请记住我们刚才沟通的结论"
  • MCP 协议支持:通过 MCP Server 扩展 Agent 能力,让功能更强大
  • 支持定时任务:可以设置"每半小时帮我检查一下最新邮件"这样的定时任务
  • 支持多 Agent:为不同任务设置专门的 Agent ,避免上下文混乱

在实际应用中,它能稳定处理批量文件处理、数据格式转换、邮件管理、信息收集等桌面自动化任务。虽然离最初"AI 万能助手"的愿景还有距离,但至少在具体场景下,它确实能帮用户省下不少时间。

更重要的是,这个过程让我对 AI Agent 有了更现实的认知:它不是魔法,而是工具。就像任何工具一样,关键在于找到合适的使用场景,而不是期待它解决所有问题。

五、 结语

做 Swiflow 的半年里,我的体会是:虽然 AI Agent 还不完美,但大模型的快速进化和 Agent 在某些场景下的优异表现,让未来值得期待。也许某一天,我们真的可以直接委托 AI Agent 撒手去做了,我们就吃着火锅唱着歌,事儿就办成了。

如果你也想体验一下这种"撒手掌柜"的感觉,欢迎来试试 Swiflow——说不定真能让你提前下班去吃火锅呢。