惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

阮一峰的网络日志
阮一峰的网络日志
Scott Helme
Scott Helme
P
Proofpoint News Feed
T
Threat Research - Cisco Blogs
C
CERT Recently Published Vulnerability Notes
P
Privacy & Cybersecurity Law Blog
云风的 BLOG
云风的 BLOG
V
Visual Studio Blog
Martin Fowler
Martin Fowler
Cisco Talos Blog
Cisco Talos Blog
罗磊的独立博客
MyScale Blog
MyScale Blog
博客园 - 【当耐特】
L
LangChain Blog
AWS News Blog
AWS News Blog
Security Latest
Security Latest
C
CXSECURITY Database RSS Feed - CXSecurity.com
P
Proofpoint News Feed
T
True Tiger Recordings
aimingoo的专栏
aimingoo的专栏
宝玉的分享
宝玉的分享
月光博客
月光博客
The Hacker News
The Hacker News
L
Lohrmann on Cybersecurity
The GitHub Blog
The GitHub Blog
Stack Overflow Blog
Stack Overflow Blog
S
SegmentFault 最新的问题
Recorded Future
Recorded Future
S
Security Archives - TechRepublic
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
WordPress大学
WordPress大学
Y
Y Combinator Blog
Recent Commits to openclaw:main
Recent Commits to openclaw:main
大猫的无限游戏
大猫的无限游戏
Apple Machine Learning Research
Apple Machine Learning Research
小众软件
小众软件
博客园 - 聂微东
GbyAI
GbyAI
N
News and Events Feed by Topic
The Cloudflare Blog
Engineering at Meta
Engineering at Meta
Last Week in AI
Last Week in AI
博客园 - 三生石上(FineUI控件)
G
Google Developers Blog
A
About on SuperTechFans
K
Kaspersky official blog
NISL@THU
NISL@THU
S
Securelist
Microsoft Azure Blog
Microsoft Azure Blog
V
V2EX - 技术

V2EX

[程序员] 免费共享自己的 token 给大家一起用 极豹代理注册送 500M 动态住宅流量 静态住宅 3 刀起 [Codex] 好像没有人说 ChatGPT 账户登录的 Codex,不支持 GPT-5.3 Codex、GPT-5.4 等模型了 有没有一种工作能每天稳定收入 10-50 元 [分享创造] 谁还记得 K-MeleonCCF 网页浏览器 [分享发现] 从 0 开始 vibe coding,产品上线一个月 1500+用户,我对用户增长的一些思考 [Windows] 卡巴斯基安全软件和卡巴斯基标准版选择哪个? [程序员] 做了一个本地音频处理 + 伪知识库应用,强依赖本地 ASR 模型,这种项目开源有意义吗? [Linux] 国产 Touchpad 在 arch 下偶发无法用手势 [问与答] 有老哥用 Portainer 吗? webhook 调用成功但是没有重新部署,哪位有经验? [问与答] 现在比较可靠的国外手机卡选哪家? [路由器] MikroTik RB5009 在 2026 是否还值得入手 [硬件] 外置硬盘有什么散热的好方案,太热了 OpenCode 的压缩算法有建议的兄弟们吗?主要是写 LaTeX 论文。 今年 618 是凉了吗 现在各类所谓戒网瘾机构真的太吓人了. 芒果 TV 好像在送免费的 glm 5.1 和 ds v4? 有大佬知道开了 ChatGPT plus 年费的情况下,可以再升级成 pro 吗?想只升级一个月用用 [分享创造] [分享创造] 做了一个纯本地的加密日记本,已上架 Google Play android 大佬们,有什么隐藏开发者 usb 调试的方案吗? [Visual Studio Code] VSCode 1.122.0 可以离线使用 BYOK 分析下“女生拒绝你,却还和你保持联系”这种现象 [宽带症候群] 部分机场拦截 SSL 连接,导致很多非浏览器软件的代理链路残废 [推广] [DDShub.cc]呆呆兽 Claude/CodeX 中转站,内含免费测试金 [程序员] 个人 side project 的设计工具用什么 今天 CPA 升级到 7.1.25 Codex free 只有 4 个模型了, gpt-5.5 还在,大家是不是这样? mimo 昨天重置之后为什么现在这么慢,是我的错觉吗 AI 编程是否是一种无效内卷? 做了个 Chrome 插件 DemoAlias,录 demo 时一键替换敏感数据 [Pixel] 想要入手个带一个 Sim 卡的 pixel10 在那块买更好 觉得现在入手合适吗 Mac pro M1 磁盘扩容问题 小米 mimo 模式是不是挂了,现在无应答了 Gemini 最近是降智了吗? 3.5 快是快但是回答的质量变差了 [程序员] 祝贺我司,月收入突破万刀~ [分享发现] [翻译] 为什么我要用 C# 构建数据库引擎 [分享创造] 使用 Skills 结合 NotebookLM 一人运营十个视频号 用 AI 如何做出好看的前端页面? 记一次令我非常无语的面试 [分享创造] GEO Wiki: 一个面向生成式引擎优化的百科全书 [分享发现] 哪位友友有滴滴 V8 [问与答] 有没有听力不太好,用苹果 air pod 的 [分享创造] Obsidian-Extensions-Activity 0.2 - 更好用的三方插件管理工具 《HelloGitHub》第 122 期 有没有阿里云的大佬,来说说这是真的,还是销售吹的? [Android] 看到 k80 可以解锁了 原来大型活动和人流量较多的地方有警察执勤并不是中国特色 [开源实时数字人] 商业级部署演示! 同时我们消费级卡的部署链路已经通啦,欢迎提意见~ [问与答] AI 搜索互联网资讯有啥好用的接口没? [副业] 跟风开了一个自助洗车店 [macOS] Mac 盖上盖子使用之后,每次开屏屏幕会花,这个是硬件问题还是驱动问题呢? 闪电藤即将下线,虾传正式上线 [DeepSeek] 今天 deepseek 崩了吗 codex 土区的 plus,能改成美区的 pro 吗,会触发手机验证吗 大家用过 Qwen3.7-Max 吗,说是比 GLM5.1, KIMI2.6 还强,真的假的? anthropic 既然如此抵触 cn,但是多国语言又提供简体中文? [程序员] 英语学了几十年,还是听不懂说不出,大家都是怎么练听说的? [问与答] 感觉有点 ai 阳痿了,话说你们都用 ai 做了啥 分享一个我做的 Apple Watch 独立游戏——30 秒打地鼠 [OpenAI] 有时候感觉言出法随比使用 superpowers 更方便快捷 [问与答] 有没有云南的?昆明彩礼一般多少啊? [生活] 我的无奈,我很想她,但是这不再可能 朋友用美国身份注册了 claude 账号,在国内使用会被封吗 [职场话题] 北京裁员赔偿上限是多少啊 [推广] 做了一个 AI 中转站 Lumi,新用户可免费订阅,每周送 2 元额度 17PM 7999 PDD、淘宝百亿补贴 [问与答] 我的 codex app 为什么这样? [分享创造] 无聊开发了一个蚊子白噪音助眠小程序,适合烦朋友 [程序员] Cursor 滞销了, 60 刀套餐回归玩家首月给 70% off [Wunder] edge.v2ex.com/chat 20260527 功能更新 [问与答] 寻找 image2,香蕉, seedance2 的 api; 取精室是怎么个流程?取不出来怎么办? opencode go 里的 mimov2.5 系列额度涨了 [酷工作] Crypto CEX 诚聘 AI 测试工程师 薪水 20K-30K RMB 纯远程办公 [生活] 你有给自己买什么商业保险吗,或者说有必要买商业保险吗 claude 发的这句话啥意思,说我问的多了吗 Quantumult X 又更新了 配置优化更新了一下 [问与答] 不知道是不是错觉, typeless 在 Macbook 上的耗电感觉有点快 老婆送了我个 iPhone17 Pro Max 1T,但我更舍不得我的 iPhone13 巨魔 福利: 4 个住宅 IP 兑换码,新用户专享 mac 笔记本 500G,开发用,现在没有储存空间了怎么办 是否存在港卡以外的其他选择?比如东南亚各国? DigVPS 测评 - 100TB 新增美国 Los Angeles - Global Tier1 产品:这应该是 Y 系第一个美国产品?限量九折优惠中。 [程序员] OpenCode x MiMo V2.5 - 限时免费 现在的你有哪些骄傲和无奈呢 香港金管局:就内地投资者投资账户新增三项监管措施 开户核查倒查至 2023 年 1 月 做了个 macOS 网站与应用拦截器, 保持专注. [小米] 有没有安卓玩机高手请教点问题 我发现 it 类工作者是最严重的性压抑群体 包括我自己 it 类的工作者 [开源] 高阶魔方一键求解器 Cursor 还能买吗, 20 刀和 60 刀的大概能用多久? ai studio 被疯狂封 api 怎么回事 Zerolang 好像还没人讨论? [问与答] token 用量究竟是怎么算的? 香港众安银行开户返 300HKD+50USD 英伟达股票兑换券 活动时间 5.28 日至 7.1 日截止。 vibe coding 了个辅助颈腰椎病康复的体态相机小工具 有在用免费 VPS 的吗?可以当梯子用吗? 这个 sechub 网站搬运了很多 V 站的内容,站方能管到它吗 我的 AI(LLM) 和 vibe coding 使用技巧已经落伍了吗 我做了一个 Agent Team 协作平台——Rudder:让 Agent Team 在实践中成长 react 这个技术栈到底是如何做到每天都有新发现的?
ImgMCP 多媒体创作 MCP 工具(支持 GPT-Image-1 / Midjourney / Kontext / Veo 3)
sjzar · 2025-06-19 · via V2EX

Hi ,大家好,我又来发布工具了~

4 月初的时候,我发布了一个 chatlog MCP 工具,出乎意料获得了不少关注(目前 5.4k star ),非常感谢大家的支持,同时也让我思考 MCP 工具更多的可能性。

最近,我做了一个新的工具 ImgMCP 。简单来说,它是一个能让大语言模型( LLM )调用各种多媒体 AI 能力的工具。

项目地址: https://imgmcp.com

最初的想法

我们平时和大语言模型( LLM )聊天,处理文字很方便,但如果想让 LLM 帮忙处理图片、视频,就需要使用支持多模态的特定模型,或是到各个多媒体 AI 产品中使用对应功能,需要在多个工具之间切换。切换工具的原因也很简单,不同的多媒体 AI 模型有着不同的特长:

  • GPT-Image-1 擅长理解复杂的上下文,对多语言支持的比较好;
  • Midjourney 的艺术审美更强,能够生成更具艺术感的图片;
  • Flux Kontext 在局部编辑上的控制力很强,非常适合做修复和调整。

那么能不能有一个统一的入口,我们只需要通过自然语言向 LLM 表达需求,LLM 就能智能调度不同的多媒体 AI 协同工作,完成多媒体创作和处理任务?

举个例子,我们告诉 LLM 我们的想法,LLM 先调用 Midjourney 生成具有创意的概念图,然后调用 GPT-Image-1 参考概念图和我们更详细的上下文信息,生成更符合具体要求的图片,最后如果对于局部不满意,再调用 Kontext 进行精修。

除了这些复杂的创作,一些基础的图片处理能力,例如图片放大、裁剪、去除背景、添加水印等等,也应该可以通过与 LLM 的对话轻松完成,由 LLM 去调用相应的处理模型。

对 LLM 的增强

ImgMCP 的核心,就是想把这一切都融入到与 LLM 的自然对话中。用户不需要关心背后具体是哪个多媒体 AI 模型在工作,甚至都不需要主动选择。在与 LLM 的交流过程中,LLM 根据你的意图,自行决定调用哪个多媒体 AI 模型、执行什么操作。

更有意思的是,并非所有 LLM 都天生具备直接生成多媒体内容的能力。那么,通过 MCP 这样的框架,我们是否能赋予那些“纯文本”LLM 去调度多媒体 AI 模型的“超能力”呢?

我做了一些简单的测试,发现这完全是可行的。即使是小参数的本地模型,在 MCP 的帮助下,也能指挥多媒体 AI 模型完成图片生成这样的任务。(测试使用 llama3.2:latest 在 Chatwise 调用 MCP 工具)

这种方式还有一个潜在的好处:LLM 强大的上下文理解能力,能帮助我们将模糊的自然语言指令,更准确地转换为对多媒体 AI 模型的具体创作参数。它甚至可以主动补充一些我们可能忽略的细节,理论上能让最终作品的质量更上一层楼。

现实的挑战

在实现的过程中,我也遇到了不少问题,甚至不太好处理。

  • 通知机制: 目前 MCP 协议中的通知机制,在很多 MCP Host 中都没有实现。这意味着,一个由 LLM 发起的创作任务(比如调用多媒体 AI 模型生成一张复杂的图片)是否完成,我们往往需要再次主动调用 MCP 工具查询状态,体验上不够流畅。我相信随着协议的完善,或者我们自己实现一套客户端,这个问题能得到改善。
  • 本地文件上传: Remote MCP 工具通常无法直接读取用户的本地文件。这就导致了“图生图”、“图生视频”这类依赖本地素材的功能(即 LLM 需要将本地图片信息传递给多媒体 AI 模型),在上传体验上不尽如人意。我之前尝试写过一个叫 file-store-mcp 的小项目,它可以把本地路径或剪贴板中的文件上传到对象存储,并返回一个 URL 。或许,可以考虑提供一个本地的 MCP 工具作为“助理”,专门负责文件上传,然后将文件 URL 交给 Remote MCP ,再由 LLM 将这个 URL 作为参数传递给相应的多媒体 AI 模型进行处理。

关于 interface 的思考

还有一个想聊的话题,就是 interface 。过去我们做产品,主要关心的是两个 interface 的体验,一个是用户界面,一个是 API ,用户界面是给人用的 interface ,API 是给程序用的 interface 。

那么现在,我们是不是可以说,产品需要第三种接口——MCP ?这个入口,是专门给大语言模型( LLM )用的,让 LLM 能够调用我们产品提供的各种能力。

如果说 API 要求的是精确的参数输入,任何一点差错都可能导致调用失败;那么,为 LLM 设计的 MCP 接口,是否应该回归到更自然的语言交互呢?

我想到,电子邮件( Email )可能是目前应用范围最广的自然语言接口了。同事之间通过邮件沟通工作,请求协助,正是因为每个人都有自己的专业领域和职责划分;部分在产品中不好做自动化的能力,也经常以“通过邮箱联系我们”来进行处理。MCP 是否也应该如此?它应该能让 LLM 在不干扰主对话流程(上下文)太多的情况下,高效地完成各类专项任务(比如调用一个多媒体 AI 模型处理一张图片)。

如果 MCP 的交互真的回归自然语言,那么 MCP 的入口处,可能就需要一个“特别”的 LLM (或者说是一个专门针对该 MCP 优化的 LLM )。这个 LLM 需要深刻理解产品自身的能力边界,能够精准分析调用方(另一个 LLM 或应用)的需求,并将其合理地分配给后端的功能模块或具体的多媒体 AI 模型。这样做,调用的效果会不会更好? 这么一想,是不是就有一种快步进入 A2A 版本的感觉了?不知道有没有人想明白。

回到 ImgMCP

聊了这么多设想,说回 ImgMCP 目前的实际情况。它本质上就是一个多媒体 AI 聚合服务(类似 OpenRoute )。我接入了一些我认为效果较好的多媒体 AI ,然后把它们包装起来,方便大家通过 Web 界面、API 、MCP 使用。用户可以通过 Web 界面临时使用,也可以对接 API 大规模使用,或是尝试一下 MCP 的调用方式,一起探讨如何优化 MCP 体验。

目前已经接入的模型包括:

  • GPT-Image-1
  • Midjourney
  • Flux Kontext
  • Google Veo 3 (超级贵)
  • 以及一些基础图像处理能力模型
  • 后续也会积极继续接入效果较好的模型,例如今天发布的 Midjourney V1 (这个好玩哇~)

相比直接使用这些模型的官方服务,ImgMCP 主要的优势在于:

  • 价格:通常会有一定优惠。例如,Veo 3 官方价格是 6 美元一个 8 秒视频,在 ImgMCP 只需要 2.4 - 5 美元。
  • 付费方式:支持按需付费,用多少算多少,购买的积分也不会过期。这对于那些不经常有作图需求,只是偶尔需要用一下的用户来说,可能会更友好。中文语言下支持支付宝微信支付。
  • 访问方式:提供 Web 界面、API 和 MCP 三种方式接入。

总结

写了这么多,主要是想分享一些近期关于 MCP 工具的折腾。欢迎大家来体验一下 ImgMCP ( https://imgmcp.com ),注册就有 100 积分可以用于测试,更欢迎对 MCP 这个方向感兴趣的朋友一起交流探讨。