惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
E
Exploit-DB.com RSS Feed
T
Tenable Blog
P
Privacy International News Feed
C
CXSECURITY Database RSS Feed - CXSecurity.com
Cisco Talos Blog
Cisco Talos Blog
T
Tor Project blog
H
Hacker News: Front Page
S
Securelist
Recent Commits to openclaw:main
Recent Commits to openclaw:main
A
Arctic Wolf
K
Kaspersky official blog
C
Cybersecurity and Infrastructure Security Agency CISA
Cloudbric
Cloudbric
Help Net Security
Help Net Security
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
I
Intezer
Simon Willison's Weblog
Simon Willison's Weblog
博客园 - 叶小钗
The Cloudflare Blog
L
LINUX DO - 热门话题
Last Week in AI
Last Week in AI
V
V2EX
L
LINUX DO - 最新话题
AWS News Blog
AWS News Blog
酷 壳 – CoolShell
酷 壳 – CoolShell
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
The Hacker News
The Hacker News
W
WeLiveSecurity
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
PCI Perspectives
PCI Perspectives
SecWiki News
SecWiki News
Application and Cybersecurity Blog
Application and Cybersecurity Blog
WordPress大学
WordPress大学
罗磊的独立博客
博客园 - 【当耐特】
Apple Machine Learning Research
Apple Machine Learning Research
J
Java Code Geeks
D
Docker
O
OpenAI News
Martin Fowler
Martin Fowler
N
News and Events Feed by Topic
S
Security @ Cisco Blogs
G
Google Developers Blog
H
Heimdal Security Blog
T
Troy Hunt's Blog
Vercel News
Vercel News
Recent Announcements
Recent Announcements
爱范儿
爱范儿
AI
AI

掘金

Win 安装Claude Code FastAPI 的 CORSMiddleware 跨域中间件 Java 自研 ReAct Agent 半年后,我用 LangGraph 验证了这些设计取舍 🚀AI编程工作流终极形态:GitNexus!零Token消耗实现代码知识图谱化!让Claude Code和Codex拥有上帝视角彻底告别盲目改代码,复杂项目重 LeetCode 72. 编辑距离:动态规划经典题解 被The Graph的GraphQL查询坑了三天,我用一个真实DeFi项目把链上数据索引彻底搞懂了 (AI) 编写简单 AI 助手 (ds-agent) 别再让 pnpm 跟着 nvm 跑了!独立安装终极指南 Claude Code 为什么这么顺?Anthropic 最新复盘:真正撑住它的不是模型,而是缓存 从 /simplify 指令深挖 Claude Code 多 Agent 协同机制 Function-Calling与工具使用 新手上路(六):Claude code装上ECC全家桶:38 个子代理、156 个技能、生产级 Hooks 与 Rules 体系 我在 Claude、Kimi、opencode 三个 AI 之间搭了一条自动协作管道 【技能篇】OpenClaw Skill 详解:给 AI 装上"专业外挂" wagmi v2 多链钱包切换:一个 Uniswap 仿盘项目让我踩了三天坑 两周浅学 RAG 我把 Python re 模块比喻成摸金手套 新手上路(三):Claude Code Skills 装了一堆没用?20+ 个 Skill 横向对比 + 三套组合方案,按需抄 K2.6、DeepSeek V4、GPT-5.5 都来了,组合拳打起来 Claude Code 进阶之路:从记忆系统到子代理编排 [java] 编译之后的记录类(Record Classes)长什么样子(上) 国产大模型能力大比拼,社区有话说 我研读了 500 个 Spring Boot 生产级代码库,90% 都犯了这 7 个致命错误 JAVA重点难点 转发-中央网信办部署开展“清朗·整治AI应用乱象”专项行动 合同同步逻辑 【合并已排序数组的三种实现策略,哪一种更可取?】 30天减20斤挑战:少一斤发100红包(2) 我竟然被JavaScript的隐式类型转换坑了三天! 二十五.Electron 初体验与进阶 本地到生产,解决 AI 全栈最后一公里——构建&部署&运维 程序员创业半年:顺的事、不顺的事,和我一直没想清楚的事 UI组件库elementplus 像使用 Redis 一样操作 LocalStorage 向量检索的流程是怎样的?Embedding 和 Rerank 各自的作用? LangChain DeepAgents 速通指南(七)—— DeepAgents使用Agent Skill 为什么越来越多的大厂抛弃MCP,转向CLI? 【节点】[SquareRoot节点]原理解析与实际应用 juejin.cn juejin.cn 从 “存得下” 到 “算得快”:工业物联网需要新一代时序数据平台越来越多工业用户开始意识到一个问题:**数据是存下来了, - 掘金 放弃 Claude 订阅?我用 8 年前的服务器,强跑 Google 最强开源模型 Gemma 4 真实测评! Python开发者狂喜!200+课时FastAPI全栈实战合集,10大模块持续更新中🔥 从 Claw-Code 看 AI 驱动的大型项目开发:2 人 + 10 个自治 Agent 如何产出 48K 行 Rust 代码 秒级创建实例,火山引擎 Milvus Serverless 让 AI Agent 开发更快更省火山引擎MilvusSer MediaPlayer 播放器架构:NuPlayer 的 Source/Decoder/Renderer 三驾马车 juejin.cn juejin.cn juejin.cn juejin.cn juejin.cn juejin.cn OrbStack:一键将你的 Mac 变为本地服务器 NginxPulse:Nginx日志监控革命!实时洞察Web流量与安全态势的智能利器引言:当Nginx日志成为运维的“数 - 掘金 juejin.cn 大V说’AI替代不了你’,但现实是——用AI的人正在替代你2026年是AI落地的元年,自从Claude Code爆火之后 - 掘金 juejin.cn 你以为是技术问题,其实是流程问题:工程效率的真相引言 在软件工程领域,效率问题始终是团队管理者和工程师们关注的焦点。当项 - 掘金 大模型工程三驾马车:Prompt Engineering、Context Engineering 与 Harness Engineering 深度解析 juejin.cn 4.响应式系统基础:从发布订阅模式的角度理解 Vue3 的数据响应式原理本文从发布订阅模式的核心思想出发,深入剖析了 V - 掘金 慌了!Android 17 取消图标文字,你的 App 可能要找不到了用户终于可以隐藏桌面图标下面的文字了。 这个功能在 juejin.cn 我用 AI 搓了一个"比谁更持久"的微信小游戏,AI实现只用了一天,微信审核却用了一个月!!!起因:一个沙雕想法的诞生 - 掘金 juejin.cn 第12章 工具(Tools)与函数调用(LangChain实战)在前几章中,我们搭建的RAG系统、对话链,核心能力局限 - 掘金 juejin.cn CmComposeUI —— 基于 Kotlin Multiplatform Compose 的 UI 组件库 Android 开发的 AI coding 与 AI debugging在目前整个行业都在大规模使用 AI coding juejin.cn juejin.cn juejin.cn juejin.cn 一文搞懂Harness Engineering与Meta-Harness 越用越强不是广告语:拆解 Hermes Agent 的三层学习机制 P2G-Python字符串方法完全指南-split、join、strip、replace的Python编程利器 AI 周刊【2026.04.06-04.12】:Anthropic 藏起最强模型、AI 社会矛盾激化、"欢乐马"登顶 从 AI Skills 学实战技能(六):让 AI 帮你总结网页、PDF、视频 关于10年工作经验的程序员对OpenClaw的实战经验分享以及看法 详解 karpathy 的 microgpt:实现一个浏览器运行的 gpt 不用 Tailscale:3 步把 Mac mini 通过 FRP 暴露到公网(稳定开机自启) P2B-Python可迭代对象完全指南-从列表到生成器的Python编程利器 手把手带你部署本地模型,让你Token自由(小白专属) juejin.cn 10分钟掌握 JSON-RPC 协议,面试加分、设计不踩坑 ReAct:让大模型学会边想边做 聊聊AI的发展史,AI的爆发并不是偶然 Python的列表推导式里藏了个坑,差点让我加班到凌晨 重排、重绘与合成——浏览器渲染性能的底层逻辑 podman与docker的区别和生产环境最佳实践 juejin.cn ConcurrentHashMap线程安全实现原理全解析 juejin.cn juejin.cn juejin.cn juejin.cn juejin.cn juejin.cn OpenAI Codex深度解析:终端里的AI代码特工,一个指令重构整个项目 UE5.6 Cesium 插件编译踩坑记录(UE 5.6 + MSVC 14.38 + CMake 3.31)
一天一个开源项目(第103篇):Open-Generative-AI - 开源 AI 视频与图像创作中心
冬奇Lab · 2026-05-17 · via 掘金

引言

"Creative freedom belongs to everyone, unfiltered and unconstrained."

这是"一天一个开源项目"系列的第103篇文章。今天带你了解的项目是 Open-Generative-AI

在 AI 视频和图像生成领域,虽然出现了 Kling、Sora、Midjourney 等强大平台,但闭源生态、订阅费用以及严格的内容审查(Guardrails)限制了许多创作者的发挥。Open-Generative-AI 作为这些平台的开源替代品,通过集成超过 200 个先进模型,为用户提供了一个无过滤、可定制、支持自托管的创作环境。

你将学到什么

  • 核心概念:如何构建一个统一的多模型 AI 创作中心。
  • 主要功能:涵盖文生图、图生图、文生视频、图生视频、音频驱动对口型等全方位能力。
  • 技术亮点:支持 Electron 桌面端本地推理(sd.cpp 与 Wan2GP)及远程 GPU 卸载。
  • 应用场景:从个人艺术创作到自动化媒体管线构建。
  • 对比优势:无内容过滤、零订阅费用、完全的私有化部署。

前置知识

  • 对生成式 AI(Diffusion Models, Video Generation)有基本了解。
  • 熟悉 JavaScript/TypeScript 开发环境。
  • 基本的 Docker/Node.js 部署知识。

项目背景

项目简介

Open-Generative-AI 是一个免费开源的 AI 图像、视频、电影及对口型工作室。它的核心价值在于“无限预算(Infinite Budget)”的电影工作流理念,让创作者能够摆脱昂贵的订阅服务,在本地或自托管服务器上利用 Flux、Kling、Wan 2.2 等顶级模型进行创作。它不仅提供 Web 界面,还拥有强大的桌面客户端,甚至可以作为 AI 编码代理(如 Claude Code)的后端技能库。

作者/团队介绍

  • 作者:Anil-matcha
  • 背景:活跃的开源开发者,专注于 AI 工具链和媒体处理。
  • 项目创建时间:2024年(持续高速更新中)

项目数据

  • ⭐ GitHub Stars: 14.5k+
  • 🍴 Forks: 2.5k+
  • 📦 版本: v1.0.9 (Latest)
  • 📄 License: MIT
  • 🌐 官网: muapi.ai/open-genera…

主要功能

核心作用

Open-Generative-AI 提供了一个高度集成的 UI 界面,允许用户通过简单的配置(如 API Key 或本地模型路径)调用各种 AI 生成模型,实现从创意构思到成品渲染的完整流程。

使用场景

  1. 短视频/电影创作
    • 使用 Cinema Studio 的专业相机控制(焦距、光圈)生成高质量镜头。
  2. 播客/营销视频制作
    • 利用 Lip Sync Studio 让静态人像根据音频说话,制作口播视频。
  3. 私密/无过滤创作
    • 摆脱商业平台的安全顾虑,在本地机器上运行无过滤模型。
  4. 自动化 AI 媒体流水线
    • 通过集成技能库,让 AI 代理自动执行“提示词生成 -> 生成 -> 编辑 -> 拼接”的任务。

快速开始

可以通过两种方式快速体验:

1. 浏览器在线使用 访问 muapi.ai 直接体验四种工作室模式。

2. 本地部署(源码安装)

# 克隆仓库
git clone https://github.com/Anil-matcha/Open-Generative-AI.git
cd Open-Generative-AI

# 安装依赖
pnpm install

# 启动开发服务器
pnpm dev

# 构建桌面端 (Electron)
npm run electron:build

核心特性

  1. 图像工作室(Image Studio)
    • 支持 50+ 文生图模型及 55+ 图生图模型。
  2. 视频工作室(Video Studio)
    • 覆盖 40+ 文生视频模型及 60+ 图生视频模型,智能切换生成模式。
  3. 对口型工作室(Lip Sync Studio)
    • 9 个专用模型,支持从人像图片或现有视频生成对口型视频。
  4. 电影工作室(Cinema Studio)
    • 为电影级画质设计的界面,具备专业的相机控制功能。
  5. 本地推理引擎(Local Inference)
    • 内置 sd.cpp 支持 Apple Silicon(Metal)及 CUDA/ROCm;支持 Wan2GP 远程 GPU 服务器。
  6. 多图片输入(Multi-Image Input)
    • 允许向特定编辑模型上传多达 14 张参考图片。
  7. 自动化工作流(Workflow Studio)
    • 基于节点的编辑器,可视觉化构建和运行多步 AI 管线。

项目优势

对比项Open-Generative-AI商业 AI 平台 (Sora/Midjourney)同类传统开源 UI (Automatic1111)
模型数量200+ (跨厂商集成)仅单一厂商模型主要为 Stable Diffusion
内容过滤无 (由用户控制)极其严格
部署方式Web/桌面端/自托管仅云端复杂本地安装
集成能力极强 (API + SDK + CLI)封闭插件驱动

项目详细剖析

架构设计:两套本地推理引擎

Open-Generative-AI 桌面端的灵活性在于它处理本地算力的方式。

1. 内置 sd.cpp (Bundled)

这是基于 stable-diffusion.cpp 的 C++ 引擎,直接打包在应用内。

  • 优势:开箱即用,支持 Mac M 系列芯片的 Metal 加速。不仅支持 SD 1.5/SDXL,还支持 Z-Image 等新型模型。
  • 技术细节:通过调用 sd-cli 驱动,不依赖复杂的 Python 环境。

2. Wan2GP (Remote Engine)

对于像 Wan 2.2、Hunyuan Video 等需要高性能 NVIDIA GPU 的模型,由于这些运行时通常基于 CUDA,无法在 Mac 上直接以高性能运行。

  • 方案:用户可以在有 GPU 的 Linux 机上运行 Wan2GP 服务器,Open-Generative-AI 作为客户端通过 URL 连接。
  • 意义:实现了跨平台算力调度,让 Mac 用户也能驾驭顶尖视频模型。

关键实现:智能工作流切换

项目在 UI 交互上做了深度优化。当用户进入 Image 或 Video Studio 时,系统会实时监测用户是否上传了参考图。

  • 如果没有上传,模型列表会自动切换至 Text-to-Image/Video 模型集合。
  • 一旦用户上传图片,列表会立即切换至 Image-to-Image/Video 模型(如 Kling i2v, LTX Video i2v)。

这种基于状态的智能路由极大地降低了用户的操作复杂度。


项目地址与资源

官方资源

相关资源

适用人群

  • 数字艺术家 & 影视创作者:寻找低成本、无限制的创作工具。
  • AI 开发者:希望快速集成多模型能力的工程人员。
  • 开源爱好者:倾向于私有化部署和自托管应用。

欢迎来我的个人主页找到更多有用的知识和有趣的产品