慣性聚合 高效追讀感興趣之博客、新聞、科技資訊
閱原文 以慣性聚合開啟

推薦訂閱源

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

博客园_首页

马斯克都在用的"第一性原理":为什么90%的程序员在"卷框架",而高手只看一件事? Jenkins-批量自动化构建指定目录或者视图下所有Job或者指定Job RAG夺命10连问,你能抗住第几问? 硬件连接器简介和图文大全 GPT-5.5 开启更强的智能体工作方式 零代码 AI 自动化测试神器!Browser‑Use Web UI 保姆级教程,测试人直接上手 Netty保姆级全解析|技术背景+核心知识点+生产实战教程 【译】Bookmark Studio:在 Visual Studio 中实现书签功能升级 Tomcat的事件监听机制:观察者模式 .NET 11 Preview 3 发布:C# 15 union 类型终补齐,Kestrel 暴增 40% 生成器与迭代器 【Java安全】URLDNS利用链分析 高数学习笔记 一分钟学会用Markdown绘制Mermaid思维导图 - 天恩软件 利用surging 网络组件重构插件开发 踩坑记录:UTF-8、UTF-8-BOM 与 GB2312 读取的乱码真相 - wenha 我把市面上 UI 自动化 Skill 全踩坑一遍后,自己写了个真正能用的 存储器类型汇总 PortSwigger SQL注入LAB3 《软件测试策略》——测试相关技术(编写 bug 报告)(二) ElasticSearch中的索引模板详解 一份CLAUDE.md,为何能让GitHub榜首项目狂揽6万星? 设计圈真的要变天了:ChatGPT Image 2 不只是会生图了 多租户系统框架的界面分析设计 SpringAI入门指南 我为何选择私有化客服系统作为独立开发的方向 RAG 是什么?16 种 RAG 方案一次讲清!AI 应用开发必学 | 万字干货 HackTheBox Cap 靶机:从 IDOR 到 PCAP 凭据提取再到 Capabilities 提权 Python批量图片拼接脚本:支持行列布局、最后一行居中、自然排序 使用 Java 提取 HTML 文件中的纯文本内容 AI开发-python-LangGraph框架(3-31-LangGraph 「合并式状态管理」的原理与实践) keycloak~实现OAuth 2.0 Token Exchange SeaTunnel + AI:一句“我要做什么”,能不能直接变成一份能跑的配置? 本体论的启示:从零开始,如何让AI“学会”使用计算器 【译】Visual Studio 三月更新 —— 打造专属自定义 Agent Tomcat组件管理源码详解 推荐一个开箱即用的.NET权限管理平台:Magic.NET .NET 调试器 netcoredbg 跨平台及其 LoongArch 架构支持进展 DualToken如何让模型理解自己画出来的东西? surging 的Agent插件研发全流程:从定义到落地 无硬件学LVGL—定时器篇:基于Web模拟器+MicroPython速通GUI开发 Kimi 新模型发布!教你如何在 Claude Code 上配置并使用最新的 k2.6 模型! UEFI Driver 程序框架 PREEMPT_RT补丁技术实现:RCU 零代码经验,我用Claude Code搓出的生产力工具 FastAPI订单防超卖实战:从数据库锁到Saga分布式事务,这一篇给你理清了 Kimi Code CLI 系统指令的摸索 以及 开发实战经验分享 智能运维2.0:从范式跃迁到落地实操——理论框架与实施指南 当 AIR 只支持 Mac,我开始重新思考操作系统这件事 深度学习开发笔记(一):跨平台纯C++训练和推理框架LibTorch介绍、开发环境搭建和Demo
哈哈哈,莫能胜我乎?无计可施,吾(vllm)之强,乃如是也!
神仙别打架 · 2026-05-24 · via 博客园_首页

前文于微信公众号平台盛传,近万自然阅读,文生文已难餍博主之欲,今记vllm一模型,以文生图。

于文本生成之域,九十九应用皆基于自回归模型,即GPT系列、LLaMA等。

文本离散,由词元成;图像、视频连续,为像素或信号。扩散模型天长善处连续,故文生图与文生视频者,乃今扩散模型之核心战场。

扩散模型者何?

用文生图工具时,内里之“魔法”:

始:全然随机之噪声图,犹前向过程至终。

逆去噪之始:

模型观此纯噪声之图,参以汝之提示,预知“此图今当加何噪声”。

继而,自当前之图减去所预之噪声。

遂得一张噪声稍减、略见模糊轮廓之图。

循环往复:以上一步所得稍清之图为新输入,复令模型预测并减去噪声。

终至:重复数十步后,噪声渐次移除,一张清晰、合汝所述之图乃成。

此步步预测并去噪声之循环,于方向为前向加噪之“逆”,于动作则曰“去噪”。

image

vllm旗下之支项目vllm-omni供简易、迅捷且低廉之多模态模型服务。

Z-Image者,阿里所开源之全版Transformer文生图模型也,未经蒸馏,参数十有二亿六千,显存二十亿五千五十万,专为高质、强生、广风、精示而设。

启推理之务:
vllm serve Tongyi-MAI/Z-Image --omni --port 8000 --tensor-parallel-size 2

注:非用原版vllm(其docker镜像为vllm-openai),带omni参数,而须用含omni扩展之vllm(其docker镜像为vllm-omni)。

支二接口,皆容openai之接口

curl -s http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {"role": "user", "content": "A beautiful landscape painting"}
    ],
    "extra_body": {
      "num_inference_steps": 50,
      "seed": 42
    }
  }'

输出之二进制图像,为base64编码,解码可得图像。

curl -X POST http://localhost:8000/v1/images/generations \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "a dragon laying over the spine of the Green Mountains of Vermont",
    "size": "1024x1024",
    "seed": 42
  }' | jq -r '.data[0].b64_json' | base64 -d > dragon.png

jq乃json格式化与取值之器,自json响应体字段中取值。