哈哈哈，莫能胜我乎？无计可施，吾(vllm)之强，乃如是也！

博客园_首页

马斯克都在用的"第一性原理"：为什么90%的程序员在"卷框架"，而高手只看一件事？ Jenkins-批量自动化构建指定目录或者视图下所有Job或者指定Job RAG夺命10连问，你能抗住第几问？硬件连接器简介和图文大全 GPT-5.5 开启更强的智能体工作方式零代码 AI 自动化测试神器！Browser‑Use Web UI 保姆级教程，测试人直接上手 Netty保姆级全解析｜技术背景+核心知识点+生产实战教程【译】Bookmark Studio：在 Visual Studio 中实现书签功能升级 Tomcat的事件监听机制：观察者模式 .NET 11 Preview 3 发布：C# 15 union 类型终补齐，Kestrel 暴增 40% 生成器与迭代器【Java安全】URLDNS利用链分析高数学习笔记一分钟学会用Markdown绘制Mermaid思维导图 - 天恩软件利用surging 网络组件重构插件开发踩坑记录：UTF-8、UTF-8-BOM 与 GB2312 读取的乱码真相 - wenha 我把市面上 UI 自动化 Skill 全踩坑一遍后，自己写了个真正能用的存储器类型汇总 PortSwigger SQL注入LAB3 《软件测试策略》——测试相关技术（编写 bug 报告）（二） ElasticSearch中的索引模板详解一份CLAUDE.md，为何能让GitHub榜首项目狂揽6万星？设计圈真的要变天了：ChatGPT Image 2 不只是会生图了多租户系统框架的界面分析设计 SpringAI入门指南我为何选择私有化客服系统作为独立开发的方向 RAG 是什么？16 种 RAG 方案一次讲清！AI 应用开发必学 | 万字干货 HackTheBox Cap 靶机：从 IDOR 到 PCAP 凭据提取再到 Capabilities 提权 Python批量图片拼接脚本：支持行列布局、最后一行居中、自然排序使用 Java 提取 HTML 文件中的纯文本内容 AI开发-python-LangGraph框架（3-31-LangGraph 「合并式状态管理」的原理与实践） keycloak~实现OAuth 2.0 Token Exchange SeaTunnel + AI：一句“我要做什么”，能不能直接变成一份能跑的配置？本体论的启示：从零开始，如何让AI“学会”使用计算器【译】Visual Studio 三月更新 —— 打造专属自定义 Agent Tomcat组件管理源码详解推荐一个开箱即用的.NET权限管理平台：Magic.NET .NET 调试器 netcoredbg 跨平台及其 LoongArch 架构支持进展 DualToken如何让模型理解自己画出来的东西？ surging 的Agent插件研发全流程：从定义到落地无硬件学LVGL—定时器篇：基于Web模拟器+MicroPython速通GUI开发 Kimi 新模型发布！教你如何在 Claude Code 上配置并使用最新的 k2.6 模型！ UEFI Driver 程序框架 PREEMPT_RT补丁技术实现：RCU 零代码经验，我用Claude Code搓出的生产力工具 FastAPI订单防超卖实战：从数据库锁到Saga分布式事务，这一篇给你理清了 Kimi Code CLI 系统指令的摸索以及开发实战经验分享智能运维2.0：从范式跃迁到落地实操——理论框架与实施指南当 AIR 只支持 Mac，我开始重新思考操作系统这件事深度学习开发笔记（一）：跨平台纯C++训练和推理框架LibTorch介绍、开发环境搭建和Demo

神仙别打架 · 2026-05-24 · via 博客园_首页

前文于微信公众号平台盛传，近万自然阅读，文生文已难餍博主之欲，今记vllm一模型，以文生图。

于文本生成之域，九十九应用皆基于自回归模型，即GPT系列、LLaMA等。

文本离散，由词元成；图像、视频连续，为像素或信号。扩散模型天长善处连续，故文生图与文生视频者，乃今扩散模型之核心战场。

扩散模型者何？

用文生图工具时，内里之“魔法”：

始：全然随机之噪声图，犹前向过程至终。

逆去噪之始：

模型观此纯噪声之图，参以汝之提示，预知“此图今当加何噪声”。

继而，自当前之图减去所预之噪声。

遂得一张噪声稍减、略见模糊轮廓之图。

循环往复：以上一步所得稍清之图为新输入，复令模型预测并减去噪声。

终至：重复数十步后，噪声渐次移除，一张清晰、合汝所述之图乃成。

此步步预测并去噪声之循环，于方向为前向加噪之“逆”，于动作则曰“去噪”。

vllm旗下之支项目vllm-omni供简易、迅捷且低廉之多模态模型服务。

Z-Image者，阿里所开源之全版Transformer文生图模型也，未经蒸馏，参数十有二亿六千，显存二十亿五千五十万，专为高质、强生、广风、精示而设。

启推理之务：
vllm serve Tongyi-MAI/Z-Image --omni --port 8000 --tensor-parallel-size 2

注：非用原版vllm（其docker镜像为vllm-openai），带omni参数，而须用含omni扩展之vllm（其docker镜像为vllm-omni）。。

支二接口，皆容openai之接口

Diffusion Chat Completions API：愿于类聊机器人之多模态、多轮应答中，集图像生成之能

curl -s http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {"role": "user", "content": "A beautiful landscape painting"}
    ],
    "extra_body": {
      "num_inference_steps": 50,
      "seed": 42
    }
  }'

Image Generation API：稳、专于图像生成

输出之二进制图像，为base64编码，解码可得图像。

curl -X POST http://localhost:8000/v1/images/generations \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "a dragon laying over the spine of the Green Mountains of Vermont",
    "size": "1024x1024",
    "seed": 42
  }' | jq -r '.data[0].b64_json' | base64 -d > dragon.png

jq乃json格式化与取值之器，自json响应体字段中取值。

此內容由慣性聚合(RSS閱讀器)自動聚合整理，僅供閱讀參考。原文來自 — 版權歸原作者所有。

推薦訂閱源

博客园_首页

扩散模型者何？