哈哈哈哈哈打不過我吧，沒有辦法我(vllm)就是這麼強大！

博客园_首页

马斯克都在用的"第一性原理"：为什么90%的程序员在"卷框架"，而高手只看一件事？ Jenkins-批量自动化构建指定目录或者视图下所有Job或者指定Job RAG夺命10连问，你能抗住第几问？硬件连接器简介和图文大全 GPT-5.5 开启更强的智能体工作方式零代码 AI 自动化测试神器！Browser‑Use Web UI 保姆级教程，测试人直接上手 Netty保姆级全解析｜技术背景+核心知识点+生产实战教程【译】Bookmark Studio：在 Visual Studio 中实现书签功能升级 Tomcat的事件监听机制：观察者模式 .NET 11 Preview 3 发布：C# 15 union 类型终补齐，Kestrel 暴增 40% 生成器与迭代器【Java安全】URLDNS利用链分析高数学习笔记一分钟学会用Markdown绘制Mermaid思维导图 - 天恩软件利用surging 网络组件重构插件开发踩坑记录：UTF-8、UTF-8-BOM 与 GB2312 读取的乱码真相 - wenha 我把市面上 UI 自动化 Skill 全踩坑一遍后，自己写了个真正能用的存储器类型汇总 PortSwigger SQL注入LAB3 《软件测试策略》——测试相关技术（编写 bug 报告）（二） ElasticSearch中的索引模板详解一份CLAUDE.md，为何能让GitHub榜首项目狂揽6万星？设计圈真的要变天了：ChatGPT Image 2 不只是会生图了多租户系统框架的界面分析设计 SpringAI入门指南我为何选择私有化客服系统作为独立开发的方向 RAG 是什么？16 种 RAG 方案一次讲清！AI 应用开发必学 | 万字干货 HackTheBox Cap 靶机：从 IDOR 到 PCAP 凭据提取再到 Capabilities 提权 Python批量图片拼接脚本：支持行列布局、最后一行居中、自然排序使用 Java 提取 HTML 文件中的纯文本内容 AI开发-python-LangGraph框架（3-31-LangGraph 「合并式状态管理」的原理与实践） keycloak~实现OAuth 2.0 Token Exchange SeaTunnel + AI：一句“我要做什么”，能不能直接变成一份能跑的配置？本体论的启示：从零开始，如何让AI“学会”使用计算器【译】Visual Studio 三月更新 —— 打造专属自定义 Agent Tomcat组件管理源码详解推荐一个开箱即用的.NET权限管理平台：Magic.NET .NET 调试器 netcoredbg 跨平台及其 LoongArch 架构支持进展 DualToken如何让模型理解自己画出来的东西？ surging 的Agent插件研发全流程：从定义到落地无硬件学LVGL—定时器篇：基于Web模拟器+MicroPython速通GUI开发 Kimi 新模型发布！教你如何在 Claude Code 上配置并使用最新的 k2.6 模型！ UEFI Driver 程序框架 PREEMPT_RT补丁技术实现：RCU 零代码经验，我用Claude Code搓出的生产力工具 FastAPI订单防超卖实战：从数据库锁到Saga分布式事务，这一篇给你理清了 Kimi Code CLI 系统指令的摸索以及开发实战经验分享智能运维2.0：从范式跃迁到落地实操——理论框架与实施指南当 AIR 只支持 Mac，我开始重新思考操作系统这件事深度学习开发笔记（一）：跨平台纯C++训练和推理框架LibTorch介绍、开发环境搭建和Demo

神仙别打架 · 2026-05-24 · via 博客园_首页

前文在微信公眾號平臺爆了，接近1w自然閱讀，文生文已經滿足不了博主的分享欲，今天記錄vllm咧一個文生圖模型。

在文本生成領域，99%的應用都基於自迴歸模型（Autoregressive Models），也就是我們熟知的GPT系列、LLaMA等。

文本（Text）是離散的，由詞元（Token）組成；而圖像、視頻是連續的像素或信號。擴散模型天生擅長處理連續數據, 故文生圖和文生視頻的是當前擴散模型的核心戰場。

什麼是擴散模型diffusion models?

使用文生圖工具時，內部真實發生的“魔法”：

起點：你看到的完全隨機的噪聲圖。這相當於前向過程走到了終點。

反向去噪第一步：

模型看著這張純噪聲圖，結合你的提示詞，預測出“這張圖上現在應該被加上了什麼噪聲”。

然後，從當前圖片中減去這個預測出的噪聲。

結果得到一張噪聲少了一點點的、略微能看出模糊輪廓的圖片。

循環往復：把上一步得到的、稍微清晰一點的圖片作為新的輸入，再次讓模型預測並減去噪聲。

終點：重複幾十步後，噪聲被逐步移除乾淨，一張清晰的、符合你描述的圖片就誕生了。

這個一步步預測並減去噪聲的循環，從方向上看是前向加噪的“反向”，從動作上看就是在“去噪”。

vllm旗下的子項目vllm-omni提供了簡單、快速且低成本的多模態模型服務。

Z-Image是阿里開源的完整版本、未經蒸餾的的 Transformer 文生圖模型， 10.26B權重參數， 20.55GB GPU顯存，專為高質量、強生成多樣性、廣泛的風格覆蓋能力以及精準的提示詞遵循而設計。

啟動推理服務器：
vllm serve Tongyi-MAI/Z-Image --omni --port 8000 --tensor-parallel-size 2

注意：不是用原生vllm(對應的docker鏡像是vllm-openai)帶omni參數，而是要一個包含omni擴展的多模態vllm (對應的docker鏡像是vllm-omni)。

支持兩種接口，都是兼容openai的接口

Diffusion Chat Completions API：希望在類似聊天機器人的多模態、多輪對話中集成圖像生成能力

curl -s http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {"role": "user", "content": "A beautiful landscape painting"}
    ],
    "extra_body": {
      "num_inference_steps": 50,
      "seed": 42
    }
  }'

Image Generation API ：穩定、專注於圖像生成

輸出的二進制圖片被base64 編碼，解碼可得圖片。

curl -X POST http://localhost:8000/v1/images/generations \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "a dragon laying over the spine of the Green Mountains of Vermont",
    "size": "1024x1024",
    "seed": 42
  }' | jq -r '.data[0].b64_json' | base64 -d > dragon.png

jq 是json格式化和取值工具，從json響應體字段中取值。

此內容由慣性聚合(RSS閱讀器)自動聚合整理，僅供閱讀參考。原文來自 — 版權歸原作者所有。

推薦訂閱源

博客园_首页

什麼是擴散模型diffusion models?