慣性聚合 高效追蹤和閱讀你感興趣的部落格、新聞、科技資訊
閱讀原文 在慣性聚合中打開

推薦訂閱源

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

博客园_首页

马斯克都在用的"第一性原理":为什么90%的程序员在"卷框架",而高手只看一件事? Jenkins-批量自动化构建指定目录或者视图下所有Job或者指定Job RAG夺命10连问,你能抗住第几问? 硬件连接器简介和图文大全 GPT-5.5 开启更强的智能体工作方式 零代码 AI 自动化测试神器!Browser‑Use Web UI 保姆级教程,测试人直接上手 Netty保姆级全解析|技术背景+核心知识点+生产实战教程 【译】Bookmark Studio:在 Visual Studio 中实现书签功能升级 Tomcat的事件监听机制:观察者模式 .NET 11 Preview 3 发布:C# 15 union 类型终补齐,Kestrel 暴增 40% 生成器与迭代器 【Java安全】URLDNS利用链分析 高数学习笔记 一分钟学会用Markdown绘制Mermaid思维导图 - 天恩软件 利用surging 网络组件重构插件开发 踩坑记录:UTF-8、UTF-8-BOM 与 GB2312 读取的乱码真相 - wenha 我把市面上 UI 自动化 Skill 全踩坑一遍后,自己写了个真正能用的 存储器类型汇总 PortSwigger SQL注入LAB3 《软件测试策略》——测试相关技术(编写 bug 报告)(二) ElasticSearch中的索引模板详解 一份CLAUDE.md,为何能让GitHub榜首项目狂揽6万星? 设计圈真的要变天了:ChatGPT Image 2 不只是会生图了 多租户系统框架的界面分析设计 SpringAI入门指南 我为何选择私有化客服系统作为独立开发的方向 RAG 是什么?16 种 RAG 方案一次讲清!AI 应用开发必学 | 万字干货 HackTheBox Cap 靶机:从 IDOR 到 PCAP 凭据提取再到 Capabilities 提权 Python批量图片拼接脚本:支持行列布局、最后一行居中、自然排序 使用 Java 提取 HTML 文件中的纯文本内容 AI开发-python-LangGraph框架(3-31-LangGraph 「合并式状态管理」的原理与实践) keycloak~实现OAuth 2.0 Token Exchange SeaTunnel + AI:一句“我要做什么”,能不能直接变成一份能跑的配置? 本体论的启示:从零开始,如何让AI“学会”使用计算器 【译】Visual Studio 三月更新 —— 打造专属自定义 Agent Tomcat组件管理源码详解 推荐一个开箱即用的.NET权限管理平台:Magic.NET .NET 调试器 netcoredbg 跨平台及其 LoongArch 架构支持进展 DualToken如何让模型理解自己画出来的东西? surging 的Agent插件研发全流程:从定义到落地 无硬件学LVGL—定时器篇:基于Web模拟器+MicroPython速通GUI开发 Kimi 新模型发布!教你如何在 Claude Code 上配置并使用最新的 k2.6 模型! UEFI Driver 程序框架 PREEMPT_RT补丁技术实现:RCU 零代码经验,我用Claude Code搓出的生产力工具 FastAPI订单防超卖实战:从数据库锁到Saga分布式事务,这一篇给你理清了 Kimi Code CLI 系统指令的摸索 以及 开发实战经验分享 智能运维2.0:从范式跃迁到落地实操——理论框架与实施指南 当 AIR 只支持 Mac,我开始重新思考操作系统这件事 深度学习开发笔记(一):跨平台纯C++训练和推理框架LibTorch介绍、开发环境搭建和Demo
哈哈哈哈哈打不過我吧,沒有辦法我(vllm)就是這麼強大!
神仙别打架 · 2026-05-24 · via 博客园_首页

前文在微信公眾號平臺爆了 ,接近1w自然閱讀,文生文已經滿足不了博主的分享欲,今天記錄vllm咧一個文生圖模型。

在文本生成領域,99%的應用都基於自迴歸模型(Autoregressive Models),也就是我們熟知的GPT系列、LLaMA等。

文本(Text)是離散的,由詞元(Token)組成;而圖像、視頻是連續的像素或信號。擴散模型天生擅長處理連續數據, 故文生圖和文生視頻的是當前擴散模型的核心戰場。

什麼是擴散模型diffusion models?

使用文生圖工具時,內部真實發生的“魔法”:

起點:你看到的完全隨機的噪聲圖。這相當於前向過程走到了終點。

反向去噪第一步:

模型看著這張純噪聲圖,結合你的提示詞,預測出“這張圖上現在應該被加上了什麼噪聲”。

然後,從當前圖片中減去這個預測出的噪聲。

結果得到一張噪聲少了一點點的、略微能看出模糊輪廓的圖片。

循環往復:把上一步得到的、稍微清晰一點的圖片作為新的輸入,再次讓模型預測並減去噪聲。

終點:重複幾十步後,噪聲被逐步移除乾淨,一張清晰的、符合你描述的圖片就誕生了。

這個一步步預測並減去噪聲的循環,從方向上看是前向加噪的“反向”,從動作上看就是在“去噪”。

image

vllm旗下的子項目vllm-omni提供了簡單、快速且低成本的多模態模型服務。

Z-Image是阿里開源的完整版本、未經蒸餾的的 Transformer 文生圖模型, 10.26B權重參數, 20.55GB GPU顯存, 專為高質量、強生成多樣性、廣泛的風格覆蓋能力以及精準的提示詞遵循而設計。

啟動推理服務器:
vllm serve Tongyi-MAI/Z-Image --omni --port 8000 --tensor-parallel-size 2

注意: 不是用原生vllm(對應的docker鏡像是vllm-openai)帶omni參數, 而是要一個包含omni擴展的多模態vllm (對應的docker鏡像是vllm-omni)。

支持兩種接口, 都是兼容openai的接口

curl -s http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {"role": "user", "content": "A beautiful landscape painting"}
    ],
    "extra_body": {
      "num_inference_steps": 50,
      "seed": 42
    }
  }'

輸出的二進制圖片被base64 編碼,解碼可得圖片。

curl -X POST http://localhost:8000/v1/images/generations \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "a dragon laying over the spine of the Green Mountains of Vermont",
    "size": "1024x1024",
    "seed": 42
  }' | jq -r '.data[0].b64_json' | base64 -d > dragon.png

jq 是json格式化和取值工具, 從json響應體字段中取值。