












前文于微信公众号平台盛传,近万自然阅读,文生文已难餍博主之欲,今记vllm一模型,以文生图。
于文本生成之域,九十九应用皆基于自回归模型,即GPT系列、LLaMA等。
文本离散,由词元成;图像、视频连续,为像素或信号。扩散模型天长善处连续,故文生图与文生视频者,乃今扩散模型之核心战场。
用文生图工具时,内里之“魔法”:
始:全然随机之噪声图,犹前向过程至终。
逆去噪之始:
模型观此纯噪声之图,参以汝之提示,预知“此图今当加何噪声”。
继而,自当前之图减去所预之噪声。
遂得一张噪声稍减、略见模糊轮廓之图。
循环往复:以上一步所得稍清之图为新输入,复令模型预测并减去噪声。
终至:重复数十步后,噪声渐次移除,一张清晰、合汝所述之图乃成。
此步步预测并去噪声之循环,于方向为前向加噪之“逆”,于动作则曰“去噪”。

vllm旗下之支项目vllm-omni供简易、迅捷且低廉之多模态模型服务。
Z-Image者,阿里所开源之全版Transformer文生图模型也,未经蒸馏,参数十有二亿六千,显存二十亿五千五十万,专为高质、强生、广风、精示而设。
启推理之务:
vllm serve Tongyi-MAI/Z-Image --omni --port 8000 --tensor-parallel-size 2
注:非用原版vllm(其docker镜像为vllm-openai),带omni参数,而须用含omni扩展之vllm(其docker镜像为vllm-omni)。。
支二接口,皆容openai之接口
curl -s http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [
{"role": "user", "content": "A beautiful landscape painting"}
],
"extra_body": {
"num_inference_steps": 50,
"seed": 42
}
}'
输出之二进制图像,为base64编码,解码可得图像。
curl -X POST http://localhost:8000/v1/images/generations \
-H "Content-Type: application/json" \
-d '{
"prompt": "a dragon laying over the spine of the Green Mountains of Vermont",
"size": "1024x1024",
"seed": 42
}' | jq -r '.data[0].b64_json' | base64 -d > dragon.png
jq乃json格式化与取值之器,自json响应体字段中取值。
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。