












前文在微信公眾號平臺爆了 ,接近1w自然閱讀,文生文已經滿足不了博主的分享欲,今天記錄vllm咧一個文生圖模型。
在文本生成領域,99%的應用都基於自迴歸模型(Autoregressive Models),也就是我們熟知的GPT系列、LLaMA等。
文本(Text)是離散的,由詞元(Token)組成;而圖像、視頻是連續的像素或信號。擴散模型天生擅長處理連續數據, 故文生圖和文生視頻的是當前擴散模型的核心戰場。
使用文生圖工具時,內部真實發生的“魔法”:
起點:你看到的完全隨機的噪聲圖。這相當於前向過程走到了終點。
反向去噪第一步:
模型看著這張純噪聲圖,結合你的提示詞,預測出“這張圖上現在應該被加上了什麼噪聲”。
然後,從當前圖片中減去這個預測出的噪聲。
結果得到一張噪聲少了一點點的、略微能看出模糊輪廓的圖片。
循環往復:把上一步得到的、稍微清晰一點的圖片作為新的輸入,再次讓模型預測並減去噪聲。
終點:重複幾十步後,噪聲被逐步移除乾淨,一張清晰的、符合你描述的圖片就誕生了。
這個一步步預測並減去噪聲的循環,從方向上看是前向加噪的“反向”,從動作上看就是在“去噪”。

vllm旗下的子項目vllm-omni提供了簡單、快速且低成本的多模態模型服務。
Z-Image是阿里開源的完整版本、未經蒸餾的的 Transformer 文生圖模型, 10.26B權重參數, 20.55GB GPU顯存, 專為高質量、強生成多樣性、廣泛的風格覆蓋能力以及精準的提示詞遵循而設計。
啟動推理服務器:
vllm serve Tongyi-MAI/Z-Image --omni --port 8000 --tensor-parallel-size 2
注意: 不是用原生vllm(對應的docker鏡像是vllm-openai)帶omni參數, 而是要一個包含omni擴展的多模態vllm (對應的docker鏡像是vllm-omni)。
支持兩種接口, 都是兼容openai的接口
curl -s http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [
{"role": "user", "content": "A beautiful landscape painting"}
],
"extra_body": {
"num_inference_steps": 50,
"seed": 42
}
}'
輸出的二進制圖片被base64 編碼,解碼可得圖片。
curl -X POST http://localhost:8000/v1/images/generations \
-H "Content-Type: application/json" \
-d '{
"prompt": "a dragon laying over the spine of the Green Mountains of Vermont",
"size": "1024x1024",
"seed": 42
}' | jq -r '.data[0].b64_json' | base64 -d > dragon.png
jq 是json格式化和取值工具, 從json響應體字段中取值。
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。