






















💡 站外导读:在AIGC浪潮席卷全球的今天,多模态能力已成为大模型竞争的核心赛道。从单纯的文本对话,到理解并操纵图像、视频,用户对AI的期待已从“能说”进化到“能看会做”。然而,现有模型常面临理解与生成脱节、指令响应僵化、图像质量不稳定等行业痛点。通义千问团队推出的Qwen VLo,正是一款旨在解决这些痛点的破局之作。它通过统一架构实现了从精准感知到高质量再创造的完整闭环,为创意、设计、内容等行业提供了强大的新生产力工具。
Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。在多模态大模型的基础上进行了全面升级,能“看懂”世界,能基于理解进行高质量的再创造,实现了从感知到生成的跨越。能精准理解图像内容,在此基础上进行一致性和高质量的生成。用户可以通过自然语言指令要求模型对图像进行风格转换、场景重构或细节修饰,模型能灵活响应并生成符合预期的结果。Qwen VLo 支持多语言指令,打破语言壁垒,为全球用户提供便捷的交互体验。具备动态分辨率训练与生成的能力,支持任意分辨率和长宽比的图像生成,适用于多种场景。

精准内容理解与再创造:Qwen VLo 能精准理解图像内容,在生成过程中保持高度的语义一致性。例如,用户可以上传一张汽车照片并要求“更换颜色”,模型能准确识别车型,能保留原图的结构特征,完成色彩风格的自然转换。
开放指令编辑与修改:用户可以通过自然语言提出各种创意性指令,如“将这张画风改为梵高风格”或“给这张图片添加一个晴朗的天空”。模型能灵活响应这些指令,完成艺术风格迁移、场景重构、细节修饰等任务,可以一次性完成包含多个操作的复杂指令。
多语言指令支持:Qwen VLo 支持中文、英文等多种语言指令,打破了语言壁垒,为全球用户提供了便捷的交互体验。
动态分辨率生成:模型采用动态分辨率训练,支持任意分辨率和长宽比的图像生成,适用于海报、插图、网页 Banner 等多种场景。
渐进式生成机制:Qwen VLo 以一种从左到右、从上到下逐步清晰的方式生成图像,可以实时观察生成过程并进行调整,获得更灵活、更可控的创作体验。
图像检测与标注:Qwen VLo 可以完成对已有信息的标注任务,如检测、分割、边缘检测等。
文本到图像生成:Qwen VLo 支持根据文本描述直接生成图像,包括通用图像和中英文海报等。
输入投影层(Input Projector):通过一个单层的交叉注意力模块(Cross-Attention),将视觉特征序列压缩到固定长度(例如 256),以提高处理效率。同时,该模块会整合二维绝对位置编码,以保留位置信息。
大型语言模型(LLM):以 Qwen-7B 为基础,使用预训练权重进行初始化,负责处理语言模态的输入。
输出投影层(Output Projector):将 LLM 生成的特征映射到模态生成器可理解的特征空间,通常是一个简单的 Transformer 层或 MLP 层。
模态生成器(Modality Generator):基于 LDM(Latent Diffusion Models)的衍生模型,负责生成最终的图像输出。
动态视觉标记转换:模型根据输入图像的分辨率动态生成可变数量的视觉标记(tokens),避免了将高分辨率图像缩放到低分辨率而导致的信息丢失。
智能 Resize:在推理阶段,图像会被调整为 28 的整数倍尺寸,尽可能保持宽高比,避免失真。
Token 压缩:通过一个简单的 MLP 层,将相邻的 2×2 tokens 压缩为单个 token,以减少视觉输入的序列长度。
第一阶段:单任务大规模预训练:使用大量图文对数据进行预训练,训练数据的图片统一处理为 224×224 的尺寸。此阶段主要训练模型的视觉模态对齐语言模型的能力。
第二阶段:多任务预训练:使用更高分辨率(448×448)的数据,引入多个视觉和文本生成任务,提升模型的多模态任务处理能力。
第三阶段:指令微调(SFT):通过人工标注、模型生成等方式构造多模态多轮会话数据,提升模型的指令遵循能力和对话能力。
上传图像或输入文本:将图像上传到平台,或者输入文本指令。
输入指令:根据需求输入自然语言指令,例如“将这张画风改为梵高风格”或“给这张图片添加一个晴朗的天空”。
查看生成结果:模型会根据指令生成图像或进行编辑,显示结果。
文档解析:Qwen VLo 可以解析图像类文档(如扫描件或图片PDF),识别其中的文本、图像和表格等元素的位置信息。
文字识别与信息抽取:支持从图像中识别文字、公式,或抽取票据、证件、表单中的信息。
Qwen VLo的发布,标志着多模态大模型竞争进入了‘深度融合’的新阶段。它不再仅仅是视觉编码器与语言模型的简单拼接,而是通过统一的架构设计和创新的动态分辨率、渐进式生成机制,真正实现了理解与生成的端到端联动。这背后的技术趋势是:模型正从‘工具’向‘协作伙伴’演进。用户通过自然语言进行复杂、多步骤的创意指令(如‘把背景换成星空,并让风格更赛博朋克’),模型能拆解并连贯执行,这预示着人机交互模式的根本性变革。对于行业而言,这意味着高质量AIGC内容的创作门槛将进一步降低,从专业设计师到普通用户,都能借助此类工具快速实现创意落地。未来,谁能率先在多模态的统一性、可控性和效率上取得突破,谁就能在‘AI原生应用’的生态构建中占据先机。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。