惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

H
Hackread – Cybersecurity News, Data Breaches, AI and More
S
Schneier on Security
罗磊的独立博客
Recorded Future
Recorded Future
Hacker News - Newest:
Hacker News - Newest: "LLM"
G
Google Developers Blog
博客园_首页
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
T
The Blog of Author Tim Ferriss
Know Your Adversary
Know Your Adversary
L
Lohrmann on Cybersecurity
C
Cybersecurity and Infrastructure Security Agency CISA
博客园 - 三生石上(FineUI控件)
M
MIT News - Artificial intelligence
B
Blog
T
Tor Project blog
D
Docker
Engineering at Meta
Engineering at Meta
Apple Machine Learning Research
Apple Machine Learning Research
Spread Privacy
Spread Privacy
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Scott Helme
Scott Helme
MyScale Blog
MyScale Blog
量子位
T
The Exploit Database - CXSecurity.com
小众软件
小众软件
aimingoo的专栏
aimingoo的专栏
IT之家
IT之家
AWS News Blog
AWS News Blog
Google Online Security Blog
Google Online Security Blog
NISL@THU
NISL@THU
D
DataBreaches.Net
Help Net Security
Help Net Security
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Cloudbric
Cloudbric
美团技术团队
W
WeLiveSecurity
H
Hacker News: Front Page
宝玉的分享
宝玉的分享
The Cloudflare Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
爱范儿
爱范儿
N
News and Events Feed by Topic
V
Visual Studio Blog
C
CERT Recently Published Vulnerability Notes
T
Tailwind CSS Blog
MongoDB | Blog
MongoDB | Blog
F
Fortinet All Blogs
B
Blog RSS Feed
S
Security Affairs

Prompt 语宙

kimi-thinking-preview – 月之暗面推出的多模态思考模型 pdf-craft – 开源 PDF 转 Markdown 工具 UltraMem – 字节豆包大模型团队推出的全新超稀疏模型架构 EasyControl – Tiamat AI 联合上海科大等开源的图像生成控制框架 GaussianCity – 南洋理工大学 S-Lab 团队推出的 3D 城市生成框架 X-Prompt – 用于多模态视频目标分割的通用框架 豆包大模型1.5 – 字节跳动推出的最新版大模型 GaussianAnything – 南洋理工 S-Lab 和上海 AI Lab 等推出的 3D 生成框架 Cube 3D – Roblox 推出的 AI 3D 生成模型 OpenMath-Nemotron – 英伟达开源的数学推理系列模型 MAI Transcribe-1.5 – 微软 MAI 推出的语音转文本模型 Seed1.5-Embedding – 字节跳动 Seed 团队推出的向量模型 2026世界杯人机大战引爆!联想携手DeepSeek等顶尖AI大模型,对战亿万球迷预测冠军 高考公平守护战!豆包、文心等主流大模型集体禁用拍题功能 ShotAdapter – Adobe联合UIUC推出的多镜头视频生成框架 Devstral – Mistral AI联合All Hands AI开源的编程专用AI模型 MMaDA – 字节联合普林斯顿大学等推出的多模态扩散模型 Software Copyright Materials Skill – 开源软著资料生成Skill Dulus – 开源的 CLI AI Agent,可驱动多模型工具调用 Reasonix – 专为 DeepSeek 推出的开源终端编程 Agent Mega-ASR – NTU、NUS、上海AI Lab开源的语音识别模型 CodeGraph – 开源代码知识图谱工具,加速代码理解和分析 MiniCPM5-1B – 面壁智能联合清华开源的端侧文本基座模型 Horizon – 开源 AI 信息聚合系统,构建专属新闻雷达 BitCPM-CANN – 面壁智能联合清华开源的端侧大模型 Xiaomi Auto World Model – 小米推出的辅助驾驶世界模型 opera-browser-cli – Opera Neon 开源的命令行工具 omp – 开源的 AI 终端编程智能体,能与 IDE 深度联动 Claude Opus 4.8 – Anthropic 推出的旗舰级大语言模型 Hy-Memory – 腾讯混元推出的 Agent 记忆插件 Fara1.5 – 微软推出的浏览器端 AI 智能体模型系列 美团GEO营销门户 – 美团推出的生成式引擎优化平台 Keye-VL-2.0-30B-A3B – 快手开源的自研多模态大模型 Guizang Social Card Skill – 歸藏开源的小红书图文优化Skill ForgeTrain – 面壁智能联合清华等开源的大模型预训练框架 MAI-Image-2.5 – 微软推出的旗舰级文生图模型 Step 3.7 Flash – 阶跃星辰开源的新一代 Flash 模型 中国将首发公有云大模型 Token 性能榜,日均调用量已突破 140 万亿次 腾讯会议多项AI功能升级,元宝纪要月使用时长增长近5倍 Cloudflare CEO:机器人流量超越人类,网络未来或全面走向“付费抓取” 拍照识别野生蘑菇遭“误判”?豆包紧急回应:AI识别仅供参考,切勿盲目食用 华尔街规则为马斯克破例,SpaceX 史诗级 IPO 助力其冲刺首位万亿富豪 AI巨头罕见“踩刹车”:Anthropic警告“AI造AI”时代逼近,呼吁全球放缓研发 NBA中国携手阿里巴巴上线首个官方大模型“NBA Chat” 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计 OpenAI表态支持特朗普AI行政令:愿在模型发布前接受政府安全评估 马斯克旗下xAI要求深伪色情案原告“实名起诉”,受害者怒斥:这是恐吓式施压 12岁孩童用眉笔画胡子破解AI年龄验证:轻量级模型的技术漏洞引发行业警示 MiniMax M3大模型重磅发布:首创MSA架构,1M上下文全面开源,性能对标GPT-5.5 谷歌 DeepMind CEO:AGI 将至,关键三年窗口期人类准备好了吗? 机器人告别逐帧学动作!全球首个事件级具身智能世界模型WALL-WM重磅发布 15个月营收暴涨三倍!企业级AI搜索独角兽Glean凭’上下文图谱’破局巨头围剿 Oculus创始人AI新作Sesame上线:重新定义‘边想边说’的流畅对话体验 三菱日联金融携手OpenAI:3.5万员工全面部署ChatGPT Enterprise,开启AI原生银行新时代 阿里云百炼CLI全面开源:一行命令编排AI Agent全栈能力,引爆开发者生态 360亿美元史上最大芯片租赁!阿波罗黑石联手,为Anthropic豪购谷歌TPU Grok Build 0.2.7 重磅发布:子代理共享终端效率翻倍,图像理解飞跃,开发者必看更新 重磅!小米MiMo V2系列2026年6月全面下线,开发者速迁至V2.5高性能版 美国Opus 4.8被曝’蒸馏’中国开源大模型:Anthropic的AI双标之路 NBA官宣引入AI鹰眼2.0系统:彻底终结出界判罚争议,裁判将聚焦主观判罚 Mistral AI 首席执行官宣布自研芯片计划:成本、算力、生态三大战略解析 科技格局重塑:MiniMax企业客户破百万领跑AI商业化,创想三维港股上市引爆消费级3D打印市场 Liquid AI开源LFM2.5-8B-A1B:8B参数仅激活1.5B,端侧大模型性能飞跃,手机秒级推理 微软Build大会重磅出击:自研代码AI平价替代Claude,多场景模型矩阵挑战OpenAI Step 3.7 Flash 重磅开源发布:198B MoE架构实现400TPS推理,Agent效率与可靠性新时代已至 大模型概念股港股狂飙!智谱单日暴涨超17%,MINIMAX跟涨,AI商业化拐点真的来了? 日本Datasection携手OpenAI:TAIZA云平台深度整合API,赋能亚太企业智能工作流 470亿美元!Anthropic年化收入狂飙,Claude企业级应用引爆AI商业化新纪元 AI攻破6大数学猜想!25岁华人少女退学创业,OpenAI都未曾实现,她凭什么拿下14亿融资? 万亿估值前夜!Anthropic IPO前最后一轮融资650亿美元,直逼OpenAI资本巅峰 SentinelOne裁员8%聚焦AI安全:年营收增长21%仍亏损,科技巨头集体押注生成式AI 谷歌Coral Board开发板发布:本地运行Gemma3,RISC-V架构赋能边缘AI革命 拼多多重拳出击!AI押题、数据投毒等灰产被全面封禁,上半年已出台40余项治理措施 黄仁勋内部讲话引爆科技圈:AI时代,宁可浪费钱也别浪费时间 腾讯电脑管家Mac版重磅发布!首创AI安全沙箱,一文看懂如何守护AI智能体 科大讯飞发布AI眼镜:40克超轻机身+星火大模型,掀起百镜大战新浪潮 2026高考AI防作弊硬核举措:主流大模型限时上锁,精准掐断秒级解题通道 小红书PC端重磅上线AI搜索助手’点点’:多轮对话+笔记导入,重新定义社区搜索体验 YouTube播客AI升级:自动调速专治说话慢,Premium用户收听体验大革新 Anthropic完成史诗级H轮融资650亿美元,Claude Opus 4.8模型同步发布,AI巨头估值飙升逼近万亿美元里程碑 2026世界杯AI预测大赛开启:联想联合DeepSeek等大模型,挑战亿万球迷智慧 重磅!iOS 27联手谷歌Gemini训练本地AI,Siri部分请求转向谷歌云,隐私与算力如何平衡? 苹果iOS 27深度合作谷歌Gemini:Siri转向云端处理,英伟达机密计算护航隐私 iOS 27 将整合谷歌 Gemini 模型:苹果本地AI Siri大升级,隐私与性能如何兼得? Anthropic王者归来:曾因‘过于危险’被封印的Mythos级AI模型重磅解禁,几周内全量上线 Anthropic重磅解禁’过于危险’的王炸模型Mythos!更强安全防护下几周内全量上线 破解AI记忆三周魔咒!腾讯混元Hy-Memory发布:记忆密度提升45%、Token消耗降低35%,定义Agent长期协作新范式 腾讯混元Hy-Memory发布:AI Agent长期记忆难题终结者,记忆密度飙升45%、Token消耗锐减35% Claude Opus 4.8 核弹级发布:编程能力碾压GPT-5.5,成本直降67%,AI开发者生产力革命来了 Claude Opus 4.8正式发布:性能全面超越GPT-5.5,成本暴降66%重塑AI编程格局 Mistral AI联手空客宝马:押注‘实体AI’,制造业将迎来效率革命? 谷歌AI翻车!竟把’Google’拼错,大模型‘不识字’的硬伤藏不住了 科大讯飞AI眼镜重磅发布:4299元内置龙虾助手GlassClaw,122种语言实时翻译重塑生产力 Gemini 3.5 生产环境严重失控:越权删光两万行代码并编造修复报告,AI 开发信任危机再升级 AI复活传奇!斯坦·李获合法授权数字重生, ElevenLabs 用生成式AI重塑其标志性声音 英伟达Polar框架开源:零门槛强化学习,AI编码智能体进化提速500%+ 开发者炸锅!Codex强制退役GPT-5.2/5.3,GPT-5.5降智风波未平引发行业焦虑 OpenRouter B轮融资1.13亿美元:CapitalG、NVIDIA联手,打造多模型AI时代的流量枢纽 阿里云Qoder Cloud Agents全托管平台发布:企业AI Agent上线周期从1个月缩短至1天 谷歌珊瑚AI开发板引爆边缘计算革命:2026年夏季上市,离线运行Gemma3大模型实现实时语音翻译
字节跳动USO框架:风格与主体解耦重组,AI图像生成统一模型新突破
站外新闻 · 2026-06-22 · via Prompt 语宙

💡 站外导读:在AI图像生成领域,如何让同一主体自由切换不同艺术风格,同时保持内容不变,一直是核心痛点。传统方法常陷入风格与主体相互干扰的困境,导致生成图像生硬失真。随着AIGC技术在创意产业渗透加速,市场对可控、高质量、多风格的生成工具需求激增。字节跳动提出的USO框架,正是针对这一行业难题的创新解答。

USO(Unified Style-Subject Optimized)是字节跳动 UXO 团队推出的内容与风格解耦与重组统一框架。能将任何主题与任何风格在任何场景中自由组合,生成具有高度主体一致性、强烈风格保真度且自然、非塑料感的图像。USO 通过构建大规模三元组数据集,采用解耦学习方案同时对齐风格特征并分离内容与风格,引入风格奖励学习(SRL)来进一步提升模型性能。USO 发布了 USO-Bench 基准测试,用于综合评估风格相似性和主体保真度。实验表明,USO 在主体一致性和风格相似性两个维度上均达到了开源模型的顶尖水平。

  • USO是什么
  • USO的主要功能
  • USO的技术原理
  • USO的核心价值
  • USO的项目地址
  • USO的模型效果
  • USO的应用场景
      • 📝 站长洞察 (Editor’s Insight)

USO

USO的主要功能

  • 风格与主体融合:能将任意主题与任意风格自由组合,生成既保留主体特征又符合指定风格的图像,解决了风格与主体难以融合的问题。

  • 高保真度生成:在生成图像时,能保持高度的主体一致性和风格保真度,确保生成的图像自然且具有高质量。

  • 多场景应用:适用于多种场景,可广泛应用于艺术创作、广告设计、游戏开发等领域。

  • 开源支持:项目全面开源,包括训练代码、推理脚本、模型权重和数据集,为研究者和开发者提供了丰富的资源。

  • 性能领先:在主体一致性和风格相似性两个维度上均达到了开源模型的顶尖水平,通过大规模三元组数据集和解耦学习方案实现性能提升。

  • 基准测试:发布了 USO-Bench 基准测试,用于综合评估风格相似性和主体保真度,为后续模型提供统一的比拼标准。

USO的技术原理

  • 大规模三元组数据集构建:创建了包含内容图像、风格图像和对应风格化图像的三元组数据集,为模型训练提供了丰富的数据基础。

  • 解耦学习方案:通过风格对齐训练和内容 – 风格解耦训练两个阶段,同时对齐风格特征并分离内容与风格,避免特征串扰,实现精准融合。

  • 风格奖励学习(SRL):引入奖励信号优化生成质量,平衡风格相似性与主体一致性,进一步提升模型性能。

  • 统一框架:将风格驱动和主体驱动两类任务合并到单一模型框架中,解决了传统方法中两者对立的问题,实现了风格与主体的协同优化。

  • 两阶段训练流程:第一阶段通过风格对齐训练使模型具备风格复现能力;第二阶段通过内容 – 风格解耦训练实现联合条件生成,最终通过风格奖励学习监督整个训练过程。

USO的核心价值

  • 提出了创新的协同解耦范式:打破了风格和主体生成任务各自为战的局面,证明了通过跨任务的联合学习可以实现更彻底的内容-风格解耦,并相互促进。
  • 构建了强大的统一生成模型:USO是首个在单一框架内同时实现SOTA级别主体一致性和风格相似性的模型,其效果和通用性都令人印象深刻。
  • 引入了奖励学习增强:将奖励学习范式成功应用于风格生成,为进一步提升生成模型的精细控制力和美学质量提供了有效途径。
  • 发布了首个联合评估基准:USO-Bench填补了该领域在综合评估上的空白,为后续研究提供了公平、全面的比较平台。

USO的项目地址

  • 项目官网:https://bytedance.github.io/USO/
  • Github仓库:https://github.com/bytedance/USO
  • arXiv技术论文:https://arxiv.org/pdf/2508.18966

USO的模型效果

  • 风格迁移精准:能将不同风格精准地迁移到新的内容上,生成的图像在保留原始风格的笔触和色彩的同时,不会使主体变形,风格相似度高。

  • 主体特征保留:在风格变化时,能锁定主体特征,适配多种风格,保持人物或物体的原样,主体一致性好。

  • 联合生成能力强:可以同时满足风格和主体的双需求,一步生成既符合指定风格又完整保留主体布局的图像,实现风格与主体的完美融合。

  • 生成质量高:在主体驱动生成、风格驱动生成以及联合风格 – 主体驱动生成任务上均取得了 SOTA(State-of-the-Art)效果,生成的图像自然、逼真,具有高质量。

  • 适应性强:模型对不同的主体和风格具有很强的适应性,能够处理多种类型的内容,如人物、动物、场景等,以及多种风格,如油画、水墨、漫画等。

  • 定量比较:在USO-Bench上,无论是在主体驱动任务还是风格驱动任务中,USO的各项指标(如CLIP-I, DINO, CSD)均显著优于现有的所有开源SOTA模型。在更具挑战性的风格-主体联合驱动任务上,USO同样大幅领先,证明了其强大的统一生成能力。

USO的应用场景

  • 艺术创作:艺术家可以用USO将不同的艺术风格应用到同一主体上,快速生成多种风格的草图或成品,激发创作灵感,提高创作效率。

  • 广告设计:广告设计师可以借助USO根据不同的广告主题和目标受众,快速生成具有特定风格和主体特征的广告图像,提升广告的吸引力和针对性

  • 游戏开发:游戏开发者可以用USO为游戏角色和场景生成不同风格的图像,丰富游戏的视觉效果,增强游戏的沉浸感。例如,将游戏角色的外观风格从写实风格转换为卡通风格。

  • 影视制作:在影视特效制作中,USO可以用于快速生成具有特定风格的场景或角色形象,辅助特效师进行创意构思和效果预览。比如,为一部科幻电影生成具有未来感风格的角色形象。

  • 教育领域:在艺术教育和设计教育中,USO可以作为教学工具,帮助学生更好地理解和掌握不同艺术风格的特点,以及如何将这些风格应用到实际创作中。例如,教师可以用USO展示同一幅作品在不同风格下的表现。

📝 站长洞察 (Editor’s Insight)

USO的发布,标志着AIGC从“单点能力”迈向“统一范式”的关键一步。它不仅是技术上的SOTA突破,更揭示了未来生成模型的核心路径:通过任务协同与解耦学习,在单一模型内实现复杂条件的精准控制。其开源策略与联合评估基准USO-Bench,将直接加速整个社区在可控生成方向的迭代。从产业视角看,这种“主体锁定、风格自由”的能力,将为设计、广告、游戏等内容产业带来生产流程的重构,真正实现创意资源的批量化与个性化兼得。字节跳动此举,无疑在夯实AIGC基础设施的同时,为其在内容生态的竞争中布下重要棋子。