惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

SecWiki News
SecWiki News
H
Help Net Security
罗磊的独立博客
Stack Overflow Blog
Stack Overflow Blog
M
MIT News - Artificial intelligence
Jina AI
Jina AI
L
LangChain Blog
K
Kaspersky official blog
I
Intezer
Martin Fowler
Martin Fowler
爱范儿
爱范儿
AWS News Blog
AWS News Blog
The Hacker News
The Hacker News
Recorded Future
Recorded Future
人人都是产品经理
人人都是产品经理
H
Hackread – Cybersecurity News, Data Breaches, AI and More
C
CXSECURITY Database RSS Feed - CXSecurity.com
Spread Privacy
Spread Privacy
Simon Willison's Weblog
Simon Willison's Weblog
U
Unit 42
N
News and Events Feed by Topic
A
Arctic Wolf
G
GRAHAM CLULEY
Microsoft Azure Blog
Microsoft Azure Blog
博客园 - 聂微东
F
Fortinet All Blogs
C
Cisco Blogs
美团技术团队
Vercel News
Vercel News
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
H
Hacker News: Front Page
T
Tailwind CSS Blog
I
InfoQ
宝玉的分享
宝玉的分享
Google DeepMind News
Google DeepMind News
博客园 - 司徒正美
P
Palo Alto Networks Blog
A
About on SuperTechFans
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
云风的 BLOG
云风的 BLOG
TaoSecurity Blog
TaoSecurity Blog
Google Online Security Blog
Google Online Security Blog
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
P
Privacy & Cybersecurity Law Blog
H
Heimdal Security Blog
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Hacker News: Ask HN
Hacker News: Ask HN
O
OpenAI News
博客园 - Franky
Scott Helme
Scott Helme

少数派

派早报:Google 发布 Fitbit Air 等 - 少数派 「新人报到」確認需求,再開始 - 少数派 从 SOLO 独立开发者社区,我看到了越来越多开发者开始做自己的产品 - 少数派 我怎么管理那些"不常做,但总会忘"的生活事项 - 少数派 人形机器人量产元年,数据才是具身智能的“生死线” - 少数派 BuhoLaunchpad 高度还原 Mac 启动台:开发历程与思考 - 少数派 五年陪伴依然不舍,DIY 换壳后让罗技 MX Master 3 继续服役 - 少数派 新玩意 240|少数派的编辑们最近买了啥? - 少数派 一日一技|为什么你应该关闭 iOS 的键盘声音 - 少数派 我做了个插件和 Skills,一键提取任何网站的设计规范 Design.md - 少数派 住在三四线城市的你,该开始录播客了 - 少数派 甘南秘境,大白高国 - 少数派 AI的审美:谁让把我变成川内倫子 - 少数派 返工怎能不烦恼,打工人片单总有一部是你的「嘴替」 - 少数派 为了让「上厕所」更健康,我做了一个小工具 - 少数派 AI + Skill,能够让生成的文章去除 AI 味吗? - 少数派 新玩意|韶音OpenDots ONE 耳夹式耳机 - 少数派 《美满》| 在每一个春天的晚上相爱(362) - 少数派 新玩意|优篮子 PS01 MagSnap 磁吸支架 - 少数派 自我整合手记 | 我开始早睡了:用稳定规则,为自由托底 - 少数派 用龙虾(OpenClaw)两个多月,我最深的12个体会 - 少数派 听歌时间到,12 张你可能错过的 2025 华语乐坛好专辑 - 少数派 承诺能追吗 - 少数派 macOS 26启动台没了? 我做了个不一样的App启动器 - Keboard - 少数派 《四海为家的人》| INTJ对话INTJ(361) - 少数派 你发过的那些黑历史,是时候一次清干净了 - 少数派 新玩意:安安静静玩,越玩越专注:计客密码机 - 少数派 iPad 用户首次体验 Android 平板:vivo Pad6 Pro - 少数派 数据逻辑强 - 少数派 极北行+ | 一路向北,探访日本至北之地 | 001 - 少数派 万字剖析:千问App深度体验报告(2026) - 少数派 在2026年,如何真正防止别人抄袭你的作品 - 少数派 怎么用 50 块搭个 AI 语音助手?我踩了 3 天坑 - 少数派 YeeroAI:让 AI 对话真正成为知识管理的一部分 - 少数派 爬泰山 - 少数派 「旅图显影」 App 更新:这次,我们补上了一点「手感」 - 少数派 假期出门太折磨?我的 23 条经验帮你规划惬意旅行 - 少数派 工作流会变吗 - 少数派 Claude Opus 4.6 怎么用最省钱?我测了 5 种方案 - 少数派 GPT Image 2 让图文并茂不再稀罕 - 少数派 用户侧出发——什么是AI,我要不要学习? - 少数派 找片、转存、整理、播放一条龙!让你的付费网盘值回票价 - 少数派 欢迎试用!日课一问2.0插件 - 少数派 自己做的MDeditor,原本想购买 Typora 试了两次支付不成功,干脆自己做一个 - 少数派 vibe coding了一个 3MB 的小工具,让 ~/Downloads 彻底告别混乱 - 少数派 因为受不了 Mac 的风扇策略,我做了一个风扇控制工具 - 少数派 别只怪模型 - 少数派 Warp 终端的 AI 功能怎么用?我测了一周的体验 - 少数派 AI 写代码老是出 bug?这 5 个配置我后悔没早知道 - 少数派 「新玩意」苹果出相机可能就这样:Sigma BF + 45mm F2.8 DG Contemporary - 少数派 一个面向2030年的AI操作系统是什么样子的:浅谈cola这款有灵魂的Agent - 少数派 别只看写代码 - 少数派 每天解决10个问题,还是一口气攻坚解决400个? - 少数派 AI 交易机器人怎么搭?我用 Claude 跑了一周实盘 - 少数派 Maptoposter Online:把你爱的城市画成艺术海报 - 少数派 Function Calling 怎么用?我测了 3 个模型发现差距真大 - 少数派 Legend Talk:我做了个 AI 圆桌,让 160 位思想家围着你的问题转 - 少数派 如何找到自己的蓝方?在小县城寻找压力测试 - 少数派 语音输入与软件接口|2026年聊AI时,我们都聊些什么(上) - 少数派 混动已经卖爆,纯电又来补刀——钛7闪充版简直“不讲武德” - 少数派 本月玩什么|朋友收藏、识质存在、沙罗周期 - 少数派 为什么要每天坚持输出? - 少数派 Claude API 挂了好几个小时,你的项目有备用方案吗? - 少数派 Function Calling 没你想的复杂——我用它做了个有点用的工具 - 少数派 登录系统立即播放视频或者图片音乐的软件 - 少数派 我为什么创建 FlipHTML5 下载工具 - 少数派 残局没电?多品牌外设电量统一管理软件EasyBluetooth已支持RTSS游戏内显示以及AIDA64 - 少数派 前往通义路的路 - 少数派 太好看了,媲美Sun的个人导航页,NAS部署星云门户 - 少数派 乌黑嘴唇“一键检测”上线了 - 少数派 派早报:Claude AI 接入多个创意软件生态、FILCO 生产方接手品牌等 - 少数派 【更新】BearCLI、Claude 连接器与 MCP 服务器 - 少数派 记了上千条流水,还是看不懂财务?我做了一个让 AI 读懂账本的工作台 - 少数派 MINI R56 升级原厂 Sport 模式 - 少数派 新玩意 | 一棵柠檬树(仿真版) - 少数派 Momenta的“物理AI”野望,需迈过“含摩量”这道关 - 少数派 网页直接投屏控制手机!NAS一键部署PandaScrcpy,流畅丝滑可远程。 - 少数派 众测|邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE - 少数派 2050大会:分享时间是真诚 参会记 - 少数派 iPad 赋能电影创作:国内首部宣纸手绘长片《燃比娃》的幕后故事 - 少数派 AI的审美:我用 8 个大模型给 100 张旅行照片打分 - 少数派 普通人如何破圈?去参加一个本地协会 - 少数派 把极空间的图标全换了,主题DIY全攻略打造你的专属NAS桌面 - 少数派 电子便签墙,帮你实现便签自由 - 少数派 我如何用三个 CLI 工具取代文档创建需求 - 少数派 原来真的有人可以玩一辈子 - 少数派 社区速递 139 | 派友热议三月买了啥、复古单反尼康 Df 体验 - 少数派 06 作品的赏析与评价 - 少数派 TDS REVIEW|索尼 WF-1000XM6 降噪真无线耳机体验 - 少数派 35.98万起售的第二代腾势D9,我看重的不是堆料,而是不凑合 - 少数派 鼠须管 Squirrel 皮肤配置指北 - 少数派 从watch ultra2换到redmi watch6 - 少数派 派早报:阿里巴巴发布视频生成模型 HappyHorse 1.0 等 - 少数派 别迷信1M - 少数派 家人们天塌了!网盘“大封杀”,多个渠道多条路,NAS部署PanHub - 少数派 AI与人勾心斗角!NAS一键部署AI狼人杀,假日休闲必备。 - 少数派 电商必备!Comfyui工作流批量生图插件,一次生成12张!支持Nano banana pro模型 - 少数派 Comfyui工作流配置Gpt-image-2模型教程,0.03/张 - 少数派 OpenClaw第三方APi怎么配置?可使用Gpt-image-2模型 - 少数派 会员社区话题精选 Ep. 103 - 少数派
AI 数字绘画:何时从 AIGC 迈向 AIAD? - 少数派
2022-11-27 · via 少数派

Matrix 首页推荐 

Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。 
文章代表作者个人观点,少数派仅对标题和排版略作修改。


引言

AI 数字绘画技术的发展历程

最近一年多的时间里 AI 技术凭借大模型和新的算法在诸多领域产生了可见的突破性进展,对于普通人而言基于 AI 的图像处理和文本处理技术已经逐步改变了我们的生活。AI 绘画技术悄然兴起然后受到广泛的关注,这是一个如此典型的范例一方面让我们感受到了 AI 的强大,另一方面又不得不重新思考我们与 AI 的关系:我们是不是马上会被技术替代了?

首先来看看这一波 AI 绘画技术发展的历程:

  • 2021 年 1 月,OpenAI 公布了 DALL-E,奠定了扩散模型在这一波技术发展中的重要性。
  • 2021 年 10 月,开源的文本生成图像工具 disco-diffusion 诞生,此后有相当多的基于此的产品出现。
  • 2022 年 7 月,OpenAI 旗下人工智能在线绘图应用 DALL·E 2 公测。
  • 2022 年 8 月,stability.ai 开源了stable-diffusion,这是目前可用性最高的开源模型,很多商业产品都基于此,如 NovelAI。10 月 18 日,Stability.ai 宣布完成 1.01 亿美金的种子轮融资,估值达 10 亿美金。

自从几个重要的开源模型发布以来,基于次开发的一些门槛较低的 AI 绘画生成平台多次在社交网络上爆红,早几个月的 Midjourney 以及近期国内发布的意间 AI 等产品吸引了众多没有技术背景的素人参与 AI 创作和讨论,并开启了诸多商业渠道的流量密码。

推荐阅读

站在这个时间点讨论AI绘画与设计

除了猎奇和投机,也已经有很多相关行业的从业人员从各个方面讨论了 AIGC(Artificial Intelligence Generated Content)对于各个行业的影响,最多的包括艺术创作行业与设计行业。由于早期的 AI 模型相对于现实的场景更擅长生成富有想象力和艺术感的作品,有很多讨论集中在「AI 创作是否能称之为艺术?」「AI 绘画如何辅助创意生成?」

当时 AI 生成的真实感作品质量还相当捉襟见肘,所以并没有什么讨论围绕在环境设计(建筑、规划、景观、城市设计等)相关的领域。然而随着模型的快速迭代,仅仅经过不到一年的时间现在最新的模型已经在真实风格作品上有可圈可点的表现,之前被诟病的诸如人物失真等问题也一一得到解决。

最早想要写这么一篇文章是在 9 月左右,尽管由于各种原因拖拖沓沓了两个月,但是所幸这两个月还尚未发生重大的变革让这篇文章成为一纸旧闻。在这里我主要想探讨在这个时间节点的 AI 数字绘画技术对于环境设计行业意味着什么?有哪些现在已经可以被实现的新的工作流程/方式?并且基于现在各方面的技术成熟度聊聊 AIGC 在何时可以迈入 AIAD(Artificial Intelligence Aided Design,人工智能辅助设计)?

关于训练模型等技术细节

我并不想在文中过多地涉及技术细节,因为我希望探讨的是更一般的情况而不是某个具体的模型与参数的性能。所以把自己在尝试过程中的技术相关的内容写在这里。

首先我大多数情况下使用的模型都是部署在 colab 上的 stable-diffusion 模型,早期的时候使用的是没有 GUI 版本的,最近使用的都是带 GUI 的版本,相对来说更为易用。如果有尝试的意向可以参考以下的内容:

接下来简单地说一下为什么采用 stable-diffusion。

  • 最主要的原因是它完全免费,配合 colab 的话甚至不用消耗自己的算力,相对来说同期的 Midjourney、NovelAI 等都是有限额或需要付费的。
  • 其次,尽管部署难度相对其他打开即用的平台更高一点,但若作为生产力工具评估的话这点学习成本完全不算什么,并且是一次部署长期使用。
  • 最后,尽管不同的模型有着各种优势,在我测试的当口相对来说,大家可能都更推崇 Midjourney 的质量,但根据我的考察其质量的优势还是体现在少量图片生成时的创意程度似乎更高,在不进行反复调试的情况下生成的图片更加符合我们的需要,但这个特点在生产环节的重要性被缩小了,在现在这个阶段我们并不期望 AI 能为我们直接生成作品(因为环境设计也并不是以图像作为成品提交方式的),我更看重在快速迭代和修改中呈现出的创意和可使用的意象,在这个需求中自己部署的模型采用批量训练的方法一次训练几十上百张图片可能是会更常用的方式。

单纯的 text2img 效果怎么样

使用 AI 绘画的第一步当然是 text2img,顾名思义就是通过文本生成图像,一般需要输入一定长度的文本描述(prompt),AI 首先通过语义的模型理解文本的含义,然后再基于此生成图像。

这样生成的特点是能最大化表现 AI 模型的创意,往往输入者在一开始对要画什么并没有特别具体的想象,而是希望 AI 生成一些出人意料的结果。很多模型都有官方的 prompt 编写指南,但基本上需要包括三方面内容:主体内容、要素/特征、风格。也由于使用文本表达,很多太过具体的描述如空间方位等很难被 AI 精确地理解,当然还有一个原因在于为了保证生成图片的合理性和质量,生成的时候往往会对文本的内容进行重新采样,也就是说写的所有内容不一定都会对 AI 的创作产生影响。所以很多 prompt 的写法并不在于事无巨细地描述,而是通过有明显导向的词语让 AI 知道你想要什么,比如网上与建筑相关的 prompt 中最为神奇的词汇莫过于「Zaha」,仅仅四个字母就可以让你生成突破想象的奇幻建筑……

由于这样的特征,文本生成最适合用来寻找灵感,输入一些较为模糊的意向和要素进行大批量的生成,然后在其中挑选一些尚可的结果作为设计或表现的参考。其实这样的方式在其他的设计领域如婚礼设计、服装设计等已经有所应用,只是相对来说环境设计对真实性的要求更高。

那么 AI 现在能生成什么样的图片呢?其实如果去 Lexica 这样的网站上就可以看到已经有相当多跟城市相关的优质作品,只不过由于大多数和 CG 艺术相关并不是非常写实:

其中有的图像质感已经相当不错,比如参照 Lexica 上的案例生成的未来城市的一组图片:

prompt: Futuristic glasgow with buildings and skyscraper, green square, multi-layerd trees, Air platform and bridges sunny day, volumetric light, reflections, hyperdetailed, artstation, cgsociety, 8k

其实在我刚开始尝试 AI 绘图的时候网络上已经有建筑或景观设计师尝试生成了更加真实的图像:

从上面生成的结果已经可以看出在真实感上现阶段的 AI 已经表现得相当不错,整体图像粗略来看不太容易看出违和之处,尽管如果放大细看还是能找出不少瑕疵。但是这种「基本不违和」的能力对于生成看起来真实的图像十分重要,这代表了需要有基本正确的空间关系、光照和阴影等,尽管这些细节仔细看来仍然是「不正确的」,但是毕竟大多数人也不会用画法几何的眼光来审视所有的图像。也就是这种「基本不违和」的能力让AI绘画有了更多的可能性。

为了试验 AI 在更复杂场景生成的可能性和创意能力,我继续尝试了以滨水城市为主题的批量生成:

prompt: a beautiful rendering of city near by river,  low-rise buildings with roof garden and multi-story platforms, high-rise skyscrapers crowded in center,  built by wood and metal and other modern materials, designed by SOM and MVRDV , amazing parks  in front of fiver, clear sky with sunlight,  8k, octane render, architecture photography, hyper detailed,  epic lighting

可以看到由文字批量生成的图片构图的多样性十分丰富,尽管整体风格还是相似,但是却能生成各种类型的场景,说明文字的详细描述对于图像的约束力有限,同时生成的这种随机性能为方案早期的创意阶段带来一些新的可能。反过来说,由于生成的图像太不一致,没法将这些图看作是一套方案,也就是说每张图都有其随机性,之间是没有关联的,由于这样的特性让 AI 生成无法满足方案及之后过程的工作需要,毕竟要是每张图都是不同的样子,那本身就是对设计的消解。

img2img 是更好的选择吗

要是让设计师想象一种理想的与 AI 交互的方式,那么多半会是自己画一张设计草图然后让 AI 生成完整的方案,可见相对于文字而言传统的设计流程其实更加依赖图像信息。现有模型中 img2img 功能就可以在这个方面进行一定的探索,相对于 text2img 来说,它需要另外输入一张原始图片供 AI 学习然后生成结果,这个过程中文字 prompt 和输入的原始图片共同影响最终的结果。

当了解这个功能的基本运行过程后,作为设计师的一个想要尝试的就是:是否可以输入一张手绘的方案草图或者建模软件中的体块模型让 AI 帮助我们深化方案?

以上两张图中第一张都为原图

我尝试了将比较简单的体块模型和分析图作为输入来生成,虽然确实能得到一些意料之外的结果,但是这些结果似乎比较难和生产环境中的具体需求结合起来。可以发现 AI 并没有生成逼真的效果图,而是生成了类似分析渲染图的样式,这似乎是由于 AI 对于输入图片的学习是均等的。

我们都能理解一张图片由色彩要素(颜色、材质、阴影、光照)和形态要素(形态结构、空间关系)组成,我们其实原本希望 AI 着重学习草图中的大体形态关系,而对具体的材质、景别、微观样式等进行深化。然而不如我们所愿,扩散算法对图像的学习似乎是不区分颜色和结构的, 所以当我们想要它学习形态结构(也就是方案)的时候它往往会对颜色过度学习而对形态学习不足,结果就好像它在帮我们出方案而不是做效果图。

考虑到输入图像的特点,这似乎告诉我们对输入的图像有更高的要求:如上面所说,最好能在颜色和结构两个方面都对 AI 做出指引。一开始想到的是手绘草图的形式确定色彩和结构,但现于个人绘画水平没有进行更多的尝试,另一个问题是涂色的草图容易被 AI 学习出更接近卡通或者绘画的风格。所以后来我想到的是在一个白模底稿的基础上迁移另一个图片的颜色来达到合成的效果,然后以迭代的形式多次训练图像以控制生成的方向:

prompt:  a beautiful 3D rendering of waterside  port city,  low-rise buildings with roof garden and multi-story platforms, built by wood and metal and other modern materials, designed by SOM and MVRDV , amazing parks  in front of fiver, Villa residential area, clear sky with sunlight,  8k, octane render, architecture photography, hyper detailed,  epic lighting

最终确实生成了看似效果图的图像,但是其另外一个缺陷缺依然明显,那就是输入图像的影响控制是全局的,但是往往我们希望它深化的只是其中一部分。比如上图中我希望它对于码头重点建筑可以有多样的变化,但周边的环境最好尽量不要在形态和布局上有太大的变化。这就要求模型能允许我们对图像的各个区域分别设置学习的强度。

所幸现在的模型中已经提供了一个相近的功能,允许对输入的图像进行蒙版绘制,然后单独控制蒙版部分的强度。Midjourney 已经支持了绘制的时候直接通过不同透明度的方式来控制学习的强度,但由于这个控制可能需要反复试验我暂时没有进行更深入的使用。不过使用这个功能也能实现一些设计过程中一些常用的需求,比如说建筑方案比选:

在这个例子中蒙版内生成的内容能较好地符合周边环境特征,当然如玻璃反射等的效果还是相当不足,不过也说明了上面提到的流程的可能性。早在 stable-diffusion 刚刚开源的时候网上就出现了对应的 PS 插件,能根据 PS 中的蒙版、基础图像和文字描述来生成局部的结果,然后将多个局部拼合在一起成为完整的作品。我认为要是希望 AI 能在正式的生产环境中起到作用这样的流程是值得推广的。

那么就现在而言,有没有什么相对更加成熟和可用的流程呢?

就我近期的使用体验而言,现在用 AI 来根据参考图生成意向图是一个相对可用的应用场景。由于前面提到的一些缺陷:随机性太高、对细微结构的学习不足、对输入图片在颜色和结构都有要求,我们可以直接将一张小场景(非鸟瞰)的效果图或者实景图作为参考图输入让 AI 来帮我们生成构图和配色相近的意象图。

这里以一个步行街道的效果图作为例子:

prompt: Bustling and fashionable commercial street with transportation of the future, green plants, parks with people activate, clear sky and sunlight, volumetric light, reflections, hyperdetailed, artstation,8 k, octane render

可以看到当输入的图像本身的质量较高时输出的图像也相当不错,并且在整体构图和景别和原图接近的基础上衍生出了足够的变化。这种方式能解决两个问题:其一是没找到十分贴切的意象图,则可以用一张构图相近的效果图来尝试生成需要的意象图;其二是如果找到想用的意象图存在版权等问题,为了避免陷入侵权的麻烦可以用 AI 生成一张接近原图的意象图。

更进一步地,可以把前面加工原图的思路用上,如果不是特别满意原图的景别,可以在原图的基础上进行适当的颜色调整再作为输入。AI 的「基本不违和」能力能帮助你把调色调得十分离谱的图像变成一眼看不出毛病的真实效果。这里我用一张水边的商业街作为例子,在对原图进行调色、涂抹增加要素、通过反相改为夜景的调整之后分别输入生成不同景别的意象图:

prompt:  Bustling and fashionable commercial street near by river, low rise buildings in front of water,  wood and other warm modern materials,  high-rise buildings with glass rearwards, green plants, parks with people activate,  shops, clear sky and sunlight, volumetric light, reflections, hyperdetailed, artstation,8 k, octane render, 3d rendering

小结一下

前面讲了很多都是我自己的一些尝试,另外一些没有实现的则是合理的推测。总结一下现在 AI 绘画技术的特征以及我们能如何利用这些特征:

  • 这一代的AI生成图像相对于上一代(GAN 为主的模型)来说较为突出的优势是已经可以生成「基本不违和」的图像,这是十分重要的一项能力。用扩散模型生成图像现在几十秒就能生成一张,然而如果要用渲染流程则需要花费数十倍甚至百倍的时间。基于这种能力以及现在不断提高的模型速度,现阶段 AI 对于环境设计来说最主要的场景还是在短时间生成大量的图像作为灵感参考或者意象使用,以几十秒一张的速度基本上半个小时就能生成上百张图片,配合其本身就相对优越的创造力(随机性),有可能为设计者带来更多的想法。
  • 更为细致的和高要求的生成也并不是说现在就做不了,前面提到了这需要对输入的控制条件有较高的要求,可能设计师学会「如何和 AI 对话」也需要一定的时间。但就我看来,更精细的控制也是 AIGC 技术向后发展特别是工业化比较重要的方向,或许不久之后就会基于现在这些表现还不错的模型调教出专门面向环境设计师的设计辅助工具。
  • 最后,尽管前两点说法相对乐观,但是不可否认的是环境设计是在三维空间中做设计,而现在这些 AIGC 模型则是学习的二维图像,虽然成果能够在一些工作环节中起作用,但是改变不了它无法理解空间的事实。这些工具能一定程度上改变我们的工作方式,但并不是变革发生的渊薮。

我们将如何走向 AIAD?

由于我对大部分技术并没有深入的研究,这里说的仅仅是基于我对这些技术的直观理解的一些想法。

  1. 首先,比较容易想到的就是扩散模型如此好用,那就可以将它从二维迁移到三维,用三维数据来训练模型。这样可以解决前面提到的一个根本性问题:如果生成的不是图片而是三维模型,那就可以用一个模型来生成多张效果图,保证都来自于一个方案。其实这个方向已经有了有了一些初步的尝试。相信按照之前扩散模型发展的速度,出现一些可用的模型并不是遥远的事情。
  2. 其次,其实反过来从环境设计专业内想,其实我们并不需要特别复杂的三维模型生成的算法,生成式设计(Generative Design)早就在相关领域被研究了多年,已经有相当多的成熟的方案,不管是基于规则的还是基于数据和算法的(GAN 模型)都已经有了不少商用产品。AI 绘图的技术能帮我们看到更多可能性的还是在表现上面,尽管现在的方案生成产品可能也自带一些快速表现的功能,但大都基于传统的「建模-渲染」流程,效率和效果都差强人意。AI 绘图的特点正好能在这些方面进行弥补,首先它相比渲染足够快,其次它不仅是对原模型的渲染,还能对一些细节进行调整和优化,比如设计中的商业氛围、人群活动等本身不属于方案,但对于方案表现较为重要的部分,传统流程中都还是通过建模或后期的方式,今后 AI 绘图或许能在这样的场景下发挥得更好。
  3. 最后,回到比较近期的考虑,前面提到现有的技术(模型)对于一些生产环节的需求其实已经基本满足,但是一方面缺少对设计师的引导和教育,传统的设计师或许还不知道如何理解和使用 AI 类工具。另一方面专门针对这一领域的工具现在还没有,比如国内很多基于 stable-diffusion 的工具都通过预设风格等方式提高了易用程度,对我们而言也可以通过调整预设风格,输入更多相关的图像调整模型,设计更适合设计师日常交互的工具等方式来让眼前的这一步走得更快。但事实上单单一个行业的设计师作为用户的市场是有有限的,商业驱动下或许并没有那么多的动力来进行开发,设计师或许应该更加积极主动地进行交流探索,为未来将会到来的变革做好准备。

虽然前面的结论是现在这些图像生成的模型并不能为环境设计相关行业带来变革性的改变,但实际上技术的发展并不仅仅在这一端,在不太被人知晓的方面已经有相当多的技术在逐步发展和成熟,我们离 AIAD 的变革或许并没有那么遥远。

> 少数派请你做地图:城市声音收藏夹火热征集中,期待你创作的城市之声 🎧

> 下载少数派 2.0 客户端 、关注少数派公众号,解锁全新阅读体验 📰

> 实用、好用的正版软件,少数派为你呈现 🚀