惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

酷 壳 – CoolShell
酷 壳 – CoolShell
H
Hacker News: Front Page
P
Palo Alto Networks Blog
T
ThreatConnect
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
True Tiger Recordings
P
Privacy & Cybersecurity Law Blog
B
Blog
IT之家
IT之家
Last Week in AI
Last Week in AI
F
Full Disclosure
Hacker News: Ask HN
Hacker News: Ask HN
C
Comments on: Blog
Microsoft Azure Blog
Microsoft Azure Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Microsoft Security Blog
Microsoft Security Blog
博客园 - 【当耐特】
N
News and Events Feed by Topic
NISL@THU
NISL@THU
腾讯CDC
雷峰网
雷峰网
Security Latest
Security Latest
李成银的技术随笔
M
Microsoft Research Blog - Microsoft Research
L
LangChain Blog
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Y
Y Combinator Blog
Recent Announcements
Recent Announcements
博客园 - Franky
N
News | PayPal Newsroom
V
V2EX
A
About on SuperTechFans
The Register - Security
The Register - Security
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
Cisco Talos Blog
Cisco Talos Blog
Vercel News
Vercel News
WordPress大学
WordPress大学
C
Cyber Attacks, Cyber Crime and Cyber Security
The Hacker News
The Hacker News
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
爱范儿
爱范儿
A
Arctic Wolf
L
LINUX DO - 最新话题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

博客园 - SharpCJ

当 AI 开始写代码,谁来保证它不会翻车? Android 开发者为什么必须掌握 AI 能力?端侧视角下的技术变革 - SharpCJ 拆穿名词诈骗!用大白话理解晦涩难懂的AI概念 OpenClaw 大结局——接入个人微信 Android 性能分析工具 Perfetto 的基本使用 frp 内网穿透 0.63.0 教程 LangChain入门学习 Ubuntu 下 conda 设置 ComfyUI 基础教程(六) —— 图像的局部重绘 ComfyUI 基础教程(五) —— 应用 IP-Adapter 实现图像风格迁移 ComfyUI 基础教程(四) —— 应用 LoRA 模型控制图像生成特征 ComfyUI 基础教程(三) —— 应用 Controlnet 精准控制图像生成 ComfyUI 基础教程(二) —— Stable Diffusion 文生图基础工作流及模型、常用节点介绍 ComfyUI 基础教程(一) —— 本地安装部署 GPT-SoVITS —— 5s 声音样本就可以训练模型,复刻声音的 AI 应用 LM Studio + open-webui 快速本地部署大语言模型 Jetpack Compose(9)——自定义Composable Compose 延迟列表踩过的坑 Jetpack Compose(8)——嵌套滚动 Jetpack Compose(7)——触摸反馈
Stable Diffusion 小白的入坑铺垫
SharpCJ · 2024-08-31 · via 博客园 - SharpCJ

小白的 Stable Diffusion 入坑铺垫

本文主要讲述一些 Stable Diffusion 入坑前需要了解的一些相关概念,不会涉及很高深的理论知识,因为我也讲不明白。本文所讲的内容基本上小学生就能看懂。如果你完全没听说过 Stable Diffusion 也没关系,只要你听说过 AI 绘画,并且对此有兴趣,就能跟着我一步步了解入坑。如果你想更进一步了解更深层次的计数原理,本文后面会给出一些连接,都是我看过的比较不错的文章或者视频。

一、AIGC 的概念

2022年,是人工智能爆发的元年,前有 Stability.Ai 公司开源了 Stable Diffusion 模型,后有 Open AI 发布了 ChatGPT,二者都是 AI 领域发展的里程碑式的事件。它们让 AI 不再是科研学术领域专属的高深莫测的技术名词,而是真真实实让普通人触手可及,提高生产效率的智能工具。
那 AIGC 是什么呢,AIGC (Artificial Intelligence Generative Content),即人工智能生成内容。这个领域的比较宽泛,生成的内容可以是文本,图像,音频,视频等等。机器可以跟人一样,能够看到、听到、思考、判断,然后做出决策,生成上述内容。比如前面提到的 ChatGPT 就是 AIGC 领域的一个具体应用。
本文接下来将围绕 Stable Diffusion 来介绍。

二、Stable Diffusion

Stable Diffusion, 潜在的扩散模型,是一种深度学习文本到图像生成模型,它主要根据文本描述生成图像。简单来说是一种文生图的算法。由 Stability.Ai 开源。

Stable Diffusion 和 Midjourney

目前市面上比较权威,并且能真正用于工作中的 AI 绘画软件,其实就两款,一个是 Midjourney(简称MJ),另一个就是 Stable Diffusion(简称 SD),MJ 需要付费使用,使用起来相对简单。而SD开源免费,但是上手难度和学习成本略大,并且对电脑配置有一定要求。

两者在实际使用中也各有利弊,从大的方面来讲,MJ 在生图图片时更具想象力,生成图片的在细节上略优于 SD,商业服务完善,助力艺术创作。SD 比 MJ 拥有更加丰富的个性化体验,使用者可以进行更精细的调教,以此生成更贴近需求的图片。得益于 SD 的开源,全世界的开发者和爱好者都可以参与进来,SD 拥有非常活跃的社区,非常丰富好用的自定义插件,甚至 SD 在 AI 生成视频特效、音乐生成等领域也有所建树。

三、Stable Diffusion 对电脑配置的要求

电脑配置最核心的配件,是 CPU、显卡、内存、硬盘。一般在 AIGC 领域,最重要的还要数显卡,很多 AI 应用只支持 N 卡(英伟达 Nvidia 独立显卡)。使用 Stable Diffusion 最常用的两种方式有两种 webui 和 comfyui 。其中 webui 对电脑显卡的要求最低 10 系起步,体验感佳 40 系。其中显存大小也很重要,最低 4G, 6G 及格,内存最低 8G, 16G 及格,硬盘空间最好有 500G 以上,固态硬盘最佳。而如果使用 comfyui,则对电脑配置要求更低,最低 3G 显存可用,出图速度也更快。

重要的事强调一遍:显卡最重要,尽量选 N 卡,支持 Cuda,显存也重要。显卡计算能力强弱,只是出图时间长短的问题,显存不够,直接就玩不了。

详细的数据对比,大家可以到各大论坛,或者 Nvidia 官网了解。

四、概念理解

我自己在学习过程中,经常看到有一些刚入门的小伙伴,问 Stable Diffusion 和 Comfyui 学哪个。实际上,这个问题本身就是错误的。提问的人没有分清楚一些基本概念。

前面讲到,Stable Diffusion 是一种扩散模型。常见的使用方法有 webui 和 comfyui 两种方式。
webui 使用界面如下:

comfyui 使用界面如下:

相比之下,webui 更适合新手入门,所有操作在界面上一目了然,上手起来很容易。而 comfyui 是工作流模式,需要添加各种节点,并将它们用线连起来,更符合 stable diffusion 的工作流流向,如果你对深入学习 stable diffusion 有兴趣,可以选择 comfyui,另外 comfyui 可以保存成 json 文件,用来复用,comfyui 生成的图片中默认也包含完整的工作流信息,可以将工作流 json 文件,或者由 comfyui 生成的图片直接拖入 comfyui 中,还原整个工作流。
webui 比较稳定了,迭代更新速度也较慢,而 comfyui 目前几乎每天都会有新版本。具体使用哪个,看个人意愿。
这里只要是澄清,无论是 webui 还是 comfyui 都是上层的应用形式,stable diffusion 只是一种模型。比如近期非常火爆的一种新的文生图模型 Flux,它也是可以在 webui 种运行。

五、 结尾放图

首先给出一些学习过程中我认为非常好的资料连接:
7000字详解!幼儿园都能看懂的 Stable Diffusion 工作原理

Stable Diffusion 维基百科

B站秋葉大佬的视频



目前来看,Stable Diffusion 能做的工作相当多,比如,模特换装,照片放大,局部重绘等等,感兴趣的朋友可以认真学习一下。