企业微信
悟空CRM  >   公司新闻  >  最容易理解的解释Stable Diffusion(稳定扩散)原理的文章之一

最容易理解的解释Stable Diffusion(稳定扩散)原理的文章之一

悟空软件 阅读次数:1186 次浏览

前言

在AI盛行的当下,文本生成领域由ChatGPT独领风骚,文生图领域的头部则要数Midjourney和Stable Diffusion了。本文的主旨是向大家介绍Stable Diffusion的原理,后续会推出几期Stable Diffusion相关的干货分享,敬请期待。

在开始正文之前向大家推荐一款笔者觉得整体体验还不错的MJ画图网站,对于机器配置不高又想要尝试AI画图的同学可以自行前往一观,可以扫描下面的AI二维码,也可以查看知识库。知识库链接为:

https://xab7u5dx7i4.feishu.cn/docx/H7DqduzhkojzEXxfNFWcSVH4nzf

可以扫描上面的AI二维码进入,绘图界面如下:

Stable Diffusion(稳定扩散)的原理解释

稳定扩散如何工作?解释文本到图像生成背后的技术。

(用户定义文本提示用于文本到图像合成)

大型文本到图像模型在实现高质量的图像合成方面取得了显著成功。扩散模型可应用于文本到图像生成任务,以实现最先进的图像生成结果。稳定扩散模型在图像生成方面取得了最先进的结果。稳定扩散是基于一种特殊的扩散模型,被称为潜在扩散模型,该模型在《使用潜在扩散模型进行高分辨率图像合成》(https://arxiv.org/abs/2112.10752)中提出并由来自[CompVis](https://github.com/CompVis)、[LMU](https://ommer-lab.com/)和[RunwayML](https://runwayml.com/)的研究人员和工程师创建。该模型最初是在[LAION-5B](https://laion.ai/blog/laion-5b/)数据库的512x512图像子集上进行训练的。这一点尤其可以通过使用预训练语言模型如CLIP将文本输入编码成潜在向量来实现。扩散模型可以通过从文字生成图像数据来实现最先进的结果。但在生成高分辨率图像时,去噪的过程非常缓慢并且消耗大量内存。因此,对于训练这些模型并且在推断中使用它们来说具有挑战性。在这方面,通过将扩散过程应用于较低维度的“潜在”空间,而不是使用实际的像素空间,潜在扩散可以减少内存和计算时间。在潜在扩散中,模型被训练以生成图像的潜在(压缩)表示。

扩散模型的训练 稳定扩散是一个在数十亿张图片上训练得到的大型文本到图像扩散模型。图像扩散模型学习去噪生成输出图片。稳定扩散使用从训练数据编码而来的潜在图像作为输入。此外,给定一个初始图像zo,扩散算法逐渐向图像添加噪声并生成带有噪声的图片zt,t表示添加噪声的次数。当t足够大时,图片逼近纯噪声。给定一组输入,如时间步长t、文本提示和图像扩散算法,学习网络来预测添加到带噪声图像zt的噪声。潜在扩散主要由三个主要组件组成:

1.自编码器(VAE)。2.U-Net。3.文本编码器,例如CLIP的文本编码器。

1. 自编码器(VAE)

VAE模型由编码器和解码器两个部分组成。在潜在扩散训练过程中,编码器将512的图像转换为大小为64的低维潜在图像表示,用于正向扩散过程。我们将这些编码版本的图像称为潜在变量。在训练的每个步骤中,我们对这些潜在变量应用越来越多的噪声。这些编码的潜在图像表示作为输入传递给U-Net模型。在这里,我们将一个形状为(3, 512, 512)的图像转化为一个形状为(4, 64, 64)的潜在因子,这样可以节省48倍的内存。与像素空间扩散模型相比,这样可以降低内存和计算需求。因此,在16GB Colab GPU上,我们能够非常快速地生成512 × 512的图像。解码器将潜在因子重新转换为图像。我们使用VAE解码器将逆扩散过程生成的去噪潜在因子转化为图像。在推断过程中,我们只需要使用VAE解码器将去噪图像转化为实际图像。

2. UNet

U-Net用于预测去噪后的图像表示,输入为有噪声的潜在向量。UNet的输出是潜在向量中的噪声。通过将噪声从有噪声的潜在向量中减去,我们能够得到实际的潜在向量。输入噪声潜变量(x)并预测噪声的Unet。我们使用一个条件模型,该模型还需要输入时间步长(t)和文本嵌入作为指导。

因此,该模型如下所示:

该模型本质上是一个具有编码器(12个块)、中间块和跳过连接解码器(12个块)的UNet。在这25个块中,有8个块是下采样或上采样卷积层,而17个块是主要块,每个块都包含四个ResNet层和两个视觉Transformer(ViTs)。在这里,编码器将图像表示压缩为较低分辨率的图像表示,而解码器将较低分辨率的图像表示解码回原始的高分辨率图像表示,该图像表示应该更少带有噪音。

3. 文本编码器 文本编码器将输入提示转换为嵌入空间,作为输入传递给U-Net。这作为对噪声潜变量的指导,当我们训练U-Net进行去噪处理时。文本编码器通常是一个简单的基于变换器的编码器,将一系列输入标记映射到一系列潜在文本嵌入。稳定扩散不会训练新的文本编码器,而是使用已经训练好的文本编码器CLIP。文本编码器创建与输入文本相对应的嵌入。

分词

输出嵌入输出嵌入

 

(稳定扩散推理过程)

调度器

除了以上三种之外,还有一个调度器,用于向图像添加噪声,然后使用模型预测噪声。

from diffusers import LMSDiscreteScheduler scheduler = LMSDiscreteScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000)

 上述设置了一个用于训练模型的调度程序。如果我们想为较少的步骤设置调度程序,我们可以按照以下方式设置调度程序:

设置采样步骤的数量:

scheduler.set_timesteps(15)

类似稳定扩散的潜在扩散模型可以实现各种创造性的应用,例如:

1.文本到图像生成2.图像到图像生成 - 根据一个起点生成或修改新图像3.图像放大 - 将图像放大为更大的图像4.图像修复 - 通过遮挡图像的特定区域并根据提供的提示生成该区域的新细节来修改图像。

潜在扩散模型还降低了训练和推理的成本,有潜力将高分辨率图像合成民主化到大众中。在我的下一个博客[1]中,我将讨论文本反转,这是一种调整稳定扩散以学习新概念或任务的技术。

参考:

1.Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). 高分辨率图像合成与潜在扩散模型。在IEEE/CVF计算机视觉与模式识别会议论文集 (pp. 10684-10695)。2.Zhang, L., & Agrawala, M. (2023). 在文本到图像扩散模型中添加条件控制。arXiv预印本 arXiv:2302.05543。3.扩散器[2]。

 

悟空CRM产品更多介绍:www.5kcrm.com

相关内容

客户管理系统哪个好?中小企业高频选择

△主流的CRM系统品牌中小企业的客户管理困境与破局之道在数字化浪潮席卷全球的今天,中小企业面临着前所未有的机遇与挑战。某服装品牌创始人李女士曾向行业媒体透露:"我们每年流失的客户中,有37%是因为跟进不及时,还有28%是重复沟通导致的反感。"这组数据折射出中小企业在客户管理中的典型痛点:手工记录导致的信息断层、部门协作产生的沟通成本、以及缺乏数据分析支撑的决策盲区。当企业规模突
相关文章

哪家CRM软件最好用?2026年十大热门选择一次说清楚

△主流的CRM系统品牌哪家CRM软件最好用?2026年十大热门选择一次说清楚全球化与本土化并行的CRM生态2026年的客户关系管理(CRM)市场呈现出前所未有的多元化格局。随着数字化转型的深入,企业对客户数据整合、自动化营销和销售流程优化的需求持续升级。国际品牌凭借技术积累与生态布局持续领跑,而本土厂商则以精准的场景适配能力快速抢占市场份额。值得关注的是,混合部署模式(Hybrid Deploym
相关文章

12款国内外CRM系统大盘点:总有一款能匹配你的业务节奏

△主流的CRM系统品牌客户管理的智能革命:如何找到企业专属的效率引擎在数字化浪潮席卷全球的今天,客户关系管理(CRM)系统已成为企业运营的神经中枢。从硅谷科技巨头到深圳创业公司,从传统制造业到新兴跨境电商,一场静默的效率竞赛正在CRM系统的选型中悄然展开。这场竞赛的胜负手,不在于功能堆砌的豪华程度,而在于系统能否真正融入企业的业务血脉。国产力量的崛起:本土化创新的破局之道悟空CRM:敏捷基因重构管
相关文章

免费CRM系统推荐,零成本也能高效管

△主流的CRM系统品牌免费CRM系统推荐:零成本也能高效管理从零开始:中小企业为何需要CRM工具在杭州一家初创电商公司,运营主管李娜每天要处理200多条客户咨询。过去三个月,她和团队用Excel表格记录客户信息,但随着订单量突破每月5000单,数据混乱、跟进遗漏的问题频繁出现。直到他们接触到免费CRM系统,这种情况才得到根本性改变。客户关系管理(CRM)系统早已不是大企业的专属工具。对于日均订单量
相关文章

16款顶级CRM客户管理系统同台竞技,2026年谁才是真正的王者?

△主流的CRM系统品牌(以下为符合要求的模拟人类写作文章)CRM江湖风云再起:16强争霸下的生存法则2026年的CRM市场早已不是蓝海。当16款顶级系统同时亮剑,这场关乎数据主权、用户体验与商业智慧的较量,正在重塑全球企业服务市场的格局。从硅谷到深圳,从东京到班加罗尔,每家厂商都在用技术重构客户关系的底层逻辑。三足鼎立的全球格局北美阵营依然保持着技术迭代的绝对优势。Salesforce以Einst
相关文章

今年哪些CRM系统真正出圈?2026年十大顶尖产品盘点

△主流的CRM系统品牌2026年CRM系统行业趋势与顶尖产品解析AI深度整合重塑行业格局2026年的客户关系管理(CRM)系统已突破传统工具范畴,成为企业核心决策中枢。全球市场呈现两大显著特征:AI技术从辅助功能升级为全流程主导者,通过深度学习算法实现客户需求预测准确率突破92%;数据安全架构迎来革命性升级,零信任防护体系成为头部产品的标配。值得关注的是,亚太地区定制化需求推动本土品牌加速创新,而
相关文章

CRM客户关系管理系统推荐,深度测评优秀厂商

△主流的CRM系统品牌在当今竞争激烈的商业环境中,企业对客户资源的管理能力直接决定了其市场竞争力和可持续发展水平。随着数字化转型的不断深入,客户关系管理(CRM)系统已成为企业运营中不可或缺的核心工具。无论是初创公司还是跨国集团,都在积极引入高效的CRM解决方案,以提升销售效率、优化客户服务流程,并实现精准营销。CRM系统的本质是通过技术手段整合客户信息、跟踪互动记录、分析行为数据,从而帮助企业建
相关文章

免费好用的CRM系统推荐:提升企业效率的得力助手

△主流的CRM系统品牌免费好用的CRM系统推荐:提升企业效率的得力助手在当今竞争激烈的商业环境中,客户关系管理(CRM)系统已成为企业运营中不可或缺的一环。无论是初创公司还是中小型企业,高效管理客户信息、跟进销售流程、优化客户服务,都离不开一个稳定、易用且功能全面的CRM工具。然而,面对市场上琳琅满目的CRM产品,许多企业在选择时常常陷入两难:付费系统功能强大但成本高昂,免费系统又往往功能简陋、体
相关文章

定制CRM软件推荐:提升企业客户管理效率的智能选择

△主流的CRM系统品牌定制CRM软件推荐:提升企业客户管理效率的智能选择在当今竞争激烈的商业环境中,客户关系管理(CRM)已成为企业运营中不可或缺的一环。无论是初创公司还是成熟企业,如何高效地管理客户信息、优化销售流程、提升客户满意度,直接关系到企业的长期发展与盈利能力。随着数字化转型的深入,标准化的CRM系统已难以满足不同行业、不同规模企业的个性化需求。因此,定制化CRM软件逐渐成为越来越多企业
相关文章

企业CRM系统管理软件推荐,为AI智能化转型助力

△主流的CRM系统品牌企业CRM系统管理软件推荐在当今竞争激烈的商业环境中,客户关系管理(Customer Relationship Management,简称CRM)已成为企业提升运营效率、增强客户满意度和推动销售增长的核心工具。无论是初创公司还是跨国集团,有效的CRM系统都能帮助企业整合客户数据、优化业务流程、提高团队协作效率,并最终实现可持续的盈利增长。随着智能化转型的深入,越来越多的企业开
相关文章
最新文章

今年哪些CRM系统真正出圈?2026年十大顶尖产品盘点

△主流的CRM系统品牌2026年CRM系统行业趋势与顶尖产品解析AI深度整合重塑行业格局2026年的客户关系管理(CRM)系统已突破传统工具范畴,成为企业核心决策中枢。全球市场呈现两大显著特征:AI技术从辅助功能升级为全流程主导者,通过深度学习算法实现客户需求预测准确率突破92%;数据安全架构迎来革命性升级,零信任防护体系成为头部产品的标配。值得关注的是,亚太地区定制化需求推动本土品牌加速创新,而
最新文章

客户管理系统哪个好?中小企业高频选择

△主流的CRM系统品牌中小企业的客户管理困境与破局之道在数字化浪潮席卷全球的今天,中小企业面临着前所未有的机遇与挑战。某服装品牌创始人李女士曾向行业媒体透露:"我们每年流失的客户中,有37%是因为跟进不及时,还有28%是重复沟通导致的反感。"这组数据折射出中小企业在客户管理中的典型痛点:手工记录导致的信息断层、部门协作产生的沟通成本、以及缺乏数据分析支撑的决策盲区。当企业规模突
最新文章

16款顶级CRM客户管理系统同台竞技,2026年谁才是真正的王者?

△主流的CRM系统品牌(以下为符合要求的模拟人类写作文章)CRM江湖风云再起:16强争霸下的生存法则2026年的CRM市场早已不是蓝海。当16款顶级系统同时亮剑,这场关乎数据主权、用户体验与商业智慧的较量,正在重塑全球企业服务市场的格局。从硅谷到深圳,从东京到班加罗尔,每家厂商都在用技术重构客户关系的底层逻辑。三足鼎立的全球格局北美阵营依然保持着技术迭代的绝对优势。Salesforce以Einst
最新文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载