企业微信
悟空CRM  >   公司新闻  >  最容易理解的解释Stable Diffusion(稳定扩散)原理的文章之一

最容易理解的解释Stable Diffusion(稳定扩散)原理的文章之一

悟空软件 阅读次数:358 次浏览

前言

在AI盛行的当下,文本生成领域由ChatGPT独领风骚,文生图领域的头部则要数Midjourney和Stable Diffusion了。本文的主旨是向大家介绍Stable Diffusion的原理,后续会推出几期Stable Diffusion相关的干货分享,敬请期待。

在开始正文之前向大家推荐一款笔者觉得整体体验还不错的MJ画图网站,对于机器配置不高又想要尝试AI画图的同学可以自行前往一观,可以扫描下面的AI二维码,也可以查看知识库。知识库链接为:

https://xab7u5dx7i4.feishu.cn/docx/H7DqduzhkojzEXxfNFWcSVH4nzf

可以扫描上面的AI二维码进入,绘图界面如下:

Stable Diffusion(稳定扩散)的原理解释

稳定扩散如何工作?解释文本到图像生成背后的技术。

(用户定义文本提示用于文本到图像合成)

大型文本到图像模型在实现高质量的图像合成方面取得了显著成功。扩散模型可应用于文本到图像生成任务,以实现最先进的图像生成结果。稳定扩散模型在图像生成方面取得了最先进的结果。稳定扩散是基于一种特殊的扩散模型,被称为潜在扩散模型,该模型在《使用潜在扩散模型进行高分辨率图像合成》(https://arxiv.org/abs/2112.10752)中提出并由来自[CompVis](https://github.com/CompVis)、[LMU](https://ommer-lab.com/)和[RunwayML](https://runwayml.com/)的研究人员和工程师创建。该模型最初是在[LAION-5B](https://laion.ai/blog/laion-5b/)数据库的512x512图像子集上进行训练的。这一点尤其可以通过使用预训练语言模型如CLIP将文本输入编码成潜在向量来实现。扩散模型可以通过从文字生成图像数据来实现最先进的结果。但在生成高分辨率图像时,去噪的过程非常缓慢并且消耗大量内存。因此,对于训练这些模型并且在推断中使用它们来说具有挑战性。在这方面,通过将扩散过程应用于较低维度的“潜在”空间,而不是使用实际的像素空间,潜在扩散可以减少内存和计算时间。在潜在扩散中,模型被训练以生成图像的潜在(压缩)表示。

扩散模型的训练 稳定扩散是一个在数十亿张图片上训练得到的大型文本到图像扩散模型。图像扩散模型学习去噪生成输出图片。稳定扩散使用从训练数据编码而来的潜在图像作为输入。此外,给定一个初始图像zo,扩散算法逐渐向图像添加噪声并生成带有噪声的图片zt,t表示添加噪声的次数。当t足够大时,图片逼近纯噪声。给定一组输入,如时间步长t、文本提示和图像扩散算法,学习网络来预测添加到带噪声图像zt的噪声。潜在扩散主要由三个主要组件组成:

1.自编码器(VAE)。2.U-Net。3.文本编码器,例如CLIP的文本编码器。

1. 自编码器(VAE)

VAE模型由编码器和解码器两个部分组成。在潜在扩散训练过程中,编码器将512的图像转换为大小为64的低维潜在图像表示,用于正向扩散过程。我们将这些编码版本的图像称为潜在变量。在训练的每个步骤中,我们对这些潜在变量应用越来越多的噪声。这些编码的潜在图像表示作为输入传递给U-Net模型。在这里,我们将一个形状为(3, 512, 512)的图像转化为一个形状为(4, 64, 64)的潜在因子,这样可以节省48倍的内存。与像素空间扩散模型相比,这样可以降低内存和计算需求。因此,在16GB Colab GPU上,我们能够非常快速地生成512 × 512的图像。解码器将潜在因子重新转换为图像。我们使用VAE解码器将逆扩散过程生成的去噪潜在因子转化为图像。在推断过程中,我们只需要使用VAE解码器将去噪图像转化为实际图像。

2. UNet

U-Net用于预测去噪后的图像表示,输入为有噪声的潜在向量。UNet的输出是潜在向量中的噪声。通过将噪声从有噪声的潜在向量中减去,我们能够得到实际的潜在向量。输入噪声潜变量(x)并预测噪声的Unet。我们使用一个条件模型,该模型还需要输入时间步长(t)和文本嵌入作为指导。

因此,该模型如下所示:

该模型本质上是一个具有编码器(12个块)、中间块和跳过连接解码器(12个块)的UNet。在这25个块中,有8个块是下采样或上采样卷积层,而17个块是主要块,每个块都包含四个ResNet层和两个视觉Transformer(ViTs)。在这里,编码器将图像表示压缩为较低分辨率的图像表示,而解码器将较低分辨率的图像表示解码回原始的高分辨率图像表示,该图像表示应该更少带有噪音。

3. 文本编码器 文本编码器将输入提示转换为嵌入空间,作为输入传递给U-Net。这作为对噪声潜变量的指导,当我们训练U-Net进行去噪处理时。文本编码器通常是一个简单的基于变换器的编码器,将一系列输入标记映射到一系列潜在文本嵌入。稳定扩散不会训练新的文本编码器,而是使用已经训练好的文本编码器CLIP。文本编码器创建与输入文本相对应的嵌入。

分词

输出嵌入输出嵌入

 

(稳定扩散推理过程)

调度器

除了以上三种之外,还有一个调度器,用于向图像添加噪声,然后使用模型预测噪声。

from diffusers import LMSDiscreteScheduler scheduler = LMSDiscreteScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000)

 上述设置了一个用于训练模型的调度程序。如果我们想为较少的步骤设置调度程序,我们可以按照以下方式设置调度程序:

设置采样步骤的数量:

scheduler.set_timesteps(15)

类似稳定扩散的潜在扩散模型可以实现各种创造性的应用,例如:

1.文本到图像生成2.图像到图像生成 - 根据一个起点生成或修改新图像3.图像放大 - 将图像放大为更大的图像4.图像修复 - 通过遮挡图像的特定区域并根据提供的提示生成该区域的新细节来修改图像。

潜在扩散模型还降低了训练和推理的成本,有潜力将高分辨率图像合成民主化到大众中。在我的下一个博客[1]中,我将讨论文本反转,这是一种调整稳定扩散以学习新概念或任务的技术。

参考:

1.Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). 高分辨率图像合成与潜在扩散模型。在IEEE/CVF计算机视觉与模式识别会议论文集 (pp. 10684-10695)。2.Zhang, L., & Agrawala, M. (2023). 在文本到图像扩散模型中添加条件控制。arXiv预印本 arXiv:2302.05543。3.扩散器[2]。

 

悟空CRM产品更多介绍:www.5kcrm.com

相关内容

CRM价格多少钱?CRM费用如何确定的?

对于很多使用CRM的朋友而言,及时了解它的价格是很有必要的一件事情,有的用户表示:自己不知道CRM价格多少钱,CRM费用是如何确定的?所以,今天悟空crm就针对CRM的价格和定价方法为大家做说明。▎CRM价格多少钱CRM的定价方式比较多样化,而且也比较灵活,有的可能非常便宜几百上千,有的则可能需要几万十几万元,所以,大家要注意了解CRM的价格影响因素。▎CRM费用如何确定的?第一、CRM厂商品牌。
相关文章

CRM的本质是什么?客户关系管理CRM的核心是什么?

CRM作为一个客户关系管理系统,它的相关情况一直备受企业关注,那么,CRM的本质到底是什么呢?客户关系管理CRM的核心是什么?下面就和悟空CRM一起来看看它的本质与核心。▎CRM的本质是什么?客户关系管理CRM的核心是什么?CRM的本质与核心是企业通过以“客户为中心”的商业策略、方法和技术手段等等系统性的管理和优化跟客户之间的交互和关系,让客户的满意度、忠诚度以及生命周期价值得到提升,从而让企业的
相关文章

为什么CRM系统在银行业很重要?银行CRM选择要点

CRM在银行业有着非常重要的影响,因为有了它以后,可以让银行的日常客户关系管理工作变得简单很多。那么,为什么CRM系统在银行业很重要?后文同时介绍了银行CRM选择要点。▎为什么CRM系统在银行业很重要?1、客户数据管理。银行每天都需要处理很多客户信息,CRM可以集中存储和安全管理相关的数据,同时也能够使用CRM系统就有详尽的客户档案,让银行更好了解客户的需求和行为,从而针对性提供个性化的服务和产品
相关文章

CRM包括哪些方面内容?CRM的核心部分内容

CRM也就是客户关系管理,它是一个以客户为核心的商业概念和先进的计算机软件与硬件的结合,本身涵盖了多个方面的功能和内容,那么CRM包括哪些方面内容?下面就是主要包含的核心部分内容有:1、客户信息管理。它能够帮助收集、存储和更新客户的详细信息,也能够创建客户细分、进行客户分类,从而达到实现个性化营销和服务的效果。2、销售自动化。它有销售线索管理、商机管理和销售预测等等功能,可以实现销售自动化管理工作
相关文章

在线免费CRM系统有哪些?推荐瑞星咖啡使用的品牌

在线免费CRM系统具有随时访问、使用成本低的优点,对于初始公司来说是一个不错的选择。那么在线免费CRM系统有哪些?今天同时推荐了瑞星咖啡使用的在线免费CRM系统品牌——悟空CRM。在线免费CRM系统有哪些?1. 悟空 CRM悟空 CRM是中国著名的市场营销和销售软件提供商,其CRM系统被认为是在线免费CRM市场的领导者之一。它提供了一套功能齐全的工具,包括客户资料管理、销售自动化、业务流程管理等。
相关文章

免费CRM系统哪个好用?腾讯、瑞星咖啡使用的品牌

CRM系统是企业的基础办公软件,有提高工作效率,提高客户满意度与忠诚度,提高销售收入,降低企业运营成本的作用。那么免费CRM系统哪个好用?今天介绍的是好用免费的CRM系统,腾讯、瑞星咖啡使用的品牌--悟空CRM。▎1、市场充分的肯定悟空CRM是中国著名CRM品牌,系统累计使用下载量200万+,中国著名的公司腾讯、OPPO、中兴、瑞星咖啡、携程网、央视网、中国重汽集团等都在使用,获得了市场的充分的肯
相关文章

国内最好的CRM软件,瑞星咖啡使用的CRM软件品牌

在选择CRM软件时候,很多人都希望自己可以选择到国内最好的CRM软件,因为他们认为只有这样的软件才能够更好为自己提供CRM管理服务。但是,国内最好的CRM软件是什么呢?瑞星咖啡秉持使用的CRM软件品牌是哪个呢?国内最好的CRM软件是悟空CRM,瑞星咖啡使用的CRM软件品牌也是它,所以,如果希望可以选择到好的CRM系统,可以考虑选择它来满足自己的需求,那么,悟空CRM系统到底有什么好处呢?1、它得到
相关文章

CRM工具有哪些?CRM工具的作用与好处

CRM工具对于公司的销售是非常重要的,那么目前市场上主要的CRM工具有哪些?CRM工具的作用与好处有哪些?下面就是目前市场上最主要的三款CRM工具,以及CRM工具的作用与好处介绍。▎CRM工具有哪些?1、悟空CRM悟空CRM是一款著名的CRM工具,中国著名的公司腾讯、蜜雪冰城、携程网、央视网、OPPO、中兴等都在使用,拥有十一年专业开发CRM工具系统的行业经验。它有CRM系统、人力资源系统、财务系
相关文章

CRM销售系统开发公司选择哪家?推荐OPPO使用的厂商

CRM销售系统是企业基础办公软件,对于企业核心竞争力有着不可替代的重要作用,同时可以提高工作效率,提高企业运营效率。那么CRM销售系统开发公司选择哪家?推荐OPPO使用的CRM销售系统开发厂商。▎CRM销售系统开发公司选择哪家?CRM销售系统开发公司要选择具有专业开发经验的公司,如开发CRM系统历史比较久,持续的迭代更新,有大品牌选择的CRM销售系统开发公司,以及拥有专利技术和稳定的售后服务团队,
相关文章

CRM技术最新的有哪些?CRM技术的要点有哪些?

了解最新的CRM技术可以让企业选择到更适合自己企业需求的客户关系管理系统,所以,很多人都希望可以对最新的相关技术情况做了解。那么,CRM技术最新的有哪些呢?CRM技术的要点有哪些?下面一起来看看答案。▎CRM技术最新的有哪些?1、人工智能和机器学习。它可以利用人工智能技术对客户进行分析和预测,也能够把智能助手和聊天机器人应用在客户服务和销售支持当中,从而让响应速度和用户体验更好,它也有自动化的客户
相关文章
最新文章

CRM价格多少钱?CRM费用如何确定的?

对于很多使用CRM的朋友而言,及时了解它的价格是很有必要的一件事情,有的用户表示:自己不知道CRM价格多少钱,CRM费用是如何确定的?所以,今天悟空crm就针对CRM的价格和定价方法为大家做说明。▎CRM价格多少钱CRM的定价方式比较多样化,而且也比较灵活,有的可能非常便宜几百上千,有的则可能需要几万十几万元,所以,大家要注意了解CRM的价格影响因素。▎CRM费用如何确定的?第一、CRM厂商品牌。
最新文章

CRM的本质是什么?客户关系管理CRM的核心是什么?

CRM作为一个客户关系管理系统,它的相关情况一直备受企业关注,那么,CRM的本质到底是什么呢?客户关系管理CRM的核心是什么?下面就和悟空CRM一起来看看它的本质与核心。▎CRM的本质是什么?客户关系管理CRM的核心是什么?CRM的本质与核心是企业通过以“客户为中心”的商业策略、方法和技术手段等等系统性的管理和优化跟客户之间的交互和关系,让客户的满意度、忠诚度以及生命周期价值得到提升,从而让企业的
最新文章

为什么CRM系统在银行业很重要?银行CRM选择要点

CRM在银行业有着非常重要的影响,因为有了它以后,可以让银行的日常客户关系管理工作变得简单很多。那么,为什么CRM系统在银行业很重要?后文同时介绍了银行CRM选择要点。▎为什么CRM系统在银行业很重要?1、客户数据管理。银行每天都需要处理很多客户信息,CRM可以集中存储和安全管理相关的数据,同时也能够使用CRM系统就有详尽的客户档案,让银行更好了解客户的需求和行为,从而针对性提供个性化的服务和产品
最新文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载