企业微信
悟空CRM  >   公司新闻  >  最容易理解的解释Stable Diffusion(稳定扩散)原理的文章之一

最容易理解的解释Stable Diffusion(稳定扩散)原理的文章之一

悟空软件 阅读次数:914 次浏览

前言

在AI盛行的当下,文本生成领域由ChatGPT独领风骚,文生图领域的头部则要数Midjourney和Stable Diffusion了。本文的主旨是向大家介绍Stable Diffusion的原理,后续会推出几期Stable Diffusion相关的干货分享,敬请期待。

在开始正文之前向大家推荐一款笔者觉得整体体验还不错的MJ画图网站,对于机器配置不高又想要尝试AI画图的同学可以自行前往一观,可以扫描下面的AI二维码,也可以查看知识库。知识库链接为:

https://xab7u5dx7i4.feishu.cn/docx/H7DqduzhkojzEXxfNFWcSVH4nzf

可以扫描上面的AI二维码进入,绘图界面如下:

Stable Diffusion(稳定扩散)的原理解释

稳定扩散如何工作?解释文本到图像生成背后的技术。

(用户定义文本提示用于文本到图像合成)

大型文本到图像模型在实现高质量的图像合成方面取得了显著成功。扩散模型可应用于文本到图像生成任务,以实现最先进的图像生成结果。稳定扩散模型在图像生成方面取得了最先进的结果。稳定扩散是基于一种特殊的扩散模型,被称为潜在扩散模型,该模型在《使用潜在扩散模型进行高分辨率图像合成》(https://arxiv.org/abs/2112.10752)中提出并由来自[CompVis](https://github.com/CompVis)、[LMU](https://ommer-lab.com/)和[RunwayML](https://runwayml.com/)的研究人员和工程师创建。该模型最初是在[LAION-5B](https://laion.ai/blog/laion-5b/)数据库的512x512图像子集上进行训练的。这一点尤其可以通过使用预训练语言模型如CLIP将文本输入编码成潜在向量来实现。扩散模型可以通过从文字生成图像数据来实现最先进的结果。但在生成高分辨率图像时,去噪的过程非常缓慢并且消耗大量内存。因此,对于训练这些模型并且在推断中使用它们来说具有挑战性。在这方面,通过将扩散过程应用于较低维度的“潜在”空间,而不是使用实际的像素空间,潜在扩散可以减少内存和计算时间。在潜在扩散中,模型被训练以生成图像的潜在(压缩)表示。

扩散模型的训练 稳定扩散是一个在数十亿张图片上训练得到的大型文本到图像扩散模型。图像扩散模型学习去噪生成输出图片。稳定扩散使用从训练数据编码而来的潜在图像作为输入。此外,给定一个初始图像zo,扩散算法逐渐向图像添加噪声并生成带有噪声的图片zt,t表示添加噪声的次数。当t足够大时,图片逼近纯噪声。给定一组输入,如时间步长t、文本提示和图像扩散算法,学习网络来预测添加到带噪声图像zt的噪声。潜在扩散主要由三个主要组件组成:

1.自编码器(VAE)。2.U-Net。3.文本编码器,例如CLIP的文本编码器。

1. 自编码器(VAE)

VAE模型由编码器和解码器两个部分组成。在潜在扩散训练过程中,编码器将512的图像转换为大小为64的低维潜在图像表示,用于正向扩散过程。我们将这些编码版本的图像称为潜在变量。在训练的每个步骤中,我们对这些潜在变量应用越来越多的噪声。这些编码的潜在图像表示作为输入传递给U-Net模型。在这里,我们将一个形状为(3, 512, 512)的图像转化为一个形状为(4, 64, 64)的潜在因子,这样可以节省48倍的内存。与像素空间扩散模型相比,这样可以降低内存和计算需求。因此,在16GB Colab GPU上,我们能够非常快速地生成512 × 512的图像。解码器将潜在因子重新转换为图像。我们使用VAE解码器将逆扩散过程生成的去噪潜在因子转化为图像。在推断过程中,我们只需要使用VAE解码器将去噪图像转化为实际图像。

2. UNet

U-Net用于预测去噪后的图像表示,输入为有噪声的潜在向量。UNet的输出是潜在向量中的噪声。通过将噪声从有噪声的潜在向量中减去,我们能够得到实际的潜在向量。输入噪声潜变量(x)并预测噪声的Unet。我们使用一个条件模型,该模型还需要输入时间步长(t)和文本嵌入作为指导。

因此,该模型如下所示:

该模型本质上是一个具有编码器(12个块)、中间块和跳过连接解码器(12个块)的UNet。在这25个块中,有8个块是下采样或上采样卷积层,而17个块是主要块,每个块都包含四个ResNet层和两个视觉Transformer(ViTs)。在这里,编码器将图像表示压缩为较低分辨率的图像表示,而解码器将较低分辨率的图像表示解码回原始的高分辨率图像表示,该图像表示应该更少带有噪音。

3. 文本编码器 文本编码器将输入提示转换为嵌入空间,作为输入传递给U-Net。这作为对噪声潜变量的指导,当我们训练U-Net进行去噪处理时。文本编码器通常是一个简单的基于变换器的编码器,将一系列输入标记映射到一系列潜在文本嵌入。稳定扩散不会训练新的文本编码器,而是使用已经训练好的文本编码器CLIP。文本编码器创建与输入文本相对应的嵌入。

分词

输出嵌入输出嵌入

 

(稳定扩散推理过程)

调度器

除了以上三种之外,还有一个调度器,用于向图像添加噪声,然后使用模型预测噪声。

from diffusers import LMSDiscreteScheduler scheduler = LMSDiscreteScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000)

 上述设置了一个用于训练模型的调度程序。如果我们想为较少的步骤设置调度程序,我们可以按照以下方式设置调度程序:

设置采样步骤的数量:

scheduler.set_timesteps(15)

类似稳定扩散的潜在扩散模型可以实现各种创造性的应用,例如:

1.文本到图像生成2.图像到图像生成 - 根据一个起点生成或修改新图像3.图像放大 - 将图像放大为更大的图像4.图像修复 - 通过遮挡图像的特定区域并根据提供的提示生成该区域的新细节来修改图像。

潜在扩散模型还降低了训练和推理的成本,有潜力将高分辨率图像合成民主化到大众中。在我的下一个博客[1]中,我将讨论文本反转,这是一种调整稳定扩散以学习新概念或任务的技术。

参考:

1.Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). 高分辨率图像合成与潜在扩散模型。在IEEE/CVF计算机视觉与模式识别会议论文集 (pp. 10684-10695)。2.Zhang, L., & Agrawala, M. (2023). 在文本到图像扩散模型中添加条件控制。arXiv预印本 arXiv:2302.05543。3.扩散器[2]。

 

悟空CRM产品更多介绍:www.5kcrm.com

相关内容

什么是CRM系统平台?基本概念、功能、使用方法、价格、价值与部署流程

 引言嘿,大家好!今天咱们聊聊一个在现代商业环境中超级重要的工具——CRM系统平台。说白了啊,这个东西就是帮公司更好地了解和处理跟客户的各种互动,从而提高销售效率、提升服务质量的一种神器。著名的CRM系统平台为什么我们要谈论它呢?那可太有道理啦!在这个竞争激烈的时代,企业要想脱颖而出,光靠产品或服务本身是不够的,还得懂得如何用心经营与客户的每一段关系。而CRM就像是企业的私人助手一样,在
相关文章

销售CRM管理系统如何提升团队执行力?

嘿,大家好!今天咱们来聊聊一个特别实用的话题——销售CRM管理系统怎么帮助提升团队的执行力。说到这个,我得先提一提悟空CRM,这可是个挺不错的工具,用起来方便又高效,很多企业都靠它解决了不少头疼的问题呢。首先,咱们得明白一件事,就是现在的市场竞争有多激烈啊。每个公司都在想方设法提高效率、增强竞争力,而销售团队作为直接面对客户的前线部队,他们的表现直接影响着公司的业绩。这时候,一个好的CRM系统就显
相关文章

如何选择适合的CRM客户管理系统?

开始之前,咱们先聊聊CRM嗨,大家好!今天想跟你们聊聊一个在商业世界里越来越火的话题——CRM客户管理系统。你可能已经听说过这个词了,但还不太清楚它具体是干嘛的。简单来说,CRM就是帮助企业更好地管理与客户之间的关系的一种工具。听起来挺专业的吧?其实用起来还挺方便的!选择CRM时要考虑什么?那么问题来了,市面上这么多CRM系统,到底哪个比较好呢?这得看你最关心哪些方面了。首先,得看这个系统是否容易
相关文章

CRM系统的核心价值是什么?如何提升企业效率?

大家好,今天咱们聊聊一个在企业管理中越来越重要的工具——CRM系统。如果你是一个企业管理者,或者正在考虑如何优化团队效率,那你一定听说过“客户关系管理”这个词。但很多人可能还停留在“听起来很高级”的阶段,不知道它到底能带来什么价值。其实,CRM系统的核心价值并不复杂,它就像是一个“客户管家”,帮你把客户信息、销售流程、团队协作全都管起来,让企业运转更高效。而说到具体怎么选,我必须推荐一下悟空CRM
相关文章

一篇文章告诉你哪家CRM客户关系管理系统开发定制公司最好?建议收藏

一篇文章告诉你哪家CRM客户关系管理系统开发定制公司最好?在当今这个竞争激烈的商业环境中,选择一个合适的CRM(客户关系管理)系统对企业的成长至关重要。一个好的CRM不仅能帮助你更好地了解和管理你的客户,还能提高工作效率、优化业务流程,并最终推动业绩增长。那么,在众多的选择中,哪一家CRM客户关系管理系统开发定制公司是最好的呢?为什么越来越多的企业选择了悟空CRM作为他们的首选解决方案呢?一、为什
相关文章

企业客户管理系统软件:商业原理、功能与优势介绍

企业客户管理系统软件:商业原理、功能与优势介绍大家好!今天咱们来聊聊一个对现代企业发展至关重要的工具——企业客户管理系统(CRM)。在商海沉浮中,谁能更好地理解并满足客户需求,谁就能走得更远。那么,CRM系统是如何帮助我们做到这一点的呢?让我们一起来看看。商业原理:连接你我他首先得说说CRM背后的商业逻辑。简单来说,它就是一个桥梁,让企业和客户之间建立了更加紧密的联系。通过收集和分析客户的各种信息
相关文章

什么是CRM系统?它有哪些优势?

《什么是CRM系统?它有哪些优势?》嘿!各位小伙伴们大家好!在商业世界里,“客户就是上帝”,这句话你们一定不陌生吧。今天呢,咱们就来聊聊企业用来“伺候”这些“上帝”的利器——客户关系管理系统(Customer Relationship Management System),简称CRM。一、什么是CRM?在开始之前,我们得先弄清楚啥是CRM系统。其实呢,这玩意儿就像是个超级贴心的小秘书,帮着公司管理
相关文章

使用CRM系统时可能会遇到的问题及解答

使用CRM系统时可能会遇到的问题及解答嘿!大家好,我是你们的老朋友——“智慧助手”。在数字化转型的大潮下,客户关系管理系统(CRM)成为了众多企业的宠儿,它帮助企业更好地管理与客户的每一次互动,从而提高销售业绩和顾客满意度。但是,在实际操作中,难免会碰到一些棘手问题,今天咱们就来聊聊那些关于CRM系统的烦恼以及解决办法。一、如何选择合适的CRM系统?选择一款适合自己的CRM产品就像找对象一样,不能
相关文章

企业销售人员如何通过线索营销获取潜在客户?

通过线索营销获取潜在客户的策略与技巧引言:解锁销售新境界的关键钥匙——线索营销在商业竞争日益激烈的今天,如何精准地定位并吸引潜在客户成为了每个企业成功路上不可或缺的一环。线索营销,作为这一过程中的核心工具,不仅能够帮助企业识别目标市场,还能有效提高转化率和客户满意度。本文将深入探讨线索营销的基本概念、实施步骤以及关键技巧,助您解锁销售的新境界。1. 线索营销:定义与重要性△悟空CRM产品截图定义:
相关文章

推荐几款好用的客户管理软件

推荐几款好用的客户管理软件在这个数字化的时代里,选择一款合适的客户关系管理系统(CRM)对于企业来说至关重要。它不仅能够帮助你更好地了解你的客户,还能提升工作效率和业务成果。今天,我们就来聊聊几款市场上评价较高的CRM系统,并特别谈谈为什么“悟空CRM”值得被关注。悟空CRM:移动优先的设计理念首先介绍的是悟空CRM。作为国内知名的SaaS CRM厂商之一,销售易最突出的特点就是其出色的移动端体验
相关文章
最新文章

什么是CRM系统平台?基本概念、功能、使用方法、价格、价值与部署流程

 引言嘿,大家好!今天咱们聊聊一个在现代商业环境中超级重要的工具——CRM系统平台。说白了啊,这个东西就是帮公司更好地了解和处理跟客户的各种互动,从而提高销售效率、提升服务质量的一种神器。著名的CRM系统平台为什么我们要谈论它呢?那可太有道理啦!在这个竞争激烈的时代,企业要想脱颖而出,光靠产品或服务本身是不够的,还得懂得如何用心经营与客户的每一段关系。而CRM就像是企业的私人助手一样,在
最新文章

销售CRM管理系统如何提升团队执行力?

嘿,大家好!今天咱们来聊聊一个特别实用的话题——销售CRM管理系统怎么帮助提升团队的执行力。说到这个,我得先提一提悟空CRM,这可是个挺不错的工具,用起来方便又高效,很多企业都靠它解决了不少头疼的问题呢。首先,咱们得明白一件事,就是现在的市场竞争有多激烈啊。每个公司都在想方设法提高效率、增强竞争力,而销售团队作为直接面对客户的前线部队,他们的表现直接影响着公司的业绩。这时候,一个好的CRM系统就显
最新文章

如何选择适合的CRM客户管理系统?

开始之前,咱们先聊聊CRM嗨,大家好!今天想跟你们聊聊一个在商业世界里越来越火的话题——CRM客户管理系统。你可能已经听说过这个词了,但还不太清楚它具体是干嘛的。简单来说,CRM就是帮助企业更好地管理与客户之间的关系的一种工具。听起来挺专业的吧?其实用起来还挺方便的!选择CRM时要考虑什么?那么问题来了,市面上这么多CRM系统,到底哪个比较好呢?这得看你最关心哪些方面了。首先,得看这个系统是否容易
最新文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载