企业微信
悟空CRM  >   公司新闻  >  最容易理解的解释Stable Diffusion(稳定扩散)原理的文章之一

最容易理解的解释Stable Diffusion(稳定扩散)原理的文章之一

悟空软件 阅读次数:495 次浏览

前言

在AI盛行的当下,文本生成领域由ChatGPT独领风骚,文生图领域的头部则要数Midjourney和Stable Diffusion了。本文的主旨是向大家介绍Stable Diffusion的原理,后续会推出几期Stable Diffusion相关的干货分享,敬请期待。

在开始正文之前向大家推荐一款笔者觉得整体体验还不错的MJ画图网站,对于机器配置不高又想要尝试AI画图的同学可以自行前往一观,可以扫描下面的AI二维码,也可以查看知识库。知识库链接为:

https://xab7u5dx7i4.feishu.cn/docx/H7DqduzhkojzEXxfNFWcSVH4nzf

可以扫描上面的AI二维码进入,绘图界面如下:

Stable Diffusion(稳定扩散)的原理解释

稳定扩散如何工作?解释文本到图像生成背后的技术。

(用户定义文本提示用于文本到图像合成)

大型文本到图像模型在实现高质量的图像合成方面取得了显著成功。扩散模型可应用于文本到图像生成任务,以实现最先进的图像生成结果。稳定扩散模型在图像生成方面取得了最先进的结果。稳定扩散是基于一种特殊的扩散模型,被称为潜在扩散模型,该模型在《使用潜在扩散模型进行高分辨率图像合成》(https://arxiv.org/abs/2112.10752)中提出并由来自[CompVis](https://github.com/CompVis)、[LMU](https://ommer-lab.com/)和[RunwayML](https://runwayml.com/)的研究人员和工程师创建。该模型最初是在[LAION-5B](https://laion.ai/blog/laion-5b/)数据库的512x512图像子集上进行训练的。这一点尤其可以通过使用预训练语言模型如CLIP将文本输入编码成潜在向量来实现。扩散模型可以通过从文字生成图像数据来实现最先进的结果。但在生成高分辨率图像时,去噪的过程非常缓慢并且消耗大量内存。因此,对于训练这些模型并且在推断中使用它们来说具有挑战性。在这方面,通过将扩散过程应用于较低维度的“潜在”空间,而不是使用实际的像素空间,潜在扩散可以减少内存和计算时间。在潜在扩散中,模型被训练以生成图像的潜在(压缩)表示。

扩散模型的训练 稳定扩散是一个在数十亿张图片上训练得到的大型文本到图像扩散模型。图像扩散模型学习去噪生成输出图片。稳定扩散使用从训练数据编码而来的潜在图像作为输入。此外,给定一个初始图像zo,扩散算法逐渐向图像添加噪声并生成带有噪声的图片zt,t表示添加噪声的次数。当t足够大时,图片逼近纯噪声。给定一组输入,如时间步长t、文本提示和图像扩散算法,学习网络来预测添加到带噪声图像zt的噪声。潜在扩散主要由三个主要组件组成:

1.自编码器(VAE)。2.U-Net。3.文本编码器,例如CLIP的文本编码器。

1. 自编码器(VAE)

VAE模型由编码器和解码器两个部分组成。在潜在扩散训练过程中,编码器将512的图像转换为大小为64的低维潜在图像表示,用于正向扩散过程。我们将这些编码版本的图像称为潜在变量。在训练的每个步骤中,我们对这些潜在变量应用越来越多的噪声。这些编码的潜在图像表示作为输入传递给U-Net模型。在这里,我们将一个形状为(3, 512, 512)的图像转化为一个形状为(4, 64, 64)的潜在因子,这样可以节省48倍的内存。与像素空间扩散模型相比,这样可以降低内存和计算需求。因此,在16GB Colab GPU上,我们能够非常快速地生成512 × 512的图像。解码器将潜在因子重新转换为图像。我们使用VAE解码器将逆扩散过程生成的去噪潜在因子转化为图像。在推断过程中,我们只需要使用VAE解码器将去噪图像转化为实际图像。

2. UNet

U-Net用于预测去噪后的图像表示,输入为有噪声的潜在向量。UNet的输出是潜在向量中的噪声。通过将噪声从有噪声的潜在向量中减去,我们能够得到实际的潜在向量。输入噪声潜变量(x)并预测噪声的Unet。我们使用一个条件模型,该模型还需要输入时间步长(t)和文本嵌入作为指导。

因此,该模型如下所示:

该模型本质上是一个具有编码器(12个块)、中间块和跳过连接解码器(12个块)的UNet。在这25个块中,有8个块是下采样或上采样卷积层,而17个块是主要块,每个块都包含四个ResNet层和两个视觉Transformer(ViTs)。在这里,编码器将图像表示压缩为较低分辨率的图像表示,而解码器将较低分辨率的图像表示解码回原始的高分辨率图像表示,该图像表示应该更少带有噪音。

3. 文本编码器 文本编码器将输入提示转换为嵌入空间,作为输入传递给U-Net。这作为对噪声潜变量的指导,当我们训练U-Net进行去噪处理时。文本编码器通常是一个简单的基于变换器的编码器,将一系列输入标记映射到一系列潜在文本嵌入。稳定扩散不会训练新的文本编码器,而是使用已经训练好的文本编码器CLIP。文本编码器创建与输入文本相对应的嵌入。

分词

输出嵌入输出嵌入

 

(稳定扩散推理过程)

调度器

除了以上三种之外,还有一个调度器,用于向图像添加噪声,然后使用模型预测噪声。

from diffusers import LMSDiscreteScheduler scheduler = LMSDiscreteScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000)

 上述设置了一个用于训练模型的调度程序。如果我们想为较少的步骤设置调度程序,我们可以按照以下方式设置调度程序:

设置采样步骤的数量:

scheduler.set_timesteps(15)

类似稳定扩散的潜在扩散模型可以实现各种创造性的应用,例如:

1.文本到图像生成2.图像到图像生成 - 根据一个起点生成或修改新图像3.图像放大 - 将图像放大为更大的图像4.图像修复 - 通过遮挡图像的特定区域并根据提供的提示生成该区域的新细节来修改图像。

潜在扩散模型还降低了训练和推理的成本,有潜力将高分辨率图像合成民主化到大众中。在我的下一个博客[1]中,我将讨论文本反转,这是一种调整稳定扩散以学习新概念或任务的技术。

参考:

1.Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). 高分辨率图像合成与潜在扩散模型。在IEEE/CVF计算机视觉与模式识别会议论文集 (pp. 10684-10695)。2.Zhang, L., & Agrawala, M. (2023). 在文本到图像扩散模型中添加条件控制。arXiv预印本 arXiv:2302.05543。3.扩散器[2]。

 

悟空CRM产品更多介绍:www.5kcrm.com

相关内容

小企业如何利用CRM与大企业竞争

小企业如何利用CRM与大企业竞争一、前言在这个瞬息万变的商业世界里,小企业和大企业在市场竞争中始终处于不对等的位置。但话说回来,只要方法得当,小企业也能在市场中占有一席之地。今天我们就来聊聊,小企业怎样借助客户关系管理(Customer Relationship Management, CRM)系统,实现逆袭。二、知己知彼:明确自身优势和劣势△悟空CRM产品截图对于小企业来说,最大的优势可能就是灵
相关文章

B2B企业需要怎样的crm系统?

B2B企业需要怎样的CRM系统? 嗨喽!大伙儿好~ 今天咱们来聊聊一个对做生意至关重要的话题:B2B企业到底需要什么样的客户关系管理系统(CRM)。对于那些天天忙着和客户打交道的企业来说,选对一款合适的CRM就像是找到了一把打开成功大门的钥匙一样重要! 一、高效管理客户信息 首先,让我们从最基本的需求说起——高效地管理客户信息。在B2B业务中,你可能会遇到成千上万的企业客户,每个客户背
相关文章

B2B的crm跟B2C的crm有哪些区别?

B2B的CRM跟B2C的CRM有哪些区别? 嘿!聊一聊客户关系管理的不同之处 嘿朋友们,今天咱们来聊聊这个商业世界里挺有意思的一个话题——那就是企业对企业(B2B)和企业对消费者(B2C)中的客户关系管理系统(CRM)的区别。 从规模上看:B2B vs B2C 首先,咱们得说说这规模上的差异。在B2B的世界里,你打交道的是其他公司、组织或者机构,而这些客户通常不会那么“随性”。他们可
相关文章

AI、BI、DI为智慧crm给客户带来什么新体验?

AI、BI、DI 为智慧CRM给客户带来的新体验 前言:智慧时代的敲门砖 嗨,大家好!今天咱们聊聊一个热门话题——智慧CRM如何通过AI(人工智能)、BI(商业智能)和DI(数据洞察)这三位好朋友,给我们的生活带来了哪些翻天覆地的变化。准备好了吗?让我们一起探索这个充满无限可能的世界吧! AI:让沟通更贴心 首先出场的是我们的好朋友——AI。想象一下,当你在使用某个产品或服务时遇到问
相关文章

2024年有哪些免费好用的crm?为何选悟空云?

2024年有哪些免费又好用的CRM? 嘿!大家好! 今天咱们来聊聊一个对于企业来说特别重要的事情——客户关系管理(CRM)。随着科技的发展和市场的变化,现在市面上涌现出了不少既免费又好用的CRM系统。那在2024年的当下,到底有哪些值得推荐的选择呢?为什么那么多人都选择了“悟空云”呢?别急,咱们慢慢道来。 免费好用的CRM推荐 1. Zoho CRM - 首先得说说这个老牌选
相关文章

5步成为高效回访专家,细致记录动态,转化销售机会

嘿,小伙伴们!是不是有时候觉得客户回访这事儿挺让人头疼?别担心,今天就给大家分享一套简单实用的五步法,让你轻松变身高效回访专家! 一、准备充分:知己知彼百战不殆 首先呢,咱们得做好准备工作。了解客户的基本信息是必须的,比如他们的购买历史、兴趣爱好等。这样不仅能拉近彼此的距离,还能让对话更加顺畅自然。想象一下,在跟老朋友聊天之前,你总得先想想上次聊了啥吧? 二、目标明确:有的放矢更有效率
相关文章

2024年了, crm顾问和ERP顾问,哪个方向更加有前景?

2024年了,CRM顾问和ERP顾问,哪个方向更加有前景? 嘿!聊聊未来的路 嗨,大家好!今天咱们来聊一个挺有意思的话题:到了2024年,对于想要在IT行业里闯出一番天地的朋友来说,是投身CRM(客户关系管理)顾问呢,还是选择ERP(企业资源规划)顾问作为职业发展道路更靠谱?别急着下结论,先来看看这两条路上都有啥风景吧。 CRM顾问:贴近用户的心跳 首先说说CRM顾问这条路。随着数字
相关文章

2024年有什么好用crm管理系统吗?为何选悟空云?

2024年有什么好用CRM管理系统吗? 嘿!朋友们,大家好呀!今天咱们聊聊2024年的CRM管理系统的那些事儿。在这个信息化飞速发展的时代,一个好的CRM系统简直是企业的好帮手嘛! CRM市场的新趋势 首先得说说现在的CRM市场吧,那真是百花齐放、百家争鸣啊!从传统的销售工具到智能化的服务平台,各种产品层出不穷。不过,在这众多选择中,有一个名字特别亮眼——那就是“悟空云”。 悟空云:
相关文章

2024中国最具影响力的crm品牌软件有哪些?为何选悟空云?

2024年中国最具影响力的CRM品牌软件有哪些? 前言:数字化转型的时代浪潮 嗨,大家好!在数字化转型的大潮中,客户关系管理(CRM)系统已经成为了企业不可或缺的一部分。它不仅能够帮助企业更好地理解客户需求、提升服务质量,还能有效提高销售效率和市场竞争力。那么,在2024年的今天,中国的市场上究竟有哪些颇具影响力的CRM品牌呢?接下来,就让我们一起来看看吧! 一、国内主流CRM品牌概览
相关文章

CRM在商业中的使用有哪些?

CRM在商业中的使用有哪些?CRM在商业当中使用得比较广泛,涵盖的领域也比较多,所以,很多人都希望可以知道它在商业当中具体被用在哪些方面,那么,CRM在商业中的使用具体体现在哪些方面呢?接下来和悟空CRM一起来看看答案。1、销售管理。CRM可以被用在收集、分类、评分和分配销售线索,帮助销售人员优先关注最有可能成为成交的潜在客户,同时,它的销售流程也可以实现自动化,还能够预测和进行绩效管理。2、市场
相关文章
最新文章

小企业如何利用CRM与大企业竞争

小企业如何利用CRM与大企业竞争一、前言在这个瞬息万变的商业世界里,小企业和大企业在市场竞争中始终处于不对等的位置。但话说回来,只要方法得当,小企业也能在市场中占有一席之地。今天我们就来聊聊,小企业怎样借助客户关系管理(Customer Relationship Management, CRM)系统,实现逆袭。二、知己知彼:明确自身优势和劣势△悟空CRM产品截图对于小企业来说,最大的优势可能就是灵
最新文章

B2B的crm跟B2C的crm有哪些区别?

B2B的CRM跟B2C的CRM有哪些区别? 嘿!聊一聊客户关系管理的不同之处 嘿朋友们,今天咱们来聊聊这个商业世界里挺有意思的一个话题——那就是企业对企业(B2B)和企业对消费者(B2C)中的客户关系管理系统(CRM)的区别。 从规模上看:B2B vs B2C 首先,咱们得说说这规模上的差异。在B2B的世界里,你打交道的是其他公司、组织或者机构,而这些客户通常不会那么“随性”。他们可
最新文章

B2B企业需要怎样的crm系统?

B2B企业需要怎样的CRM系统? 嗨喽!大伙儿好~ 今天咱们来聊聊一个对做生意至关重要的话题:B2B企业到底需要什么样的客户关系管理系统(CRM)。对于那些天天忙着和客户打交道的企业来说,选对一款合适的CRM就像是找到了一把打开成功大门的钥匙一样重要! 一、高效管理客户信息 首先,让我们从最基本的需求说起——高效地管理客户信息。在B2B业务中,你可能会遇到成千上万的企业客户,每个客户背
最新文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载