Stable Diffusion和DALL·E等扩散模型在图像、音频和视频生成方面表现出优异的能力。但是扩散模型是以牺牲GPU性能作为代价的,它的迭代采样过程需要10到2000倍于传统单步(one-step)生成模型,需要藉由对抗网络(GAN)等的计算量进行对抗训练,以逐步消除噪声并产成高质量的输出。而Consistency Models是可以支持快速 one-step 生成,同时仍然允许少量步数(few-step)采样,以权衡计算量和采样质量。另外Consistency Models还支持零样本(zero-shot)的数据编辑,无需进行对抗训练就可以执行例如图像修复、着色和超分辨率等任务。Consistency Models 可以用蒸馏预训练扩散模型的方式进行训练,也可以作为独立的生成模型进行训练。
接下来将引述OpenAI的研究团队的论文,详细阐述一下Consistency Models是如何做到一秒18张出图的。
正文开始
OpenAI的研究团队的新论文“Consistency Models”中介绍了一种非常高效的生成模型,即Consistency Models,它可以在没有对抗训练的情况下实现单步(single-step或one-step)样本生成模型。
Consistency Models 作为一种生成模型,核心设计思想是支持 single-step 生成,同时仍然允许迭代生成,支持零样本(zero-shot)数据编辑,权衡了样本质量与计算量。
首先 Consistency Models 建立在连续时间扩散模型中的概率流 (PF) 常微分方程 (ODE) 之上。如下图 1 所示,给定一个将数据平滑地转换为噪声的 PF ODE,Consistency Models 可以学习将任意时间步(time step)的任意点映射成轨迹起点,并进行生成建模。因此,Consistency Models 有一个显著的特性是自洽性(self-consistency):同一轨迹上的点会映射到相同的初始点。这也是模型被命名为 Consistency Models(一致性模型)的原因。
研究人员介绍了 Consistency Models 两种基于自洽性的训练方法。第一种训练方法是评估转换随机噪声向量(ODE 轨迹的端点,例如图 1 中的 x_T)来生成数据样本(ODE 轨迹的初始点,例如图 1 中的 x_0),并将扩散模型进行有效提取迭代优化,从而提高了样本质量,以更多计算为代价执行零样本数据编辑操作。
第二种方法则是独立进行训练,不依赖于预先训练的扩散模型,从而建立Consistency Models作为独立的生成模型系列的基石。
需要注意的地方是,这两种训练方法都不需要对抗训练,并且都允许 Consistency Models 灵活采用神经网络架构。
实证研究
在实证研究中,研究人员将Consistency Models应用于实际图像数据集,包括CIFAR-10、ImageNet 64×64、LSUN Bedroom 256×256和LSUN Cat 256×256。实验表明,通过Consistency Models的提取,CIFAR-10的单步生成达到了3.55的最新FID分数,ImageNet 64×64的单步生成达到了6.20的FID分数,甚至单独的Consistency Models也比现有的单步非逆生成模型更加优秀。
论文证明了所提出的Consistency Models可以在进行单步生成的同时实现更加高效的采样。但由于这项研究仍处于早期阶段,因此无法直接与扩散模型进行比较。期待后续能有重大的进展吧!
您也可以联系文章作者本人进行修改,若内容侵权或非法,可以联系我们进行处理。
任何个人或组织,转载、发布本站文章到任何网站、书籍等各类媒体平台,必须在文末署名文章出处并链接到本站相应文章的URL地址。
本站文章如转载自其他网站,会在文末署名原文出处及原文URL的跳转链接,如有遗漏,烦请告知修正。
如若本站文章侵犯了原著者的合法权益,亦可联系我们进行处理。
暂无评论内容