基于扩散的图像合成——SD、Imagen、GLIDE 和 DALL·E2

如题所述

第1个回答  2024-10-08
在2022年,AI生成内容(AIGC)领域经历了突破性发展,尤其在AI绘图(图像生成)方面,从广为传播的AI绘画到令人震惊的ChatGPT,这些技术成为全球关注的焦点。以图像生成为例,Runway ML的Stable Diffusion(SD)、Google的Imagen、OpenAI的GLIDE与DALL·E2等文生图扩散模型,极大地加速了AIGC在计算机视觉领域的进步。遗憾的是,Stable Diffusion是唯一开源的模型,其通过大规模文本图像数据集训练,构建了丰富的先验知识,为后续众多任务奠定了基础。本文将对这四种经典的文生图模型进行概述,旨在帮助读者深入理解文生图扩散模型的原理,并进行横向比较。

Stable Diffusion(SD)

Stable Diffusion(SD)由Runway ML在2022年推出,是图像合成领域的创新之作,其全名Latent Diffusion Model(LDM)更直观地体现了其核心理念。SD解决了在图像空间中执行扩散过程导致的训练和采样效率低下的问题,利用大规模文本图像数据集预训练了条件扩散模型。其采样流程分为两个阶段:感知压缩阶段,将图像从图像空间映射到潜在空间;潜在扩散模型阶段,融入条件控制(如文本、图像、语义分割图等),在该阶段中,通过随机噪声去噪并恢复至潜在空间,最终得到采样图像。

SD的关键技术包括文本到图像、布局到图像、超分辨率、图像修复、类条件合成等,展现了其强大的功能。

Imagen

Imagen是一个由Google在2022年发布的文本到图像扩散模型,它结合了基于Transformer的语言模型(如T5)和扩散模型,以提高图像合成的高保真度和深层语义理解能力。Imagen由一个冻结的文本编码器和一系列扩散模块组成,包括一个基础扩散模型、两个超分辨率扩散模型和三个具有相同文本嵌入条件的扩散模型。与SD通过预训练自编码器使扩散过程保持在潜在空间不同,Imagen的扩散模块是逐步分辨率上升的。更多细节可参考其官方博客。

Imagen的关键技术包括Transformer、文本编码器与扩散模型的结合,以及逐步分辨率上升的扩散模块。

GLIDE

GLIDE是OpenAI在2022年提出的文本条件图像合成扩散模型,探索了两种指导策略:无分类器指导与分类器指导。无分类器指导在训练时以一定概率将文本条件置空,推理时引入指导尺度,而分类器指导则利用CLIP模型进行指导。GLIDE训练了一个35亿参数的文本条件基础扩散模型和一个15亿参数的文本条件上采样扩散模型,以支持高分辨率图像生成。其基础扩散模型采用了消融扩散模型架构,并通过文本信息增强,上采样扩散模型则通过调整文本编码器宽度和通道数进行优化。

GLIDE的关键技术包括基础扩散模型、上采样扩散模型、文本条件信息增强以及分类器指导策略。

DALL·E 2

DALL·E 2是OpenAI在2022年提出的文生图扩散模型,采用二阶段堆栈架构。其核心思想是通过反转CLIP图像编码器合成图像,称为unCLIP。在采样过程中,首先利用CLIP Image Encoder从文本生成CLIP image embeddings,然后在该条件下解码生成图像。DALL·E 2的关键技术包括两个阶段模型、扩散模型与无分类器指导、两个扩散上采样器以及文本条件信息的整合。

综上所述,这四种文生图扩散模型各具特色,从训练策略、指导方法到功能实现均有所不同,但共同推动了AIGC领域的技术进步,展现了AI在图像生成领域的巨大潜力。