达摩院和港理工开源像素感知稳定扩散:一个模型真实图像超分辨率和个性化风格化

如题所述

达摩院与港理工联手打造创新:像素感知稳定扩散模型

科研团队携手推出了一个革命性的模型——“像素感知稳定扩散(PASD)”,旨在突破真实图像超分辨率(Real-ISR)的瓶颈,并实现个性化风格化的无缝转换。传统对抗性训练方法在还原自然场景图像的细节时,往往陷入视觉伪影的困扰,而稳定扩散模型的出现为解决这个问题提供了新的可能。然而,目前的方法要么牺牲图像结构的忠实性,要么依赖额外的结构保留技术,限制了其在潜在空间的扩展性,特别是在图像风格化等任务中。


PASD的创新之处在于它引入了像素感知交叉注意模块,这一模块使得扩散模型能够深入感知图像的局部结构,同时配备降解去除模块,以提取对图像退化不敏感的关键特征,引导扩散过程进行得更加精准。通过简单地替换基础模型,PASD能生成多样化的艺术化图像,无需依赖对齐训练数据,为风格化任务提供了全新的解决方案。PASD的兼容性强大,不仅适用于stable diffusion,还可与其他模型如DALLE2和Imagen无缝协作。


该方法巧妙地融合了生成扩散先验与预训练的SD模型,构建了包括去除退化、高级信息提取和像素感知交叉注意在内的核心模块,为图像处理带来前所未有的精度。原本专为超分辨率设计的PASD,通过基础模型的切换,轻松扩展至个性化风格化,显示出其广泛的适用性。


实验结果令人瞩目:在Real-ISR领域,尽管PSNR/SSIM指标上PASD相较于GAN方法略逊一筹,但在感知质量,如MUSIQ得分上,PASD展现出无可匹敌的优势。通过视觉对比和用户研究,PASD在真实细节生成上展现出压倒性的优势,如图3所示。


在个性化风格化任务中,PASD的表现更是抢眼,尤其是在保留复杂细节如头发时,其优越性一目了然。令人惊叹的是,只需简单替换,PASD就能输出丰富多样的风格化图像,无需额外训练,用户反馈普遍倾向于PASD的生成效果。


从学术角度来看,PASD模型代表了一种通用的控制手段,为降噪和个性化提供了新的探索路径,未来有无限可能等待挖掘。在商业领域,超分辨率和个性化技术在数字媒体和广告行业中具有巨大的潜力,为提升用户体验和商业价值开辟了新的途径。


这是一项由日本早稻田大学计算机系博士生王军杰携手达摩院和港理工共同推进的科研成果,标志着他们在图像处理领域的又一里程碑式突破。

温馨提示:答案为网友推荐,仅供参考
相似回答