在我们当前的人工智能时代,计算机可以通过扩散模型生成自己的“艺术”,迭代地向嘈杂的初始状态添加结构,直到出现清晰的图像或视频。
扩散模型突然在每个人的餐桌上占据了一席之地:输入几个词,在现实与幻想的交汇处体验瞬间的、令人多巴胺飙升的梦境。在幕后,它涉及一个复杂、耗时的过程,需要算法进行多次迭代才能完善图像。
麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员推出了一种新框架,将传统扩散模型的多步骤过程简化为单个步骤,解决了以前的局限性。这是通过一种师生模型来完成的:教授一个新的计算机模型来模仿生成图像的更复杂的原始模型的行为。
该方法称为分布匹配蒸馏 (DMD),可以保留生成图像的质量并允许更快的生成速度。
麻省理工学院博士 Tianwei Yin 表示:“我们的工作是一种新颖的方法,可以将稳定扩散和 DALLE-3 等现有扩散模型加速 30 倍。”电气工程和计算机科学专业的学生、CSAIL 附属机构和 DMD 框架的首席研究员。
“这一进步不仅显着减少了计算时间,而且保留了(如果不是超越的话)生成的视觉内容的质量。理论上,该方法将生成对抗网络(GAN)的原理与扩散模型的原理结合起来,实现了视觉内容的生成“一步——与当前扩散模型所需的数百步迭代细化形成鲜明对比。它可能是一种在速度和质量方面都表现出色的新生成建模方法。”
这种单步扩散模型可以增强设计工具,实现更快的内容创建,并有可能支持药物发现和 3D 建模的进步,其中及时性和有效性是关键。
分销梦想
DMD 巧妙地具有两个组件。首先,它使用回归损失,锚定映射以确保图像空间的粗略组织,从而使训练更加稳定。
接下来,它使用分布匹配损失,确保使用学生模型生成给定图像的概率与其真实世界的出现频率相对应。为此,它利用两个扩散模型作为指导,帮助系统了解真实图像和生成图像之间的差异,并使训练快速的一步生成器成为可能。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!