麻省理工学院计算机科学与人工智能实验室 (CSAIL) 和谷歌研究中心的研究人员可能刚刚进行了数字魔法——以扩散模型的形式,可以改变图像中物体的材质属性。
该系统名为 Alchemist,允许用户改变真实图片和 AI 生成图片的四个属性:粗糙度、金属度、反照率(物体的初始基色)和透明度。作为图像到图像的扩散模型,可以输入任何照片,然后在 -1 到 1 的连续范围内调整每个属性以创建新的视觉效果。这些照片编辑功能可能会扩展到改进视频游戏中的模型、扩展 AI 在视觉效果方面的能力以及丰富机器人训练数据。
Alchemist 背后的魔力始于一个去噪扩散模型:在实践中,研究人员使用了 Stable Diffusion 1.5,这是一个文本到图像的模型,因其逼真的效果和编辑功能而备受赞誉。之前的研究基于这个流行的模型,使用户能够进行更高级别的更改,例如交换对象或改变图像的深度。相比之下,CSAIL 和 Google Research 的方法应用此模型来关注低级属性,通过独特的基于滑块的界面修改物体材料属性的更精细的细节,其性能优于其他同类产品。
虽然之前的扩散系统可以为图像变出一只兔子,但 Alchemist 可以将同一只动物变成半透明的。该系统还可以使小黄鸭呈现出金属质感,去除金鱼的金色,并使旧鞋发亮。Photoshop 等程序具有类似的功能,但此模型可以更直接地更改材料属性。例如,在广泛使用的应用程序中,修改照片的金属外观需要几个步骤。
“当你看到自己制作的图像时,结果往往与你想象的并不完全一致,”麻省理工学院电气工程和计算机科学博士生、CSAIL 附属机构、一篇描述这项工作的新论文的主要作者 Prafull Sharma说道。“你想在编辑图片时控制它,但图像编辑器中现有的控件无法更改材质。借助 Alchemist,我们利用文本到图像模型输出的照片级真实感,并梳理出一个滑块控件,让我们可以在提供初始图片后修改特定属性。”
标签:
免责声明:本文由用户上传,如有侵权请联系删除!