当人类看一个场景时,他们会看到物体以及它们之间的关系。在您的办公桌上,可能有一台笔记本电脑放在电话的左侧,在电脑显示器的前面。
许多深度学习模型很难以这种方式看待世界,因为它们不了解单个对象之间的纠缠关系。如果不了解这些关系,设计用来帮助厨房里的人的机器人将难以遵循“拿起炉子左侧的抹刀并将其放在砧板上”这样的命令。
为了解决这个问题,麻省理工学院的研究人员开发了一种模型,可以理解场景中对象之间的潜在关系。他们的模型一次表示一种个体关系,然后结合这些表示来描述整个场景。这使模型能够从文本描述中生成更准确的图像,即使场景包含多个以不同关系排列的对象也是如此。
这项工作可应用于工业机器人必须执行复杂的多步骤操作任务的情况,例如在仓库中堆放物品或组装电器。它还使该领域更接近于使机器能够像人类一样从环境中学习并与之交互。
“当我看着一张桌子时,我不能说 XYZ 位置有一个物体。我们的头脑不是那样工作的。在我们的脑海中,当我们理解一个场景时,我们是基于对象之间的关系来真正理解它的。我们认为,通过构建一个可以理解物体之间关系的系统,我们可以使用该系统更有效地操纵和改变我们的环境,”计算机科学与人工智能实验室 (CSAIL) 博士生和合作伙伴 Yilun Du 说。 - 论文的主要作者。
杜与共同主要作者李双(CSAIL 博士生)和伊利诺伊大学厄巴纳-香槟分校的研究生刘楠共同撰写了这篇论文;以及 Joshua B. Tenenbaum,脑与认知科学系的 Paul E. Newton 认知科学与计算职业发展教授,CSAIL 成员;资深作者 Antonio Torralba,Delta Electronics 电气工程和计算机科学教授,CSAIL 成员。该研究将在 12 月的神经信息处理系统会议上发表。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!