孩子们通过观察周围的环境、倾听周围的人以及他们所见所闻之间的联系来学习语言。此外,它有助于孩子建立他们语言的语序,如主语和动词在句子中的位置。
在计算中,学习语言是句法和语义分析器的任务。这些系统是在人类注释句子上训练的,这些句子描述了单词背后的结构和含义。解析器在网络搜索、自然语言数据库查询和语音识别系统如Alexa和Siri中变得越来越重要。很快,它们也可能被用于家庭机器人。但是对于不太常见的语言来说,收集注释数据既耗时又困难。另外,人类并不总是认同注释,注释本身也未必能准确反映人的自然说话方式。
在本周的自然语言处理经验方法会议上发表的一篇论文中,麻省理工学院的研究人员描述了一种解析器,它可以通过观察和学习更紧密地模仿儿童的语言习得过程,这可以大大扩展解析器的能力。为了学习语言的结构,解析器在没有其他信息的情况下观察标题视频,并将单词与记录的对象和动作相关联。给定一个新句子,解析器可以使用它已经学会的语言结构来准确预测句子的意思,而无需视频。
这种“弱监督”方法——这意味着它需要有限的训练数据——模仿了孩子们如何观察周围的世界,在没有任何人提供直接背景的情况下学习语言。据研究人员介绍,这种方法可以扩展数据类型,减少训练解析器的工作量。例如,一些直接注释的句子可以与许多更容易获得的字幕视频相结合,以提高性能。
将来,解析器可以用来改善人和机器人之间的自然交互。例如,配备解析器的机器人可以不断观察其环境,以增强其对口语命令的理解,包括当口语句子不完全符合语法或不清晰时。“人们用偏句、连续的思想和令人困惑的语言相互交谈。你希望家里有一个能适应他们特定说话方式的机器人.并且仍然能够发现它们的含义。”作者:Andre Babu,麻省理工学院麦戈文研究所计算机科学与人工智能实验室(CSAIL)和脑、脑与机械中心(CBMM)研究员。
解析器还可以帮助研究人员更好地理解儿童是如何学习语言的。合著者说:“孩子可以通过不同的方式获得多余的补充信息,包括听父母和兄弟姐妹谈论世界,以及触觉信息和视觉信息,[帮助他或她]了解世界。首席研究科学家、CSAIL信息实验室集团负责人鲍里斯卡茨。“这是一个惊人的问题,要处理所有这些同时发生的感官输入。这项工作是理解这种学习在世界上是如何发生的更大一部分。”本文共同作者为:第一作者Candace Ross,电气工程与计算机科学系和CSAIL研究生,CBMM研究员;Yevgeni Berzak' 17博士,脑与认知科学系计算心理语言学组博士后;以及CSAIL研究生Battushig Myanganbayar。
视觉学习者
在他们的工作中,研究人员将语义分析器与计算机视觉组件相结合,在视频中训练对象、人和活动。语义分析器通常是在用代码注释的句子上训练的,代码将每个单词的含义与单词之间的关系联系起来。有些人受过静态图像或计算机模拟方面的训练。罗斯说,新的解析器是第一个使用视频进行训练的解析器。在某种程度上,视频在减少歧义方面更有用。如果解析器不确定句子中的动作或对象,它可以参考视频来澄清事情。罗斯说:“有时间成分——物体之间以及物体与人之间的相互作用——也有静态图像或高级属性,这些都不能只用语言来看。
研究人员汇编了一个由大约400个视频组成的数据集,这些视频描述了人们的许多行为,包括拿起或放下物体,然后走向它们。众包平台机器人土耳其人的参与者随后为这些视频提供了1200个字幕。他们保留了840个视频标题的例子进行训练和调整,并用360个进行测试。Barbu说,使用基于视觉的解析的一个优势是“你不需要几乎相同数量的数据——尽管你有(数据),但你可以将其扩展到一个巨大的数据集”。
在训练中,研究人员为解析器提供了确定句子是否准确描述给定视频的目标。它们为解析器提供视频和匹配标题。解析器提取标题的可能含义作为逻辑数学表达式。比如“女人在摘苹果”这句话可以表达为:xy .这些表情和视频被输入到由巴布和其他研究人员开发的名为“情感跟踪器”的计算机视觉算法中。该算法查看每个视频帧,以跟踪对象和人如何随时间变化,从而确定动作是否如所描述的那样播放。这样就决定了视频的意思是否正确。
关系
物体、人和动作的最接近匹配表示的表达成为标题最可能的意思。最初,表达式可以引用视频中许多不同的对象和动作,但可能含义的集合被用作训练信号,这有助于解析器不断降低可能性。“通过假设所有的句子都必须遵循相同的规则,它们都来自相同的语言,你可以通过查看许多标题视频来进一步缩小它们的含义,”Barbu说。
p>简而言之,解析器通过被动观察来学习:为了确定视频的标题是否为真,解析器必然必须识别标题的最高概率含义。“判断视频句子是否属于视频的唯一方法是[经过]中间步骤,'句子是什么意思?'否则,你不知道如何连接两者,“巴布解释道。“我们不会给系统赋予句子的含义。我们说,'有一个句子和一个视频。句子必须适用于视频。找出一些中间表示,使视频成为现实。'”训练为学习单词产生句法和语义语法。给定一个新句子,解析器不再需要视频,而是利用其语法和词汇来确定句子结构和含义。最终,这个过程正在学习“好像你还是个孩子”,巴布说。“你看到周围的世界,听到人们说话以学习意义。有一天,我可以给你一个句子并询问它意味着什么,即使没有视觉,你也知道它的含义。”在未来的工作中,研究人员对建模相互作用感兴趣,而不仅仅是被动观察。“儿童在学习时会与环境互动。我们的想法是建立一个也会使用感知来学习的模型,”罗斯说。这项工作是支持的,一部分由CBMM,美国国家科学基金会,福特基金会研究生研究奖学金,丰田研究所和麻省理工学院,IBM脑启发多媒体理解项目。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!