石川市-人类有能力识别他人的情绪,但机器人却无法做到这一点。尽管机器人和虚拟代理完全具备通过语音与人进行通信的能力,但它们仅擅长处理逻辑指令,这极大地限制了人机交互(HRI)。因此,HRI的大量研究都是关于语音情感识别的。但是首先,我们如何描述情绪?
幸福,悲伤和愤怒之类的分类情感已为我们所很好地理解,但机器人很难记录这些情感。研究人员专注于“维数情感”,它构成了自然语言中的渐进式情感过渡。“持续的多维情感可以帮助机器人捕捉说话者情感状态的时间动态,并相应地实时调整其互动和内容的方式,”科学技术高等研究院(JAIST)的Masashi Unoki教授解释说。关于语音识别和处理。
研究表明,模拟人耳工作的听觉感知模型可以生成所谓的“时间调制提示”,它可以忠实地捕捉维度情感的时间动态。然后可以使用神经网络从这些线索中提取反映该时间动态的特征。然而,由于听觉感知模型的复杂性和多样性,特征提取部分变得非常具有挑战性。
在神经网络上发表的一项新研究中,Unoki教授和他的同事,包括来自天津大学的彭志超(主持研究),来自彭城实验室的党建武和来自JAIST的Masato Akagi教授,现在从认知神经科学的最新发现中获得的灵感表明,我们的大脑通过对频谱-时间调制的组合分析,形成了具有不同频谱(即频率)和时间分辨率的自然声音的多种表示形式。因此,他们提出了一种新颖的功能,称为多分辨率调制滤波耳蜗图(MMCG),它以不同的分辨率组合了四个经过调制滤波的耳蜗图(输入声音的时频表示),以获得时间和上下文调制提示。为了说明耳蜗图的多样性,研究人员设计了一种称为“长短期记忆”(LSTM)的并行神经网络体系结构,该模型对耳蜗图的多分辨率信号的时间变化进行了建模,并对两个耳蜗的两个数据集进行了广泛的实验。自发的讲话。
标签: 神经科学
免责声明:本文由用户上传,如有侵权请联系删除!