研究人员开发指标来量化动物对奖励反馈的反应信息

2021-11-17 15:24:56 来源：用户：

日常生活充满了选择。几十年来，研究人员一直着迷于人类和其他动物如何决定在相互竞争的优先事项之间分配时间和精力。心理学家发现，大多数动物会根据从选项中获得的奖励来分配时间，并根据奖励反馈相应地调整它们的行为，这是一种称为“匹配”的行为法则。达特茅斯领导的研究团队开发了衡量奖励反馈响应信息内容的指标，并使用这些指标来预测匹配行为。结果发表在《自然通讯》上。

“匹配是我们如何在可用选项之间进行选择的基础，”共同第一作者 Ethan Trepka '22 说，他是达特茅斯计算和认知神经科学实验室的学生。“它控制着我们在杂货店选择哪条收银台，或者我们在不同的学校或工作项目上花费多少时间。一个人选择在给定选项上花费多少时间取决于相对于其他选项从该选项中获得奖励的频率。”

达特茅斯的一个团队与其他研究人员合作，重新分析了分别在约翰霍普金斯大学和美国国立卫生研究院收集的小鼠和猴子的行为数据。在实验中，老鼠和猴子在两个选项或行动之间做出选择，并根据他们的选择获得奖励——老鼠的水和猴子的苹果汁。具有更高奖励概率的选项可能会改变，因此动物在做出选择时必须跟踪之前的奖励。结果表明，小鼠和猴子都表现出不匹配，一般倾向于选择比匹配法规定的更少的更好的选项。

为了预测这种与匹配法则的偏差，研究人员开发了一套新的指标，用于衡量动物根据奖励结果继续或从当前选项转换的趋势中的“惊喜”或不一致。这些指标基于“信息论”中的“熵”概念，这是一种数学框架，可用于量化系统中的不确定性或意外的数量。先前关于选择行为的研究通常依赖于计算模型，这些模型需要对从每个奖励反馈中学到的东西做出假设，但新的指标不需要这样的假设。这些指标还提供了一种量化自适应行为的新方法，可用于改进以前的学习和决策计算模型。

“当我们面临不同的选择时，我们会使用之前选择的结果来做出未来的决定，这应该让我们在大多数情况下选择更好(更有价值)的选择，”资深作者Alireza Soltani说。，心理和脑科学副教授，达特茅斯计算和认知神经科学实验室的首席研究员。“然而，我们并没有像我们应该的那样经常选择更好的选择，最终结果不匹配。虽然选择劣质选项可以在不断变化的环境中发现新的机会，但当对劣质选项的奖励反馈被忽视并且反应不一致时，匹配不足会显着增加。由于匹配不足通常会减少可以获得的总奖励，因此被认为是不可取的。”

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！