什么是哑口套和窗套(什么是哑口) WIN10电流麦解决方法(win10电脑电流麦怎么解决方法) 平时多吃什么食物补肾效果最好(平时多吃什么食物补肾效果最好女性) 哈伦裤适合什么年龄穿(哈伦裤适合什么人穿) 魔兽世界前夕稀有精英位置一览 看完就知道了(魔兽世界9.0前夕稀有精英位置与掉落) 如何实现创业成功(如何实现创业成功发展) QQ空间如何添加大图模块(qq空间怎么添加图片模块) 梦幻西游挖矿赚钱(挖矿赚钱) 剖腹产的好处(剖腹产的好处有哪些) 如图已知ab为圆o的直径弦cd⊥ab垂足为h(如图 已知AB是圆O的直径 弦CD垂直AB 垂足为H) 深圳上下沙租房攻略(深圳下沙哪里租房便宜) 被2345和hao123主页篡改修复方法 2015(2345是怎样篡改主页的以及如何彻底删除) nba历史得分榜百度一下(nba历史得分榜百度百科) 如何防雾霾 什么口罩防雾霾效果好(什么口罩可以防霾) 制作手工的材料有哪些(制作手工的材料有哪些简单) 天使等级 北京商标注册流程图(北京商标注册流程图解析) Galaxy S4 发布 全面解析新旗舰 图(galaxy s4 上市时间) 土大黄根主要治什么病(土大黄与大黄的区别) vivo手机怎么定位(vivo手机怎么定位查找) dnf更新失败怎么办 安装文件写入失败怎么办(为什么dnf更新写入失败) 隔玻璃晒太阳能起作用(隔着玻璃晒太阳能补钙) steam国服怎么玩apex(steam国服怎么玩最终幻想14) 纳雍县是哪个市 蜂蜜可以放冰箱吗(蜂蜜可以放冰箱吗可以放多久) 电脑怎么连热点(联想电脑怎么连热点) 石器时代宠物攻略(石器时代宠物大全) 经济管理出版社地址(经济管理出版社) 芒果tv怎么看湖南卫视(芒果tv怎么看湖南卫视回放) iPhone13如何在微店购物?(iphone13直营店可以直接买到吗) 淘宝海外版叫什么(淘宝海外版) 幽门螺杆菌抗体(幽门螺杆菌抗体偏高是怎么回事) iOS7.1.1固件下载(ios7.0.4固件下载) 纸的来源视频(纸的来源) QQ农场怎么出售种子精华(QQ农场种子精华) 玉兔出宫怎么画(玉兔出宫怎么画简单) 光电信息科学与工程是干什么工作(光电信息科学与工程是干什么的) 卡通签名头像怎么制作(卡通签名头像怎么制作软件) 比赛规则有哪些(比赛规则) 黑夹子的小妙用(黑夹子的小妙用有哪些) dear sir or madam要大写吗(dear sir or madam) 保卫萝卜——天际2攻略(保卫萝卜天际2关攻略) XP输入法状态条不见了怎么办(xp输入法不显示) 语言能力描述范文100字(语言能力描述) 电脑显示器总是黑屏怎么办(电脑显示器总是黑屏怎么办恢复) 银屑病怎么治疗最好呢(治疗银屑病有什么好办法) 东非高原动物大迁徙(东非高原) 茶叶怎样利用微波进行了快速杀青处理(茶叶怎样利用微波进行了快速杀青处理工艺) Java:将数组排序并使用二分法判断数组元素(java对二维数组排序) 密不可分的英语短语(密不可分的英语)
您的位置:首页 >行业观察 >

研究人员开发指标来量化动物对奖励反馈的反应信息

导读 日常生活充满了选择。几十年来,研究人员一直着迷于人类和其他动物如何决定在相互竞争的优先事项之间分配时间和精力。心理学家发现,大多数

日常生活充满了选择。几十年来,研究人员一直着迷于人类和其他动物如何决定在相互竞争的优先事项之间分配时间和精力。心理学家发现,大多数动物会根据从选项中获得的奖励来分配时间,并根据奖励反馈相应地调整它们的行为,这是一种称为“匹配”的行为法则。达特茅斯领导的研究团队开发了衡量奖励反馈响应信息内容的指标,并使用这些指标来预测匹配行为。结果发表在《自然通讯》上。

“匹配是我们如何在可用选项之间进行选择的基础,”共同第一作者 Ethan Trepka '22 说,他是达特茅斯计算和认知神经科学实验室的学生。“它控制着我们在杂货店选择哪条收银台,或者我们在不同的学校或工作项目上花费多少时间。一个人选择在给定选项上花费多少时间取决于相对于其他选项从该选项中获得奖励的频率。”

达特茅斯的一个团队与其他研究人员合作,重新分析了分别在约翰霍普金斯大学和美国国立卫生研究院收集的小鼠和猴子的行为数据。在实验中,老鼠和猴子在两个选项或行动之间做出选择,并根据他们的选择获得奖励——老鼠的水和猴子的苹果汁。具有更高奖励概率的选项可能会改变,因此动物在做出选择时必须跟踪之前的奖励。结果表明,小鼠和猴子都表现出不匹配,一般倾向于选择比匹配法规定的更少的更好的选项。

为了预测这种与匹配法则的偏差,研究人员开发了一套新的指标,用于衡量动物根据奖励结果继续或从当前选项转换的趋势中的“惊喜”或不一致。这些指标基于“信息论”中的“熵”概念,这是一种数学框架,可用于量化系统中的不确定性或意外的数量。先前关于选择行为的研究通常依赖于计算模型,这些模型需要对从每个奖励反馈中学到的东西做出假设,但新的指标不需要这样的假设。这些指标还提供了一种量化自适应行为的新方法,可用于改进以前的学习和决策计算模型。

“当我们面临不同的选择时,我们会使用之前选择的结果来做出未来的决定,这应该让我们在大多数情况下选择更好(更有价值)的选择,”资深作者Alireza Soltani说。,心理和脑科学副教授,达特茅斯计算和认知神经科学实验室的首席研究员。“然而,我们并没有像我们应该的那样经常选择更好的选择,最终结果不匹配。虽然选择劣质选项可以在不断变化的环境中发现新的机会,但当对劣质选项的奖励反馈被忽视并且反应不一致时,匹配不足会显着增加。由于匹配不足通常会减少可以获得的总奖励,因此被认为是不可取的。”

标签:

免责声明:本文由用户上传,如有侵权请联系删除!