技术提高了大型语言模型的推理能力 OpenAI将ChatGPT的语音模式推出推迟至7月 OpenAI将ChatGPT的语音模式推出推迟至7月 神经技术引入自然语言处理技术用于创建虚拟助手和聊天机器人 人机协作实现网络安全 新型AI系统可检测罕见癫痫发作 无人机竞赛为神经网络人工智能进入太空做好准备 玻璃回收的自动化机器人杂质抓取系统 尖端技术可即时检测水中的纳米塑料 自动化人工智能视觉检测制造业的未来 大姨妈饮食要注意什么(大姨妈期间饮食方面应该注意什么) 你有轻微脑震荡吗新人工智能或可帮助诊断 孕妇缺铁性贫血吃什么好得快呢(孕妇缺铁性贫血吃什么好得快) 盐酸帕罗西汀片的作用和副作用用量(盐酸帕罗西汀片的作用和副作用) 为什么鼻子里面会痛痒(为什么鼻子里面会痛) 嘴角周围长痘怎么消除小妙招(嘴角周围长痘怎么消除) 脖子左边有根筋很疼(脖子左侧有根筋疼是癌症吗) 老人临终呼吸表现是什么(老人临终呼吸表现) 减肥晚上吃香蕉会胖吗(减肥的人能吃香蕉吗) 甲状腺肿瘤穿刺需要麻醉吗(甲状腺瘤穿刺疼吗) 7个月的宝宝发育标准是多少呢(7个月的宝宝发育标准是多少) 头两边胀是怎么回事(头两边胀痛怎么回事) 院内感染是指什么意思(院内感染是指什么) 花椒泡着喝对身体有什么好处(泡花椒水喝有什么功效) 腰椎间盘突出按摩治疗效果好吗(腰椎间盘突出怎么按摩治疗) 怎样锻炼肺活量最好(怎样锻炼肺活量) 三七粉怎么服用好早上服用还是晚上服好(三七粉怎么服用好) 为什么经常出鼻血的原因(出鼻血的原因) 糖尿病尿少是什么原因(尿少是什么原因) 感冒早上起来吐痰有血是怎么回事(早上起来吐痰有血是怎么回事) 隐睾手术后能生育?手术有风险吗?(隐睾手术能生育吗) 骨髓异常增生死前症状(骨髓异常增生是血癌吗) 没有激素治疗湿疹的药膏(没有激素的湿疹膏有哪些) 肠胃镜检查怎么做视频(肠胃镜检查怎么做) 排卵针多少钱一针(排卵针打在什么部位) 扁桃体割除手术后多久能吃饭(扁桃体切割手术后多久可以正常吃饭) 月经期怎么减肥最有效方法(月经期怎么减肥最有效) 软组织损伤用什么药膏(软组织伤了用什么药) 如何运动瘦肚子和屁股?(如何运动瘦肚子) 怀孕一周的反应和症状(怀孕一周的反应) 新生儿几个月会笑会抬头(新生儿几个月会笑) 月经来了肚子痛怎么办才能不痛了(月经来了肚子痛怎么办) 阴屁是什么原因引起的(阴道为什么会放屁) 荨麻疹能不能吹风(荨麻疹不能吹风吗) 左脚外侧疼是怎么回事 一用力就疼(左脚外侧疼是怎么回事) 嘴唇磕破了个口子怎么办(嘴唇磕破口子怎么快速愈合) 乙肝两对半五项全部是阴性说明什么(乙肝两对半五项全是阴性是什么意思) 男人肋骨有多少根(肋骨有多少根) 来月经头疼怎么缓解最快方法吃什么药(来月经头疼怎么缓解) 成年身上有多少骨骼肌肉(成年身上有多少骨骼)
您的位置:首页 >资讯 >

技术提高了大型语言模型的推理能力

导读 像ChatGPT所支持的大型语言模型在起草法律摘要、分析客户评论的情绪或将文档翻译成不同语言等任务上表现出色。这些机器学习模型通常仅使用...

像ChatGPT所支持的大型语言模型在起草法律摘要、分析客户评论的情绪或将文档翻译成不同语言等任务上表现出色。

这些机器学习模型通常仅使用自然语言处理信息和回答查询,这使得它们难以执行需要数字或符号推理的任务。

例如,大型语言模型可能能够记住并背诵美国历任总统及其生日的列表,但如果问“1950年后当选的哪些美国总统出生在星期三?”,该模型可能会失败(答案是吉米·卡特。)

麻省理工学院等机构的研究人员提出了一项新技术,使大型语言模型能够通过生成程序来解决自然语言、数学和数据分析以及符号推理任务。

他们的方法称为自然语言嵌入式程序(NLEP),涉及提示语言模型创建和执行Python程序来解决用户的查询,然后将解决方案输出为自然语言。

他们发现,NLEP使大型语言模型能够在各种推理任务上实现更高的准确率。这种方法也是可推广的,这意味着一个NLEP提示可以重复用于多个任务。

NLEP还提高了透明度,因为用户可以检查程序以准确了解模型如何推理查询,如果模型给出了错误的答案,则可以修复程序。

“我们希望人工智能能够以透明和值得信赖的方式进行复杂的推理。虽然还有很长的路要走,但我们已经证明,在大型语言模型中结合编程和自然语言的能力,是迈向未来人们能够完全理解和信任人工智能模型内部发生的事情的一个非常好的潜在第一步,”麻省理工学院博士后、NLEP论文的共同主要作者HongyinLuo博士(2022年)表示。

与罗一起参与撰写这篇论文的还有香港中文大学研究生张天华、北京大学本科生葛佳欣、麻省理工学院电子工程与计算机科学系助理教授、计算机科学与人工智能实验室(CSAIL)成员YoonKim、CSAIL高级研究员兼口语系统小组负责人JamesGlass等。这项研究将在计算语言学协会北美分会的年度会议上发表。

使用程序解决问题

许多流行的大型语言模型的工作原理是,根据一些自然语言输入预测下一个单词或标记。虽然GPT-4等模型可用于编写程序,但它们将这些程序嵌入自然语言中,这可能会导致程序推理或结果出现错误。

麻省理工学院的研究人员在NLEP中采用了相反的方法。他们让模型完全用Python代码生成分步程序,然后在程序中嵌入必要的自然语言。

NLEP是一个包含四个步骤的问题解决模板。首先,模型调用解决任务所需的必要包或函数。第二步涉及导入任务所需知识的自然语言表示(例如美国总统生日列表)。对于第三步,模型实现一个计算答案的函数。最后一步,模型将结果输出为一行自然语言,并根据需要自动进行数据可视化。

“它就像一个数字计算器,只要程序正确,它就总能给出正确的计算结果,”罗说。

用户可以轻松调查程序并直接修复代码中的任何错误,而不需要重新运行整个模型来排除故障。

这种方法也比其他一些方法效率更高。如果用户有许多类似的问题,他们可以生成一个核心程序,然后替换某些变量,而不需要重复运行模型。

为了促使模型生成NLEP,研究人员给了它一个编写Python程序的总体指令,提供了两个NLEP示例(一个是数学,一个是自然语言)和一个测试问题。

“通常,当人们进行这种小样本提示时,他们仍然需要为每项任务设计提示。我们发现,我们可以为许多任务设置一个提示,因为它不是教法学硕士解决一个问题的提示,而是教法学硕士通过编写程序解决许多问题的提示,”罗说。

麻省理工学院-IBM沃森人工智能实验室首席科学家LeonidKarlinsky表示:“使用语言模型对代码进行推理,为工具使用、输出验证、对模型功能和思维方式的更有条理的理解等提供了许多机会。”

“这里没有魔法”

在提示GPT-4解决一系列符号推理任务(例如跟踪打乱的物体或玩24点游戏)以及指令跟踪和文本分类任务时,NLEP的准确率超过90%。研究人员发现,NLEP的准确率甚至比特定任务的提示方法高出30%。该方法还显示出比开源LLM更好的性能。

除了提高大型语言模型的准确性之外,NLEP还可以改善数据隐私。由于NLEP程序在本地运行,因此敏感的用户数据无需发送到OpenAI或Google等公司进行模型处理。

此外,NLEP可以使小型语言模型表现得更好,而无需为某项任务重新训练模型,这可能是一个昂贵的过程。

“这里没有什么魔法。我们没有更昂贵或更花哨的语言模型。我们所做的就是使用程序生成而不是自然语言生成,我们可以让它的表现更好,”罗说。

然而,NLEP依赖于模型的程序生成能力,因此该技术对于在有限数据集上训练的较小模型效果不佳。未来,研究人员计划研究使较小语言模型生成更有效的NLEP的方法。此外,他们还希望研究提示变化对NLEP的影响,以增强模型推理过程的稳健性。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!