麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)的研究人员最近对大型语言模型(LLMs)如GPT-4和Claude进行研究,揭示了这些模型的推理能力常常被高估。

电子工程专辑讯 据麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)的研究人员最近对大型语言模型(LLMs)如GPT-4和Claude进行研究,揭示了这些模型的推理能力常常被高估。

研究显示,当前流行的生成式人工智能(AI),如大型语言模型(LLMs),在处理任务时更多依赖于强大的记忆力,而非真正的推理能力。这些AI系统在熟悉的任务上表现出色,但在面对新挑战时,其表现则大打折扣。研究人员认为,这些AI系统更像是有超群记忆力的“鹦鹉”,而非具备真正推理能力的“智者”。一旦面对全新的挑战,需要真正的推理能力时,AI的优势便不再明显。因此,尽管这些AI在特定领域内可以达到甚至超越人类水平,但这更多的是一种“记忆力”的体现。

尽管像ChatGPT这样的LLMs,已经引起了广泛关注,但该项技术仍处于早期发展阶段,可能会在超出其舒适区时遇到问题。

CSAIL的研究人员发现,这些模型在熟悉任务上表现出色,但在虚拟场景中的表现却大幅下降,缺乏通用的算术能力。这些模型在面对音乐和棋类等任务时也表现不佳,无法适应变化的起始位置。研究人员指出,虽然这些发现有价值,但仍存在局限性,需要更多多样化的测试场景。

在心智理论任务中,由詹姆斯·W·A·斯特拉坎等人进行,并发表在《自然人类行为》杂志的一篇研究文章中,该研究比较两类LLMs(GPT和LLaMA2)与1907名人类参与者在一系列心智理论测试中的表现。据悉,这项研究由德国汉堡-埃彭多夫大学医学中心的研究团队及其合作者完成,他们反复测试了GPT和LLaMA2这两种大语言模型的心智理论能力,并将它们的表现与1907名人类参与者进行了对比。具体来说,这些测试包括识别错误信念、讽刺、失言、暗示和含有误导信息的奇怪故事等五项任务。该项研究发现,GPT-4在五种主要类型的任务中表现最佳,尤其是在识别间接要求、错误想法和误导方面,其表现可以达到甚至超越人类的平均水平。然而,LLaMA2的表现则相对逊色,在某些类型的题目上不如其他类型的LLMs或人类,但在一些其他类型的题目上却表现得更好。

研究还指出,尽管LLaMA2在某些特定任务上优于人类,例如在识别失礼行为方面,但总体而言,其表现仍不及人类。这表明,虽然这些大语言模型在某些心智理论任务上能够与人类相媲美或超越人类,但它们在复杂认知任务上的表现仍有待提高。

MIT CSAIL的研究团队计划在未来的工作中重点提高LLMs的可解释性和识别当前模型的失败模式。这对于推动人工智能技术的发展具有重要意义。该研究旨在为未来设计更具鲁棒性的LLMs提供信息,并拓宽其应用范围。

大型语言模型的内存消耗也是一个主要瓶颈,尤其是在部署时需要存储大量的键值对缓存(KV),以避免重新计算。KV cache,即键值对缓存(Key-Value Cache),是一种存储结构,用于快速访问数据。在计算机科学中,键值对是一种数据结构,其中每个键(Key)映射到一个值(Value)。 缓存是一种临时存储数据的方法,以便快速访问,减少对原始数据源的访问次数,提高系统性能。

这些KV缓存用于存储每个变换层在生成过程中的键和值,从而显著增加了GPU内存的使用量。尽管有研究提出了多种优化方法来减少内存消耗,如压缩KV缓存、动态KV缓存淘汰策略等,但这些都表明了记忆力在LLM中的重要性。

进一步的量化分析也显示,LLM能够准确地建模训练数据的统计特征,并且会记住大量训练数据,这与模型大小呈对数线性关系。这种记忆能力使得模型能够在特定任务上表现出色,但也限制了它们在新情境下的表现。

虽然大语言模型具备一定的推理能力,但它们在很大程度上仍然依赖于记忆力来完成任务。这种依赖性使得它们在处理熟悉任务时表现优异,但在面对未知情况时则显得力不从心。

责编:Amy.wu
您可能感兴趣
美国半导体巨头微芯科技(Microchip Technology)宣布了一项重大重组计划,将裁减约2000人,约占员工总数的9%,以应对汽车芯片需求持续低迷的挑战......
马来西亚政府也希望与Arm的交易将使国内生产商扩大规模,创建十家本地芯片公司,年收入总额达约200亿美元,将助GDP增加一个百分点。
2024 年,中国人工智能专业在校生约 4 万多人,而整个领域的人才缺口却高达 500 万……
从品牌战略的角度来看,华为本次选择古代神话中的人物作为商标,可能是为了借助这些神话角色的知名度和文化内涵,打造具有中国特色的品牌形象……
全球前十大高产机构中,9家为中国机构(如中国科学院、清华大学等)。其中,中国科学院以 2018-2023 年期间发布的 14,387 篇文章位居榜首。
这一新指导政策不仅反映了中国在芯片产业中减少对外依赖的战略意图,也体现了RISC-V架构在中国芯片产业中的重要地位和发展潜力。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
插播:历时数月深度调研,9大系统性章节、超百组核心数据,行家说储能联合天合光能参编,发布工商业储能产业首份调研级报告,为行业提供从战略决策到产品方向、项目资源的全维参考!点击下方“阅读原文”订阅又一地
‍‍据“龙岩发布”3月5日消息,蓝天LED显示屏产业链生产项目一期装修已完成50%,预计3月底可完工,4月初试投产。加入LED显示行业群,请加VX:hangjia188图源:龙岩发布据介绍,蓝天LED
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----图1 采用自上而下方法实
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----编者荐语特征提取是计算机
回顾2024年,碳化硅和氮化镓行业在多个领域取得了显著进步,并经历了重要的变化。展望2025年,行业也将面临新的机遇和挑战。为了更好地解读产业格局,探索未来的前进方向,行家说三代半与行家极光奖联合策划
市值一夜蒸发2900亿”作者|王磊编辑|秦章勇特斯拉陷入一个怪圈。马斯克的权力越来越大,但特斯拉的股价却跌得越来越惨。就在昨天,特斯拉股价又下跌了4.43%,一天之内蒸发406亿美元,约合人民币295
点击文末“阅读原文”链接即可报名参会!往期精选《2024年度中国移动机器人产业发展研究报告》即将发布!2024年,36家移动机器人企业融了超60亿元2024移动机器人市场:新玩家批量入场,搅局还是破局
‍‍近几年,随着Mini/Micro LED技术的高速发展,LED产业呈现几大发展趋势,如LED显示间距持续缩小、LED芯片持续微缩化、产品、工艺制造环节更为集成,以及RGB 封装与COB 降本需求迫
高通又放大招了!3月3日,也就是MWC世界移动通信大会的第一天,高通正式宣布,推出自家的最新5G调制解调器及射频解决方案——高通X85。高通X85对于高通X85的发布,行业早有关注。因为高通的手机So
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来---- 来源:时光沉淀申明:感