麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)的研究人员最近对大型语言模型(LLMs)如GPT-4和Claude进行研究,揭示了这些模型的推理能力常常被高估。

电子工程专辑讯 据麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)的研究人员最近对大型语言模型(LLMs)如GPT-4和Claude进行研究,揭示了这些模型的推理能力常常被高估。

研究显示,当前流行的生成式人工智能(AI),如大型语言模型(LLMs),在处理任务时更多依赖于强大的记忆力,而非真正的推理能力。这些AI系统在熟悉的任务上表现出色,但在面对新挑战时,其表现则大打折扣。研究人员认为,这些AI系统更像是有超群记忆力的“鹦鹉”,而非具备真正推理能力的“智者”。一旦面对全新的挑战,需要真正的推理能力时,AI的优势便不再明显。因此,尽管这些AI在特定领域内可以达到甚至超越人类水平,但这更多的是一种“记忆力”的体现。

尽管像ChatGPT这样的LLMs,已经引起了广泛关注,但该项技术仍处于早期发展阶段,可能会在超出其舒适区时遇到问题。

CSAIL的研究人员发现,这些模型在熟悉任务上表现出色,但在虚拟场景中的表现却大幅下降,缺乏通用的算术能力。这些模型在面对音乐和棋类等任务时也表现不佳,无法适应变化的起始位置。研究人员指出,虽然这些发现有价值,但仍存在局限性,需要更多多样化的测试场景。

在心智理论任务中,由詹姆斯·W·A·斯特拉坎等人进行,并发表在《自然人类行为》杂志的一篇研究文章中,该研究比较两类LLMs(GPT和LLaMA2)与1907名人类参与者在一系列心智理论测试中的表现。据悉,这项研究由德国汉堡-埃彭多夫大学医学中心的研究团队及其合作者完成,他们反复测试了GPT和LLaMA2这两种大语言模型的心智理论能力,并将它们的表现与1907名人类参与者进行了对比。具体来说,这些测试包括识别错误信念、讽刺、失言、暗示和含有误导信息的奇怪故事等五项任务。该项研究发现,GPT-4在五种主要类型的任务中表现最佳,尤其是在识别间接要求、错误想法和误导方面,其表现可以达到甚至超越人类的平均水平。然而,LLaMA2的表现则相对逊色,在某些类型的题目上不如其他类型的LLMs或人类,但在一些其他类型的题目上却表现得更好。

研究还指出,尽管LLaMA2在某些特定任务上优于人类,例如在识别失礼行为方面,但总体而言,其表现仍不及人类。这表明,虽然这些大语言模型在某些心智理论任务上能够与人类相媲美或超越人类,但它们在复杂认知任务上的表现仍有待提高。

MIT CSAIL的研究团队计划在未来的工作中重点提高LLMs的可解释性和识别当前模型的失败模式。这对于推动人工智能技术的发展具有重要意义。该研究旨在为未来设计更具鲁棒性的LLMs提供信息,并拓宽其应用范围。

大型语言模型的内存消耗也是一个主要瓶颈,尤其是在部署时需要存储大量的键值对缓存(KV),以避免重新计算。KV cache,即键值对缓存(Key-Value Cache),是一种存储结构,用于快速访问数据。在计算机科学中,键值对是一种数据结构,其中每个键(Key)映射到一个值(Value)。 缓存是一种临时存储数据的方法,以便快速访问,减少对原始数据源的访问次数,提高系统性能。

这些KV缓存用于存储每个变换层在生成过程中的键和值,从而显著增加了GPU内存的使用量。尽管有研究提出了多种优化方法来减少内存消耗,如压缩KV缓存、动态KV缓存淘汰策略等,但这些都表明了记忆力在LLM中的重要性。

进一步的量化分析也显示,LLM能够准确地建模训练数据的统计特征,并且会记住大量训练数据,这与模型大小呈对数线性关系。这种记忆能力使得模型能够在特定任务上表现出色,但也限制了它们在新情境下的表现。

虽然大语言模型具备一定的推理能力,但它们在很大程度上仍然依赖于记忆力来完成任务。这种依赖性使得它们在处理熟悉任务时表现优异,但在面对未知情况时则显得力不从心。

责编:Amy.wu
阅读全文,请先
您可能感兴趣
“机器狼群”是一种高度智能化的无人作战系统,由多个不同功能的“机器狼”组成,每个“机器狼”在团队中扮演特定角色,形成高效的协同作战单元。
此次仲裁的核心争议在于,杨植麟和张宇韬在未取得循环智能投资方的同意豁免书之前,便启动了融资并创立了月之暗面。2024年3月,月之暗面旗下AI应用产品Kimi大火,甚至出现二级市场Kimi概念股。
有人评论:AlphaFold-3解决了长距离依赖问题,还能预测RNA等分子结构,甚至细胞内部生化过程,这简直就是生物信息学领域的一场革命。
该计划将通过补贴和其他财政援助的形式,在未来数年内支持芯片制造商,特别是下一代芯片的研发和量产。这一计划是日本政府综合经济方案的一部分,预计将在2024年11月22日由内阁批准。
根据台湾地区的技术保护法规,台积电被禁止在海外生产2纳米芯片,这意味着该公司必须将最尖端的技术保留在本土。
DF30芯片是业界首款基于自主开源RISC-V多核架构、采用国内40nm车规工艺开发的高端车规MCU芯片。该芯片实现了全流程国内闭环,功能安全等级达到了ASIL-D,并已通过295项严格测试。
为了更直观地了解FinFET到GAAFET架构世代的差异,本文利用高倍率的电子显微镜影像进行深入的探讨与分析,观察其于结构微观层面上的特征...
汽车技术领域正处于关键的转折点,其未来依托于动态且适应性强的系统,并可通过软件不断提升驾驶体验。
连接标准联盟很高兴宣布 Matter 1.4 现已正式发布,可供设备制造商和生态平台开发应用。这次更新是Matter生态系统迈出的重要一步。Matter 1.4带来了一系列增强功能......
根植雄厚研发实力及物联网领域的深耕实践,汇顶科技面向新兴车载互联应用全力进击。旗下首款高可靠性、高性能车规级低功耗蓝牙SoC——GR5405,已成功通过AEC-Q100 Grade 2认证。
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据路透社看到的草案,日本政府计划提出一个耗资 10 万亿日元的计划,在“数年”时间
全新产品几乎适用于任何应用,大幅减少元件数量、BOM成本和占板空间   瑞萨电子今日宣布,推出全新AnalogPAK™ IC系列,其中包括低功耗——SLG47001/
东芝电子今日宣布,最新开发出一款用于车载牵引逆变器[1]的裸片[2]1200 V碳化硅(SiC)MOSFET“X5M007E120”,其创新的结构可实现低导通电阻和高可靠性。X5M007E120现已开
今天,万众瞩目的德国慕尼黑电子展开始了。这次慕展很有可能会是史上规模最大的一次慕展!三星、博通、TI、ST、ADI、Infineon、NXP、ON、高通、Skyworks、TDK等众多芯片大厂,艾睿、
大联大控股宣布,其旗下诠鼎推出基于高通(Qualcomm)IPQ5322、QCN6422、QCN6432和QCA8386芯片的Wi-Fi 7家庭网关方案。   &nb
11月12日,百度创始人李彦宏在百度世界2024大会上表示,智能体是AI应用最主流的形态,即将迎来爆发点,这里是李彦宏演讲完整视频。●付费专栏文章小白自媒体赚钱,年入十万不是梦:专栏介绍 丨小白自媒体
11月12日,东风日产宣布成为首个与华为鸿蒙座舱全方位合作的合资品牌,双方将共创智能舒适的出行体验。                          近日,东风日产副总经理周锋在接受采访时分享了公司
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据台媒报道,继台积电宣布对中国大陆AI芯片企业暂停7nm及以下先进制程代工服务后,
近日,市场中有关“美国商务部要求台积电暂停对中国大陆AI芯片企业供货7nm及以下芯片代工服务”的消息不断蔓延。台积电于11月8日表示:作为一家守法的公司,一向致力于遵循所有可适用的法令与法规,包括可适
EETOP讯,据中国台湾《经济日报》报道,美国出口管制措施进一步升级,不仅传闻台积电将因遵循规定而停止向中国大陆的非消费类AI芯片客户提供7纳米制程产品,三星也同样受到限制,无法承接相关订单。(参考阅