麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)的研究人员最近对大型语言模型(LLMs)如GPT-4和Claude进行研究,揭示了这些模型的推理能力常常被高估。

电子工程专辑讯 据麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)的研究人员最近对大型语言模型(LLMs)如GPT-4和Claude进行研究,揭示了这些模型的推理能力常常被高估。

研究显示,当前流行的生成式人工智能(AI),如大型语言模型(LLMs),在处理任务时更多依赖于强大的记忆力,而非真正的推理能力。这些AI系统在熟悉的任务上表现出色,但在面对新挑战时,其表现则大打折扣。研究人员认为,这些AI系统更像是有超群记忆力的“鹦鹉”,而非具备真正推理能力的“智者”。一旦面对全新的挑战,需要真正的推理能力时,AI的优势便不再明显。因此,尽管这些AI在特定领域内可以达到甚至超越人类水平,但这更多的是一种“记忆力”的体现。

尽管像ChatGPT这样的LLMs,已经引起了广泛关注,但该项技术仍处于早期发展阶段,可能会在超出其舒适区时遇到问题。

CSAIL的研究人员发现,这些模型在熟悉任务上表现出色,但在虚拟场景中的表现却大幅下降,缺乏通用的算术能力。这些模型在面对音乐和棋类等任务时也表现不佳,无法适应变化的起始位置。研究人员指出,虽然这些发现有价值,但仍存在局限性,需要更多多样化的测试场景。

在心智理论任务中,由詹姆斯·W·A·斯特拉坎等人进行,并发表在《自然人类行为》杂志的一篇研究文章中,该研究比较两类LLMs(GPT和LLaMA2)与1907名人类参与者在一系列心智理论测试中的表现。据悉,这项研究由德国汉堡-埃彭多夫大学医学中心的研究团队及其合作者完成,他们反复测试了GPT和LLaMA2这两种大语言模型的心智理论能力,并将它们的表现与1907名人类参与者进行了对比。具体来说,这些测试包括识别错误信念、讽刺、失言、暗示和含有误导信息的奇怪故事等五项任务。该项研究发现,GPT-4在五种主要类型的任务中表现最佳,尤其是在识别间接要求、错误想法和误导方面,其表现可以达到甚至超越人类的平均水平。然而,LLaMA2的表现则相对逊色,在某些类型的题目上不如其他类型的LLMs或人类,但在一些其他类型的题目上却表现得更好。

研究还指出,尽管LLaMA2在某些特定任务上优于人类,例如在识别失礼行为方面,但总体而言,其表现仍不及人类。这表明,虽然这些大语言模型在某些心智理论任务上能够与人类相媲美或超越人类,但它们在复杂认知任务上的表现仍有待提高。

MIT CSAIL的研究团队计划在未来的工作中重点提高LLMs的可解释性和识别当前模型的失败模式。这对于推动人工智能技术的发展具有重要意义。该研究旨在为未来设计更具鲁棒性的LLMs提供信息,并拓宽其应用范围。

大型语言模型的内存消耗也是一个主要瓶颈,尤其是在部署时需要存储大量的键值对缓存(KV),以避免重新计算。KV cache,即键值对缓存(Key-Value Cache),是一种存储结构,用于快速访问数据。在计算机科学中,键值对是一种数据结构,其中每个键(Key)映射到一个值(Value)。 缓存是一种临时存储数据的方法,以便快速访问,减少对原始数据源的访问次数,提高系统性能。

这些KV缓存用于存储每个变换层在生成过程中的键和值,从而显著增加了GPU内存的使用量。尽管有研究提出了多种优化方法来减少内存消耗,如压缩KV缓存、动态KV缓存淘汰策略等,但这些都表明了记忆力在LLM中的重要性。

进一步的量化分析也显示,LLM能够准确地建模训练数据的统计特征,并且会记住大量训练数据,这与模型大小呈对数线性关系。这种记忆能力使得模型能够在特定任务上表现出色,但也限制了它们在新情境下的表现。

虽然大语言模型具备一定的推理能力,但它们在很大程度上仍然依赖于记忆力来完成任务。这种依赖性使得它们在处理熟悉任务时表现优异,但在面对未知情况时则显得力不从心。

责编:Amy.wu
阅读全文,请先
您可能感兴趣
新公司将包括本田、日产和三菱汽车,预计年销量将超过800万辆,成为世界第3大汽车制造集团。这将使新公司在全球汽车市场中占据重要地位,尤其是在与特斯拉和中国电动车品牌的竞争中。
新款开发板售价仅为249美元,而上一代40 TOPS开发板售价为499美元,价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”,特别适合商业AI开发者、爱好者和学生使用。
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
印度政府希望通过这一系列的方式,“推动”中国品牌更深入地“融入”印度市场,并“加强”与当地的经济合作,比如鼓励中国企业与本土电子制造商建立合作关系,共同在印度生产智能手机。而vivo印度公司此次与迪克森成立合资公司,就是在以上政府指引下无奈作出的选择。
通过机器学习技术,EDA工具可以获取更精确的模型来预测设计中存在的问题,如布线拥塞、信号干扰、热效应等,从而为用户提供更准确快速的指导,避免后期返工。
此次柔宇显示名下资产的拍卖页面自11月28日就已经上线,直至12月15日拍卖结束,在这长达半个多月的时间里,始终没有任何人报名参与竞拍。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
今日,长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办,长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言,厂房建设一般主要分为四个阶段:设备选型、设
来源:苏州工业园区12月17日,江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来,专注于半导体掩膜版的研发与生产,掌握130nm至28n
‍‍12月18日,深圳雷曼光电科技股份有限公司(下称“雷曼光电”)与成都辰显光电有限公司(下称“辰显光电”)在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势,共同推进Mi
2024年度PlayStation游戏奖今日公布,《宇宙机器人》获得年度最佳PS5游戏,《使命召唤:黑色行动6》获得年度最佳PS4游戏。在这次评选中,《宇宙机器人》获得多个奖项,包括最佳艺术指导奖、最
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
阿里资产显示,随着深圳柔宇显示技术有限公司(下称:“柔宇显示”)旗下资产一拍以流拍告终,二拍将于12月24日开拍,起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产,其中不
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
今天上午,联发科宣布新一代天玑芯片即将震撼登场,新品会在12月23日15点正式发布。据悉,这场发布会联发科将推出全新的天玑8400处理器,这颗芯片基于台积电4nm制程打造,采用Arm Cortex A